您的位置:首页 人工智能

把AI从云“拽”向端,安谋科技Arm China的“周易”X3 NPU实力不一般

来源:Jimmy Zhang    2025-11-18
AIGC大模型能力提升10倍,8-80 FP8 TFLOPS,单Core带宽256GB/s,Prefill算力利用率达72%,Decode有效带宽利用率超100%。

深度学习吹响第三次AI浪潮的号角,从CNN到Transformer再到如今的大模型,AI的每次跃迁都在人类发展足迹中刻下烙印。

如今的大模型百花齐放,多模态、混合专家(MoE)推动AI走向通用人工智能,而下一次的跃迁,或许是将AI从云“拽”向端侧。

一方面是各种模型量化技术的成熟,另一方面是终端设备的各种异构集成计算架构的优化,释放了AI在端侧的能力和运行效率。

作为异构集成的算力一种——NPU,是平衡算力与功耗,保持量化模型后精度的核心算力硬件,凸显在端侧AI中的重要地位。

安谋科技近期召开了新品发布会,正式推出新一代NPU IP——“周易”X3,作为安谋科技“All in AI”产品战略下诞生的首款重磅产品,为应对端侧AI的升级需求,不光是性能上的一次全面升级,更是连携软件工具、开发套件等的生态层面的完整升级。

DSP+DSA架构,端侧AI计算效率新标杆

终端设备正承接AI赋能万物的概念,AI大模型的飞跃式发展,使得量化后的模型也具备了相当高的性能水平,哪怕在离线情况下,本地模型依旧能保持不错的交互体验。从多模态语音助手到实时图像生成,从智能座舱交互到辅助驾驶决策,端侧设备需要承载越来越复杂的AI计算任务。

然而端侧AI普遍面临几大问题:有限空间部署算力受限、能效要求高、带宽瓶颈大、开发门槛高等,如何平衡功耗和算力,利用有效的资源让模型能力得以释放,成为行业亟需突破的关键难题。

安谋科技选择从架构入手。

据安谋科技Arm China产品总监鲍敏祺介绍,“周易”X3基于专为大模型而生的DSP+DSA架构,从计算效率、带宽、精度适配、任务处理四大维度实现升级,解决端侧AI大模型运行难题。


安谋科技Arm China产品总监鲍敏祺

“周易”X3 NPU单Cluster最高支持4个Core,拥有8~80 FP8 TFLOPS算力且可灵活配置,单Core带宽高达256GB/s。

与以往量化模型中普遍使用的int整数格式不同,鲍敏祺特别提到,哪怕在端侧模型中,浮点计算也相较于定点计算有着优势,并且随着模型能力不断迭代,定点计算也将转向浮点计算,因此,在硬件层面也需要对浮点计算有着很好的支持,才能发挥出模型的能力。

相较于“周易”X2产品,“周易”X3的CNN模型性能提升30%~50%,多核算力线性度达到70%~80%。在同算力规格下,AIGC大模型能力较上一代产品实现10倍增长,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽、超过10倍的Softmax和LayerNorm性能提升共同驱动。

借助这些优化,端侧大模型推理将更高效。

鲍敏祺表示,在Llama2 7B大模型实测中,“周易”X3 NPU IP在Prefill阶段算力利用率高达72%,并在自研的解压硬件WDC的加持下,实现Decode阶段有效带宽利用率超100%,远超行业平均水平,满足大模型解码阶段的高吞吐需求。

此外,“周易”X3在架构层面实现了多项创新,集成以下关键特性:

集成自研解压硬件WDC:使大模型Weight软件无损压缩后通过硬件解压能获得额外15%~20%等效带宽提升。
新增端侧大模型运行必备的W4A8/W4A16计算加速模式:对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。
集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调度器:实现超低至0.5%的CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。
支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算,强浮点计算:可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。

软硬协同,优化大模型端到端性能

当前大模型多基于PyTorch、TensorFlow等主流框架开发,匹配的软件开发平台能实现NPU与这些框架的无缝对接。对开发者而言,无需重新编写底层代码,就能将大模型部署到NPU上。

具体到“周易”X3上,其搭载的Compass AI软件平台在发布初期就已支持超 160 种算子与270多种模型,广泛兼容TensorFlow、ONNX、PyTorch等主流AI框架,具备大模型动态Shape支持能力,并支持GPTQ等大模型主流量化方案、Hugging Face模型库,与LLM、VLM、VLA及MoE等模型。


安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士

安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士介绍称,Compass AI软件平台中的NN Compiler(神经网络编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)及AIPULLM(大模型运行工具),实现主流模型的高效转化、自动化优化与部署配置生成。

此外,Compass AI软件平台还提供多种开放接口,支持用户模型与自定义算子的开发与调试;配备丰富的调试工具与Bit精度软件仿真平台,支持多层次白盒开发与性能调优,极大简化算法移植与部署,并且支持Android、Linux、RTOS、QNX等多种操作系统,并通过TVM/ONNX实现SoC异构计算,高效调度CPU、GPU、NPU等计算资源。


“周易”NPU Compass AI软件平台

值得一提的是,Compass AI软件平台中的Parser、Optimizer、Linux Driver、TVM及内部IR格式等核心组件已相继开源,并拥有丰富的调试工具,且支持更易用的DSL算子编程语言。在此基础上,平台还赋予开发者更深度的定制能力:不仅可以使用平台中的Compiler、Debugger或DSL语言开发出自己的自定义算子,也可通过Parser、Optimizer等工具打造出属于自己的模型编译器,从而实现差异化设计与开发效率提升。

正因“周易”这一套软硬件的组合拳,新一代“周易”X3 NPU IP将端侧智能的边界拓展至更广阔的应用场景,面向基础设施、智能汽车、移动终端、智能物联网四大领域,匹配当前爆发的端侧AI需求,可广泛应用于加速卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI设备,无论是各类大模型的适配能力,还是满足实时性的算力需求,“周易”的NPU都能轻松胜任。

“All in AI”,安谋科技的AI蓝图

自陈锋上任安谋科技CEO后,便重点聚焦于人工智能。他曾表示,安谋科技将公司自研“周易”NPU、“山海”SPU、“星辰”CPU及“玲珑”多媒体系列等IP产品与Arm通用计算单元深度融合,全面支持多场景AI应用规模部署,同时整合软硬件工具链,联动Arm及模型、算法、方案与终端厂商,共同构建扎根中国的AI创新生态,推进端侧和边缘侧AI落地。

而在此次“周易”发布会的现场,安谋科技也正式宣布了“All in AI”的产品战略以及“AI arm China”的战略发展方向。


安谋科技Arm China产品研发副总裁刘浩

安谋科技Arm China产品研发副总裁刘浩表示:“在‘All in AI’产品战略的指引下,我们将持续加大投入,以前瞻性视野整合顶尖研发资源,秉持开放合作理念,为生态伙伴提供业界领先的从硬件、软件到服务的端到端解决方案,全力赋能伙伴的产品创新和商业化落地。”

舒浩博士介绍了安谋科技NPU架构未来演进的方向,包括计算架构、通用计算能力、计算扩展能力、更多数据格式、高效的软件使用界面以及更开放的生态与合作模式。


活动现场,安谋科技系统展示了“周易”NPU产品家族的技术演进与落地成果,从“周易”Z1的基础感知到“周易”X3的复杂认知,从AIoT场景到AI终端大模型场景,这一技术演进路径清晰地表明,端侧AI正在从单一的功能实现,迈向融合多种模型、适应动态场景的“全民普及”新阶段。

周易“X3”的推出,进一步完善了安谋科技NPU IP产品家族在端侧AI领域的布局,也标志着安谋科技Arm China“All in AI”产品战略的正式开启。随着端侧AI能力的迭代,以及各类终端设备的推陈出新,属于安谋科技的AI时代新篇章正式拉开帷幕。