您的位置:首页 人工智能

重塑端侧AI生态,Arm 全新 Lumex CSS 平台驱动消费电子设备“更智能”

来源:大半导体产业网    2025-09-15
Arm宣布推出全新 Lumex 计算子系统 (CSS) 平台,专为旗舰级智能手机及下一代个人电脑加速其人工智能体验。

当前行业的格局正在迅速演变。Arm及其生态系统在奠定计算基础方面所做的不懈努力,能够确保我们时刻把握行业当前新兴的机遇。基础人工智能算法正取得令人瞩目的进展,AI模型规模实现了爆发式的增长,从百万级参数迈向数十亿级乃至数万亿级,呈现出更高的复杂度和多模态特征,对内存带宽与计算能力的需求也达到至前所未有的高度。值得注意的是,挑战不仅来自模型本身,更源于应用规模的持续激增。人工智能的应用场景已渗透至各行各业,并将进一步重塑终端生态。

近日,Arm宣布推出全新 Lumex 计算子系统 (Compute Subsystem, CSS) 平台,这是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的先进计算平台。Arm Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU 及系统 IP,不仅能助力生态伙伴更快将 AI 设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。

“预计到 2030 年,SME 与 SME2 技术将为超过 30 亿台设备新增超 100 亿TOPS 的计算能力,为端侧 AI 性能带来指数级跃升。”Arm 高级副总裁兼终端事业部总经理 Chris Bergey 表示,“AI 已不再仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座。依托 Arm Lumex 平台,我们持续提升端侧 AI 体验,以满足用户日益增长的需求与期待。为此,我们正积极将 SME2 技术扩展至每一个 CPU 平台。”

集成SME2,非常适合移动设备端

Arm Lumex CSS 平台支持实时端侧 AI 用例,覆盖智能助手、语音翻译及个性化服务;依托搭载全新 SME2 技术的 Arm CPU,平台可实现高达五倍的 AI 性能提升。合作伙伴可灵活选择使用 Arm Lumex 的方式,为其打造系统级芯片 (SoCs)。例如,他们可直接采用 Arm 交付的平台,并借助为其需求定制的先进物理实现方案,从而获得缩短产品上市时间和快速兑现性能价值等双重优势;或者,合作伙伴也可根据他们的目标市场,对平台寄存器传输级 (RTL) 设计进行配置,并自行完成核心模块的硬化工作。

作为SME的新一代版本,SME2新增了更多指令集,可进一步提升性能和能效。并且,SME2支持2 bit 和 4 bit这样更小的数据类型。随着每年高度量化模型的不断增多,这类小数据类型在移动生态系统中的重要性正日益凸显。这也是此次Arm重点将 SME2 整合到 Lumex CSS 平台中的原因所在。

在vivo高级副总裁、首席技术官施玉坚看来,智能手机产业的每一次跃迁,都离不开 Arm 在微架构,与计算技术的持续突破。新一代 Arm Lumex 产品,更为 2025 年移动旗舰性能树立了全新基准。

只有深入到芯片底层,才能真正解决用户痛点需求。2024年vivo Arm联合实验室成立,vivo 成为首家与 Arm 成立联合实验室的终端品牌。作为Arm的技术合作伙伴,vivo不仅与芯片平台厂商协作,在手机中率先落地Arm先进计算技术,为消费者带来体验的新升级。

从2023 年,vivo就与Arm开始了 SME2 的场景研究和验证,分析测试各类 AI 任务,明确不同算法的最优硬件路径选择,真正实现软硬一体化的设计。目前,vivo计算加速平台 VCAP,已全面支持 SME2 指令集,对使用视觉、语音、文本 AI 算法进行处理的高负载任务,实现显著的性能加速。

借助 Arm 先进的软件工具与软件库,vivo与Arm共同开展基于核心场景的性能与功耗分析,对芯片架构、新功能特性进行评估和验证,这使得我们能够在 vivo 手机上,更淋漓尽致地释放芯片潜力,真正提升用户体验。而这些“用户导向”的战略合作成果与积累,最终都沉淀为 vivo 蓝科技中的——蓝晶芯片技术栈。

这次最新Arm C1 CPU 集群的一项关键特性,是新增对 SME2 的支持。SME2 是为高效执行端侧AI任务而生,就是给 CPU 配备了一个新的“矩阵加速器”,让复杂计算变得更快、更省电;同时,支持 SME2 的CPU,可与 GPU、NPU 等其他计算单元分工协作,实现更高效的端侧 AI 异构计算。以典型的端侧任务为例,启用 SME2 的硬件,在全局的离线翻译等真实场景中,可实现额外20%的性能收益。

助力智能手机、智能汽车等科技企业打造定制芯片

定制芯片确实是当前智能手机领域中备受关注的趋势之一。近来,苹果、三星、小米等智能手机厂商都已不同程度开始自研芯片方向的发展。事实上,定制芯片已经成为整个泛半导体行业的趋势,不仅仅是智能手机厂商希望自研芯片,数据中心和汽车厂商也都在寻求定制化芯片。Arm CSS 平台也正是顺应这一趋势而生。

在汽车领域,Arm持续加大对安全技术的投入,其中部分技术成果已应用于 Arm Zena CSS 平台,同时也被工业机器人领域广泛采用——这些场景对安全性的要求与汽车领域高度契合。

另一方面,机器人技术还存在另一发展维度,即面向消费级市场的应用——包括从扫地机器人到更高阶设备的全面布局。事实上,Arm在中国的部分合作伙伴曾提到,他们认为 Arm 在中国机器人市场的份额已超过 70%。

CPU 后端能力实现重大突破,支付宝利用 SME2 提升端侧 AI 能力

搭载 SME2 的 Arm C1 CPU 集群,为实际场景中的 AI 驱动型任务带来了显著的性能提升。其中,AI 性能提升高达五倍,语音类工作负载延迟降低 4.7 倍,音频生成速度提升 2.8 倍。全新 Arm C1 CPU 在 AI 计算能力上的飞跃,让实时的端侧 AI 推理成为现实,为用户在音频生成、计算机视觉及情境助手等多种交互场景中带来更流畅、更快速的体验。

SME2 技术的价值不仅在于速度的提升,更在于释放出传统 CPU 无法企及的 AI 驱动功能。

例如,在搭载 SME2 的单个核心上运行神经摄像头降噪功能,可以在 1080P 分辨率下实现帧率超 120 帧/秒 (fps),或在 4K 分辨率下实现帧率达 30fps。这使得智能手机用户即使身处光线最暗的场景,也能捕捉到更锐利、清晰的图像,进而在日常设备上获得更流畅的操作交互与更丰富的使用体验。

不同于受到延迟、成本及隐私问题等挑战的云优先 AI,Arm Lumex CSS平台将智能引入设备端,能够在本地实现更快、更安全且随时可用的智能体验。SME2 已经广受业界领先生态伙伴的采用,包括阿里巴巴、支付宝、三星 System LSI、腾讯及 vivo。

支付宝的端侧 AI 引擎 xNN 每日执行超过 100 亿次推理任务。如今,xNN 正在扩展对生成式模型与代理模型推理的支持。通过与 Arm 的合作,支付宝已将 KleidiAI 与 SME2 技术集成至 xNN,以实现更高效和低功耗的推理表现。作为一款在中国最频繁使用的超级应用程序,支付宝需适配多样化的智能手机设备。新硬件特性的引入,对提升端侧模型推理性能具有重要意义。在Arm、支付宝与 vivo 的三方密切协作下,支付宝已在 vivo 新一代旗舰智能手机上完成了基于 Arm SME2 技术的大语言模型推理验证。结果显示,在预填充 (prefill) 与解码 (decode) 阶段的性能分别超过 40% 和 25% 的提升。这一成果标志着 CPU 后端能力的重大突破。

尽管大模型推理仍面临诸多挑战,但对CPU 后端的持续优化,显著拓宽了可运行大模型的设备覆盖范围,让更多用户得以享受前沿 AI带来的能力。在众多基于大模型的应用中,端侧大语言模型推理有助于简化部署流程、增强实时交互体验、保障用户数据隐私,并有效降低云端计算成本。随着 xNN 的持续演进,以及 KleidiAI、SME2 等尖端硬件技术的深度融合,支付宝有望在更多场景释放 AI 潜能,构建更智能、更安全、更个性化的服务生态。

总体看来,Arm Lumex CSS 平台的核心优势正在于,提供一个经过验证的计算基础,让客户能够以相对较低的成本实现自身所需的定制化。真正的价值并非“做出比 Arm 工程师设计的更优秀的 Arm CPU”,真正的价值增量在于,通过在 Arm 平台基础上构建自己的 SoC,他们能额外创造出 50%、100% 甚至 200% 的价值。