AI驱动半导体的新一轮背景下,云端训练AI的热潮持续多年,随着终端设备对智能体验的需求提升,以及各类端侧大模型的能力和生态的完善,端侧AI正成为行业热议的焦点。
在ICCAD-Expo 2025期间,台积电(中国)总经理罗镇球,芯原股份创始人、董事长兼总裁戴伟民,安谋科技产品总监鲍敏祺接受了包括半导体制造在内的媒体采访,他们都看好未来端侧AI的发展,不仅是AI 生态的关键补位,更是中国半导体行业实现差异化突破的抓手,成为驱动半导体行业增长的新引擎。
“小而美”,端侧AI的核心
今年双十一刚拉下帷幕,AI眼镜就交出了惊艳的答卷。京东数据显示,AI眼镜品类销量同比增长超10倍,成为数码品类中增长最快的细分产品。
在戴伟民眼中,端侧AI的爆发并不依赖复杂功能,而在于“轻量化智能”。

以AI眼镜为例,其核心需求是长续航、轻重量和低售价,重点关注“第一视角交互”,比如语音交互、实时翻译等功能。实现这些功能不需要庞大的模型,小参数量的模型,如谷歌最新针对端侧的开源模型Gamma-3就能满足需求。
“眼镜就像个人助理,你所见即是它所见,你所闻即是它所闻。我们的目标是优化第一视角交互的体验。”戴伟民表示。
他特别强调,端侧 AI 不需要 “大而全” 的模型,而是 “够用就好” 的小模型,比如面向 3-5 岁儿童设计的玩具,可根据家长指令生成短篇故事,虽然无法与常用大模型媲美,但已能满足儿童使用需求。
这种小模型的核心优势在于“离线部署”,无需依赖手机或云端,避免频繁传输带来的耗电和延迟问题。
“端侧设备对模型承载量是有限的,只能运行小参数规模的模型。”戴伟民说道,“未来端侧推理会超过云端,一定要重视端侧应用发展。”
特殊工艺+低功耗,端侧AI的工艺支撑
Counterpoint预计,受AI转型驱动以构建自GenAI → Agentic AI → Physical AI的基础设施与消费端接入点,全球半导体营收预计将于2024–2030年翻倍至1万亿美元以上。
短期关键驱动来自生成式AI(GenAI)在云端与部分端侧设备的基础设施建设。“2024年的AI市场以硬件为主,约80%的直接营收来自基础设施与端侧的半导体。”Counterpoint Research研究总监Mohit Agarwal指出。
当前,AI价值更多集中在半导体侧:超大规模云厂商、二线云玩家与正在加速建设AI基建的企业。从GPU和各类加速器,到存储器(HBM、DDR)与光互连,芯片是AI经济的支柱,驱动从云平台、模型与框架到应用的一切。
芯片成了算力的代名词,在各种先进制造工艺与先进封装的加持下,追求算力速度成为一众芯片企业的目标,但在台积电眼中不仅是如此。
“很多人会认为过去推动半导体工艺的是算力,但在晶圆厂的眼中能效比 (energy-efficiency)也非常重要。”罗镇球表示。

先进工艺带来的是高集成度,在有限的空间内塞进越来越多的晶体管,这势必会加剧散热问题。
罗镇球指出:“要持续提升能效,需要多方面的努力,包括新的晶体管架构、新的材料、设计技术协同优化,甚至在软件层面都需要进行配合。”
针对端侧部分,罗镇球表示,台积电注重特殊工艺与超低功耗,包含嵌入式存储、射频、影像等。
存储方面,台积电推出下一代电阻式随机存取内存(RRAM)和磁阻式随机存取内存(MRAM),其中28纳米的RRAM已通过汽车应用认证,预计12纳米的RRAM能够满足严苛的汽车PPM要求。22纳米MRAM已进入量产,16纳米MRAM已为客户准备就绪,12纳米的MRAM正在开发中。
射频方面,随着AI开始向智能手机及其他领域的边缘设备发展,继N6RF+之后,台积电推出了下一代射频技术N4C RF。与N6RF+ 相比,N4C RF的功耗和面积减少30%。
影像方面,台积电推出全新的传感器技术—横向溢流整合电容(LOFIC),搭配像素内高密度电容,影像传感器具备高动态范围,可应对光线条件的突然变化。
超低功耗方面,台积电已开始N4e的探索性开发,继续降低Vdd(正电源电压)。罗镇球表示,目前Vdd已经降到0.4V左右,功耗相较于之前有着极大的降低。
通用性,端侧AI的算力革命
端侧设备因算力、内存、功耗都受限,整数计算成为首选,端侧模型大多会通过量化转为INT8或4的数据格式运行,比如一些语音识别模型,量化过后的模型会大大减少存储体积,能耗比也优于浮点计算。
不过,部分对模型精度敏感的应用比如视觉感知、图像分割等仍离不开浮点计算的支撑。因此端侧算力芯片也要同时兼顾整数与浮点计算能力,如英伟达 Blackwell 架构支持的 FP4 浮点格式,也被用于端侧大模型部署,在压缩模型体积的同时,比同比特位整数更贴近原始模型精度。
鲍敏祺认为,以往端侧AI讲究面积、功耗,现在更讲究如何将云端算法快速部署到端侧上,因此端侧AI短期内不会越做越大,而是在有限的算力范围内,实现更广泛的通用能力。

前不久,安谋科技发布了最新一代NPU IP——周易X3,采用最新的DSP+DSA架构,同时支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算,适配不同的场景要求。更重要的是完备的大模型支持,包括LLM/VLM/VLA等,支持多达270多个模型,160多算子支持。
鲍敏祺指出,AI端侧推理,从算法的结构上看,整个tensor的计算能力需求会越来越高,但仍然需要AI通用能力,其需要的计算量不高,但是灵活性要求很高。未来发展的方向也是如此。他举例DeepSeek的算法演进过程中,整体算力带宽比在持续变大,同时在局部attention计算优化上,提出了更高的通用性和灵活性要求。
结语
AI场景的最终落地,需要终端设备作为载体,端侧作为执行端,其意义和定位愈发清晰。今年被认为是AR眼镜的元年,或许就预示着端侧AI时代的到来。
罗镇球看好中国端侧市场,他认为中国有非常丰富的应用开发生态,可以很好的助力AI赋能到边缘端和终端应用上。
鲍敏祺认为,国内外的开发环境不同,由于工艺上的限制,云端的算力单卡差距就在5倍以上,因此国内更需要做的是云端协同的差异化技术。
戴伟民强调,端侧AI主要依赖推理能力,在有限算力下可支持轻量微调或参数优化。随着端侧计算能力的提升,其应用价值有望在整体AI算力布局中逐渐超过云端训练环节。
综合来看,端侧 AI 将是半导体行业下一个爆发市场,且对中国企业而言,这是一条 “避开先进制程限制、发挥本土场景优势”的差异化路径。