当前科技领域正经历两大核心趋势的共振:其一,AI已成为现实,全球投资热潮持续升温。其二,作为下一代无线创新技术的6G蓄势待发,目前正处于关键早期研究阶段。AI与6G的融合,无疑是未来科技发展的重要方向。
Bloomberg市场调研显示,2022年全球人工智能市场规模约为869亿美元,而到2030年,这一数字有望攀升至1.3万亿美元,换算成人民币,全球直接市场规模将达约十万亿级别。MarketsandMarkets数据也表明,人工智能市场自2024至2030年的年增长率高达35.7%。在整体经济形势不乐观且许多产业增长停滞甚至下跌的当下,能寻得一个具有两位数增长,甚至高两位数增长的市场,实属难得。
各产业纷纷涌入AI赛道,其中一个至关重要的驱动力正是其被广泛认知的长期增长潜力与发展窗口期。纵观信息技术发展史,诸如移动通信、互联网等颠覆性技术,其从萌芽、爆发到成熟应用,往往需要经历一个相对漫长的5至10年演进周期。当前,虽然AI技术特别是生成式AI已展现出令人瞩目的爆发力,但业界共识是:整个AI产业生态尚处于方兴未艾的起步阶段,爆发性增长的浪潮远未达到顶峰。正是这种对未来广阔蓝海和持续涌现机遇的强烈预期,构成了当下各产业主体加速布局、抢占AI战略高地的核心动因之一。
然而,有业内调研结果显示,在AI数据中心里,存在着大量的“等待”——模型训练时,GPU等待时间超过50%,计算时间占20%,Overlap占16%,Memory占2%,即仅有约38%的时间在真正工作。这意味着投入数百亿的数据中心,其核心资产GPU利用率不到40%,投资回报率(ROI)显著偏低。
近期,Broadcom发布的1.6T交换机数据(全交换容量102.4T)也印证了此问题,指出在数据中心里GPU闲置率超40%(或利用率不足60%),与前述观察一致,反映出数据中心核心资产利用率低下的现状。
“提高GPU利用率的关键在于厘清其等待原因。”在近日举办的Keysight World Tech Day 2025上,是德科技大中华区高速数字市场部经理李坚指出,“核心逻辑在于GPU因缺乏数据而无法计算,根源是网络数据传输遭遇拥堵,好比早高峰堵车导致上班迟到,自然没办法按时开始工作。”
除利用率外,更为严峻的挑战是数据中心里故障频发的问题。进行大模型训练耗时数周甚至数月,但数据显示,训练任务一次成功率仅约57%。失败主因是硬件/软件故障,尤其是硬件故障。高速器件在高温、高速、24小时不间断运行下逼近物理极限,可靠性不足。
在这种状况下,网络可靠性问题尤为突出,大规模数据中心(如含数千线缆、上百光模块的NVIDIA NV72机柜)中任一器件故障都可能导致系统宕机,需停机、重启、恢复。若不采取一些特定措施如断点保护/重启机制,那么前期训练成果可能全数尽毁。
这些都揭示了数据中心的基石——基础软硬件并不可靠。
当前算力中心建设如火如荼,但许多实为“带病上线”,存在诸多问题。巨额投资能否达成预期ROI?答案在于显著优化空间,即系统性解决GPU利用率低下与基础设施可靠性问题。
在此背景下,半导体行业的“隐形守护者”测试测量仪器企业在推动AI算力极限突破、保障数据中心超高速、高可靠性运行方面的重要性正日益突出。
全方位助力AI与数据中心发展
在是德科技高级副总裁兼通信解决方案事业部总裁Kailash Narayanan看来,真正的变革在于技术的深度融合。15年前的杀手级应用是智能手机,未来的杀手级应用是融合尖端科技的智能终端,它不仅是硬件载体,更是AI算力、超高速无线连接(5G/6G)与边缘计算的集成平台。“随着成本从15,000美元向5,000美元级快速下探,这类设备将加速进入大众生活场景,成为生活的强大助力。”
目前,全球AI行业都聚焦于大模型训练基础设施,催生对800G/1.6T乃至3.2T超高速网络及高能效GPU的迫切需求,吸引大量投资。
随着数据中心的逐步完善,将推动更多数据中心AI和边缘AI应用与服务的开发和交付,满足不同应用场景对AI模型的需求。例如,应用于电动汽车和自动驾驶领域的模型、服务于“铁杆用户”或家庭自动化机器人的模型、赋能工业生产线等场景所需的模型,其需求与特性截然不同。
Kailash Narayanan强调:“每个应用都需要特定的模型,且模型必须靠近终端设备部署,低延迟与实时响应是‘生死线’。” 这为半导体行业带来了新的机遇和挑战,也促使相关企业加大在该领域的研发投入和创新力度。
是德科技携手产业界共同提升数据中心基层硬件和软件的指标,通过合作及时察觉网络中可能潜藏的各种问题,疏通网络流量,让网络运行更加有效。在过去的两三年时间里,是德科技逐步梳理了产品线,针对AI市场重新定义了AI产品矩阵,统一命名为Keysight AI”,简称“KAI”。
KAI将产品矩阵分成四大板块:
1.KAI Compute(KAI高速计算):聚焦算力板卡(如多GPU集成板卡)的高速器件、接口及走线测试,打造更稳定可靠的算力;
2.KAI Interconnect(KAI互连):专攻板卡间连接器件(电缆/光模块/有源设备)质量验证,提供网络分析仪、光模块采样示波器及高速误码仪解决方案;
3.KAI Network(KAI网络):基于并购的Ixia技术,覆盖网卡、交换机到应用层的全栈测试,支撑算力网络构建;
4.KAI Power(KAI能效):针对数据中心巨量能耗(十万板卡算力中心耗电量堪比一座百万人口城市的耗电量),优化电源转换效率以降低运营成本。
是德科技致力于提供覆盖用户产品全生命周期的解决方案——从预研、研发、生产到部署运维,贯穿物理层验证、网络层测试至应用层保障,以全栈能力支撑各阶段技术需求。
系统级仿真:保障AI可靠性的关键环节
系统级仿真是AI开发过程中不可或缺的环节。数据中心的系统级性能依赖于系统级可视化能力——也就是模拟GPU之间的通信、观察队列对行为,并分析突发流量和拥塞点在整个技术栈中造成的影响。使网络架构师能够真实深入了解基础设施在真实AI流量与控制机制下的实际运行行为,全面掌握网络运行状况。
这一完整的测试流程通常包括以下三个方面:
• 部署高密度网络测试平台。
• 配置流量生成器,以太比特级速度模拟AI集合通信操作(如all-reduce、broadcast、gather)的真实流量行为。
• 使用性能分析工具,衡量系统级关键性能指标(KPI),例如任务完成时间、GPU利用率、网络吞吐量和延迟。
通过这一方法,网络架构师能够快速定位GPU闲置时间积累的位置、识别次优的拥塞控制设置、发现引入延迟的网卡与收发器组合。此外,该方法还允许在无需部署大规模GPU集群的前提下,灵活测试路由策略、微调拥塞控制参数(如优先级流控PFC和显式拥塞通知ECN),并评估新协议或架构变更的效果。
据介绍,某云服务提供商已经使用是德科技的KAI数据中心构建器对其新一代AI训练集群的网络设计进行基准测试,目标是确保其高速以太网不仅能支持当前的GPU型号,也能兼容即将发布的新一代GPU。
系统级仿真通过对AI系统进行功能验证,并对其性能进行评估,测试系统的响应时间、吞吐量和资源利用率等性能指标,再根据测试结果,对系统进行优化,调整算法参数、优化资源分配,提高AI系统的性能,以满足实际应用的需求。
随着AI技术的不断发展,AI数据中心和系统级仿真测试也将迎来新的发展机遇和挑战。一方面,随着AI模型的复杂度不断提高,对数据中心的计算能力和存储容量提出了更高的要求。另一方面,随着AI应用场景的不断拓展,系统级仿真测试需要更加精准地模拟各种复杂场景,提高测试的覆盖率和有效性。
此外,随着AI技术与物联网、5G/6G等新兴技术的深度融合,AI数据中心和系统级仿真测试也将面临新的挑战。例如,在物联网环境下,数据的来源更加多样化,数据的实时性和安全性要求更高。
如何尽可能准确地获取数据是行业AI应用的前提,一家德国测试测量企业认为,在无线电或电磁领域,能够依靠仪表将空中的电磁波转换为数据,其中,转化成什么样的数据以及数据的精确度或准确性,对于开展行业AI转型具有重要意义,以确保开展AI大模型训练获取数据的科学性及准确性。
该企业与NVIDIA展开合作,携手开发聚焦神经接收器的设计与测试,双方通过整合数字孪生和高保真光线追踪技术,构建了一个强大的测试框架,能够在真实传播环境下对5G-A和6G神经接收器进行高效、精准的测试。这一成果旨在缩小AI驱动的无线仿真与实际部署之间的差距,为下一代接收器架构的研发提供强有力的支持。
数据中心作为数智化的核心基础设施,正面临前所未有的能耗和性能挑战。一家美国测试测量技术领导者提供的电源完整性测试解决方案,能够优化电源分配网络(PDN),确保在高频率下实现毫伏级电源轨噪声的精准测量;全面覆盖的高速数据传输测试解决方案,通过内置的分析软件,其示波器能够自动执行信号采集和分析,助力数据中心的高效稳定运行。
这些专业化且面向未来的测试方案,不仅有力支撑了当前数据中心、光通信及先进芯片设计中严苛的信号完整性验证需求,更显著提升了相关组件在极端速率下的性能评估精度与可靠性,为构建下一代超高速、低延迟、高可靠的数字基础设施奠定了坚实的测试基石。
验证方法也在与时俱进
下一代AI工作负载对网络规模和速度的需求呈指数级增长,推动数据中心加速向1.6T以太网过渡。然而,这一过渡并非一帆风顺,高速网络带来的技术难题和验证复杂性,正成为数据中心亟待解决的关键问题。
AI的发展依赖于海量数据的处理和复杂模型的训练。随着AI模型的规模不断扩大,从简单的线性回归到复杂的深度学习网络,数据传输的需求也急剧增加。例如,训练一个大型的自然语言处理模型(如GPT-3)需要在短时间内处理和传输海量的文本数据,这要求数据中心具备极高的网络带宽和低延迟的传输能力。1.6T以太网的出现,正是为了满足这种对大规模、高速数据传输的需求。
但224 Gbps电通道和PAM4调制的普及,引入了更严苛的时序窗口、更低信噪比以及互连变化敏感度显著提高等挑战。这意味着在如此高速率下,验证信号完整性和端到端性能不能止步于组件级合规。突发性AI工作负载甚至可能让符合标准的设备遭遇边缘FEC性能或间歇性故障。此外,铜缆、光纤、有源电缆和无源DAC等互连方案的多样性,使验证环境更加复杂。
几十年来,验证网络互连性能需要手动操作,耗费大量时间,自动化程度有限或根本无法实现,并且需要高级编程技能来编写脚本。传统手动和基于脚本的验证已无力应对1.6T及以上速度的复杂性,还缺乏一个集中系统来整理和存储互连数据及报告,很难追踪和复制测试及配置。因此,部署全面的自动化测试策略势在必行,对于识别那些仅在动态、高流量的AI训练工作负载压力下暴露的系统级瓶颈尤为重要。
是德科技1.6T互连和网络性能测试仪+ITS (Interconnect Test System) 自动化测试平台,提供了完整的第1层到第3层全栈验证能力,包含: FEC前误码率(Pre-FEC BER)、FEC 裕度、抖动容限;CMIS协议兼容性、数字光学监控(DOM)、通道映像完整性;RoCEv2 流量建模、拥塞传播、流量公平性。
值得一提的是,上述设备还具备进行极限性能测试的能力。“大部分模块在测试时是在一个单点上做静态测试,但在真正的工作环境中,模块的工作形态并非一成不变。它在不同的温度条件、不同的链路上性能是不一样的。是德科技除了能进行静态测试外,还能进行动态测试,验证模块在极限性能下的工作状态,是一个性能评估测试。”李坚说道。
构建一个真正具备大规模运行能力的人工智能数据中心是极具挑战性的任务,还要为不可预测的挑战做好设计准备,并应对未来指数级的增长需求。
写在最后
在算力中心建设浪潮中,虽然诸多项目“带病上线”且面临ROI的不确定性,但测试测量仪器企业正成为破局关键。这些隐形守护者的价值刻度,早已超越传统测量工具的范畴,它们深入AI、数据中心及6G通信等核心领域,积极应对GPU利用率低与基础设施可靠性问题。
算力时代下最昂贵的并非GPU本身,而是让每片硅晶发挥极致效能的验证智慧。未来,这些企业将凭借其专业优势,持续优化测试测量方案,助力AI时代克服挑战,推动整个行业的稳健发展与技术升级。