是否注意到,现在的AI越来越“聪明”了?能写小说、做翻译,甚至帮医生看CT片,这些能力背后离不开一个默默工作的“超级大脑工厂”——AI算力集群。随着人工智能从简单规则判断进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的“算力航空母舰”。
当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训练中的中断问题?接下来我们将逐一揭秘这些支撑AI算力集群的关键特性,看看华为团队如何用工程智慧驯服这头算力巨兽。
超节点高可用:
24小时不停工的智能工厂
就像医院的急诊系统必须时刻在线,AI训练和推理也不能轻易中断。算力集群里每台计算机都有“备用替身”,当某台机器出现故障(比如突然断电或硬件损坏),系统会立刻启动备用机接管任务,就像接力赛中接力棒无缝传递,确保自动驾驶训练、语音识别等任务持续运行,不会因为个别设备故障而全盘停止。
针对CloudMatrix 384超节点,华为团队提出面向整个超节点的故障容错方案,分为“系统层容错”“业务层容错”,以及后续“运维层容错”,核心思想就是将故障问题转为亚健康问题,通过运维手段优雅消除:
系统层容错指的是通过超时代答欺骗OS+网络路由切换,防系统蓝屏,同时避免整个超节点级故障。业务层容错是指租户无感知下,通过重试容忍网络闪断,将系统故障转为亚健康。而运维层容错则是指主要构筑亚健康感知和优雅恢复技术,通过主动方式消减亚健康事件影响。
集群线性度:
人多力量大的完美协作
理想情况下,100台计算机的算力应该是1台的100倍,1000台就是1000倍,这就是“线性度”。算力集群通过精密的任务分配算法,让每台计算机都像交响乐团的乐手一样各司其职,避免出现“三个和尚没水喝”的混乱。比如训练一个需要万亿次计算的模型时,万台计算机能像整齐划一地划桨的龙舟队,让算力随规模增长而几乎同步提升。
华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现盘古模型训练线性度提升。
实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix集群相比256卡基线,线性度96.48%。
万卡集群训练快速恢复:
带“存档功能”的训练师
当用上万个计算单元(俗称“万卡”)训练超大规模模型时,偶尔有几台机器“罢工”是难免的。这时系统会像游戏存档一样,自动记录最近的训练进度。一旦检测到故障,能快速定位出问题的计算单元,跳过故障部分,从最新的存档点继续训练,避免从头再来的巨大浪费。比如训练一个需要30天的模型,即使中间有设备故障,也能在几分钟内恢复进度,就像视频播放可以随时续播。
为了使万卡集群训练可以达到分钟级快恢复,华为团队提出了以下多个创新:
一是进程级重调度恢复。正常节点通过参数面网络将临终CKPT传递到备用节点上,完成参数状态恢复后继续训练,能够有效缩短训练恢复时间到3min以内。
二是进程级在线恢复。针对硬件UCE故障,通过业务面昇腾CANN软件、框架软件、MindCluster软件配合实现故障地址在线修复,进一步缩短训练恢复时间到30s以内。
三是算子级在线恢复。针对CloudMatrix 384产品HCCS网络、ROCE参数面网络提供HCCL算子重试能力,容忍更长时间的网络异常,实现网络故障影响的通信算子秒级重执行,训练任务不中断。
超大规模MoE模型推理分钟级恢复:
各路英豪来帮忙
随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,将多且小的专家部署在多个服务器节点上缓解显存带宽压力,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。
针对当前超大规模MoE模型带来的大EP推理架构的可靠性难题,华为提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从硬件驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。
实例内快速重启恢复技术:根据实际环境测试验证,该技术将实例恢复时间从20min降低5min。