我爱免费 发表于 2025-4-16 10:38

跟踪 | 华为 AI CloudMatrix 384

作者:微信文章
最近公众号改变了规则,推送不按时间顺序,如果不想错过《思维纪要社》的文章,请设“星标”并且经常点击“在看”,感谢大家支持!

所有内容都来自于网络,如有侵权,请联系后台删除,感谢理解核心速览

这篇文章详细介绍了华为AI云矩阵384的技术规格、系统架构及其与英伟达GB200 NVL72的对比分析。以下是文章的主要内容:
华为AI云矩阵384的技术规格

1. 芯片和封装


Ascend 910C芯片:华为的Ascend 910C芯片由384颗芯片通过全互联拓扑连接而成,弥补了单个GPU性能仅为Nvidia Blackwell三分之一的事实。

HBM容量和带宽:Ascend 910C的HBM容量为128GB,HBM带宽为3.2TB/s,均低于Nvidia GB200 NVL72的192GB和8.0TB/s。
2. 系统级性能


BF16密集PFLOPS:Ascend 910C的BF16密集PFLOPS为300,低于GB200 NVL72的180。

HBM容量和带宽:Ascend 910C的HBM容量为49.2TB,HBM带宽为1,229TB/s,均高于GB200 NVL72的13.8TB和576TB/s。

扩展带宽:Ascend 910C的扩展带宽为134,400Gb/s,高于GB200 NVL72的64,800Gb/s。

系统总功耗:Ascend 910C的系统总功耗为559,378W,远高于GB200 NVL72的145,000W。
华为AI云矩阵384的系统架构

1. 纵向扩展网络


NVLink网络:华为采用7个400G光模块提供2,800Gbit/s的纵向扩展带宽,高于GB200 NVL72的7,200Gbit/s。

交换机架构:采用单层网络将所有GPU互联,接入4台CloudEngine 16800模块化交换机。
2. 横向扩展网络


8轨优化拓扑:每个横向扩展的CloudEngine模块化交换机拥有768个400G端口,连接384个GPU。

叶层和脊层交换机:叶层需要1个叶交换机加0.5个脊交换机,脊层需要384个400G交换机。
3. 光模块技术

LPO光模块:华为采用线性可插拔光模块(LPO)以减少功耗,LPO光模块无需内部数字信号处理器(DSP),降低功耗30%以上。
中国在AI基础设施上的优势与挑战

1. 电力资源


电力供应充足:中国电力资源丰富,能够满足大规模数据中心的需求,电力成本相对较低。

能源优势:中国的能源优势将助力其数据中心在规模和速度上快速扩张。
2. 芯片制造


依赖进口:尽管中国正在努力提升本土半导体供应链能力,但仍高度依赖国外生产,如台积电的晶圆和三星的HBM。

制裁与规避:华为通过第三方公司规避了对台积电的制裁,但仍面临其他技术和材料的出口限制。
未来展望

1. 本土晶圆厂的扩产


中芯国际和长鑫存储:这两家公司已获得大量设备和资金支持,有望在未来提升产能和良率。

潜在的产能增长:若HBM、晶圆制造设备、设备维护及光刻胶等材料得到有效管控,中芯国际的产能仍有巨大增长空间。
2. 持续扩展的可能性


系统级优化:华为解决方案仍有多种持续扩展的路径,包括优化系统级功耗预算和采用更高效的散热技术。

国际合作:尽管面临制裁,华为仍可以通过国际合作和技术引进,进一步提升其AI基础设施的性能和竞争力。

关键问题及回答

问题1:华为AI云矩阵384在纵向扩展网络中是如何实现高带宽的?

华为AI云矩阵384在纵向扩展网络中采用了7个400G光模块,每颗GPU配置7个400G光模块,提供2,800Gbit/s的单向纵向扩展带宽。这种设计虽然成本更高、功耗更大,但可以确保高带宽的连接。相比之下,英伟达GB200 NVL72每GPU提供7,200Gbit/s的带宽,但通过更紧凑的直连铜缆实现。

问题2:华为在应对出口管制方面采取了哪些措施?

华为通过多种方式应对出口管制,包括通过第三方公司购买设备和材料。例如,华为通过Sophgo公司购买了约5亿美元的7nm晶圆,成功绕过了针对台积电的制裁。此外,华为还通过CoAsia Electronics公司重新出口被禁止的HBM,尽管这种做法在法律边缘,但显示了华为在技术获取方面的灵活性和创新能力。

问题3:华为AI云矩阵384的系统级功耗为何显著高于英伟达GB200 NVL72?

华为AI云矩阵384的系统级功耗显著高于英伟达GB200 NVL72,主要原因在于其采用了大量的光模块和复杂的网络架构。具体来说,CloudMatrix 384每个pod包含6,912个400G光模块,用于纵向和横向扩展网络。此外,其纵向扩展网络使用了大量的400G收发器,导致功耗显著增加。尽管每颗GPU的功耗相对较低,但整体系统的功耗却因高带宽和复杂的网络设计而显著上升。

关联信息补充

人物

Patrick Zhou:Patrick Zhou 是华为团队的一员,参与了华为AI云矩阵384的研发工作。他所在的团队致力于通过系统级的创新,推动AI系统性能的提升,以应对全球市场的竞争。
组织机构:

华为:华为是一家全球领先的科技公司,专注于通信设备和智能终端的研发。在AI领域,华为推出了CloudMatrix 384系统,旨在通过系统级的创新,提供强大的AI计算能力,以应对出口管制和国内芯片良率的挑战。

英伟达:英伟达是全球知名的GPU制造商,其GB200 NVL72系统在AI计算领域具有竞争力。英伟达通过其创新的NVLink技术和高性能计算平台,保持了在AI基础设施领域的领先地位。

--



在AI的时代,希望能对大佬们有所帮助

详细纪要、外资研报、国内外音频还请加入知识星球查看
具体优势,请点击《纪要星球介绍》



页: [1]
查看完整版本: 跟踪 | 华为 AI CloudMatrix 384