【跟踪 | 华为 AI CloudMatrix 384】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-4-16 10:38

跟踪 | 华为 AI CloudMatrix 384

作者：微信文章
最近公众号改变了规则，推送不按时间顺序，如果不想错过《思维纪要社》的文章，请设“星标”并且经常点击“在看”，感谢大家支持！

所有内容都来自于网络，如有侵权，请联系后台删除，感谢理解核心速览

这篇文章详细介绍了华为AI云矩阵384的技术规格、系统架构及其与英伟达GB200 NVL72的对比分析。以下是文章的主要内容：
华为AI云矩阵384的技术规格

1. 芯片和封装

Ascend 910C芯片：华为的Ascend 910C芯片由384颗芯片通过全互联拓扑连接而成，弥补了单个GPU性能仅为Nvidia Blackwell三分之一的事实。

HBM容量和带宽：Ascend 910C的HBM容量为128GB，HBM带宽为3.2TB/s，均低于Nvidia GB200 NVL72的192GB和8.0TB/s。
2. 系统级性能

BF16密集PFLOPS：Ascend 910C的BF16密集PFLOPS为300，低于GB200 NVL72的180。

HBM容量和带宽：Ascend 910C的HBM容量为49.2TB，HBM带宽为1,229TB/s，均高于GB200 NVL72的13.8TB和576TB/s。

扩展带宽：Ascend 910C的扩展带宽为134,400Gb/s，高于GB200 NVL72的64,800Gb/s。

系统总功耗：Ascend 910C的系统总功耗为559,378W，远高于GB200 NVL72的145,000W。
华为AI云矩阵384的系统架构

1. 纵向扩展网络

NVLink网络：华为采用7个400G光模块提供2,800Gbit/s的纵向扩展带宽，高于GB200 NVL72的7,200Gbit/s。

交换机架构：采用单层网络将所有GPU互联，接入4台CloudEngine 16800模块化交换机。
2. 横向扩展网络

8轨优化拓扑：每个横向扩展的CloudEngine模块化交换机拥有768个400G端口，连接384个GPU。

叶层和脊层交换机：叶层需要1个叶交换机加0.5个脊交换机，脊层需要384个400G交换机。
3. 光模块技术

LPO光模块：华为采用线性可插拔光模块(LPO)以减少功耗，LPO光模块无需内部数字信号处理器(DSP)，降低功耗30%以上。
中国在AI基础设施上的优势与挑战

1. 电力资源

电力供应充足：中国电力资源丰富，能够满足大规模数据中心的需求，电力成本相对较低。

能源优势：中国的能源优势将助力其数据中心在规模和速度上快速扩张。
2. 芯片制造

依赖进口：尽管中国正在努力提升本土半导体供应链能力，但仍高度依赖国外生产，如台积电的晶圆和三星的HBM。

制裁与规避：华为通过第三方公司规避了对台积电的制裁，但仍面临其他技术和材料的出口限制。
未来展望

1. 本土晶圆厂的扩产

中芯国际和长鑫存储：这两家公司已获得大量设备和资金支持，有望在未来提升产能和良率。

潜在的产能增长：若HBM、晶圆制造设备、设备维护及光刻胶等材料得到有效管控，中芯国际的产能仍有巨大增长空间。
2. 持续扩展的可能性

系统级优化：华为解决方案仍有多种持续扩展的路径，包括优化系统级功耗预算和采用更高效的散热技术。

国际合作：尽管面临制裁，华为仍可以通过国际合作和技术引进，进一步提升其AI基础设施的性能和竞争力。

关键问题及回答

问题1：华为AI云矩阵384在纵向扩展网络中是如何实现高带宽的？

华为AI云矩阵384在纵向扩展网络中采用了7个400G光模块，每颗GPU配置7个400G光模块，提供2,800Gbit/s的单向纵向扩展带宽。这种设计虽然成本更高、功耗更大，但可以确保高带宽的连接。相比之下，英伟达GB200 NVL72每GPU提供7,200Gbit/s的带宽，但通过更紧凑的直连铜缆实现。

问题2：华为在应对出口管制方面采取了哪些措施？

华为通过多种方式应对出口管制，包括通过第三方公司购买设备和材料。例如，华为通过Sophgo公司购买了约5亿美元的7nm晶圆，成功绕过了针对台积电的制裁。此外，华为还通过CoAsia Electronics公司重新出口被禁止的HBM，尽管这种做法在法律边缘，但显示了华为在技术获取方面的灵活性和创新能力。

问题3：华为AI云矩阵384的系统级功耗为何显著高于英伟达GB200 NVL72？

华为AI云矩阵384的系统级功耗显著高于英伟达GB200 NVL72，主要原因在于其采用了大量的光模块和复杂的网络架构。具体来说，CloudMatrix 384每个pod包含6,912个400G光模块，用于纵向和横向扩展网络。此外，其纵向扩展网络使用了大量的400G收发器，导致功耗显著增加。尽管每颗GPU的功耗相对较低，但整体系统的功耗却因高带宽和复杂的网络设计而显著上升。

关联信息补充

人物

Patrick Zhou：Patrick Zhou 是华为团队的一员，参与了华为AI云矩阵384的研发工作。他所在的团队致力于通过系统级的创新，推动AI系统性能的提升，以应对全球市场的竞争。
组织机构：

华为：华为是一家全球领先的科技公司，专注于通信设备和智能终端的研发。在AI领域，华为推出了CloudMatrix 384系统，旨在通过系统级的创新，提供强大的AI计算能力，以应对出口管制和国内芯片良率的挑战。

英伟达：英伟达是全球知名的GPU制造商，其GB200 NVL72系统在AI计算领域具有竞争力。英伟达通过其创新的NVLink技术和高性能计算平台，保持了在AI基础设施领域的领先地位。

--

在AI的时代，希望能对大佬们有所帮助

详细纪要、外资研报、国内外音频还请加入知识星球查看
具体优势，请点击《纪要星球介绍》

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

跟踪 | 华为 AI CloudMatrix 384