- 华为联手Lineshine超级计算机将245万个Arm核心连接成一个庞大的AI集群
- 华为的处理器为当今中国最大的人工智能计算装置之一提供支持
- 仅使用 CPU 的超级计算机消除了工作负载期间处理器和加速器之间昂贵的数据传输
中国部署了一台名为 Lineshine 的大型纯 CPU 超级计算机,无需使用任何 GPU 即可提供 1.54 exaflops 的 AI 训练性能。
该系统包含 20,480 个计算节点,每个计算节点配有两个 LX2 处理器,整机共有 40,960 个芯片。
每个LX2处理器有304个CPU核心,这意味着整个超级计算机总共使用大约245万个Armv9核心。
LX2 处理器不寻常的架构内部
该处理器由华为开发或与中国国家超级计算中心联合设计,但确切来源尚不清楚。
每个 LX2 处理器使用两个计算小芯片,其核心排列在八个集群中,每个集群有 38 个核心。
每个内核都包含 ARM 的可扩展向量扩展和可扩展矩阵扩展单元,可加速 AI 训练中使用的矩阵运算。
该处理器通过单芯片提供 60.3 teraflops 的 FP64 性能、240 teraflops 的 BF16 吞吐量和 960 teraflops 的 INT8 性能。
内存子系统结合了可提供高达 4TB/s 带宽的 32GB 封装内 HBM 和高达 256GB 封装外 DDR5 内存。
仅 CPU 系统为将人工智能训练与大规模数据摄取和预处理相结合的复杂科学任务提供了许多好处。
由于所有内容都在相同的处理器和内存空间上运行,因此它们避免了昂贵且占用大量带宽的 CPU 到 GPU 数据传输。
通过将 HBM 与更大的 DDR 功能相结合,基于 CPU 的同质系统还可以公开更大的一致内存池。
这对于处理大规模科学数据集、检索增强生成和长上下文窗口非常有用,而 GPU 内存限制无法轻松适应这些情况。
这种方法带来的一个重要警告
与基于 GPU 的超级计算机相比,仅使用 CPU 的系统通常能效较低,并且提供的 AI 吞吐量密度较低。
这是大多数行业押注于异构 CPU 加 GPU 架构来处理大规模 AI 工作负载的主要原因。
中国之所以走上这条道路,很大程度上是因为美国禁止 GPU 出口,而不是因为仅 CPU 系统在人工智能任务方面就具有技术优势。
Lineshine 表明 CPU 可以成功执行 GPU 任务,但这两种方法之间的效率差距仍然很大,并且不太可能很快缩小。
中国正在做出战略妥协,接受更低的性能和更高的功耗,以换取独立于外国硬件和软件生态系统,例如Nvidia的GPU和CUDA。
这种妥协对于人工智能的长期发展是否值得,完全取决于中国制造商能够以多快的速度缩小与自己的 GPU 设计的性能差距。
在那之前,Lineshine 仍将是一项非凡的工程成就和实际必需品,但它可能不会成为世界上大多数人构建人工智能超级计算机的蓝图。
通过汤姆的硬件
在 Google 新闻上关注 TechRadar 和 将我们添加为最喜欢的来源 在您的动态中获取我们的专家新闻、评论和意见。






Leave a Reply