如今,绝大多数领先的超级计算机和人工智能集群使用CPU执行通用任务和编排,并使用AI GPU进行大规模并行计算工作负载,以实现异常高的百亿亿次浮点运算(ExaFLOPS)级性能。但在中国,我们看到了不同的趋势,因为近年来该国已部署了一批纯CPU超级计算机用于AI与HPC工作负载,很大程度上是由于美国对GPU的禁令,导致该国无法采购足够的GPU用于超级计算机。例如,中国国家超级计算中心最近部署了其1.54 ExaFLOPS级别的机器,该机器使用了20,480颗基于Armv9的CPU。
LineShine LX2处理器
每个LX2处理器使用两个计算芯片,总共包含304个CPU核心,这些核心被组织成八个CPU集群,每个集群包含38个核心。每个核心都包含Arm SVE(可扩展向量扩展)和SME(可扩展矩阵扩展)单元,用于加速人工智能训练和科学计算中使用的向量和矩阵运算,支持FP64、FP32、BF16、FP16和INT8数据格式。每个核心配备32 KB L1指令缓存和32 KB L1数据缓存,而每个集群共享28.5 MB的L2缓存。
深入了解TH Premium:AI与数据中心
该处理器采用了一种极为罕见的内存子系统,结合了32 GB的片上HBM(高带宽存储器),可提供高达4 TB/s的带宽,以及多达256 GB的片外DDR5内存。富士通(Fujitsu)基于Arm架构的A64FX处理器也曾使用类似的内存子系统,该处理器正是驱动Fugaku(富岳)超级计算机的核心。,虽然LX2可能是业界首款采用这种内存子系统的基于Armv9的AI和HPC CPU。
每个芯粒包含四个HBM域和四个DDR域;每个处理器有16个NUMA域。HBM访问对局部性高度敏感,而DDR内存在芯片内的访问更均匀,并在集群间共享。这种行为迫使开发者设计拓扑感知的内存放置和调度技术(这对AI训练尤为有用),这些技术由专用的SDMA引擎执行,用于在DDR和HBM之间移动数据。
就性能而言,单个LX2处理器可提供60.3 TFLOPS FP64性能、240 TFLOPS BF16/FP16吞吐量和960 TOPS INT8性能。与传统的服务器CPU不同,该架构虽然仍以CPU为中心,但似乎针对密集的人工智能和矩阵工作负载进行了高度优化。论文指出,为了保持SME矩阵引擎的高利用率,需要在HBM和DDR层次结构中跨内核、运行时调度、缓存驻留管理和张量放置进行广泛的协同设计。
莱恩夏恩(LineShine)超级计算机
LineShine超级计算机包含20,480个计算节点,每个节点配备两个LX2处理器,每个LX2处理器拥有304个CPU核心。因此,整个系统共使用40,960个LX2处理器,总计包含2,451,840个CPU核心。该超级计算机通过灵启高速网络(LQLink)互连,每个节点带宽为1.6 Tb/s。
该机器提供1.54 ExaFLOP/s的BF16训练性能,并在训练一个63亿参数的地球观测生成式压缩模型时峰值达到2.16 ExaFLOP/s。由于像xAI这样的公司不公布其使用数十万块Nvidia AI GPU的AI集群的峰值性能,我们无法将LineShine(莱恩夏恩)的性能与Colossus(巨像)或其他先进AI集群进行比较。然而,xAI的Colossus(巨像)的理论峰值性能是据信为 497.9 ExaFLOPS(百亿亿次浮点运算),因此即使模型浮点运算利用率约为15%(如 LineShine 所做的那样),它也能提供约75 ExaFLOPS 的性能。
在理论峰值 FP64 性能方面,这40960个 LX2 处理器可提供2.47 ExaFLOPS,不过我们对该机器的实际 FP64 吞吐量一无所知,因为这严重依赖于多种因素。
优势众多,但有一个注意事项
纯CPU的AI和高性能计算(HPC)超级计算机相对于传统的异构CPU+GPU系统有几个优势,特别是对于结合了AI训练与大规模数据摄入、预处理、存储交互、模拟及编排的复杂科学任务而言。
由于所有操作都在同一处理器和内存空间上运行,因此避免了异构计算带来的诸多复杂问题,例如昂贵且带宽消耗大的CPU到GPU数据传输、复杂的编程模型、GPU内存限制以及特定于加速器的软件栈。
此外,基于同构CPU的系统可以通过将HBM与大容量DDR相结合来暴露更大的相干内存池,这对于处理大规模科学数据集、检索增强生成(retrieval-augmented generation)和长上下文窗口非常有用。
此外,它们对于涉及不规则控制流、分布式I/O、通信密集型管线以及无法高效映射到GPU的执行模式的科学计算AI应用具有吸引力。
同时,纯CPU系统可以更自然地与传统HPC环境集成,并执行常规超级计算机任务(例如模拟),这对于那些同时需要AI训练/推理和HPC的用户特别有用。
最后但同样重要的是,这类系统减少了对Nvidia GPU和CUDA软件生态系统等外国加速器与平台的依赖,这对中国来说意义重大。
然而,这里存在一个巨大的权衡:纯CPU系统通常能效更低,且密集AI吞吐量低于基于GPU的超级计算机,这正是业界押注异构CPU+GPU架构的原因。
关注 在 Google News 上关注 Tom's Hardware ,或 将我们添加为首选来源 ,以在您的推送中获取我们的最新新闻、分析 与 评测。























