骄阳400的通信架构,从前代的“三层通信架构”,进一步升级为“芯片间-节点间-超节点间-集群间”四层通信架构!
并通过自主研发的“星际互联协议3.0”,替代传统PCle/infiniBand。
这使得,骄阳400的单链路带宽,提升至400GB/s!
较前代整整翻了一倍!
且节点间通信延迟,进一步压缩至<2μs!
较前代降低60%!
集群最大扩展规模,也从前代的512卡,提升至2048卡!
集群总带宽高达16TB/s!
实际可用带宽,达理论值的92%!
完全足以支撑,中型千亿参数通用大模型全流程训练!
对比英伟达P100,仍依赖PCle3.0与InfiniBand QDR构建集群,单链路带宽仅8GB/s。
且其仅能实现512卡集群,实际带宽更是仅有30%,远逊于骄阳400 2048卡集群。
而更为让洛川惊喜的突破在于,骄阳400完成了“超节点”预部署!
这意味着,团队已为“万卡集群”打好地基!
要知道,这可不是把简单的把卡堆在一起,而是一项极为复杂的工程级项目!
需解决超节点间高速互联、超节点管理、全局算力调度、容错机制、跨节点数据一致性、能耗均衡控制等多项核心技术!
首先,集群整体架构设计方面,团队开发出一套“超节点+胖树拓扑”四层架构。
其一,计算层。
以超节点作为独立算力单元,采用“管理芯片+算力卡+本地存储”一体化设计。
每个超节点,由256张骄阳400卡组成,按16×16矩阵排列,通过星际协议实现卡间直连。
并配备一颗自研的“星枢X1”超节点管理芯片,以及1台“星际接入交换机”。
前者采用中芯国际14N工艺,INT8算力约2TOPS,支持256卡调度,负责节点内算力调度、数据同步。
后者则负责内部互联,单节点内卡间通信延迟<1μs,单链路带宽达400GB/s!
本地存储,则采用128TB HBM2e共享存储池+1PB SSD缓存。
此外,还有模块化UPS电源、液冷散热系统等等。
以上种种相结合,才构成一个超节点。
最终再由40个超节点,构成包含10240张算力卡的“万卡集群”!
其二,互联层。
由8台“星际核心交换机S1000”,构成1套交换机集群,外加40台超节点接入交换机,实现超节点内与节点间的低延迟、高带宽数据传输,支撑全局参数同步。
全程采用自研“星际互联协议3.0”,替代PCle/infiniBand,支持多链路聚合。
此外,超节点间互联,团队并未采用传统铜缆,而是选择了自研的“硅光通信模块”!
该模块的核心优势在于,传输距离高达100米,远胜传统铜缆通信的10米!
有效解决了机房内,超节点分散部署的问题。
其次,其信号衰减降低60%,抗干扰性提升3倍,可有效减少数据传输错误!
最后,硅光通信模块,单模块功耗降低40%,集群总功耗节省120kW!
功耗可等同于成本优势!
为了开发这一模块,团队可着实没少下功夫。
事实上,极光这边的“通信实验室”,有很大一部分精力,都放在了光通信、高速互联协议、芯片间低延迟传输等领域。