亚图小说网
首页 > 都市言情 > 重回05,从校内网开始狂卷! >

第1120章 万卡集群!&独家优势!

章节目录

  骄阳400的通信架构,从前代的“三层通信架构”,进一步升级为“芯片间-节点间-超节点间-集群间”四层通信架构!

  并通过自主研发的“星际互联协议3.0”,替代传统PCle/infiniBand。

  这使得,骄阳400的单链路带宽,提升至400GB/s!

  较前代整整翻了一倍!

  且节点间通信延迟,进一步压缩至<2μs!

  较前代降低60%!

  集群最大扩展规模,也从前代的512卡,提升至2048卡!

  集群总带宽高达16TB/s!

  实际可用带宽,达理论值的92%!

  完全足以支撑,中型千亿参数通用大模型全流程训练!

  对比英伟达P100,仍依赖PCle3.0与InfiniBand QDR构建集群,单链路带宽仅8GB/s。

  且其仅能实现512卡集群,实际带宽更是仅有30%,远逊于骄阳400 2048卡集群。

  而更为让洛川惊喜的突破在于,骄阳400完成了“超节点”预部署!

  这意味着,团队已为“万卡集群”打好地基!

  要知道,这可不是把简单的把卡堆在一起,而是一项极为复杂的工程级项目!

  需解决超节点间高速互联、超节点管理、全局算力调度、容错机制、跨节点数据一致性、能耗均衡控制等多项核心技术!

  首先,集群整体架构设计方面,团队开发出一套“超节点+胖树拓扑”四层架构。

  其一,计算层。

  以超节点作为独立算力单元,采用“管理芯片+算力卡+本地存储”一体化设计。

  每个超节点,由256张骄阳400卡组成,按16×16矩阵排列,通过星际协议实现卡间直连。

  并配备一颗自研的“星枢X1”超节点管理芯片,以及1台“星际接入交换机”。

  前者采用中芯国际14N工艺,INT8算力约2TOPS,支持256卡调度,负责节点内算力调度、数据同步。

  后者则负责内部互联,单节点内卡间通信延迟<1μs,单链路带宽达400GB/s!

  本地存储,则采用128TB HBM2e共享存储池+1PB SSD缓存。

  此外,还有模块化UPS电源、液冷散热系统等等。

  以上种种相结合,才构成一个超节点。

  最终再由40个超节点,构成包含10240张算力卡的“万卡集群”!

  其二,互联层。

  由8台“星际核心交换机S1000”,构成1套交换机集群,外加40台超节点接入交换机,实现超节点内与节点间的低延迟、高带宽数据传输,支撑全局参数同步。

  全程采用自研“星际互联协议3.0”,替代PCle/infiniBand,支持多链路聚合。

  此外,超节点间互联,团队并未采用传统铜缆,而是选择了自研的“硅光通信模块”!

  该模块的核心优势在于,传输距离高达100米,远胜传统铜缆通信的10米!

  有效解决了机房内,超节点分散部署的问题。

  其次,其信号衰减降低60%,抗干扰性提升3倍,可有效减少数据传输错误!

  最后,硅光通信模块,单模块功耗降低40%,集群总功耗节省120kW!

  功耗可等同于成本优势!

  为了开发这一模块,团队可着实没少下功夫。

  事实上,极光这边的“通信实验室”,有很大一部分精力,都放在了光通信、高速互联协议、芯片间低延迟传输等领域。

章节目录
书友推荐: 华娱大满贯影帝的诞生 神三群聊:三国 锐评大明十六帝,老朱破防了! 天命之上 彼可取而代之 诸天:从诡秘序列到遮天秘境法 东京刑警:每日一个炸裂情报 美剧大世界里的骑士 你也不想秘密满朝皆知吧 公若不弃,愿拜为义父 北美:谁让这只猫当驱魔人的! 射雕:从镖人开始 我在战锤召唤第四天灾 都重生了,谁还当演员 湿卵胎化 异境:我能召唤书中人物 这个导演开了挂 火影:人在木叶,我叫漩涡面麻 同时穿越:怎么是少儿频道 这个Bug太棒了!