亚图小说网
首页 > 都市言情 > 重回05,从校内网开始狂卷! >

第833章 算力底座升级!&giegie救我

章节目录

  至于其他几项核心参数,骄阳300的表现也同样出色。

  基于全新的混合架构,骄阳300的数据传输延迟,从前代的15ns,进一步压缩至10ns!

  内存带宽也从前代的1TB/s,提升至1.5TB/s!

  与之相比,英伟达Tesla K40,内存带宽仅有288GB/s,且延迟高达200ns。

  以模型训练为例。

  同等任务下,如ResNet-50模型100轮迭代,前者的计算效率,是后者的5.2倍!

  此外,基于骄阳架构,针对“AI高频算子优化”的硬件加速模块,骄阳300的自注意力计算能力,从前代的2.1万亿次/秒,提升至3.0万亿次/秒!

  而Tesla K40,仅有0.8万亿次/秒。

  GTX 780 Ti,更是仅有0.6万亿次/秒。

  完全不是一个level~

  功耗方面。

  骄阳300单卡功耗,控制在250W,稍低于Tesla K40的235W。

  但在FP16算力功耗比方面,前者高达48GFLOPS/W!

  而后者仅有8.9GFLOPS/W。

  集群扩展能力方面。

  相较于前代,骄阳300进一步升级了“三层通信架构”!

  “芯片间高速通信协议”,单链路带宽,提升至200GB/s!

  云-心协同协议,进一步优化了分布式训练中的参数同步机制。

  高速总线,则采用了全新的拓扑结构,支持更灵活的集群配置。

  全方位的升级,使得骄阳300集群,最大扩张规模,从前代的256卡,直接翻倍增长至512卡!

  节点间通信延迟,从8μs降低至<5μs!

  集群总带宽,也翻倍增长至4TB/s!

  与之相比,英伟达仍依赖PCle3.0与InfiniBand QDR构建集群。

  这也是行业内的“通用通信方案”。

  节点间单链路带宽仅8GB/s,英伟达目前能实现的256卡集群,理论总带宽不足2TB/s。

  仅为骄阳300“512卡集群”的一半~

  且随着节点数量增加,PCle总线的天然冲突,会导致实际可用带宽,呈指数级下降。

  512卡时,实际带宽仅为理论值的30%,且节点间通信延迟,普遍超过100μs。

  是骄阳300“512卡集群”的20倍以上。

  根本无法支撑,大规模集群的高效协同。

  这也是英伟达选择256集群,没再进一步升级的根本原因。

  而骄阳算力卡,则通过极光自研的“三层通信架构”,解决了这一难题。

  下一步,极光的研发方向,则是将骄阳算力卡的集群架构,由“单卡直连式集群”,向“超节点”的方向升级。

  类似于后世的华威昇腾384超节点。

  当前,骄阳300的512卡集群,可简单理解为,512只牛马直接组队搬砖。

  当集群规模超过1000卡时,牛马会自然乱套,出现有的抢活干,即“算力过载”,有的原地摆烂,即“算力闲置”的状况。

  而“超节点”,就相当于将1000只牛马,分成几个小团队,每个团队配一名牛马小组长,即“专用超节点管理芯片”。

  先让小团队内部协调好,再和其他小团队配合,效率自然也就更高。

  这种超节点模式,可大幅提升算力利用率,适合管理更大规模的算力,如“万卡集群”。

  以满足通用人工智能、超大规模科学计算等AI的“终极需求”。

  这就需要他们解决,超节点间高速互联、超节点管理、全局算力调度、容错机制等多项核心技术。

  以“超节点间高速互联”为例。

  当前的铜缆通信,完全无法满足万卡需求。

章节目录
书友推荐: 霍格沃茨:中国式教授 从谎言之神到诸世之主 苟在乱武世界当地主 战锤:恐虐是我的神选 同时穿越:从打造机械水浒开始 大乾武圣! CS:加点!压donk干载物! 吞噬进化:我重生成了北极狼 足球:19岁融合39岁大罗模板 帝皇的告死天使 神秘复苏之开局驾驭贞子 废土回响者 我的末世领地 红颜助我证长生 人在秦时,趋吉避凶 轮回乐园:巨大宝箱 巨舰横宋:我的物资来自祖国 成龙快婿 海贼:旧时代的王者召唤师 霍格沃茨的沉默魔女