亚图小说网
首页 > 都市言情 > 重回05,从校内网开始狂卷! >

第1119章 亏贼的骄阳400!&超节点!

章节目录

  自注意力计算能力,骄阳400高达12万亿次/秒!

  为P100的 15倍!

  ResNet-50训练效率,骄阳400同样高达1800轮/小时!

  为P100的4.5倍!

  而上述各项参数对比,也清晰体现出,三者侧重点的不同。

  极光依旧选择押注AI的核心战场,深度学习训练与推理等垂直领域,同时兼顾3D建模、科学计算等专业场景。

  骄阳架构与骄阳指令集,也是专门为此量身打造。

  而英伟达和AMD的重心,则放在游戏渲染与通用计算方面,更加注重兼容性与通用性。

  前者Pascal架构、CUDA指令集,以及后者的GCN架构、GCN指令集,也更偏向于通用计算。

  至于其他几项核心参数,骄阳400的表现也同样惊艳。

  早在骄阳200,团队便引入了“存算一体架构”。

  可简单理解为,把计算单元和内存“粘在一起”。

  如此一来,数据就不用来回搬运,可直接在内存里计算,有效解决了模型训练中的“内存墙”问题。

  骄阳300,则在前代的基础上,通过“三维堆叠技术”,进一步缩短了计算单元与存储单元的物理距离。

  而骄阳400,则采用了第二代3D堆叠存算一体设计。

  计算单元与存储单元,物理距离缩短至500nm!

  较前代缩短40%!

  并通过集成8GB HBM2e高速缓存,将带宽提升至4TB/s!

  数据搬运能耗,较前代降低55%!

  较英伟达P100,降低72%!

  其依旧采用传统冯·诺依曼架构,数据需在内存与计算单元间频繁搬运,数据搬运能耗占比高达60%。

  此外,通过优化权重数据本地化存储策略,骄阳400的权重访问延迟,从前代的10ns,进一步压缩至3.2ns!

  较英伟达P100的200ns,降低98.4%!

  实测显示,依托于骄阳400,极光通用大模型,单轮训练耗时,从前代的26小时,压缩至8小时!

  推理单条请求响应延迟,低至18ms,较前代降低60%!

  反观英伟达P100,基础级百亿参数模型训练,单轮耗时便长达38小时。

  完全不是一个level~

  功耗方面,依托于中芯14N工艺,骄阳400也实现了跨越式进步。

  单卡满负载功耗仅320W!

  虽较之前代的250W,提升了28%,也高于英伟达P100的300W,但算力却提升了两倍以上!

  FP16能效比,高达惊人的150GFLOPS/W!

  反观英伟达P100,能效比仅42GFLOPS/W。

  并且,骄阳400待机功耗仅8W,如推理任务等轻负载长情,功耗可动态降至120W,适配多场景使用。

  这也是他们的独家优势~

  而在通信与集群扩展方面,骄阳400的表现更加惊艳!

  早在14年,团队便通过自主研发的“三层通信架构”,将骄阳300集群规模,从前代的256卡,提升至512卡!

  在那之后,在洛先知的指引下,调整了研发方向。

  将骄阳算力卡的集群架构,从“单卡直连式集群”,向“超节点”的方向演进。

  类似于后世华威的“昇腾384超节点”。

  原因很简单。

  单卡直连模式,当集群规模超过1000卡时,极易出现节点间通信冲突、算力调度混乱。

  进而导致部分节点,算力过载或算力闲置的内耗状况。

  且随着节点数量增加,通信延迟呈指数级上升。

  而“超节点”模式,则相当于将1000张卡,分为几个小团队。

  每个超节点,配备一张“专用超节点管理芯片”。

  先让超节点内部协调好,再和其他超节点配合,效率自然也就更高。

  这种模式,可大幅提升算力利用率,适合管理更大规模的算力。

  如“万卡集群”。

  而如今,历时一鲲年,骄阳400稳稳踏出了第一步!

章节目录
书友推荐: 龙拳 你这义体合法吗 抽象系巨星 红楼:开局吕布天赋 无限魔神:没流量怎么下载? 文字游戏:吾乃人间太岁神 大明王朝1556 大明第一国舅 诡仙:从旅行商人开始 综武:从锦衣卫校尉开始 我给世界打个MOD 诸天从拜师童姥开始 开局一座神秘岛 贞观六年,世民亦未寝 玄鉴仙族 同时穿越:全是深渊难度 人在斗罗,开局获得重瞳至尊骨 驱邪从食尸请神开始 我靠演讲缔造超凡帝国 导演的艺术就是搞钱