自注意力计算能力,骄阳400高达12万亿次/秒!
为P100的 15倍!
ResNet-50训练效率,骄阳400同样高达1800轮/小时!
为P100的4.5倍!
而上述各项参数对比,也清晰体现出,三者侧重点的不同。
极光依旧选择押注AI的核心战场,深度学习训练与推理等垂直领域,同时兼顾3D建模、科学计算等专业场景。
骄阳架构与骄阳指令集,也是专门为此量身打造。
而英伟达和AMD的重心,则放在游戏渲染与通用计算方面,更加注重兼容性与通用性。
前者Pascal架构、CUDA指令集,以及后者的GCN架构、GCN指令集,也更偏向于通用计算。
至于其他几项核心参数,骄阳400的表现也同样惊艳。
早在骄阳200,团队便引入了“存算一体架构”。
可简单理解为,把计算单元和内存“粘在一起”。
如此一来,数据就不用来回搬运,可直接在内存里计算,有效解决了模型训练中的“内存墙”问题。
骄阳300,则在前代的基础上,通过“三维堆叠技术”,进一步缩短了计算单元与存储单元的物理距离。
而骄阳400,则采用了第二代3D堆叠存算一体设计。
计算单元与存储单元,物理距离缩短至500nm!
较前代缩短40%!
并通过集成8GB HBM2e高速缓存,将带宽提升至4TB/s!
数据搬运能耗,较前代降低55%!
较英伟达P100,降低72%!
其依旧采用传统冯·诺依曼架构,数据需在内存与计算单元间频繁搬运,数据搬运能耗占比高达60%。
此外,通过优化权重数据本地化存储策略,骄阳400的权重访问延迟,从前代的10ns,进一步压缩至3.2ns!
较英伟达P100的200ns,降低98.4%!
实测显示,依托于骄阳400,极光通用大模型,单轮训练耗时,从前代的26小时,压缩至8小时!
推理单条请求响应延迟,低至18ms,较前代降低60%!
反观英伟达P100,基础级百亿参数模型训练,单轮耗时便长达38小时。
完全不是一个level~
功耗方面,依托于中芯14N工艺,骄阳400也实现了跨越式进步。
单卡满负载功耗仅320W!
虽较之前代的250W,提升了28%,也高于英伟达P100的300W,但算力却提升了两倍以上!
FP16能效比,高达惊人的150GFLOPS/W!
反观英伟达P100,能效比仅42GFLOPS/W。
并且,骄阳400待机功耗仅8W,如推理任务等轻负载长情,功耗可动态降至120W,适配多场景使用。
这也是他们的独家优势~
而在通信与集群扩展方面,骄阳400的表现更加惊艳!
早在14年,团队便通过自主研发的“三层通信架构”,将骄阳300集群规模,从前代的256卡,提升至512卡!
在那之后,在洛先知的指引下,调整了研发方向。
将骄阳算力卡的集群架构,从“单卡直连式集群”,向“超节点”的方向演进。
类似于后世华威的“昇腾384超节点”。
原因很简单。
单卡直连模式,当集群规模超过1000卡时,极易出现节点间通信冲突、算力调度混乱。
进而导致部分节点,算力过载或算力闲置的内耗状况。
且随着节点数量增加,通信延迟呈指数级上升。
而“超节点”模式,则相当于将1000张卡,分为几个小团队。
每个超节点,配备一张“专用超节点管理芯片”。
先让超节点内部协调好,再和其他超节点配合,效率自然也就更高。
这种模式,可大幅提升算力利用率,适合管理更大规模的算力。
如“万卡集群”。
而如今,历时一鲲年,骄阳400稳稳踏出了第一步!