骄阳500的FP16能效比,高达1500GFLOPS/W!
是Tesla V100的2.5倍!
INT8能效比,高达3600TOPS/W!
是Tesla V100的5.4倍!
实现显示,骄阳500的千亿参数通用大模型,单轮训练耗时仅2.5小时!
而Tesla V100需18小时。
且骄阳500全程功耗,较V100集群降低40%以上!
长期使用的电费成本优势显著!
此外,骄阳500的另一项核心技术壁垒,“存算一体”架构,前代的基础上,实现了物理距离与带宽的双重突破!
第三代“3D堆叠存算一体”涉及,将计算单元与存储单元的物理距离,从前代的500nm,进一步缩短至200nm!
并通过集成16GB HBM3高速缓存,带宽翻倍提升至8TB/s!
数据搬运路径大幅缩减,搬运能耗较前代降低65%!
且内存访问延迟降低70%!
另一方面,通过优化权重数据本地化存储策略,骄阳500的权重访问延迟,从前代的3.2ns压缩至0.8ns!
较V100的200ns,低了99.6%!
彻底解决大模型训练的“数据搬运瓶颈”!
而除了单卡性能,骄阳500在集群扩展效率方面,表现也颇为惊艳。
这也是洛川认为,AI算力竞争决胜的关键!
骄阳500的通信架构,沿用了前代“芯片间-节点间-超节点间-集群间”的四层通信架构。
并通过进一步优化迭代的“星际互联协议4.0”,实现了带宽与延迟的双重突破!
单链路带宽,由前代的400GB/s,增长至1.2TB/s!
节点间通信延迟,也从<2μs,进一步压缩至<150ns!
1μs=1000ns!
集群最大规模,更是从前代的2048卡,扩展是10240卡!
理论上,已足以支撑万卡集群!
反观Tesla V100,其依靠NVLink互联,带宽仅300GB/s,延迟也仅能压缩至300~500ns区间。
很显然,通信这一块,英伟达还是差点意思~
而除了骄阳500之外,团队此番还同步研发了一款TPU,骄阳Q1。
如果说,骄阳算力卡是一个,可提供全场景覆盖和通用计算能力的“全能型战士”。
那TPU,就是能够提供极致AI性能和超低能耗的“纯AI专精选手”。
其专注于“AI张量运算”,在超大规模推理训练中,单卡张量并行效率,比前者提升40%!
且单位功耗推理性能,是GPU的3倍以上!
而单卡的超低功耗,意味着在相同供电和散热条件下,数据中心可部署的TPU数量,是算力卡的3~4倍!
总算力提升1.5~2倍!
此外,由于其采用极简设计,相同算力下,单芯片成本仅为GPU的1/3~1/2。
与之相应的是,其在3D建模、科学计算、视频编解码、通用浮点运算等,非AI张量领域,几乎不具备实用价值,性能甚至不及入门级GPU。
这是极致专精路线下,必然的功能取舍。
但对于已具备骄阳算力卡的极光而言,TPU的这些缺点,根本无关紧要~
骄阳算力卡,可负责大模型的预训练、复杂多模态任务处理,以及需要通用计算的AI+科学计算场景。
而“骄阳Q1”TPU,只需负责大模型的规模化推理、在线智能服务、批量数据处理等,纯AI张量运算场景即可。
两者形成的“训练-推理”黄金组合,完美覆盖AI全链路需求,并且大幅提升了极光的算力资源利用率!
这也是团队为何,在有了算力卡的情况下,仍开发TPU的根本原因。
而骄阳Q1的性能参数,也完美达到了团队的预期~