亚图小说网
首页 > 都市言情 > 重回05从校内网开始狂卷笔趣阁 >

第1278章 惊艳的骄阳500!&骄阳Q1!

章节目录

  骄阳500的FP16能效比,高达1500GFLOPS/W!

  是Tesla V100的2.5倍!

  INT8能效比,高达3600TOPS/W!

  是Tesla V100的5.4倍!

  实现显示,骄阳500的千亿参数通用大模型,单轮训练耗时仅2.5小时!

  而Tesla V100需18小时。

  且骄阳500全程功耗,较V100集群降低40%以上!

  长期使用的电费成本优势显著!

  此外,骄阳500的另一项核心技术壁垒,“存算一体”架构,前代的基础上,实现了物理距离与带宽的双重突破!

  第三代“3D堆叠存算一体”涉及,将计算单元与存储单元的物理距离,从前代的500nm,进一步缩短至200nm!

  并通过集成16GB HBM3高速缓存,带宽翻倍提升至8TB/s!

  数据搬运路径大幅缩减,搬运能耗较前代降低65%!

  且内存访问延迟降低70%!

  另一方面,通过优化权重数据本地化存储策略,骄阳500的权重访问延迟,从前代的3.2ns压缩至0.8ns!

  较V100的200ns,低了99.6%!

  彻底解决大模型训练的“数据搬运瓶颈”!

  而除了单卡性能,骄阳500在集群扩展效率方面,表现也颇为惊艳。

  这也是洛川认为,AI算力竞争决胜的关键!

  骄阳500的通信架构,沿用了前代“芯片间-节点间-超节点间-集群间”的四层通信架构。

  并通过进一步优化迭代的“星际互联协议4.0”,实现了带宽与延迟的双重突破!

  单链路带宽,由前代的400GB/s,增长至1.2TB/s!

  节点间通信延迟,也从<2μs,进一步压缩至<150ns!

  1μs=1000ns!

  集群最大规模,更是从前代的2048卡,扩展是10240卡!

  理论上,已足以支撑万卡集群!

  反观Tesla V100,其依靠NVLink互联,带宽仅300GB/s,延迟也仅能压缩至300~500ns区间。

  很显然,通信这一块,英伟达还是差点意思~

  而除了骄阳500之外,团队此番还同步研发了一款TPU,骄阳Q1。

  如果说,骄阳算力卡是一个,可提供全场景覆盖和通用计算能力的“全能型战士”。

  那TPU,就是能够提供极致AI性能和超低能耗的“纯AI专精选手”。

  其专注于“AI张量运算”,在超大规模推理训练中,单卡张量并行效率,比前者提升40%!

  且单位功耗推理性能,是GPU的3倍以上!

  而单卡的超低功耗,意味着在相同供电和散热条件下,数据中心可部署的TPU数量,是算力卡的3~4倍!

  总算力提升1.5~2倍!

  此外,由于其采用极简设计,相同算力下,单芯片成本仅为GPU的1/3~1/2。

  与之相应的是,其在3D建模、科学计算、视频编解码、通用浮点运算等,非AI张量领域,几乎不具备实用价值,性能甚至不及入门级GPU。

  这是极致专精路线下,必然的功能取舍。

  但对于已具备骄阳算力卡的极光而言,TPU的这些缺点,根本无关紧要~

  骄阳算力卡,可负责大模型的预训练、复杂多模态任务处理,以及需要通用计算的AI+科学计算场景。

  而“骄阳Q1”TPU,只需负责大模型的规模化推理、在线智能服务、批量数据处理等,纯AI张量运算场景即可。

  两者形成的“训练-推理”黄金组合,完美覆盖AI全链路需求,并且大幅提升了极光的算力资源利用率!

  这也是团队为何,在有了算力卡的情况下,仍开发TPU的根本原因。

  而骄阳Q1的性能参数,也完美达到了团队的预期~

章节目录
书友推荐: 1978从长影厂开始 我的救世游戏成真了 领主:从召唤蓝星正规军开始 我,素申仙君,让精灵再次伟大 重生之浪王之王 柯南:我真觉得米花町是天堂 梦回二战从西西里开始的财阀帝国 中古战锤:鼠鼠也要基因飞升 喧嚣未及之处 权游:我有一个星露谷面板 短跑:初中的我,跑赢亚洲飞人 公若不弃,愿拜为义父 超凡大谱系 巫师:从不义超人至太阳神 我的旁白充满了魔道气息 火红年代!从随身空间开始 修真版大明 主公,你要支棱起来呀 从霍格沃茨开始的亡灵法师生涯 从机械猎人开始