中芯N+3工艺,核心目标是提升晶体管密度与能效比,为高端AI芯片,可供自主可控的先进制程支撑。
而在联合研发小组的集中攻关下,团队成功将N+3工艺的晶体管密度,从前代的108MTr/mm²,提升至125MTr/mm²!
介于台积电N6与三星早期5nm之间。
等效台积电5.5nm水平!
而骄阳600,作为骄阳500的迭代升级款,延续了“全栈自研+架构创新”路线,在中芯N+3工艺加持下,性能实现了大幅跃升!
晶体管数量,从前代的450亿,暴涨至820亿!
稍优于英伟达H100的800亿晶体管数量。
后者为英伟达去年发布的旗舰AI芯片,采用台积电4N工艺,为5nm改进版。
看似只是微弱的20亿差距,但在这背后,其实是中芯N+3工艺,以及极光DTCO,即设计与工艺协同优化技术的深度结合。
这也变相验证了国产工艺,在高密度集成上的性能潜力。
核心性能方面,得益于全栈自研骄阳指令集与骄阳架构,骄阳600更是呈现出了碾压级优势!
其采用的“骄阳V3架构”,在前代基础上,新增了32条稀疏矩阵计算指令与混合精度优化指令。
单条指令可覆盖16步通用操作,AI算子执行效率提升150%!
AI计算单元占比,提升至93%!
无效功耗压缩至7%以下!
这意味着,骄阳600的每一分功耗,都用在了AI计算上,而非通用场景的“无用功”。
这也是骄阳芯片,相较于英伟达、AMD通用芯片的核心优势所在。
无需考虑“通用计算冗余”,只需将全部精力,聚焦于AI核心任务之中。
其次,骄阳架构的“指令集映射引擎”,也升级至“V3.0”版本。
支持TensorFlow 2.15+、PyTorch 2.0+、MXNet 1.9+三大框架最新版本。
模型迁移适配率达99.9%!
并新增“大模型分片训练自动优化”功能,万亿参数模型适配时间,从前代的2小时,压缩至15分钟以内!
适配性方面,极光本身并不怎么需要。
极光通用大模型,及其衍生出的子模型、专家模型,全都是基于“星数架构”与“极光智算训练框架”,先天与骄阳芯片深度适配。
之所以优化指令集映射引擎,更多还是为了方便极光云,对外输出AI算力,降低企业客户的使用门槛。
此外,骄阳架构的“存算一体架构”,此番也升级至“4.0”版本。
计算单元与存储单元物理距离,从前代的200nm,进一步缩短至120nm!
数据搬运能耗,大幅降低75%!
内存访问延迟,降低78%!
权重访问延迟,压缩至0.4ns!
较H100的150ns,低了99.73%!
这意味着,万亿参数模型的权重数据,几乎可“零延迟”调用,彻底解决大模型训练的“数据搬运瓶颈”!
而架构与指令集的升级,推动骄阳600的各项核心性能参数,呈指数级增长!
INT8稠密算力,从前代的572TFLOPS,暴涨至1330TFLOPS!
是英伟达H100/H200的两倍!
后两者仅有669TFLOPS。
FP16/BF16稠密算力,同样高达665TFLOPS!
碾压英伟达A100的315TFLOPS,以及H100/H200的337TFLOPS!
FP32通用算力,骄阳600从前代的32TFLOPS,跃升至72TFLOPS!
小优于英伟达H100/H200的66.9TFLOPS。
核心原因在于,“通用性”并非骄阳芯片所追求的,差不多够用也就得了~
此外,骄阳600,还支持FP4精度计算!
FP4稠密算力,高达2660TFLOPS!
这一设计,专为大模型推理而生。
在保证精度损失<0.5%的前提下,实现算力翻倍!
这也是当前市面上,唯一一款支持该精度混合运算的高性能AI芯片!
内存容量方面,骄阳600的96GB HBM3,优于英伟达H100的80GB HBM3,但逊于H200的141GB HBM3e。
后者的主要升级点,便是内存容量与内存带宽。
这一块,主要是受限于,长江存储和长鑫存储的HBM3e量产进度。
不过联合研发小组已明确,半年内即可完成国产HBM3e技术突破。
届时,骄阳600,可通过内存模块升级,直接扩充至192GB,彻底补齐短板!
不过虽内存容量暂且落后,但骄阳600的内存带宽,高达12TB/s!
是英伟达H100的3.58倍!
H200的2.5倍!
倍数级的高带宽优势,直接抵消了内存容量上的短板,数据吞吐效率远超竞品!
并且,依托于进一步优化迭代的“星际互联协议5.0”,骄阳600的单链路带宽,从前代的1.2TB/s,翻倍提升至2.4TB/s!
节点间通信延迟,也压缩至<80ns!
较H100的NVLink 4.0,快了3.75~6.25倍!
支持20480卡超大规模集群!
理论上,可支撑10万亿参数模型全流程训练!
这也使得,骄阳600的功耗优势极为显著!
420W功耗,即可实现665TFLOPS FP16算力!
能效比高达惊人的1547GFLOPS/W!
相同算力下,集群功耗较英伟达H100,大幅降低40%!
年电费节省超3000万/万卡集群!
总之,骄阳600,在所有核心指标上,全面超越英伟达A100/H100!
相较于H200,也只在内存容量方面,暂且稍逊一筹。
但需要注意的是,H100/H200,为英伟达去年发布的旗舰AI芯片。
前世,英伟达于24年发布的下一代旗舰,B100/B200,采用新一代“Blackwell架构”,以及台积电4NP制程,算力性能大幅跃升。
届时,骄阳600现有的算力优势,必将被对方全面反超。
没办法。
于AI芯片而言,工艺制程的影响,远大于手机芯片。
这也是国产AI芯片的先天劣势。
当然,团队也没有坐以待毙的打算,后续将以“先进制程打磨+封装创新”双轮驱动,实现“性能提升+成本可控+能效领先”三维突破!
一方面,在N+3工艺突破后,团队虽放弃了5nm以下节点技术攻关,但同时又启动了“钻石计划”。
从GAA结构改良、阈值电压精细化、应变硅增强、金属堆叠升级等方面,持续挖掘N+3工艺潜力。
另一方面,团队还启动了“非摩尔定律”路线同步研发。
比如“Chiplet异构集成技术”。
通过Chiplet技术,将“计算-存储-互联”模块化拆分与异构集成,进而打破单芯片性能天花板,实现从“单芯”到“多芯”的质变!
以骄阳600为例。
双芯粒配置下,其单卡FP8算力,将从1330TFLOPS,暴涨至3200TFLOPS+!
而非翻倍的2660TFLOPS!
内存容量,也将随之扩展至384GB HBM3e!
而除了硬件升级外,团队同时还在架构与微架构创新方面下功夫。
比如,进一步优化张量核心、深化存算一体架构、优化多精度自适应。
同步构建三级缓存机制、HBM3e+DDR5混合内存池、升级预取引擎等等。
总之,核心思路还是那样——“用数学补物理”。
虽芯片制程受限,但骄阳系列可优化的地方还有很多。
如果一切顺利的话,骄阳系列单卡性能,有望在2年内提升3~4倍!
集群总算力,提升8~10倍!
同时保持30%的成本优势~
所以说,慌不了一定嗷~