亚图小说网
首页 > 都市言情 > 重回05,从校内网开始狂卷! >

第1359章 全域领先!&永不宕机~

章节目录

  中芯N+3工艺,核心目标是提升晶体管密度与能效比,为高端AI芯片,可供自主可控的先进制程支撑。

  而在联合研发小组的集中攻关下,团队成功将N+3工艺的晶体管密度,从前代的108MTr/mm²,提升至125MTr/mm²!

  介于台积电N6与三星早期5nm之间。

  等效台积电5.5nm水平!

  而骄阳600,作为骄阳500的迭代升级款,延续了“全栈自研+架构创新”路线,在中芯N+3工艺加持下,性能实现了大幅跃升!

  晶体管数量,从前代的450亿,暴涨至820亿!

  稍优于英伟达H100的800亿晶体管数量。

  后者为英伟达去年发布的旗舰AI芯片,采用台积电4N工艺,为5nm改进版。

  看似只是微弱的20亿差距,但在这背后,其实是中芯N+3工艺,以及极光DTCO,即设计与工艺协同优化技术的深度结合。

  这也变相验证了国产工艺,在高密度集成上的性能潜力。

  核心性能方面,得益于全栈自研骄阳指令集与骄阳架构,骄阳600更是呈现出了碾压级优势!

  其采用的“骄阳V3架构”,在前代基础上,新增了32条稀疏矩阵计算指令与混合精度优化指令。

  单条指令可覆盖16步通用操作,AI算子执行效率提升150%!

  AI计算单元占比,提升至93%!

  无效功耗压缩至7%以下!

  这意味着,骄阳600的每一分功耗,都用在了AI计算上,而非通用场景的“无用功”。

  这也是骄阳芯片,相较于英伟达、AMD通用芯片的核心优势所在。

  无需考虑“通用计算冗余”,只需将全部精力,聚焦于AI核心任务之中。

  其次,骄阳架构的“指令集映射引擎”,也升级至“V3.0”版本。

  支持TensorFlow 2.15+、PyTorch 2.0+、MXNet 1.9+三大框架最新版本。

  模型迁移适配率达99.9%!

  并新增“大模型分片训练自动优化”功能,万亿参数模型适配时间,从前代的2小时,压缩至15分钟以内!

  适配性方面,极光本身并不怎么需要。

  极光通用大模型,及其衍生出的子模型、专家模型,全都是基于“星数架构”与“极光智算训练框架”,先天与骄阳芯片深度适配。

  之所以优化指令集映射引擎,更多还是为了方便极光云,对外输出AI算力,降低企业客户的使用门槛。

  此外,骄阳架构的“存算一体架构”,此番也升级至“4.0”版本。

  计算单元与存储单元物理距离,从前代的200nm,进一步缩短至120nm!

  数据搬运能耗,大幅降低75%!

  内存访问延迟,降低78%!

  权重访问延迟,压缩至0.4ns!

  较H100的150ns,低了99.73%!

  这意味着,万亿参数模型的权重数据,几乎可“零延迟”调用,彻底解决大模型训练的“数据搬运瓶颈”!

  而架构与指令集的升级,推动骄阳600的各项核心性能参数,呈指数级增长!

  INT8稠密算力,从前代的572TFLOPS,暴涨至1330TFLOPS!

  是英伟达H100/H200的两倍!

  后两者仅有669TFLOPS。

  FP16/BF16稠密算力,同样高达665TFLOPS!

  碾压英伟达A100的315TFLOPS,以及H100/H200的337TFLOPS!

  FP32通用算力,骄阳600从前代的32TFLOPS,跃升至72TFLOPS!

  小优于英伟达H100/H200的66.9TFLOPS。

  核心原因在于,“通用性”并非骄阳芯片所追求的,差不多够用也就得了~

  此外,骄阳600,还支持FP4精度计算!

  FP4稠密算力,高达2660TFLOPS!

  这一设计,专为大模型推理而生。

  在保证精度损失<0.5%的前提下,实现算力翻倍!

  这也是当前市面上,唯一一款支持该精度混合运算的高性能AI芯片!

  内存容量方面,骄阳600的96GB HBM3,优于英伟达H100的80GB HBM3,但逊于H200的141GB HBM3e。

  后者的主要升级点,便是内存容量与内存带宽。

  这一块,主要是受限于,长江存储和长鑫存储的HBM3e量产进度。

  不过联合研发小组已明确,半年内即可完成国产HBM3e技术突破。

  届时,骄阳600,可通过内存模块升级,直接扩充至192GB,彻底补齐短板!

  不过虽内存容量暂且落后,但骄阳600的内存带宽,高达12TB/s!

  是英伟达H100的3.58倍!

  H200的2.5倍!

  倍数级的高带宽优势,直接抵消了内存容量上的短板,数据吞吐效率远超竞品!

  并且,依托于进一步优化迭代的“星际互联协议5.0”,骄阳600的单链路带宽,从前代的1.2TB/s,翻倍提升至2.4TB/s!

  节点间通信延迟,也压缩至<80ns!

  较H100的NVLink 4.0,快了3.75~6.25倍!

  支持20480卡超大规模集群!

  理论上,可支撑10万亿参数模型全流程训练!

  这也使得,骄阳600的功耗优势极为显著!

  420W功耗,即可实现665TFLOPS FP16算力!

  能效比高达惊人的1547GFLOPS/W!

  相同算力下,集群功耗较英伟达H100,大幅降低40%!

  年电费节省超3000万/万卡集群!

  总之,骄阳600,在所有核心指标上,全面超越英伟达A100/H100!

  相较于H200,也只在内存容量方面,暂且稍逊一筹。

  但需要注意的是,H100/H200,为英伟达去年发布的旗舰AI芯片。

  前世,英伟达于24年发布的下一代旗舰,B100/B200,采用新一代“Blackwell架构”,以及台积电4NP制程,算力性能大幅跃升。

  届时,骄阳600现有的算力优势,必将被对方全面反超。

  没办法。

  于AI芯片而言,工艺制程的影响,远大于手机芯片。

  这也是国产AI芯片的先天劣势。

  当然,团队也没有坐以待毙的打算,后续将以“先进制程打磨+封装创新”双轮驱动,实现“性能提升+成本可控+能效领先”三维突破!

  一方面,在N+3工艺突破后,团队虽放弃了5nm以下节点技术攻关,但同时又启动了“钻石计划”。

  从GAA结构改良、阈值电压精细化、应变硅增强、金属堆叠升级等方面,持续挖掘N+3工艺潜力。

  另一方面,团队还启动了“非摩尔定律”路线同步研发。

  比如“Chiplet异构集成技术”。

  通过Chiplet技术,将“计算-存储-互联”模块化拆分与异构集成,进而打破单芯片性能天花板,实现从“单芯”到“多芯”的质变!

  以骄阳600为例。

  双芯粒配置下,其单卡FP8算力,将从1330TFLOPS,暴涨至3200TFLOPS+!

  而非翻倍的2660TFLOPS!

  内存容量,也将随之扩展至384GB HBM3e!

  而除了硬件升级外,团队同时还在架构与微架构创新方面下功夫。

  比如,进一步优化张量核心、深化存算一体架构、优化多精度自适应。

  同步构建三级缓存机制、HBM3e+DDR5混合内存池、升级预取引擎等等。

  总之,核心思路还是那样——“用数学补物理”。

  虽芯片制程受限,但骄阳系列可优化的地方还有很多。

  如果一切顺利的话,骄阳系列单卡性能,有望在2年内提升3~4倍!

  集群总算力,提升8~10倍!

  同时保持30%的成本优势~

  所以说,慌不了一定嗷~

章节目录
书友推荐: 1978从长影厂开始 战锤宇宙的唯一玩家 从武林门派到长生仙门 灰沼领主,从生物改造开始 人在峨眉,开局获取金色词条 仙朝鹰犬 苟在初圣魔门当人材 半岛教授:顶流爱豆禁止蹭课 序列:八道横行 从三让徐州开始辅佐刘备 从负债百万开始抽取黑科技 影视世界:从前任开始 今天也没有被顾客吃掉 让你搞垮公司,塞尔达是什么鬼? 我,混沌体,开局加入聊天群 三塔游戏 在恐怖电影里力大无穷 奥特曼:进化传说 华娱:女顶流不让我摆烂 古代末世的文弱书生