2014年下半年,极光、星光与中芯国际,联合启动14N工艺攻关。
虽是以昆仑400为牵引,但与之同步启动的,其实还有骄阳400。
时至今日,经过三轮优化调整,骄阳400终于成功落地!
并于魔都数据中心小规模部署,进行全链路技术验证与场景化压力测试!
而洛川手中这份报告,正是初步的测试结果。
各项性能参数,可以用两个字评价。
亏贼!!
相较于前代,骄阳400可谓全方位跨越式升级!
首先自然是制程工艺,从28nm,直接跃升至14nm FinFET!
晶体管密度高达120MTr/mm²!
较骄阳300提升66.7%!
总晶体管数,高达120亿!
其次便是架构与指令集。
此前曾提到过,洛川为骄阳算力卡,设计了“三步走”的技术迭代路径。
第一阶段,通过开源RISC-V架构,快速落地初代产品,优化测试,积累经验。
第二阶段,自研“骄阳架构”与“骄阳指令集”,专用于大模型云计算,以提升计算效率与能效比。
最后一步,则是将骄阳架构,进一步拓展为“AI专用+通用计算”混合体,以便跨界适配。
如AI+智驾。
前几代产品,都处于第一步向第二步过渡阶段。
而骄阳400,则全面跨入第二阶段,并开始向第三阶段演进!
该芯片采用纯自主“骄阳架构V1”,剔除了所有RISC-V兼容模块!
AI计算单元占比,从前代的60%,提升至85%!
并针对Transformer、CNN等AI模型的计算流,进行深度优化。
指令执行效率,较纯RISC-V架构,提升350%!
且全面适配全栈自研骄阳指令集!
该指令集,包含64条高频AI指令,如自注意力计算专用指令、张量并行指令等等。
单条指令可覆盖多步通用指令操作,AI算子执行效率,较前代提升280%!
较纯RISC-V架构,提升420%!
此外,通过极光自主研发的“指令集映射引擎”,骄阳指令集可兼容主流AI框架。
模型迁移适配率,高达99.5%!
无需额外修改代码,即可运行现有大模型!
这一点,极光本身倒是没什么需求。
不论是极光通用大模型,亦或是由其衍生的数十款专家模型,从硬件、通信协议,到调度软件、计算框架,均为极光自主研发,无任何外部依赖。
但未来,极光云对外输出AI云算力时,适配性与兼容性就很重要了。
至此,骄阳算力卡,终于实现了从“芯片硬件设计”,到“底层指令集定义”的全链路自主可控!
从08奥运前后,骄阳系列立项以来,这一步,极光整整走了九年!
九年!!
都特么是泪啊。。
好在,他们最终如愿收获了丰硕的果实。
骄阳400,在AI场景下,展现出了碾压级的巨幅领先!
FP16算力,高达48TFLOPS!
同比暴增236%!
对比同期国际头部产品,英伟达Tesla P100,FP16算力仅22.4TFLOPS。
AMD M125的FP16算力,更是仅有17.9TFLOPS。
骄阳400轻松倍杀~
FP32算力,其也从前代的4.16TFLOPS,跃升至12.8TFLOPS!
稳压Tesla P100的9.3TFLOPS!
INT8算力,骄阳400更是高达96TOPS!
为P100的3.8倍!