此前提到过,洛先知为骄阳系列,安排了“三步走”的技术迭代路径。
先通过开源RISC-V架构,快速落地初代产品,优化试验,积累经验。
而后自研“骄阳架构”与“骄阳指令集”,专用于大模型云计算,以提升计算效率与能效比。
骄阳指令集,便是洛川在过去的一年里,主要忙活的项目。
最后一步,则是将骄阳架构,拓展为“AI专用+通用计算”混合体,以便于跨界适配。
如AI+智驾。
而骄阳300,便是骄阳系列从RISC-V架构,向自研骄阳架构过渡的关键产品。
其所采用的混合架构中,40%的计算资源,是基于成熟的RISC-V架构,以确保兼容性和稳定性。
剩下的60%,则为骄阳架构的原型计算单元,以实现性能突破。
包含针对AI高频算子优化的硬件加速模块,如矩阵乘法引擎、Transformer注意力并行器、激活函数专用电路等,以及适配存算一体架构的本地化存储单元。
这种渐进式转型策略,既保证了产品可靠性,又为下一代纯自研架构,积累了关键经验。
其次,虽完整的“骄阳指令集”,目前尚未研发完成。
但已能实现,16条AI专用指令的硬件级支持,包括矩阵乘法、激活函数等高频操作。
这些指令,使AI算子执行效率,比纯RISC-V架构,提升230%!
效果还是相当显著的~
此外,还有很重要的一点。
在洛先知的指引下,骄阳200首次引入了“存算一体架构”。
简单来说,就是把计算单元和内存“粘在一起”。
这样一来,数据就不用来回搬运,可直接在内存里计算,有效解决了模型训练中的“内存墙”问题。
而骄阳300,也同样继承了前代的“存算一体”理念,并在此基础上加以改进。
通过三维堆叠技术,进一步缩短计算单元与存储单元的物理距离。
数据搬运能耗,较前代降低30%!
并特别优化了权重数据本地化存储策略,使得极光大模型在训练中,权重访问延迟减少40%!
大幅降低功耗之余,算力也呈倍数提升!
骄阳300单卡FP16算力,从前代的7.92TFLOPS,跃升至14.4TFLOPS!
单卡FP32算力,则从前代的2.3TFLOPS,涨至4.16TFLOPS!
对比同期国际头部产品,英伟达 Tesla K40,FP16算力仅2.1TFLOPS,FP32算力,也仅有4.29TFLOPS。
这两种算力的区别,可简单理解为,“记账精度”的差异。
FP32算力,类似于“精确到分”的严谨记账。
比如买一杯奶茶花了15.56元。
特点是计算精度高,但占用空间大,数据搬运和运算耗时久。
一般用于需要绝对精准的场景,比如航天轨道计算、药物分子模拟、3D建模等等。
而FP16算力,则类似于“精确到元”的高效记账。
比如,买一杯奶茶花了16元,忽略小数点后的零头。
特点是精度够用但不极致,数据占用空间小,数据搬运和运算速度是FP32的2~4倍。
刚好符合AI的核心需求——“快+省”。
适用于AI领域的图片识别、语音转文字、大模型训练等诸多场景。
而昆仑300和英伟达 Tesla K40的参数对比,也可清晰体现出,二者侧重点的不同。
极光押注AI的核心战场,深度学习训练与推理等垂直领域,同时兼顾3D建模、科学计算等专业场景。
而英伟达则将重心,放在游戏渲染与通用计算,同时兼顾高精度的科学计算,兼容性更强。
很显然,西方科技圈,仍尚未觉醒AI意识。
这也意味着,极光的先发优势,仍在持续扩大~
至于其他几项核心参数,骄阳300的表现也同样出色。