“骄阳Q1”TPU,是团队基于骄阳指令集,专为大规模AI训练与推理,打造的专用张量处理单元!
专注于高密度低延迟推理。
其同样采用了中心N+1工艺,总晶体管数量达150亿!
AI计算单元占比,高达96%!
核心架构方面,其采用了基于“骄阳架构”衍生的“骄阳脉动阵列架构”。
其中集成了65536个并行处理单元,呈256×256矩阵排列,采用“数据加载→矩阵计算→结果存储”三级流水设计。
指令执行效率,较骄阳500提升40%!
此外,由于其同样是基于骄阳指令集开发,可完全兼容骄阳500的96条AI专用指令,支持模型无缝迁移!
这意味着,二者可以混合部署,构建“训练-推理”一体化AI基础设施!
并且,基于与骄阳500同源的“存算一体3.0”架构,骄阳Q1的计算单元与存储单元,物理距离同样低至200nm!
带宽高达8TB/s!
片上权重访问延迟,低至0.8ns,彻底解决“内存墙”问题!
较谷歌TPU v3的200ns,快250倍!
且数据搬运能耗降低85%!
比TPU v3低了24%!
核心算力指标方面。
骄阳Q1的INT8算力,约为380TOPS。
FP16算力,约为158TFLOPS。
整体而言,稍逊于谷歌TPU v3。
其INT8算力为420TOPS,FP16算力为180TFLOPS。
虽说,极光在AI芯片领域深耕多年,但前期精力都集中在算力卡领域,ASIC专用芯片研发,起步相对较晚。
反观谷歌TPU,已经迭代了三轮,从架构到制程,都已经过多轮优化。
极光的初代TPU,就能追到这种程度,已经算是很不错了。
况且,依托于纯自主架构与算法协同的优势,骄阳Q1在能效比方面,依旧有着不小的领先。
其INT8能效比,高达2400TOPS/W!
轻松碾压谷歌TPU v3的1050TOPS/W!
在轻负载推理场景下,骄阳Q1功耗更是低至25W!
比TPU v3低93%!
这意味着,相同预算下,极光可部署3倍数量的骄阳Q1!
总体推理性能,大幅反超TPU v3集群!
而随着骄阳500和骄阳Q1的成功面世,极光的“万卡集群计划”,最后一块算力拼图,也终于得以补全!
此前提到过,早在16年,骄阳400面世后,团队便已完成了“超节点”预部署。
并构建起一套,“超节点+胖树拓扑”四层集群架构设计,为“万卡集群”打好了地基。
在过去的近3年里,团队又将该架构,进一步升级为,“超节点异构融合+胖树拓扑”架构,将骄阳Q1也纳入其中。
并在硅光通信模块、超节点管理、全局算力调度、容错机制、分布式存储集群、统一资源视图、“训练-推理自动流转”等多个核心领域,实现了从“单点技术优化”,到“全链路协同适配”的系统性突破!
可以说,除了最核心的算力密度上限之外,一切皆已准备就绪!
骄阳400确实很不错,即便放到现在也很能打。
但仍远不足以支撑起,万亿参数级大模型的全流程训练。
而骄阳500和骄阳Q1,则完美补全了最后一块短板!
整体方案,大致可分为三个部分。
其一,硬件架构,采用“分区异构+超节点双芯融合”设计。
管理调度层。
采用“极光智算V5.0”,搭配128颗“星枢X3”管理芯片,支持异构资源统一视图。
训练-推理任务智能路由,跨区切换延迟<1s!
互联层,采用“硅光通信模块+RoCE+独立管理网”三平面互联设计。
跨区通信延迟≤5μs!
计算层,分为“骄阳500训练区”和“骄阳Q1推理区”。
前者共包含28个超节点,合计7168张算力卡,负责大模型预训练与复杂任务处理。
后者则包含3072张骄阳Q1,专门负责高密度推理与实时响应。
二者按7:3配比,形成“训练-推理”黄金组合。
既保证了训练的算力冗余,又通过Q1的低功耗特性,控制了集群整体能耗。
属于兼顾性能与成本的最优解!