更何况,极光也从未追求过什么“单卡性能极限”。
自始至终,他们追求的都是算力集群协同效率,以及自主生态的可控性。
这里就要提到,与骄阳600同步研发的骄阳Q4,以及“极光万卡集群2.0”了。
没错。
在过去的三年里,骄阳TPU已经迭代过三轮了。
而骄阳Q4,则是最新一代旗舰TPU。
如果说,骄阳600是“全能王”,那骄阳TPU便是“推理专精怪”。
其在前代的基础上,升级至N+3工艺的同时,也进一步强化了“张量运算专精”定位。
各项性能参数,堪称推理场景的“能效之王”!
骄阳Q4采用“骄阳脉动阵列架构V4”,采用“数据并行+模型并行+张量并行”三重并行设计。
AI计算单元占比,高达98%!
无效功耗压缩至2%以下,真正实现“极致专精”!
且指令执行效率,较前代提升33%!
单卡张量并行效率,较骄阳600,提升45%!
其所采用的“存算一体3.5”架构,将计算单元与存储单元,物理距离降低至120nm!
权重访问延迟仅0.4ns!
较谷歌TPU v5的180ns,快了450倍!
数据搬运能耗降低88%!
千亿参数模型推理延迟仅0.8ms!
优于H100的1.2ms,以及谷歌TPU v5的1.0ms!
且单位功耗推理性能,高达5.7TOPS/W!
是H100的3.17倍!
谷歌TPU v5的1.78倍!
对于需要超大规模部署推理节点的数据中心而言,Q4的极致低功耗,意味着相同供电下,可部署3倍节点!
总算力提升1.5~2倍!
算力性能方面。
骄阳Q4的INT8推理算力,高达1024TOPS!
大幅反超谷歌TPU v5!
后者INT8推理算力,仅960TOPS。
FP16算力,同样高达510TFLOPS!
优于谷歌TPU v5的450TFLOPS。
此外,骄阳Q4完全兼容,骄阳600的128条AI专用指令,支持模型无缝迁移!
可与骄阳600混合部署,构建“训练-推理”一体化基础设施!
这也是极光的独家优势~
至于“极光万卡集群2.0”,依托于骄阳600与骄阳Q4的性能跃升,辅以集群架构优化,同样实现了全面进化!
其依旧采用“分区异构+超节点三芯融合+全链路协同”设计,将单卡优势放大为集群优势,实现“1+1>2”的协同效应。
骄阳600训练区,由10个超节点,10240张骄阳600构成,负责预训练与复杂任务。
骄阳Q4推理区,则由6个超节点,3072张骄阳Q4构成,负责高密度推理。
每个超节点,采用“双芯计算+单芯管理”三芯融合设计。
训练超节点,包含1024张骄阳600+6张骄阳Q4管理单元+4颗星枢X4调度芯片。
单节点算力达665.6PFLOPS!
支持万亿参数模型分片训练,无需跨区即可完成“训练-验证-调优”全流程!
推理超节点,则由512张骄阳Q4+16张骄阳600加速单元+4颗星枢X4调度芯片。
单节点算力达524.3PTOPS!
支持每秒千万级推理请求,可实时完成“推理-微调-更新”闭环。
互联层面,极光万卡集群2.0,采用极光自研的“硅光通信模块2.0+RoCEv3+独立管理网”三平面互联设计。
跨区通信延迟≤3μs!
带宽达1.6TB/s/链路!
而除了硬件层面,“极光智算V6.0”系统,通过四大优化,大幅提升了集群资源利用率。
其一,统一资源视图V2。
团队将训练区与推理区,抽象为“逻辑算力池”,支持跨区动态调度。
训练低谷时,骄阳600可支援高并发推理。
推理需求下降时,骄阳Q4可参与轻量级训练辅助。
集群资源利用率,进一步优化至在93%以上!
远超行业平均水平的60%~70%!
其二,训练-推理流水线V3。
模型训练完成后,系统可自动将其推送至推理区上线服务,全程无需人工干预。
端到端效率提升50%!
模型迭代后,推理服务可毫秒级更新,极大缩短了AI产品落地周期!
其三,智能容错机制。
通过优化超节点冗余设计,极光万卡集群2.0,支持卡级故障毫秒级切换!
任务中断率<0.02%!
充分保障大规模算力任务稳定性!
对于需要连续运行数天的万亿参数训练任务,稳定性直接决定了项目进度与成本。
其四,能耗智能管理。
系统可根据任务负载,动态调整芯片功耗。
轻负载时,整体功耗降低30%!
集群PUE低至1.18!
相较于H100集群,年节电超4500万度,兼顾性能与成本!
而在完成集群架构升级后,“极光超万卡异构融合集群”,总算力飙升至3.2EFLOPS+1.57PFLOPS!
较前代提升2倍有余!
万亿参数模型训练时间,压缩至38小时!
推理吞吐量,高达120万次/秒!
且功耗低至1.2MW!
反观英伟达H100万卡集群,总算力仅有2.8EFLOPS+1.29PFLOPS。
万亿参数模型训练时间,也长达60小时。
推理吞吐量,仅有80万次/秒。
功耗也高达2.0MW。
谷歌TPU v5万卡集群,总算力更是仅有2.2EFLOPS+0.96PFLOPS。
训练时间长达72小时。
推理吞吐量,虽稍优于英伟达H100万卡集群,达到90万次/秒,但同样显著低于极光万卡集群。
功耗也同样高达1.5MW。
一句话总结。
在“算力、效率、成本、稳定性”四大核心维度,极光万卡集群2.0,全面碾压英伟达、谷歌的旗舰集群!
在这背后,AI高性能芯片的领先,只是一小部分。
AI架构设计、通信技术、软件生态、系统性工程整合能力、供应链整合能力等,多维度的技术协同与全栈自研,才是构筑这道护城河的核心基石。
下一步,极光还打算将万卡集群,与极光星网深度融合,构建“天地一体分布式算力网络”!
星网的高带宽极光链路,将为集群提供“天地一体”的算力备份。
当地面数据中心故障时,可快速切换至太空算力节点,稳定性远超纯地面集群!
对于金融、能源、应急救援等关键领域,“永不宕机”的算力服务,意味着不可替代的商业价值!
综合上述多个硬核领域的系统性突破与深度融合,不吹不黑,除了华威,友商们全是弟弟~