就这样沉淀了近十年,每年投入数十上百亿,才收获了如今的成果。
没有所谓一蹴而就的奇迹,有的只是日复一日的深耕。
而这份没有任何捷径可走的底层技术底蕴,也将成为他们的核心竞争力~
正如前世的昇腾384超节点一样。
当然,极光的技术路线,跟华威并非一条路。
比如,通信架构方面,极光采用分层互联,而华威则采用全对等直连。
又比如,软件调度系统,极光选择超节点自治,而华威选择集中管控。
总之,双方都是基于各自的技术储备,做出的最优选择。
各方面皆有不同,也皆有优劣。
其三,存储层。
团队开发了一套分布式存储集群,总容量为10PB HDFS+2PB全闪存储。
再结合超节点本地共享存储池,存储训练数据、模型权重、中间结果,提供低延迟数据访问。
这一块,对于极光来说,倒是还蛮简单的。
他们最为擅长的领域之一,便是分布式技术~
其四,调度层。
团队开发了一套“极光智算调度平台”,包含超节点管理引擎、全局算力调度模块,以及节点故障、卡级故障等容错机制。
负责统一管理集群资源、动态分配算力、处理节点故障,保障任务连续性。
除此之外,团队还开发了全套核心软件栈。
包括底层驱动,即“骄阳驱动V2.3”,适配骄阳指令集,支持存算一体架构调度,以衔接硬件与上层软件,优化指令执行效率。
还有“极光智算框架”,提供模型训练、推理的核心算法库,支持数据、模型、张量三维并行。
这套框架,早在极光通用大模型面世之初,便已完成开发,如今已迭代至4.0版本。
此外,还有模型压缩工具、数据预处理工具、集群监控平台等配套工具链,以提升模型训练效率、简化集群运维。
总而言之,极光已实现从算力卡、芯片管理、通信协议,到调度软件、模型训练等全链路自主可控!
无任何外部授权依赖!
唯一还称得上是风险的,应该也就是存储了。
长江存储等国产厂商,目前确实还差点意思。
不过这一块,他们也已经在集中攻关了。
在真正的AI浪潮席卷全球之前,应该能取得一定的成果。
当然,现阶段,他们也只是初步完成,首批“超节点”部署的技术验证而已。
离真正实现“万卡集群”,还有一段不小的距离。
不论是万卡集群架构,还是存算一体架构,亦或是星际通信协议、软件栈等等,都需要进一步优化升级。
最关键的是,骄阳400虽在AI领域,足以吊打同期竞品,但仍远不足以支撑起,万亿参数级大模型的全流程训练。
想要实现这一点,至少也需要工艺制程达到7nm,单卡FP16算力再翻三倍。
这意味着,极光在研发骄阳算力卡与极光大模型之余,还得协助中芯国际,在14N的基础上,尽快实现N+1、N+2工艺。
哦对了。
还有一个EDA工具链。
乐观估计,至少也需要四五年时间。
就还挺烦的。