一番看下来,洛川美美滋溜一口热茶,搓搓手,满怀期待的点开下一份文件——骄阳500性能测试报告!
骄阳500的研发工作,与昆仑500同步展开,也是前后脚完成流片。
目前,团队已在魔都数据中心,小规模部署算力卡,进行全链路技术验证与场景化压力测试。
而他手中的这份报告,正是初步的测试结果。
各项性能参数皆颇为喜人~
首先是工艺制程方面。
骄阳500,采用中芯N+1工艺,制程从前代的14nm,跨代跃升至7nm!
当然,这里指的是“等效7nm”。
总晶体管数量,从前代的120亿,暴增至450亿!
这意味着,芯片可集成更多计算单元、缓存模块与互联总线。
并行处理能力提升3.75倍!
其次是架构与指令集。
骄阳500,采用基于骄阳指令集,自主研发的“骄阳架构V2”!
该架构在前代“V1”的64条AI指令基础上,新增了24条,多头注意力计算指令和张量并行优化指令。
单条指令可覆盖12步通用指令操作,AI算子执行效率,较前代提升120%!
AI计算单元占比,也从前代的85%,进一步提升至91%!
芯片资源更聚焦于AI核心任务,无效功耗占比,压缩至9%以下!
此外,团队还升级了“指令集映射引擎V2.0”,支持TensorFlow、PyTorch、MXNet三大主流框架。
模型迁移适配率,高达99.8%!
几乎无需修改代码,即可运行千亿参数级大模型!
这一块,极光本身依旧没什么需求。
此前提到过,不论是极光大模型,亦或是由其衍生的数十款专家模型,皆是基于极光自有的“极光智算框架”深度优化,无任何外部依赖。
之所以优化骄阳指令集兼容性,更多是为了极光云,未来对外输入AI云算力时,可无缝对接全球各类企业客户的现有模型资产,降低合作门槛。
进而快速抢占,AI算力服务市场份额。
而架构与指令集的优化迭代,加之制程工艺跨代升级,也使得骄阳500,实现了算力与能效比的双重飞跃!
FP16算力,由前代的48TFLOPS,暴增至286TFLOPS!
性能提升498%!
远超英伟达Tesla V100!
其FP16算力,仅125TFLOPS。
不过需要注意是,英伟达这款旗舰产品,发布于17年,采用的是台积电12nm制程。
所以性能才会被骄阳500,甩开这么远。
等明年英伟达发布Tesla A100,采用台积电7nm制程,性能大概率会反超骄阳500。
没办法。
中芯N+1工艺,与台积电N7工艺相比,晶体管密度仍有10%~12%的差距。
不过也无所谓就是了。
极光也从未追求过单卡性能极限。
算力集群协同效率,以及自主生态可控性,才是他们真正追求的。
至于其他几项核心算力参数,骄阳500也同样展现出了碾压级优势!
通用计算FP32算力,高达32TFLOPS!
AI推理核心INT8算力,更是高达572TOPS!
自注意计算能力,高达350万亿次/秒!
ResNet-50训练效率,达到惊人的5000轮/小时!
总之,几乎每项核心参数,都是英伟达Tesla V100的数倍!
包括能效比也是如此。