不同的是,极光并未如西方巨头那般,疯狂堆算力,而是将算力、算法与基础理论研究,放到了同等高度。
后两者的投入比重与研发深度,甚至还要高于算力本身。
原因也很简单。
“极光元宇宙”计划,对算力的需求堪称天量级。
如若不通过算法层,把算力利用率压榨到极限,将每一分算力,都转化为真实性能,单是算力集群的成本,估计就得突破天际,彻底拖垮整个元宇宙的商业化落地节奏。
这也是他们如此看重“星数架构”的根本原因。
反观深度求索,虽背靠幻方量化,同样不缺“小钱”。
但跟一众科技巨头,动辄数百上千亿的投资相比,仍差了不是一星半点儿。
加之外部限制,深度求索还买不到,性能最强的算力卡。
只能在有限资源下,追求极致效率,花小钱办大事儿。
或许也正是因为这种先天基因,深度求索才能开发出,deepseek这种“价格屠夫”。
也因此,洛川选择以干扰程度最低的方式,即把钱交给对方管理,加速对方成长。
避免极光的“集团军文化”,侵蚀幻方的“精益创新基因”。
如今看来,他的计划确实奏效了~
去年年末,deepseek发布了V3系列基础模型,在主流大模型榜单中位居前列,于行业内掀起了不小的波澜。
而就在两天前,深度求索又正式推出了第一代,具备自主推理能力的大模型系列,deepseek-R1!
该模型创新性的采用了“相邻可能探索”算法,一举突破了Transformer传统的“算力堆砌”模式,开创了AI模型自我进化新路径!
其次,其所采用的“纯强化学习推理”,跳过了“监督微调”阶段,直接对基础模型,进行大规模强化学习。
有效验证了“无需大量标注数据,也能增强复杂问题解决能力”的可行性。
更惊人的是,其以557.6万美元的超低训练成本,便达到了GPT-4,90%以上的性能!
成本骤降99.9%!
后者的训练成本超1亿美元。
并且,其所采用的INT4量化技术+动态推理引擎,将128K长文本推理成本,降至GPT-4的1/5!
吞吐量提升4倍!
更为重磅的是,其采用了全面开源战略!
同步开源所有模型权重、训练代码、推理框架,一举击穿了OpenAI等企业的闭源壁垒!
而deepseek-R1及技术论文震撼亮相,瞬间便引发全球科技圈大地震!
Deepseek官网,访问量激增50倍!
API申请量突破10万+!
硅谷科技圈,称其为“神秘的东方力量”。
华尔街分析师,则紧急调整AI行业投资报告。
至于国内,那就更不用说了。
热闹程度,丝毫不亚于“小悠”公测时的全民狂欢~
没辙儿。
虽说,极光通用大模型自面世之初,便暴打全球所有头部大模型。
并且是断层级领先!
优势甚至还在不断扩大!
但除了极光之外,其他大厂,真就一个能打的都没有,被一众欧美巨头花式吊打。
在海外形势愈发严峻且激烈的当下,国内好不容易又冒出来一个,纯靠技术硬实力,正面硬刚欧美顶级AI玩家的国产大模型,网友不激动就怪了。
并且,deepseek-R1,发布的时间节点,也颇为耐人寻味。
几乎是在同期,隔壁大金毛,正式官宣了一项重磅计划。