虽核心性能参数,跟GPT-4o、Claude 3等头部闭源大模型相比,仍有15%~20%差距,但已是业界最强的开源大模型之一。
且得益于“全参数开源+商业授权双轨制”策略,吸引全球120万开发者接入,生态规模3个月内膨胀八倍。
百度发布文心一言4.0,强化多模态能力,在中文推理、语言理解方面表现优异。
企鹅动作一如既往的稳健,或者说是迟缓,仅发布了混元T1和Trubo S版本,并启动了AI助手“元宝”内测。
字节也升级了豆包大模型,强化中文理解和多轮对话能力,并接入了今日头条、火山小视频、西瓜视频等更多字节系产品。
与一众只是进行基础升级的大厂相比,反倒是一众新势力,在创新方面更加亮眼。
比如,创始人团队,来自水木大学的智谱AI,正式发布了GML-4基座大模型。
其首创了“混合专家注意力机制”,在保持模型规模不变的情况下,推理速度提升50%,成本降低40%!
整体性能,较前代提升60%,逼近GPT-4的水平。
支持128K上下文,并推出GLMs定制化个人模型,降低使用门槛。
又比如百川智能发布的Baichuan 3,采用“迭代式强化学习”技术,提升语义理解和生成能力,在中文测评中超越GPT-4。
还有月之暗面的Kimi大模型,成功突破200万字长文本处理能力,访问量与市场关注度激增。
并一举引爆国内大模型长文本竞赛,BAT等巨头连夜跟进。
这也是今年Q1,国内大模型领域的标志性事件。
说实话,当下这种技术演进趋势,就还挺让人无奈的。
海外大模型竞争,多集中在基础能力与前沿技术。
不断优化Transformer架构,以更长上下文、更强多模态、更高推理精度,形成对全球市场的技术压制。
技术潮流也多是由OpenAI、谷歌等头部大厂引领。
国内则刚好反过来。
头部大厂跟在海外巨头屁股后面,亦步亦趋抄作业。
抄还抄不明白,只能在参数调优、应用适配层面发力,寻找差异化优势。
反倒是一众新势力,凭借创新优势,在中文理解、长文本处理等领域,接连实现单点突破。
但受限于资金、算力、数据等资源,难以形成全栈优势,还面临被大厂技术并购、生态挤压的风险。
很显然,国内大厂的“创新机制”,已经全面失效了。
或者说,从最开始,他们便缺少“底层创新基因”,就是乘着时代红利,一路靠“汉化”和“微创新”走到了今天。
而后凭借天量资本优势,稳固当前的统治地位。
就还挺让人气馁的。
好在,洛川也从未指望,这帮队友能起到什么“神助攻”的作用。
自始至终,他们都打算自己来。
值得一提的是,在瑶瑶姐和小圆子的主导下,下一代“星数架构”的理论框架搭建,推进的颇为顺畅。
事实上,也不只是大模型团队。
以二胖为首的无人机团队,以小团子、星仔为首的机器人团队,还有洛川亲自主导的元宇宙项目组,均分出了部分核心研发力量,深度参与到了下一代“星数架构”的底层研发之中。
随着“星火计划”各个核心项目组,产品与技术的高速迭代演进,一个看似惊奇,实则又理所当然的巧合悄然浮现。
无人机的全域智能调度、人形机器人的物理世界交互、元宇宙的底层技术基座,均高度依赖“星数架构”的核心突破。
即——模型对真实物理世界的理解能力。