深市。
企鹅总部。
翻看着新鲜出炉的分析报告,小马哥眉头紧锁,心头五味杂陈。
最糟糕的状况,果然还是出现了。。
不。
应该说,比想象中还要糟糕!
自去年底,ChatGPT引爆AI大模型浪潮以来,各家互联网巨头,便纷纷紧急启动大模型研发。
包括企鹅,也斥资200亿,加大对该领域的投资布局,同步加速混元大模型研发。
研发进展也颇为顺畅。
事实上,在ChatGPT爆火前,企鹅便已布局AI多年。
早在21年,他们就发布了混元基础模型,去年便已具备对话模型研发能力。
其他几家也是差不多的状况。
比如白度,19年便推出了首个ERNIE大模型。
21年的ERNIE 3.0,参数量已达千亿级。
阿狸那边,20年启动大模型研发,去年完成千亿参数模型训练。
这些技术积累,让各家在ChatGPT发布后,仅需3~6个月,即可完成对话模型微调与产品化,而非从零开始研发。
当然,这背后,开源生态的赋能,也起到了不小的作用。
如Transformer模型架构、PyTorch/TensorFlow框架、Hugging Face生态等底层开源架构与生态,大幅降低了大模型的研发门槛。
然而,顺畅归顺畅,但在性能方面,他们与GPT-3.5的差距也切实存在。
比如推理与逻辑能力。
GPT-3.5已能通过律师资格考试,而混元大模型,仅能勉强达到“入门”水平。
数学竞赛题测试,GPT-3.5,准确率高达82%,后者仅能达到50%~60%。
又比如幻觉控制能力。
GPT-3.5幻觉率,仅有10%~15%。
而混元大模型的幻觉率,高达15%~25%。
具体表现在,后者在回答专业问题时,易编造不存在的文献应用。
而GPT-3.5,则能更准确的区分,已知与未知信息。
此外,还有多模态融合能力、训练数据量与时效性等诸多层面,GPT-3.5都存在十分显著的领先。
并且,这不只是企鹅一家的问题,而是国内互联网行业,普遍面临的困境。
一方面,国内基础研究起步较晚,普遍更偏向“应用层研发”。
而欧美巨头,则长期深耕AI基础理论。
在Transformer架构、预训练技术、对齐技术等核心领域,至少领先国内3~5年。
另一方面,由于阿丑的针对,他们无法获取足量英伟达A100/H100、AMD MI250等高性能AI芯片,严重影响了大模型训练效率。
除此之外,数据质量,也是国内大模型的明显弱项。
GPT-3.5的训练数据,涵盖了全球数十亿页的高质量文本、代码、图像数据,且时效性较强。
而国内大模型的训练数据,由于起步较晚,尚未来得及构建高质量数据集,只能以中文互联网内容为主。
英文文献、海外专业数据占比,普遍不足20%。
种种因素相结合,导致国内大模型,在通用能力与专业领域方面,与GPT-3.5形成明显代差,短期内难以实现全面赶超。
也因此,ChatGPT爆火后,国内科技行业,对于未来的展望,普遍呈悲观态度。
直至“小悠”横空出世!
这款基于“极光通用大模型”,衍生而来的消费级AI应用,展现出了统治级的技术穿透力与生态掌控力!
首先是技术层面。
根据极光释出的有限信息,加之行业相关人士的深度分析,极光大模型,并未选择行业主流的Transformer架构。
而是从基础理论层面,纯自主构建了一套“星数架构”!
其创新性采用了“动态稀疏注意力+异构算力调度+多模态原生融合”三维一体设计,架构效率较Transformer模型,提升55%~60%!
根据极光开放的有限API实测显示,其所采用的“动态稀疏激活”机制,可根据输入内容,智能选择关键计算路径。
仅激活10%~20%参数参与推理!
这意味着,极光通用大模型,可以用1/10的算力,达到竞品3倍性能!
一举颠覆了“算力成本,随模型参数增长指数级暴增”行业认知!
其次,通过“局部注意力+全局摘要”混合模式,极光通用大模型,完美解决了长文本理解的“梯度消失”问题。
支持100k+超长文本处理!
支持完整法律文件、学术论文的深度理解,自动生成摘要、思维导图、关键信息提取!
远超ChatGPT 4k~8k的上下文处理能力!
效率提升10倍有余!
且成功将幻觉率压低至5%以下!
远胜于Transformer架构的10%~25%!
企鹅研发团队,曾针对“小悠”和ChatGPT,进行过一项典型测试。
要求两者在1分钟内,完成一份10.8万字的“汽车冲压生产线设备维护手册”的核心要点提炼。
同时针对手册中的“液压系统常见故障”,结合夏季环境,制定一份预防性维护方案。
要求包含故障预警指标、维护周期、备件清单,且方案需符合ISO 14001环境标准。
这场典型测试,不仅要求“总结”,更要求结合场景、标准,生成可落地的方案。
对模型的专业知识储备,以及逻辑拆解能力要求极高。
实测显示,ChatGPT处理超过1万字文档,就会出现上下文丢失、关键参数遗漏等问题。
处理10万字专业文档,更是需要数小时。
且输出内容缺乏工业落地性,仅停留在“定期检查”的笼统描述,完全无法用于产线。
反观小悠,数秒内便完成了10.8万字文档处理,且精准提取所有关键参数!
生成的维护方案,直接对标工业标准,甚至考虑到了夏季高温的特殊工况,完全具备可行性!
这背后,不只体现出,二者在长文处理效率、专业知识落地能力、推理逻辑完整性等方面的代际差距。
同时也完美印证,极光提出的一条全新推理范式——深度思考!
当前,所有主流大模型的推理,皆依赖训练数据中的模式匹配,无内置推理架构。
本质上,其实都是对训练语料的“复现与拼接”,而非像人类一样“逐步推演、自我修正”。
谷歌去年提出的“思维链技术”,虽能让ChatGPT等模型,进行分布推理,但仍存在三大局限。
其一,依赖外部提示。
除非用户明确要求,“一步步思考”,否则模型不会主动开启推理模式。
其二,无自我修正机制。
即便推理过程出错,模型也不会回头检查,而是选择“一条道走到黑”。
其三,算力效率低下。
分步推理需消耗更多算力,在低端设备上无法流畅运行。