卢卡斯跟面瘫被治愈了一样,眼角嘴角同步抽搐,怕不是平时兼职当神父,这个时候被电了。
利昂则是脚趾头猛猛抠鞋底,嗓子猛猛咽口水,他觉得自己的喉咙有东西在爬。
两人再看看神色如常的岑言。
这个少年没有炫耀,也没有嘲笑他们,只是端起周志云刚才递过来的纸杯,轻轻吹了吹上面的热气。
这到底是哪里冒出来的怪物。
岑言喝了一口茶水,放下纸杯。
他没有理会两人脸上的错愕和震惊,而是转回身,打开一个空白的文档界面。
“位置编码只是这套新架构里很小的一环。”
岑言语气不急不徐,像是在和老朋友闲聊。
“我们为什么要抛弃循环神经网络?因为时序依赖限制了并行的上限。”
岑言转头看向利昂和卢卡斯。
“我们用自注意力机制替代它,不仅仅是为了在自然语言处理任务上取得更好的成绩,比如机器翻译或者文本生成。”
利昂和卢卡斯下意识地点头。
他们目前的眼界,确实还局限在自然语言处理这个狭窄的赛道里。
谷歌翻译团队和谷歌大脑团队当时的全部精力,都放在了从统计机器翻译向神经机器翻译的转型上,最终目标也只是提升文本翻译的准确率和速度。
岑言看着他们,当他们被自己的技术说服并且愿意听自己阐述时。
那这一次人才招募战,他就完胜了。
“我们相信,注意力机制有潜力成为一个通用的、灵活的模型。”
岑言的话语在会议室里回荡。
“它不仅能处理文本,它还能应用于除了文本之外的其他领域。”
岑言给他们留出消化的时间。
“包括图像、音频和视频。我们期待将它应用到这些领域的未来工作。”
利昂和卢卡斯听到这个预测,满脸不可思议地看着岑言。
图像?音频?视频?
这在2016年,简直是一个天方夜谭般的猜想。
目前的计算机视觉领域是卷积神经网络的天下。
语音识别领域是递归神经网络和隐马尔可夫模型的自留地。
每个领域都有自己专属的霸主架构。
现在岑言居然说,这种基于注意力机制的新架构,可以把这些领域全部统一起来?
用一套架构打天下?
专业领域,你也想来一招鲜吃遍天?
这猜想未免有些太过于大胆了。
如果换作是一个小时前,有人跟他们说这种话,利昂肯定会大笑着拍对方的肩膀,让他少喝点酒,别没事发酒疯。
卢卡斯估计鸟都懒得鸟对方。
但现在,说出这句话的人是岑言。
是刚刚把他们按在地上摩擦的Little Goat。
他们俩完全不敢反驳。
技术世界,强者为尊。
大佬哪怕拉泡屎出来都是香的。
他们开始仔细回味着岑言的话,脑子里开始顺着这个思路去推演。
如果把图像的像素块看作文本里的单词序列。
如果把音频的波形采样点看作是时间步上的序列。
利用全并行的注意力机制去捕捉全局的依赖关系。
这在理论上,似乎真的走得通。
哟?
妈妈生的。
我怎么突然开智了?
这种高屋建瓴的视野,这种打破学科壁垒的宏大格局,完全超越了他们。
这小孩,不对,小孩神的脑袋和视野是怎么长的?他是天生的计算机妖怪吗?
还是图灵老祖转世?那他喜欢男的吗?
利昂似乎在酝酿着什么。
他深吸一口气,后退半步,脸上的傲气早已消失得一干二净,他站定身体,看着岑言,非常认真地鞠了一躬。
这动作标准得像是机器人。
只能说不愧是利昂哥,在东京待了那么久,别的没学,这鞠躬姿势学的很好。
他现在哪里敢傲慢?
满是谦卑。
“C先生,我为我刚才的无礼向你道歉。”
利昂的语气十分诚恳,那蹩脚的中文里透着一股子技术宅的坦率。
“我承认,在深度学习的底层架构和工程思维上,你的实力远超于我,你完全有资格成为这个新架构的主导者,我收回我之前说过的所有狂妄的话。”
技术人员的世界就是这么简单直接。
你比我强,我就服你。
你能在技术上碾压我,你就是我的老板,你就是我的上帝。
你就算是想走我后门,我都会夸你走得好。
卢卡斯也站直了身体。
他脸上的淡漠被一种由衷的敬佩取代。
“C先生,我也要向你道歉。”
卢卡斯的英语还带着一点波兰口音。
他的中文没利昂学得好。
“我之前对年龄和跨界身份抱有偏见,这是我的狭隘,现在你征服了我。”
卢卡斯看着岑言,眼神十分火热。
“那个多模态的猜想,简直是一个伟大的构想,如果真的能实现,我们真的就在创造计算机科学的新纪元。”
看着这两个前一秒还在那揪头发的大牛,现在老老实实地道歉认错。
周志云坐在旁边,努力憋着笑。
岑言这小子钓鱼的手段真是绝了。
岑言看着他们两人,随意地摆了摆手。
“坐下吧,不用这么客气。”
岑言指了指旁边的两张椅子。
“既然你们大老远跑过来了,我就给你们看点实际的东西。”
利昂和卢卡斯立刻拉开椅子坐下,像两个等待老师发考卷的小学生,坐得笔直,眼睛紧紧盯着岑言正打开的手机屏幕。
岑言打开了自己的手机,里面有一个本地的工程文件夹。
他调出一张基础架构图。
这正是他最近在搬实验室之余搭建好的Transformer基本骨架。
“这是我设计的基础架构图。”
岑言把屏幕转到他们两人中间。
“它主要由编码器和解码器堆叠而成。完全摒弃了循环和卷积结构。”
利昂和卢卡斯视线瞬间被那张图吸引。
图上的模块划分得非常清晰。
岑言接着打开代码编辑器,展示出不到三百行的核心模块代码。
他开始系统地讲解这套架构的设计逻辑。
“核心在于多头注意力机制。输入序列经过线性变换生成查询矩阵Q、键矩阵K和值矩阵V。通过Q和K的转置进行点积运算,再除以维度的平方根进行缩放,防止梯度消失。经过Softmax函数归一化后得到注意力权重,最后与V矩阵相乘得到输出。”
岑言语速平稳。
“多头机制允许模型在不同的子空间联合关注不同位置的信息。为了解决深层网络训练退化的问题,我在每个子层周围引入了残差连接,紧接着进行层归一化处理。这能大幅提升模型的收敛速度和稳定性。”
三百字不到的专业讲解。
却把Transformer最精髓的底牌全部摊开在两人面前。
利昂和卢卡斯快听到颅内膏巢了。
他们看着那简洁明了的代码,看着那些精妙的张量操作,感觉自己就像是在朝圣。
这就是他们苦苦追寻的答案。
这就是他们想要推翻现有体系的终极目标。
这就是他妈的东方大国的神秘力量!
难怪好莱坞里那些外星人打进来的时候,就只有东方大国敢叫板。
小美?
太拉了!
卢卡斯一边看代码,一边在脑子里快速计算着分布式训练的可行性。
他提出了一个关于梯度同步的核心疑问。
“岑言先生,在万卡级别的集群上跑这种全并行的模型,反向传播时的梯度同步会成为通信瓶颈。我们怎么保证各个节点之间的参数更新一致性?”
岑言几乎没有停顿,脱口而出。
“采用混合并行策略。在节点内使用张量模型并行,切割多头注意力的矩阵乘法。在节点间使用数据并行和流水线并行。梯度同步阶段我设计了一种环形通信算法,把大块的梯度数据切分成等大小的小块,在节点组成的逻辑环里循环传递和累加。这样可以把每个节点的通信带宽都打满,完美隐藏通信延迟,比传统的参数服务器架构效率高 3倍以上。”
岑言保持着放松的微笑。
卢卡斯这个问题似乎完全难不倒他。
“这样可以把通信带宽打满,完美隐藏通信时间。”
卢卡斯听完,张了张嘴,想说点什么,却说不出口来。
屌。
真fxxk mxthxx的屌!
他和利昂在机场争论的那些优化方案,在这套混合并行策略面前,就跟小孩子过家家一样幼稚。
他现在对岑言可谓是五体投地。
利昂坐在一旁抓耳挠腮。
他太想留下来了。
他太想参与这个注定要改变历史的伟大工程了。
在谷歌,他只是庞大机器里的螺丝钉,每天都在修补那些陈旧架构的补丁。
而在这里......
他有机会成为新纪元的奠基人之一!
可现实问题摆在眼前。
这只是一个初创团队。
虽然老板技术很牛逼,虽然他们还有新建的算力中心。
但初创团队通常意味着资金紧张,福利待遇肯定没法和谷歌那种财大气粗的跨国巨头相比。
利昂在心里快速盘算着自己的小金库。
他在硅谷工作了这么多年,因为平时就喜欢捣鼓些电子产品,也没什么不良嗜好,卡里倒也攒下了大几十万美元的积蓄。
他认为很少有阿美丽卡公民的积蓄能跟自己相比。
这是他的底气。
来中华工作,租房子、吃饭、日常开销。
就算这边一分钱工资都不给,靠着自己的积蓄,也能舒舒服服地撑上好几年。
只要能跟着岑言把这个项目做出来,以后还愁赚不到钱吗?
大不了这段时间就当是带薪进修。
利昂在心里打定了主意。