岑言一开口就直接点出了他们刚才争论的核心。
利昂和卢卡斯愣了一下。
他们争执的内容,确实只有群里的那几个人知道。
难道他真的是......
不对,如果是骗局的话,那周志云肯定会提前透露给他呀!
不信!
岑言看着两人。
“你们聊聊吧,刚才在争论什么。把你们的难题摆出来。”
岑言语气很是随意。
只不过他的这种姿态,就更像是一位牛逼哄哄的老师在检查学生的课堂作业一样。
一种居高临下的,并非轻蔑的轻蔑。
俗话说,看小孩的。
嘿!
利昂和卢卡斯对视一眼。
骨子里的傲气被激了出来。
别的都可以,就是不能说男人不行。
既然岑言敢这么托大,那他们就要用硬核问题来敲打敲打他的锐气。
看看他到底是个装腔作势的骗子,还是个真正的怪物。
利昂直接把自己的笔记本电脑推到岑言面前。
电脑屏幕上显示着密密麻麻的代码。
“好,既然你想听,那我们就谈技术。”
利昂指着屏幕上的一段代码。
“我们在讨论自注意力机制,你知道吧?”
“自注意力机制虽然能解决序列的长距离依赖问题,但它本身是一个集合操作,没有顺序概念。”
利昂开始快速讲解道。
“如果不给模型加入位置信息,模型看‘我爱你’和‘你爱我’是完全一样的结果。”
岑言点点头,示意他继续。
卢卡斯在旁边补充。
“我提出的方案,是用可学习的绝对位置嵌入,给每个位置分配一个随机初始化的向量,让模型在训练中自己去学习位置关系。”
卢卡斯皱起眉头。
“但利昂认为这会增加参数量,他提出用固定的正弦和余弦函数来生成位置编码。”
他们俩不同的方法,其实各有优劣。
岑言并没有急着发言,而是继续点了点头,轻声问道。
“嗯,正弦和余弦函数,那你模型输入怎么解决?”
原本还有些不屑的利昂一愣。
他眨了眨眼。
已经开始感觉到有些许不妙了。
他的口吻稍微收敛一点,但依旧在讲解自己的技术思路。
“我用不同频率的正弦和余弦函数生成了一个固定的矩阵,这样就不需要模型去学习了。但问题就是你说的那个,在代码层面我不知道该怎么把这个固定矩阵合理地加到模型输入里,现在的几个思路都会乱。”
利昂指着屏幕上那段臃肿的代码。
“我现在的做法是在张量输入前先做一次矩阵拼接,然后在注意力计算的每一步里带着拼接后的巨大张量去运算。”
他有些无奈地叹了口气。
“这导致整个计算图变得极其复杂,每次前向传播的乘法操作增加了一倍。”
利昂看向岑言,卢卡斯也看向了岑言,他们俩都没说话,等待着岑言的回答。
在他们看来,这个问题很难。
除非放弃固定函数回归学习嵌入老路,或者彻底推翻现有的张量运算库,从底层重写一个专门算子。
但这都需要耗费大量的时间。
而且会耗费大量的计算资源。
岑言听完,放松地笑了笑。
他的笑里满是从容。
这就是时代的局限性。
在2016年,哪怕是最顶尖的工程师,在面对这种全新架构时,也会因为缺乏经验而陷入思维死胡同里。
他们把简单的问题复杂化了。
“位置编码确实是个好东西,正弦余弦函数的思路也绝对正确。”
岑言把利昂的电脑拉到自己面前。
“但是利昂,你的工程思维太僵化了。谁告诉你位置编码一定要在注意力计算的每一步里都带着去运算的?”
利昂愣了一下。
“不带运算,模型怎么知道位置信息?”
“你只需要在最开始的词嵌入阶段,把它加进去就行了。”
岑言双手放在键盘上。
他没有再多做解释,直接动手。
要说程序员的熟练程度。
想知道有没有,看看上手就懂。
岑言这盲打敲代码的速度和能力,一看就是硬核技术派。
这种熟练度,装都装不出来。
利昂和卢卡斯站在岑言身后,眼睛紧紧地盯着屏幕。
岑言先是扫了一眼就删除了利昂写的那些繁琐的拼接逻辑和复杂的矩阵相乘代码。
几百行的代码,被他删得只剩下十几行。
利昂看得一阵肉疼,刚想开口阻止,却发现岑言没有用 NumPy,PyTorch原生的张量运算在 GPU上效率更高,只用三行就生成了符合 Transformer原论文公式的正弦余弦位置编码矩阵。
然后,他写下了最后的核心代码。
x = x + self.pe[:x.size(1),:].to(x).unsqueeze(0)
岑言停住手,指着这行代码。
“看清楚了。”
岑言完全是把这当成一场教学。
说话的口吻、姿态,完全就像是导师。
利昂和卢卡斯瞬间觉得自己回到了十几年前被导师支配的恐惧。
“词嵌入向量x的维度是[batch_size, seq_len, d_model]。”
“我初始化的 pe矩阵维度是[max_len, d_model].......”
岑言转头看向利昂和卢卡斯。
“我们不需要做复杂的矩阵拼接,也不需要在每一步注意力计算里去处理它。”
“我们只需要在输入进入编码器之前,利用张量的维度广播机制,直接把位置编码矩阵相加到词嵌入向量上。”
岑言指着屏幕。
“加法操作的计算开销可以忽略不计,而且这种固定函数的加法不会增加任何可学习的参数。”
岑言简单收尾后,运行。
“模型在第一步获取了带有位置信息的嵌入向量后,后续的所有线性变换和点积注意力计算,都只需要处理这一个融合后的张量。”
屏幕上的终端窗口开始跳动。
数据流动,信息输出。
利昂和卢卡斯两人一左一右,贴得很近,有些紧张地盯着屏幕上的运行结果。
运行成功。
没有报错。
而且数据简洁流畅,占用并不高。
一瞬间。
两个人觉得自己好像浑身起了鸡皮疙瘩,站在这里盯着屏幕,头皮发麻。
有一说一,腿有点软,怎么办?
因为最关键的是,岑言只用了一小会,用了不到二十行代码,就解决了他们吵了很久的问题。
代码简洁、优雅,逻辑清晰得让人一眼就能看懂。
这算什么呢?
哥们,你的计算机实力是二向箔吗?
利昂看着屏幕上那行利用维度广播实现直接相加的代码。
太简单了。
简单到让他觉得自己的智商受到侮辱。
为什么自己就没有想到这么简单的处理方式?
Why? Tell me why?
岑言骂的对,自己是个白痴。
哦,他好像没这么骂,没事,他是天,他是地,他是导师,他是爷。
反正他是对的。
利昂整个人有些茫然。
卢卡斯也呆立在原地。
他看着岑言的操作,脑海里像是小天儿洗衣机开了最大档,要把楼震晕了。
这种对张量维度操作的敏锐直觉,这种对深度学习框架底层广播机制的深刻理解。
这绝对不是一个只搞物理实验的人能拥有的能力。
这是一个真正懂算法、懂工程、懂底层的计算机大师!
利昂和卢卡斯缓缓转头,两人再度对视。
竞争?
这还竞争个鸡毛啊?
他们又看向了坐在椅子上神色淡然,接过周志云递过来的纸杯,微笑品茶的岑言。
他们觉得自己现在就像2012里那个敲钟的僧人。
算出来命里会被水淹,都已经跑到喜马拉雅山上住了。
还他妈被大海啸追着杀。
有没有搞错!
一个发了两篇Nature正刊的物理天才。
竟然在计算机深度学习的底层工程上,也拥有碾压他们这些谷歌核心专家的实力?
他才十六岁!
16岁的专家?!逗我呢?这世界怎么了?
这到底是个什么怪物?!
妈妈,我要回家!
这两个大老外,呆在原地,跟被吓哭了一样。
太哈人了。