335. 统一视觉与语言（合）_重生之AI教父

“你真要说起来，辛顿老师他们，以前反向传播技术都是他们做的。现在什么AI技术能离得了反向传播？但我看最近十几年的文章，都不再引用反向传播了，真要算起来，大家还欠辛顿老师几十万论文引用数呢。”

孟繁岐的这番话还是非常中肯。

技术的历史地位最终还是在人们心里会有一个公正的评价，学术圈内很多人盲目追求什么期刊等级、引用数量、影响因子之类的旁门左道，有些本末倒置了。

“对于最近大家热议图像方法技术路线，你怎么看？我记得你最初不是做图像技术起家的，怎么这一年多基本扎在自然语言里面，忘记老本行了？”聊完虚名，还是要谈些正事。

T方法在自然语言领域的成功，每一天都在加剧大家对图像领域落后情况的讨论。

【为什么自然领域内可以有一个T方法这样大一统的良策，图像领域就不行呢？】

这没道理，说不通啊！

“T方法既然在自然语言领域内这么好用，图像领域也直接用T方法不就好了。”孟繁岐的回答让所有人都感到非常意外。

“就这么简单？”

没什么虚头巴脑的东西，就是这一招直接捅穿。

“你这不是在开玩笑吧？”韩辞一时间分不清孟繁岐这话是真的还是假的。

T方法在自然语言领域卷起风暴已经不止一年了，其他研究人员又不是傻的。

如果直接把T方法搬到图像上就好用，那早不就做出来了？

把别的领域好用的东西拿来试试，很多研究者没有好主意的时候都会这么做。

“图像在现实世界是二维数据，在计算机内是三维矩阵。而自然语言则是一维的序列，这两种东西的形式根本就不一样，怎么可能直接适用于T方法呢？”

韩辞的疑问是非常合理的，由于两种东西的形式相差很大，处理的方法当然是不同的。

这也是为什么图像领域的学者都在尝试借用T方法的核心思想（注意力机制），把这东西往传统卷积里面加，而非是直接把T方法拿过来用。

一群人就像是调奶茶一样，你多加点奶，我多加点茶，来来回回论文狂发。

但对领域真的有意义有贡献的，却很少。

“其实许多人对于注意力机制的理解已经非常到位了，做得性能也非常好。但他们的做法都存在一个巨大的问题，那就是图像和语言模型不统一。”孟繁岐的视角是非常宏观且大胆的。

他如果要回头去做图像，那就不仅仅是单纯的图像技术那么简单了。

孟繁岐想要做的，是让同一个模型同时理解图像和语言。

也就是所谓的【多模态技术】。

而想要实现多模态的模型，首先就得统一语言和图像的模型结构，也就是孟繁岐所说的学界巨大问题所在。

你做语言要一个模型，做图像又要一个模型，做语音还要一个模型，没完没了了。

那未免太过繁琐了一些，不同模态之间，想对齐也会有很大的问题。

你怎么把文字【狗】和图像【狗】给对应起来呢？

“人类接触一个事物的时候，往往是多模态的。比如看到一碗香喷喷的拉面，首先图像映入眼帘，随后在脑中就产生了【面】这个概念，可能会有对话，发出声音。味道这个咱们先不提，图像、语言和声音这三种模态，以后肯定是要一起结合的。”

“从人类对智能的追求上来说，如果一个模型它看到了面的图像，却不知道该用怎样的文本来形容，那它肯定还是有很大的提升空间的。而单纯从模型的性能角度，多种模态相辅相成，也会极大地增强模型的准确率。”

孟繁岐这里指的是，即便一个模态出错了，其他模态也可以进行纠正。

比如面的样子做得很丑，图像上无法识别。但通过文字描述和语音形容，这种多模态的智能会更加有可能发现自己的错误。

“但这么做的话...模型结构肯定要对齐才行...现在不同模态之间结构差了这么多。”韩辞当然知道孟繁岐说得对。

谁都知道这个东西好，我一个结构就把所有模态全搞定了，岂不美哉？

问题在于，它怎么实现呢？

图像和语言，它就是长得不一样。

“实现办法也很简单，将图片先统一处理为同样的分辨率，然后分为十六宫格，每一个区块直接展平成为一维的向量，然后加个位置编码表明它们来自哪一个区块就好。”孟繁岐用最简洁的语言大概描述了视觉T方法的最基本做法。

T方法是针对语言设计的，那么视觉T方法要做的就是将【图】转换成【句子】。

图片分十六宫格，每一个格子就像是一个【词汇】。

先拆开进去，再通过位置编码重新处理整合成一维的形式，余下的部分就能够尽可能贴近原本的T方法了。

一张图片，就像是NxN的句子一样。

通过这样的转化，尽可能做到模型零修改，进而一个模型打通图像加自然语言。

“你这个方法虽然没有人做过完全一样的，但其实有人尝试过类似的实验，效果并不好，比传统的卷积神经网络差了很多。”韩辞别的不说，论文看得是真的多，学习态度非常认真。

对于孟繁岐说的这种方式，她持怀疑的态度。

“他是不是做的模型规模不够大，数据规模也不够大？”孟繁岐知道，许多人做新技术的尝试都会这样。

在小模型小数据上快速迭代，直到有所起色，观察到很好的结果，才会继续放大模型和数据。

这种方法节省实验时间，可以大量试错，不能说是错误的思路，反而是非常正确的，孟繁岐也经常这么做。

但是T方法，尤其在视觉任务上，情况是非常特殊的。

如果没有足够大的数据量和模型规模，视觉T方法确实是做不好的。

前世虽然视觉T方法后面发展得很好，在面对一些冷门领域和任务，对应数据量不多的时候还是会用传统卷积网络。

加上现在算力紧张得很，其他人哪里玩得起大规模大数据的T方法？

因而虽然有人曾经尝试过类似孟繁岐想法的技术，却并没有做出好结果。

“留了一年的空档期，还是没人做出来，看来还是得我来出手啊！”ChatGPT第一版已经出来，孟繁岐是时候该忙一忙制图AI这方面了。

我的书城网

335. 统一视觉与语言（合）