在这种情况下,往往我们只要了解人是如何处理问题的。
就能理解机器学习处理问题的思路或者说是方式。
通常我们在学习东西的时候。
或许我们的初衷是想着是将所有想学的内容一次性学懂学精。
但因为学习时间有限、学业任务繁多或者其余各种各样的客观要素。
实际学习的时候是很难将所有的知识的学得一步到位的。
在这种情况下,一些擅于学习的人是怎么学习的呢?
这些人在进行学习时可能采用的做法是先将想学的知识的共性内容搞懂。
而后再花时间放在一些那些“疑难杂症”上。
虽然这种做法似乎是有点“偷懒”。
但人类一多半的智慧结晶都是因为偷懒才出现的。
不可否认这种看似偷懒的学习方式充满智慧。
至少从效率角度衡量的话,这种方式很值得称赞。
毕竟除了像医学等极其特殊的学科之外。
大部分领域所涉及到的知识,80%都是能够找出共性的。
在找到共性之后,再去解决另外的20%复杂知识。
这无疑是一种比较省力的思维。
在自然语言处理这个机器学习的典型方向引入预训练。
无疑等同于将部分优秀学生在学习中会用到的一种特殊的技巧“移植”过来。
这种思路很巧妙。
可为什么这种很巧妙的思路以前却没人尝试过呢?
尹芙·卡莉觉得未必是没人想过这方面。
但别人却无一例外的失败了。
涉及到知识的汲取,或许绝大多数人也知道先将80%有共性的知识搞定再搞定另外的20%可以省力。
但从过往的学业上看,尹芙·卡莉觉得她身边能够做到先将知识80%的共性找出来再去攻克疑难处的人少之又少。
甚至于除了尹芙·卡莉眼中的学霸之外根本没啥人能做到这一点。
尹芙·卡莉眼中的学霸又能有多少人呢?可以说是寥寥无几了。
也就是说这种先将80%有共性的知识搞定再搞定另外的20%这种很明智的做法实际很少有人应用。
明明是看起来更加容易的方式。
什么没多少人这么做?
尹芙·卡莉觉得主要原因是:
——大部分人并不善于找到知识的共性。
在不善于找到知识共性的情况下,一部分人虽然会尝试着找知识共性。
但实际上操作的时候找到80%知识的共性完全是奢望。
可能只能找到30%、20%甚至更少知识的共性。
如此一来这些人非但没有能够找到主体知识的共性。
反而在找共性的时候不知不觉将其余一些原本是普通的内容给异化成了这些人眼中的“非共性知识”。
而非共性知识在这些人心中又被这些尝试找共性的人心理暗示成了比较麻烦的知识。
这些原本并不是特别难的知识,在心理暗示的debu下。
反而有可能成为这些尝试寻找共性的人所需要耗费大量时间去攻克的内容。
这种情况下,找知识的共性非但没对他们造成帮助。
反而成为了他们学习时候的拖累。
就很苦逼了。
与其出现这种情况,这些人干脆放弃了找知识的共性。
直接一视同仁,至少不会聪明反被聪明误。
类似于学习上这些人面对的窘境。
或许机器学习方面的学者也是因为同样的境遇才放弃了对训练数据共性的寻找。
至少在尹芙·卡莉这是因为这个原因。
纵然是现在知道了林灰在模型训练中引入了预训练方式。
尹芙·卡莉现在也不知道林灰究竟是如何做的。
按照林灰在论文中补充内容进行的阐述。
传统的训练机制下,文本摘要模型的产生思路是:
语料训练→模型
而按照林灰的思路引入预训练机制后。
文本摘要模型的产生思路是:
语料预训练→预训练模型→微调→模型
这个思路的本身是没问题的。
但尹芙·卡莉面对着这个全新的模型产生思路却满脑子全是问题。
具体应用的时候究竟引入何种的预训练方式才能够起到事半功倍的训练效率?
什么样的预训练模型才是预训练的目标?
对于预训练模型的“微调”究竟应该如何理解呢?
前两个问题是就林灰鼓捣的理论而产生的疑问。
第三个问题是因为语言方面的阐述而产生的一些疑问。
尽管尹芙·卡莉最近在向米娜·卡莉努力地学习汉语了。
但汉语显然并不是短时期内能够速成的。
对于预训练模型林灰所谓的“微调”的“微”究竟应该如何理解呢?
只是一点点小小的调整么?
还是说所谓的“微”只是因为林灰本人对这一事情难度的蔑视。
尹芙·卡莉觉得应该是后者。