因为时差的原因,中國虽然已经夜晚了,海外却还处于白天。
也就是说林灰虽然休息了,海外仍然有很多人处于忙碌的工作状态。
在麻省理工学院自然语言处理研究中心的某办公室里,伊芙·卡莉还在奋战中。
事实上自从lin hui鼓捣的生成式文本摘要算法问世之后。
伊芙·卡莉不知道已经有多久没合眼了。
之所以睡不着不是因为嫉妒,而是因为兴奋。
用兴奋形容似乎不够准确,确切的说是一种异乎寻常的亢奋。
当然了亢奋也不是全部,亢奋之外还带着一些畏惧。
而畏惧深处却又是期待。
虽然心情很是扇形图,但伊芙·卡莉确定她的每一种心情都不是无缘无故的。
作为科研工作者,能够接触到一种前所未有的解决问题的方式自然是兴奋的。
而越是深入了解生成式摘要算法,这种兴奋之感就越来越强。
随着深入了解,伊芙也越是感觉提出算法的人的实力强劲。
实力上的差距让伊芙·卡莉有点招架不住,不自觉的生出些许畏惧。
伊芙·卡莉似乎理解了一句话:
——越接近对方的水平,就越了解对方的强大,就会越来越畏惧。
至于期待就更容易理解了,人类对未知的事物本就是好奇的。
尽管每种感觉都很合理,不过几种心情混杂在一起总是怪怪的。
尤其是对于伊芙·卡莉这么一个基本上从来没啥情绪波动的人来说。
这种感觉更是前所未有的陌生。
呃,虽然不知道该怎么形容那种奇怪的情愫。
但内心深处伊芙·卡莉是佩服linhui这位来自大洋彼岸的天才的。
什么叫天才呢?虽然伊芙·卡莉25岁就获得了世界顶级计算机研究机构之一麻省理工学院的计算机学院的博士学位。
但伊芙·卡莉从来不敢自诩为天才,虽然她一路顺风顺水,但付出的艰辛只有她自己知道。
在她看来天才的重点不在于“才能”,而在于“天分”
什么“天才是靠99%的汗水和1%的灵感”这样的话语完全就是骗人的鬼话。
在伊芙·卡莉眼中,历尽千辛万苦努力取得成功的人或许可以算作人才。
但这绝对不是天才。天才哪里用得到几近于费力的努力?
或许天才也需要一点点努力,但绝对不需要这种缘木求鱼一般的努力。
就好像所有人似乎都知道的走出房间要找到门却各种束手无策。
而天才就是那个在众人茫然眼光之下信步走到门前并轻轻推开门的那个人。
“历尽千辛”“苦尽甘来”这些词汇只能描述一般人。
“闲庭信步”、“举重若轻”这才是属于天才应该有的描述。
而lin hui就是绝对意义上的天才。
在所有人面对着抽取式摘要算法的瓶颈而找不到走出文本摘要这个房间的方法之时。
linhui恰到好处地出现了,在所有人的茫然下信步般推开了一扇被称为是“生成式文本摘要”的崭新的门。
在伊芙·卡莉心中,linhui就是被崇拜的偶像。
……
崇拜归崇拜,技术没有国界,技术人员却有国界。
伊芙·卡莉所在的小组接到的任务是尽快跟进linhui提出来的技术。
接到的任务倒不是什么更上级的科研管理机构发出的。
而是由谷/歌提出的。
谷/歌和伊芙所在的自然语言处理项目是深度战略合作伙伴。
每年谷/歌赞助该团队过千万美元。
说白了谷/歌是伊芙·卡莉所在研究团队的金主爸爸。
谷/歌的任务很简单至少谷/歌自己以为是这样:
——评估lin hui提出的算法实现的可行性,并根据实际情况考虑能否短时间实现复现。
至于谷/歌为什么回对林灰提出的算法感兴趣?
这跟谷/歌的历史有很大的关系。谷/歌之所以能有今天很大程度是因为pagerank算法。
在互联网早期,随着网络上的网页逐渐增多,如何从海量网页中检索出我们想要的页面,变得非常的重要。
当时著名的雅/虎和其它互联网公司都试图解决这个问题,但都没能有一个很好的解决方案。
直到1998年前后,两位斯坦福大学的博士生,拉里·佩奇和谢尔盖·布林一起发明了著名的 pagerank 算法,才完美的解决了网页排名的问题。
正是因为这个算法,诞生了谷/歌公司。
pagerank 是一种通过网页之间的超链接来计算网页重要性的技术。
以谷/歌创办人 larry page 之姓来命名,谷/歌用它命名也体现了该算法的重视程度。
该算法可以通过计算计算出数值体现网页的相关性和重要性。
pagerank 通过网络浩瀚的超链接关系来确定一个页面的等级,把从 a 页面到 b 页面的链接解释为 a 页面给 b 页面投票,谷/歌根据 a 页面甚至链接到 a的页面的等级和投票目标的等级来决定 b 的等级。
简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
该算法把整个互联网可以看作是一张有向图图,网页是图中的节点,网页之间的链接就是图中的边。
借助该算法可以衡量不同网页的根搜索关键词的关联程度从而对网页排序。
在很长一段时间内,当你在谷/歌键入关键词后得到的搜索信息。
搜索信息里那一系列网页对应着的网页排列顺序就是依托pagerank算法进行排序的。
这个算法的重要性可见一斑。
page rank算法不止用于搜索引擎领域。
还跨界进入了自然语言处理nlp领域。
在nlp方面大名鼎鼎的textrank算法就是在pagerank算法之上而来的。
而textrank算法一向是抽取式摘要算法的核心算法。
虽然目前textrank算法主要用于自然语言处理方面。
但并不代表这个算法不能应用于搜索方面。
毕竟textrank算法和用于搜索的pagerank算法本是同根生。
而林灰搞得生成式文本摘要算法gtsa虽然表面上看是文本处理算法。
但事实上也有作用于未来搜索领域的潜质。
相比于pagerank算法对网页超链接抓取排序。
有了gtsa算法,谷歌可以更进一步直接对pagerank算法下排名靠前的网页内容进行抓取获取相应的信息。
按照信息和搜索关键词的关键度再进行二次精确排序。
这无疑可以大大提高谷/歌搜索的准确度。
尽管以现在的技术将生成式文本摘要算法嵌套在pagerank算法之下还很难保证搜索高效率。
但谁能保证未来的服务器以及计算力水平不会突飞猛进呢?
万一之后技术能够暴涨呢?
而且就算短时间内谷歌无法将该技术用于搜索领域。
生成式文本摘要算法表现出的强大的文字处理能力也是很值得谷歌重视的技术。
反正从谷歌下达的任务的措辞来看。
对于生成式文本摘要算法,谷歌不仅重视。
而且急切渴望获得该技术。
……
然而作为具体的执行人员,对于谷歌提出的任务:
——评估lin hui提出的算法实现的可行性,并根据实际情况考虑能否短时间实现复现
伊芙·卡莉就很无语。
或许在那些屁股决定脑袋的人心中。
清楚技术路线了,技术复现能够实现与否只是时间长短的问题了。