这就会陷入一个疯狂套娃的循环之中。
总而言之,对高维数据进行降维是一件超级麻烦的事情。
在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。
而不是等出现高维数据之后再进行低维处理。
高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。
很多东西因为麻烦就足以让人说再见了。
繁复的过程意味着容易出错。
而美好的事物所呈现的形式应该是简洁的。
就像欧拉公式一般。
正因为如此,伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。
如果林灰想表达的意思不是对高维数据做手脚。
而是说对传统的向量空间模型做文章?
将高维向量空间模型转化为维度较低的空间向量模型?
这种思路倒是不错。
但这种尝试先前并不是没人做过。
很早之前就有人进行了尝试。
早在上世纪末期就有人提出了潜在语义分析模型。
潜在语义分析模型是基于空间向量模型vsm而提出的。
潜在语义分析模型其基本思想是在得到文本的空间向量表示后。
通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。
在得到低维的文本向量和单词向量之后。
再用余弦相似度等度量方式来计算文本间的语义相似度。
潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。
虽然这种思路不错,但这种方法并没有普适性。
这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。
这种做法使得计算复杂度增高,并且可移植性较差。
在这种方法提出来之后。
并不是没人尝试对这种方法进行过改进。
同样是上世纪末。
有研究人员提出了概率潜在语义分析模型。
这种模型是基于概率,而不是基于奇异值分解。
这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。
而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。
以此用来预测文本空间向量中的观察数据。
在这种概率潜在语义分析模型中,多义词被归入不同的主题下,而同义词被归入同一主题下。
这样可以避免同义词和多义词对文本相似度计算的影响。
然而,概率潜在语义分析模型的参数随着文档数量的增加而线性增长。
很容易出现过拟合和泛化不良。
这种情况很大程度又是因为维度爆炸。
因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。
一个为了避免维度爆炸而提出的模型却出现了维度爆炸。
多少有点悲剧。
事实上,并不是只有上述两个模型提出来。
这之后还有很多研究团队都在从模型层面的做了不同程度的尝试。
但这些模型要么是南辕北辙,不利于降维。
要么是在降维的同时又带来了新的问题。
总之,这些模型都有各种行不通的地方。
尽管伊芙·卡莉相信林灰是个天才。
但伊芙·卡莉觉得林灰也很难在前人无数次尝试的情况下找到一种全新的能够规避维度爆炸的低维模型。
伊芙·卡莉考虑了很久也没想通林灰究竟表达的是什么意思。
伊芙·卡莉把她刚才她的思考过程对林灰进行了阐述。
林灰听得很认真。
听完之后,林灰笑道:“你都想到了这么多种高维向低维转化的情形。
而且先前你也提到了机器识别文本时为了要机器识别自然语言往往将自然语言数值化。
而后为了将这些数值进行属性区分进一步进行了向量化。
既然你能明白这些,那你就应该知道涉及到自然语言处理方向的问题之所以很容易出现维度爆炸很大程度是因为原始数据就维度极高。
这种情况下我们为什么不直接从源头上解决问题对原始数据做些文章呢?”
听到林灰这话,伊芙·卡莉似乎灵魂深处被触动了一般,
触电般的感觉袭来,伊芙·卡莉突然激动了起来。
伊芙·卡莉颤声道:“你的意思是说,直接对原始的高维数据进行低维化处理?
处理得到低维化数据之后,在架构模型进行语义文本相似度分析?”
和聪明人说话就是比较省时省力。
林灰想要表达的差不多就是这个意思。
现在这个时空常用的编码手段常用的还是1hot编码来说吧。
这种编码虽然再相当长的历史时期内发挥了积极作用。
但这种编码也经常带来很多麻烦事情。
前世往后几年的话,词向量按照基本都是通过分布式向量进行编码。
分布式编码相当于将原始数据投射到了一个较低维度的空间。
如此一来将原始数据从稀疏的高维空间压缩嵌入到较低维度的向量空间中。
这对于后续的处理无疑是很有帮助的。
当然了投射不是说投射就投射。
还得经过神经网路学习的训练。
至于怎么训练?
这就是纯粹技术上的事情了。
前世,词向量的分布式表示还有一个专有名词叫做词嵌入。
虽然林灰现在跟伊芙·卡莉所说的内容已然涉及到分布式词向量的部分原理。
但林灰倒也不怕伊芙·卡莉剽窃想法。
毕竟他说的只是一部分原理。
选择性的真相有时候比谎言更具误导性。
至于伊芙·卡莉能从林灰这获得多少信息,主要取决于两人的磨合程度。
其实林灰挺希望有朝一日能全部告诉伊芙·卡莉的。
因为伊芙·卡莉能够获悉全部信息的话只有一种情况。
那就是她甘愿充当林灰的工具人。
对自己的工具人自然没必要隐瞒什么。
林灰也急切需要一个纯粹的学术方面的工具人。
毕竟科研什么的能指点下方向收获论文才是最理想的。
过于深入其中的话,未必会变强,但一定会变秃。
眼前的伊芙·卡莉聪明一点就透领悟性强。
伊芙·卡莉年轻有激情,这可优秀准科研人最应该具有的素质。
最关键的是伊芙·卡莉似乎很单纯,很好骗。
这么好骗的姐姐。
不把她忽悠来肝论文似乎是不应该啊……
似乎是不用那么麻烦。
事情比林灰想象的顺利。
跟伊芙·卡莉深入聊了一会。
ps:……省略好多字,以后有时间慢慢补充吧,补充的不算计费字数
伊芙·卡莉似乎是下定决心一般。
鼓起勇气对林灰说道:“如果,我是说如果可以的话,我能做你的助手么?”
听了她这话,林灰似乎很犹疑的样子。
伊芙·卡莉也知道她这个请求有点冒犯。
尽管伊芙·卡莉动起这个念头有点仓促。
但伊芙·卡莉相信她内心做出的选择。
和林灰的谈话渐渐深入,伊芙·卡莉一时间似乎接触到了一个崭新的世界。
来的路上,伊芙·卡莉就感觉到林灰对他无言的呼唤:“你渴望推开那扇门么?”
此次和林灰交流,听到了林灰刚才的话语,伊芙·卡莉似乎亲眼目睹了林灰推开那扇门一般。
能同林灰一起推开那扇门的机会伊芙·卡莉自然不会放过。
看见林灰似乎很迟疑,伊芙·卡莉忙道:“我愿意签订协议,我会对你的研究成果严格保密的……”
伊芙·卡莉接着道:“我也不需要科研经费……”
一个远涉重洋万里之外赶来的学者态度恭谨到如此这般。
林灰如果不答应的话似乎显得很不尽人情。
林灰果断答应了伊芙·卡莉的请求。
协议肯定是要签的,林灰不想成果被窃取。
但科研经费以及相应报酬还是要照发的。
员工可以有用爱发电的念头。
但boss却不能真的让员工用爱发电。
那样很容易原地暴毙族谱断绝的。
第156章 学术工具人get√