伊芙·卡莉虽然不知道林灰为什么突然这么问。
但这种有可能得到林灰提点的机会,伊芙·卡莉怎可能轻易放弃。
伊芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。
而后伊芙·卡莉才正式开始回答林灰先前问她的问题:
“引入向量后才能使得机器更方便的处理语义文本的信息。
如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。
而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点low。
比如说,基于字符串的方法,这种方法都是对原始文本进行比较。
主要包括编辑距离、最长公共子序列、ngram相似度等来进行衡量。
就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。
这种算法界定的编辑操作包括增加、删除、替换三种。
最长公共子系列是根据……
这套衡量标准甚至有点像microsot word格式来衡量一般。
基于字符串的方法虽然原理简单、实现方便。
但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。
涉及到同义词、多义词等问题都无法处理。
目前很少单独使用基于字符串的方法计算文本相似度。
而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。
除了这种方法之外,还有……”
林灰对于这些也是了解一些的。
他只是想通过伊芙·卡莉之口判定一下这个时空的研究到底是什么进展的。
基于字符串通过编辑操作、最长公共子系列的方式衡量语义文本相似度确实有点低端。
但低端不等于没用,不能因此就说这种算法没价值。
设想一下,如果文本识别领域取得突破的话。
把界定文本相似度的判断方法和文本识别算法结合在一起的话。
反而是基于字符串判定文本相似度这种方法最为贴切。
毕竟这种基于字符串的判别方法和计算机视觉的直观逻辑形式最为接近的一种。
事实上文本识别算法在后世同样是很寻常的技术。
甚至于随便一个聊天软件的截图工具都能很好的胜任文本识别的任务。
而现在这个时空哪怕一些专门打出文本识别为噱头的软件。
实际上进行的工作只是扫描文稿转成pd而已。
涉及到实际的文本识别效率低的一批。
林灰感觉似乎又无意间发现了一个商机。
虽然是发现了一个商机,也不适合现在去做。
毕竟涉及到文本识别这方面还是跟计算机视觉这个领域有关系的。
所谓的计算机视觉说白了就是让机器看东西。
这个算是人工智能的一个领域。
这个领域的研究是为了让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息。
根据这些信息机器采取行动或提供建议。
如果说人工智能赋予计算机思考的能力。
那么计算机视觉就是赋予发现、观察和理解的能力。
计算机视觉虽然不能说多么复杂吧。
但起码门槛比自然语言处理要高得多。
显然不适合林灰现在掺和。
不过林灰有耐心,林灰默默地将这件事放在了心里。
林灰觉得不能目光太短浅。
有些东西虽然现在看起来很鸡肋。
未必就代表长远角度没有用途。
心念及此,林灰突然觉得很庆幸。
重生之后,前世的经验让其游刃有余。
另一方面,重生带给他让他受益的就是思维上的改变。
涉及到很多事物林灰都会下意识地考虑到长线价值。
甚至不经意间会考虑到十年二十年之后的事情。
有这种长线思维方式。
林灰觉得假以时日他一定能走到一个鲜有人企及的高度。
但这些想法就不足为外人道也。
虽然就基于字符串评价文本相似度的方法和伊芙·卡莉有些分歧。
但林灰并没有表露出来,学术上的交流很多时候也只是求同存异而已。
伊芙·卡莉还在继续陈述着她的看法:
“……我觉得将向量引入到语义文本相似度的衡量确实是一个不错的主意。
不过在介入向量之后,就像打开了潘多拉的魔盒一样。
向量在处理一些语义复杂的文本信息时。
极其容易形成一些高维空间,造成维度爆炸。
出现这种情况后,应用场景经常会变得极其糟糕。
经常出现维度爆炸的问题。
事实上,现在维度爆炸问题已经很制约我们的研究了。
dear林,不知道您关于这个问题有什么看法呢?”
林灰道:“维度爆炸主要是高维难处理的问题。
既然如此,为什么不考虑将高维进行降维呢?”
林灰的语气是那样的风轻云淡。
彷佛在叙述一件自然而然的事情一般。
降维?将高维的什么进行降维??
听了翻译同传过来的信息。
伊芙·卡莉有种要吐血的感觉。
她有点想学了。
她不知道林灰表达的原意就是将高维转化为低维。
还是说林灰在表述的时候说的是将高维的某物转化的低维但翻译在转达的时候却省略了什么东西。
如果是省略了一些重要的名词那实在是太糟糕了。
到底林灰想表达是将高维数据转化为低维数据?
还是说将高维模型转化为低维模型?
抑或是什么其他含义?
伊芙·卡莉很想询问一下。
不过考虑到林灰先前为了米娜·卡莉做出的贴心之举。
伊芙·卡莉并不好就这种事情让林灰带来的翻译陷入到不安之中。
仔细思索林灰话里的含意。
首先伊芙·卡莉觉得林灰想说的应该不是将高维数据降低成低维数据。
在进行自然语言处理时如果出现了高维数据的话。
在分析高维数据时,确实是可以进行降维的。
也必须要进行降维!
高维数据模型虽然收集到的数据点很多。
但是所收集到的数据通常会散布在一个极其分散广袤的高维空间中。
这种情况下很多统计方法都难以应用到高维数据上。
这也是“维度灾难”存在的原因之一。
遇到这种维度灾难,不降维的话高维数据是很难进行处理的。
ps:……数学天赋点满的人高维也能硬上
作为数据去噪简化的一种方法,降维处理对处理大多数现代机器学习数据很有帮助。
通过降低数据的维度,理论上讲可以把这个复杂棘手的问题变得简单轻松。
机器学习领域中所谓的降维就是指采用某种映射方法。
将原高维空间中的数据点映射到低维度的空间中。
这么做是为了除去噪音同时保存所关注信息的低维度数据。
这样对研究人员理解原本的高维数据所隐含的结构和模式很有帮助。
原始的高维度数据通常包含了许多无关或冗余变量的观测值。
降维可以被看作是一种潜在特征提取的方法。
降维这种方法经常用于数据压缩、数据探索以及数据可视化。
话虽如此,但降维并不是像科幻书里描述的那般扔一个二向箔就完事了。
涉及到降维是一件极其麻烦的事情!
在选择降维方法的时候,人们不得不考虑很多因素。
首先要考虑输入数据的性质。
比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。
对数据的性质和分辨率的考虑是十分重要的。
如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。
极有可能使得原本离散的数据直接“糊”在一起。
这种情况比高维离散还要糟糕。
在应用正式的降维技术之前。
还要对高维数据进行适当的预处理。
毕竟不是所有的数据都是样本数据。
而有的时候进行预处理时。
最佳的预处理方式又是引入降维。