李松介绍道:“松江府能够直接从新闻网站抓取跟魔都有关的资讯,经过整理后加入自己的数据库。因此,它是一个开放的体系,能不断更新自己的知识,确保对魔都的认知是最新最全的。”
“这么说,若论起对魔都的了解,即便是一个老魔都人,也比不上‘松江府’?”
“从理论上说,是这样的。”
“AI真是厉害啊。”陈岩发了一个“叹气”的表情:“不过,你也别高兴得太早,看我马上揪出你的漏洞。”
这下李松有点紧张了,不知道陈岩又看出什么问题。
只见陈岩在聊天群里问道:“@松江府,阿拉想出去转转,侬知道哪里堵车伐?”
松江府回答:“今天的交通热点集中在外滩、世博园、迪士尼……等地,请注意避开。”
李松感到欣慰:经过一番机器学习,松江府对魔都方言已经有一定的识别能力;松江府还定时从魔都交通网站上获取实时交通状况。因此陈岩用方言问堵点之类的问题,是难不倒松江府的。
陈岩继续说道:“余元商城附近应该不堵车吧?我想给我父亲买个手掌。”
这下李松愣住了:没听说魔都有个什么“余元商城”啊?还有,买个“手掌”是啥意思?听着好吓人啊。
果真,松江府没有吭声,聊天群里一片寂静。
李松私下里问陈岩:“你到底在说什么?我都听不懂。”
陈岩解释道:“我真正的意思是:想去豫园商城买个手杖。”
“原来你是说这个啊,吓我一跳,你就不能好好说话么?”
“我是在好好说话啊,难道你平时打字就不会出现这样的情况?”
“这……”李松感觉无言以对:是啊,手机、电脑打字聊天时,出现错别字很正常,甚至还有不少错别字“转正”呢。
比如“斑竹”本应该是“版主”,由于人们经常误打,后来干脆将错就错,正式使用“斑竹”这个称呼了。
陈岩提醒道:“发现问题了吧?遇到错别字,松江府不能识别,也就无法进行应答,这可不能适应互联网的实际需要啊。”
“你说得对,但这个问题有点难办。”李松有些苦恼:机器学习的前提,是依据正确的材料,不断进行自我提升。网上的大量文章,要是也像聊天那样经常包含错别字,那非把松江府带沟里去不可。
但是这个问题又必须解决,聊天环境毕竟跟正儿八经写文章不同,不能要求太高。
接下来的两天,李松研究出了一个“关键词匹配”的方案:遇到疑似错别字,如果在替换成读音相近的关键词后,语义上说得通,那就按关键词理解。
大年初三,李松再次邀请陈岩一起测试。
当陈岩说“想去余元商城买个手掌”时,松江府反问道:“@陈岩,你是想去豫园商城吧?还有,手掌是不能买的,你说的是手杖吧?”
这回陈岩不得不老实承认:“哦对,是我打错了字。”
松江府热情地介绍:“今天豫园商城附近不堵车,那边有很多卖手杖的店铺,百年老店‘鹤轩礼品店’信誉很好,你不妨去看看。”
“好的,多谢。”
李松悄悄问陈岩:“这回感觉如何?”