词汇语义相似度算法研究及应用
2021-03-29
来源:星星旅游
第l2卷第7期 201 3q-"7,q VO1.12No.7 Jul 20l 3 词汇语义相似度算法研究及应用 郭 丽 ,刘 磊 (1.中原工学院软件学院,河南郑州450007; 2.郑州航空工业管理学院计算机科学与应用系,河南郑州450005) 摘 要:介绍了当前国内外有关词汇语义相似度算法的研究现状,分析并对比了几种具有代表性的计算方法,并将几 种常用的词汇语义相似度算法应用于FAQ中,分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价,根 据相似问句的检索效果判断各词语相似度算法的优劣。 关键词:语义相似度;FAQ;VSM;HowNet 中图分类号iTP314 文献标识码:A 文章编号:1672—7800(2013)007~0057—02 几年“知网”等语义资源不断丰富发展,中文语义研究方向 0 引言 词汇的语义相似度在自然语言处理领域有着不可替 代的意义和作用。然而词汇之间的语义关系是非常复杂 逐渐增多。知网作为一个知识系统,是一个网而不是树, 它主要反映概念的共性和个性,同时知网还着力反映概念 之间和概念属性之间的各种关系。而词语DEF之间的路 径距离则代表了词汇语义的聚合程度。 1.2基于统计的语义相似度算法 的,使用一个简单的数值很难来度量词汇之间含义的相似 程度。同样的一对词语,在一方面看可能非常相似,但是 换个角度就可能相差甚远。所以,研究词语语义相似度离 不开具体的应用背景,例如,在机器翻译应用中,词汇语义 相似度用来衡量中文和英文文本中,中文单词与中文词语 之间是否可替换;而在信息检索中,词汇语义相似度要体 基于统计的语义相似度方法建立在如果两个词语的 含义相同或相近,则伴随它们同时出现的上下文也相同或 相近。该方法主要以词语的上下文信息的概率分布作为 相似度参考,计算的方法主要包含有向量空间模型 (VSM)、词语共现信息、基于部分语法分析和改进的基于 大规模语料库的方法。 1.3基于混合技术的语义相似度算法 现用户查询所使用的关键词与用户实际查询目的在语义 E是否一致。 基于大规模语料统计的算法相对专家手工建立的语 1词语相似度研究现状 词语相似度主要分为基于语义本体资源、基于统计算 法和将前两者融合的混合技术3种方法:利用语义资源计 算词语相似度也可称为基于本体(或知识库)的词语相似 度算法,主要根据专家人工建立的语义网络计算相似度。 利用统计技术计算词语间语义相似度采用的是无监督的 义资源更加客观,但每种统计模型的创建都受语料库中数 据质量的极大干扰,如不可避免的数据稀疏和数据噪声都 直接影响最终的相似度计算结果。基于语义资源的算法 执行起来简单有效,但语义资源建设需要专业人士耗费人 力物力,同时严重受建设者的主观意识影响。所以,一种 语义与统计相融合的词语相似度算法应运而生,通过发挥 两种算法各自的优势进行词汇问的语义相似度的计算。 混合算法能够利用本体知识对稀疏数据进行扩充,从而在 一机器学习算法,分为基于大规模语料库和基于普通词典等 方法。混合技术则结合统计技术和语义资源,取长补短, 定程度上解决数据稀疏的问题。 提高相似度计算的正确率。 1.1 基于语义资源的词语相似度算法 2词语相似度应用实验 FAQ即常见问题库,它一般作为自动问答系统的子 部分存在。比如“百度知道”,每当用户输入一个问题时, 近年来,一些诸如同义词词林、WordNet、知网这种大 规模可量化的语言本体的诞生与发展,为进行真实文本的 语义分析和理解提供了强有力的资源支持。特别是最近 基金项目:河南省科技厅基础研究项目(12230O41。048);郑州航院教育科研项目(zhjy一1220) 作者简介:郭丽(1984一),女,硕士,中原工学院软件学院助教,研究方向为云计算、数据挖掘、自然语言处理;刘磊(1981一),男,硕士, 郑州航空工业管理学院计算机科学与应用系讲师,研究方向为文本挖掘、自然语言处理。 ・58・ 软件导刊 首先可以查找与之相似的问题及其对应的答案。所以 FAQ主要用来搜集用户提问频率较高的问题,并将它对 应的答案一起进行存储。当用户需要输入一个新的查询 问题时,FAQ首先可以在搜集存储的常见问题库中查找 与其相似的问题,如果找到了相同的问句,就将该问句的 相关答案抽取出来,并作为最终答案返回给用户。但是由 于汉语表现形式的多样性,同样一个问题往往有多种表现 形式,因此在FAQ中很难查找到一模一样的问句。在 FAQ中进行问答行为的过程,实际是计算用户提交问句 与常见问题库中问句间句子语义相似程度的过程。 本文为实现FAQ查询功能,采用向量空间模型 (VSM)计算用户提交问句与常见问题库中问题例句问的 相似程度,而句子相似度的计算依赖于词汇语义之间的相 似度,本文使用基于语义(知网)、基于统计(上下文点互信 息)和语义统计相融合的相似度算法作为词汇语义的权 值,通过VSM算法计算句子间相似程度,并对其进行对 比实验,最终根据FAQ中检索的相似问句效果来比较上 述算法问的优劣。 2.1基于向量空间模型的句子相似度算法 向量空间模型(Vector Space Model,简称VsM)最初 用在信息检索(IR)中用来对用户查询和语料库文档建模,%%∞ %%% %如今已经得到了广泛的应用,如在句子或文档的表示中, 就是通过句子中去掉停用词后剩下的有效词来构成向量 空间,然后在该向量空间中将待计算的句子进行向量化, 以两个向量夹角的余弦值作为句子之间的相似度度量。 2.2实验方法 本文选择从百度知道“生活类别”下数据内容较广的 美容塑身类别中采集10个常见问题,组成领域问答库。 本文对相似度计算的结果评测方法选择Pooling方法 评测,P@N代表参与评测的算法都要返回前N个答案。 分别采用准确率(Precision)、召回率(Recal1)、F值以及 MRR(Mean Reciprocal Rank)、MAP(Mean Average Pre— cision)5个指标进行评价。其中,MRR、MAP的公式如 下: R一辜 1 z 2.aP(Q)一— ̄D ocQ(i) ]其中,R。为算法返回的正确答案总数,r。为算法返 回的排名最靠后的正确答案,#Doc。( )为算法返回第i 个正确答案时共返回答案的总数。 2.3实验结果 本文选择的测试问句如表1,并分别返回前5、10、2O 个答案作为该算法返回的结果。 从图l可知,语义与统计相融合的词语相似度算法 (M一3)在不考虑检索到结果的相关度排序问题下,效果 最好,其次为基于语义的词语相似度算法(M一2),最后是 基于统计的词语相似度算法(M一1)。如果考虑返回结果 的相关度的排序,效果最好的为语义与统计相融合的词语 相似度算法,其次为基于统计的词语相似度算法,最后是 基于语义的词语相似度算法。并且语义与统计融合的算 法的优势更加明显。 表1测试问旬 问句号 问句 问句号 问句 %%%%% o 3 结语 从第6个问题(S~6)“嘉和的智能止鼾器效果怎么 样?”可以看出,基于统计的词语相似度受制于训练语料的 规模,由于数据稀疏(止鼾器出现次数很少),由统计方法 计算“止鼾器”的结果不理想,而基于语义的词语相似度算 法可以得到较好的效果;从第三个问题(S一3)“直肠癌化 疗后掉头发怎么办?”可以看出,单纯的基于语义计算词语 相似度则完全依赖语义资源,语义词典中“直肠癌”与“头 发”的相似度较低,而基于统计的词语相似度算法则能给 出较高的相似度值。可见,将两者融合能有效地克服各自 算法的缺点,给出更加合理的词语相似度数值。 参考文献: [1]董振东,董强.知网EEB/OI ].http://www.keenage.corn,2002. E23 刘群,李素建.基于知网的词汇相似度计算[EB/OI ].http:// www.keenage.con],2002. -I3]PETER D TURNEY.Similarity of semantic relations1,J].Computa— tional I inguistics Journal,2006(3). [4]PETER D TUNREY.Mining the web for synonyms:pmi—ir versus lsa on toef1[c]//Proceedings of The 1 2th European Conference on Machine Learning.Freiburg,2001. [5]DERRICK HIGGINS.Which statistics reflects semantics.rethin— king synonymy and word similarity1,A],Proceedings of Internation— al Conference on Linguistic EvidenceEC],Ttibingen,2004(1). (责任编辑:余晓) ㈤ %%