词汇语义相似度算法研究及应用

2021-03-29 来源：星星旅游

第ｌ２卷第７期　２０１　３ｑ－＂７，ｑ　ＶＯ１．１２Ｎｏ．７　Ｊｕｌ　２０ｌ　３　词汇语义相似度算法研究及应用　郭　丽　，刘　磊　（１．中原工学院软件学院，河南郑州４５０００７；　２．郑州航空工业管理学院计算机科学与应用系，河南郑州４５０００５）　摘　要：介绍了当前国内外有关词汇语义相似度算法的研究现状，分析并对比了几种具有代表性的计算方法，并将几　种常用的词汇语义相似度算法应用于ＦＡＱ中，分别采用准确率、召回率、Ｆ值以及ＭＲＲ、ＭＡＰ５个指标进行评价，根　据相似问句的检索效果判断各词语相似度算法的优劣。　关键词：语义相似度；ＦＡＱ；ＶＳＭ；ＨｏｗＮｅｔ　中图分类号ｉＴＰ３１４　文献标识码：Ａ　文章编号：１６７２—７８００（２０１３）００７～００５７—０２　几年“知网”等语义资源不断丰富发展，中文语义研究方向　０　引言　词汇的语义相似度在自然语言处理领域有着不可替　代的意义和作用。然而词汇之间的语义关系是非常复杂　逐渐增多。知网作为一个知识系统，是一个网而不是树，　它主要反映概念的共性和个性，同时知网还着力反映概念　之间和概念属性之间的各种关系。而词语ＤＥＦ之间的路　径距离则代表了词汇语义的聚合程度。　１．２基于统计的语义相似度算法　的，使用一个简单的数值很难来度量词汇之间含义的相似　程度。同样的一对词语，在一方面看可能非常相似，但是　换个角度就可能相差甚远。所以，研究词语语义相似度离　不开具体的应用背景，例如，在机器翻译应用中，词汇语义　相似度用来衡量中文和英文文本中，中文单词与中文词语　之间是否可替换；而在信息检索中，词汇语义相似度要体　基于统计的语义相似度方法建立在如果两个词语的　含义相同或相近，则伴随它们同时出现的上下文也相同或　相近。该方法主要以词语的上下文信息的概率分布作为　相似度参考，计算的方法主要包含有向量空间模型　（ＶＳＭ）、词语共现信息、基于部分语法分析和改进的基于　大规模语料库的方法。　１．３基于混合技术的语义相似度算法　现用户查询所使用的关键词与用户实际查询目的在语义　Ｅ是否一致。　基于大规模语料统计的算法相对专家手工建立的语　１词语相似度研究现状　词语相似度主要分为基于语义本体资源、基于统计算　法和将前两者融合的混合技术３种方法：利用语义资源计　算词语相似度也可称为基于本体（或知识库）的词语相似　度算法，主要根据专家人工建立的语义网络计算相似度。　利用统计技术计算词语间语义相似度采用的是无监督的　义资源更加客观，但每种统计模型的创建都受语料库中数　据质量的极大干扰，如不可避免的数据稀疏和数据噪声都　直接影响最终的相似度计算结果。基于语义资源的算法　执行起来简单有效，但语义资源建设需要专业人士耗费人　力物力，同时严重受建设者的主观意识影响。所以，一种　语义与统计相融合的词语相似度算法应运而生，通过发挥　两种算法各自的优势进行词汇问的语义相似度的计算。　混合算法能够利用本体知识对稀疏数据进行扩充，从而在　一机器学习算法，分为基于大规模语料库和基于普通词典等　方法。混合技术则结合统计技术和语义资源，取长补短，　定程度上解决数据稀疏的问题。　提高相似度计算的正确率。　１．１　基于语义资源的词语相似度算法　２词语相似度应用实验　ＦＡＱ即常见问题库，它一般作为自动问答系统的子　部分存在。比如“百度知道”，每当用户输入一个问题时，　近年来，一些诸如同义词词林、ＷｏｒｄＮｅｔ、知网这种大　规模可量化的语言本体的诞生与发展，为进行真实文本的　语义分析和理解提供了强有力的资源支持。特别是最近　基金项目：河南省科技厅基础研究项目（１２２３０Ｏ４１。０４８）；郑州航院教育科研项目（ｚｈｊｙ一１２２０）　作者简介：郭丽（１９８４一），女，硕士，中原工学院软件学院助教，研究方向为云计算、数据挖掘、自然语言处理；刘磊（１９８１一），男，硕士，　郑州航空工业管理学院计算机科学与应用系讲师，研究方向为文本挖掘、自然语言处理。　・５８・　软件导刊　首先可以查找与之相似的问题及其对应的答案。所以　ＦＡＱ主要用来搜集用户提问频率较高的问题，并将它对　应的答案一起进行存储。当用户需要输入一个新的查询　问题时，ＦＡＱ首先可以在搜集存储的常见问题库中查找　与其相似的问题，如果找到了相同的问句，就将该问句的　相关答案抽取出来，并作为最终答案返回给用户。但是由　于汉语表现形式的多样性，同样一个问题往往有多种表现　形式，因此在ＦＡＱ中很难查找到一模一样的问句。在　ＦＡＱ中进行问答行为的过程，实际是计算用户提交问句　与常见问题库中问句间句子语义相似程度的过程。　本文为实现ＦＡＱ查询功能，采用向量空间模型　（ＶＳＭ）计算用户提交问句与常见问题库中问题例句问的　相似程度，而句子相似度的计算依赖于词汇语义之间的相　似度，本文使用基于语义（知网）、基于统计（上下文点互信　息）和语义统计相融合的相似度算法作为词汇语义的权　值，通过ＶＳＭ算法计算句子间相似程度，并对其进行对　比实验，最终根据ＦＡＱ中检索的相似问句效果来比较上　述算法问的优劣。　２．１基于向量空间模型的句子相似度算法　向量空间模型（Ｖｅｃｔｏｒ　Ｓｐａｃｅ　Ｍｏｄｅｌ，简称ＶｓＭ）最初　用在信息检索（ＩＲ）中用来对用户查询和语料库文档建模，％％∞　％％％　％如今已经得到了广泛的应用，如在句子或文档的表示中，　就是通过句子中去掉停用词后剩下的有效词来构成向量　空间，然后在该向量空间中将待计算的句子进行向量化，　以两个向量夹角的余弦值作为句子之间的相似度度量。　２．２实验方法　本文选择从百度知道“生活类别”下数据内容较广的　美容塑身类别中采集１０个常见问题，组成领域问答库。　本文对相似度计算的结果评测方法选择Ｐｏｏｌｉｎｇ方法　评测，Ｐ＠Ｎ代表参与评测的算法都要返回前Ｎ个答案。　分别采用准确率（Ｐｒｅｃｉｓｉｏｎ）、召回率（Ｒｅｃａｌ１）、Ｆ值以及　ＭＲＲ（Ｍｅａｎ　Ｒｅｃｉｐｒｏｃａｌ　Ｒａｎｋ）、ＭＡＰ（Ｍｅａｎ　Ａｖｅｒａｇｅ　Ｐｒｅ—　ｃｉｓｉｏｎ）５个指标进行评价。其中，ＭＲＲ、ＭＡＰ的公式如　下：　Ｒ一辜　１　ｚ　２．ａＰ（Ｑ）一—￣Ｄ　ｏｃＱ（ｉ）　］其中，Ｒ。为算法返回的正确答案总数，ｒ。为算法返　回的排名最靠后的正确答案，＃Ｄｏｃ。（　）为算法返回第ｉ　个正确答案时共返回答案的总数。　２．３实验结果　本文选择的测试问句如表１，并分别返回前５、１０、２Ｏ　个答案作为该算法返回的结果。　从图ｌ可知，语义与统计相融合的词语相似度算法　（Ｍ一３）在不考虑检索到结果的相关度排序问题下，效果　最好，其次为基于语义的词语相似度算法（Ｍ一２），最后是　基于统计的词语相似度算法（Ｍ一１）。如果考虑返回结果　的相关度的排序，效果最好的为语义与统计相融合的词语　相似度算法，其次为基于统计的词语相似度算法，最后是　基于语义的词语相似度算法。并且语义与统计融合的算　法的优势更加明显。　表１测试问旬　问句号　问句　问句号　问句　％％％％％　ｏ　３　结语　从第６个问题（Ｓ～６）“嘉和的智能止鼾器效果怎么　样？”可以看出，基于统计的词语相似度受制于训练语料的　规模，由于数据稀疏（止鼾器出现次数很少），由统计方法　计算“止鼾器”的结果不理想，而基于语义的词语相似度算　法可以得到较好的效果；从第三个问题（Ｓ一３）“直肠癌化　疗后掉头发怎么办？”可以看出，单纯的基于语义计算词语　相似度则完全依赖语义资源，语义词典中“直肠癌”与“头　发”的相似度较低，而基于统计的词语相似度算法则能给　出较高的相似度值。可见，将两者融合能有效地克服各自　算法的缺点，给出更加合理的词语相似度数值。　参考文献：　［１］董振东，董强．知网ＥＥＢ／ＯＩ　］．ｈｔｔｐ：／／ｗｗｗ．ｋｅｅｎａｇｅ．ｃｏｒｎ，２００２．　Ｅ２３　刘群，李素建．基于知网的词汇相似度计算［ＥＢ／ＯＩ　］．ｈｔｔｐ：／／　ｗｗｗ．ｋｅｅｎａｇｅ．ｃｏｎ］，２００２．　－Ｉ３］ＰＥＴＥＲ　Ｄ　ＴＵＲＮＥＹ．Ｓｉｍｉｌａｒｉｔｙ　ｏｆ　ｓｅｍａｎｔｉｃ　ｒｅｌａｔｉｏｎｓ１，Ｊ］．Ｃｏｍｐｕｔａ—　ｔｉｏｎａｌ　Ｉ　ｉｎｇｕｉｓｔｉｃｓ　Ｊｏｕｒｎａｌ，２００６（３）．　［４］ＰＥＴＥＲ　Ｄ　ＴＵＮＲＥＹ．Ｍｉｎｉｎｇ　ｔｈｅ　ｗｅｂ　ｆｏｒ　ｓｙｎｏｎｙｍｓ：ｐｍｉ—ｉｒ　ｖｅｒｓｕｓ　ｌｓａ　ｏｎ　ｔｏｅｆ１［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｔｈｅ　１　２ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ．Ｆｒｅｉｂｕｒｇ，２００１．　［５］ＤＥＲＲＩＣＫ　ＨＩＧＧＩＮＳ．Ｗｈｉｃｈ　ｓｔａｔｉｓｔｉｃｓ　ｒｅｆｌｅｃｔｓ　ｓｅｍａｎｔｉｃｓ．ｒｅｔｈｉｎ—　ｋｉｎｇ　ｓｙｎｏｎｙｍｙ　ａｎｄ　ｗｏｒｄ　ｓｉｍｉｌａｒｉｔｙ１，Ａ］，Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎ—　ａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｌｉｎｇｕｉｓｔｉｃ　ＥｖｉｄｅｎｃｅＥＣ］，Ｔｔｉｂｉｎｇｅｎ，２００４（１）．　（责任编辑：余晓）　㈤　％％

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

词汇语义相似度算法研究及应用