基于《知网》义原空间的文本相似度计算研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。现有的文本相似度计算方法大致可以归纳为两类，第一类是基于文本特征统计的方法，第二类则是基于文本语义理解的方法。基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果，其中最具代表性的就是向量空间模型(Vector Space Model,简称VSM)和广义向量空间模型（General Vector Space Model,简称GVSM）。GVSM在VSM的基础上利用文本特征项的共现信息，对VSM模型中特征项正交的假设进行了改进。基于语义理解的方法，通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。基于统计的方法简单高效，但是缺乏语义，无法处理自然语言中“一词多义”和“一义多词”的情况。而基于语义理解的方法往往计算比较复杂，不适合大规模的文本处理。
　　本文借鉴了广义向量空间模型的思想，利用知识库《知网》中的义原，提出了一种基于《知网》义原空间的文本语义相似度计算方法（Sememe Vector Space Model，简称SVSM）。SVSM把基于统计和语义理解的方法相互结合，将文本表示为义原空间中的向量，并通过计算文本义原向量之间的夹角实现文本相似度的计算。为了验证提出方法的有效性，本文通过文本聚类实验对比了SVSM与经典的VSM和GVSM模型。实验结果表明本文提出的算法在语义相似度计算方面相比VSM与GVSM有所提高。
　　在义原文本相似度计算方法的基础上，本文基于J2EE平台设计并实现了一个文本查重系统。在该系统中将《知网》的义原、概念、词语、义原之间的相似度和词语的义原向量表示设计为数据库中的关系表。这样在进行文本相似度计算时可以直接查表取得相关信息，避免了重复计算，提高了文本相似度计算的效率。利用开源的软件工具包Lucence、ICTCLAS、hibernate Search等实现文本义原向量的构建和相似度的计算。通过将文本中实现的查重系统应用于实际的工程应用中，取得了良好的使用效果。

著录项

作者
张科;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名罗军;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
文本相似度; 义原空间; 查重系统; 语义理解; J2EE平台; 网络技术;

相似文献

中文文献
外文文献
专利

1. 基于《知网》义原空间的文本相似度计算 [J] . 肖志军 ,冯广丽 . 科学技术与工程 . 2013 ,第029期
2. 基于知网义原信息量的词语相似度计算方法 [J] . 李国佳 ,杨喜亮 . 软件导刊 . 2015 ,第006期
3. 基于知网义原信息量的词语相似度计算方法 [J] . 李国佳 ,杨喜亮 . 软件导刊 . 2015 ,第006期
4. 《知网》义原相似度计算的研究 [J] . 袁晓峰 . 辽宁大学学报（自然科学版） . 2011 ,第004期
5. 基于《知网》义原搭配的中文文本语义级自动查错研究 [J] . 郭充 ,张仰森 . 计算机工程与设计 . 2010 ,第017期
6. 基于知网概念多层结构和义原复修饰关系的语义相似度计算方法 [C] . 刘江鸣 ,徐金安 ,张玉洁 . 第六届全国青年计算语言学会议 . 2012
7. 基于知网的中文文本相似度计算研究 [A] . 黄姝怡 . 2008

基于《知网》义原空间的文本相似度计算研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅