首页> 中文学位 >基于《知网》义原空间的文本相似度计算研究与实现
【6h】

基于《知网》义原空间的文本相似度计算研究与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 课题研究背景和意义

1.2 研究现状

1.3 本文的研究目的和内容

1.4 本文的内容组织

2 文本相似度计算理论与基础技术

2.1 文本的表示形式

2.2 中文分词

2.3向量空间模型

2.4 其他的文本相似度计算方法

2.5 本章小结

3 《知网》义原向量空间模型

3.1 《知网》概述

3.2 义原向量空间

3.3 算法有效性的验证

3.4 本章小结

4 文本查重系统的设计

4.1 文本查重系统概述

4.2 文本预处理模块设计

4.3 系统文本库

4.4 《知网》知识库的存储设计

4.5 用户查重模块设计

4.6 查重系统的概念模型

4.7 本章小结

5 文本查重系统的实现

5.1 技术路线及框架选择

5.2 文本查重系统的实现

5.3 应用实例

5.4 本章小结

6 结论与展望

6.1 总结全文

6.2 展望未来

致谢

参考文献

附录

A. 作者在攻读学位期间发表的论文目录

B. 作者在攻读学位期间取得的科研成果目录

展开▼

摘要

文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。现有的文本相似度计算方法大致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语义理解的方法。基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果,其中最具代表性的就是向量空间模型(Vector Space Model,简称VSM)和广义向量空间模型(General Vector Space Model,简称GVSM)。GVSM在VSM的基础上利用文本特征项的共现信息,对VSM模型中特征项正交的假设进行了改进。基于语义理解的方法,通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。基于统计的方法简单高效,但是缺乏语义,无法处理自然语言中“一词多义”和“一义多词”的情况。而基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理。
  本文借鉴了广义向量空间模型的思想,利用知识库《知网》中的义原,提出了一种基于《知网》义原空间的文本语义相似度计算方法(Sememe Vector Space Model,简称SVSM)。SVSM把基于统计和语义理解的方法相互结合,将文本表示为义原空间中的向量,并通过计算文本义原向量之间的夹角实现文本相似度的计算。为了验证提出方法的有效性,本文通过文本聚类实验对比了SVSM与经典的VSM和GVSM模型。实验结果表明本文提出的算法在语义相似度计算方面相比VSM与GVSM有所提高。
  在义原文本相似度计算方法的基础上,本文基于J2EE平台设计并实现了一个文本查重系统。在该系统中将《知网》的义原、概念、词语、义原之间的相似度和词语的义原向量表示设计为数据库中的关系表。这样在进行文本相似度计算时可以直接查表取得相关信息,避免了重复计算,提高了文本相似度计算的效率。利用开源的软件工具包Lucence、ICTCLAS、hibernate Search等实现文本义原向量的构建和相似度的计算。通过将文本中实现的查重系统应用于实际的工程应用中,取得了良好的使用效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号