首页> 中文学位 >基于句子相似度的文本比对算法研究
【6h】

基于句子相似度的文本比对算法研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 研究背景

1.2 研究现状

1.3 研究意义

1.4 本论文的选题和研究内容

1.5 论文组织结构

第二章 相似度计算及关键问题

2.1 相似度的概念

2.2 相似度计算

2.3 文本相似度计算算法研究

2.3.1 基于向量空间模型的TF-IDF方法

2.3.2 基于汉明距离的文本相似度计算方法

2.3.3 隐性语义标引

2.3.4 基于属性论的文本相似度计算方法

2.3.5 基于语义理解的相似度计算方法

2.4 小结

第三章 基于知网的相似度计算

3.1 知网相关

3.1.1 知网概述

3.1.2 知网系统指导思想

3.1.3 知网知识词典

3.1.4 知网描述语言

3.2 基于知网的相似度计算

3.2.1 词语相似度计算

3.2.2 句子相似度计算

3.2.3 段落相似度计算

3.3 中文分词技术

3.3.1 基于词典(词库)的分词方法

3.3.2 基于统计(词频)的分词方法

3.3.3 基于AI的分词方法

3.4 小结

第四章 文本相似度计算算法分析研究

4.1 基于字符串匹配的文本相似度计算算法设计

4.2 针对基于向量空间模型的TF-IDF算法研究

4.3 基于语义的文本相似度计算算法

4.3.1 词性的划分

4.3.2 词语相似度计算

4.3.3 义原相似度计算

4.3.4 实词概念的相似度的计算

4.4 小结

第五章 文本对比系统的设计与实现

5.1 文本对比系统简介

5.2 系统目标设计

5.3 开发设计思想

5.4 功能设计

5.5 系统流程

5.6 系统框架

5.7 系统主要模块设计

5.7.1 分词以及词性标注模块

5.7.2 特征词抽取模块

5.7.3 句子权重计算模块

5.7.4 文本对比以及带标记文本生成模块

5.8 系统测试与实验结果

5.9 小结

第六章 总结与展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

随着计算机和网络的日益普及,各类信息资源共享程度越来越高,给工作和生活带来极大的便利。人们每天都要获取和处理大量的信息,如何从海量数据中提取有价值的信息,已经成为信息技术领域的热门问题。然而,面对海量数据,现在我们又面临着另外一个相反问题:由于计算机与网络带来的极大便利,如何鉴别信息的相似性?
   基于句子相似度的文本比对算法研究,就是在分析句子构成以及句子含义的基础上,通过某种算法,将目标文本和标准文本进行相似度计算,以得出对文本相似程度的判定,为将来进行文本比对和鉴定提供依据。
   首先本文对现有常见的词语、句子以及文本相似度计算的关键问题进行了讨论,分析了基于向量空间模型的TF-IDF方法、基于汉明距离的文本相似度计算方法、隐性语义标引、基于属性论的文本相似度算法、基于语义理解的相似度计算以及基于知网的相似度算法。
   其次,本文对部分相似度算法做了一定程度上的改进,希望能获得更好的相似度比较效果。文中也给出了关于句子相似度的文本比对算法的计算机实现过程,并利用相关文本进行了测试,对所用的方法进行验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号