首页> 中文学位 >基于切词和语义的中文相似度研究与应用
【6h】

基于切词和语义的中文相似度研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 相关研究背景

1.2中文相似度研究现状

1.3相似度研究意义

1.4 本文的主要研究内容及工作

1.5本文组织结构

第二章 中文相似度计算中的相关问题研究

2.1相似度的概念

2.2中文切词技术的研究

2.3不同层次的中文相似度

2.4本章小结

第三章 基于语义理解的相似度研究

3.1相似度计算方法回顾

3.2知识网络

3.3基于《知网》的多属性的词语相似度计算

3.4基于《知网》和语义串的语句相似度计算

3.5实验及分析

3.6本章小结

第四章 基于语义的全文检索系统的实现

4.1系统总体概述

4.2系统架构

4.3系统流程

4.4各模块实现

4.5 本章小结

第五章 结束语

致谢

参考文献

攻硕期间取得的成果

展开▼

摘要

在自然语言处理中,相似度的问题是一个被广泛研究和讨论的具有重要价值的研究内容。中文相似度的研究是通过将语言学、统计学、社会学和计算机科学相结合,来达到计算各种结构类型的中文文本相似度。由于在中文没有自然的分割符,所以中文相似度研究的前提是中文自动切词。经过多年的研究探索,已有效果很好的中文切词系统,如本文使用的ICTCLAS系统。目前的各类相似度研究方法大致上有:基于统计模型的算法、基于规则的算法和基于知识网络系统的算法这三类。各类算法优缺点不一,然而由于前两类没有直接的考虑相似度中关键的语义相似这一因素而不如后一类效果良好,因此本文也采用基于知识网络系统的相似度算法来对词语和语句的相似度进行研究。
  本文在研究总结前人的工作基础上,作了如下工作内容:
  1、本文首先在对语义网络《知网》及义原相似度研究的基础上,针对目前基于《知网》的语义相似度算法的问题以及重新考虑了义原的属性后,提出了新的义原相似度的计算方法。在《知网》以及对目前的词语相似度算法的研究基础上提出了新的词语相似度算法。通过对词语的共现性的研究,认为词语间的共现性也是对词语相似度的一种反映,因此将词语的共现性引入词语相似度的计算中,对本文提出的词语相似度的计算公式做了修正。
  2、针对《知网》无法解决的未登录词相似度计算问题,本文通过切词系统及最大匹配算法将其转化为《知网》中的登录词,进而提出了基于《知网》的未登录词相似度算法。
  3、在词语相似度的研究基础上以及中文切词系统下,针对目前已有的语句相似度算法,提出了连续多个具有高相似度值的词语词序列对语句的相似度贡献大于其他词语的贡献,且这种连续性在语义上具有承接的作用这一观点,给出了语义串的概念以及其定义。在语义串概念的基础上,通过衡量语义串在语句相似度中的权值,给出了语句相似度计算公式。
  4、在词语和语句相似度的基础上,本文使用基于空间向量模型的篇章相似度计算算法设计并实现了全文检索系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号