首页> 中文学位 >DRIS系统中的中文自动分词模块设计与实现
【6h】

DRIS系统中的中文自动分词模块设计与实现

代理获取

摘要

作为信息检索技术核心之一的中文自动分词技术就是利用计算机程序对中文文本进行词语的自动识别,其处理结果直接影响信息检索服务和搜索引擎的检索效果。本课题的主要目的就是在数字图书馆系统——基于域内资源整合系统(DRIS)理论的检索系统中,研究并设计具有中英文处理能力的中文自动分词模块。
   论文介绍了基于DRIS的中文自动分词模块研究的背景、意义、内容以及中文自动分词技术研究的国内外现状,概述了中文自动分词算法的类型划分,探讨了四类基于中文词典的分词算法的原理及优缺点,归纳了中文自动分词系统的性能评价标准,分别从五个方面分析了目前中文自动分词技术研究所遇到的难点问题,研究了DRIS原理、功能、组织形式以及基于Lucene.Net的搜索引擎原理和结构。在描述四种常用的中文自动分词算法及介绍中文词典机制之后,论文展示和分析了这四种分词算法的分词结果,考虑到DRIS的实际需要,选择基于中文词典的正向最大匹配法(FMM)为DRIS系统中的中文自动分词模块所采用的中文自动分词算法。在理解语言分析器子包Lucene.Net.Analysis的主要功能和结构的基础上,论文设计并实现了中文自动分词程序模块Lucene.Net.Analysis.CJK2,描述了此模块的文件构成、中文词典的初始化过程以及对中英文混合源文本的处理过程,给出了此模块的部分程序和主要流程图,展示了集成此模块的DRIS对Web网页源文件进行索引而得到的标准Token结果。论文还分析了DRIS中有关索引合并的问题,并在提出了相应的解决方案之后,展望了后续研究工作。
   采用FMM中文自动分词算法的DRIS具有较理想的中文分词效率,索引效率和检索服务质量都得到了提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号