首页> 中文学位 >LUCENE中文分词在科研文档全文检索系统的应用研究
【6h】

LUCENE中文分词在科研文档全文检索系统的应用研究

代理获取

摘要

如何快速有效地从海量的信息资源中找到自己所需要的资源,已经成为人们越来越重视的问题。全文检索技术即是可以解决这个问题的主要技术。
   目前广泛使用的全文检索技术是Lucene工具包。Lucene是一个开源的全文检索引擎组件,在此基础上可以方便地对其进行二次开发来实现全文检索系统。但是Lucene仍有许多不足的地方需要进行改进,特别是在中文分词的处理上。由于中文分词质量的准确与否,将直接影响到用户对搜索结果的满意度,因此中文分词技术在全文检索系统中尤为重要,也是本文研究的关键内容。
   论文首先阐述了Lucene全文检索的相关技术,阐述了现有的中文分词方法,然后分析了Lucene的两个分析器ChineseAnalyzer和CJKAnalyzer的不足,并提出了基于词典的双向最大匹配分词算法;分析了Lucene对于文档格式支持的局限性,提出了一个通用的文本解析框架。
   论文的主要工作是分析设计并实现了一个基于Lucene的科研文档全文检索系统。分析了系统的总体架构和功能模块,对系统进行了总体设计和详细设计。针对科研文档格式的多样性,构建了文本解析模块,可以对多格式文档进行解析。系统的中文分析器采用改进的中文分词算法实现。对文本解析模块、中文分析器和系统的性能进行实验分析,通过实验证明,中文分析器的分词效果非常显著,系统的查全率和查准率都达到了用户的满意度。
   最后,论文对基于Lucene的科研文档全文检索系统进行了分析,总结了本文取得的成果,并对未来进一步的工作内容进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号