首页> 中文学位 >异构文档库全文检索系统的设计与实现
【6h】

异构文档库全文检索系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 课题背景和意义

1.2 国内外研究现状

1.3 研究内容与组织结构

2 关键技术研究

2.1 全文检索系统

2.2 Solr搜索引擎

2.3 中文分词技术

2.4 本章小结

3 全文检索系统的分析与设计

3.1 需求分析

3.2 系统总体设计

3.3 功能模块设计

3.4 本章小结

4 全文检索系统的实现

4.1 软件开发和运行环境

4.2 系统实现类图

4.3 异构文档库文件获取模块

4.4 文档解析模块

4.5 分词模块

4.6 索引管理模块

4.7 信息检索模块

4.8 系统性能测试

4.9 本章小结

5 总结与展望

5.1 全文总结

5.2 进一步研究方向

致谢

参考文献

展开▼

摘要

随着信息化时代的发展,不仅互联网信息量正在以指数级的速度增长,企业内部长期积累的文档资料也越来越多。如何在海量资料中快速检索到自己所需要信息的问题亟需解决。基于Solr的全文检索系统,通过采集文档的元数据信息以及解析其文本内容,为企业内异构文档库中的文档建立索引结构,为用户提供了快速检索所需文档的工具。
  采用B/S结构的全文检索系统,服务端按功能主要划分为异构文档库文件获取、文档解析、分词、索引管理以及信息检索五大模块。异构文档库文件获取模块为驻留在服务器上的网络爬虫服务,采用增量更新模式,定期获取异构文档库上已被修改的文档,对文件目录文档库使用JCIFS抓取,对SVN及Polarion文档库使用SVNKIT抓取,对文档数据库直接通过数据库连接抓取。文档解析模块对抓取到的各种类型文档进行解析获取其文本内容,对office文档采用POI解析,对PDF文档采用PDFBOX解析,对XML文档采用JDOM解析,对Polarion文档采用自定义的方式解析。分词模块将开源中文分词包IKAnalyzer集成到Solr中,提供中文文本的分词功能。索引管理模块整合文档的文本内容及元数据信息,将其更新到索引库,其中索引库为利用Solr构建的倒排索引结构。信息检索模块利用服务端提供的服务接口,为用户提供检索界面并提供系统设置、文件上传等功能界面。
  为企业搭建了一个基于全文检索的搜索引擎,为用户提供了方便快速的文档搜索功能。系统测试表明,服务端索引更新速度较快,文档搜索的响应速度、查全率、查准率都达到了用户的需求,实现了系统功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号