首页> 中文学位 >基于Lucene的web站内英文PDF文档全文检索研究
【6h】

基于Lucene的web站内英文PDF文档全文检索研究

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1课题背景及需求

1.2全文检索的概念

1.3全文检索引擎工具包Lucene简介

1.4Lucene的优点

1.5Lucene的特点

1.6本论文的结构以及主要工作

2 Lucene与关系型数据库的对比

2.1 Lucene与关系型数据库概述

2.2 Lucene与传统关系型数据库的联系

2.3两者在全文检索问题上的对比

2.4 Lucene与数据库索引的对比

2.5 Lucene与数据库模糊查询的对比

3 Lucene系统结构分析

3.1 Lucene系统结构组织

3.2 Lucene数据流分析

3.3 对Lucene分析中学习到的先进理念

3.4基于Lucene的应用开发

4网络爬虫模块的设计

4.1基于Lucene的英文PDF文档全文检索系统框架

4.2网络爬虫模块的设计

4.3.1 Config

4.3.2 Main

4.3.3 SerialGen

4.3.4 ProxyUsers

4.3.5 LinkManager

4.3.6 Downloader

4.3.7 Crawler

4.3.8 run()方法

4.3.9 processPDF()方法

5文档分析模块的设计

5.1文档分析模块的设计目的

5.2文档分析模块中几个主要类的设计说明

5.2.1 Indexer

5.2.2 PDFAnalyzer

5.2.3 PDFExtractor

5.2.4 getKeyWordText(String,int)方法

5.2.5 SimpleTextAnalyzer

6用户查询模块的设计

6.1用户界面的设计

6.1.1用户界面模块的设计目标

6.1.2用户界面模块的设计实施

6.2用户界面模块中主要类的设计说明

6.2.1Main

6.2.2 Config类

6.2.3 Searcher

6.3.4 Result

6.3.5 ImCache

7运行评估以及未来展望

7.1运行评估

7.2安装方式

7.3未来的改进方向

7.4论文结论

致谢

作者攻读硕士期间的研究成果

作者攻读硕士期间参与的研究项目

参考文献

展开▼

摘要

随着科技信息国际化的发展,辽宁工程技术大学正在兴建一个国际学术期刊资料库,里面需要大量的英文PDF文档资料,本论文的设计目的就是要为这个资料库提供一个高质量的web全文检索服务,即建立一个通用的、专业的英文论文网站站内全文检索工具,在web站点上搜索到适合需求的专业论文后,将其填充到我校的资料库中。 Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以为一个网站提供站内PDF文档的全文检索功能。探讨了使用Lucene建造一个通用的Web站点PDF文档全文检索工具的过程,在全文的最后给出了实现,并对在构建系统中所出现的若干问题进行了详细探讨。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号