首页> 中文学位 >军事文献搜索引擎架构的研究与实现
【6h】

军事文献搜索引擎架构的研究与实现

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景及其现状

1.2研究的目的及意义

1.3论文的组织结构

2全文检索技术

2.1全文检索引擎Lucene分析研究

2.1.1搜索引擎的发展简史

2.1.2 Lucene简介

2.1.3 Lucene的系统结构

2.1.4 Lucene索引结构

2.1.5 Lucene的优势及应用

2.2全文检索技术概述

2.2.1全文检索技术的特点以及含义

2.2.2全文检索技术的基本原理

2.2.3全文检索系统体系结构

2.3全文检索技术的索引机制

2.3.1索引组织方法

2.3.2倒排索引技术

2.3.3全文检索索引方法

2.4 Oracle Text检索组件

3中文分词技术

3.1中文分词的概况

3.2中文分词的算法

3.2.1基于字符串匹配的分词方法

3.2.2基于理解的分词方法

3.2.3基于统计的分词方法

3.3中文分词面临的问题

4军事文献搜索引擎架构的设计

4.1系统体系结构

4.2系统数据库的设计

4.3网络数据采集服务的设计

4.3.1网络爬虫Heritrix简介

4.3.2采集服务的设计

4.4文本转换框架的设计

4.5中文分词服务的设计

4.5.1 ICTCLAS中文分词模型

4.5.2词典维护服务

4.6索引服务的设计

4.6.1语义分析服务

4.6.2索引服务

4.7查询服务的设计

4.8管理服务的设计

4.8.1文献库管理

4.8.2分类管理

4.8.3文献资料管理

4.8.4用户管理

5军事文献搜索引擎中检索系统的实现

5.1数据采集服务的实现

5.2文本转换框架的实现

5.2.1转换算法基类

5.2.2算法管理器

5.2.3工作流程

5.3语义分析服务的实现

5.4索引服务的实现

5.5查询服务的实现

5.6管理服务的实现

6总结和展望

6.1总结

6.2展望

致 谢

参考文献

展开▼

摘要

军队信息服务体系与创新研究作为军队信息化建设战略研究的基础构件之一,在挖掘信息资源,实现无障碍传递,推进技术革新,协助军事科研,培养现代化军队,造就高素质复合型人才等方面,具有重要的理论价值和现实意义。当今时代,信息资源的开发利用作为信息化建设的中心任务,具有极其重要的意义。在军队的信息化建设过程中,电子军务,内网稳定共享的要求逐步提高,为了满足军方信息内部共享的要求,我们构建军用Internet。从目前发展的军网的架构来看,不同密级的局域网通过骨干网络沟联起来,信息通过外部网站的信息来发布。 军事领域内网检索过程中,产生了大量的文献资料,为了有效地获取并利用这些已有信息,以往开发的部分军务系统将文献资料存储到Oracle数据库中,并利用其提供的全文检索技术Oracle Text来创建索引和进行检索。利用Oracle数据库检索技术虽然在一定程度上实现了文献资料的检索,但这种方法也有其自身的不足:索引与数据库是紧耦合的,这种紧耦合的关系在一定程度上影响了数据库的工作效率,特别是在索引创建和维护的过程中,要占用大量的系统资源,导致数据库的运行效率降低,可能会影响到其他使用数据库的应用的运行。其次Oracle数据库的索引不能为其他数据库系统所使用,因而当文献资料存储在多种数据库中时,不能进行跨库查询。最后,Oracle Text中的中文分词效率不高,而且不支持中英文混合情况下的分词,这都影响了检索的查全率和查准率。 我们在已有的技术基础上,构建了军事文献搜索引擎架构,虽然依然使用Oracle数据库来存储军网的文献资料,但是不再使用Oracle内部的索引机制,而是设计开发了索引服务模块和查询服务模块来索引和检索。本论文解决以下几个问题: (1)提出了军事文献搜索引擎中检索系统的体系结构框架。该框架中,数据库与索引文件实现了松耦合,解决了以往系统中索引重建导致数据库效率变低的缺陷。 (2)为了保证文献资料与索引的同步,采用了多线程编程的方式设计了数据采集服务并且引入了线程池技术以此来提高数据采集的运行效率。同时提出了在数据采集服务模块当中引入了网络爬虫的机制,利用类似于垂直搜索的概念扩充了军务信息的采集方式。 (3)在C++平台上设计实现了算法即插即用的文本转换框架,利用C++的虚函数机制来获取文本转换基类的多态行为。该框架具备高度的可扩展性,在不影响框架本身和应用的前提下就可以将算法集成到框架中。 (4)在研究已有索引技术的基础上,设计实现了满足系统需求的索引服务和查询服务。索引服务不仅对文献资料正文数据创建了索引,同时对于文献资料的属性信息和文献库的相关信息也存到了索引中,这为查询服务的几种查询方式提供了便利。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号