首页> 中文学位 >基于本体论及Lucene的电子公文检索系统
【6h】

基于本体论及Lucene的电子公文检索系统

代理获取

目录

文摘

英文文摘

独创性声明及关于论文使用授权的说明

1.引言

1.1研究背景

1.2研究现状

1.3研究目标与研究方法

1.4论文的结构安排

2.本体论

2.1本体的定义

2.2本体描述语言

2.2.1 RDF和RDFS

2.2.2 DAML+OIL

2.2.3 OWL

2.3本体开发工具---Protégé

3.Java专家系统内核(JESS)

3.1 JESS推理机简介

3.2 JESS推理机的组成

3.3 JESS推理引擎的推理过程

3.4 JESS推理过程示例

3.5 JESS工作区内的查找操作

4.全文检索引擎Lucene

4.1全文检索引擎Lucene简介

4.2 Lucene软件包分析

4.3 Lucene的索引机制

4.4 Lucene的检索结果排序

4.5 Lucene的评分算法

5.基于本体论和Lucene的电子公文检索系统的实现

5.1系统体系结构

5.2用Protégé构建领域本体

5.3用JESS定义推理规则

5.4用POI从Word格式的公文中抽取文本信息

5.5中文分词的实现

5.6用Lucene实现全文检索

6.实验分析

6.1对系统功能的测试

6.2对导航查询和全文检索的性能分析

7.总结与展望

参考文献

附录:攻读硕士学位期间发表论文及参与课题

展开▼

摘要

电子政务是政府在国民经济和社会信息化的背景下,以提高政府办公效率,增加透明度,改善决策和投资环境,强化经济和社会的有效管理,提高法制治理水平为目标,将政府的信息发布、管理、服务、沟通功能向国际互联网上迁移的系统解决方案。 随着电子政务的推广,各个部门产生的电子公文越来越多,如何对这些电子公文进行有效的管理并能够提供有效的检索机制,以保证用户能够随时快速全面地从这些公文中找到所关心的内容,日趋显得重要。在电子政务领域,为了对产生的大量公文进行管理,各部门大都采用了文件管理系统,通过关键词匹配来进行文件检索,这种检索方式的最大缺点在于无法了解用户所输入的查询关键词的语义,所以如果能够理解用户所输入的查询关键词的语义将有效地提高检索的查全率和查准率,从而更好地满足用户的查询要求。 为了解决上述问题,本研究在传统的公文检索方式的基础之上,提供一种导航式检索,这种检索方式可以根据用户输入的查询关键词进行推理,然后给出与此查询相关的一些查询建议供用户选择,由此来提高检索的查全率和查准率,提高其平均性能。 本研究采用Stanford大学的本体开发工具Prot6g63.2Beta对电子政务领域的电子公文进行表示,采用OWL-DL作为本体的描述语言,推理引擎采用JESS(JavaExpertSystemShell:Java专家系统内核),并利用JESSTab来完成Prot6g6与JESS之间的连接,对于全文检索则采用Lucene作为搜索引擎内核。由于本研究是以江西财经大学校内多个部门所发布的公文作为研究背景,所以本系统提供的全文检索是针对Word文档进行操作的,并且是对中文信息进行检索的,所以在对信息进行全文检索之前一定要先对Word文档中的内容进行抽取,本研究采用POI工具对Word文档里面的内容进行抽取,另外,因为是针对中文Word文档进行检索,所以在对Word文档中的内容抽取之后要对抽取出的中文内容进行分词操作,为后面索引的建立做好准备。本研究采用基于字符串匹配的分词方法,即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,完成分词操作,最后对分词后的Word文档中的内容建立索引。 通过对实验数据进行分析可知,本文所实现的导航查询的查全率和查准率虽然都介于普通查询和全文检索之间,但是所实现的导航查询的平均性能比普通查询和全文检索都要高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号