首页> 中文学位 >面向语义网的语义搜索引擎关键技术研究
【6h】

面向语义网的语义搜索引擎关键技术研究

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 课题背景和研究意义

1.1.1 语义网

1.1.2 本体

1.1.3 语义搜索引擎

1.2 关键问题

1.3 课题研究现状

1.3.1 面向万维网语义搜索引擎

1.3.2 面向语义网的语义搜索引擎

1.4 研究内容及创新点

1.5 本文的组织

第2章 面向语义网的专题语义搜索引擎框架

2.1 面向语义网的语义搜索引擎概况

2.2 面向语义网的专题搜索引擎总体框架

2.2.1 语义专题爬虫

2.2.2 文档解析器

2.2.3 本体映射器

2.2.4 实体映射器

2.2.5 语义索引器

2.2.6 语义数据存储

2.2.7 查询处理器

2.3 本章小结

第3章 语义专题爬虫

3.1 语义专题爬虫概况

3.2 语义专题爬虫框架

3.3 语义文档内容表示

3.3.1 语义文档内容表示概况

3.3.2 基于聚类的图形语义文档内容表示

3.4 智能爬虫路径调整方法

3.4.1 Q学习

3.4.2 特征选取

3.4.3 链接预测方法

3.5 实验结果及分析

3.5.1 实验一文档内容表示

3.5.2 实验二增强Q学习爬行算法性能

3.6 本章小结

第4章 本体映射方法

4.1 本体映射概况

4.2 本体映射框架

4.3 基于WordNet的概念相似度计算

4.3.1 概念相似度概况

4.3.2 概念相似度算法

4.4 基于实例的本体映射方法

4.4.1 基于实例的本体映射概况

4.4.2 实例获取方法

4.4.3 实例相似度计算

4.5 实验结果及分析

4.5.1 实验一基于WordNet概念相似度方法

4.5.2 实验二实例相似度算法

4.6 本章小结

第5章 语义分级索引

5.1 语义索引概况

5.2 语义分级索引结构

5.2.1 倒排文档的索引

5.2.2 基于路径的索引

5.2.3 三元组的索引

5.2.4 实体的聚类索引

5.3 基于路径的索引

5.3.1 路径索引结构

5.3.2 路径抽取

5.3.3 路径索引建立

5.3.4 路径索引查询

5.4 实体的聚类索引

5.4.1 实体语义距离计算

5.4.2 实体聚类方法

5.4.3 聚类索引结构

5.4.4 聚类索引查询

5.5 实验结果及分析

5.5.1 实验一路径索引结构性能

5.5.2 实验二实体聚类方法性能

第6章 面向语义网的语义搜索引擎Sniper

6.1 Sniper框架

6.1.1 用户搜索界面

6.1.2 查询处理模块

6.1.3 领域本体

6.1.4 语义专题爬虫

6.1.5 本体映射器

6.1.6 实体融合器

6.1.7 语义分级索引

6.1.8 数据存储

6.2 Sniper界面

6.2.1 Sniper主页面

6.2.2 Sniper单关键词查询界面

6.2.3 Sniper多关键词查询界面

6.3 Sniper特点

6.3.1 本体指导

6.3.2 实体融合

6.3.3 语义查询

6.4 Sniper系统相关的信息

6.5 本章小结

结论与展望

参考文献

附录1 基于WordNet的领域本体

附录2 Sniper语义专题爬虫的种子页面列表文件Sample-plan.rdf

攻读博士学位期间所发表的学术论文

攻读博士学位期间所获得的软件著作权

致谢

图的索引

表的索引

展开▼

摘要

语义网是当今互联网的发展趋势,语义网环境下的文档拥有丰富的语义信息,这为数据的语义处理提供了基础。面向语义网的语义专题搜索引擎将充分的利用语义网丰富的语义信息作为出发点,通过分析语义文档中的语义标注和本体的知识表示使得用户针对某一个专题进行精确的搜索成为可能,面向语义网的语义专题搜索引擎的关键技术研究对推动互联网技术的进一步发展以及语义网的普及具有重要意义。
   面向语义网的语义专题搜索引擎包括语义专题爬虫、本体映射器、实体融合器、语义索引器以及用户界面几个主要部件。本选题主要研究内容包括以下四个方面:(1)计算本体概念之间相似度的新方法。方法除了考虑概念的属性相似度对概念相似度的影响以外,还将两个概念之间存在多条路径连接的情况纳入了考虑范围。(2)语义专题爬虫的路径调整算法。通过计算页面主题相关度计算作为Q学习器的回报函数,并采用用户操作数据对回报函数的参数进行调整,提高爬虫获取主题相关语义文档的性能。(3)结合多种本体元素的相似度的本体映射方法。映射方法除了考虑到本体的语言相似度和结构相似度以外,还加入了本体实例的相似度作为映射结果的参考因素。(4)语义信息的语义分级索引。语义分级索引从多种索引对象出发,分析对象的特点,建立索引逐步引导用户通过快速查询逼近真正的查询意图。
   论文在以下方面作了有益的探索和创新性工作。
   (1)对语义网以及语义搜索引擎的特点进行了分析,指出了目前的语义搜索引擎的局限性,并在此基础上提出了一种基于语义解析和处理的面向语义网的专题搜索引擎框架(以下简称FSTSE),并且对框架中的各个部件的工作流程和作用进行了阐述。FSTSE为以下的各个方法研究提供了基础。
   (2)在FSTSE的框架下,针对语义专题爬虫的路径调整算法进行了分析和阐述。面对大量位置分散的语义文档,对文档内容的分析以及爬行路径的预测和筛选显得非常重要。本文提出了利用WordNet本体作为指导的语义文档图形表示方法,方法可以准确的将语义文档的内容表示为图形结构。在此基础上,本文提出了由Q学习器通过学习为Bayes分类器提供先验概率的QBLP爬虫路径调整算法。QBLP方法通过累计语义文档和语义链接特征的知识,调整爬虫爬行路径,提高爬虫的性能。这个目标在实验中得到了验证。
   (3)针对语义网应用普遍存在的本体异构问题,本文提出了结合多种本体元素的相似度的本体映射方法。除了本体映射方法中常用的语言相似度和结构相似度以外,本文还对概念实例的相似度计算方法进行了研究,并提出了一种判断簇内样本纯度的衡量标准——信息熵纯度。通过对聚类形成的簇的信息熵纯度来分析本体中拥有实例集合的概念之间的相似度。实验表明,这种本体映射方法表现出很高的性能。
   (4)为了提高语义搜索引擎的查询效率,本文对语义信息进行了不同粒度的解析,建立了多级的语义索引结构,日的是为了满足用户针对语义信息不同的查询需求。分级索引包括文档、聚类、路径和三元组四个级别,每个级别都根据索引对象的特征建立索引,并且以语义信息之间的语义相似度为基础,试图理解用户的搜索意图,提高搜索效率。最后,本文通过实验对索引性能进行了测试。
   (5)在FSTSE的基础上,结合语义爬虫的路径调整方法、多种相似度混合的本体映射方法和分级的语义索引结构,我们实现了一个面向语义网的语义专题搜索引擎原型系统——Sniper。Sniper基本实现了文中方法的设计目标,能够快速的响应用户的语义查询,实现了语义数据在语义层面的融合。
   本文主要针对语义网环境下的语义信息的信息集成问题进行研究,基本实现了语义层面的信息获取、信息融合、信息组织和信息利用过程,是对信息集成方向的应用技术研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号