首页> 中文学位 >基于知识图谱的搜索引擎技术研究与应用
【6h】

基于知识图谱的搜索引擎技术研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究工作的背景与意义

1.2 基于知识图谱的搜索引擎技术研究现状

1.3 论文的主要研究内容

1.4 论文的结构安排

第二章 基于知识图谱的搜索引擎相关技术

2.1 基于知识图谱技术的搜索引擎体系结构

2.2 爬虫及垂直搜索引擎技术

2.3 知识图谱技术

2.4 基于知识图谱的信息检索模型

2.5 本章小结

第三章 基于本体库的知识抽取及图谱构建技术

3.1 领域内本体库的构建技术

3.2 基于本体库的实体数据抽取技术

3.3基于Neo4j的图谱搭建技术

3.4 实验与分析

3.5 本章小结

第四章 基于增量索引技术的Lucene索引器

4.1 Lucene索引器

4.2 索引实体数据

4.3基于增量索引的索引技术

4.4实验与分析

4.5本章小结

第五章 基于知识图谱的搜索引擎实现

5.1 构建搜索引擎

5.2 构建知识图谱

5.3 基于知识图谱的检索结果排序

5.4 基于知识图谱的信息推荐

5.5 本章小结

第六章 总结与展望

6.1 全文总结

6.2 后续工作展望

致谢

参考文献

攻读研究生期间的成果

展开▼

摘要

互联网的迅速普及以及数字信息的爆炸式增长带来了宝贵的信息数据财富,尽管这些数据已经被分门别类,但是从成千上万的类别及其子类中检索有效信息对于搜索引擎也是较大的挑战。传统的搜索引擎通过对互联网中的数据进行全文索引,通过关键词匹配索引的方式进行信息检索并返回给用户相关的链接。这种检索方法不能准确理解用户的需求,同时返回的是相关链接而不是用户需要的信息,用户需要从链接的文档中查找相关的信息。为了改善上述传统搜索引擎的弊端,基于知识的搜索引擎引起了研究者和产业界的广泛关注。其主要思想是通过在互联网中进行数据获取,完成数据到知识的转变形成知识网络并提供信息检索功能。
  本文研究特定领域内的该类型搜索引擎的搭建相关理论及实现方法,希望通过该搜索引擎能够提供特定领域内的实体查询,即通过深度理解用户需求,从实体库中检索出相关实体返回给用户。围绕搭建领域内基于知识图谱的搜索引擎,研究基础搜索引擎框架,网络爬虫,数据索引,知识抽取,图谱模型等关键技术,主要工作包括:
  (1)提出一种基于本体库的知识抽取方法。通过领域内的本体库,判断从互联网中抓取的数据是否是领域内相关的实体,并从数据中抽取出实体相关的知识碎片,最后融合知识碎片形成领域内的知识。实验证明,这种方法的知识抽取相比传统的基于规则的抽取方法抽取范围更为确定,抽取的知识也较为准确。
  (2)提出一种基于Lucene的增量索引方法。通过分析Lucene框架以及Lucene的倒排索引和段合并机制,研究Lucene索引实体数据时性能较差的缺点,提出了通过多级索引文件代替索引库的索引方法,实验证明这种方法能够在一定程度上降低实时更新索引库时的耗时且对于检索请求响应更为敏捷。
  (3)实现了一个“机器学习”领域内的搜索引擎,用来提供相关实体的检索,其中实体主要包括文献,专家,期刊以及领域内相关概念。该搜索引擎以图谱的形式组织领域内的实体以及实体之间的语义网络,不仅提供了信息检索功能,通时提供了更加智能的结果排序以及相关推荐等功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号