首页> 中文学位 >基于本体的个性化Web信息检索方法研究
【6h】

基于本体的个性化Web信息检索方法研究

代理获取

目录

声明

摘要

1.1研究背景

1.2研究现状

1.3本文的研究内容及意义

1.4论文的组织结构

第2章相关理论与技术

2.1网络爬虫技术

2.2中文分词

2.2.1中文分词的含义

2.2.2中文分词方法

2.3本体

2.3.1本体的基本含义

2.3.2本体的构成

2.3.3本体构建的规则

2.3.4本体的构建方法

第3章基于本体的个性化Web信息检索

3.1基于领域本体的网页相关度分析

3.2基于用户偏好本体的个性化信息检索

3.2.1构建用户偏好本体

3.2.2术语的偏好值调整

3.2.3 Web信息检索结果排序

3.3本章小结

第4章基于本体的个性化Web信息检索系统设计与实现

4.1基于领域本体的分布式网络爬虫设计与实现

4.1.1页面采集

4.1.2页面处理

4.1.3中文分词

4.1.4基于领域本体的网页相关度分析

4.2基于用户偏好本体的个性化信息检索的设计与实现

4.3本章小结

第5章实验与分析

5.1基于领域本体的网络爬虫测试与分析

5.2检索结果排序的测试与分析

第6章总结和展望

参考文献

致谢

展开▼

摘要

随着互联网的规模的迅速增长,其相关的服务和信息量也随之快速增长,并且还在疯狂膨胀中。但是要高效地利用这些网页信息资源,既快速又准确地检索到用户需要的时讯信息或是某一特定领域的专业知识信息,在现阶段却尤为困难,导致了所谓的“信息过载”与“信息迷向”等问题。造成这些问题的主要原因是大部分搜索引擎主要是基于关键词的全文匹配进行检索,在检索结果的排序算法上并不考虑不同用户的偏好和需求的差异性。不同用户只要输入的关键字相同,就会得到完全相同的网页检索结果排序。因此,如何为用户检索到与用户的检索请求语义相关并符合用户自身偏好、真正适合用户个性化需求的资源显得至关重要。 基于上述原因,本文以本体论为方法论基础,提出了一种基于本体的个性化Web信息检索方法。该方法尝试通过分析用户所浏览的网页中的术语和概念来了解用户的检索意图,摆脱过去以关键字为主的检索方式,直接针对用户正在浏览的网页,以该网页的语义内容作为用户检索的参考。为了将这些语义内容做适当的描述与记录,通过构建用户偏好本体来记录这些术语和概念,反映术语及其连接关系,了解用户的实际需求。通过本体结构记录和解释用户偏好,结合本体与规则进行推理来完成Web信息与用户的个性化匹配,使相同的Web信息对于不同的用户具有不同的适合程度,最终实现Web信息个性化检索。 基于本体的个性化Web信息检索方法主要分为两个部分: 首先,提出了基于领域本体的Web信息获取的方法。设计了一个分布式的网络爬虫,这个网络爬虫可以快速搜集到网页资源;给出了网页内容提取算法、中文分词算法、将网页内容与领域本体进行相似度计算的算法。根据构建好的领域本体对网页内容进行语义的相关性分析,找出属于某一领域范围的网页。 其次,提出了基于用户偏好本体的个性化Web信息检索结果排序的算法。该算法从用户浏览过的网页中找出重要的术语,参考专家知识本体的架构将这些术语建成用户偏好本体。用户偏好本体能代表用户目前所掌握的领域术语和用户对这些术语的偏好程度。根据用户偏好本体中术语的偏好值对Web信息检索出的结果进行评分计算,得到符合用户偏好的个性化排序,这样检索排序后的结果更能体现用户的真实需求。 通过这些工作,本文实现了一种基于本体的个性化Web信息检索方法,建立了一个基于此方法的使用流程和模型,并用实验进行了说明。该方法为实现Web环境下的信息检索、Web资源的充分利用以及使Web更个性化的为用户服务提供了有力的工具。

著录项

  • 作者

    张楠;

  • 作者单位

    东北大学;

  • 授予单位 东北大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 马宗民;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    基于本体; 个性化; Web信息检索;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号