首页> 中文学位 >Web主题信息检索中的语义检索技术研究及应用
【6h】

Web主题信息检索中的语义检索技术研究及应用

代理获取

摘要

随着互联网的不断壮大,WEB已成为当今最大的信息载体,是人们获取信息的主要来源。信息检索技术作为人们获取信息的最主要的手段之一已得到了迅速的发展,但日益增长的网络信息资源,使得人们准确检索的需求并不能得到很好的满足,同时,WEB信息也无法被自动处理和有效利用。其中,最主要的原因在于:过大的资源基数使得通用检索系统返回的信息广而不精,且主题漂移现象频繁出现,用户将浪费较多的时间和精力来获取有用信息;另一方面,语义孤岛现象,即网络信息异构、服务异构以及人机理解的差别使得检索系统的有效召回率和召回精度都大打折扣。
   作为语义网核心的本体技术承担着语义表达的重要责任,通过本体支持语义,支持人机之间的交流,从而实现机器智能,为Web的发展带来了新的契机。本体在主题搜索引擎中的应用,必将对信息检索系统的易用性和效率产生极大的改进,从而最大程度迎合用户的检索需求。基于此,本文设计并构建了一个基于本体的主题信息检索原型系统,力求一定程度上提高信息的有效利用率和检索系统的效率。主要研究内容和创新有如下几个方面:
   ①构建了一个计算机技术领域中文本体。在现有本体理论、构建方法和技术的基础上,综合应用需求,对传统的本体建模方法进行了改进和完善。一方面,为确保概念的质量,本文综合筛选科研文献关键词、分类主题词表和一些通用知识库中的概念;另一方面,以应用需求为导向,明确本体构建目的,一定程度上减少了细节的干扰。基于此,论文设计并半自动构造了一个计算机技术领域的中文本体,并进行了相关查询实验,为进一步基于本体的语义信息检索应用研究做铺垫。
   ②基于本体的查询扩展实现。基于关键词匹配的通用搜索引擎无法应付语义孤岛现象,因此,我们采用概念匹配,即对其进行语义扩展,以求解决相关、相似的信息由于主题词表达方式的不同而无法被系统检索和返回。本文的查询扩展主要是基于概念间的关联程度。鉴于两个概念之间的关联度不仅与其概念之间定义的内在关系(包括公有属性等)有关,还与其在本体树中的分布距离相关,也即由结构内和结构外两因素主导,前者简称为相关度,后者为相似度。本文在现有相似度算法研究基础之上,综合需求,对最终概念关联算法进行了改进,并以此设计和实现了一个适合本文原型系统的扩展算法。
   ③基于本体的主题信息检索原型系统的设计与构建。包括本体查询子系统和Web主题语义检索系统两大模块。一方面,为了方便用户对领域概念和知识系统进行了解和随时查询,同时也为规范主题信息检索系统中查询的概念表述,论文设计并构建了一个简单的本体查询子系统,查询内容有本体概念、属性以及关系等,并以本体树的形式对本体进行整体表述。另一方面,在已研究实现的领域本体、概念相似度计算以及查询扩展模块的基础上,论文设计并成功实现了一个web主题语义检索系统,以期改进通用搜索引擎的效率。
   为了验证改进算法的有效性以及检索系统的效率,文章最后进行了对比实验,实验结果表明,基于本体的主题查询系统能很好的扩展并返回查询相关信息,一定程度上提高了基于关键词匹配检索系统的召回精度和召回率。
   关键词:语义网;本体;主题检索;语义相似度;查询扩展

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号