基于本体概念相似度的主题爬虫中网页排序模型研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

相比通用搜索引擎，专注于某一具体领域的主题搜索引擎可以带来更高精度的信息采集，为用户带来更好信息检索服务。主题爬虫作为主题搜索引擎的核心模块，提高检索信息的领域相关度就显得尤为重要。但是由于网络资源规模巨大且呈高度动态的增长，采集结果仍然会存在大量不相关的网页信息，从而导致采集效率下降。针对这种问题，本文通过研究主题爬虫设计中的相关性分析技术，主要是网页排序算法的研究，分析总结目前网页排序算法的优缺点，并结合盐湖领域特点，利用本体在表达语义方面的优势，提出一种新的基于本体概念相似度的网页排序算法，以此提高主题相关性计算准确度。该方法首先选择出合适网页作为初始领子种子集合，然后通过构建盐湖领域本体获取本体概念集，并对概念集分类且给予权重，利用概念相似度计算方法计算网页内所有概念与本体概念集中概念的相似度，根据综合得分对网页进行排序，将得分高的网页存放到主题爬虫中，为将来的网页采集做准备。最后通过实验证明，该算法不仅大大减少了不相关的结果，提高了采集网页的主题相关度，而且也提高了检索的准确率。

著录项

作者
冯飞;
展开▼
作者单位

北京信息科技大学;

展开▼
授予单位北京信息科技大学;
学科工业工程
授予学位硕士
导师姓名刘宇,汪邦军;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;情报学、情报工作;
关键词
基于本体; 概念相似度; 主题爬虫; 网页排序;

相似文献

中文文献
外文文献
专利

1. 基于本体概念相似度的网页排序算法研究 [J] . 张健 ,冯飞 ,刘宇 . 情报学报 . 2013,第011期
2. 基于主题相关概念和网页分块的主题爬虫研究 [J] . 黄仁 ,王良伟 . 计算机应用研究 . 2013,第008期
3. 基于规则引擎的个性化主题网页爬虫的研究 [J] . 赵思佳 ,尹婷 . 计算机技术与发展 . 2011,第003期
4. 基于本体的TBT电子信息产品领域主题爬虫研究 [J] . 蒋国瑞 ,王秋利 . 情报杂志 . 2011,第007期
5. 基于本体的主题爬虫的研究 [J] . 吴聪聪 ,赵建立 . 电脑知识与技术 . 2011,第003期
6. 基于本体的概念相似度计算研究 [C] . 陈立 ,宋自林 ,郑世明 . 江苏省系统工程学会第十一届学术年会 . 2009
7. 基于主题的微博网页爬虫研究 [A] . 曾小虎 . 2014

基于本体概念相似度的主题爬虫中网页排序模型研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅