利用网页区域分割的聚焦爬虫算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网上数据的增长，通用的搜索引擎无法满足不同背景用户对于不同主题查全率的需求，垂直搜索引擎能够聚焦于特定的主题，更全面地抓取和检索与主题相关的网页。垂直搜索引擎在各个领域都得到了广泛的应用，聚焦爬虫是垂直搜索引擎的核心，成为近年来一个热门的研究课题。
　　聚焦爬虫需要抓取与主题相关的网页，计算和预测网页与主题的相关度是它的核心，主要包含三个方面：网页解析、网页相关度计算和链接优先度计算。在网页解析方面，提出了基于网页区域分割的正文抽取算法，该方法利用网页中重复的标签格式将网页划分为多个区域，利用区域的结构特征过滤噪声区域，基于网页正文标题的位置和区域文本特征确定正文区域。在计算网页的主题相关度时，使用分类算法，分别基于URL和标签文本训练分类器，利用投票法将分类器的分类结果结合起来。在计算链接的优先度时，按照网页分类的结果将与主题无关的网页过滤，针对主题相关的网页，对该网页中的区域继续进行分类，过滤掉主题无关的区域，结合网页的链接结构信息和区域分类的结果计算链接的优先度。
　　实验结果表明，提出的基于网页区域分割的正文抽取算法能够准确地识别出网页正文区域，具有较高的准确率和召回率，；结合 URL特征和网页标签特征能够提高网页的主题相关度计算的准确性；结合区域的相关度和网页的链接结构信息，提高了爬虫的性能。要进一步提高聚焦爬虫的性能，下一步的研究是考虑对分类器进行增量训练并加快分类的速度。

著录项

作者
张佳敏;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位硕士
导师姓名于俊清;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;算法理论;
关键词
聚焦爬虫算法; 网页区域分割; 网页分类; 链接优先度预测; 搜索引擎;

相似文献

中文文献
外文文献
专利

1. 网页主题相关性判别的聚焦爬虫系统的设计与实现 [J] . 刘娟 ,赵晓楠 . 计算机与现代化 . 2012,第010期
2. 基于语义的聚焦爬虫算法研究 [J] . 孙红光 ,藏润强 ,姬传德 . 东北师大学报：自然科学版 . 2018,第2期
3. 利用正则表达式解析新闻网页的算法研究 [J] . 程冲 ,黄水清 . 农业图书情报学刊 . 2005,第004期
4. 网页区域分割与识别技术 [J] . 吴鹏飞 ,孟祥增 ,刘俊晓 . 现代计算机（专业版） . 2006,第006期
5. 基于深度学习的胃溃疡病变区域分割算法研究 [J] . 张丽航 ,王善娟 ,常庆 . 现代消化及介入诊疗 . 2021,第003期
6. Web搜索的网页更新检测算法研究 [C] . 周艳 ,吴跃 ,鲁珂 . 2009年西南地区网络与信息系统学术年会 . 2009
7. 基于Web Community识别的聚焦爬虫算法研究与设计 [A] . 李君梅 . 2008

利用网页区域分割的聚焦爬虫算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅