首页> 中文学位 >利用网页区域分割的聚焦爬虫算法研究
【6h】

利用网页区域分割的聚焦爬虫算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪 论

1.1 研究目的及意义

1.2 国内外研究现状

1.3 研究目标及所做的工作

1.4 论文的组织结构

2 网页正文抽取

2.1 网页区域分割

2.2 网页正文标题提取

2.3 网页正文区域识别

2.4 实验结果与分析

2.5 本章小结

3 链接评价

3.1 网页的主题相关度计算

3.2 链接的优先度计算

3. 3 链接的分级管理

3.4 本章小结

4 聚焦爬虫实验与分析

4.1 聚焦爬虫原型系统

4.2 爬虫性能评价标准

4.3 实验方案及结果分析

4.4 本章小结

5 总结与展望

5.1 全文总结

5.2 存在的问题

5.3 研究展望

致谢

参考文献

展开▼

摘要

随着互联网上数据的增长,通用的搜索引擎无法满足不同背景用户对于不同主题查全率的需求,垂直搜索引擎能够聚焦于特定的主题,更全面地抓取和检索与主题相关的网页。垂直搜索引擎在各个领域都得到了广泛的应用,聚焦爬虫是垂直搜索引擎的核心,成为近年来一个热门的研究课题。
  聚焦爬虫需要抓取与主题相关的网页,计算和预测网页与主题的相关度是它的核心,主要包含三个方面:网页解析、网页相关度计算和链接优先度计算。在网页解析方面,提出了基于网页区域分割的正文抽取算法,该方法利用网页中重复的标签格式将网页划分为多个区域,利用区域的结构特征过滤噪声区域,基于网页正文标题的位置和区域文本特征确定正文区域。在计算网页的主题相关度时,使用分类算法,分别基于URL和标签文本训练分类器,利用投票法将分类器的分类结果结合起来。在计算链接的优先度时,按照网页分类的结果将与主题无关的网页过滤,针对主题相关的网页,对该网页中的区域继续进行分类,过滤掉主题无关的区域,结合网页的链接结构信息和区域分类的结果计算链接的优先度。
  实验结果表明,提出的基于网页区域分割的正文抽取算法能够准确地识别出网页正文区域,具有较高的准确率和召回率,;结合 URL特征和网页标签特征能够提高网页的主题相关度计算的准确性;结合区域的相关度和网页的链接结构信息,提高了爬虫的性能。要进一步提高聚焦爬虫的性能,下一步的研究是考虑对分类器进行增量训练并加快分类的速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号