首页> 中文学位 >基于页面模块识别的Web文章自动抽取方法研究
【6h】

基于页面模块识别的Web文章自动抽取方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题研究的目的和意义

1.2 国内外研究和综述

1.3 课题研究内容

1.4 本文结构安排

第2章 Web文章页面分块与信息抽取的相关知识

2.1 Web文章模型

2.2 页面特征与页面分块算法相关概念

2.3相关分类聚类算法

2.4性能评价指标

2.5 本章小结

第3章 Web文章的正文识别方法

3.1 页面分块算法设计

3.2 Web文章的正文识别方法设计

3.3实验结果与分析

3.4本章小结

第4章 Web文章辅助信息的识别方法

4.1 Web文章标题的识别

4.2 Web文章摘要的识别

4.3 Web文章插图及其小标题的识别

4.4 Web文章相关链接列表的识别

4.5实验结果与分析

4.6本章小结

第5章 Web文章信息自动抽取系统

5.1 系统功能目标

5.2 系统总体设计

5.3 系统模块详细设计

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这些信息和网页的主体信息混杂在一起,大大增加了用户正确定位网页有用信息的难度,导致目前只能采用全文检索的方式来查找所需信息,为了解决这个问题,本文做了以下工作:
  通过对大量Web文章页面的DOM树结构和可视化信息进行了分析,提出一种针对Web文章页面的基于DOM树结构和可视化信息的页面分块算法。该分块算法根据Web文章页面所特有的结构信息和可视化信息特点,以较小的粒度对页面的可视文本进行分块预处理,从而为页面主体文本的模块识别提供基本的处理单元。实验结果表明,这种分块算法为后续的Web文章正文识别提供了合适的基本处理单元,为准确识别文章正文提供了很好的支持。
  在页面分块的基础上,通过结构和可视化特征提取,提出了一种采用聚类算法和启发性规则的自动的Web文章正文识别方法,完成对Web文章正文的识别。实验结果表明,在对Web页面分块的基础上,这种识别方法拥有很高的性能。
  在成功识别Web文章正文的基础上,分析Web文章的标题、摘要、图片、插图、插图小标题和相关链接列表等Web文章辅助信息的视觉特征和结构特征,针对每一种辅助信息,分别提出了一种基于启发式规则的识别方法。实验结果表明,这些识别方法有良好的效果。
  在以上研究成果的基础上,构建了一个Web文章信息提取的原型系统,对Web文章的有效信息实现自动化提取。该系统为本文进行的各种实验研究提供了一个良好的平台,并为以后的相关研究提供支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号