基于页面模块识别的Web文章自动抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这些信息和网页的主体信息混杂在一起,大大增加了用户正确定位网页有用信息的难度,导致目前只能采用全文检索的方式来查找所需信息,为了解决这个问题,本文做了以下工作:
　　通过对大量Web文章页面的DOM树结构和可视化信息进行了分析,提出一种针对Web文章页面的基于DOM树结构和可视化信息的页面分块算法。该分块算法根据Web文章页面所特有的结构信息和可视化信息特点,以较小的粒度对页面的可视文本进行分块预处理,从而为页面主体文本的模块识别提供基本的处理单元。实验结果表明,这种分块算法为后续的Web文章正文识别提供了合适的基本处理单元,为准确识别文章正文提供了很好的支持。
　　在页面分块的基础上,通过结构和可视化特征提取,提出了一种采用聚类算法和启发性规则的自动的Web文章正文识别方法,完成对Web文章正文的识别。实验结果表明,在对Web页面分块的基础上,这种识别方法拥有很高的性能。
　　在成功识别Web文章正文的基础上,分析Web文章的标题、摘要、图片、插图、插图小标题和相关链接列表等Web文章辅助信息的视觉特征和结构特征,针对每一种辅助信息,分别提出了一种基于启发式规则的识别方法。实验结果表明,这些识别方法有良好的效果。
　　在以上研究成果的基础上,构建了一个Web文章信息提取的原型系统,对Web文章的有效信息实现自动化提取。该系统为本文进行的各种实验研究提供了一个良好的平台,并为以后的相关研究提供支持。

著录项

作者
区基伟;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名叶允明;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
可视化信息; Web文章; 页面分块; 自动抽取; 模块识别;

相似文献

中文文献
外文文献
专利

1. Web页面中数据表的识别方法研究 [J] . 车成逸 ,马宗民 ,焦晓龙 . 计算机工程 . 2012,第023期
2. 基于虚拟表示模型的Web页面模块化设计方法 [J] . 熊茜 ,朱征宇 ,朱庆生 . 计算机应用 . 2005,第002期
3. 基于页面聚类的Web应用测试方法研究 [J] . 尤枫 ,张雅峰 ,赵瑞莲 . 计算机工程与应用 . 2018,第005期
4. 基于页面分类的 Web 信息抽取方法研究 [J] . 成卫青 ,于静 ,杨晶 . 计算机技术与发展 . 2013,第001期
5. 基于模板的Deep Web实体识别信息抽取方法研究 [J] . 王嵘冰 ,党小婉 ,徐红艳 . 辽宁大学学报（自然科学版） . 2017,第002期
6. 基于Web的农业信息自动抽取方法研究 [C] . 王文生 ,谢能付 . 全国农业信息分析理论与方法学术研讨会 . 2009
7. 基于Hadoop的Web评论自动抽取方法研究 [A] . 颜佳伟 . 2012

基于页面模块识别的Web文章自动抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅