Web网页正文抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的迅速发展，WWW已发展为一个庞大的信息空间，为人们供了极其丰富的信息资源。然而一个网页的正文四周，通常会夹杂着许多与正文不相关的“噪音信息”，这些内容往往对人们浏览网页造成干扰。如何帮助人们提取出网页正文，避开不相关的信息干扰，对于Web数据清洗、文档自动摘要的形成以及文档分类等诸多领域的应用都是非常有意义的。
　　本文对DSE(Data-rich Sub-tree Extraction)算法进行分析，提出了一种改进的基于网页结构和内容的网页正文抽取算法--DTE(DOM-Based TextExtraction)，设计并实现了一个网页正文抽取原型系统，并将该算法应用到其中。DTE算法弥补了许多已有算法只关注网页结构或只关注网页内容的不足，同时考虑网页的结构和内容。
　　 DTE算法在把网页解析成DOM树的基础上，通过对DOM树的节点比较和匹配，确定网页的噪音信息节点和正文信息节点，从而精确获取网页模板。当新网页出现时，使用得到的网页模板去除大部分噪音信息后，结合语义，准确抽取正文信息。文中采用了一定的算法，定位出网页的评论、采用语义去除无关图片，能使保证正文图片和表格的完整性。
　　实验表明，该方法可取得较高的准确率和完整性，能有效地抽取网页正文信息。

著录项

作者
万晶;
展开▼
作者单位

南昌大学;

展开▼
授予单位南昌大学;
学科计算机应用技术
授予学位硕士
导师姓名白似雪;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
网页正文; 信息抽取; DOM树; DTE算法;

相似文献

中文文献
外文文献
专利

1. 基于统计和机器学习的中文Web网页正文内容抽取 [J] . 游贵荣 ,陆玉昌 . 福建商业高等专科学校学报 . 2009,第002期
2. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
3. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
4. 基于树先剪枝的网页正文抽取方法研究 [J] . 王亮 ,高屹 . 科技创新与应用 . 2013,第036期
5. WNBTE网页正文抽取方法研究 [J] . 李纲 ,戴强斌 . 情报科学 . 2008,第3期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 结合块密度和标签路径特征的网页正文抽取方法研究 [A] . 刘鹏程 . 2017

Web网页正文抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅