基于文本密度和页面结构的网页信息抽取技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着移动互联网技术的普遍发展，智能移动设备以其高便携性、即时性和应用轻便等特性受到了越来越多人的青睐，手机不再只是简单的通讯工具，越来越多的人通过手机、平板电脑等移动设备获取最新的资讯信息。web是互联网上最丰富和最密集的信息来源，随着信息量的逐渐膨胀，网站上不仅仅显示有价值的文本信息，同时还包含着广告、图片、导航栏等大量无关的干扰信息。根据Tomkins等人的研究显示，网页上噪音大约占40％～50％，但是移动设备屏幕尺寸和PC端相比较小，无法在屏幕中完全的展示PC端网页的所有内容，用户需要花费较长的时间来操作滚动条去寻找正文文本，这样既耗费时间也不利于页面浏览。如何自适应的将PC端海量的信息抽取出有价值的部分，形成有利于在移动设备中浏览的网页，成为了信息抽取技术领域亟待解决的问题。
　　一方面，现阶段基于文本密度的网页信息抽取方法，都是通过数据挖掘方法来获取网页信息，然而传统的基于密度的网页信息提取方法并不能有效的管理那些包含少量文本和大量噪音的页面。另一方面，现有的将网页分块技术:一种是通过HTML标签的启发式规则将网页分块，这种方法只适合较少标签时使用，一旦在大量基于特定标签的研究中使用的启发式规则，会降低这些方法的普遍适用性;另一种方法是利用视觉启发式规则。然而视觉为基础的分块方法还需要下载和解析样式表，这将显著影响工作效率。
　　针对上述问题，本文提出了一种综合文本密度和网页分块相结合的抽取技术。首先，通过Webpage Block(N)算法将网页粗略分段。接着，根据CalculTextDens(N)算法计算每一个块级元素的密度，一般主题信息总是包含大量的文本字符和较少的标签字符，而在噪音文本总是包含少量的文本字符和较多的标签字符，根据文本字符长度和标签字符长度的幂次关系计算密度，最后，根据设定的阈值剔除噪音信息。这种算法的优点是即使一个网页中包含大量的噪音信息，本文也可以准确的把其中的少量的主题信息提取出来，因为在一般的传统网页中，主题信息具有完整的结构，不会分散的存在与网页中，一旦将网页分块计算出密度，就可以根据密度值，判断块级元素的属性。
　　论文的创新点如下:
　　(1)通过对网页结构的分析，本文提出了一个Webpage Block(N)分块的算法，该算法通过判断页面中标签的属性，将页面以最小块级元素为单位分割，这种方法能够快速的将网页分块。
　　(2)提出了一种结合文本密度和页面结构分析的网页提取算法，该方法在页面分块的基础上计算出每个块级元素的密度，然后根据设定的阈值提取主题信息，这种网页抽取算法具有90％左右的准确率，可以几乎完整的抽取出主题内容。
　　实验表明，文本提出的方法在网页正文抽取中有0.903的准确率和0.918的召回率。

著录项

作者
肖悦;
展开▼
作者单位

中国海洋大学;

展开▼
授予单位中国海洋大学;
学科软件工程
授予学位硕士
导师姓名孙民贵;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
网页; 信息抽取技术; 文本密度; 页面结构;

相似文献

中文文献
外文文献
专利

1. 基于WEB网页文本信息抽取研究与实现 [J] . 刘三星1 . 数据挖掘 . 2015,第004期
2. 基于网页结构特征的网页主要文本信息抽取策略 [J] . 火善栋 . 现代计算机（专业版） . 2008,第004期
3. 基于文本标点密度连续和的网页正文抽取 [J] . 汤佳杰 ,曹永忠 ,顾浩 . 计算机时代 . 2020,第001期
4. 基于文本块密度和标签路径覆盖率的网页正文抽取 [J] . 刘鹏程 ,胡骏 ,吴共庆 . 计算机应用研究 . 2018,第006期
5. 基于Watir的物联网页面实时信息获取研究与实现 [J] . 孔英会 ,沈丹凤 . 计算机应用与软件 . 2014,第005期
6. 基于Agent的Web页面结构化信息抽取 [C] . 岳国伟 ,梁永全 . 第二届中国分类技术及应用学术会议 . 2007
7. 基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现 [A] . 王琦 . 2014

基于文本密度和页面结构的网页信息抽取技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅