基于多特征的网页信息抽取技术的研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的高速发展，互联网上的信息越来越多，呈现爆炸式增长，以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而，在互联网上，所有的网页不仅含有重要信息，同时也包含了与主题信息无关的噪声信息，比如广告信息，导航栏等。它们严重影响了信息抽取的准确性，因而网页信息抽取技术的研究应运而生，成为研究的热点。
　　另一方面，在现有的网页信息抽取方法中，其重点在于区分页面的重要信息和噪声信息，提高重要信息抽取的准确性和效率性，但对于抽取后网页信息数据却缺乏形式化组织，导致获取的重要信息相互杂糅在一起，形成了无法区分的整段信息，无法对重要信息再进行分类，导致抽取的网页信息粒度较粗，在后续应用中可用性较差。
　　本文介绍了网页信息抽取技术的发展、原理和相关技术，深入讨论了现有网页信息抽取技术，重点研究了VIPS算法。本文主要研究点如下:
　　(1)针对现有网页信息形式化组织的缺乏，本文提出了一种网页信息形式化描述，在清除了网页噪声信息的基础上，将原有网页重要信息的粗粒度进行细分，针对互联网中比重最大的门户类网站，我们将网页重要信息描述为主题，发表日期，浏览次数，正文信息，多媒体信息，评论信息等形式化结构，同时为每部分形式化描述设置不同权重，根据信息抽取结果中是否存在相应部分来判断单个网页的信息抽取的准确性。同时抽取的重要信息通过形式化描述进行了细化，形成了更加规范和严格的数据组织形式，为以后的数据分析和其他应用提供了更高的可用性。
　　(2)针对现有信息抽取算法对本文提出的网页信息形式化组织支持方面的缺乏以及现有抽取技术的不足，本文提出了一种针对网页信息形式化组织的基于VIPS算法改进的网页信息抽取技术。本技术结合了DOM结构和视觉特征两方面，采用自上而下，逆序解析DOM结构，同时利用视觉特征和DOM结构特征作为信息抽取的依据，将标签分块和视觉分块相互结合，同时根据网页信息的形式化描述结构对块进行分类，对于同属一个形式化描述结构的相似块，根据其标签路径等特征对相似块进行合并，最终将网页抽取的重要信息根据其形式化描述分成不同块，此技术综合了网页DOM结构和视觉特征的优势，提高了网页信息抽取的准确率。
　　最后，将本文提出的信息抽取方法与其他传统的信息抽取算法进行了比较，并将其抽取结果应用于提出的网页信息形式化组织。经过仿真实验表明，本文提出的网页信息形式化描述更规范，更有利用价值，同时提出的方法抽取信息具有更高的分类准确性。最终我们将其在现有的传统网页移动化系统中进行了应用试验，实例是基于青岛某大学的PC网站设计的移动校园网站，该移动网站主要用于在移动设备上访问，包括Android以及iOS等智能终端，较好的提高了网页信息重组后的用户体验，取得了比较理想的实验效果。

著录项

作者
陈屹;
展开▼
作者单位

中国海洋大学;

展开▼
授予单位中国海洋大学;
学科计算机应用技术
授予学位硕士
导师姓名殷波;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
互联网; 信息抽取技术; 页面分割算法; 视觉信息; 数据质量;

相似文献

中文文献
外文文献
专利

1. 基于多特征融合的网页正文信息抽取 [J] . 刘利 ,戴齐 ,尹红风 . 计算机应用与软件 . 2014,第007期
2. 基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用 [J] . 双哲 ,孙蕾 . 计算机应用与软件 . 2017,第002期
3. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
4. 基于正文特征及网页结构的主题网页信息抽取 [J] . 段晓丽 ,王宇 ,谷静 . 计算机工程与应用 . 2012,第030期
5. 基于网页结构特征的网页主要文本信息抽取策略 [J] . 火善栋 . 现代计算机（专业版） . 2008,第004期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于多特征挖掘的网页信息抽取方法研究 [A] . 高兆远 . 2017

基于多特征的网页信息抽取技术的研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅