基于分块的Web信息抽取系统研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题。伴随着这些需求,结合传统信息抽取技术,Web信息抽取应运而生。本文在学习已有信息抽取方法的基础之上,结合近几年涌现的新技术、新方法,展开Web信息抽取技术的研究。
　　本文介绍了信息抽取的起源、发展过程、基本概念、方式方法,在此基础上,对Web信息抽取系统中的关键技术作了详细分析,包括页面清理、规范化处理、页面结构分析、典型页面抽取器等。结合Web技术发展趋势,本文从分块入手,探究一种高效的Web页面分块及正文块提取方法。通过对页面DOM树中的信息节点增加偏移量、字符数属性,将信息节点映射到二维空间。随后,利用CURE算法进行信息节点聚类,得到的各个簇即对应Web页面的各个信息块。最后在已经分好块的基础之上,本文寻找到了不同信息块之间区分度较大的三个特征,并构造权值公式,通过此公式计算各个信息块的权值,取权值最大的信息块作为正文数据区域。最后,给出了系统的总体架构以及各个模块的具体流程,并对该系统的聚类、信息抽取效果进行了实验,且给出了对比分析。实验表明,本文提出的基于分块的Web信息抽取系统具有较高的正确率,是可行的。

著录项

作者
王超;
展开▼
作者单位

中国石油大学(华东);

展开▼
授予单位中国石油大学(华东);
学科计算机科学与技术
授予学位硕士
导师姓名徐杰锋;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
计算机网络; 数据挖掘; 信息抽取; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于分块重要度和二维条件随机场的Web信息抽取 [J] . 吴秦 ,胡丽娟 ,梁久祯 . 南京大学学报：自然科学版 . 2014,第1期
2. 基于分块重要性模型与Xpath的Web信息抽取的研究 [J] . 庞秋奔 ,顾平 ,杨小梅 . 计算机与现代化 . 2009,第008期
3. 基于Web信息抽取的企业竞争情报系统研究 [J] . 张力 ,吴敏纲 ,李昱 . 信息与电脑 . 2017,第009期
4. Web页面分块算法MDSPS及其在Web信息抽取中的应用研究 [J] . 杨丽 . 信息通信 . 2018,第002期
5. Web信息抽取系统研究综述 [J] . 谭锋 ,李天真 ,崔亮亮 . 科技创新导报 . 2010,第034期
6. 基于Heritrix的web信息抽取优化与实现 [C] . 吴伟 ,陈建峡 . 湖北省机械工程学会机械设计与传动专委会暨武汉市机械设计与传动学会第20届学术年会 . 2012
7. 基于视觉分块与语义DOM的Deep Web信息抽取研究 [A] . 孙璐 . 2016

基于分块的Web信息抽取系统研究

摘要

著录项

相似文献

相关主题

期刊订阅