首页> 中文学位 >基于分块的Web信息抽取系统研究
【6h】

基于分块的Web信息抽取系统研究

代理获取

摘要

伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题。伴随着这些需求,结合传统信息抽取技术,Web信息抽取应运而生。本文在学习已有信息抽取方法的基础之上,结合近几年涌现的新技术、新方法,展开Web信息抽取技术的研究。
   本文介绍了信息抽取的起源、发展过程、基本概念、方式方法,在此基础上,对Web信息抽取系统中的关键技术作了详细分析,包括页面清理、规范化处理、页面结构分析、典型页面抽取器等。结合Web技术发展趋势,本文从分块入手,探究一种高效的Web页面分块及正文块提取方法。通过对页面DOM树中的信息节点增加偏移量、字符数属性,将信息节点映射到二维空间。随后,利用CURE算法进行信息节点聚类,得到的各个簇即对应Web页面的各个信息块。最后在已经分好块的基础之上,本文寻找到了不同信息块之间区分度较大的三个特征,并构造权值公式,通过此公式计算各个信息块的权值,取权值最大的信息块作为正文数据区域。最后,给出了系统的总体架构以及各个模块的具体流程,并对该系统的聚类、信息抽取效果进行了实验,且给出了对比分析。实验表明,本文提出的基于分块的Web信息抽取系统具有较高的正确率,是可行的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号