首页> 中文学位 >基于脚本代码和局部数据匹配的网页抽取研究
【6h】

基于脚本代码和局部数据匹配的网页抽取研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 研究的主要问题

1.3 本文的主要工作

1.4 本文的结构

第2章 网页信息抽取综述

2.1 信息抽取概念

2.2 Web信息抽取评价标准

2.3 相关技术规范

2.4 网页信息抽取技术

2.4.1 基于对象树模型的抽取方法

2.4.2 基于理解模型的抽取方法

2.4.3 基于视觉模型的抽取方法

2.4.4 自动化的web信息抽取方法

2.4.5 总结

第3章 基于CCM树的相似网页聚类方法

3.1 网页脚本代码

3.2 CCM树定义、表示及构建算法

3.3 CCM树聚类

3.4 ECCM树

第4章 基于局部数据匹配的抽取方法

4.1 关键数据区域

4.2 TOP-DOWN树匹配算法

4.3 ETD局部特征匹配算法

4.4 数据保存和信息标记

第5章 实验结果与评价

5.1 实验数据集及环境

5.2 实验结果与分析

5.2.1 树大小对比

5.2.2 阈值分析与准确性对比

5.2.3 聚类时间

5.2.4 抽取效果对比

第6章 总结与展望

6.1 总结

6.2 未来的工作

参考文献

致谢

攻读学位期间参与科研项目情况

学位论文评阅及答辩情况表

展开▼

摘要

随着互联网地高速发展,Internet在我们日常的生活中扮演越来越重要的角色,成为我们生活和工作中必不可少的一部分。网络地高速发展带来了网络信息地爆炸式增长,而网络用户对信息的需求也越来越高。作为Web信息的主要载体,网页的结构越来越复杂,网页内容也越来越丰富。但Web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将Web上信息抽取出来,以便用户根据自身需要对数据加以分析,成为现今数据抽取方面的研究热点。
   网页信息抽取按其自动化程度可以分为:手工抽取、半自动抽取、全自动抽取,全自动化网页信息抽取技术已经成为网页信息抽取的主要发展趋势。其过程是:1)首先将网页代码转换成相应的DOM结构,聚类DOM结构相似的网页;2)接受两个同类页面,一个作为样本,另一个作为页面包装器(wrapper),之后符号化输入页面,通过页面中字符串和标记的符号归纳规则,生成对应的包装器;3)通过包装器完成对其他同类页面的抽取。然而,面对现实中结构复杂、变化迅速的Web页面,基于DOM结构的聚类方法存在准确性差、时间代价高等问题,且当页面的DOM结构发生改变,特别是层次性变化时,包装器经常出现失效的情况。本文提出了一套新型的抽取方法,首先把嵌入在网页中脚本代码转换成控制代码树,采用动态规划算法求树之间的最小编辑距离,将小于阈值的网页聚为一类,之后采取局部数据特征匹配等强容错性抽取策略自动生成包装器,完成对同类网页的抽取。
   本文的创新点以及研究贡献主要有以下几方面:1.首次定义和提出控制代码树的概念并将其作为近似页面聚类的依据,控制代码树更能体现同类模板网页特性且其树节点规模远小于DOM树。2.本文结合研究背景,提出了一套基于动态规划思想的树编辑距离算法,在O(n3)完成编辑距离的求解。3.采用局部特征匹配、关键数据区域划分等强容错性抽取策略生成包装器,在一定程度上过滤了广告等无用信息,修正了由于标签缺失增补而引起的包装器失效等问题。相比于传统方法,包装器的抽取准确性和鲁棒性有明显提高。实验中,选取GooglePagerank排名大于6的10个网站作为实验数据源,这些网站涵盖了商业性网站、门户网站、非盈利性网站等方面。之后从聚类时间、准确性,查准率、查全率等多个角度将新方法和原有方法进行对比。实验证明,相比于传统方法,新方法在聚类准确率、聚类时间、抽取数据准确性等多个方面优于传统方法。

著录项

  • 作者

    贾铭;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 王新军;
  • 年度 2012
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    网页信息抽取; 脚本代码; 树编辑距离; 包装器;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号