基于脚本代码和局部数据匹配的网页抽取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网地高速发展，Internet在我们日常的生活中扮演越来越重要的角色，成为我们生活和工作中必不可少的一部分。网络地高速发展带来了网络信息地爆炸式增长，而网络用户对信息的需求也越来越高。作为Web信息的主要载体，网页的结构越来越复杂，网页内容也越来越丰富。但Web上的信息都是半结构化或非结构化的，主要以HTML语言的形式出现，不能直接用于分析处理。因此，如何将Web上信息抽取出来，以便用户根据自身需要对数据加以分析，成为现今数据抽取方面的研究热点。
　　网页信息抽取按其自动化程度可以分为:手工抽取、半自动抽取、全自动抽取，全自动化网页信息抽取技术已经成为网页信息抽取的主要发展趋势。其过程是:1）首先将网页代码转换成相应的DOM结构，聚类DOM结构相似的网页;2）接受两个同类页面，一个作为样本，另一个作为页面包装器(wrapper)，之后符号化输入页面，通过页面中字符串和标记的符号归纳规则，生成对应的包装器;3）通过包装器完成对其他同类页面的抽取。然而，面对现实中结构复杂、变化迅速的Web页面，基于DOM结构的聚类方法存在准确性差、时间代价高等问题，且当页面的DOM结构发生改变，特别是层次性变化时，包装器经常出现失效的情况。本文提出了一套新型的抽取方法，首先把嵌入在网页中脚本代码转换成控制代码树，采用动态规划算法求树之间的最小编辑距离，将小于阈值的网页聚为一类，之后采取局部数据特征匹配等强容错性抽取策略自动生成包装器，完成对同类网页的抽取。
　　本文的创新点以及研究贡献主要有以下几方面:1.首次定义和提出控制代码树的概念并将其作为近似页面聚类的依据，控制代码树更能体现同类模板网页特性且其树节点规模远小于DOM树。2.本文结合研究背景，提出了一套基于动态规划思想的树编辑距离算法，在O(n3)完成编辑距离的求解。3.采用局部特征匹配、关键数据区域划分等强容错性抽取策略生成包装器，在一定程度上过滤了广告等无用信息，修正了由于标签缺失增补而引起的包装器失效等问题。相比于传统方法，包装器的抽取准确性和鲁棒性有明显提高。实验中，选取GooglePagerank排名大于6的10个网站作为实验数据源，这些网站涵盖了商业性网站、门户网站、非盈利性网站等方面。之后从聚类时间、准确性，查准率、查全率等多个角度将新方法和原有方法进行对比。实验证明，相比于传统方法，新方法在聚类准确率、聚类时间、抽取数据准确性等多个方面优于传统方法。

著录项

作者
贾铭;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机软件与理论
授予学位硕士
导师姓名王新军;
年度 2012
页码
总页数
原文格式 PDF
正文语种 chi
中图分类 TP393.09;TP311.13;
关键词
网页信息抽取; 脚本代码; 树编辑距离; 包装器;

相似文献

中文文献
外文文献
专利

1. 基于脚本代码和局部数据匹配的网页抽取研究 [J] . 高永平 . 计算机光盘软件与应用 . 2014,第015期
2. 基于卷积神经网络的网页信息资源定向抽取方法研究 [J] . 周沭玲 . 齐齐哈尔大学学报（自然科学版） . 2021,第004期
3. 基于视觉特征的网页信息抽取方法研究 [J] . 王宪发 ,郭岩 ,刘悦 . 中文信息学报 . 2019,第005期
4. 基于模糊匹配的招聘网页技能术语抽取研究 [J] . 孙瑜 ,莫凌飞 . 信息技术与信息化 . 2018,第011期
5. 一种基于网页信息抽取的OA期刊资源采集方法研究 [J] . 黄政 ,张学福 . 数字图书馆论坛 . 2017,第005期
6. 基于脚本Opcode动态插装的Heapspray型网页木马检测方法 [C] . 陈志杰 ,宋程昱 ,韩心慧 . 第二届信息安全漏洞分析与风险评估大会 . 2009
7. 基于脚本代码静态分析的网页挂马检测 [A] . 蔡津涛 . 2015

基于脚本代码和局部数据匹配的网页抽取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅