首页> 中文学位 >基于标签的网页信息抽取方法研究
【6h】

基于标签的网页信息抽取方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

近年来,随着社会的发展,网络已经成为人们生活中不可缺少的一部分。电子商务领域的发展尤为突出,网购成为一种非常普遍的社会现象。但是,当前购物网站大部分都是基于用户请求动态生成的网页,展示在页面上的数据很难被直接利用。基于标签的网页信息抽取方法,能较好地对这些动态页面进行信息抽取。 介绍了信息抽取技术的概念,阐述了网页信息抽取面临的主要问题,结合当前的一些主流抽取方法,对比分析了它们的优缺点。针对当前已有方法对数据区域的定位不够准确或者需要人工标记数据区域的问题,提出了一种根节点权值判断法,充分利用页面的特点并结合两种启发式的规则来定位数据区域,自动化程度高,并且解决了多数据区域给定位带来的影响。针对树编辑距离忽略了不同节点对树结构影响程度不同的问题,提出基于标签的网页信息抽取算法,利用标签信息,赋予各个节点权重,通过高层次节点权值来衡量子树之间的相似度,有效利用了列表式网页的特点,避免了大量对子树之间相似度的计算。针对部分属性信息可能缺失的问题,提出了模板比对方法,引入序列比对的概念,用多序列迭代比对的方法生成模板记录,以它为标准与所有的数据记录进行比对,能够补充可能缺失的属性信息。 为了验证以上提出的方法,设计并实现了一个基于标签的网页信息抽取系统。实验表明,本文的方法自动化程度高,能有效降低噪声信息带来的影响,具有较高的查全率和查准率。

著录项

  • 作者

    鲁雷;

  • 作者单位

    中国石油大学(华东);

  • 授予单位 中国石油大学(华东);
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 李村合,王敬明;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 计算技术、计算机技术;
  • 关键词

    标签; 网页信息抽取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号