首页> 中文期刊> 《网络新媒体技术》 >针对Web信息抽取的数据交叉定位改进方法

针对Web信息抽取的数据交叉定位改进方法

         

摘要

针对包装器在抽取Web网站的过程中抽取精度差、耗时长以及鲁棒性差等问题,提出了一种改进的基于内部特征、自底向上归纳总结的数据交叉定位方法,该方法建立了基于元素文本特征和基于元素属性特征的坐标系,将两种坐标系中的坐标值进行交叉验证获取待抽取的元数据信息.实验结果表明:该方法抽取数据相较于绝对路径方法、相对路径方法、绝对特征路径方法、相对特征路径方法以及交叉定位方法,在召回率略降2.2%的情况下,精确度提高了31.1%,并且相较于交叉定位法,抽取数据的时间提高了17.9秒.

著录项

  • 来源
    《网络新媒体技术》 |2015年第4期|28-34,40|共8页
  • 作者

    董微; 倪宏; 邓浩江; 刘学;

  • 作者单位

    中国科学院声学研究所国家网络新媒体工程技术研究中心 北京100190;

    中国科学院大学 北京100049;

    中国科学院声学研究所国家网络新媒体工程技术研究中心 北京100190;

    中国科学院声学研究所国家网络新媒体工程技术研究中心 北京100190;

    中国科学院声学研究所国家网络新媒体工程技术研究中心 北京100190;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    Web信息抽取; 交叉定位; 包装器; 内部特征; DOM树;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号