首页> 中文期刊> 《软件》 >基于视觉特征的就业信息页面抽取方法

基于视觉特征的就业信息页面抽取方法

             

摘要

随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中.为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人二干预.该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板.通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来.实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果.

著录项

  • 来源
    《软件》 |2014年第9期|16-20|共5页
  • 作者单位

    北京邮电大学计算机学院PCN&CAD中心;

    北京;

    100876;

    北京邮电大学计算机学院PCN&CAD中心;

    北京;

    100876;

    北京邮电大学计算机学院PCN&CAD中心;

    北京;

    100876;

    北京邮电大学计算机学院PCN&CAD中心;

    北京;

    100876;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 安全保密;
  • 关键词

    Web信息抽取; 模板; VIPS; DOM树; XPath;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号