首页> 中文期刊>计算机科学 >基于页面标签的Web结构化数据抽取

基于页面标签的Web结构化数据抽取

     

摘要

本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法.该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树SimHTree,有效地减少了识别数据记录的时间.在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项.实验表明,该算法是有效的.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号