首页> 中文期刊>计算机与信息技术 >一种发现多记录Web文档记录分隔符的方法

一种发现多记录Web文档记录分隔符的方法

     

摘要

从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符。如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。本文主要介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。实验证明该方法具有很高的准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号