首页> 中文期刊> 《计算机光盘软件与应用》 >基于脚本代码和局部数据匹配的网页抽取研究

基于脚本代码和局部数据匹配的网页抽取研究

         

摘要

随着科技的进步互联网的普及,InYXrnXY逐渐成为我们日常生活中的重要角色,变成学习和社会生活中的一部分。随着网络的高速发展,导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂,内容变得丰富。WXD普遍以HYML语言的形式出现,不用直接进行分析处理。WXD信息在网页信息抽取上可以分为手工抽取、半自动抽取、全自动抽取三种,对于网页信息抽取来说其发展的结果就是将逐步被全自动化网页信息抽取技术所取代。通过新方案对网页信息抽取上市进行总结,第一步网页控制代码树可以从网页脚本代码的嵌入转换而来,通过对网页信息抽取的最小编辑距离来动态的规划网页信息抽取的算法,并且将同类阈值的网页结合在一起,最后再根据网页自动生成的规则采取相应的容错性策略,完成对同类网页的抽取。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号