首页> 中文会议>第三届全国搜索引擎和网上信息挖掘学术研讨会 >含有位置坐标树的Web页面分析和内容提取框架

含有位置坐标树的Web页面分析和内容提取框架

摘要

随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78﹪的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号