首页> 中文会议>第二届全国信息检索与内容安全学术会议 >基于新型坐标树的页面分析和内容提取方法

基于新型坐标树的页面分析和内容提取方法

摘要

Web页面中"噪音"是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一.针对HTML的半结构化特征和DOM缺乏位置信息的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的图形模型.通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容.对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.78%的准确率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号