首页> 中文期刊>计算机应用与软件 >基于视觉热区的网页内容抽取方法

基于视觉热区的网页内容抽取方法

     

摘要

A study is made on web pages extraction and a new extraction method for web pages content is suggested. Layout features and visual hot zone are used by it to determine web pages content. In the paper, first a part of web page's region is selected as web page visual hot zone, the candidate content blocks are then obtained by documents object model. Furthermore, the significance function of the candidate content blocks is deduced to extracting content for web pages. Experimental results indicate that the proposed method has good performance.%对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息.首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息.实验结果表明,该方法具有良好的性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号