首页> 中文期刊>中文信息学报 >基于网页布局相似度的Web论坛数据抽取

基于网页布局相似度的Web论坛数据抽取

     

摘要

Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术.该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足.该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预.实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号