首页> 中文期刊>中文信息学报 >任意网页的主题信息抽取研究

任意网页的主题信息抽取研究

     

摘要

目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取.针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合.实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架.%Most of existing information extraction methods are focused on a specific type of webpages,rather than applicable to all webpages.In this paper,we propose a general framework based on fusion mechanism to enable the extraction of the theme information of all webpages.This framework combines the automatic information extraction strategy and the template detection strategy through four steps :template matching,template based extraction,web page classification and automatic extraction.The experiments show that the proposed strategy can lead to an addi-tional performance improvement in the precision of extraction.

著录项

  • 来源
    《中文信息学报》|2017年第5期|127-137|共11页
  • 作者单位

    中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

    中国科学院大学,北京100190;

    中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

    中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

    中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

    中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    任意网页; 主题信息; 网页分类; 实用价值;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号