首页> 中文期刊> 《情报理论与实践》 >分布式Web主题信息抽取的框架探析

分布式Web主题信息抽取的框架探析

         

摘要

近年来Web信息抽取技术领域的研究已经取得了一定进展,但系统的抽取性能仍有待提高.针对这一问题,提出了一种Web主题信息自动化抽取的新框架.该框架提供了一种自动生成网页信息抽取规则的方法,并将网页信息抽取的任务由服务器端转移到客户端,充分利用网页设计模版的结构化、层次化特点,通过对网页进行爬取、净化和处理,转化成XML文档,然后根据XPath定位主题信息,抽取出该主题信息的公共抽取规则.实验结果表明,该方法能快速有效地抽取所定制的感兴趣的主题网页信息,并且具有较高的准确率.

著录项

  • 来源
    《情报理论与实践》 |2014年第12期|117-122|共6页
  • 作者单位

    华中师范大学 教育信息技术学院;

    湖北 武汉 430079;

    华中师范大学 国家数字化学习工程技术研究中心;

    湖北 武汉430079;

    华中师范大学 国家数字化学习工程技术研究中心;

    湖北 武汉430079;

    华中师范大学 国家数字化学习工程技术研究中心;

    湖北 武汉430079;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    主题信息; 信息抽取; 规则;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号