首页> 中文期刊> 《计算机应用》 >一种Web主题文本通用提取方法

一种Web主题文本通用提取方法

         

摘要

为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法.该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来.由于本方法不涉及具体的HTML标记分析,其通用性较强.实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求.

著录项

  • 来源
    《计算机应用》 |2007年第6期|1394-1396|共3页
  • 作者单位

    电子科技大学;

    计算机科学与工程学院;

    四川;

    成都;

    610051;

    电子科技大学;

    计算机科学与工程学院;

    四川;

    成都;

    610051;

    电子科技大学;

    计算机科学与工程学院;

    四川;

    成都;

    610051;

    电子科技大学;

    计算机科学与工程学院;

    四川;

    成都;

    610051;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP311.52;
  • 关键词

    Web文本; 文本提取; 文本语料库;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号