首页> 中文期刊> 《自动化学报》 >基于n-gram频率的语种识别改进方法

基于n-gram频率的语种识别改进方法

         

摘要

识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法(如Textcat、LIGA、logLIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性.

著录项

  • 来源
    《自动化学报》 |2018年第3期|453-460|共8页
  • 作者单位

    北京科技大学计算机与通信工程学院 北京100083;

    中国科学院自动化研究所数字内容技术与服务研究中心 北京100190;

    北京科技大学计算机与通信工程学院 北京100083;

    中国科学院自动化研究所数字内容技术与服务研究中心 北京100190;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    语种识别; 短文本; n-gram频率; 鲁棒性;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号