首页> 中文期刊> 《计算机工程》 >基于词向量的维吾尔语词项归一化方法

基于词向量的维吾尔语词项归一化方法

         

摘要

使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类.引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化.实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高.该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能.

著录项

  • 来源
    《计算机工程》 |2018年第2期|220-225|共6页
  • 作者单位

    中国科学院新疆理化技术研究所;

    乌鲁木齐830011;

    中国科学院大学;

    北京100049;

    中国科学院新疆理化技术研究所;

    乌鲁木齐830011;

    中国科学院新疆民族语音语言信息处理重点实验室;

    乌鲁木齐830011;

    中国科学院新疆理化技术研究所;

    乌鲁木齐830011;

    中国科学院新疆民族语音语言信息处理重点实验室;

    乌鲁木齐830011;

    中国科学院新疆理化技术研究所;

    乌鲁木齐830011;

    中国科学院新疆民族语音语言信息处理重点实验室;

    乌鲁木齐830011;

    中国科学院新疆理化技术研究所;

    乌鲁木齐830011;

    中国科学院新疆民族语音语言信息处理重点实验室;

    乌鲁木齐830011;

    中国科学院新疆理化技术研究所;

    乌鲁木齐830011;

    中国科学院新疆民族语音语言信息处理重点实验室;

    乌鲁木齐830011;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    维吾尔语口语文本; 非正规词; 归一化; 神经网络; 重采样;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号