首页> 中国专利> 一种基于同类词与同义词替换的数据增强机器翻译方法

一种基于同类词与同义词替换的数据增强机器翻译方法

摘要

本发明属于自然语言的处理或转换技术领域,公开了一种基于同类词与同义词替换的数据增强机器翻译方法,利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;扩充小语种的平行语料,再采用编码‑解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。扩充了训练数据,神经网络翻译模型的参数能够在足够多的数据中得到很好的学习,并且可以缓解神经机器翻译中未登录词这一问题,使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时,网络参数已经得到了很好的学习。

著录项

  • 公开/公告号CN108920473B

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 中译语通科技股份有限公司;

    申请/专利号CN201810723531.1

  • 发明设计人 汪一鸣;熊德意;秦文杰;程国艮;

    申请日2018-07-04

  • 分类号G06F40/58(2020.01);G06F40/247(2020.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京万贝专利代理事务所(特殊普通合伙) 11520;

  • 代理人马红

  • 地址 100040 北京市石景山区石景山路20号16层1601

  • 入库时间 2022-09-06 00:40:17

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号