首页> 中国专利> 一种面向神经机器翻译的数据选择及训练方法

一种面向神经机器翻译的数据选择及训练方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开一种面向神经机器翻译的数据选择及训练方法，步骤为：构建单语语料库；对单语语料进行清洗过滤、分词、子词切分预处理，作为训练数据；使用训练数据通过语言模型微调预训练模型；将两种语言的单语数据输入编码，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料；使用预训练模型的分词和子词切分方法处理伪平行语料，使用预训练模型初始化神经机器翻译框架的编码器参数；使用处理后的伪平行语料对神经机器翻译模型进行预训练；使用真正的双语数据微调神经机器翻译模型。本发明解决了低资源语言双语数据不足的问题，将预训练模型应用于神经机器翻译模型中，加快模型的收敛速度，提高模型的鲁棒性。

著录项

公开/公告号CN113505571A

专利类型发明专利
公开/公告日2021-10-15

原文格式PDF
申请/专利权人沈阳雅译网络技术有限公司;
展开▼

申请/专利号CN202110868021.5
发明设计人刘兴宇;姜炎宏;杨木润;
展开▼

申请日2021-07-30
分类号G06F40/126(20200101);G06F40/194(20200101);G06F40/279(20200101);G06F40/58(20200101);G06N3/08(20060101);
代理机构21117 沈阳新科知识产权代理事务所(特殊普通合伙);
代理人李晓光
地址 110004 辽宁省沈阳市和平区三好街78号东软电脑城C座11层
入库时间 2023-06-19 12:53:05

相似文献

专利
中文文献
外文文献

1. 一种面向神经机器翻译的数据选择及训练方法 [P] . 中国专利： CN113505571A . 2021-10-15
2. 一种面向神经机器翻译的编码器-解码器框架预训练方法 [P] . 中国专利： CN111382580A . 2020-07-07
3. COMPOUND FOR DETECTING NERVE GAS WITH SELECTIVITY TOWARD DIETHYL CHLOROPHOSPHATE, A METHOD FOR PREPARING THE SAME, A CHEMICAL SENSOR FOR DETECTING THE NERVE GAS USING THE SAME, AND A METHOD FOR SELECTIVELY DETECTING THE NERVE GAS CAPABLE OF EFFECTIVELY DETECTING NERVE GAS SIMILAR TO DIETHYL CHLOROPHOSPHATE [P] . 韩国专利： KR20120057689A . 2012-06-07

机译：用于对氯代磷酸二乙酯具有选择性的检测神经气体的化合物，一种制备该化合物的方法，一种用于检测神经气体的化学传感器以及一种选择性地检测可检测到的类似磷酸的可选择性检测神经的方法
4. METHOD OF GENERATING TRAINING DATA FOR TRAINING NEURAL NETWORK, METHOD OF TRAINING NEURAL NETWORK AND USING NEURAL NETWORK FOR AUTONOMOUS OPERATIONS [P] . 世界知识产权组织专利： WO2019141197A1 . 2019-07-25

机译：用于训练神经网络的训练数据的生成方法，用于自主操作的神经网络的训练方法和使用神经网络的方法
5. NEURAL NETWORK TRAINING METHOD, METHOD AND APPARATUS OF PROCESSING DATA BASED ON NEURAL NETWORK [P] . KR20210035017A . 2021-03-31

机译：基于神经网络的神经网络训练方法，方法和装置处理数据