首页> 中国专利> 一种基于多语言模型的低资源语言生成伪数据的方法

一种基于多语言模型的低资源语言生成伪数据的方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开一种基于多语言模型的低资源语言生成伪数据的方法，步骤为：获取小语种单语和双语数据及与其相同或邻近语系的双语数据，经预处理得到双语训练数据，进一步得到多语言模型；对小语种源语言单语数据进行预处理得到单语训练数据；对单语训练数据进行解码得到小语种目标语言单语伪数据；对目标语言单语伪数据和源语言单语训练数据进行处理得到双语伪数据，与目标语到源语多语言模型的训练数据进行整合并处理得到新的目标语到源语双语训练数据，最终迭代到模型性能不再提升为止。本发明将小语种相同或邻近语系的双语数据融入到模型训练中，不仅增大了模型训练的数据量，而且将同语系或邻近语系的语言特征融合到模型之中，从而提升模型性能。

著录项

公开/公告号CN113111667A

专利类型发明专利
公开/公告日2021-07-13

原文格式PDF
申请/专利权人沈阳雅译网络技术有限公司;
展开▼

申请/专利号CN202110397096.X
发明设计人杜权;
展开▼

申请日2021-04-13
分类号G06F40/58(20200101);G06F16/335(20190101);G06F40/126(20200101);G06F40/205(20200101);G06F40/284(20200101);G06F40/289(20200101);G06K9/62(20060101);
代理机构21117 沈阳新科知识产权代理事务所(特殊普通合伙);
代理人李晓光
地址 110004 辽宁省沈阳市和平区三好街78号东软电脑城C座11层
入库时间 2023-06-19 11:49:09

法律信息

法律状态公告日

法律状态信息

法律状态
2023-08-22

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于多语言模型的低资源语言生成伪数据的方法 [P] . 中国专利： CN113111667A . 2021-07-13
2. 低资源多语言的语音识别模型、语音识别方法 [P] . 中国专利： CN110428818A . 2019-11-08
3. The system and method based on computer for the development of monolingual documents systems based computer to translate text input in language source for a foreign language and to desInvolvement of documents mono and multilingual translation method based on the computer to translate the text in the language source for a language estrageira method based on computer for developmentThe documents mono and multilingual translation and domain model tripartite [P] . BR9307175A . 1999-03-30

机译：用于开发单语文档的基于计算机的系统和方法基于计算机的系统，用于翻译外语源中的文本输入，并且基于计算机的单，多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单，多语言翻译和领域模型三方
4. Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data [P] . 美国专利： US2007076001A1 . 2007-04-05

机译：基于高维数据从代表高维数据的一组低维模型中选择低维模型的方法
5. Method of assigning resources to fulfill a service request by a programming model abstraction layer at a data center based at least in part on a reference of the requested resource class indicative of an abstract amount of resources [P] . 美国专利： US8443370B2 . 2013-05-14

机译：至少部分地基于指示资源抽象量的所请求资源类别的参考，由数据中心的编程模型抽象层分配资源以满足服务请求的方法