首页> 中国专利> 基于多线程通信的多语种共识翻译系统与方法

基于多线程通信的多语种共识翻译系统与方法

摘要

本发明提出基于多线程通信的多语种共识翻译系统与方法,包括创建线程池,所述线程池包含多个线程组;所述多个线程组包括:第一语音数据远程接入线程组,通过多个第一线程接收不同类型的移动终端发送的语音输入数据;第二语音翻译线程组,所述第二语音翻译线程组包含多个第二线程,每个所述第二线程对应不同语种的正向翻译引擎;第三语音翻译共识线程组,所述第三语音翻译共识线程组包含多个第三线程;第四语音翻译输出线程组,所述第四语音翻译输出线程组包含多个第四线程,每个所述第四线程输出至少一个语音翻译结果;其中,所述第二线程与所述第一线程通过数据管道通信。本发明还提出一种基于多线程通信的多语种共识翻译方法。

著录项

  • 公开/公告号CN112818703A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 传神语联网网络科技股份有限公司;

    申请/专利号CN202110034159.5

  • 发明设计人 何征宇;

    申请日2021-01-19

  • 分类号G06F40/56(20200101);G06F40/58(20200101);

  • 代理机构

  • 代理人

  • 地址 430073 湖北省武汉市东湖高新技术开发区未来科技城B2栋

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明属于语音智能翻译技术领域,尤其涉及一种基于多线程通信的多语种共识翻译系统与方法。

背景技术

人工智能翻译技术的发展与应用,给语言服务业带来了深远的影响。计算机辅助翻译技术的广泛应用使语言服务企业可以通过人机交互的翻译模式提高翻译效率,而统计机器翻译技术的推广应用及其译文质量的提升则使一些语言服务企业逐渐采用“机器翻译+译后编辑”的生产模式来提升生产效率。但是统计机器翻译的译文质量与人工翻译相比仍然有较大差距,这也限制了其在翻译领域的应用。

尽管如此,因为人工翻译不方便、成本过高等原因而被忽视甚至被放弃的语言服务细分业务,如出国旅行的翻译服务、信息量庞大的电商网站的本地化、社交媒体信息的即时翻译等,其业务量随着机器翻译技术的成熟获得了较快增长。

申请号为CN202010849563.3的中国发明专利申请提出一种对话翻译方法,该方法包括:在检测到移动终端与第一可穿戴设备通信连接后,根据控制指令确定第一语音采集方式或第二语音采集方式;响应于第一语音采集方式,采集当前场景中的语音数据,并获取语音数据对应的翻译数据,以将翻译数据发送到第一可穿戴设备;响应于第二语音采集方式,接收与移动终端通信连接的第二可穿戴设备采集的当前场景中的语音数据,并获取语音数据对应的翻译数据,以将翻译数据发送到第一可穿戴设备。该发明能够使用户能够根据当前对话场景更加灵活地选择对话翻译的模式,在降低相关设备的功耗的同时,提高对话翻译的效率以及准确率。

目前人工智能翻译可以分为机器翻译和计算机辅助翻译两类,前者是纯机器翻译,无须人工;后者翻译主体依然是译员,机器起辅助作用。虽然目前人工智能技术发展迅速,但就翻译领域而言,机器翻译目前尚无法完全取代人工翻译。2019年博鳌论坛上,腾讯AI同传首次亮相讨论型会议,可是表现得却不尽人意,出现了词汇重复和误译问题。

此外,在多语种语音会议、特定领域的实时翻译讨论等场景中,这些领域在用户群体扩大的过程中除了需要机器翻译的参与外,往往还需要人工翻译对机译内容进行校验审核,从而降低了实用效率。

发明内容

为解决上述技术问题,本发明提出一种基于多线程通信的多语种共识翻译系统与方法,包括创建线程池,所述线程池包含多个线程组;所述多个线程组包括:第一语音数据远程接入线程组,通过多个第一线程接收不同类型的移动终端发送的语音输入数据;第二语音翻译线程组,所述第二语音翻译线程组包含多个第二线程,每个所述第二线程对应不同语种的正向翻译引擎;第三语音翻译共识线程组,所述第三语音翻译共识线程组包含多个第三线程;第四语音翻译输出线程组,所述第四语音翻译输出线程组包含多个第四线程,每个所述第四线程输出至少一个语音翻译结果;其中,所述第二线程与所述第一线程通过数据管道通信。

本发明还提出一种基于多线程通信的多语种共识翻译方法。

具体来说,在本发明的第一个方面,提供一种基于多线程通信的多语种共识翻译系统,所述系统包括处理器和存储器,所述存储器存储有计算机程序指令,通过所述处理器执行所述计算机程序指令,以创建线程池,所述线程池包含多个线程组;

更具体的,作为本发明的技术方案的核心整体组成,所述多个线程组包括:

第一语音数据远程接入线程组,所述第一语音数据远程接入线程组包含多个第一线程,通过所述多个第一线程接收不同类型的移动终端发送的语音输入数据;

第二语音翻译线程组,所述第二语音翻译线程组包含多个第二线程,每个所述第二线程对应不同语种的正向翻译引擎;

第三语音翻译共识线程组,所述第三语音翻译共识线程组包含多个第三线程,每个所述第三线程与至少一个所述第二线程通信;

第四语音翻译输出线程组,所述第四语音翻译输出线程组包含多个第四线程,每个所述第四线程输出至少一个语音翻译结果;

其中,所述第二线程与所述第一线程通过数据管道通信。

所述系统还包括语音数据分组模块,所述语音数据分组模块在运行时启动多个并行分组线程,所述多个并行分组线程与所述第一语音数据远程接入线程组通过单向数据管道进行并行数据通信,将所述多个第一线程接收的不同类型移动终端发送的语音输入数据进行分组。

所述多个并行分组线程将每个分组的语音输入数据通过单向数据管道发送至所述第二语音翻译线程组;

所述第二语音翻译线程组基于所述每个分组的属性给其分配一个目标第二线程;所述目标第二线程对应的正向翻译引擎与所述分组的属性相关联。

每个所述第三线程对应不同语种的反向翻译引擎;

所述第三语音翻译共识线程组中第一预定数量的选定第三线程与第一预定数量的目标第二线程通信;

每个所述选定第三线程与每个目标第二线程对应的翻译引擎的翻译方向互为对称。

在本发明的第二个方面,提供一种基于多线程通信的多语种共识翻译方法,所述方法基于多语种共识翻译系统实现,所述多语种共识翻译系统包括移动终端接入模块、语种类型识别模块、语音数据分组模块、翻译共识模块以及翻译结果输出模块;

S801:通过所述移动终端接入模块接收不同类型的移动终端发送的语音输入数据;

S802:通过所述语种类型识别模块识别所述语音输入数据的语种类型以及发送所述语音输入数据的移动终端类型;

S803:通过所述语音数据分组模块对所述语音输入数据进行分组,并将每个分组发送至对应的第一分组翻译引擎;

S804:所述翻译共识模块基于所述分组翻译引擎输出的分组翻译结果执行翻译共识操作;

S805:所述翻译结果输出模块基于所述翻译共识操作输出翻译结果,所述翻译结果包含每一个所述分组的分组翻译摘要。

进一步的,所述步骤S801中,所述移动终端发送的语音输入数据包含移动终端的位置信息和移动终端的类型标签;

所述步骤S802中所述语种类型识别模块基于所述移动终端的位置信息识别所述语音输入数据的语种类型;

所述步骤S803基于所述移动终端的位置信息和移动终端的类型标签对所述语音输入数据进行分组。

所述步骤S804中所述翻译共识操作包括将所述分组翻译引擎输出的分组翻译结果输入至第二分组翻译引擎,所述第二分组翻译引擎与所述第一分组翻译引擎的翻译方向对称相反。

本发明的技术方案通过多线程技术保证了实时语音翻译的结果输出实时性;通过线程之间采用(单向)数据管道(data pipeline)进行数据传输,使得数据传输延迟降低,进一步确保了实时输出;同时,通过翻译共识模块自动化识别出机器翻译引擎可能存在的歧义和进行校验审核,提高了技术方案的适用性。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于多线程通信的多语种共识翻译系统的主体架构图

图2是图1所述系统多线程通信的原理示意图

图3是本发明另一个实施例的多语种共识翻译系统的模块架构图

图4是图1所述系统中移动终端采集音频输入信号的处理示意图

图5是图1所述系统对所述音频输入信号进行预处理的示意图

图6是基于图3或图1所述系统实现的多语种语音翻译方法的主要步骤图

具体实施方式

下面,结合附图以及具体实施方式,对发明做出进一步的描述。

参见图1,是本发明一个实施例的一种基于多线程通信的多语种共识翻译系统的主体架构图。

在介绍图1之前,首先介绍几个概念。

进程:进程指正在运行的程序。确切的来说,当一个程序进入内存运行,即变成一个进程,进程是处于运行过程中的程序,并且具有一定独立功能。

线程:线程是进程中的一个执行单元,负责当前进程中程序的执行,一个进程中至少有一个线程。一个进程中是可以有多个线程的,这个应用程序也可以称之为多线程程序。

多线程(multithreading),是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理或同时多线程处理器。在一个程序中,这些独立运行的程序片段叫作“线程”(Thread),利用它编程的概念就叫作“多线程处理”。

基于此,参见图1。图1中,所述系统包括处理器和存储器,所述存储器存储有计算机程序指令,通过所述处理器执行所述计算机程序指令,以创建线程池,所述线程池包含多个线程组;

所述多个线程组包括:

第一语音数据远程接入线程组,所述第一语音数据远程接入线程组包含多个第一线程,通过所述多个第一线程接收不同类型的移动终端发送的语音输入数据;

第二语音翻译线程组,所述第二语音翻译线程组包含多个第二线程,每个所述第二线程对应不同语种的正向翻译引擎;

第三语音翻译共识线程组,所述第三语音翻译共识线程组包含多个第三线程,每个所述第三线程与至少一个所述第二线程通信;

第四语音翻译输出线程组,所述第四语音翻译输出线程组包含多个第四线程,每个所述第四线程输出至少一个语音翻译结果;

其中,所述第二线程与所述第一线程通过数据管道通信。

值得强调的是,本发明首次在多线程翻译系统中采用数据管道技术。

数据管道技术原本是用于不同数据库(数据源)之间的数据转移的技术,例如数据备份、数据还原等,采用数据管道技术,可以避免进程阻塞或者使用第三方代理进行数据传输。例如申请号为CN2020107749026的中国发明专利申请就利用了数据管道技术读取待备份数据进行数据备份,数据管道即是将不同进程连接起来用于数据传输。

本发明首次将数据管道技术应用于多线程翻译系统中,确保数据传输在不同线程之间形成单向以及稳定多通道,降低数据传输延迟。

图2进一步给出了多个线程组的示意图。

在图2中,所述第一语音数据远程接入线程组包含多个第一线程A、B、C;

所述第一线程A、B、C接收不同类型的移动终端发送的语音输入数据;

作为示例,第一线程A接收安卓终端发送的语音输入数据,第一线程B接收IOS终端发送的语音输入数据,第一线程C接收WINDOWS PHONE终端发送的语音输入数据。

作为优选,所述系统还包括语音数据分组模块,所述语音数据分组模块在运行时启动多个并行分组线程,所述多个并行分组线程与所述第一语音数据远程接入线程组通过单向数据管道进行并行数据通信,将所述多个第一线程接收的不同类型移动终端发送的语音输入数据进行分组。

图2中所述第二语音翻译线程组包含多个第二线程1/2/3,每个所述第二线程对应不同语种的正向翻译引擎;

图2中,示出了三个正向翻译引擎,特别的是,示出了三个口语语音正向翻译引擎:1-中译英;2-日译英;3-西译英。

同样的,第三语音翻译共识线程组包含多个第三线程;每个所述第三线程对应不同语种的反向翻译引擎;

所述第三语音翻译共识线程组中第一预定数量的选定第三线程与第一预定数量的目标第二线程通信;每个所述选定第三线程与每个目标第二线程对应的翻译引擎的翻译方向互为对称。

参照图2,第三语音翻译共识线程组包含2个第三线程a/b,每个所述第三线程与至少一个所述第二线程通信。

在图2中,第三线程a为英译中翻译引擎,与所述第二线程1通信;第三线程b为英译西翻译引擎,与第二线程3通信。

所述多个并行分组线程将每个分组的语音输入数据通过单向数据管道发送至所述第二语音翻译线程组;

所述第二语音翻译线程组基于所述每个分组的属性给其分配一个目标第二线程;所述目标第二线程对应的正向翻译引擎与所述分组的属性相关联。

对于这一点,可以先参照图4-图5。

图4-图5中,所述移动终端通过语音输入接口采集音频输入信号,所述语音输入接口与所述移动终端的类型对应;

所述语音输入接口对所述音频输入信号进行预处理获得所述发送的语音输入数据。

所述移动终端的类型包括操作系统类型;

图4-图5中所述语音输入接口对所述音频输入信号进行预处理获得所述发送的语音输入数据,具体包括:

所述语音输入接口将采集所述音频输入信号时所述移动终端的位置信息以及所述操作系统类型信息嵌入到所述音频输入信号中。

基于此,可以快速的实时识别所述语音输入数据的语种类型以及发送所述语音输入数据的移动终端类型;然后对所述语音输入数据进行分组,并将每个分组发送至对应的第一分组翻译引擎。

例如,可以基于位置信息判断出当前语种为中文,则选择中译英翻译引擎。

在上述实施例中,所述第四语音翻译输出线程组与所述第二语音翻译线程组和所述第三语音翻译共识线程组通信,并基于所述第三语音翻译共识线程组的共识翻译结果输出所述第二语音输入数据线程组的所述正向翻译引擎的部分翻译结果;

所述共识翻译结果基于所述第三线程对应的不同语种的反向翻译引擎的输出结果和所述移动终端发送的语音输入数据的相似度比对得出。

图3则从硬件方面介绍了实现上述技术方案的计算机系统的整体模块图。

参见图3,示出一种多语种共识翻译系统,包括移动终端接入模块、语种类型识别模块、语音数据分组模块、翻译共识模块以及翻译结果输出模块。

在功能实现上,上述各个子模块可以对应前述线程组,但是更具体的,所述移动终端接入模块接收不同类型的移动终端发送的语音输入数据;

所述语种类型识别模块识别所述语音输入数据的语种类型以及发送所述语音输入数据的移动终端类型;

所述语音数据分组模块对所述语音输入数据进行分组,并将每个分组发送至对应的第一分组翻译引擎;

所述翻译共识模块基于所述分组翻译引擎输出的分组翻译结果执行翻译共识操作;

翻译结果输出模块基于所述翻译共识操作输出翻译结果,所述翻译结果包含每一个所述分组的分组翻译摘要。

基于图3所述的系统,图6是一种多语种语音翻译方法的主要步骤图。

在图6中,方法主要步骤如下:

S801:通过所述移动终端接入模块接收不同类型的移动终端发送的语音输入数据;

S802:通过所述语种类型识别模块识别所述语音输入数据的语种类型以及发送所述语音输入数据的移动终端类型;

S803:通过所述语音数据分组模块对所述语音输入数据进行分组,并将每个分组发送至对应的第一分组翻译引擎;

S804:所述翻译共识模块基于所述分组翻译引擎输出的分组翻译结果执行翻译共识操作;

S805:所述翻译结果输出模块基于所述翻译共识操作输出翻译结果,所述翻译结果包含每一个所述分组的分组翻译摘要。

在该实施例中,所述翻译结果输出模块基于所述翻译共识操作输出翻译结果,是基于所述第三线程对应的不同语种的反向翻译引擎的输出结果和所述移动终端发送的语音输入数据的相似度比对得出。

所述分组翻译摘要包括所述相似度比对值以及所述语音输入数据本身、语音输入数据的发送时间以及发送终端的识别号。

其中,所述步骤S801中,所述移动终端发送的语音输入数据包含移动终端的位置信息和移动终端的类型标签;

所述步骤S802中所述语种类型识别模块基于所述移动终端的位置信息识别所述语音输入数据的语种类型;

所述步骤S803基于所述移动终端的位置信息和移动终端的类型标签对所述语音输入数据进行分组。

所述步骤S804中所述翻译共识操作包括将所述分组翻译引擎输出的分组翻译结果输入至第二分组翻译引擎,所述第二分组翻译引擎与所述第一分组翻译引擎的翻译方向对称相反。

本发明的技术方案至少具有如下有益效果:

(1)通过多线程技术保证了实时语音翻译的结果输出实时性;

(2)通过线程之间采用(单向)数据管道(data pipeline)进行数据传输,使得数据传输延迟降低,进一步确保了实时输出;

(3)通过翻译共识模块自动化识别出机器翻译引擎可能存在的歧义和进行校验审核,提高了技术方案的适用性。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号