首页> 中国专利> 用于多用户语音会议记录标记的语音翻译系统与方法

用于多用户语音会议记录标记的语音翻译系统与方法

摘要

本发明提出用于多用户语音会议记录标记的语音翻译系统与方法。所述翻译系统包括:第一翻译子系统,将用户的实时语音输入翻译为目标语种的第一语音翻译结果;语音文本识别子系统,将用户的实时语音输入转化为第一文本识别结果,并将第一文本识别结果作为会议记录的一部分保存;第二翻译子系统,包括多个第二文本翻译引擎,对于每个第一语音翻译结果,生成多个第二文本翻译结果;第三翻译标记子系统,基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。本发明还公开一种会议记录文件标记方法以及基于所述系统实现的语音翻译方法。

著录项

  • 公开/公告号CN112818709A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 传神语联网网络科技股份有限公司;

    申请/专利号CN202110065991.1

  • 发明设计人 何征宇;

    申请日2021-01-19

  • 分类号G06F40/56(20200101);G06F40/58(20200101);

  • 代理机构

  • 代理人

  • 地址 430073 湖北省武汉市东湖高新技术开发区未来科技城B2栋

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明属于语音智能翻译技术领域,尤其涉及一种用于多用户语音会议记录标记的语音翻译系统与方法。

背景技术

人工智能翻译的出现和发展为翻译行业带来了巨大的变革。但是,人类的语言具有极大的复杂性和多样性,加上在不同的翻译环境下,演讲者的表达方式,翻译主题的专业性、现场声量和噪音干扰等因素都会影响翻译的质量,在多语种/多用户的环境中尤其如此。

在解决不同母语背景的人群间的准确沟通鸿沟与障碍问题上,语言翻译人员都能起到重要的作用。但该服务由于人员成本的限制只有少数人可获得。例如,联合国等国际组织支付自由译员每天超过600美元的费用。因此人工翻译服务只有少数人群可享受。

基于语音实时翻译技术,在一般日常交流情境中,能帮助不同母语背景的人群间进行语言互通。例如,微软推出的一款名为Skype Translator的语音实时翻译的软件,可打破人与人之间沟通壁垒,消除人因无法跟外界环境沟通而造成的孤独感,帮助人们轻松跨语言交谈。

例如,中国发明专利申请CN202010849563.3提供一种对话翻译方法,包括:在检测到移动终端与第一可穿戴设备通信连接后,根据控制指令确定第一语音采集方式或第二语音采集方式;响应于第一语音采集方式,采集当前场景中的语音数据,并获取语音数据对应的翻译数据,以将翻译数据发送到第一可穿戴设备;响应于第二语音采集方式,接收与移动终端通信连接的第二可穿戴设备采集的当前场景中的语音数据,并获取语音数据对应的翻译数据,以将翻译数据发送到第一可穿戴设备。该发明能够使用户能够根据当前对话场景更加灵活地选择对话翻译的模式,在降低相关设备的功耗的同时,提高对话翻译的效率以及准确率。

然而,在特定场景下,例如多语种语音会议场合,目前的机器翻译模型难以与人工媲美。在多语种语音会议场合的重要会议,更是需要记录准确的语音原文,同时避免实时机器口语翻译产生的歧义甚至错误。

然而,目前而言,在多人多语种语音场景下,除了需要机器翻译的参与外,往往还需要人工翻译对机译内容进行校验审核,从而降低了实用效率。

发明内容

为解决上述技术问题,本发明提出一种用于多用户语音会议记录标记的语音翻译系统与方法。所述翻译系统包括:第一翻译子系统,将用户的实时语音输入翻译为目标语种的第一语音翻译结果;语音文本识别子系统,将用户的实时语音输入转化为第一文本识别结果,并将第一文本识别结果作为会议记录的一部分保存;第二翻译子系统,包括多个第二文本翻译引擎,对于每个第一语音翻译结果,生成多个第二文本翻译结果;第三翻译标记子系统,基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

本发明还公开一种会议记录文件标记方法以及基于所述系统实现的语音翻译方法。

具体来说,在本发明的第一个方面,提供一种用于多用户语音会议记录标记的语音翻译系统,所述翻译系统包括第一翻译子系统、第二翻译子系统以及第三翻译标记子系统;

所述第一翻译子系统将用户的实时语音输入翻译为目标语种的第一语音翻译结果,并将所述第一语音翻译结果广播给所述语音会议的所有用户以及所述第二翻译子系统;

作为改进,所述翻译系统还包括语音文本识别子系统;

所述语音文本识别子系统将所述用户的实时语音输入转化为第一文本识别结果,并将所述第一文本识别结果作为会议记录的一部分保存;

所述第二翻译子系统包括多个第二文本翻译引擎;

作为上述改进的具体技术手段,对于每个所述第一语音翻译结果,所述多个第二文本翻译引擎生成多个第二文本翻译结果,每个所述第二文本翻译结果是将所述第一语音翻译结果翻译为原始语种对应的第二文本,所述原始语种为所述用户的实时语音输入对应的语种;

作为改进,所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

作为上述改进的具体关键技术手段之一,所述第三翻译标记子系统包括相似度计算模块与矩阵生成模块;

所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本,具体包括:

通过所述相似度计算模块计算所述多个第二文本翻译结果的两两相似度;

基于所述两两相似度,所述矩阵生成模块生成相似度矩阵;

基于所述相似度矩阵的稳定性判断结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

作为上述改进的在一个具体关键技术手段之一,所述第三翻译标记子系统包括相似度计算模块;

所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本,具体包括:

通过所述相似度计算模块计算所述多个第二文本翻译结果与所述第一文本识别结果的多个相似度;

基于所述多个相似度与预置可调标准阈值的比较结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

在本发明的第二个方面,提供一种会议记录文件标记方法,所述方法用于对多用户语音会议产生的会议记录文件进行标注。

作为更具体的技术方案改进,所述方法包括:

S1:接收用户输入的实时语音序列;

S2:将所述实时语音序列翻译为目标语音序列并广播给所述多用户语音会议的多个终端用户;

S3:将所述用户输入的实时语音序列转化为同一语种的实时文本序列,写入会议记录文件;

S4:将所述目标语音序列翻译为原始文本序列;

S5:基于所述原始文本序列和/或所述实时文本序列,判断是否需要对所述会议记录文件中的所述实时文本序列生成标记文本;

如果是,则生成包含所述实时文本序列对应的实时语音序列发送时间、发送该实时语音序列的用户终端的识别号的标记文本加入到所述会议记录文件中;

如果否,则删除所述会议记录文件中的所述实时文本序列。

其中,所述原始文本序列和所述实时文本序列的语种均和所述实时语音序列的语种相同。

在本发明的第三个方面,提供基于第一个方面的所述的一种用于多用户语音会议记录标记的语音翻译系统实现的一种用于多用户语音会议记录标记的语音翻译方法。所述方法可以通过计算机程序指令等形式自动化实现。例如将所述方法编程为程序指令,将所述程序指令存储至计算机可读存储介质,通过处理器执行所述程序指令,可实现前述的方法。

本发明的技术方案至少从多个方面解决了背景技术提到的诸多问题,具体的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种用于多用户语音会议记录标记的语音翻译系统的主体架构图

图2是图1所述系统中整体数据传输与变换流程示意图

图3是图1所述系统一个实施例的不同模块连接示意图

图4是图1所述系统的另一个实施例的不同模块连接示意图

图5是本发明一个实施例的一种会议记录文件标记方法的主体流程图

具体实施方式

下面,结合附图以及具体实施方式,对发明做出进一步的描述。

参见图1,是本发明一个实施例的一种用于多用户语音会议记录标记的语音翻译系统的主体架构图。

图1展示了所述语音翻译系统的部分子系统连接方式,主要包括第一翻译子系统、第二翻译子系统、第三翻译标记子系统以及与所述第三翻译子系统连接的语音文本识别子系统。

在功能结构上,所述第一翻译子系统接收用户输入的实时语音序列,将用户的实时语音输入翻译为目标语种的第一语音翻译结果,并将所述第一语音翻译结果广播给所述语音会议的所有用户以及所述第二翻译子系统;

所述语音文本识别子系统将所述用户的实时语音输入转化为第一文本识别结果,并将所述第一文本识别结果作为会议记录的一部分保存;

所述第二翻译子系统包括多个第二文本翻译引擎;

对于每个所述第一语音翻译结果,所述多个第二文本翻译引擎生成多个第二文本翻译结果,每个所述第二文本翻译结果是将所述第一语音翻译结果翻译为原始语种对应的第二文本,所述原始语种为所述用户的实时语音输入对应的语种;

所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

如果不需要生成标记文本,则从所述会议记录中删除所述第一文本识别结果。

图2显示了图1所述系统中的数据输入输出以及处理流程图。

在图2中,用户输入的实时语音序列经过所述第一翻译子系统翻译得出第一语音翻译结果;

第一语音翻译结果作为所述第二翻译子系统的输入,输出多个第二文本翻译结果。

其中,第一语音翻译结果是将所述用户输入的实时语音序列(例如西班牙语音输入)翻译成目标语种的第一语音翻译序列(例如英语语音序列)输出。

当会议官方发布语言为英文的例子中,将第一语音翻译序列(英语语音序列)广播给所述语音会议的所有用户以及所述第二翻译子系统。

第二翻译子系统选择多个文本翻译引擎,将所述第一语音翻译序列(英语语音序列)翻译为用户输入的实时语音序列对应的语种的文本序列。

在上述例子中,选择的多个文本翻译引擎可以是英语语音→中文文本的翻译引擎,即将第一语音翻译序列(英语语音序列)翻译为中文文本输出。

基于上述结果,所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

更具体的判断过程可参见图3-图4。

在图3中,所述第三翻译标记子系统包括相似度计算模块与矩阵生成模块;

所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本,具体包括:

通过所述相似度计算模块计算所述多个第二文本翻译结果的两两相似度;

基于所述两两相似度,所述矩阵生成模块生成相似度矩阵;

基于所述相似度矩阵的稳定性判断结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

在图4中给出的更优选实施例中,所述第三翻译标记子系统包括文本集合构建模块、相似度计算模块与矩阵生成模块;

所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本,具体包括:

通过所述文本集合构建模块构建目标文本集合,所述目标文本集合包括第一数量的第二文本翻译结果和所述第一文本识别结果;

通过所述相似度计算模块计算所述目标文本集合中元素之间的两两相似度;

基于所述两两相似度,所述矩阵生成模块生成相似度矩阵;

基于所述相似度矩阵的稳定性判断结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

当然,如果会议规模较小,则不必进行矩阵构建。此时,可选的技术方案包括:

所述第三翻译标记子系统包括相似度计算模块;

所述第三翻译标记子系统基于所述第二翻译子系统生成的多个第二文本翻译结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本,具体包括:

通过所述相似度计算模块计算所述多个第二文本翻译结果与所述第一文本识别结果的多个相似度;

基于所述多个相似度与预置可调标准阈值的比较结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本。

在图3或图4所述的实施例中,基于所述相似度矩阵的稳定性判断结果,判断是否要在所述会议记录的所述第一文本识别结果上生成标记文本,具体包括:

计算所述相似度矩阵的特征根;

若所述相似度矩阵的特征根的绝对值均小于1,则所述相似度矩阵稳定;否则,所述相似度矩阵不稳定。

若所述相似度矩阵不稳定,则在所述会议记录的所述第一文本识别结果上生成标记文本,

所述标记文本包括:所述第一文本识别结果对应的实时语音输入发送的时间、发送该实时语音输入的用户终端的识别号。

若所述相似度矩阵稳定,则从所述会议记录中删除所述第一文本识别结果。

在图1-图4基础上,参见图5。图5是本发明一个实施例的一种会议记录文件标记方法的主体流程图。

图5所述方法包括步骤S1-S4。各个步骤具体实现如下:

S1:接收用户输入的实时语音序列;

S2:将所述实时语音序列翻译为目标语音序列并广播给所述多用户语音会议的多个终端用户;

S3:将所述用户输入的实时语音序列转化为同一语种的实时文本序列,写入会议记录文件;

S4:将所述目标语音序列翻译为原始文本序列;

S5:基于所述原始文本序列和/或所述实时文本序列,判断是否需要对所述会议记录文件中的所述实时文本序列生成标记文本;

如果是,则生成包含所述实时文本序列对应的实时语音序列发送时间、发送该实时语音序列的用户终端的识别号的标记文本加入到所述会议记录文件中;

如果否,则删除所述会议记录文件中的所述实时文本序列。

所述原始文本序列和所述实时文本序列的语种均和所述实时语音序列的语种相同。

参见图5,在具体实现中,所述步骤S2和步骤S3为异步线程,可以并行执行,进一步加快了算法的执行速度。

本发明的技术方案基于文本逆向翻译进行结果稳定性判断,在不影响语音翻译实时性的前提下自动化进行会议标记;同时,基于包括多个相似度原始值的矩阵的稳定性进行识别和判断,有效的保证了翻译结果不管是在个体还是整体趋势上出现争议,都会被识别并被及时记录。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号