首页> 中国专利> 音频的识别文本校正方法、音频识别设备、装置和介质

音频的识别文本校正方法、音频识别设备、装置和介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及金融科技技术领域，公开了一种基于音频的识别文本校正方法、音频识别装置、设备及介质。所述音频的识别文本校正方法包括：获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成。本发明提高了音频识别文本的校正效率。

著录项

公开/公告号CN112686006A

专利类型发明专利
公开/公告日2021-04-20

原文格式PDF
申请/专利权人深圳前海微众银行股份有限公司;
展开▼

申请/专利号CN202110004366.6
发明设计人郑利群;
展开▼

申请日2021-01-04
分类号G06F40/166(20200101);G06F9/451(20180101);G10L15/26(20060101);
代理机构44287 深圳市世纪恒程知识产权代理事务所;
代理人张志江
地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)
入库时间 2023-06-19 10:41:48

说明书

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种音频的识别文本校正方法、音频识别设备、装置及介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

随着人们对设备的便捷性要求，越来越多的设备具有音频识别功能。而音频识别功能通过设备内的识别模型实现，识别模型需要大量音频识别文本进行训练。识别模型所需的音频识别文本通过系统识别音频得到识别文本，再由人工倾听音频对识别文本进行校正以保证音频识别文本的准确性。目前，在对音频识别文本进行校正时，需要从头到尾校正音频识别文本中的所有文本内容，音频识别文本的校正效率较低。

发明内容

本发明的主要目的在于提供一种音频的识别文本校正方法、音频识别设备、装置及介质，旨在解决音频识别文本的校正效率较低的问题。

为实现上述目的，本发明提供一种音频的识别文本校正方法，应用于音频识别装置，所述音频识别装置包括多个预设音频识别系统，所述音频的识别文本校正方法包括：

获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成；

输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。

在一实施例中，所述根据各个所述第一识别文本确定第二识别文本的步骤之后，还包括：

在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容；

比对各个所述文本内容，以确定所述音频片段的文字识别是否存在识别错误；

在目标识别文本中，将各个存在识别错误的所述音频片段对应的文本内容，标记为目标文字内容，以得到第二识别文本，所述目标识别文本根据各个所述第一识别文本确定。

在一实施例中，所述比对各个所述文本内容，以确定所述音频片段的文字识别是否存在识别错误的步骤包括：

比对各个所述文本内容得到比对结果；

根据所述比对结果获取数量，所述数量为不相同的文本内容的数量；

判断所述数量与所述文本内容的总数量之间的比值是否大于预设比值，其中，在所述比值大于预设比值时，判定所述音频片段的文字识别存在识别错误。

在一实施例中，所述在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容的步骤包括：

确定所述音频中音频片段对应的第一音频播放时间；

在每个所述第一识别文本中确定所述第一音频播放时间对应的文本内容，以作为所述音频片段对应的各个文本内容，所述第一识别文本中的每个文本内容关联对应的第一音频播放时间。

在一实施例中，所述在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容的步骤包括：

确定所述音频中音频片段对应的文本内容，在所述第一识别文本中的位置；

提取每个所述第一识别文本中位置对应的字符串，以确定为所述音频片段对应的各个文本内容。

在一实施例中，所述目标文字内容通过标记突出显示于所述第二识别文本。

在一实施例中，所述输出所述第二识别文本的步骤之后，还包括：

在检测到所述目标文字内容的点击操作时，确定所述目标文字内容在所述音频中的第二音频播放时间；

播放所述第二音频播放时间对应的音频片段。

为实现上述目的，本发明还提供一种音频识别设备，所述音频识别设备包括多个预设音频识别系统，所述音频识别设备还包括：

获取模块，用于获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

确定模块，用于根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成；

输出模块，用于输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。

为实现上述目的，本发明还提供一种音频识别装置，所述音频识别装置设有多个预设音频识别系统，所述音频识别装置还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的校正程序，所述预设音频识别系统与所述处理器连接，所述校正程序被所述处理器执行时实现如上所述的音频的识别文本校正方法的步骤。

为实现上述目的，本发明还提供一种介质，所述介质上存储有校正程序，所述识别程序被处理器执行时实现如上所述的音频的识别文本校正方法的步骤。

为实现上述目的，本发明还提供一种计算机程序产品，包括计算机程序，所述计算程序被处理器执行时实现如上所述的音频的识别文本校正方法的步骤。

本发明提供一种音频的识别文本的校正方法、设备、装置及介质，音频识别装置在获得音频后，将音频输入至各个预设音频识别系统得到每个预设音频识别系统输出的第一识别文本，再根据各个第一识别文本确定包括识别错误的目标文本内容的第二识别文本，最后输出第二识别文本使得第二识别文本中识别错误的文本内容突出显示。本发明通过多个预设音频识别系统对同一音频进行识别，得到多个识别文本，再综合各个识别文本确定含有识别错误的目标文本内容，最后将识别错误的目标文本内容突出显示，与现有技术中从头到尾校正音频识别文本中的所有文本内容进行音频识别文本校正的技术方案相比，本发明校正人员仅需确定音频识别文本中识别出错的部分，无需校正人员校正音频识别文本的所有内容，提高了音频识别文本的校正效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的音频识别装置/音频识别设备的硬件结构示意图；

图2为本发明音频的识别文本校正方法第一实施例的流程示意图；

图3为本发明音频的识别文本校正方法第二实施例的流程示意图；

图4为本发明音频的识别文本校正方法第三实施例的流程示意图；

图5为本发明音频的识别文本校正方法第四实施例的流程示意图；

图6为本发明音频的识别文本校正方法第五实施例的流程示意图；

图7为本发明音频识别设备的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及音频识别装置或音频识别设备的硬件运行环境的硬件结构示意图。

如图1所示，音频识别设备/音频识别装置可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005以及预设音频识别系统1006。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置，预设音频识别系统1006可为多个。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对音频识别装置或音频识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及校正程序。

在图1所示的音频识别装置或音频识别设备中，网络接口1004主要用于连接后台服务端，与后台服务端进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的校正程序，并执行以下操作：

获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。