首页> 中国专利> 一种基于机载设备的数字串语音识别方法

一种基于机载设备的数字串语音识别方法

摘要

本发明公开了一种基于机载设备的数字串语音识别方法,在识别阶段采用两遍识别的框架对带有数字串的语音做二次确认,在二次确认过程中使用数字专用模型进行识别,从而提升数字串的识别准确率。在结果确认阶段采用局部语音重新输入的方式修改识别错误的数字串,通过减少识别内容的方式提高输入内容全部被正确识别的概率,减少修改识别错误的操作时间。本发明通过改善数字串识别性能和优化修改错误识别结果的人机交互流程,尽可能减少飞行员低头在触摸显示屏上操作数字串输入的时间,从而提升飞行安全保障,减轻飞行员操控负荷。

著录项

  • 公开/公告号CN105702256A

    专利类型发明专利

  • 公开/公告日2016-06-22

    原文格式PDF

  • 申请/专利权人 上海航空电器有限公司;

    申请/专利号CN201410701895.1

  • 发明设计人 李曜;

    申请日2014-11-28

  • 分类号G10L15/26;G10L15/22;

  • 代理机构上海世贸专利代理有限责任公司;

  • 代理人叶克英

  • 地址 201101 上海市闵行区中春路6629号

  • 入库时间 2023-12-18 15:32:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-01-31

    授权

    授权

  • 2017-03-08

    实质审查的生效 IPC(主分类):G10L15/26 申请日:20141128

    实质审查的生效

  • 2016-06-22

    公开

    公开

说明书

技术领域

本发明属于语音识别领域,具体涉及一种基于机载设备的数字串语音识别方法,主要用于机载设备上快速输入数字串并快速修改识别错误的数字。

背景技术

飞机座舱空间狭小,操控复杂,利用语音识别的方式可以改善飞行员操控飞机的人机工效,减少飞行员的操作负荷。语音识别是将人类说话的音频数字信号识别为说话内容的文本信息的一种技术,利用这种技术可以在某些需要向机器输入信息的场合将手动输入替换为语音输入,给人类提供了一种人机交互的新方式。

语音识别属于模式识别的范畴,其功能实现需要用到事先训练好的模型,并采用一整套识别算法完成将语音识别成文字的过程。语音识别并不能保证所有识别结果百分百正确,其识别性能受限于模型训练的好坏和识别算法工程实现的优劣。通常语音识别用于机载设备时,所需要识别的内容是一个较小的文本集合,识别难度较小,因此可以获得较好的识别性能。

数字串输入在机载领域是一个普遍的需求,类似飞行高度、经纬度、通信频率等信息都涉及大量的数字串。但是数字串识别却是语音识别的一个难点,因为十个数字的混淆度大,一串数字在识别过程中出现删除错误、插入错误、替代错误的比例会大大增加。如果让飞行员通过语音输入一串数字后还需要通过触摸显示屏上的虚拟数字键盘逐个修改识别错误的数字,错误越多,修改的操作就越多,花费的时间也越长,无法达到通过语音输入替代手工输入减少操作负荷和飞行安全隐患的预期效果。因此,针对语音识别在机载设备上的应用场景,必须改善数字串识别的效果。

发明内容

本发明的目的在于提供一种基于机载设备的数字串语音识别方法,主要是针对语音识别中数字串识别性能较差的问题提出一种解决方案,尤其是考虑到飞行员在狭小的座舱空间内操作不便的因素,尽可能减少他们低头在触摸显示屏上操作数字串输入的时间,从而提升飞行安全保障,减轻飞行员操控负荷。

为了实现上述目的,本发明的集水方案如下:一种基于机载设备的数字串语音识别方法,其特征在于所述方法包括以下步骤:A、指令语音输入;B、利用语音识别模型对输入语音进行一遍解码并判断语音中是否存在数字串,如否则输出最终识别结果,如是则进入C;C、获取数字串边界信息,通过所述边界信息得到数字串对应音频信息;D、利用数字专用模型对数字串对应音频信息进行二次识别,输出二次识别结果;E、输出最终识别结果。

步骤D中还包括:在输出二次识别结果时,还包括结果确认这一步骤。所述结果确认步骤:包括:a、在触摸屏上输出二次识别结果,其中每一数字串为一单元;b、判断数字串是否正确,如正确则结束修正,如不正确,则进入c;c、定位需要替代的错误数字串并重新语音输入所述数字串;d、利用数字专用模型对该数字串进行识别,并替换错误的数字串;e、输出最终结果。对带有数字串的语音做二次确认时,数字串语音的边界信息可以根据当前指令的语法规则关键字的边界信息进行校准。

其中定位错误数字串可以是通过触摸屏指出需要替代的错误数字串,也可以是语音输入所述数字串时,在数字串的结尾处加上边界信息字符,通过判断边界信息字符来判断需要替代的错误数字串。

本发明采用两遍识别的框架对带有数字串的语音做二次确认,在二次确认过程中使用数字专用模型进行识别,从而提升数字串的识别准确率。在结果确认阶段采用局部语音重新输入的方式修改识别错误的数字串,通过减少识别内容的方式提高输入内容全部被正确识别的概率,减少修改识别错误的操作时间。本发明通过改善数字串识别性能和优化修改错误识别结果的人机交互流程,使得飞行员在修正时的后续操作更加简便,尽可能减少飞行员低头在触摸显示屏上操作数字串输入的时间,从而提升飞行安全保障,减轻飞行员操控负荷。

附图说明

图1为本发明的数字串二次确认方案的流程框图。

图2为本发明的错误结果修改方案的流程框图。

图3为本发明的数字串识别整体方案流程图。

下面结合附图和实施例对本发明作详细说明。

具体实施方式

本发明从两个方面改善数字串语音识别的性能。一、采用两遍识别的框架对带有数字串的语音做二次确认,在二次确认过程中使用数字专用模型进行识别,从而提升数字串的识别准确率。二、采用局部语音重新输入的方式修改识别错误的数字串,通过减少识别内容的方式提高输入内容全部被正确识别的概率,减少修改识别错误的操作时间。下面以一个具体的例子详细阐述上述方案。

假定飞行员想通过语音输入的方式设置导航目的地的经度,他需要说出以下内容:“设置目的地经度,东经135度36分48秒。”(为了形成对比,我们将上述内容拆成两条语音指令,分别是“设置目的地经度”和“东经135度36分48秒”。)

当飞行员说完“设置目的地经度”后,机载语音识别系统将识别出该条指令的具体内容,按照本发明提出的语音识别方案,系统将检查该条指令是否包含数字串。确认该指令不包含数字串内容后,系统将等待下一条语音指令的输入。

当飞行员继续说完“东经135度36分48秒”后,机载语音识别系统识别出该条指令的具体内容,继续判断该条指令是否包含数字串。确认该条指令包含数字串内容,系统将通过识别结果中每个字/词/数字的边界信息找到数字串对应的音频数据。识别结果的边界信息可以在识别过程中获取并保存下来,或者在识别结束后重新做一遍强制对准(ForceAlignment)获取。找到数字串对应的音频数据后,使用事先训练好的数字专用模型对该段音频数据重新做一遍识别,本发明称之为二次确认。因为已经有了识别内容是数字串的先验知识,识别范围可以大大缩小,加上使用了专门针对数字串训练的模型,识别准确率将比第一遍识别有所提高。“东经135度36分48秒”这条指令中一共有三个数字串,则对应的三段音频数据都会重新做一遍上述二次确认的过程。在具体的机载语音识别系统中,在得到飞行员“设置目的地经度”的指令后,识别系统将对后续指令内容的语法格式产生符合先验知识的期望,即识别系统已经知道后续指令内容将会是“东/西经**度**分**秒”的格式,只是具体的数字串内容未知或者度分秒的信息有可能不完整。在有了这个先验知识的前提下,识别系统可以用“经”“度”“分”“秒”等事先设置的语法规则关键字对识别结果进行定位,用这些关键字的边界信息辅助确认数字串的边界信息,从而可以使得数字串对应的音频数据更完整准确,对于后续的二次确认识别性能也有帮助。

通过上述的二次确认过程,“东经135度36分48秒”这条指令的正确识别的概率将得到提高,但是仍然有可能存在识别错误,并且错误将更多地出现在“135”、“36”、“48”这三个数字串上,更有可能是其中的一个数字串出现了识别错误。如果要修改错误,普通的机载设备有两种选择。一种是重新在触摸显示屏上调出虚拟数字键盘,将错误的数字删除,并输入正确的数字。一种是重复用语音输入“东经135度36分48秒”这个指令,期望第二遍的识别可以得到正确结果,但第二遍识别有一定的概率仍然无法得到完全正确的结果。这两种方式都会使得飞行员觉得语音输入的后续操作过于繁琐,从而倾向于在一开始就采用手工输入数字串的方式而不采用语音输入的方式。

本发明提出用局部语音重新输入的方式对识别错误的数字串进行修改,是基于“在数字串识别性能有保障的情况下数字串出现错误的概率不会很大”这样一个前提。即“东经135度36分48秒”这个指令大概率将完全识别正确,即使有识别错误,也基本都只有一个数字串出现错误。此时,没有必要将整条指令全部重新输入一次,而只需要将出现错误的数字串重复输入一次即可。在具体的应用中,飞行员可以通过手指点击触摸屏上显示的错误数字串,然后启动录音,重新将该数字串说一遍。此时识别系统将直接使用数字专用模型对该段语音进行识别,将识别结果替换原本错误的数字串。飞行员也可以无需通过手指点击错误的数字串,而是在重新语音输入时将数字串后面的文字也一起输入。例如“135”出现识别错误,飞行员直接再说一遍“135度”,此时识别系统会根据识别结果中出现的“度”字判断出新识别出的数字串应该替换掉原本识别结果中的哪个数字串。不管采用哪种方式,这种局部语音重新输入的方式可以保证第二遍识别的准确率更高,同时对飞行员的后续操作要求也更简单方便。

本发明中涉及的语音识别模型和数字专用模型均为现有技术,在此不再赘述。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号