首页> 中国专利> 一种基于AI语音分析的边缘计算网关的人机互动的方法

一种基于AI语音分析的边缘计算网关的人机互动的方法

摘要

本发明公开了一种基于AI语音分析的边缘计算网关的人机互动的方法,步骤包括:麦克风阵列采集用户语音操作指令;对该语音线性放大,数模转换,数据处理,其中数据处理包括敏感信息处理,将所述语音信号分割成多个语音段,且确定所述语音数据中的设定敏感信息的位置,包括:声源定位、波束形成、去噪;处理后的干净的语音数据经语音解析引擎成语义文字;查找比对语义关键文字与内存预先保存的菜单指令是否适配,如适配某个菜单指令,可选中菜单回馈并执行该指令;如无适配指令,用户重新进行语音操作。本发明公开的基于AI语音分析的边缘计算网关的人机互动的方法,能解放用户双手,非接触互动更方便健康。

著录项

  • 公开/公告号CN113223518A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利权人 讯飞智联科技(江苏)有限公司;

    申请/专利号CN202110412974.0

  • 发明设计人 周允强;

    申请日2021-04-16

  • 分类号G10L15/22(20060101);G10L15/26(20060101);G10L15/04(20130101);G10L19/008(20130101);G10L19/26(20130101);G10L21/0216(20130101);G06F40/284(20200101);G06F40/30(20200101);

  • 代理机构44367 深圳市创富知识产权代理有限公司;

  • 代理人潘霞

  • 地址 223800 江苏省宿迁市湖滨新区保险小镇B21栋401室

  • 入库时间 2023-06-19 12:07:15

说明书

技术领域

本发明涉及人机互动技术领域,尤其是一种边缘计算网关的AI语音人机互动的方法。

背景技术

人机互动概念:人机互动就是人与机器的交互,本质上是指人与计算机的交互,或者可以理解为人与“含有计算机的机器”的交互,人机交互、人机互动是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板,或发电厂的控制室,操作系统的人机交互功能是决定计算机系统“友善性”的一个重要因素。人机交互功能主要靠可输入输出的外部设备和相应的软件来完成。可供人机交互使用的设备主要有键盘显示、鼠标、各种模式识别设备等。与这些设备相应的软件就是操作系统提供人机交互功能的部分。人机交互部分的主要作用是控制有关设备的运行和理解并执行通过人机交互设备传来的有关的各种命令和要求。

目前,随着物联网边缘计算网关的大量设置,不少有大数据图平台呈现,但是传统的触控式人机交互用户需要进行频繁的触摸操作,特别对于一些学习能力较差的中老年人来说,这种交互方式经常出现误触现象,且触控屏经过多人的触摸,不够清洁卫生。

发明内容

发明目的:基于AI语音分析的边缘计算网关的人机互动的方法,解放用户双手,非接触互动更实时更方便健康。

技术方案:本发明所述的基于AI语音分析的边缘计算网关的人机互动的方法,包括如下步骤:

步骤1,麦克风阵列采集用户语音操作指令,获取不同语音信号,对语音信号进行分组,每组语音信号包括相邻两个麦克风的语音信号,对每一组中的两路语音信号分别进行进行同步的滤波处理,接着将滤波后的语音信号转化成数字信号,然后对每一组语音信号转换处理后的数字信号分别进行云备份,根据同步备份的数字信号合成处理得到多声道的立体声信号;

步骤2,对该语音线性放大,数模转换,数据处理,其中数据处理包括敏感信息处理,将所述语音信号分割成多个语音段,且确定所述语音数据中的设定敏感信息的位置,即根据每个所述语音段中所述设定敏感信息的位置确定所述语音信号中的设定敏感信息的位置,从而对语音信号进行绿色筛选,自动过滤敏感语音信息;

步骤3,处理后的干净的语音数据自动送去编码器进行编码处理,然后将经过编码后的语音数据录入至服务器进行缓存,服务器采用语义分析法对缓存内容进行解码处理,最后经语音解析引擎成文字信息,将所述文字信息进行语义分析,从而对文字信息进行纠错处理,生成所需的目标文字信息;

步骤4,收集目标文字信息并保存,对所述目标文字信息进行语义拆分,得到若干词汇结构部分,并将若干所述词汇结构部分结合语境与预先保存的菜单指令建立关联关系,从而查找目标文字信息中的关键文字与内存预先保存的菜单指令比对是否适配;

步骤5.1,如适配某个菜单指令,根据适配菜单类型,在菜单表中生成目标设备的运行控件,包括:生成目标设备的文本显示控件、单选控件和多选控件,从而选中菜单回馈并执行该指令;

步骤5.2,如无适配指令,相关系统自动重置,麦克风自启动重新进行语音采集准备工作,用户重新进行语音操作,从步骤1再开始;

优选的,步骤1中,麦克风阵列采集用户语音操作指令,麦克风阵列采使用6(+1)个麦克风的环形阵列,所述麦克风阵列包括主麦克风和辅麦克风,并且所述辅麦克风为默认麦克风。

优选的,步骤2中,每个语音段时长控制在5秒-8秒,所述数据处理还包括:声源定位、波束形成、声源除噪,将粗数据转经过滤选后换成干净的数据。

优选的,步骤3中,将步骤2中进行数据处理后的干净的语音数据经语音自动断句后解析引擎成语义文字,其中语音解析引擎是由菜单指令关键字大数据经深度学习训练而成,匹配度大于90%。

优选的,步骤4中,查找语义关键文字与内存预先保存的菜单指令比对是否适配,内存预先保存的菜单指令是一个菜单表,菜单表中生成主菜单和若干子菜单,根据语义关键文字,可提取简缩为关键词。

优选的,步骤5.1中,如适配某个菜单指令,可选中菜单回馈并执行该指令,完全适配某个菜单指令,系统则直接执行该指令,部分适配某个菜单指令,选中该菜单,用户可自主进行回馈判断,匹配则执行该菜单指令,若用户回馈判断是,则继续执行菜单指令,若用户回馈判断为否,则不执行该菜单指令,重新返回到步骤1。

优选的,步骤5.2中,如无适配指令,则进行自主回馈判断,是否重新进行语音录入,若客户回馈判断是,则重新返回到步骤1,若客户回馈判断否,麦克风自动停止语音录入,反馈时间小于2秒,实时性较好。

本发明与现有技术相比,其有益效果是:经步骤3、步骤5.1、步骤5.2使得交互指令的准确率100%,而反馈时间小于2秒,实时性较好,本发明能够有效地确定所述语音数据是否为人机交互语音数据,有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应,从而解放用户双手,并且非接触互动更实时更方便健康。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。

实施例:

如图1所示,本发明所述的基于AI语音分析的边缘计算网关的人机互动的方法,包括如下步骤:

步骤1,麦克风阵列采集用户语音操作指令,获取不同语音信号,对语音信号进行分组,每组语音信号包括相邻两个麦克风的语音信号,对每一组中的两路语音信号分别进行进行同步的滤波处理,接着将滤波后的语音信号转化成数字信号,然后对每一组语音信号转换处理后的数字信号分别进行云备份,根据同步备份的数字信号合成处理得到多声道的立体声信号,更具体的来说,麦克风阵列采集用户语音操作指令,麦克风阵列采使用6(+1)个麦克风的环形阵列,所述麦克风阵列包括主麦克风和辅麦克风,并且所述辅麦克风为默认麦克风。

步骤2,对该语音线性放大,数模转换,数据处理,其中数据处理包括敏感信息处理,将所述语音信号分割成多个语音段,且确定所述语音数据中的设定敏感信息的位置,即根据每个所述语音段中所述设定敏感信息的位置确定所述语音信号中的设定敏感信息的位置,从而对语音信号进行绿色筛选,自动过滤敏感语音信息,更具体的来说每个语音段时长控制在5秒-8秒,所述数据处理还包括:声源定位、波束形成、声源除噪,将粗数据转经过滤选后换成干净的数据。

步骤3,处理后的干净的语音数据自动送去编码器进行编码处理,然后将经过编码后的语音数据录入至服务器进行缓存,服务器采用语义分析法对缓存内容进行解码处理,最后经语音解析引擎成文字信息,将所述文字信息进行语义分析,从而对文字信息进行纠错处理,生成所需的目标文字信息,更具体的来说将进行数据处理后的干净的语音数据经语音自动断句后解析引擎成语义文字,其中语音解析引擎是由菜单指令关键字大数据经深度学习训练而成,匹配度大于90%。

步骤4,收集目标文字信息并保存,对所述目标文字信息进行语义拆分,得到若干词汇结构部分,并将若干所述词汇结构部分结合语境与预先保存的菜单指令建立关联关系,从而查找目标文字信息中的关键文字与内存预先保存的菜单指令比对是否适配,更具体的来说查找语义关键文字与内存预先保存的菜单指令比对是否适配,内存预先保存的菜单指令是一个菜单表,菜单表中生成主菜单和若干子菜单,根据语义关键文字,可提取简缩为关键词。

步骤5.1,如适配某个菜单指令,根据适配菜单类型,在菜单表中生成目标设备的运行控件,包括:生成目标设备的文本显示控件、单选控件和多选控件,从而选中菜单回馈并执行该指令,更具体的来说如适配某个菜单指令,可选中菜单回馈并执行该指令,完全适配某个菜单指令,系统则直接执行该指令,部分适配某个菜单指令,选中该菜单,用户可自主进行回馈判断,匹配则执行该菜单指令,若用户回馈判断是,则继续执行菜单指令,若用户回馈判断为否,则不执行该菜单指令,重新返回到步骤1。

步骤5.2,如无适配指令,相关系统自动重置,麦克风自启动重新进行语音采集准备工作,用户重新进行语音操作,从步骤1再开始,更具体的来说如无适配指令,则进行自主回馈判断,是否重新进行语音录入,若客户回馈判断是,则重新返回到步骤1,若客户回馈判断否,麦克风自动停止语音录入。

本发明与现有技术相比,其有益效果是:经步骤3、步骤5.1、步骤5.2使得交互指令的准确率100%,而反馈时间小于2秒,实时性较好,本发明能够有效地确定所述语音数据是否为人机交互语音数据,有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应,从而解放用户双手,并且非接触互动更实时更方便健康。

如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号