首页> 中国专利> 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法

一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法

摘要

一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法。1)利用信号采集系统采集常用的喷涂声音指令,其中的数据采集卡选用NI‑9234;2)向采集的音频信号中重复添加100次高斯白噪声,生成含噪信号并求解相应的梅尔频谱序列,而后求解100个梅尔频谱序列的平均序列;3)利用多尺度的卷积滤波器对平均梅尔频谱序列进行特征提取,接着使用BiLSTM模型对所提取的特征进行进一步挖掘以得到相应的输出;4),将BiLSTM模型的输出拼接在一起,而后输入到全连接层和Softmax层进行处理,最后结合CTC算法实现语音识别;5),将步骤1‑4训练得到的模型嵌入喷涂机器人中,智能化的实现相应的喷涂任务。本发明所述模型可以实现喷涂机器人智能语音识别功能,具有很高的实际应用价值。

著录项

  • 公开/公告号CN113192489A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 金陵科技学院;

    申请/专利号CN202110531117.2

  • 发明设计人 杨亦琛;李娟;

    申请日2021-05-16

  • 分类号G10L15/02(20060101);G10L15/16(20060101);G10L15/22(20060101);G10L19/26(20130101);G10L21/0232(20130101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人蒋昱

  • 地址 210000 江苏省南京市江宁区弘景大道99号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及智能化喷涂机器人领域,特别是涉及一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法。

背景技术

随着目前国内建筑行业的快速发展,与建筑业息息相关的装饰行业也具有很大的市场前景;然而当前装饰行业很大一部分工作需要人工完成,比如墙面喷涂就基本是人手里拿着喷涂机进行人工喷涂,其喷涂的效果不一,很难保证施工质量和效率。

手工喷涂,工人劳动强度大,而且喷涂距离和喷涂速度也不易控制,容易造成喷涂厚度误差过大而返工,甚至不符合质量要求;涂料含有重金属、放射性物质和有毒农业生产体系溶剂等,在喷涂过程中涂料需要雾化,雾化的涂料很容易吸入现场施工人员的肺中,恶劣的施工环境对喷涂工人健康危害很大。针对以上各种问题,本专利提出了一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法,它能帮助机器人实现对房屋墙面喷涂的自动化,从而以自适应的喷涂作业代替人工的无序喷涂作业,能够改善工作环境,减轻工人劳动强度,大幅度提高喷涂的效率,并且对于施工的质量也能够有所保障。

国内涉及智能喷涂机器人的专利有“一种智能喷涂机器人系统及其喷涂方法”(201910960106.9),通过设计扫描建模单元、离线编程单元、驱动控制单元和机器人本体及厚度检测单元,实现了喷涂机器人的智能化喷涂,有效降低了喷涂轨迹误差、喷涂工艺参数误差等误差引起的喷涂质量问题。国家发明专利“一种基于智能喷涂机器人的建筑外墙喷涂方法”(202011419313.2),该发明基于智能喷涂机器人的建筑外墙喷涂方法,通过控制收放组件,可使机器人本体在建筑外壁上自动沿波浪形轨迹进行喷涂作业,其中控制器可以根据涂料箱内涂料的余量值自动补充涂料,需要的人工干涉少,不需要人工直接参与,施工成本低且无人员风险。以上专利都是预定任务然后喷涂机器人执行,不具有自适应性,现实中喷涂机器人需要根据不同的情况做出相应的变化,而非机械式的执行任务,赋予喷涂机器人语音识别功能可以自适应的完成相应的喷涂任务,这具有重要的现实意义。

发明内容

为解决上述问题,本发明在卷积神经网络(Convolutional Neural Networks,CNN)和双向长期短期记忆机(Bi-directional Long Short-Term Memory,BiLSTM)的基础上,提出了一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法。首先,考虑到采集信号中含有的噪声成分对模型识别精度的影响,本专利提出了一种集合消噪算法,通过多次集合平均可以很好的消除噪声影响以增强语音信号的特征;其次,针对语音信号特征不易挖掘的特点,本专利设计了一种多尺度卷积滤波器组,通过设计四个有效长度的卷积核,从多尺度方向挖掘信号中存在的特征,这可以极大的帮助模型挖掘语音信号中的特征,从而提高模型的诊断精度;最后,采用了BiLSTM模型对语音信号进行进一步的特征提取,并向模型中加入全连接层、Softmax层和CTC算法最终实现语音识别。为达此目的,本发明提供一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法,具体步骤如下,其特征在于:

步骤1,采集指令信号:利用信号采集系统采集常用的喷涂声音指令,其中的数据采集卡选用NI-9234;

步骤2,集合消噪预处理:向采集的音频信号中重复添加100次高斯白噪声,生成含噪信号并求解相应的梅尔频谱序列,而后求解100个梅尔频谱序列的平均序列;

步骤3,多尺度特征提取:利用多尺度的卷积滤波器对平均梅尔频谱序列进行特征提取,接着使用BiLSTM模型对所提取的特征进行进一步挖掘以得到相应的输出;

步骤4,特征融合识别:将BiLSTM模型的输出拼接在一起,而后输入到全连接层和Softmax层进行处理,最后结合CTC算法实现语音识别;

步骤5,喷涂机器人应用:将步骤1~步骤4训练得到的模型嵌入喷涂机器人中,智能化的实现相应的喷涂任务。

进一步,步骤2中采用集合消噪预处理对音频信号进行预处理的过程可表述为:

假设采集到的音频信号为x(t),其中包含有效信号c(t)和环境噪声信号n(t),即:x(t)=c(t)+n(t),向x(t)中添加100组高斯白噪声g(t)以生成含噪信号s(t),并求解s(t)的梅尔频谱序列,最后求解这100个梅尔频谱序列的平均序列Ms

式中,Ms(·)表示梅尔频谱序列的计算求解,由于高斯白噪声的均值为0,所以当所加高斯白噪声的次数足够多时

进一步,步骤3中对步骤2中获得的梅尔频谱平均序列Ms

步骤3.1,设计四个不同尺度的一维卷积核对Ms

步骤3.2,利用BiLSTM模型进行进一步处理,其具体步骤可表述为:

步骤3.2.1,搭建具有前向传播层和后向传播层的BiLSTM网络;

步骤3.2.2,利用前向传播层对Ms

式中,H表示隐藏层的激活函数,本专利选取sigmoid激活函数,x

步骤3.2.3,利用后向传播层对Ms

式中,

步骤3.2.4,计算输出层的输出向量y

式中,

步骤3.2.5,将多个BiLSTM模型的输出拼接在一起,并输入至全连接层中,接着由Softmax层进行处理;

步骤3.2.6,利用CTC算法对Softmax层的输出进行解码处理以实现语音识别。

本发明一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法,有益效果:本发明的技术效果在于:

1.本发明考虑到采集信号中含有的噪声成分对模型识别精度的影响,提出了一种集合消噪算法,通过多次集合平均可以很好的消除噪声影响以增强语音信号的特征,从而可以提高网络模型的鲁棒性;

2.本发明针对语音信号特征不易挖掘的特点,设计了一种多尺度卷积滤波器组,通过设计四个有效长度的卷积核,从多尺度方向挖掘信号中存在的特征,这可以极大的帮助模型挖掘语音信号中的特征,从而提高模型的诊断精度;

3.本发明采用了BiLSTM模型对语音信号进行进一步的特征提取,并向模型中加入全连接层、Softmax层和CTC算法,通过设计一个新的模型最终实现语音识别。

附图说明

图1为本发明的流程图;

图2为本发明所提的多尺度增强BiLSTM模型的网络结构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述:

本发明提出了一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法,旨在帮助喷涂机器人智能识别语音从而完成相应的喷涂任务。图1为本发明的流程图,下面结合流程图对本发明的步骤作详细介绍。

步骤1,采集指令信号:利用信号采集系统采集常用的喷涂声音指令,其中的数据采集卡选用NI-9234;

步骤2,集合消噪预处理:向采集的音频信号中重复添加100次高斯白噪声,生成含噪信号并求解相应的梅尔频谱序列,而后求解100个梅尔频谱序列的平均序列;

步骤2中采用集合消噪预处理对音频信号进行预处理的过程可表述为:

假设采集到的音频信号为x(t),其中包含有效信号c(t)和环境噪声信号n(t),即:x(t)=c(t)+n(t),向x(t)中添加100组高斯白噪声g(t)以生成含噪信号s(t),并求解s(t)的梅尔频谱序列,最后求解这100个梅尔频谱序列的平均序列Ms

式中,Ms(·)表示梅尔频谱序列的计算求解,由于高斯白噪声的均值为0,所以当所加高斯白噪声的次数足够多时

步骤3,多尺度特征提取:利用多尺度的卷积滤波器对平均梅尔频谱序列进行特征提取,接着使用BiLSTM模型对所提取的特征进行进一步挖掘以得到相应的输出;

步骤3中对步骤2中获得的梅尔频谱平均序列Ms

步骤3.1,设计四个不同尺度的一维卷积核对Ms

步骤3.2,利用BiLSTM模型进行进一步处理,其具体步骤可表述为:

步骤3.2.1,搭建具有前向传播层和后向传播层的BiLSTM网络;

步骤3.2.2,利用前向传播层对Ms

式中,H表示隐藏层的激活函数,本专利选取sigmoid激活函数,x

步骤3.2.3,利用后向传播层对Ms

式中,

步骤3.2.4,计算输出层的输出向量y

式中,

步骤3.2.5,将多个BiLSTM模型的输出拼接在一起,并输入至全连接层中,接着由Softmax层进行处理;

步骤3.2.6,利用CTC算法对Softmax层的输出进行解码处理以实现语音识别。

步骤4,特征融合识别:将BiLSTM模型的输出拼接在一起,而后输入到全连接层和Softmax层进行处理,最后结合CTC算法实现语音识别;

步骤5,喷涂机器人应用:将步骤1~步骤4训练得到的模型嵌入喷涂机器人中,智能化的实现相应的喷涂任务。

图2为本发明所提出的多尺度增强BiLSTM模型的网络结构图。从该结构图中可以清楚的看出,对于所采集到的语音信号,先通过添加100组高斯白噪声,而后求解加噪信号的梅尔频谱序列,然后将求得的梅尔频谱序列进行算术平均,最终得到平均的梅尔频谱序列,也即是通过集合加噪的方式滤除了原有声音信号中的噪声干扰,增强了有效信号的特征;接着设计了4个不同尺度的卷积滤波器组,然后分别输入到BiLSTM模型中,实现了从多尺度层面学习原有信号的特征;接着将BiLSTM模型的输出拼接在一起,通过全连接层、Softmax层和CTC解码算法的处理最终实现语音的智能识别。另外,从BiLSTM模型的结构中可以看出,BiLSTM是由前向和后向两个方向的LSTM模型组成的,通过前向和后向隐藏层间的联系,较LSTM可以更加准确的挖掘声音信号中含有的特征。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号