法律状态公告日
法律状态信息
法律状态
2019-10-25
授权
授权
2017-07-25
实质审查的生效 IPC(主分类):A61B5/16 申请日:20170223
实质审查的生效
2017-06-30
公开
公开
技术领域
本发明涉及一种音频信号处理的方法,特别是涉及一种基于卷积神经网络的言语置信度评测方法。
背景技术
言语置信度评测就是言语测谎的一种表示说法。说谎是人类社会普遍的心理现象,是指明知真相的情况下故意对事实进行隐瞒、歪曲或凭空编造虚假信息以误导他人的行为。“测谎”的基本原理是人在说谎时的心理变化必然引起一些生理参数(如皮肤电、心跳、血压、呼吸脑电波、声音)的变化,通常它只受植物神经制约而很难受大脑意识控制。因此传统测谎技术是将心理学和生理学等多种学科交叉融和,通过电生理参数测试系统对个体内心隐瞒意图和状态进行探测,但由于其自身的局限性而不能得到广泛应用。
说谎时往往伴随着心理的唤起,情绪的改变和生理上的改变,因此在很大程度上决定了发声和共振的性质。因此,依赖于说谎时特殊的生理状态可以发现说谎时语音特征的改变。利用语音的声学特征来进行说话人说话内容的置信度评估可以实现运程监控,并且不易引起说话人的心理防御,和传统的从心理生理学角度的研究相比,更具有现实意义和实际意义。
目前,有代表性的完全利用语音声学参数进行“测谎”的系统有美国的VSA和以色列的LVA系统。VSA主要利用语音波形测量技术,依据人说谎时由于压力会引起肌肉紧张和微颤,而形成声波中的微颤调制和次波的产生。LVA主要利用统计分析技术,依据人说谎时情绪参数的分布会和正常情况下的不一样,利用几百上千个参数进行统计分析来判断是否说谎。以上的系统只是把声学参数作为测谎仪中一个因素考虑,并没有完全脱离传统的“测谎”模式。
尽管语音测谎已日益引起国内外研究机构和科研人员的重视,但目前对语音测谎的研究深度和研究成果还相对较少,除国外有少许报道外,目前还没有发现国内有部门研究语音测谎处理技术的相关信息和资料。因此,可以说国内在这一方面的研究目前还是一个空白。同时研究表明,语音信息有一个重要的特点就是状况依存性,各国的语言和民族习惯不同,语言表达的方式不同。所以借鉴国外的研究成果,必须结合我国的实际生活情况,研究出符合我国特点的语音信息处理技术。因为国外的一些研究成果,可能并不适合汉语的特点,所以不可能全部照搬照套。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于卷积神经网络的言语置信度评测方法,解决现有技术中言语置信度方法效率低下和可靠性低的技术问题。
为解决上述技术问题,本发明所采用的技术方案是:一种基于卷积神经网络的言语置信度评测方法,包括以下步骤:
1)计算语音样本特征:获得梅尔倒谱系数图像特征;
2)构建多层混合卷积神经网络;
3)言语置信度分析与评测:将梅尔倒谱系数图像特征输入构建的卷积神经网络,进行言语置信度评测。
所述计算语音样本特征方法包括以下步骤:
1)以22050Hz的采样频率对语音样本进行重采样;
2)以50%的重叠率进行分帧,将每个样本分为若干个由43帧(每帧23毫秒)组成的片段;
3)利用60个梅尔带宽的梅尔滤波器组提取每个语音片段的对数梅尔倒谱系数,构成尺寸为60×43的单通道梅尔倒谱系数图像特征。
所述多层混合卷积神经网络的构建采用如下特殊结构:
1)网络前三层为卷积层,使用尺寸不同的卷积滤波器,滤波器参数在该层共享,每层卷积层均后接池化层,进行维度为2的特征图降维。第一层卷积层的卷积滤波器尺寸为3×2,第二层为2×3,第三层为2×2。对输入进行卷积操作,从而得到各个卷积层独有的特征图
2)网络第四层为聚合层,通过将前三层卷积层的特征图展平得到
3)网络第五层与第六层均为全连层,每层均由2048个线性修正单元组成。
所述言语置信度评测方法包括以下步骤:
1)将提取出的语音样本的梅尔倒谱系数图像特征输入卷积神经网络;
2)计算第六层的2048维输出向量的后验贝叶斯概率分布;
3)选择分布中最大的概率,则该概率所属类别即为网络对待识别样本的置信度评测结果。
与现有技术相比,本发明所达到的有益效果是:1、引入二维MFCC图像特征取代传统的一维语音特征作为言语置信度评测方法的输入特征;2、构建多层混合卷积神经网络,使得卷积网络最终提取出的特征既有最高层的特征,也有最底层的特征,从而最大程度上保留了特征信息,也避免了传统卷积网络中因为池化层的降维作用而损失一些边缘信息。
本发明的基于卷积神经网络的言语置信度评测方法具有较高的识别精度,且系统的可扩展性强。只需要修改卷积神经网络的评测输出维度,就可以实现语音情绪等识别工作。
附图说明
图1为本发明所述的言语置信度评测方法的流程图。
图2为本发明所述的卷积神经网络结构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,言语置信度评测方法,梅尔倒谱系数(MFCC)图像特征提取包括以下步骤:
1)预处理:以22050Hz的频率对样本进行重采样,并以50%的重叠率进行分帧,将每个样本分为若干个由43帧(每帧23毫秒)组成的片段;
2)利用60个梅尔带宽的梅尔滤波器组对每个语音片段提取对数MFCC:
对每一帧信号进行FFT变换:X(q,k)=FFT[xq(t)],再计算每一帧FFT数据谱线能量:E(q,k)=[Xq(k)]2,之后将每帧谱线能量谱通过梅尔滤波器组,计算在滤波器中的能量:
式中,
3)将计算的MFCC特征按通道数和帧数为图像的两维构成尺寸为60×43的单通道MFCC图像特征。
如图2所示,卷积神经网络结构包含六层结构:
1)网络前三层为卷积层,使用尺寸不同的卷积滤波器,滤波器参数在该层共享,每层卷积层均后接池化层,进行维度为2的特征图降维。第一层卷积层的卷积滤波器尺寸为3×2,第二层为2×3,第三层为2×2。对输入进行卷积操作,从而得到各个卷积层独有的特征图
2)网络第四层为聚合层,通过将前三层卷积层的特征图展平得到
3)网络第五层与第六层均为全连层,每层均由2048个线性修正单元组成。
提取出的语音样本的梅尔倒谱系数图像特征输入卷积神经网络后,会得到第六层的2048维输出向量,通过计算该向量的后验贝叶斯概率分布,即
其中,x(i)为第i个待识别样本通过网络第六层得到的2048维输出向量,θ1和θ2为置信度评测参数,均为2048维的向量;选择分布中最大的概率,则该概率所属类别即为网络对待识别样本的置信度评测结果。
本发明的效果可通过实验进一步说明。
实验设置及效果如下:语音样本分成真话和谎言两类,真话样本为605条,谎言样本为295条,验证方法使用5折交叉验证,识别方法按照上述所述方法进行。五次实验结果为70.00%,75.50%,77.80%,73.30%和70.50%,平均识别率为73.42%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
机译: 基于卷积神经网络的对象检测器的CNN学习方法和学习装置,其能够根据对象的尺度转换模式和使用相同的测试方法和测试装置的卷积神经网络
机译: 一种用于发送基于面积的360度视频的方法,一种用于接收基于面积的360度视频的方法,一种用于发送基于区域的360度视频的设备,一种用于基于区域接收360度视频的设备
机译: 耦合单元,即干式离合器,一种用于机动车辆的控制方法,涉及通过根据车辆的老化状况和单元的使用行为来估计的置信度来平衡扭矩,以基于其磨损来适应单元的控制。