首页> 中国专利> 基于语音识别与机器学习的抑郁症自动识别方法和装置

基于语音识别与机器学习的抑郁症自动识别方法和装置

摘要

本发明公开一种基于语音识别与机器学习的抑郁症自动识别方法和装置,包括以下步骤:步骤S1、获取患者的语音数据;步骤S2、对所述语音数据进行特征选择,并对选择后的特征进行重新组合,生成长期特征;步骤S3、根据随机森林算法对所述长期特征进行抑郁程度的识别。采用本发明的技术方案,有效地解决抑郁症患者早期难以发现的问题,降低抑郁症患者就诊门槛。

著录项

  • 公开/公告号CN113823267A

    专利类型发明专利

  • 公开/公告日2021-12-21

    原文格式PDF

  • 申请/专利权人 中南民族大学;

    申请/专利号CN202110986901.2

  • 申请日2021-08-26

  • 分类号G10L15/02(20060101);G10L15/04(20130101);G10L15/26(20060101);G10L25/27(20130101);G10L25/66(20130101);G06K9/62(20060101);

  • 代理机构11562 北京东方盛凡知识产权代理事务所(普通合伙);

  • 代理人李娜

  • 地址 430074 湖北省武汉市洪山区民族大道182号

  • 入库时间 2023-06-19 13:46:35

说明书

技术领域

本发明属于机器学习技术领域,尤其涉及一种基于语音识别与机器学习的抑郁症自动识别方法和装置。

背景技术

截至2014年,我国抑郁症患病率为2.1%,截至2017年底,全国已登记在册的严重精神障碍患者581万人,抑郁症会对患者以及家庭和社会造成严重的伤害。2020年9月发布了关于探索开展抑郁症防治特色服务工作的通知以及工作方案,工作方案中指出我国公众对于抑郁症防治知识的知晓率、就诊率、治疗率较低,就诊率只有全部抑郁症患者的十分之一,并且抑郁症的确诊及治疗依赖于精神专科医院的医生,我国正在加大非精神专科医院医生的培训。因此自动化对抑郁症进行早期诊断显得尤为重要。

发明内容

本发明要解决的技术问题是,提供一种基于语音识别与机器学习的抑郁症自动识别方法和装置,通过设计问答记录普通人群的语音数据,然后使用机器学习算法对于语音数据进行识别和分类,有效地解决抑郁症患者早期难以发现的问题,降低抑郁症患者就诊门槛。

为实现上述目的,本发明采用如下的技术方案:

一种基于语音识别与机器学习的抑郁症自动识别方法,包括以下步骤:

步骤S1、获取患者的语音数据;

步骤S2、对所述语音数据进行特征选择,并对选择后的特征进行重新组合,生成长期特征;

步骤S3、根据随机森林算法对所述长期特征进行抑郁程度的识别。

作为优选,步骤S2包括:

步骤2.1、采用分帧加窗处理对所述语音数据进行特征提取;

步骤2.2、根据决策树对提取的特征进行选择;

步骤2.3、对选择后的特征进行重新组合,生成长期特征。

作为优选,步骤2.1中提取特征为时域特征和频域特征,所述时域特征包含:短时能量、过零率以及能量熵,频域特征包含:谱熵、基频和质心。

作为优选,步骤2.3中,将短时特征进行离散化处理,根据每个特征值的上下三分之一位点设置阈值,将每一个特征分为低值、中值、高值三个离散特征,再对离散化后的特征以共同出现的方式进行特征组合;特征组合后采用统计一帧语音信号内特征出现的频数来生成长期特征。

作为优选,步骤S3中,长期特征中每一个特征值代表语音数据多个特征特定的离散值在一帧中共同出现的频数,当根据特征值进行分类的时候,则是根据一帧语音数据的离散特征共同出现的频数来进行分类。

本发明还提供一种基于语音识别与机器学习的抑郁症自动识别装置,包括:

获取模块,用于获取患者的语音数据;

组合模块,用于对所述语音数据进行特征选择,并对选择后的特征进行重新组合,生成长期特征;

识别模块,用于根据随机森林算法对所述长期特征进行抑郁程度的识别。

作为优选,组合模块包括:

提取单元,用于采用分帧加窗处理对所述语音数据进行特征提取;

选择单元,用于根据决策树对提取的特征进行选择;

组合单元,用于对选择后的特征进行重新组合,生成长期特征。

作为优选,提取特征为时域特征和频域特征,所述时域特征包含:短时能量、过零率以及能量熵,频域特征包含:谱熵、基频和质心。

作为优选,组合单元包括:

离散化组件,用于将短时特征进行离散化处理,根据每个特征值的上下三分之一位点设置阈值,将每一个特征分为低值、中值、高值三个离散特征;

组合组件,用于对离散化后的特征以共同出现的方式进行特征组合;

生成组件,用于对组合特征采用统计一帧语音信号内特征出现的频数来生成长期特征。

作为优选,识别模块中长期特征中每一个特征值代表语音数据多个特征特定的离散值在一帧中共同出现的频数,当根据特征值进行分类的时候,则是根据一帧内语音数据的离散特征共同出现的频数来进行分类。

本发明通过采集语音信号,对于语音信号的特征进行特征选择,再重新组合为新的长期特征,联合机器学习中的随机森林算法对语音片段进行抑郁程度的识别,能够帮助人们通过更加简单的方式对抑郁症进行早期的检测、诊断。

附图说明

图1本发明基于语音识别与机器学习技术的抑郁症自动识别方法流程图;

图2语音数据采集与记录示意图;

图3阈值点示意图;

图4组合长期特征机器学习分类示意图;

图5本发明基于语音识别与机器学习技术的抑郁症自动识别装置结构图示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

如图1所示,本发明提供一种基于语音识别与机器学习技术的抑郁症自动识别方法,包括以下步骤:

步骤S1、获取患者的语音数据;

步骤S2、对所述语音数据进行特征选择,并对选择后的特征进行重新组合,生成长期特征;

步骤S2、根据随机森林算法对所述长期特征进行抑郁程度的识别。

进一步,步骤S1中,通过智能设备如手机、手环来采集语音数据,如图2所示。语音数据集的采集中,可邀请多名被试进行访谈、记录,访谈通过设计固定的问题与受试者进行对话,访谈设置的问题涉及家庭、工作、心情、自我抑郁评价等多个方面。访谈对话通过市面上具有录音功能的智能手机进行录音,访谈环境保持安静,麦克风的采样频率44.1kHz,语音数据保存为wav格式,平均时长为20分钟,并且将访谈对话中每段文字的开始与截止时间以文字文档形式记录下来。所有受试者在访谈前将填写一份精神病学问卷(PHQ-8),分值0至30,将15分及以上认定为抑郁类,15分以下认定为非抑郁类。

进一步,步骤S2中语音数据的特征包括时域特征和频域特征,本发明提取的时域特征包括短时能量、过零率以及能量熵,频域特征包括谱熵、基频和质心。不同的特征代表了语音的不同物理意义:短时能量代表着说话声音的高低,在无声段短时能量会大幅度下降,数值接近于0;过零率为能量在零点的反转次数,通常用以区分噪声段和发声段;能量熵代表语音数据所含数据信息的丰富程度,不同语音片段所包含的内容不一致,能量熵能够对于信息丰富程度进行度量;谱熵代表着声音的清音和浊音发声,同时也代表说话者说话时的送气程度,是在频域上对于语音数据信息丰富程度的度量;基频为构成语音信号正弦波的最低频率,反映了语音的基本频率;质心代表着语音波形的分布中心。语音信号的特征可以对于抑郁程度进行分类诊断,

步骤S2包括以下步骤:

步骤2.1、对所述语音数据进行特征提取

首先根据记录文档中的对话开始与截至时间,将语音数据中访谈者的语音去除,将受试者的语音片段进行拼接。语音信号为非平稳信号,但是在10-50ms的时间内具有平稳特征,因此对于语音数据进行分帧加窗处理,先将语音信号分为语音片段,再通过加窗提取语音信号的特征,汉明窗的移动要小于每一帧语音的长度,防止汉明窗旁瓣的信息丢失,汉明窗计算如下所示:

短时能量:

短时能量为语音数据能量大小的平均值,设每个采样点的语音信号为A(n),短时能量E(energy)定义如下所示,k为窗口的采样次数。

过零率:

过零率是指语音信号的能量穿过零点的次数,过零率(zero crossr ate)简记为ZCR,则ZCR率计算如下式所示。

上式中的sgn函数为符号函数,如下所示。

能量熵:

能量熵代表语音数据在时域上能量的信息不确定性度量,能量熵(energyentropy)简记EE,能量熵计算如下式所示。

EE=-∑p

其中,p

基频:

语音信号可以认为是由不同频率的正弦波组成,频率最低的正弦波为基音,基频代表了基音的频率。

质心:

质心可以反映语音信号的不平稳性,设质心(spectral centroid,SC),计算如下式所示。

其中,f(n)为信号频率,E(n)为语音信号A(n)经过短时傅里叶变换后对应频率的谱能量

谱熵:

与能量熵不同,谱熵在频域中进行计算,语音信号通过短时傅里叶变换后计算,谱熵为(spectral entropy,SE),计算如下式所示。

SE=-∑p

其中,p

步骤2.2、对提取的特征进行选择

语音信号经过特征提取共得到时域和频域中6个特征,本发明将特征进行组合,为避免组合后特征数量过大,所以对提取的特征根据决策树进行选择,选择最重要的4个特征进行研究,不局限于4个特征。

步骤2.3、对选择后的特征进行重新组合

通过分帧加窗提取短时的特征,短时特征对应于10-50ms的语音片段特征,每一个窗口的短时特征代表的信息不够丰富,差异较大,每一帧的特征值由所有窗口的平均值生成,一帧的长度约为2-4s,但是长期特征也不能很好地反映短时特征的信息,使用短时特征和长期特征直接分类效果并不理想。因此本发明采用了特征组合的方法,首先将短时特征进行离散化处理,根据每个特征值的上下三分之一位点设置阈值,将每一个特征分为低值、中值、高值三个特征,再对这些离散化后的特征进行特征组合。首先将所选择的4个的特征,根据阈值离散化为低值、中值、高值三类,所使用的阈值为该特征值的上下三分之一位点,选择使用三分之一位点作为阈值能够在一定程度上减少异常值对数据的影响,各特征的阈值如表1所示,表1中阈值一列的两个值分别为下三分之一位点和上三分之一位点,特征值中的“[0],[1],[2]”与特征大小中的低、中、高对应。离散化示意图如图3所示。

表1

特征组合的方法将任意两个短期特征的某个特征值以共同出现的方式组合成新的短期特征,以能量熵和过零率为例,能量熵EE离散化后分为三个特征EE(0)、EE(1)、EE(2),分别代表着离散化后的低值、中值和高值,特征组合后,能量熵和过零率生成了一个9维的特征向量,如表2所示。特征组合的方式不局限于两两组合,也可以三种或者四种短期特征组合生成新的特征向量。

表2

特征组合后,生成的特征向量仍为短时特征,为了解决短时特征和长期特征中的不足,本发明采用统计一帧语音信号内特征出现的频数来生成信息更加丰富的长期特征,计算如下式所示。

其中,ZCR(s)和EE(s)表示t时刻过零率和能量熵的特征值,a

进一步,步骤S3中采用基于组合特征的机器学习分类算法,随机森林算法(RandomForests algorithm)是一种集成学习,由多个决策树组成,属于强分类器,根据多个决策树的预测结果,通过多数投票的方法输出预测结果。单个决策树属于弱分类器,意味着单个决策树的分类结果略强于随机分类,根据大数定律,由多棵决策树多数投票的结果明显优于单个决策树。在随机森林算法中,设总的样本数为N,特征数量为M,单个决策树的建立是选择n(n<N)个样本,并且选择m(m<M)个特征,在单个决策树中选择一个最优的特征来进行左右子树的划分,共进行T次抽样,生成T棵决策树来组成随机森林,最终由这T棵决策树的多数投票来生成随机森林的预测结果。在生成单个决策树的过程中,选择随机抽样的方法,是为了保证每一棵决策树的样本不同,这样每一棵决策树的预测结果才会不同,并且采用放回的抽样(bagging),是为了保证每棵决策树中的样本有交集,防止每棵树训练后差异过大,随机选取特征是为了避免过拟合问题。单个决策树的特征重要性是通过计算特征在树节点基尼系数(Gini index)减少程度来衡量的,基尼系数计算如下式所示。

其中,p(c|N)是属于c类的样本数在节点N中所占的比例,C为类的总数,若所有节点N都是同一类样本,则基尼系数值为0,若所有类别的样本在节点N中占有相同的比例,则基尼系数取最小值,基尼系数越小,说明类别的划分越清晰。多个随机森林通过计算所有树中该特征的基尼系数减少值的平均值来表示特征重要性。因此随机森林算法不仅能够处理复杂的分类任务,还能够对于特征重要性进行排序,而且随机森林算法可以很方便地并行训练,对于硬件要求不高,可以在CPU上实现,也适合于各种具有录音功能的智能设备,鉴于此,本发明采用随机森林算法。在本发明创建的组合长期特征中,每一个特征值不再单一的表示语音数据的某一个特征,而是代表了语音数据多个特征特定的离散值在一帧中共同出现的频数,当决策树根据特征值进行分类的时候,则是根据一帧内语音数据的组合长期特征的特征值进行分类,相较于长期特征或短时特征,组合后的长期特征有着更加丰富的信息,能够判断不同特征值大小对于分类器的贡献,特征值的大小也对应着一定的声学特性。本发明通过对于一帧的语音数据生成一个长期特征,能够对于短期的语音片段进行分类,从而使人们在日常生活中就可以通过简短的对话对抑郁进行识别,及早的发现抑郁症,从而降低抑郁患者的求助门槛。具体的组合特征随机森林分类框架如图4所示。

本发明将抑郁类别标记为1,即正类,非抑郁类别标记为0,即负类。系统分类性能评估,包含有精确度、敏感性、特异性与F1分数,其评价计算基于以下公式:

其中,TP表示被模型预测为正的正样本,TN表示被模型预测为负的负样本,FP表示被模型预测为正的负样本,FN表示被模型预测为负的正样本,R为召回率,其等同于敏感性,P为精确率。

如图5所示,本发明还提供一种基于语音识别与机器学习的抑郁症自动识别装置,包括:

获取模块,用于获取患者的语音数据;

组合模块,用于对所述语音数据进行特征选择,并对选择后的特征进行重新组合,生成长期特征;

识别模块,用于根据随机森林算法对所述长期特征进行抑郁程度的识别。

进一步,组合模块包括:

提取单元,用于采用分帧加窗处理对所述语音数据进行特征提取;

选择单元,用于根据决策树对提取的特征进行选择;

组合单元,用于对选择后的特征进行重新组合,生成长期特征。

进一步,提取特征为时域特征和频域特征,所述时域特征包含:短时能量、过零率以及能量熵,频域特征包含:谱熵、基频和质心。

进一步,组合单元包括:

离散化组件,用于将短时特征进行离散化处理,根据每个特征值的上下三分之一位点设置阈值,将每一个特征分为低值、中值、高值三个特征;

组合组件,用于对离散化后的特征进行特征组合;

生成组件,用于对组合特征采用统计一帧语音信号内特征出现的频数来生成长期特征。

进一步,识别模块中长期特征中每一个特征值代表语音数据多个特征特定的离散值在一帧中共同出现的频数,当根据特征值进行分类的时候,则是根据一帧内语音数据的离散特征共同出现的频数来进行分类。

抑郁症患者的语音数据较为容易获取,可以通过手环、手机等设备获取语音数据,且语音数据包含丰富的情感信息,抑郁症患者相较于正常人群的语音有着较大的差异,例如抑郁症患者语速偏慢、语调单一、嘶哑程度增加且有着更多的气声发声,因此可以通过分析语音数据的信息特征来实现抑郁症的早期诊断。为此,此发明对语音信号进行处理,提取语音信号的多个特征,结合机器学习算法,提出了一个可用于识别抑郁症的新方法。此方法可根据人们较为简短的对话识别抑郁,识别过程中需要对提取的短期语音信号特征进行特征组合,再进行有效地分类判决。该发明采用结合机器学习理论与特征组合技术,对人群日常的抑郁程度进行有效的精确的判读。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号