首页> 中国专利> 一种语音反讽检测方法、系统、终端设备和存储介质

一种语音反讽检测方法、系统、终端设备和存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及语音识别检测技术领域，公开了一种语音反讽检测方法、系统、终端设备和存储介质，包括：对输入的语音特征向量进行文本表征提取，获取输入的语音特征向量的语义信息；对输入的语音特征向量进行非文本表征提取，获取输入的语音特征向量的生理信息；将提取的语义信息和生理信息进行向量拼接，作为k层全连接网络的输入向量，经训练得到输入的语音特征向量的反讽识别结果。本发明在使用一般书面文本作为反讽检测任务输入的同时，对原始音频中隐含的情绪、语气和停顿等非文本特征加以利用，并将两类特征转化为高层次表征，将结果合并起来进行决策，以达到更好的反讽识别准确率。

著录项

公开/公告号CN112735404A

专利类型发明专利
公开/公告日2021-04-30

原文格式PDF
申请/专利权人平安科技(深圳)有限公司;
展开▼

申请/专利号CN202011507130.6
发明设计人罗剑;王健宗;程宁;
展开▼

申请日2020-12-18
分类号G10L15/22(20060101);G10L15/16(20060101);G10L15/26(20060101);G10L25/24(20130101);G10L25/30(20130101);G10L25/51(20130101);G10L25/63(20130101);G10L25/90(20130101);
代理机构11703 北京中巡通大知识产权代理有限公司;
代理人张弘
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 10:48:02

法律信息

法律状态公告日

法律状态信息

法律状态
2022-02-01

实质审查的生效 IPC(主分类):G10L15/22 专利申请号:2020115071306 申请日:20201218

实质审查的生效

说明书

技术领域

本发明属于语音识别检测技术领域，涉及一种语音反讽检测方法、系统、终端设备和存储介质。

背景技术

反讽检测(sarcasm detection)往往被视作一项单独的NLP任务，一般使用书面文本作为输入，通过上下文关联来分析其中某些词或者某句话使用反语的可能性。由于反语的表达十分隐晦，仅仅关注文本语句很难做出正确的判断，因此这项任务的难度很高，目前大多数方案的实际效果都不是太理想。

按照一般的做法，如果要检测人们口语中的反语，需要先进行一项语音识别任务，将音频转化为文本，再进行后续的反讽检测。在实际生活中，当人们使用反语时，情绪、语气、和停顿等等都会与普通的表达方式有所差异，而这些信息在文本中并不会体现出来。常规的方案在真正进行反讽识别时，只利用到了转译后的书面文本，将其转化为词级或者句级的文本表征，并没有充分利用原始音频中的其它非文本信息。目前，一些研究者使用BERT模型预训练获得的表征，或者使用GloVe之类的表征来进行反讽检测模型的训练，往往也只能达到不到0.7的F1值。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种语音反讽检测方法、系统、终端设备和存储介质，本发明在使用一般书面文本作为反讽检测任务输入的同时，对原始音频中隐含的情绪、语气和停顿等非文本特征加以利用，并将两类特征转化为高层次表征，将结果合并起来进行决策，以达到更好的反讽识别准确率。

为达到上述目的，本发明采用以下技术方案予以实现：

一种语音反讽检测方法，包括以下步骤：

对输入的语音特征向量进行文本表征提取，获取输入的语音特征向量的语义信息；

对输入的语音特征向量进行非文本表征提取，获取输入的语音特征向量的生理信息；

将提取的语义信息和生理信息进行向量拼接，作为k层全连接网络的输入向量，经训练得到输入的语音特征向量的反讽识别结果。

一种语音反讽检测系统，包括：

文本表征提取模块，所述文本表征提取模块用于对输入的语音特征向量进行语音识别和反讽检测，输出语句所对应的文本表征；选取设定时间段的上下文进行建模，捕捉语句所在字段的中心思想；

非文本表征提取模块，所述非文本表征提取用于对输入的语音特征向量进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在语气、腔调的改变；

合并决策模块，所述合并决策模块用于按照时间标记，将当前句所在的时间段的文本表征和非文本表征对应拼接在一起作为输入，经过全连接网络得到最终的分类结果。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明在使用一般书面文本作为反讽检测任务输入的同时，对原始音频中隐含的情绪、语气和停顿等非文本特征加以利用，并将两类特征转化为高层次表征，将结果合并起来进行决策，以达到更好的反讽识别准确率。本发明主要由两条并行的路径构成，一条路径使用语音识别模型生成文本并经过一般常见的反讽检测模块获得一个句子级别的语义表征；另一条路径使用一个LSTM结构，从原始音频特征中提取出一句话中关于情绪、语气、腔调和停顿之类的非语言表征。最终，将两类高层次表征拼接在一起，再通过若干层全连接网络获得最终的反讽识别结果。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明语音反讽检测方法的流程图；

图2为本发明语音反讽检测系统的结构图；

图3为本发明一实施例的系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例提供一种语音反讽检测方法，包括以下步骤：

S10，对输入的语音特征向量进行文本表征提取，获取输入的语音特征向量的语义信息；

S20，对输入的语音特征向量进行非文本表征提取，获取输入的语音特征向量的生理信息；

S30，将提取的语义信息和生理信息进行向量拼接，作为k层全连接网络的输入向量，经训练得到输入的语音特征向量的反讽识别结果。

人的发音器官大致可分为3个部分：喉下、喉部、喉上部分。喉下有用来呼吸，并且也包括发音能源的各器官，包括气管、肺、胸廓、横膈膜和腹肌。喉部是声源器官，包括喉头、声带。喉上是用共鸣作用或阻碍作用来调节声音的各器官，包括口腔中各部及鼻腔。

人类声音的发出，是多个发音器官共同作用的结果，所以在语音中就包含了这些发音器官的生理信息，例如，当一个人感冒时，其发声就有明显的改变和特征。在一个人的声音信息中还明确包涵了语言中的情绪信息。

本实施例提供一种语音反讽检测方法，包括以下步骤：

步骤1，文本表征提取

对输入的语音特征向量进行识别，输出语句所对应的文本表征。选取一定时间段的上下文进行建模，捕捉语句所在字段的中心思想。

文本表征的提取大致与一般常见的方案一致，即一个语音识别模型加一个反讽检测模型。语音识别模块可以选择Chain模型，用t来表示某句话所在的时间段，对于输入的语音特征向量x

chain model实际上是借鉴了CTC的思想，引入了blank用来吸收不确定的边界。但CTC只有一个blank，而chain model中每一个建模单元都有自己的blank。chain model实际上也是一种序列鉴别性训练的方法，所以它也要构造分母fst和分子fst。

分母fst的构建，chain model的分母fst类似于解码时建立的HCLG图。但是chainmodel的语言模型是phone级别，所以构图时我们不需要发音词典了，其实构造的是HCP(P表示phone LM，HCP就是fst结构，所以叫分母fst)。为了限制HCP图的大小，使用4元phone LM。值得注意的是：不同的句子是共用同一个HCP图，这一点与传统的序列鉴别性训练不同，传统的序列鉴别性每个句子都有自己的分母lattice。

分子fst的构建，将phone-level的lattice转换成fst，同时将transiton-id转换成pdf-idlattice与fst的不同是，根据fst中编码了time-alignment信息，可以方便我们根据时间点切分整段音频。为什么要将transiton-id转换成pdf-id？因为声学模型是对pdf-id建模。

chain model具有以下优点，1、解码速度更快。因为chain model采用拼帧降采样(每三帧取一帧)的方式，也就是说帧移变成了30ms，而不是10ms，所以帧率是传统神经网络声学模型的三分之一；2、训练速度更快。不需要预先训练DNN模型，同时省去了分母lattice的生成。

在反讽检测阶段，可以使用BERT预训练后得到的表征H

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。

步骤2，非文本表征提取

对输入的语音特征向量进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在明显的语气、腔调的改变。

提取非文本表征时可以使用和语音识别模型一致的输入特征，即梅尔频率倒谱系数(MFCC)或Filter-Bank特征等等，也可以进行单独设计。例如：使用傅里叶变换和SincNet卷积滤波器等单独定义的函数来计算所需的特征向量，或者增加语音帧的采样长度等等。在模型方面，可以使用LSTM结构来输出句子级别的非文本表征H

式中使用了最大池化，以捕捉整个时间序列中的特殊值，由此判断整句话是否存在明显的语气、腔调的改变。

梅尔频率倒谱系数MFCCs(Mel Frequency Cepstral Coefficents)是一种在自动语音和说话人识别中广泛使用的特征。MFCC考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。具体过程如下：

1)先对语音进行预加重、分帧和加窗；

2)对每一个短时分析窗，通过FFT得到对应的频谱；

3)将上面的频谱通过Mel滤波器组得到Mel频谱；

4)在Mel频谱上面进行倒谱分析(取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数)，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

这时候，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。进而可以通过这些倒谱向量对语音分类器进行训练和识别。

SincNet模型的特性

(1)收敛快。SincNet利用了滤波器的形状知识，使得网络更加关注于滤波器参数对性能的影响。这些先验知识使得学习滤波器特性变得更加容易，收敛更快。

(2)网络参数更少。SincNet极大地减少了第一层卷积层的参数量。例如，对于F个长度为L的滤波器，标准CNN的参数量为F*L，而SincNet的参数量只有2F(可学习的参数只有低截止频率和高截止频率)。假设滤波器的长度变为2L，则标准CNN的参数会增加一倍，而SincNet不变。

(3)计算高效。因为g函数是对称的，所以在计算的时候只需要考虑滤波器的一边，可以减少50％的计算开销。

(4)可解释。在SincNet对于语音处理的解释上，对于音高和共振的峰的理解上，SincNet能够学习到音高(第一个峰值)，第一共振峰(第二个峰值)和第二共振峰(第三个峰值)，而标准CNN更倾向于聚焦在低频的部分，共振峰也没有清楚的出现。实际上，SincNet更容易捕捉到一些窄带信息。

步骤3，合并决策

按照时间标记，将文本表征(当前句所在的时间段)和非文本表征对应通过向量拼接在一起作为输入，经过全连接网络得到最终的分类结果；所述拼接为向量拼接(concatenate)，具体来说，文本向量为[T,D1]，非文本向量为[T,D2]，拼接之后的向量为[T,D1+D2]。

按照时间标记，将文本表征(当前句所在的时间段)和非文本表征对应拼接在一起作为输入H，经过K层全连接网络，每一层全连接网络i由一个权重矩阵W

采用分类交叉熵作为目标函数，使用反向传播算法进行优化。

H＝concat(H

Z＝softmax(W

其中H表示将当前句所在的时间段的文本表征和非文本表征对应拼接在一起的输入；Z表示经过softmax函数之后，每一个反讽标签预测的概率；W

softmax函数，又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。当使用Softmax函数作为输出节点的激活函数的时候，一般使用交叉熵作为损失函数。由于Softmax函数的数值计算过程中，很容易因为输出节点的输出值比较大而发生数值溢出的现象，在计算交叉熵的时候也可能会出现数值溢出的问题。为了数值计算的稳定性，TensorFlow提供了一个统一的接口，将Softmax与交叉熵损失函数同时实现，同时也处理了数值不稳定的异常，使用TensorFlow深度学习框架的时候，一般推荐使用这个统一的接口，避免分开使用Softmax函数与交叉熵损失函数。

如图2所示，本发明还公开了一种语音反讽检测系统，包括：

文本表征提取模块，用于对输入的语音特征向量进行识别，输出语句所对应的文本表征。选取一定时间段的上下文进行建模，捕捉语句所在字段的中心思想。

非文本表征提取模块，用于对输入的语音特征相连进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在明显的语气、腔调的改变。

合并决策模块，用于按照时间标记，将文本表征(当前句所在的时间段)和非文本表征对应拼接在一起作为输入，经过全连接网络得到最终的分类结果。

本发明额外考虑了语音流中的非文本信息，如演讲者的情绪、语气、停顿和腔调等等，输入端的信息量更多，表达潜力也更强。同时，该模型框架除了用来检测反语之外，在一定程度上也能判断说话者所表达出来的话语是否与他的想法真正一致，从而帮助人们更加准确地理解他的意图。

如图3所示，图3为本发明语音反讽检测系统的一个实施例，包括情绪语气检测模块、ASR模块以及NLP模块。

将语音特征分别输入至情绪语气检测模块和ASR模块(自动语音识别模块)；

所述情绪语气检测模块用于识别输入的语音特征的情绪信息，得到非文本表征，实现非文本表征提取；

所述ASR模块用于识别输入的语音特征中的t-1时刻至t+1时刻的文本，得到文本t-1、文本t以及文本t+1，将文本t-1、文本t以及文本t+1分别输入到NLP模块(中文自然语言处理模块)中进行识别，得到文本表征，实现文本表征提取；

将非文本表征提取得到的非文本表征和文本表征提取得到的文本表征进行向量拼接，实现合并决策，经过全连接网络得到最终的分类结果。

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如语音识别程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤，例如图1所示。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如非文本表征提取模块，用于对输入的语音特征相连进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在明显的语气、腔调的改变。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种语音反讽检测方法、系统、终端设备和存储介质 [P] . 中国专利： CN112735404A . 2021-04-30
2. 一种linux系统中反弹shell检测方法、终端设备及存储介质 [P] . 中国专利： CN114039787A . 2022-02-11
3. VOICE TRANSMISSION SYSTEM, VOICE TRANSMISSION TERMINAL EQUIPMENT, VOICE RECEPTION TERMINAL EQUIPMENT, VOICE TERMINAL EQUIPMENT AND VOICE REPRODUCTION TERMINAL EQUIPMENT [P] . 日本专利： JPH0927827A . 1997-01-28

机译：语音传输系统，语音传输终端设备，语音接收终端设备，语音终端设备和语音复制终端设备
4. Speech section detection system, speech start end detection apparatus, speech end detection apparatus, speech section detection method, speech start end detection method, speech end detection method, and program [P] . 日本专利： JP6275606B2 . 2018-02-07

机译：语音区间检测系统，语音起点检测装置，语音端点检测装置，语音区间检测方法，语音起点检测方法，语音端点检测方法以及程序
5. VOICE SEGMENT DETECTION SYSTEM, VOICE STARTING END DETECTION DEVICE, VOICE TERMINATION END DETECTION DEVICE, VOICE SEGMENT DETECTION METHOD, VOICE STARTING END DETECTION METHOD, VOICE TERMINATION END DETECTION METHOD, AND PROGRAM [P] . 世界知识产权组织专利： WO2016043182A1 . 2016-03-24

机译：语音段检测系统，语音起始端检测设备，语音终止端检测设备，语音段检测方法，语音起始端检测方法，语音终止端检测方法和程序