首页> 中国专利> 一种基于元音基频信息的汉语声调识别方法

一种基于元音基频信息的汉语声调识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于元音基频信息的汉语声调识别方法。该方法包括如下步骤：接收音节对应的语音信号，进行预加重，分帧加窗，并对加窗后的语音信号进行快速傅立叶变换，得到时频域上的能量分布；计算语音信号的低频带能量曲线和中频带能量曲线；计算语音信号的低频带能量随时间的变化率曲线；确定低频能量发生跳变的跳变点，获取语音信号中的浊音段；从浊音段中获取候选元音帧；计算候选元音帧的短时过零率，根据短时过零率确定元音段；计算元音段的基频，并获取声调特征；将声调特征输入到预先训练好的声调模型，得到声调类型。

著录项

公开/公告号CN107507610A

专利类型发明专利
公开/公告日2017-12-22

原文格式PDF
申请/专利权人河南理工大学;
展开▼

申请/专利号CN201710900785.1
发明设计人晁浩;刘永利;鲁保云;智慧来;宋成;余琼霞;
展开▼

申请日2017-09-28
分类号
代理机构
代理人
地址 454000 河南省焦作市高新区世纪大道2001号
入库时间 2023-06-19 04:06:43

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-20

未缴年费专利权终止 IPC(主分类):G10L15/02 专利号:ZL2017109007851 申请日:20170928 授权公告日:20200807

专利权的终止
2020-08-07

授权

授权
2018-01-19

实质审查的生效 IPC(主分类):G10L15/02 申请日:20170928

实质审查的生效
2017-12-22

公开

公开

说明书

技术领域

本发明涉及语音识别领域，特别涉及一种基于元音基频信息的汉语声调识别方法。

背景技术

声调是汉语音节的三要素之一，人们不仅要凭借不同的声母、韵母来辨别字和词的意义，还需要以不同的声调来区分他们。在汉语连续语音识别系统中，如果能获得准确的声调信息将会有效地提高识别系统的性能。

将声调信息应用到连续语音识别系统中时，一种常见的方式是显式的声调建模。显式的声调建模强调根据声调特征，训练独立于声学模型的声调模型。在语音识别过程中，声调模型的概率得分可以在一遍搜索时加入路径的总得分中，也可以对最优的N条路径(N-best)进行重新打分时加入。

声调建模时最常用的特征为音节的基频轮廓信息。由于音节之间存在协同发音现象，同一种声调的基频轮廓也会随着相邻音节的不同发生变化，进而影响声调识别精度。为了消除协同发音的影响，通常将相邻音节的基频信息同当前音节的基频信息一起用于声调识别。但是这种声调建模方法不仅要提取当前音节的基频，还要提取前后相邻音节的基频，计算复杂度较高，用于一遍搜索时会明显降低语音识别的解码速度。

发明内容

本发明的目的在于针对现有技术中的汉语声调方法计算复杂度较高的缺陷，提出一种利用元音基频信息来识别汉语声调的方法，不仅能够消除协同发音现象的影响，还有效地降低了计算复杂度。

本发明公开了一种基于元音基频信息的汉语声调识别方法，其具体包括以下步骤：

步骤1、接收音节对应的语音信号，对所述语音信号进行预加重，然后分帧加窗，并对加窗后的语音信号进行快速傅立叶变换，得到所述语音信号在时频域上的能量分布；

步骤2、根据所述语音信号在时频域上的能量分布计算所述语音信号的低频带能量曲线和中频带能量曲线；

步骤3、根据所述语音信号的低频带能量曲线计算所述语音信号的低频带能量随时间的变化率曲线；

步骤4、根据所述语音信号的低频带能量随时间的变化率曲线，确定低频能量发生跳变的跳变点，获取所述语音信号中的浊音段；

步骤5、根据所述语音信号的低频带能量曲线和中频带能量曲线从所述浊音段中获取候选元音帧；

步骤6、计算所述候选元音帧的短时过零率，根据短时过零率确定所述语音信号的元音段；

步骤7、计算所述元音段的基频，并根据所述元音段的基频获取声调特征；

步骤8、将所述声调特征输入到预先训练好的声调模型，得到声调类型。

上述技术方案中，步骤1-6检测出当前音节的元音段，步骤7中只提取当前音节中元音段的基频信息，然后利用元音段的基频信息识别声调类型。由于音节中的元音一般位于音节的中央位置，其基频轮廓受前后音节声调类型的影响较小，所以上述技术方案能够有效地消除声调识别时协同发音现象带来的不利影响。此外，由于只计算当前音节中元音的基频，所以还能有效地降低了计算复杂度。

附图说明

图1是根据本发明的一种基于元音基频信息的汉语声调识别方法的流程图；

图2是根据本发明的一个计算语音信号的低频带能量曲线和中频带能量曲线的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为根据本发明的一种基于元音基频信息的汉语声调识别方法的流程图。其中，步骤1中接收的是音节对应的语音信号，音节的边界信息可以通过语音识别系统的强制对齐得到。

步骤101、接收音节对应的语音信号，对语音信号进行预加重，然后分帧加窗，并对加窗后的语音信号进行快速傅立叶变换，得到语音信号在时频域上的能量分布；

步骤102、根据语音信号在时频域上的能量分布计算语音信号的低频带能量曲线和中频带能量曲线；

步骤103、根据语音信号的低频带能量曲线计算语音信号的低频带能量随时间的变化率曲线；

步骤104、根据语音信号的低频带能量随时间的变化率曲线，确定低频能量发生跳变的跳变点，获取语音信号中的浊音段；

步骤105、根据语音信号的低频带能量曲线和中频带能量曲线从浊音段中获取候选元音帧；

步骤106、计算候选元音帧的短时过零率，根据短时过零率确定语音信号的元音段；

步骤107、计算元音段的基频，并根据元音段的基频获取声调特征；

步骤108、将声调特征输入到预先训练好的声调模型，得到声调类型。

其中，步骤101中语音信号的采样频率为16000赫兹，对语音信号加汉宁窗，窗长6ms，帧移1ms，再经过快速傅立叶变换(FFT)，得到语音信号在时频域上的能量分布。另外，对语音信号预加重时，预加重系数为0.97。

步骤102中，根据语音信号在时频域上的能量分布计算语音信号的低频带能量曲线和中频带能量曲线，具体可以分为以下几个步骤，如图2所示：

步骤1021、计算每一帧第i个频率点上能量的贡献度k_i，具体通过如下公式获取:

其中，F表示采样频率，N表示帧长。

步骤1022、计算每一帧的初始低频带能量和初始中频带能量，其中，低频带是0～0.8kHz，所述中频带是0.8～4kHz。所述初始低频带能量通过如下公式获取:

所述初始中频带能量通过如下公式获取:

其中，e_low(t)表示第t帧的初始低频带能量，e_mid(t)表示第t帧的初始中频带能量，p_i(t)表示第t帧中第i个频率点上的能量，B₁表示低频带和中频带的分界点，B₂表示中频带和高频带的分界点；

步骤1023、采用当前帧前后特定时间范围内的信号对当前帧能量进行平滑，得到平滑后的低频带能量曲线E_low(t)和中频带能量曲线E_mid(t)，具体通过如下公式获取：

其中，e_low(t+t₀)表示第t+t₀帧的初始低频带能量，e_mid(t+t₀)表示第t+t₀帧的初始中频带能量，M表示平滑时采用的当前帧前后的语音帧数量。人耳感知语音信号时，不同频率点上的能量所作的贡献是不同的，因此步骤1022中计算初始低频带能量和初始中频带能量的方法更切合实际，效果更好。

步骤104中，确定低频能量发生跳变的跳变点，获取语音信号中的浊音段，具体可以分为以下几个步骤：

根据语音信号的低频带能量随时间的变化率曲线，在语音信号的前半部分选择低频带能量变化率最高的语音帧作为正向跳变点；

根据语音信号的低频带能量随时间的变化率曲线，在语音信号的后半部分选择低频带能量变化率最高的语音帧作为负向跳变点；

选择正向跳变点与负向跳变点之间的语音段作为语音信号中的浊音段。

例如：对于一个音节‘fan’，先通过步骤101-步骤103计算该音节对应的语音信号的低频带能量曲线和中频带能量曲线，并计算低频带能量随时间的变化率曲线。

该音节中的清辅音‘f’由于发音时声带不振动，其低频带能量较低，而元音‘a’的低频带能量较高。所以语音信号中声母‘f’和元音‘a’之间的边界区域存在正向跳变点，该正向跳变点表示低频带能量由低到高变化最剧烈的语音帧。此外，浊辅音‘n’发音时声带振动，其低频带能量较高，因此‘n’与该音节后面的静音段之间的边界区域存在负向跳变点，该负向跳变点表示低频带能量由高到低变化最剧烈的语音帧。而正向跳变点与负向跳变点之间的语音段也就是‘an’对应的语音段，该语音段发音时声带振动，也就是浊音段。

在获取浊音段后，对于浊音段内的每一帧，计算中频带能量与低频带能量的比值，如果比值大于1.3，则判定该语音帧为候选元音帧，而中频带能量与低频带能量的比值通过如下公式获取：

其中，R(t)表示第t帧的分频带能量比，即中频带能量与低频带能量的比值，E_low(t)表示第t帧的低频带能量和E_mid(t)表示第t帧的中频带能量。浊辅音‘n’对应的语音段，其低频带能量较高，而中频带能量较低，而元音‘a’的低频带能量和中频带能量都较高，因此通过分频带能量比去除浊辅音对应的语音帧，保留下来的为候选元音帧。对于每一个候选元音帧，计算其短时过零率，如果短时过零率大于特定阈值，则保留。最终保留下来的候选元音帧形成音节‘fan’中的元音段。然后，采用自相关函数法来提取元音段的基频，并以此提取声调特征，并输入到预先训练好的支持向量机模型中，得到该音节的声调类型。

上述技术方案中，步骤101-106检测出当前音节的元音段，步骤107中只提取当前音节中元音段的基频信息，然后利用元音段的基频信息识别声调类型。由于音节中的元音一般位于音节的中央位置，其基频轮廓受前后音节声调类型的影响较小，所以上述技术方案能够有效地消除声调识别时协同发音现象带来的不利影响。此外，由于只计算当前音节中元音的基频，所以还能有效地降低了计算复杂度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于元音基频信息的汉语声调识别方法 [P] . 中国专利： CN107507610B . 2020.08.07
2. 一种基于元音基频信息的汉语声调识别方法 [P] . 中国专利： CN107507610A . 2017-12-22
3. Vowel recognition method using thickness information of stroke [P] . 韩国专利： KR19990060132A . 1999-07-26

机译：利用笔触厚度信息的元音识别方法
4. A METHOD FOR RECOGNIZING POINTERS AND A METHOD FOR RECOGNIZING CONTROL COMMANDS, BASED ON FINGER MOTIONS ON THE BACK OF THE PORTABLE INFORMATION TERMINAL [P] . 韩国专利： KR20120005674A . 2012-01-17

机译：基于便携式信息终端背面的手指运动的指针识别方法和控制命令识别方法
5. A METHOD FOR RECOGNIZING POINTERS AND A METHOD FOR RECOGNIZING CONTROL COMMANDS, BASED ON FINGER MOTIONS ON THE BACK OF THE PORTABLE INFORMATION TERMINAL [P] . 韩国专利： KR101167784B1 . 2012-07-25

机译：基于便携式信息终端背面的手指运动的指针识别方法和控制命令识别方法