首页> 中国专利> 基于共振峰频率的汉语普通话单韵母语音可视化方法

基于共振峰频率的汉语普通话单韵母语音可视化方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明为一种基于共振峰频率的汉语普通话单韵母语音可视化方法，包括对原始语音信号分帧、加窗，提取每帧信号的短时能量、共振峰频率、基音频率，采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误；利用共振峰频率将不同发音映射为不同色彩方面并修正：在图像上反应发音时间、能量、音调基音频率的变化趋势，利用色彩来区分不同汉语普通话单韵母发音。本发明只提取语音信号的短时能量、共振峰频率、基音频率几个简单的语音声学参数，易于实现；引入软判决，对于每个发音不做硬性判决，而是采用不同色彩表示，不同发音人同一个音的可视化效果求大同而存小异，这使得对于发音的判决更符合人的主观感知。

著录项

公开/公告号CN102176313A

专利类型发明专利
公开/公告日2011-09-07

原文格式PDF
申请/专利权人北京理工大学;
展开▼

申请/专利号CN200910235647.1
发明设计人赵胜辉;董欣玮;王晶;匡镜明;
展开▼

申请日2009-10-10
分类号G10L21/06;
代理机构北京理工大学专利中心;
代理人张利萍
地址 100081 北京市海淀区中关村南大街5号
入库时间 2023-12-18 03:08:57

法律信息

法律状态公告日

法律状态信息

法律状态
2015-11-25

未缴年费专利权终止 IPC(主分类):G10L21/06 授权公告日:20120725 终止日期:20141010 申请日:20091010

专利权的终止
2012-07-25

授权

授权
2011-11-16

实质审查的生效 IPC(主分类):G10L21/06 申请日:20091010

实质审查的生效
2011-09-07

公开

公开

说明书

技术领域

本发明涉及一种汉语普通话单韵母语音可视化方法，特别是一种基于共振峰频率的汉语普通话单韵母语音可视化方法，属于语音可视化领域。

背景技术

语音是人说话时发出的声音，在人们的日常生活中是不可或缺的。但对于听力障碍者而言，无法通过听觉感知语音，造成正常人难以体会的痛苦。研究表明，在人们对外界的感知过程中，获取信息最多的是视觉，其次才是听觉，而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外，经验告诉我们，图表是人们表达思想、理解事物最方便、最直观的方法，所以人们也试图从视觉上来感知语音，或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法，即利用视觉元素来表现语音，达到“通过视觉感知语音”的目的，为听力障碍者理解语音、练习正确发音提供实际帮助。

本发明之前，发明语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小，舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量，如虚拟人脸合成、机器自动唇读等等。MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。

基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化，有效剖析了人体的发音过程，有助于听力受损人群练习发音。然而，就其语音可懂度而言，还难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外，视觉效果比较单一，表现力不强。

发明内容

本发明的目的在于提供一种基于共振峰频率的汉语普通话单韵母语音可视化方法，能够将不同语音特征整合为单一图像，使图像具有可读性，直观地读出连续讲话的语音序列。

本发明的技术方案是：一种基于共振峰频率的汉语普通话单韵母语音可视化方法，包括以下步骤：

第一步：对原始语音信号分帧、加窗，提取每帧信号的短时能量、共振峰频率、基音频率；

第二步：采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误；

第三步：利用共振峰频率将不同发音映射为不同色彩方面，采用以下公式：

$R = 0.9 * (0.0006 * 3^{10 * \frac{F 1}{F 2}} + 0.002 * 5^{\frac{F 3}{F 2}})$

$G = 0.02 * 3^{\frac{F 3}{F 2}} + 0.0003 * 80^{\frac{F 3 - F 1}{2000}} - - - (6)$

$B = 0.0012 * 50^{\frac{F 3 - F 1}{2000}}$

其中，F1、F2、F3分别为每帧语音信号的前三个共振峰频率；

第四步：对第三步所求出的RGB进行如下修正：

$r = (\begin{matrix} R, & R \leq 1 \\ 1, & R > 1 \end{matrix})$

$g = (\begin{matrix} G, & G \leq 1 \\ 1, & G > 1 \end{matrix}) - - - (7)$

$b = (\begin{matrix} B, & B \leq 1 \\ 1, & B > 1 \end{matrix})$

第五步：在图像上反应发音时间、能量、音调基音频率的变化趋势，利用色彩来区分不同汉语普通话单韵母发音。

上述第二步中的的采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误包括以下步骤：

第一步：根据窗起点和窗长得到语音信号的短时能量

$E_{m} = Σ_{n = m}^{m + N - 1} {s_{w}}^{2} (n) - - - (1)$

其中，m是窗的起点，N是窗长(点数)；

第二步：求解共振峰频率，得到语音系统的传输函数H(z)，一个数字滤波器的传输函数H(z)的多项式的根对应着系统频率传输特性曲线的极点和零点即： $H (z) = \frac{1}{A (z)} = \frac{1}{1 - Σ_{k = 1}^{M} a_{k} z^{- k}} - - - (2)$

其中M为线性预测阶数；

令A(z)＝0，求出此多项式的M/2对共轭复根(z_i，z_i^*)

$z_{i} = r_{i} e^{j θ_{i}}$ (3)

$z_{i}^{*} = r_{i} e^{- j θ_{i}}$

式中，r_i是复根的模，θ_i是幅角，与共振峰频率F_i有如下关系：

F_i＝θ_i/2πT_i (4)

式中T_i是采样周期；

第三步：利用自相关法求解基音频率：

一段语流中的各小段之间相关性的大小由相关系数来度量，相关系数随变量的变化关系用相关函数来表征，自相关函数定义如下：

$R (m) = \frac{\frac{1}{N} Σ_{n = 0}^{N - 1 - m} x (n) \cdot x (n + m)}{R (0)} - - - (5)$

$R (0) = \frac{1}{N} Σ_{n = 0}^{N - 1} x^{2} (n)$

其中x(m)为数字信号系列，m＝0，1，2，…，N-1；R(0)是序列的平均能量，为自相关序列中的最大值；

第四步：判断计算出来的相关函数是否归一化，即|R(m)|≤1。

上述第五步反应发音时间、能量、音调基音频率的变化趋势的方法为：

横轴为时间轴，以帧为单位，左纵轴为能量，绘制矩形直方图，在每个直方图中填充该帧对应的RGB色彩，右纵轴以Hz为单位，叠加上反映基音频率的曲线。

本发明的有益效果：

1.只提取语音信号的短时能量、共振峰频率、基音频率几个简单的语音声学参数，易于实现；

2.色彩生成模块以语音信号前3个共振峰频率为输入，RGB为输出，实现听觉到视觉的映射。映射公式的设计使得6个汉语普通话单韵母之间的色彩差异明显，易于辨识；

3.引入软判决，对于每个发音不做硬性判决，而是采用不同色彩表示，不同发音人同一个音的可视化效果求大同而存小异，这使得对于发音的判决更符合人的主观感知。

附图说明

图1为汉语普通话单韵母语音可视化系统框图。

图2为共振峰频率求解流程图。

图3为基音频率求解流程图。

具体实施方式：

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

如图1所示，是汉语普通话单韵母语音可视化系统框图，主要分为三大块：特征提取模块，色彩生成模块和可视化效果图形生成模块。

一、特征提取模块：

首先，将语音信号进行分帧、加窗的预处理。然后直接提取每帧语音信号的短时能量、前3个共振峰频率、基音频率，之后进行相应的平滑处理。

1).语音信号的短时能量：

$E_{m} = Σ_{n = m}^{m + N - 1} {s_{w}}^{2} (n)$

(1)

其中，m是窗的起点，N是窗长(点数)。

(2).利用LPC技术求解共振峰频率：

如图2所示，首先，利用LPC技术得到语音系统的传输函数H(z)。一个数字滤波器的传输函数H(z)的多项式的根对应着系统频率传输特性曲线的极点和零点。根据这一理论，这里的语音的传输函数H(z)是全极型的，只有分母多项式，即：

$H (z) = \frac{1}{A (z)} = \frac{1}{1 - Σ_{k = 1}^{M} a_{k} z^{- k}} - - - (2)$

其中M为线性预测阶数。

令A(z)＝0，可求出此多项式的M/2对共轭复根(z_i，z_i^*)

$z_{i} = r_{i} e^{j θ_{i}}$ (3)

$z_{i}^{*} = r_{i} e^{- j θ_{i}}$

式中，r_i是复根的模，θ_i是幅角，。理论推导表明，它们与共振峰频率F_i有如下关系：

F_i＝θ_i/2πT_i (4)

式中T_i是采样周期。对一般语音分析来说，M取值为10-16。

(3).利用自相关法求解基音频率：

浊音信号是一种准周期信号，其周期成为基音周期，基音周期的倒数为基音频率。基音频率的变化决定着发音的声调。汉语普通话是一种有声调语音，不同的声调具有区分语义的作用。因此，想要区分不同的韵母发音，基音频率的求解不可或缺。图3所示为基音频率求解流程图。

一段语流中的各小段之间也存在着相关性，其相关性的大小由相关系数来度量，相关系数随变量的变化关系用相关函数来表征。有数字信号系列x(m)，m＝0，1，2，…，N-1，则自相关函数定义如下：

$R (m) = \frac{\frac{1}{N} Σ_{n = 0}^{N - 1 - m} x (n) \cdot x (n + m)}{R (0)} - - - (5)$

$R (0) = \frac{1}{N} Σ_{n = 0}^{N - 1} x^{2} (n)$

其中，R(0)是序列的平均能量，也是自相关序列中的最大值。很显然，如此计算出来的相关函数是归一化的，即|R(m)|≤1。清音的自相关函数波形是杂乱无章的，而浊音段的自相关函数中，有明显的尖峰，这些尖峰的周期性要比原波形的周期性明显一些，由此，可求得浊音的基音频率。

(4).中值滤波平滑处理：

中值平滑处理是一种采用滑动窗的直方图统计处理的方法。其基本原理是：设{x(n)}为输入信号，{y(n)}为中值滤波器的输出，窗长为2L+1，那么n₀处的输出值y(n₀)就是将窗的中心移到n₀处时的窗内输入样点的中值。所谓的中值就是2L+1个输入样本x(n₀-L)，x(n₀-L+1)，……，x(n₀)，x(n₀+1)，x(n₀+2)，……，x(n₀+L)进行统计，求出一个累计直方图，其中1/2分位数就是中值。中值滤波可以纠正个别奇异点而不影响周围的样点的值。

二、色彩生成模块：

利用共振峰频率将不同发音映射为不同色彩方面，采用以下公式：

$R = 0.9 * (0.0006 * 3^{10 * \frac{F 1}{F 2}} + 0.002 * 5^{\frac{F 3}{F 2}})$

$G = 0.02 * 3^{\frac{F 3}{F 2}} + 0.0003 * 80^{\frac{F 3 - F 1}{2000}} - - - (6)$

$B = 0.0012 * 50^{\frac{F 3 - F 1}{2000}}$

其中，F1、F2、F3分别为平滑处理后每帧语音信号的前三个共振峰频率。

由于计算机绘图时对于色彩的取值范围有一定的限定，如MATLAB软件绘图色彩范围要求三原色的数值在0~1的范围内。因此对于上述所求出的RGB进行如下修正：

$r = (\begin{matrix} R, & R \leq 1 \\ 1, & R > 1 \end{matrix})$

$g = (\begin{matrix} G, & G \leq 1 \\ 1, & G > 1 \end{matrix}) - - - (7)$

$b = (\begin{matrix} B, & B \leq 1 \\ 1, & B > 1 \end{matrix})$

通过上述公式将共振峰频率映射为不同色彩，可以使得汉语普通话不同单韵母的色彩差异明显，易于辨识。

三、可视化效果实现模块：

所示为发音/a1/、/o3/、/e4/、/i1/、/u1/、/v2/的可视化效果图，发音人为女性。同时在图像上反映发音时间、能量、音调(基音频率)的变化趋势，利用色彩来区分不同汉语普通话单韵母发音。具体方法为：

横轴为时间轴，以帧为单位，左纵轴为能量，绘制矩形直方图。在每个直方图中填充该帧对应的RGB色彩。最后，右纵轴以Hz为单位，叠加上反映基音频率的曲线。

从图中可以看出，各个发音色彩差异明显，人眼可以轻松分辨。个别发音结束时若干帧的色彩与前部存在些许差异，为结尾部分共振峰频率发生变化所致，并不影响整体效果。基频的变化反映出音调(即：四声的变化)。发音/o/的色彩表现为从/u/到/e/的过渡，这一点符合发音规律。

以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于共振峰频率的汉语普通话单韵母语音可视化方法 [P] . 中国专利： CN102176313B . 2012.07.25
2. 一种基于共振峰频率的汉语普通话复韵母可视化方法 [P] . 中国专利： CN101894566A . 2010-11-24
3. SPEECH WAVEFORM COMPRESSING METHOD BY SIMILARITY OF FUNDAMENTAL FREQUENCY/FIRST FORMANT FREQUENCY RATIO PER PITCH INTERVAL [P] . 韩国专利： KR100291584B1 . 2001-03-14

机译：基于基音频率/第一共振峰频率比的基音间隔相似度的语音波形压缩方法
4. SPEECH WAVEFORM COMPRESSING METHOD BY SIMILARITY OF FUNDAMENTAL FREQUENCY/FIRST FORMANT FREQUENCY RATIO PER PITCH INTERVAL [P] . 韩国专利： KR100291584B1 . 2001-06-01

机译：基于基音频率/第一共振峰频率比的基音间隔相似度的语音波形压缩方法
5. Speech synthesis method, involves linking added formant waveforms according to pitch interval length and suprasegmental interlinking regulation, and frequency modulating source signals during production of formant waveforms [P] . 德国专利： DE102009032236A1 . 2010-07-01

机译：语音合成方法，涉及根据音高间隔长度和段间超链接规则链接添加的共振峰波形，并在共振峰波形产生期间对源信号进行频率调制