首页> 中国专利> 基于代理模型Volterra建模的语音信号编码和解码方法

基于代理模型Volterra建模的语音信号编码和解码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于代理模型Volterra建模的语音信号编码和解码方法，由对输入的混沌语音信号进行预处理、用Volterra建模方法构建预测模型、确定混沌语音信号预测模型并编码、解码步骤组成。由于本发明采用对现有的人工蜂群算法进行了改进，对输入的混沌语音信号进行预加重、加窗、分帧预处理，建立了混沌语音信号预测模型，确定混沌语音信号预测模型中的参数，完成混沌语音信号的编码，根据已有编码后的数据，按照常规方法进行解码。本发明利用语音信号的混沌特点，快速准确地实现了对混沌语音信号进行编码、解码，具有步骤简单、容易实现、准确率高等优点，可用于对混沌语音信号进行编码、解码。

著录项

公开/公告号CN108417220A

专利类型发明专利
公开/公告日2018-08-17

原文格式PDF
申请/专利权人陕西师范大学;
展开▼

申请/专利号CN201810142277.6
发明设计人张玉梅;刘江山;吴晓军;吴霞;
展开▼

申请日2018-02-11
分类号G10L19/04(20130101);G10L19/16(20130101);
代理机构61201 西安永生专利代理有限责任公司;
代理人申忠才
地址 710062 陕西省西安市长安南路199号
入库时间 2023-06-19 06:13:14

法律信息

法律状态公告日

法律状态信息

法律状态
2019-06-25

授权

授权
2018-09-11

实质审查的生效 IPC(主分类):G10L19/04 申请日:20180211

实质审查的生效
2018-08-17

公开

公开

说明书

技术领域

本发明属于计算及应用技术领域，具体涉及混沌时间序列预测模型。

背景技术

近年来，随着硬件设备和通讯技术的日趋成熟，对于语音的传输效率有了更改的要求。有研究发现，语音信号时间序列为非线性的，且表现为明显的混沌特性。利用混沌特性构建语音信号的预测模型被认为是一种出众可行的方法。大部分研究人员构造一个非线性预测模型都是直接使用Volterra建模方法：

并做相空间重构过程繁琐。并且需在语音信号混沌特性的基础上利用进化算法建立了语音信号混沌时间序列预测模型。现有的进化算法效率较低，对具体问题无针对性。现有的人工蜂群算法计算效率低、求解精度不足，现有的观察峰阶段搜索方程为:

不能将每次迭代的信息充分利用起来。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点，提供一种步骤简单、容易实现、速度快、准确率高的基于代理模型Volterra建模的语音信号编码和解码方法。

解决上述技术问题所采用的技术方案是由以下步骤组成：

(1)对输入的混沌语音信号进行预处理

在输入的混沌语音信号中，找到波形均匀的帧作为分析帧，进行预加重、加窗、分帧预处理。

上述的加窗预处理采用以下窗函数进行：

式中N为有限的正整数。

(2)用Volterra建模方法构建预测模型

将步骤(1)分析帧的信息，按式(2)建立混沌语音信号预测模型：

式中u(n-iτ)为输入的分析帧信号，m是混沌时间序列预测模型的记忆长度为有限的正整数，h₁(i)和h₂(i，j)为待定系数，u(n-iτ)为对应分析帧的第n-iτ个样本，n-iτ为步骤(1)中分析帧的样本序号，u(n-jτ)为对应的分析帧的第n-jτ个样本，n-jτ为步骤(1)中分析帧的样本序号，τ是延迟时间为有限的正整数，j、n为有限的正整数。

(3)确定混沌语音信号预测模型并编码

将步骤(1)中分析帧的混沌语音信号用自适应人工蜂群算法确定混沌语音信号所对应的延迟时间τ、嵌入维数s、待定系数h₁(i)、待定系数h₂(i，j)，采用代理模型方法作为近似适应度函数，选择高适应度的嵌入维数s、延迟时间τ、待定系数h₁(i)以及待定系数h₂(i，j)，采用预测值与实际值之间的均方误差做为原始适应度函数，通过贪婪选择方法，得到最佳嵌入维数s、延迟时间τ、待定系数h₁(i)以及h₂(i，j)，代入上述式(2)，完成混沌语音信号的编码。

(4)解码

将提取的混沌语音信号的最佳嵌入维数s、延时时间τ、待定系数h₁(i)以及h₂(i，j)代入式(2)，得对应信号的预测模型，根据已有编码后的数据，按照常规方法进行解码。

在本发明步骤(3)中的自适应人工蜂群算法为：

式中ω是权重系数介于(0，1)，c1、c2是学习因子2，是[-1，1]的随机数，x_best为每次迭代的全局最优蜜源，x_ij为当前的蜜源位置，i为蜜源向量的序号，j为对应分量，x_neighbor为当前蜜源邻近的蜜源位置，neighbor为蜜源向量序号不能等于i，ω由以下两个式子确定：

ω＝ω_min+ρ(ω_max-ω_min)(4)

ω_min是ω的上界为0.2，ω_max是ω的下界为0.9，a为2，maxcyle是最大的迭代次数为2000，a为2，maxcyle是最大的迭代次数为1000或1500或2000。

在本发明步骤(3)中的代理模型方法为：

(1)将分析帧的混沌语音信号相空间重构中的嵌入维数s、延迟时间τ加入到原始Volterra模型中，用s代替式(1)中的m。

(2)根据步骤(1)所属引入s与τ的模型，采用自适应人工蜂群算法的代理模型方法确定待定系数h₁(i)和h₂(i，j)。

使用径向基神经网络作为近似适应度函数，将近似适应度函数与真实适应度函数模型结合使用，近似适应度函数为：

式中k(||x-c_i||)为所使用的核函数，a_i为所要评估的值，c_i为径向基神经网络的中心点，真实适应度函数为：

式中y_i为实际值，为预测值，L为预测长度。

确定最佳待定系数h₁(i)、h₂(i，j)，检测均方误差是否达到要求，不达到误差要求，再次迭代。

由于本发明采用对现有的人工蜂群算法进行了改进，对输入的混沌语音信号进行预加重、加窗、分帧预处理，建立了混沌语音信号预测模型，确定混沌语音信号预测模型中的参数，完成混沌语音信号的编码，根据已有编码后的数据，按照常规方法进行解码。本发明利用语音信号的混沌特点，快速准确地实现了对混沌语音信号进行编码、解码，具有步骤简单、容易实现、准确率高等优点，可用于对混沌语音信号进行编码、解码。

附图说明

图1是本发明的工艺流程图。

图2是实施例1输入混沌语音信号音标[b]的波形图。

图3是实施例1确定混沌语音信号预测模型并编码的实验结果。

图4是实施例2确定混沌语音信号预测模型并编码的实验结果。

图5是实施例3确定混沌语音信号预测模型并编码的实验结果。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于下述的实施方式。

实施例1

以在标准音标语料库中选取的混沌语音信号中音标[b]为例，基于代理模型Volterra建模的语音信号编码和解码方法步骤(如图1所示)如下：

(1)对输入的混沌语音信号进行预处理

图2是输入的混沌语音信号音标[b]的波形图，在输入的混沌语音信号音标[b]中，找到波形均匀的帧作为分析帧，进行预加重、加窗、分帧预处理，预加重为常规方法，采用传递函数进行预加重。

上述的加窗预处理采用以下窗函数进行：

式中N为有限的正整数。

(2)用Volterra建模方法构建预测模型

步骤(1)分析帧的信息见图3，本实施例从中截取长度为400的样本长度，按式(2)建立混沌语音信号预测模型：

(3)确定混沌语音信号预测模型并编码

将步骤(1)中分析帧的混沌语音信号用自适应人工蜂群算法确定混沌语音信号所对应的延迟时间τ、嵌入维数s、待定系数h₁(i)、待定系数h₂(i，j)，自适应人工蜂群算法为：

式中ω是权重系数介于(0，1)，c1、c2是学习因子2，是[‐1，1]的随机数，x_best为每次迭代的全局最优蜜源，x_ij为当前的蜜源位置，i为蜜源向量的序号，j为对应分量，x_neighbor为当前蜜源邻近的蜜源位置，neighbor为蜜源向量序号不能等于i，ω由以下两个式子确定：

ω＝ω_min+ρ(ω_max-ω_min)(4)

ω_min是ω的上界为0.2，ω_max是ω的下界为0.9，a为2，maxcyle是最大的迭代次数为2000。

采用代理模型方法作为近似适应度函数，选择高适应度的嵌入维数s、延迟时间τ、待定系数h₁(i)、待定系数h₂(i，j)，本实施例的代理模型方法为：

(1)将分析帧的混沌语音信号相空间重构中的嵌入维数s、延迟时间τ加入到原始Volterra模型中，用s代替式(1)中的m。

(2)根据步骤(1)所属引入s与τ的模型，采用自适应人工蜂群算法的代理模型方法确定待定系数h₁(i)和h₂(i，j)：

使用径向基神经网络作为近似适应度函数，将近似适应度函数与真实适应度函数模型结合使用，近似适应度函数为：

式中k(||x-c_i||)为所使用的核函数，a_i为所要评估的值，c_i为径向基神经网络的中心点，真实适应度函数为：

式中y_i为实际值，为预测值，L为预测长度；

确定最佳待定系数h₁(i)、h₂(i，j)，检测均方误差是否达到要求，不达到误差要求，再次迭代。

采用预测值与实际值之间的均方误差做为原始适应度函数，通过贪婪选择方法，贪婪选择方法为常规方法，得到最佳嵌入维数s、延迟时间τ、待定系数h₁(i)以及待定系数h₂(i，j)，代入上述式(2)，完成混沌语音信号的编码。

用自适应人工蜂群算法得混沌语音信号音标[b]所对应的延迟时间τ为8、嵌入维数s为12，混沌语音信号预测模型中待定系数h₁(i)和待定系数h₂(i，j)见表1、表2、图3。

表1实施例1中的最佳待定系数h₁(i)

h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)1‐0.0020‐0.0531‐0.0898‐0.13630.05550.6349‐0.0617

表2实施例1中的最佳待定系数h₂(i，j)

h₂(i，j)i＝1i＝2i＝3i＝4i＝5i＝6i＝7i＝8j＝10.8258-0.47580.27181-10.1292-10.7767j＝20.0449-0.01790.1362-0.118410.3567-0.3045j＝30.52480.2685-0.95640.7436-0.34850.3652j＝4-0.98520.53260.21340.34520.2741j＝50.12450.5236-123541j＝6-0.96540.14550.2542j＝70.65320.8541j＝80.8745

由表1、表2、图3可见，混沌语音信号中音标[b]的最优嵌入维s为12，最佳延时时间为8，待定系数h₁(i)、h₂(i，j)为表中数据时，样本累积的最大误差为0.199474，达到了误差范围，因此，输出到制定的文件中。找到图中所输出的文件，代入上述式(2)，完成混沌语音信号的编码。

(4)解码

将提取的混沌语音信号中音标[b]的最佳嵌入维数s、延时时间τ、待定系数h₁(i)以及h₂(i，j)代入式(2)，得对应信号的预测模型，根据已有编码后的数据，按照常规方法进行解码。

实施例2

以在标准音标语料库中选取的混沌语音信号中音标[b]为例，基于代理模型Volterra建模的语音信号编码和解码方法步骤如下：

(1)对输入的混沌语音信号进行预处理

对输入的混沌语音信号进行预处理步骤与实施例1相同。

(2)用Volterra建模方法构建预测模型

用Volterra建模方法构建预测模型步骤与实施例1相同。

(3)确定混沌语音信号预测模型并编码

ω＝ω_min+ρ(ω_max-ω_min)(9)

式中ω_min是ω的上界为0.2，ω_max是ω的下界为0.9，a为2，maxcyle是最大的迭代次数为1000。

采用代理模型方法作为近似适应度函数，选择高适应度的嵌入维数s、延迟时间τ、待定系数h₁(i)、待定系数h₂(i，j)，本实施例的代理模型方法与实施例1相同。用自适应人工蜂群算法得混沌语音信号音标[b]所对应的延迟时间τ为8、嵌入维数s为12，混沌语音信号预测模型中待定系数h₁(i)和待定系数h₂(i，j)见表3、表4、图4。

表3实施例2中的最佳待定系数h₁(i)

h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)11.13210.0672-0.40310.0203-0.28180.10100.2818

表4实施例2中的最佳待定系数h₂(i，j)

其他步骤与实施例1相同。

完成混沌语音信号音标[b]的编码和解码。

实施例3

以在标准音标语料库中选取的混沌语音信号中音标[b]为例，基于代理模型Volterra建模的语音信号编码和解码方法步骤如下：

(1)对输入的混沌语音信号进行预处理

对输入的混沌语音信号进行预处理步骤与实施例1相同。

(2)用Volterra建模方法构建预测模型

用Volterra建模方法构建预测模型步骤与实施例1相同。

(3)确定混沌语音信号预测模型并编码

ω＝ω_min+ρ(ω_max-ω_mim)(12)

式中ω_min是ω的上界为0.2，ω_max是ω的下界为0.9，a为2，maxcyle是最大的迭代次数为1500。

表5施例3中的最佳待定系数h₁(i)

h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)h₁(1)10.2119-0.4320-0.03150.09950.0014-0.14050.0898

表6实施例3中的最佳待定系数h₂(i，j)

h₂(i，j)i＝1i＝2i＝3i＝4i＝5i＝6i＝7i＝8j＝10.2358-0.96520.21480.3541-10.7022-10.3354j＝20.6249-0.69310.3654-0.69440.29820.6367-0.4508j＝30.98520.7564-0.24850.42670.51300.7452j＝4-0.34980.32150.31240.23470.7824j＝50.75450.1453-0.11541.2647j＝6-0.54960.32650.3542j＝70.35410.4516j＝80.1264

其他步骤与实施例1相同。

完成混沌语音信号音标[b]的编码和解码。

根据上述原理，在标准音标语料库中选取的混沌语音信号中不同音标，采用基于代理模型Volterra建模的语音信号编码和解码方法，可以对不同的音标进行编码和解码。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于代理模型Volterra建模的语音信号编码和解码方法 [P] . 中国专利： CN108417220B . 2019.06.25
2. 基于代理模型Volterra建模的脑电信号编码解码方法 [P] . 中国专利： CN109745044B . 2022.02.22
3. VOICE SIGNAL DECODING METHOD, VOICE SIGNAL DECODER, DECODING METHOD FOR ENCODED VOICE SIGNAL AND DECODER FOR ENCODED VOICE SIGNAL [P] . 日本专利： JP2001042900A . 2001-02-16

机译：语音信号解码方法，语音信号解码器，用于编码语音信号的解码方法和用于编码语音信号的解码器
4. VOICE SIGNAL ENCODING AND DECODING METHOD, VOICE SIGNAL ENCODER AND VOICE SIGNAL DECODER [P] . 日本专利： JPH01257999A . 1989-10-16

机译：语音信号编码和解码方法，语音信号编码器和语音信号解码器
5. VOICE SIGNAL ENCODING AND DECODING METHOD, VOICE SIGNAL ENCODER, AND VOICE SIGNAL DECODER [P] . 日本专利： JPH01258000A . 1989-10-16

机译：语音信号编码和解码方法，语音信号编码器和语音信号解码器