首页> 中国专利> 基于代理模型Volterra建模的语音信号编码和解码方法

基于代理模型Volterra建模的语音信号编码和解码方法

摘要

一种基于代理模型Volterra建模的语音信号编码和解码方法,由对输入的混沌语音信号进行预处理、用Volterra建模方法构建预测模型、确定混沌语音信号预测模型并编码、解码步骤组成。由于本发明采用对现有的人工蜂群算法进行了改进,对输入的混沌语音信号进行预加重、加窗、分帧预处理,建立了混沌语音信号预测模型,确定混沌语音信号预测模型中的参数,完成混沌语音信号的编码,根据已有编码后的数据,按照常规方法进行解码。本发明利用语音信号的混沌特点,快速准确地实现了对混沌语音信号进行编码、解码,具有步骤简单、容易实现、准确率高等优点,可用于对混沌语音信号进行编码、解码。

著录项

  • 公开/公告号CN108417220A

    专利类型发明专利

  • 公开/公告日2018-08-17

    原文格式PDF

  • 申请/专利权人 陕西师范大学;

    申请/专利号CN201810142277.6

  • 发明设计人 张玉梅;刘江山;吴晓军;吴霞;

    申请日2018-02-11

  • 分类号G10L19/04(20130101);G10L19/16(20130101);

  • 代理机构61201 西安永生专利代理有限责任公司;

  • 代理人申忠才

  • 地址 710062 陕西省西安市长安南路199号

  • 入库时间 2023-06-19 06:13:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-25

    授权

    授权

  • 2018-09-11

    实质审查的生效 IPC(主分类):G10L19/04 申请日:20180211

    实质审查的生效

  • 2018-08-17

    公开

    公开

说明书

技术领域

本发明属于计算及应用技术领域,具体涉及混沌时间序列预测模型。

背景技术

近年来,随着硬件设备和通讯技术的日趋成熟,对于语音的传输效率有了更改的要求。有研究发现,语音信号时间序列为非线性的,且表现为明显的混沌特性。利用混沌特性构建语音信号的预测模型被认为是一种出众可行的方法。大部分研究人员构造一个非线性预测模型都是直接使用Volterra建模方法:

并做相空间重构过程繁琐。并且需在语音信号混沌特性的基础上利用进化算法建立了语音信号混沌时间序列预测模型。现有的进化算法效率较低,对具体问题无针对性。现有的人工蜂群算法计算效率低、求解精度不足,现有的观察峰阶段搜索方程为:

不能将每次迭代的信息充分利用起来。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种步骤简单、容易实现、速度快、准确率高的基于代理模型Volterra建模的语音信号编码和解码方法。

解决上述技术问题所采用的技术方案是由以下步骤组成:

(1)对输入的混沌语音信号进行预处理

在输入的混沌语音信号中,找到波形均匀的帧作为分析帧,进行预加重、加窗、分帧预处理。

上述的加窗预处理采用以下窗函数进行:

式中N为有限的正整数。

(2)用Volterra建模方法构建预测模型

将步骤(1)分析帧的信息,按式(2)建立混沌语音信号预测模型:

式中u(n-iτ)为输入的分析帧信号,m是混沌时间序列预测模型的记忆长度为有限的正整数,h1(i)和h2(i,j)为待定系数,u(n-iτ)为对应分析帧的第n-iτ个样本,n-iτ为步骤(1)中分析帧的样本序号,u(n-jτ)为对应的分析帧的第n-jτ个样本,n-jτ为步骤(1)中分析帧的样本序号,τ是延迟时间为有限的正整数,j、n为有限的正整数。

(3)确定混沌语音信号预测模型并编码

将步骤(1)中分析帧的混沌语音信号用自适应人工蜂群算法确定混沌语音信号所对应的延迟时间τ、嵌入维数s、待定系数h1(i)、待定系数h2(i,j),采用代理模型方法作为近似适应度函数,选择高适应度的嵌入维数s、延迟时间τ、待定系数h1(i)以及待定系数h2(i,j),采用预测值与实际值之间的均方误差做为原始适应度函数,通过贪婪选择方法,得到最佳嵌入维数s、延迟时间τ、待定系数h1(i)以及h2(i,j),代入上述式(2),完成混沌语音信号的编码。

(4)解码

将提取的混沌语音信号的最佳嵌入维数s、延时时间τ、待定系数h1(i)以及h2(i,j)代入式(2),得对应信号的预测模型,根据已有编码后的数据,按照常规方法进行解码。

在本发明步骤(3)中的自适应人工蜂群算法为:

式中ω是权重系数介于(0,1),c1、c2是学习因子2,是[-1,1]的随机数,xbest为每次迭代的全局最优蜜源,xij为当前的蜜源位置,i为蜜源向量的序号,j为对应分量,xneighbor为当前蜜源邻近的蜜源位置,neighbor为蜜源向量序号不能等于i,ω由以下两个式子确定:

ω=ωmin+ρ(ωmaxmin)(4)

ωmin是ω的上界为0.2,ωmax是ω的下界为0.9,a为2,maxcyle是最大的迭代次数为2000,a为2,maxcyle是最大的迭代次数为1000或1500或2000。

在本发明步骤(3)中的代理模型方法为:

(1)将分析帧的混沌语音信号相空间重构中的嵌入维数s、延迟时间τ加入到原始Volterra模型中,用s代替式(1)中的m。

(2)根据步骤(1)所属引入s与τ的模型,采用自适应人工蜂群算法的代理模型方法确定待定系数h1(i)和h2(i,j)。

使用径向基神经网络作为近似适应度函数,将近似适应度函数与真实适应度函数模型结合使用,近似适应度函数为:

式中k(||x-ci||)为所使用的核函数,ai为所要评估的值,ci为径向基神经网络的中心点,真实适应度函数为:

式中yi为实际值,为预测值,L为预测长度。

确定最佳待定系数h1(i)、h2(i,j),检测均方误差是否达到要求,不达到误差要求,再次迭代。

由于本发明采用对现有的人工蜂群算法进行了改进,对输入的混沌语音信号进行预加重、加窗、分帧预处理,建立了混沌语音信号预测模型,确定混沌语音信号预测模型中的参数,完成混沌语音信号的编码,根据已有编码后的数据,按照常规方法进行解码。本发明利用语音信号的混沌特点,快速准确地实现了对混沌语音信号进行编码、解码,具有步骤简单、容易实现、准确率高等优点,可用于对混沌语音信号进行编码、解码。

附图说明

图1是本发明的工艺流程图。

图2是实施例1输入混沌语音信号音标[b]的波形图。

图3是实施例1确定混沌语音信号预测模型并编码的实验结果。

图4是实施例2确定混沌语音信号预测模型并编码的实验结果。

图5是实施例3确定混沌语音信号预测模型并编码的实验结果。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明,但本发明不限于下述的实施方式。

实施例1

以在标准音标语料库中选取的混沌语音信号中音标[b]为例,基于代理模型Volterra建模的语音信号编码和解码方法步骤(如图1所示)如下:

(1)对输入的混沌语音信号进行预处理

图2是输入的混沌语音信号音标[b]的波形图,在输入的混沌语音信号音标[b]中,找到波形均匀的帧作为分析帧,进行预加重、加窗、分帧预处理,预加重为常规方法,采用传递函数进行预加重。

上述的加窗预处理采用以下窗函数进行:

式中N为有限的正整数。

(2)用Volterra建模方法构建预测模型

步骤(1)分析帧的信息见图3,本实施例从中截取长度为400的样本长度,按式(2)建立混沌语音信号预测模型:

式中u(n-iτ)为输入的分析帧信号,m是混沌时间序列预测模型的记忆长度为有限的正整数,h1(i)和h2(i,j)为待定系数,u(n-iτ)为对应分析帧的第n-iτ个样本,n-iτ为步骤(1)中分析帧的样本序号,u(n-jτ)为对应的分析帧的第n-jτ个样本,n-jτ为步骤(1)中分析帧的样本序号,τ是延迟时间为有限的正整数,j、n为有限的正整数。

(3)确定混沌语音信号预测模型并编码

将步骤(1)中分析帧的混沌语音信号用自适应人工蜂群算法确定混沌语音信号所对应的延迟时间τ、嵌入维数s、待定系数h1(i)、待定系数h2(i,j),自适应人工蜂群算法为:

式中ω是权重系数介于(0,1),c1、c2是学习因子2,是[‐1,1]的随机数,xbest为每次迭代的全局最优蜜源,xij为当前的蜜源位置,i为蜜源向量的序号,j为对应分量,xneighbor为当前蜜源邻近的蜜源位置,neighbor为蜜源向量序号不能等于i,ω由以下两个式子确定:

ω=ωmin+ρ(ωmaxmin)(4)

ωmin是ω的上界为0.2,ωmax是ω的下界为0.9,a为2,maxcyle是最大的迭代次数为2000。

采用代理模型方法作为近似适应度函数,选择高适应度的嵌入维数s、延迟时间τ、待定系数h1(i)、待定系数h2(i,j),本实施例的代理模型方法为:

(1)将分析帧的混沌语音信号相空间重构中的嵌入维数s、延迟时间τ加入到原始Volterra模型中,用s代替式(1)中的m。

(2)根据步骤(1)所属引入s与τ的模型,采用自适应人工蜂群算法的代理模型方法确定待定系数h1(i)和h2(i,j):

使用径向基神经网络作为近似适应度函数,将近似适应度函数与真实适应度函数模型结合使用,近似适应度函数为:

式中k(||x-ci||)为所使用的核函数,ai为所要评估的值,ci为径向基神经网络的中心点,真实适应度函数为:

式中yi为实际值,为预测值,L为预测长度;

确定最佳待定系数h1(i)、h2(i,j),检测均方误差是否达到要求,不达到误差要求,再次迭代。

采用预测值与实际值之间的均方误差做为原始适应度函数,通过贪婪选择方法,贪婪选择方法为常规方法,得到最佳嵌入维数s、延迟时间τ、待定系数h1(i)以及待定系数h2(i,j),代入上述式(2),完成混沌语音信号的编码。

用自适应人工蜂群算法得混沌语音信号音标[b]所对应的延迟时间τ为8、嵌入维数s为12,混沌语音信号预测模型中待定系数h1(i)和待定系数h2(i,j)见表1、表2、图3。

表1实施例1中的最佳待定系数h1(i)

h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)1‐0.0020‐0.0531‐0.0898‐0.13630.05550.6349‐0.0617

表2实施例1中的最佳待定系数h2(i,j)

h2(i,j)i=1i=2i=3i=4i=5i=6i=7i=8j=10.8258-0.47580.27181-10.1292-10.7767j=20.0449-0.01790.1362-0.118410.3567-0.3045j=30.52480.2685-0.95640.7436-0.34850.3652j=4-0.98520.53260.21340.34520.2741j=50.12450.5236-123541j=6-0.96540.14550.2542j=70.65320.8541j=80.8745

由表1、表2、图3可见,混沌语音信号中音标[b]的最优嵌入维s为12,最佳延时时间为8,待定系数h1(i)、h2(i,j)为表中数据时,样本累积的最大误差为0.199474,达到了误差范围,因此,输出到制定的文件中。找到图中所输出的文件,代入上述式(2),完成混沌语音信号的编码。

(4)解码

将提取的混沌语音信号中音标[b]的最佳嵌入维数s、延时时间τ、待定系数h1(i)以及h2(i,j)代入式(2),得对应信号的预测模型,根据已有编码后的数据,按照常规方法进行解码。

实施例2

以在标准音标语料库中选取的混沌语音信号中音标[b]为例,基于代理模型Volterra建模的语音信号编码和解码方法步骤如下:

(1)对输入的混沌语音信号进行预处理

对输入的混沌语音信号进行预处理步骤与实施例1相同。

(2)用Volterra建模方法构建预测模型

用Volterra建模方法构建预测模型步骤与实施例1相同。

(3)确定混沌语音信号预测模型并编码

将步骤(1)中分析帧的混沌语音信号用自适应人工蜂群算法确定混沌语音信号所对应的延迟时间τ、嵌入维数s、待定系数h1(i)、待定系数h2(i,j),自适应人工蜂群算法为:

式中ω是权重系数介于(0,1),c1、c2是学习因子2,是[‐1,1]的随机数,xbest为每次迭代的全局最优蜜源,xij为当前的蜜源位置,i为蜜源向量的序号,j为对应分量,xneighbor为当前蜜源邻近的蜜源位置,neighbor为蜜源向量序号不能等于i,ω由以下两个式子确定:

ω=ωmin+ρ(ωmaxmin)(9)

式中ωmin是ω的上界为0.2,ωmax是ω的下界为0.9,a为2,maxcyle是最大的迭代次数为1000。

采用代理模型方法作为近似适应度函数,选择高适应度的嵌入维数s、延迟时间τ、待定系数h1(i)、待定系数h2(i,j),本实施例的代理模型方法与实施例1相同。用自适应人工蜂群算法得混沌语音信号音标[b]所对应的延迟时间τ为8、嵌入维数s为12,混沌语音信号预测模型中待定系数h1(i)和待定系数h2(i,j)见表3、表4、图4。

表3实施例2中的最佳待定系数h1(i)

h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)11.13210.0672-0.40310.0203-0.28180.10100.2818

表4实施例2中的最佳待定系数h2(i,j)

其他步骤与实施例1相同。

完成混沌语音信号音标[b]的编码和解码。

实施例3

以在标准音标语料库中选取的混沌语音信号中音标[b]为例,基于代理模型Volterra建模的语音信号编码和解码方法步骤如下:

(1)对输入的混沌语音信号进行预处理

对输入的混沌语音信号进行预处理步骤与实施例1相同。

(2)用Volterra建模方法构建预测模型

用Volterra建模方法构建预测模型步骤与实施例1相同。

(3)确定混沌语音信号预测模型并编码

将步骤(1)中分析帧的混沌语音信号用自适应人工蜂群算法确定混沌语音信号所对应的延迟时间τ、嵌入维数s、待定系数h1(i)、待定系数h2(i,j),自适应人工蜂群算法为:

式中ω是权重系数介于(0,1),c1、c2是学习因子2,是[‐1,1]的随机数,xbest为每次迭代的全局最优蜜源,xij为当前的蜜源位置,i为蜜源向量的序号,j为对应分量,xneighbor为当前蜜源邻近的蜜源位置,neighbor为蜜源向量序号不能等于i,ω由以下两个式子确定:

ω=ωmin+ρ(ωmaxmim)(12)

式中ωmin是ω的上界为0.2,ωmax是ω的下界为0.9,a为2,maxcyle是最大的迭代次数为1500。

采用代理模型方法作为近似适应度函数,选择高适应度的嵌入维数s、延迟时间τ、待定系数h1(i)、待定系数h2(i,j),本实施例的代理模型方法与实施例1相同。用自适应人工蜂群算法得混沌语音信号音标[b]所对应的延迟时间τ为8、嵌入维数s为12,混沌语音信号预测模型中待定系数h1(i)和待定系数h2(i,j)见表5、表6、图5。

表5施例3中的最佳待定系数h1(i)

h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)h1(1)10.2119-0.4320-0.03150.09950.0014-0.14050.0898

表6实施例3中的最佳待定系数h2(i,j)

h2(i,j)i=1i=2i=3i=4i=5i=6i=7i=8j=10.2358-0.96520.21480.3541-10.7022-10.3354j=20.6249-0.69310.3654-0.69440.29820.6367-0.4508j=30.98520.7564-0.24850.42670.51300.7452j=4-0.34980.32150.31240.23470.7824j=50.75450.1453-0.11541.2647j=6-0.54960.32650.3542j=70.35410.4516j=80.1264

其他步骤与实施例1相同。

完成混沌语音信号音标[b]的编码和解码。

根据上述原理,在标准音标语料库中选取的混沌语音信号中不同音标,采用基于代理模型Volterra建模的语音信号编码和解码方法,可以对不同的音标进行编码和解码。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号