首页> 中国专利> 一种AMR码流转换成AMR-WB码流的方法

一种AMR码流转换成AMR-WB码流的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种AMR码流转换成AMR-WB码流的方法，属于编码技术领域。一种AMR码流转换成AMR-WB码流的方法；AMR窄带码进入扩展单元后转换成AMR-WB码流，扩展单元和训练单元，所述的训练单元为扩展单元提供参数扩展过程所需的映射关系。

著录项

公开/公告号CN103337243A

专利类型发明专利
公开/公告日2013-10-02

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN201310272820.1
发明设计人陈喆;殷福亮;李文月;
展开▼

申请日2013-06-28
分类号G10L19/24;G10L19/12;
代理机构大连东方专利代理有限责任公司;
代理人曲永祚
地址 116024 辽宁省大连市高新园区凌工路2号
入库时间 2024-02-19 20:16:50

法律信息

法律状态公告日

法律状态信息

法律状态
2017-02-08

授权

授权
2013-11-06

实质审查的生效 IPC(主分类):G10L19/24 申请日:20130628

实质审查的生效
2013-10-02

公开

公开

说明书

技术领域

本发明涉及一种AMR码流转换成AMR-WB码流的方法，属于编码技术领域。

背景技术

在很多通信系统中，如公共电话交换网(PSTN)和全球移动通信系统(GSM)，系统传输的语音带宽被限制在4KHz以内。虽然4KHz窄带语音可满足基本的通信要求，但在一些对音质要求较高的场合，如会议电视系统等，由于4KHz窄带语音缺乏高频成分，其听起来“闷闷”的，自然度和可懂度均较低，已不能满足音质方面的需求。这些应用上的需求促使人们开始关注宽带语音编码技术，并相继提出了一些宽带编码标准，如AMR-WB[和G.729.1等。但这些宽带编码标准未考虑对已有网络通信协议的兼容，即对编码速率和码流格式改变都较大，很难直接应用于既有网络中。长时间建设而成的既有通信网络极其庞杂，因而网络的升级必然是一个复杂、渐进的过程，因此，短时间内对既有通信网络进行全面升级是不现实的，如何在现有通信网络条件下，获得宽带语音质量就成为一个亟待解决的问题。为此，人们提出了人工语音带宽技术，所谓的人工带宽扩展就是借助语音信号处理方法，扩展出窄带语音的其它频带分量，进而合成出宽带语音。早在1933年，人们就提出了语音带宽扩展概念并尝试通过线性运算实现该技术。后来在上世纪70年代的早期，开始有公司试图通过数字信号处理技术来重建宽带语音信号。但当时没考虑声音特性和人耳听觉特点，早期的尝试都以失败告终。直到70年代末期，学者们提出语音的线性预测模型，才使语音带宽扩展技术取得突破性的进展，相继提出了多种带宽扩展算法。

发明内容

本发明针对以上问题的提出，而研制一种AMR码流转换成AMR-WB码流的方法。

本发明的技术手段如下：

一种AMR码流转换成AMR-WB码流的方法；AMR窄带码进入扩展单元后转换成AMR-WB码流，扩展单元和训练单元，所述的训练单元为扩展单元提供参数扩展过程所需的映射关系。

所述的扩展单元包括AMR解码单元、参数提取单元、窄带能量计算单元、 SVR预测单元、函数映射单元A、码本映射单元、函数映射单元B、升采样单元以及AMR-WB部分编码单元，所述的AMR解码单元的输入端输入AMR的窄带码流，输出端与参数提取单元、窄带能量计算单元以及升采样单元的输入端相连，所述的参数提取单元的输入端与AMR解码单元的输出相连，其输出端与SVR预测单元、函数映射单元A、码本映射单元以及AMR-WB部分编码单元的输入端相连。所述的窄带能量计算单元的输入端与AMR解码单元的输出端相连，其输出端与函数映射单元B的输入端相连，所述的SVR预测单元、函数映射单元A以及码本映射单元的输入端与参数提取单元的输出端相连并接收训练单元提供的映射关系，它们的输出端都与AMR-WB部分编码单元的输入端相连，所述的函数映射单元B的输入端与窄带能量计算单元的输出端相连接收训练单元提供的映射函数，其输出端与AMR-WB部分编码单元的输入端相连，所述的升采样单元的输入端与AMR解码单元的输出端相连，其输出端与AMR-WB部分编码单元的输入端相连，AMR-WB部分编码单元的输入端与SVR预测单元、函数映射单元A、码本映射单元、函数映射单元B以及升采样单元的输出端相连，其输出端输出AMR-WB宽带码流。

所述的AMR解码单元包括窄带码流分离单元、LSP解码单元、自适应码本解码单元、增益解码单元、固定码本解码单元、4子帧插值单元、激励重建单元、 LSP到A(z)转换单元、合成滤波器单元以及后置滤波器单元，所述的窄带码流分离单元的输入端输入AMR窄带码流，其输出端分别约LSP解码单元、自适应码本解码单元、增益解码单元以及固定码本解码单元的输入端相连。所述的LSP 解码单元的输入端与码流分离单元的输出端相连、其输出端与4子帧插值单元的输入端相连。所述的自适应码本解码单元、增益解码单元以及固定码本解码单元的的输入端都与码流分离单元的输出端相连、他们的输出端都与激励重建单元的输入端相连，所述的4子帧LSP插值单元的输入端与LSP解码单元的输出端相连，其输出端与LSP到A(z)转换单元的输入端相连，所述的激励重建单元的输入端分别与自适应码本解码单元、增益解码单元以及固定码本解码单元的输出端相连。所述的LSP到A(z)转换单元的输入端与4子帧LSP插值单元的输出端相连，其输出端与合成滤波器单元的输入端相连，所述的合成滤波器单元的输入端分别与激励重建单元和LSP到A(z)转换单元的输出端相连，其输出端与后置滤波器单元的输入端相连，所述的后置滤波器单元的输入端与合成滤波器单元的输出端相连，其输出单元输出合成语音。

所述的参数提取单元包括VAD提取单元、LSP提取单元、开环基音周期及固定码本提取单元，所述的VAD提取单元的输入端与AMR解码单元的输出端相连，其输出端与AMR-WB部分编码的输入端相连，所述的LSP提取单元的输入端与 AMR解码单元的输出端相连，其输出端与SVR预测单元的输入端相连，所述的开环基音提取单元的输入端与AMR解码单元的输出端相连，其输出端与映射单元A的输入端相连，所述的固定码本单元的输入端AMR解码单元的输出端相连，其输出端与码本映射单元的输入端相连。

所述的AMR-WB部分编码单元包括加权语音计算单元、4子帧差值单元A、 ISP到ISF转换单元、开环基音搜索单元、闭环基音搜索单元、自适应码本计算单元、4子帧差值单元B、ISF量化单元、自适应码本贡献计算单元、自适应滤波器选择单元、固定码本目标信号计算单元、固定码本搜索单元、增益矢量量化单元、脉冲响应计算单元以及AMR-WB码流生成单元。所述的加权语音计算单元的输入端输入升采样之后的AMR合成语音和VAD并与4子帧插值单元A的输出端相连，其输出端与开环基音搜索单元的输入端相连。所述的4子帧插值单元A 的输入端与输入16维的ISP，其输出端分别与加权语音计算单元、自适应码本计算单元以及脉冲响应计算单元的输入端相连。所述的ISP到ISF转换单元的输入端输入16维的ISP，其输出端与ISF量化单元的输入端相连。所述的ISF量化单元的输入端与ISP到ISF转换单元的输出端相连，其输出端分别于4子帧插值单元B和 AMR-WB码流生成单元的输入端相连。所述的开环基音搜索单元的输入端接收扩展得到的开环基音并与与加权语音的输出端相连，其输出端与闭环基音搜索单元的输入端相连。所述的4子帧差值单元B的输入端与ISF量化单元的输出端相连，其输出端分别与自适应码本信号计算单元和脉冲响应计算单元的输入端相连。所述的自适应码本计算单元的输入端输入升采样后的AMR合成语音并与4 子帧插值单元A的输出端相连，其输出端与固定码本目标信号计算单元的输入端相连。所述的闭环基音搜索单元的输入端与自适应码本计算单元的输出端相连，其输出端分别与自适应码本贡献计算单元和AMR-WB码流生成单元的输入端相连。所述的自适应码本贡献计算单元的输入端与闭环基音搜索单元的输出端相连，其输出端分别与自适应滤波器选择单元和增益矢量量化单元的输入端相连。所述的增益矢量量化单元的输入端分别与自适应码本贡献计算单元和固定码本搜索单元的输出端相连，其输出端与AMR-WB码流生成单元的输入端相连。所述的自适应滤波器选择单元的输入端自适应码本贡献计算单元的输出端相连，其输出端分别与固定码本目标信号计算单元和AMR-WB码流生成单元的输入端相连。所述的固定码本计算单元的输入端输入扩展得到宽带固定码本并分别与自适应码本目标信号计算单元和自适应滤波器选择单元的输出端相连，其输出端与固定码本搜索单元的输入端相连。所述的固定码本搜索单元的输入端分别与固定码本目标信号计算单元和脉冲响应计算单元的输出端相连，其输出端分别与增益矢量化单元和AMR-WB码流生成单元的输入端相连。所述的AMR-WB 码流生成单元的输入端接收扩展得到高频增益索引并分别与固定码本搜索单元、自适应滤波器选择单元、增益矢量量化单元、闭环基音搜索单元以及ISF量化单元的输出端相连，其输出端输出AMR-WB宽带码流。

所述的训练单元包括窄带码流分离单元、窄带码流解析单元、AMR-WB编码单元、SVR训练单元、开环基音映射函数训练单元、固定码本映射码本训练单元以及高频增益映射函数训练单元。所述的窄带码流分离单元的输入端输入窄带码流，其输出端与窄带码流解析单元的输入端相连；所述的窄带码流解析单元的输入端与窄带码流分离单元的输出端相连，其输出端分别与SVR训练单元、开环基音映射函数训练单元、固定码本映射码本训练单元以及高频增益映射函数训练单元的输入端相连；所述的AMR-WB编码单元的输入端输入宽带语音，其输出端分别与SVR训练单元、开环基音映射函数训练单元、固定码本映射码本训练单元以及高频增益映射函数训练单元的输入端相连；所述的SVR训练单元的输入端分别于窄带码流解析单元和AMR-WB编码单元的输出端相连，其输出端输出SVR映射模型；所述的开环基音映射函数训练单元的输入端分别与窄带码流解析单元和AMR-WB编码单元的输出端相连，其输出端输出开环基音映射函数；所述的固定码本映射码本训练单元的输入端分别与窄带码流解析单元和AMR-WB编码单元的输入端相连，其输出端输出映射码本；所述的高频增益映射函数训练单元的输入端分别与窄带码流解析单元和AMR-WB编码单元的输入端相连，其输出端输出高频增益映射函数。

所述的AMR-WB编码单元包括预处理单元、线性预测分析单元、ISP量化单元、4子帧ISP插值单元A、加权语音计算单元、4子帧ISP插值单元B、开环基音搜索单元、目标信号计算单元、最佳基音延迟和增益搜索单元、自适应码本分量计算单元、自适应码本滤波器选择单元、冲激响应计算单元、高频增益索引计算单元、固定码本搜索单元、滤波器更新单元、激励计算单元以及增益量化单元。所述的预处理单元的输入端输入采样率为16KHz的宽带语音，其输出端分别与线性预测分析单元、加权语音计算单元以及目标信号计算单元的输入端相连；所述的线性预测分析单元的输入端与预处理单元的输出端相连、其输出端分别与ISP量化单元和4子帧ISP插值单元B的输入端相连；所述的 ISP量化单元的输入端与线性预测分析单元的输出端相连，其输出端与4子帧ISP 差值单元A的输入端相连；所述的4子帧插值单元A的输入端与ISP量化单元的输出端相连，其输出端与冲激响应计算单元的输入端相连；所述的加权语音计算单元的输入端分别与预处理单元和四子帧ISP插值单元B的输出端相连，其输出端与开环基音搜索单元的输入端相连；所述的4子帧插值单元B的输入端与线性预测分析单元的输出端相连，其输出端分别与目标信号计算单元、加权语音计算单元以及冲激响应计算单元的输入端相连；所述的开环基音搜索单元的输入端与加权语音计算单元的输出端相连，其输出端与最佳基音延迟和增益搜索单元的输入端相连；所述的目标信号计算单元的输入端分别与预处理单元、4子帧ISP插值单元B以及4子帧ISP插值单元A的输出端相连，其输出端分别与固定码本搜索单元和最佳基音延迟和增益搜索单元的输入端相连；所述的最佳基音延迟和增益搜索单元的输入端分别与目标信号计算单元、开环基音搜索以及冲激响应计算单元的输出端相连，其输出端输出基音索引并与自适应码本贡献计算单元的输入端相连；所述的自适应码本贡献计算单元的输入端与最佳基因延迟和增益上搜索单元的输出端相连，其输出端分别与自适应码本滤波器选择单元和增益量化单元的输入端相连；所述的自适应码本滤波器选择单元的输入端与自适应码本贡献计算单元的输出端相连，其输出端输出滤波器索引并与脉冲响应计算单元的输入端相连；所述的冲激响应计算单元的输入端分别与自适应码本滤波器选择单元、4子帧ISP插值单元A以及4子帧ISP插值单元B的输出端相连，其输出端分别与最佳基音延迟和增益搜索单元以及固定码本搜索单元的输入端相连；所述的固定码本搜索单元的输入端分别与目标信号计算单元、自适应码本滤波器选择单元以及冲激响应计算单元的输出端相连，其输出端输出固定码本增益索引并与增益量化单元的输入端相连；所述的增益量化单元的输入端分别与固定码本搜索单元以及自适应码本贡献计算单元的输出端相连，其输出端输出增益索引并与激励计算单元的输入端相连；所述的激励计算单元的输入端与增益量化单元的输出端相连，其输出端分别与滤波器状态更新单元和高频增益索引计算单元的输入端相连；所述的滤波器状态更新单元的输入端与激励计算单元的的输出端相连；所述的高频增益索引计算单元的输入端输入采样率为16KHz的宽带语音并分别于与4子帧ISP插值单元和激励计算单元的输出端相连，其输出端输出高频增益索引。

本发明的有益效果：

(1)本发明可以准确地恢复出窄带信号所对应的高频部分，因此可以实现 AMR窄带码流到AMR-WB宽带码流的转换。

(2)AMR窄带码流解码得到窄带语音相比，扩展后的AMR-WB宽带码流解码得到的宽带语音音质有明显提高。

(3)与AMR到AMR-WB的时域带宽扩展方法相比，本发明提出的码流域带宽扩展方法编解码部分计算量大幅度降低，可以降低30%左右。

附图说明

图1一种将AMR窄带码流转换成AMR-WB宽带码流的转换装置。

图2本发明扩展单元结构简图。

图3本发明AMR解码单元结构简图。

图4本发明参数提取单元结构简图。

图5本发明AMR-WB部分编码单元。

图6本发明训练单元结构简图。

图7本发明AMR-WB编码单元。

图8本发明AMR编码器速率表。

图9本发明AMR-WB编码器速率表。

图10本发明AMR在10.20kbps编码速率下的比特分配表。

图11本发明确定轨道最大最小位置的算法流程图。

图12本发明AMR-WB固定码本搜索流程图。

图13本发明AMR-WB在23.85kbps编码模式下的参数索引比特分配。

图14本发明SVR参数设置。

具体实施方式

下面结合附图对本发明做进一步说明：

本发明是根据AMR窄带码流按照一定的方法生成AMR-WB宽带码流，本发明的技术方案如下：

一种将AMR窄带码流转换成AMR-WB宽带码流的转换装置如图1所示：包括扩展单元和训练单元，所述的训练单元为扩展单元提供参数扩展过程所需的映射关系，只在扩展单元工作之前“离线”地运行一次。

所述的扩展单元如图2所示：包括AMR解码单元、参数提取单元、窄带能量计算单元、SVR预测单元、函数映射单元A、码本映射单元、函数映射单元B、升采样单元以及AMR-WB部分编码单元。所述的AMR解码单元的输入端输入 AMR的窄带码流，输出端与参数提取单元、窄带能量计算单元以及升采样单元的输入端相连。所述的参数提取单元的输入端与AMR解码单元的输出相连，其输出端与SVR预测单元、函数映射单元A、码本映射单元以及AMR-WB部分编码单元的输入端相连。所述的窄带能量计算单元的输入端与AMR解码单元的输出端相连，其输出端与函数映射单元B的输入端相连。所述的SVR预测单元、函数映射单元A以及码本映射单元的输入端与参数提取单元的输出端相连并接收训练单元提供的映射关系，它们的输出端都与AMR-WB部分编码单元的输入端相连。所述的函数映射单元B的输入端与窄带能量计算单元的输出端相连接收训练单元提供的映射函数，其输出端与AMR-WB部分编码单元的输入端相连。所述的升采样单元的输入端与AMR解码单元的输出端相连，其输出端与AMR-WB部分编码单元的输入端相连。AMR-WB部分编码单元的输入端与SVR预测单元、函数映射单元A、码本映射单元、函数映射单元B以及升采样单元的输出端相连，其输出端输出AMR-WB宽带码流。

所述的AMR解码单元如图3所示：包括窄带码流分离单元、LSP解码单元、自适应码本解码单元、增益解码单元、固定码本解码单元、4子帧插值单元、激励重建单元、LSP到A(z)转换单元、合成滤波器单元以及后置滤波器单元。所述的窄带码流分离单元的输入端输入AMR窄带码流，其输出端分别约LSP解码单元、自适应码本解码单元、增益解码单元以及固定码本解码单元的输入端相连。所述的LSP解码单元的输入端与码流分离单元的输出端相连、其输出端与4子帧插值单元的输入端相连。所述的自适应码本解码单元、增益解码单元以及固定码本解码单元的的输入端都与码流分离单元的输出端相连、他们的输出端都与激励重建单元的输入端相连。所述的4子帧LSP插值单元的输入端与LSP解码单元的输出端相连，其输出端与LSP到A(z)转换单元的输入端相连。所述的激励重建单元的输入端分别与自适应码本解码单元、增益解码单元以及固定码本解码单元的输出端相连。所述的LSP到A(z)转换单元的输入端与4子帧LSP插值单元的输出端相连，其输出端与合成滤波器单元的输入端相连。所述的合成滤波器单元的输入端分别与激励重建单元和LSP到A(z)转换单元的输出端相连，其输出端与后置滤波器单元的输入端相连。所述的后置滤波器单元的输入端与合成滤波器单元的输出端相连，其输出单元输出合成语音。

所述的参数提取单元如图4所示：包括VAD提取单元、LSP提取单元、开环基音周期及固定码本提取单元。所述的VAD提取单元的输入端与AMR解码单元的输出端相连，其输出端与AMR-WB部分编码的输入端相连。所述的LSP提取单元的输入端与AMR解码单元的输出端相连，其输出端与SVR预测单元的输入端相连。所述的开环基音提取单元的输入端与AMR解码单元的输出端相连，其输出端与映射单元A的输入端相连。所述的固定码本单元的输入端AMR解码单元的输出端相连，其输出端与码本映射单元的输入端相连。

所述的AMR-WB部分编码单元如图5所示：包括加权语音计算单元、4子帧差值单元A、ISP到ISF转换单元、开环基音搜索单元、闭环基音搜索单元、自适应码本计算单元、4子帧差值单元B、ISF量化单元、自适应码本贡献计算单元、自适应滤波器选择单元、固定码本目标信号计算单元、固定码本搜索单元、增益矢量量化单元、脉冲响应计算单元以及AMR-WB码流生成单元。所述的加权语音计算单元的输入端输入升采样之后的AMR合成语音和VAD并与4子帧插值单元A的输出端相连，其输出端与开环基音搜索单元的输入端相连。所述的4子帧插值单元A的输入端与输入16维的ISP，其输出端分别与加权语音计算单元、自适应码本计算单元以及脉冲响应计算单元的输入端相连。所述的ISP到ISF转换单元的输入端输入16维的ISP，其输出端与ISF量化单元的输入端相连。所述的ISF 量化单元的输入端与ISP到ISF转换单元的输出端相连，其输出端分别于4子帧插值单元B和AMR-WB码流生成单元的输入端相连。所述的开环基音搜索单元的输入端接收扩展得到的开环基音并与与加权语音的输出端相连，其输出端与闭环基音搜索单元的输入端相连。所述的4子帧差值单元B的输入端与ISF量化单元的输出端相连，其输出端分别与自适应码本信号计算单元和脉冲响应计算单元的输入端相连。所述的自适应码本计算单元的输入端输入升采样后的AMR合成语音并与4子帧插值单元A的输出端相连，其输出端与固定码本目标信号计算单元的输入端相连。所述的闭环基音搜索单元的输入端与自适应码本计算单元的输出端相连，其输出端分别与自适应码本贡献计算单元和AMR-WB码流生成单元的输入端相连。所述的自适应码本贡献计算单元的输入端与闭环基音搜索单元的输出端相连，其输出端分别与自适应滤波器选择单元和增益矢量量化单元的输入端相连。所述的增益矢量量化单元的输入端分别与自适应码本贡献计算单元和固定码本搜索单元的输出端相连，其输出端与AMR-WB码流生成单元的输入端相连。所述的自适应滤波器选择单元的输入端自适应码本贡献计算单元的输出端相连，其输出端分别与固定码本目标信号计算单元和AMR-WB码流生成单元的输入端相连。所述的固定码本计算单元的输入端输入扩展得到宽带固定码本并分别与自适应码本目标信号计算单元和自适应滤波器选择单元的输出端相连，其输出端与固定码本搜索单元的输入端相连。所述的固定码本搜索单元的输入端分别与固定码本目标信号计算单元和脉冲响应计算单元的输出端相连，其输出端分别与增益矢量化单元和AMR-WB码流生成单元的输入端相连。所述的AMR-WB码流生成单元的输入端接收扩展得到高频增益索引并分别与固定码本搜索单元、自适应滤波器选择单元、增益矢量量化单元、闭环基音搜索单元以及ISF量化单元的输出端相连，其输出端输出AMR-WB宽带码流。

所述的训练单元如图6所示，包括窄带码流分离单元、窄带码流解析单元、 AMR-WB编码单元、SVR训练单元、开环基音映射函数训练单元、固定码本映射码本训练单元以及高频增益映射函数训练单元。所述的窄带码流分离单元的输入端输入窄带码流，其输出端与窄带码流解析单元的输入端相连；所述的窄带码流解析单元的输入端与窄带码流分离单元的输出端相连，其输出端分别与 SVR训练单元、开环基音映射函数训练单元、固定码本映射码本训练单元以及高频增益映射函数训练单元的输入端相连；所述的AMR-WB编码单元的输入端输入宽带语音，其输出端分别与SVR训练单元、开环基音映射函数训练单元、固定码本映射码本训练单元以及高频增益映射函数训练单元的输入端相连；所述的SVR训练单元的输入端分别于窄带码流解析单元和AMR-WB编码单元的输出端相连，其输出端输出SVR映射模型；所述的开环基音映射函数训练单元的输入端分别与窄带码流解析单元和AMR-WB编码单元的输出端相连，其输出端输出开环基音映射函数；所述的固定码本映射码本训练单元的输入端分别与窄带码流解析单元和AMR-WB编码单元的输入端相连，其输出端输出映射码本；所述的高频增益映射函数训练单元的输入端分别与窄带码流解析单元和 AMR-WB编码单元的输入端相连，其输出端输出高频增益映射函数。

所述的AMR-WB编码单元如图7所示，包括预处理单元、线性预测分析单元、 ISP量化单元、4子帧ISP插值单元A、加权语音计算单元、4子帧ISP插值单元B、开环基音搜索单元、目标信号计算单元、最佳基音延迟和增益搜索单元、自适应码本分量计算单元、自适应码本滤波器选择单元、冲激响应计算单元、高频增益索引计算单元、固定码本搜索单元、滤波器更新单元、激励计算单元以及增益量化单元。所述的预处理单元的输入端输入采样率为16KHz的宽带语音，其输出端分别与线性预测分析单元、加权语音计算单元以及目标信号计算单元的输入端相连；所述的线性预测分析单元的输入端与预处理单元的输出端相连、其输出端分别与ISP量化单元和4子帧ISP插值单元B的输入端相连；所述的ISP量化单元的输入端与线性预测分析单元的输出端相连，其输出端与4子帧ISP差值单元A的输入端相连；所述的4子帧插值单元A的输入端与ISP量化单元的输出端相连，其输出端与冲激响应计算单元的输入端相连；所述的加权语音计算单元的输入端分别与预处理单元和四子帧ISP插值单元B的输出端相连，其输出端与开环基音搜索单元的输入端相连；所述的4子帧插值单元B的输入端与线性预测分析单元的输出端相连，其输出端分别与目标信号计算单元、加权语音计算单元以及冲激响应计算单元的输入端相连；所述的开环基音搜索单元的输入端与加权语音计算单元的输出端相连，其输出端与最佳基音延迟和增益搜索单元的输入端相连；所述的目标信号计算单元的输入端分别与预处理单元、4子帧ISP 插值单元B以及4子帧ISP插值单元A的输出端相连，其输出端分别与固定码本搜索单元和最佳基音延迟和增益搜索单元的输入端相连；所述的最佳基音延迟和增益搜索单元的输入端分别与目标信号计算单元、开环基音搜索以及冲激响应计算单元的输出端相连，其输出端输出基音索引并与自适应码本贡献计算单元的输入端相连；所述的自适应码本贡献计算单元的输入端与最佳基因延迟和增益上搜索单元的输出端相连，其输出端分别与自适应码本滤波器选择单元和增益量化单元的输入端相连；所述的自适应码本滤波器选择单元的输入端与自适应码本贡献计算单元的输出端相连，其输出端输出滤波器索引并与脉冲响应计算单元的输入端相连；所述的冲激响应计算单元的输入端分别与自适应码本滤波器选择单元、4子帧ISP插值单元A以及4子帧ISP插值单元B的输出端相连，其输出端分别与最佳基音延迟和增益搜索单元以及固定码本搜索单元的输入端相连；所述的固定码本搜索单元的输入端分别与目标信号计算单元、自适应码本滤波器选择单元以及冲激响应计算单元的输出端相连，其输出端输出固定码本增益索引并与增益量化单元的输入端相连；所述的增益量化单元的输入端分别与固定码本搜索单元以及自适应码本贡献计算单元的输出端相连，其输出端输出增益索引并与激励计算单元的输入端相连；所述的激励计算单元的输入端与增益量化单元的输出端相连，其输出端分别与滤波器状态更新单元和高频增益索引计算单元的输入端相连；所述的滤波器状态更新单元的输入端与激励计算单元的的输出端相连；所述的高频增益索引计算单元的输入端输入采样率为 16KHz的宽带语音并分别于与4子帧ISP插值单元和激励计算单元的输出端相连，其输出端输出高频增益索引。

如图8所示，AMR支持8种编码模式；如图9所示AMR-WB支持9种编码模式。在如下码流转换的具体步骤中，本发明以AMR10.20kbps编码速率到 AMR-WB23.85kbps编码速率下的码流转换为例进行介绍。

一种将AMR窄带码流转换到AMR-WB宽带码流的转换装置及其方法，在进行码流在线转换之前，对于一种工作语种需要且仅需要一次“离线”建立转换时所需的各种映射关系；码流转换的具体步骤如下：

A、AMR解码

将采样率为8KHz的语音信号经AMR10.2kbps编码器进行编码，得到与之对应的窄带码流；将该窄带码流经AMR解码器进行解码。

A1、码流分离

窄带码流分离单元将接收到的AMR窄带码流根据图10所示的比特分配表分离出VAD标志、LSP索引、基音索引、增益索引以及固定码本索引。

A2、LSP解码

根据窄带码流分离单元输出的LSP量化索引，通过查表可以重建出量化后的 LSP矢量。

A3、LSP四子帧插值

由A2解码得到的LSP矢量作为第四子帧的LSP系数，并通过相邻帧之间LSP 系数的内插得到第一、二和第三子帧的LSP系数，内插过程如式(1)、式(2)和式(3) 所示。

${\hat{q}}_{1}^{(n)} = 0.75 {\hat{q}}_{4}^{(n - 1)} + 0.25 {\hat{q}}_{4}^{(n)} - - - (1)$

${\hat{q}}_{2}^{(n)} = 0.5 {\hat{q}}_{4}^{(n - 1)} + 0.5 {\hat{q}}_{4}^{(n)} - - - (2)$

${\hat{q}}_{3}^{(n)} = 0.25 {\hat{q}}_{4}^{(n - 1)} + 0.75 {\hat{q}}_{4}^{(n)} - - - (3)$

其中，是解码得到的上一帧第四子帧的LSP系数，是解码得到当前帧第四子帧的LSP系数，以及分别是内插得到的当前帧第一、二以及三子帧的LSP系数。

A4、LSP转换到A(z)

在内插得到每一子帧的LSP系数之后，需要将其转换到线性预测系数a_i(i=1, 2,…,10)。循环变量i取值范围从1到5，每次增加1。每次变量i循环时

①f₁(i)＝-2q_2i-1f₁(i-1)+2f₁(i-2)。

②循环变量j取值范围从i-1到1，每次循环变量j循环时，执行 f₁^[i]＝f₁^[i-1](j)-2q_2i-1f₁^[i-1](j-1)+f₁^[i-1](j-2)操作。

其中，f₁(0)＝1,f₁(-1)＝0。将q_2i-1替换成q_2i即可得到f₂(i)。

$(\begin{matrix} {f_{1}}^{'} = f_{1} (i) + f_{1} (i - 1) & i = 1, . . ., 5 \\ f_{2}^{'} = f_{2} (i) - f_{2} (i - 1) & i = 1, . . ., 5 \end{matrix}) - - - (4)$

$a_{i} = ((\begin{matrix} 0.5 {f_{1}}^{'} (i) + 0.5 f_{2}^{'} (i), i = 1, . . ., 5 \\ 0.5 {f_{1}}^{'} (11 - i) - 0.5 f_{2}^{'} (11 - i), i = 6, . . ., 10 \end{matrix})) - - - (5)$

A5、自适应码本解码

A51、基音周期解码

根据A1分离出的基音索引P1来寻找基音周期T1的整数部分和分数部分。通过P1/P3获取第一/三子帧基音周期的整数部分int(T1)/int(T1)和分数部分frac1/ frac3的步骤如下：

第二/四子帧基音周期的整数部分和分数部分通过t_min2/t_min4获得，其中，t_min2/t_min4可以通过如下的递推关系得到：

则，第二/四子帧的基音周期T2/T4为：

int(T₂)＝(P2+2)/3-1+t_min (10)

frac2＝P2-2-3((P2+2)/3-1) (11)

int(T₄)＝(P4+2)/3-1+t_min (12)

frac4＝P4-2-3((P4+2)/3-1) (13)

A52、自适应码本解码

解码得到基音周期后，可以通过内插过去的激励u(n)得到自适应吗本矢量 v(n)：

$v (n) = Σ_{i = 0}^{9} u (n - k - i) b_{60} (t + i \cdot 6) + Σ_{i = 0}^{9} u (n - k + 1 + i) b_{60} (6 - t + i \cdot 6) - - - (14)$

其中，内插滤波器(截止频率为3.6KHz)b₆₀是在±59处截断的汉明窗截取样函数 sin(x)/x得到，b₆₀＝0。

A6、固定码本解码

根据A1分离出的固定码本索引可以得到固定码本的脉冲位置、符号以及固定码本矢量。若该子帧基音周期整数部分小于子帧长度40，则需要修正固定码本矢量

$c (n) = c (n) + {\hat{g}}_{p} c (n) - - - (15)$

其中，是A71解码得到自适应码本增益。

A7、增益解码

A71、自适应码本增益解码

根据A1分离出的增益索引从相应的量化表中查找相应的自适应码本增益和固定码本增益修正因子

A72、固定码本增益解码

首先，计算预测能量

$\tilde{E} (n) = Σ_{i = 1}^{4} b_{i} E (n - i) - - - (16)$

然后，计算平均固定码本能量

$E_{I} = 101 g (\frac{1}{N} Σ_{j = 0}^{N - 1} c^{2} (j)) - - - (17)$

则，预测增益为;

$g_{c}^{'} = 10^{0.005 (\overline{E} (n) + \overline{E} - E_{I})} - - - (18)$

其中，是固定码本的平均能量，在10.20kbps编码速率下为33。最后，量化后的固定码本增益为：

${\hat{g}}_{c} = γ_{gc} g_{c}^{'} - - - (19)$

A8、激励信号重建

激励信号u(n)可以由自适应码本激励和固定码本激励通过式(19)计算得到：

$u (n) = {\hat{g}}_{p} v (n) + {\hat{g}}_{c} c (n) - - - (20)$

根据自适应码本的贡献对激励信号进行修正：

自适应增益控制(AGC)用来补偿未加重激励u(n)和预加重激励之间的增益差，预加重激励的增益缩放因子η为：

则增益缩放后的预加重激励信号为

${\hat{u}}^{'} = η \hat{u} (n) - - - (23)$

A8、合成滤波

一子帧(40个采样点)的重构语音为

$\hat{s} (n) {\hat{u}}^{'} (n) - Σ_{i - 1}^{10} {\hat{a}}_{i} \hat{s} (n - i), n = 0,1, \cdot \cdot \cdot, 39 - - - (24)$

A9、后置滤波

A8得到的重构语音需要通过一个后置滤波器，该滤波器是共振峰后置滤波器和谱倾斜补偿滤波器的级联。后置滤波器需要每5ms修改一次。其中，共振峰滤波器H_f(z)为

$H_{f} (z) = \frac{\hat{A} (z / γ_{n})}{\hat{A} (z / γ_{d})} - - - (25)$

其中，为线性预测的逆滤波器，γ_n和γ_d用来控制共振峰后置滤波器的阶数。谱倾斜补偿滤波器H_t(z)为

H_t(z)＝1-μz^-1 (26)

其中

$μ = γ_{t} \frac{r_{h} (1)}{r_{h} (0)} - - - (27)$

$r_{h} (i) = Σ_{j = 0}^{L_{h} - i - 1} h_{f} (j) h_{f} (j + i) - - - (28)$

在10.20kbit/s编码速率下，γ_n＝0.7,γ_d＝0.75，

B、参数提取

B1、VAD标志提取

A1码流分离出的前8个比特即为所需的VAD标志

B2、LSP提取

所需的LSP为A3LSP四子帧插值的结果。

B3、基音提取

所需的开环基音周期为A51解码得到的第一、三子帧基音周期的整数部分。

B4、固定码本提取

所需的固定码本是A6解码得到的固定码本脉冲位置。

B5、窄带语音能量计算

计算每一帧合成语音的对数域能量nb_ener_log，计算过程如下：

$nb_ener = Σ_{i = 0}^{L_FRAM>-1} {synth}^{2} (i) - - - (30)$

nb_ener_log=log₂(nb_ener) (31)

其中，L_FRAME为语音帧的帧长，在AMR里L_FRAME=160。

宽带参数扩展

C1、VAD参数扩展

由于VAD参数主要是用来表征话音有无的，与带宽无关，所以将AMR解码得到的VAD参数直接映射到AMR-WB的编码端，从而省去了编码端VAD参数的计算。

C、C2、ISP参数扩展

将窄带语音解码得到的10维LSP参数通过F1训练得到SVR模型进行预测，预测器的输出即为16维的ISP参数

C3、开环基音周期扩展

由于，10.20kbps编码速率下的AMR与23.85kbps编码速率下的AMR-WB 基音周期的分辨率不同；所以，若采用基音周期的直接扩展将会引起合成语音质量的严重下降。因此，对于该参数的扩展需要借助AMR解码器输出的合成语音，以及AMR-WB的基因周期搜索过程。首先，将AMR解码器端得到的第一 /三子帧的开环基音周期作为F22训练得到的映射函数输入：

T_op1_wb＝T₀₁*0.819+31.452， (32)

T_op3_wb＝T₀₃*0.728+30.339， (33) 这里，T_op1_wb/T_op3_wb即为与之对应的宽带语音第一/三子帧的开环基音周期；为了保证合成语音质量，没有将该参数直接作为宽带语音开环基音搜索的结果，而是通过该参数来限制开环基音周期搜索的频率范围，这样在保证语音质量的同时，降低了开环基音搜索的计算量。

具体实现过程是：将映射得到的开环基音周期减去一个常数作为开环基音周期搜索的下界；而将开环基音周期加上一个常数作为开环基音周期搜索的上界。该常数的选择需要在计算量和语音质量之间做一个折中：大的搜索范围意味着较高的合成语音质量和较大的计算量，小的搜索范围意味着较低的合成语音质量和较小的计算量。在本发明中，该常数设为2.

C4、高频增益索引扩展

高频增益索引的扩展时通过函数映射实现的。将AMR解码端得到的窄带语音能量作为F4训练得到的映射函数的输入，所得到的函数值即为宽带语音的高频增益索引值。

C5、宽带固定码本扩展

AMR10.20kbps与AMR-WB23.85kbps的固定码本结构相差较多，且这种 CELP的编码模式对于固定码本的误差非常敏感，所以，为了保证合成语音的质量，采用的是同开环基音周期扩展相同的方法。

首先，将AMR解码得到的窄带固定码本进行码本搜索，得到窄带码本索引；然后，将该索引映射到与之对应的宽带固定码本(此处的映射码本由F3训练得到)，将索引所在的行矢量输出，即为与窄带对应的宽带固定码本。

为了使合成语音质量降低不严重，根据映射得到的宽带码本，求取每个轨道脉冲位置的最大，最小值，该步的算法流程图如图11所示。轨道脉冲位置确定以后，当AMR-WB编码器搜索每个轨道脉冲的时候，不再进行16个位置的全搜索，而只需要搜索该轨道脉冲位置最大和最小值之间的位置。该方法在保证语音质量下降不明显的前提下，有效地缩减了脉冲搜索的范围，从而降低了固定码本搜索的计算量。

D、宽带参数部分编码

D1、ISP编码

D11、ISP到ISF转化

将C2得到的ISP参数利用式(31)转换成ISF系数f_i(i＝0,1,…,15)

$f_{i} = (\begin{matrix} \frac{f_{s}}{2 π} \arccos (q_{i}), & 1 = 0, \cdot \cdot \cdot, 14 \\ \frac{f_{s}}{4 π} \arccos (q_{i}), & i = 15 \end{matrix}) - - - (34)$

其中，f_s＝12800kHz为采样率。

D14、ISF量化

假设z(n)是第n帧去均值后的ISF矢量，则预测残差矢量r(n)可表示为

r(n)＝z(n)-p(n) (35)

其中，p(n)是第n帧根据式(5.10)预测得到的LSF矢量

$p (n) = \frac{1}{3} \hat{r} (n - 1) - - - (36)$

其中，是上一帧的量化残差矢量。

使用分裂多阶失量量化器对r(n)进行量化。首先，将矢量r(n)分成9维的矢量r1(n)和7维的矢量r2(n)。然后，通过两级操作对两个子矢量进行量化。在第一级操作过程中，对r1(n)和r2(n)进行8bit量化；在第二级操作过程中，对两个子矢量进行二次分裂后根据编码模式进行量化。

D2、基音周期编码

D21、ISP四子帧插值

将C2扩展得到的ISP作为第四子帧ISP，根据当前帧第四子帧的ISP系数q₄和前一帧第四子帧的ISP系数q₄^(n-1)，插值得到当前帧第1、2、3子帧的ISP系数。插值过程同A3。

在内插得到每一子帧的ISP系数之后，需要将其按照A4所述的步骤转换到线性预测系数a_i(i＝1,2,…,16)。

D22、计算加权语音

将升采样后的合成语音通过式(37)所示的感知加权滤波器：

W(z)＝A(z/γ₁)H_de-emph (37)

其中，

$A (z / γ_{1}) = 1 + Σ_{i = 1}^{16} γ_{1}^{i} a_{i} z^{- i}, - - - (38)$

$H_{de_emph} = \frac{1}{1 - β_{1} z^{- 1}}, - - - (39)$

其中，β₁＝0.68。

对于长度为L的子帧，加权语音s_W(n)为：

$s_{W} = (n) = = s (n) + Σ_{i = 1}^{16} a_{i} γ_{1}^{i} s (n - i) + β_{1} s_{W} (n - 1), n = 0,1, \cdot \cdot \cdot, L - 1, - - - (40)$

D23、开环基音周期搜索

第一子帧加权语音的相关函数为：

$C_{1} (d) = Σ_{n = 0}^{63} s_{wd} (n) s_{wd} (n - d) w (d), d = T_{op 1_wb} - 2, \cdot \cdot \cdot, T_{op 1_wb} + 2, - - - (41)$

第三子帧加权语音的相关函数为：

$C_{3} (d) = Σ_{n = 0}^{63} s_{wd} (n) s_{wd} (n - d) w (d), d = T_{op 3_wb} - 2, \cdot \cdot \cdot, T_{op 3_wb} + 2, - - - (42)$

其中，w(d)是加权函数。开环基音周期就是使得C₁(d)/C₃(d)最大的d值。

w(d)＝w_l(d)w_n(d)， (43)

w_l(d)＝cw(d)， (44)

其中，cw(d)的取值见定点计算描述表。

开环基音增益g的计算公式为：

$g = \frac{Σ_{n = 0}^{63} s_{wd} (n) s_{wd} (n - d_{\max})}{\sqrt{Σ_{n = 0}^{63} s_{wd}^{2} (n) Σ_{n = 0}^{63} (n - d_{\max})}}, - - - (46)$

其中，d_max是使得C(d)取最大值的基音延迟；T_old是前5个半帧的基音延迟的中值滤波值。v是自适应因子。如果当前帧的开环基音增益g＞0.6，则认为该帧是浊音帧，下一帧的v设为1.0；否则，v＝0.9v。

D24、量化后的ISP系数4子帧差值

将ISF量化单元输出的量化后的ISF系数通过式(46)转换到ISP系数，量化后的 LSP系数4子帧插值过程同D21。

D25、ISP系数到线性预测系数转换

在内插得到每一子帧的ISP系数之后，需要将其转换到线性预测系数 ISP系数q_i(i＝1,2,…,16)到线性预测系数a_i(i＝1,2,…,16)的转换过程如下：

在已知内插的ISP系数的前提下，可以通过式(84)和(85)得到F₁(z)和F₂(z)，用 q_i(i＝1,2,…,16)可以迭代计算f₁(z)

初始值为f₁(0)＝0，f₁(1)＝-2q₀。同理，用q_2i-1代替q_2i-2，m/2-1代替m/2且f₂(0)＝1， f₂(1)＝-2q₁，可以计算得到f₂(z)。

在获得f₁(z)和f₂(z)之后，将F₂(z)乘以1-z^-2可以得到F₂'(z)

f′₂(i)＝f₂(i)-f₂(i-2),i＝2,…,m/2-1 (47)

f′₁(i)＝f₁(i),i＝0,…,m/2 (48)

则，线性预测系数a_i(i＝1,2,…,16)为

$a_{i} = (\begin{matrix} 0.5 {f_{1}}^{'} (i) + 0.5 f_{2}^{'} (i), & i = 1, \cdot \cdot \cdot, m / 2 - 1 \\ 0.5 {f_{1}}^{'} (i) - 0.5 f_{2}^{'} (i) . & i = m / 2 + 1, \cdot \cdot \cdot, m - 1 \\ 0,5 {f_{1}}^{'} (m / 2), & i = m / 2 \\ q_{m - 1} & i = m \end{matrix}) - - - (49)$

D26、自适应码本目标信号计算

线性预测残差信号r(n)为：

$r (n) = s (n) + Σ_{i = 1}^{16} {\hat{a}}_{i} s (n - i), n = 0,1, \cdot \cdot \cdot, 63 - - - (50)$

则，自适应码本搜索的目标信号x(n)是通过合成滤波器和加权滤波器 A(z/γ₁)H_{de_exph}(z)的输出。

D27、脉冲响应计算

在AMR-WB编码中要计算的脉冲响应h(n)是指感知加权合成滤波器

$H_{W} (z) = \frac{A (z / γ_{1}) H_{de_emph} (z)}{\hat{A} (z)} - - - (51)$

的单位脉冲响应。

D28、闭环基音搜索

闭环基音搜索准则是使原始语音和重构语音之间均方加权误差最小，即使T_k最大，T_k为：

$T_{k} \frac{Σ_{n = 0}^{63} x (n) y_{k} (n)}{\sqrt{Σ_{n = 0}^{63} y_{k} (n) y_{k} (n)}} - - - (52)$

其中，x(n)是D25得到目标信号，y_k(n)是滤波激励，其表达式为：

y_k(n)＝y_k-1(n-1)+u(-k)h(n) (53) 其中，u(n),n＝-(231+17),…,63是激励缓冲器的值；h(n)是感知加权合成滤波器的脉冲应。在搜索阶段，u(n),n＝0,…,63是未知的，只有当基音延迟小于64的时候才需要。为了简化搜索，将线性预测残差存在u(n)里使得(52)所示的关系对所有延时有效。确定最佳整数基音周期后，在该基音周期附近的分数从-3/4到3/4以步长 1/4作测试。内插T_k，并搜索其最大值得到分数基音周期。

D3、基音周期增益

分数延迟确定后，在给定段内插过去的激励信号u(n)得到v′(n)。该内插操作是通过两个FIR滤波器实现的，其中一个是在±17处截断的汉明窗截取样函数，另一个是在±63处截断的汉明窗截取样函数。

自适应码本v(n)为：

$v (n) = Σ_{i = - 1}^{1} b_{LP} (i + 1) v^{'} (n + i) - - - (54)$

其中，b_LP＝[0.18,0.64,0.18]。则自适应码本增益g_p为：

$g_{p} = \frac{Σ_{n = 0}^{63} x (n) y (n)}{Σ_{n = 0}^{63} y (n) y (n)},$ 0≤g_p≤1.2 (55)

其中，x(n)是目标信号，y(n)＝v(n)*h(n)是自适应码本矢量滤波后的结果。

D4、固定码本搜索

D41、自适应码本贡献计算

自适应码本贡献为

y(n)＝y(n)*h(n) (57)

D42、固定码本搜索目标信号

固定码本搜索目标信号x₂(n)为

如果c_k是第k个固定码本矢量，使Q_k最大的矢量即为所求，

其中，H为对角线元素为h(0)的下三角Toeplitz卷积矩阵，且对角线一次往下的元素是h(1),…,h(63)；

$C = Σ_{i = 0}^{N_{p} - 1} a_{i} d (m_{i}) - - - (60)$

其中，m_i是第i个脉冲的位置，a_i为其幅度，N_p＝24为23.85kbps编码速率下的脉冲个数。

为了简化搜索过程，用适当的量化信号b(n)先做幅度脉冲符号的预判决

$b (n) = \sqrt{\frac{E_{d}}{E_{r}}} r_{LTP} (n) + αd (n) - - - (62)$

$d (n) = Σ_{i = n}^{63} x_{2} (n) h (i - n), n = 0, \cdot \cdot \cdot, 63 - - - (63)$

其中，r_LTP为长时预测的残差信号,E_r为其能量，E_d为d能量，α为扩展因子，编码速率越大，α越小，在23.85kbps编码速率下，α＝0.5。

AMR-WB在23.85编码速率下的固定码本搜索流程图如图12所示。在进行脉冲搜索的时候只在C5确定的所在轨道脉冲位置最大值最小值之间的搜索。

D5、固定码本增益

固定码本增益g_c可以由式(63)给出

$g_{c} = \frac{x_{2}^{T} z}{z^{T} z} - - - (64)$

其中，x₂为固定码本搜索的目标矢量，z是固定码本矢量与感知加权合成滤波器的脉冲响应h(n)的卷积，即

$z (n) = Σ_{i = 0}^{n} c (i) h (n - i), n = 0,1, \cdot \cdot \cdot, 63 - - - (65)$

其中

h(n)＝h(n)-βh(n-T),n＝T,T-1,…,63 (66)

其中，T是这一子帧的基音分数延时的最大整数部分，β为量化后的基音增益。

D5、基音增益和固定码本增益量化

在23.85kbps编码速率下，基音增益和固定码本增益的量化是通过7-bit码本实现的。

固定码本增益的量化是由系数固定的MA预测器。4阶MA预测器是在固定能量E(n)上实现的，

$E (n) = 10 \log (\frac{1}{N} g_{c}^{2} Σ_{i = 0}^{63} c^{2} (i)) - \overline{E} - - - (67)$

其中，c(i)是固定码本激励，为固定码本能量。预测能量为：

$\tilde{E} (n) = Σ_{i = 1}^{4} b_{i} E (n - i) - - - (68)$

其中，[b₁b₂b₃b₄]＝[0.5,0.4,0.3.0.2]为MA预测器系数，E(1)、E(2)、E(3)、E(4)分别为当前帧第1、2、3、4子帧的固定能量，E(-1)、E(-2)、E(-3)、E(-4)分别为前一帧第1、2、3、4 子帧的固定能量。

预测固定码本增益g′_c可以通过预测能量计算得到，具体实现如下：

首先，计算平均固定能量E_i

$E_{i} = 10 \log (\frac{1}{N} Σ_{i = 0}^{N - 1} c^{2} (i)) - - - (69)$

则，预测的固定码本增益g′_c为

$g_{c}^{'} = 10^{0.05 (\tilde{E} + \overline{E} - E_{i})} - - - (70)$

定义γ为g_c和g′_c之间的修正因子

$γ = \frac{g_{c}}{g_{c}^{'}} - - - (71)$

定义预测误差为R(n)，则有

$R (n) = E (n) - \tilde{E} (n) = 20 \log γ - - - (72)$

在23.85kbps编码速率下，基音周期增益g_p和修正因子γ用7比特码本进行联合矢量量化，既由g_p和γ构成一个二维矢量[g_p,γ]^T，然后进行码本增益搜索。增益码本的搜索就是通过是原始语音和重建语音的均方误差最小

$E = x^{t} x + g_{p}^{2} y^{t} y + g_{c}^{2} z^{t} z - 2 g_{p} x^{t} y - 2 g_{c} x^{t} z + 2 g_{p} g_{c} y^{t} z - - - (73)$

其中，x是目标矢量，y为滤波后的自适应码本矢量，z为滤波后的固定码本矢量。

E、宽带码流生成

将C和D扩展得到的各参数索引按照图13的顺序，写到码流中，即可得到与AMR-WB23.85kbps解码器兼容的宽带码流。

F、映射关系训练

将与A窄带语音相对应的，采样率为16KHz的宽带语音信号作为输入，由 AMR-WB编码器在-dtx模式、23.85kbps的编码速率下进行编码并提取相关参数。

F1、ISP系数映射关系训练

F11、ISP系数提取

F111、预处理

将输入的采样率为16KHz的16比特线性PCM语音信号经过一个如式(72) 所示的高通滤波器和式(73)所示的预加重处理

$H_{h 1} (z) = \frac{0,989502 - 1.979004 z^{- 1} + 0.989502 z^{- 2}}{1 - 1.978882 z^{- 1} + 0.979126 z^{- 2}} - - - (74)$

H_{pre_emph}＝1-0.68z^-1 (75)

F112、加窗和自相关计算

加窗后的语音信号s_w(n)为

s_w(n)＝w(n)s(n),n＝0,1,…,383 (76)

其中，s(n)为F111预加重处理后的语音信号，w(n)为

$w (n) = (\begin{matrix} 0.54 - 0.46 \cos (\frac{2 πn}{2 L_{1} - 1}), n = 0, \cdot \cdot \cdot, L_{1} - 1 \\ \cos (\frac{2 π (n - L_{1})}{4 L_{2} - 1}), n = L_{1}, \cdot \cdot \cdot, L_{1} + L_{2} - 1 \end{matrix}) - - - (77)$

其中，L₁＝256,L₂＝128。s_w(n)的自相关函数为

$r (k) = Σ_{n = k}^{383} s_{w} (n) s_{w} (n - k), k = 0,1, \cdot \cdot \cdot, 16 - - - (78)$

将r(k)经滞后窗w_lag处理使其具有60Hz的带宽扩展，

$w_{lag} (i) = \exp [- \frac{1}{2} {(\frac{2 π f_{0} i}{f_{s}})}^{2}], i = 1,2, \cdot \cdot \cdot, 16 - - - (79)$

其中，f₀＝60,f_s＝12800。此外对r(0)乘以白噪声校正因子1.0001。

F113、用莱文逊-杜宾算法求解线性预测系数

修正后的自相关函数为

$(\begin{matrix} r^{'} (0) = 1.0001 r (0) \\ r^{'} (k) = r (k) w_{lag} (k), k = 1,2, \cdot \cdot \cdot, 16 \end{matrix}) - - - (80)$

根据式(78)得到的r′(k)借用莱文逊-杜宾算法可以求得线性预测系数 a_i(i＝1,2,…,16)，如式(81)和(82)所示

$k_{i} = \frac{r^{'} (i) - Σ_{j = 1}^{i - 1} a_{j}^{(i - 1)} r^{'} (i - j)}{E_{i - 1}}, 1 \leq i \leq p - - - (81)$

$(\begin{matrix} a_{i}^{(i)} = k_{i} \\ a_{j}^{(i)} = a_{j}^{(i - 1)} - k_{i} a_{i - j}^{(i - 1)}, 1 \leq j \leq i - 1 \end{matrix}) - - - (82)$

$E_{i} = (1 - k_{i}^{2}) E_{i - 1} - - - (83)$

其中，E₀＝r′(0)；求解结果为：

F114、线性预测系数到导谱对系数转换

为了方便进行内插和量化，需要将线性预测系数a_i(i＝1,2,…,16)转换到导谱对系数q_i(i＝1,2,…,16)。ISP系数定义成差分多项式(80)和(81)的根。

F′₁(z)＝A(z)+z^-16A(z^-1) (84)

F′₂(z)＝A(z)-z^-16A(z^-1) (85)

可证明这些多项式的所有的解都在单位圆上交替出现，F′₂有一个根z＝-1(ω＝π)，有一个根z＝1(ω＝0)。通过定义新的多项式(84)和(85)可以消除这两个根:

F₁(z)＝F′₁(z) (86)

F₂(z)＝F′₂(z)/(1-z^-2) (87)

其中，F₁(z)在单位圆上有8个共轭根而F₂(z)在单位圆上有7个共轭根，因此，

$F_{1} (z) = (1 + a [16]) \underset{i = 0,2, \cdot \cdot \cdot, 14}{Π} (1 - 2 q_{i} z^{- 1} + z^{- 2}) - - - (88)$

$F_{2} (z) = (1 - a [16]) \underset{i = 0,2, \cdot \cdot \cdot, 14}{Π} (1 - 2 q_{i} z^{- 1} + z^{- 2}) - - - (89)$

其中，a[16]是最后一个线性预测系数，q_i＝cos(ω_i)，ω_i是导谱频率(immittance spectral frequencies,ISF)并且满足

0＜ω₁＜ω₂＜…＜ω₁₀＜π (90)

因为F₁(z)和F₂(z)都是对称多项式，所以只需要计算出每个多项式的前8个和前 7个系数以及最后一个线性预测系数。这些多项式的系数可以由一下递推关系得到

for i＝0to7

f₁(i)＝a_i+a_m-i

f₂(i)＝a_i-a_m-i+f₂(i-2)

f₁(8)＝2a₈

其中，m＝16为预测器阶数，f₂(-2)＝f₂(-1)＝0。当z＝e^jω时，则有：

F₁(ω)＝2e^-j8ωC₁(x) (91)

F₂(ω)＝2e^-j7ωC₂(x) (92)

其中，

$C_{1} (x) = Σ_{i = 0}^{7} f_{1} (i) T_{8 - i} (x) + f_{1} (8) / 2 - - - (93)$

$C_{2} (x) = Σ_{i = 0}^{6} f_{2} (i) T_{8 - i} (x) + f_{7} (7) / 2 - - - (94)$

其中，T_m＝cos(mω)是m阶Chebyshev多项式。f(i)(i＝1,2,…,5)是f₁(z)或者f₂(z)的系数。当x＝cos(ω)时，C(x)的递推关系为

for k＝n_f-1down to1

b_k＝2xb_k+1-b_k+2+f(n_f-k)

end

C(x)＝xb₁-b₂+f(n_f)/2,

其中，当n_f＝8时C(x)＝C₁(x);当n_f＝7时C(x)＝C₂(x)。b_nf＝f(0),b_nf+1＝0。

至此，已经求解得到了宽带语音的导谱对系数q_i(i＝1,2,…,16)

F12、10维LSP参数到16维ISP参数映射关系的训练

本专利通过引入支持向量回归(SVR)模型，完成从窄带语音LSP系数(A2解码得到)到宽带语音ISP系数(F11得到)的预测。预测的准确性与预测数据本身的特性和模型训练过程的参数设置有关，尤其是后者。由于ISP各维之间的相关性比较弱，所以可以分别进行10维LSP到一维ISP的模型训练(共需16次)。本发明以A2解码得到的10维LSP到F11得到的第一维ISP为例，介绍SVR模型的训练过程。

首先，要对A2解码得到的10维LSP进行归一化。此处归一化的方法有多种，本专利选用的是按维(列)归一化。具体实现过程如下：

(1)分别计算每一维的最大值max_i

$\max_{i} = \max_{0 < j \leq frame_num} {LSP}_{i}^{j}, i = 1,2, \cdot \cdot \cdot, 10 - - - (95)$

其中，frame_num为帧数，表示第j帧第i维的LSP系数。

(2)按维归一化

${LSP}_{i}^{j}_norm = \frac{{LSP}_{i}^{j}}{\max_{i}}, i = 1,2, \cdot \cdot \cdot, 10; j = 1,2, \cdot \cdot \cdot, frame_num - - - (96)$

然后，将归一化后的frame_num帧10维的LSP系数作为训练模型的输入； frame_num帧第一维的ISP系数(F11得到)作为训练模型的目标输出，由SVR进行训练得到模型一个由10维矢量到一维标量的预测模型model。本章训练过程 SVR参数设置如图14所示；

F2、开环基音周期映射关系训练

F21、宽带开环基音周期提取。

F211、ISP系数到ISF系数转换同D11。

F212、ISF系数量化同D12。

F213、4子帧ISP系数插值同D21。

F214、4子帧量化的ISP系数插值同D21。

F215、ISP系数到线性预测系数转换同D25。

F216、感知加权同D22。

F217、开环基音搜索同D23。

至此，已经求解得到了宽带语音的开环基音F22、开环基音周期映射关系训练分别以A51解码得到窄带语音的第一/三子帧的开环基音周期T₀₁/T₀₃作为函数输入，D215搜索得到的宽带语音的第一/三子帧的开环基音周期T_op1_wb/T_op3_wb作为函数输出，应用最小二乘法拟合LEN帧二者之间的函数关系:

T_wb=cT+d， (97)

利用最小二乘法拟合该函数关系的系数化简结果为

其中拟合得到的第一子帧之间的映射关系为

T_op1_wb＝T₀₁*0.819+31.452 (100)

第三子帧之间的映射关系为：

T_op3_wb＝T₀₃*0.728+30.339 (101)

F3、固定码本映射关系训练。

F31、固定码本参数提取。

F311、自适应码本目标信号计算同D26。

F312、冲激响应计算同D27。

F312、闭环基音搜索同D28。

F31、2闭环基音搜索同D3。

F313、自适应码本贡献计算同D41。

F314、固定码本搜索目标计算同D42，只是此处需要搜索脉冲所在轨道的所有位置。

F32、固定码本参数映射关系训练

在本发明中宽带固定码本扩展是通过码本映射完成的，所以需要离线建立一对一一对应的映射码本。其中窄带码本包括A6解码得到的8维窄带语音脉冲位置矢量，宽带码本包括F314搜索得到的24维宽带语音脉冲位置矢量。按照先是8维窄带语音脉冲位置，然后是24维宽带语音脉冲位置的顺序，组合成一个32维矢量。

其中窄码本生成采用动态聚类中的C-均值算法，宽带码本生成采用一种加权求平均的方法。

F321、窄带码本生成

通过C-均值聚类方法可以聚类得到低频包络码本。设码本容量(即聚类数) 为N，以24维矢量的前8维为聚类对象进行聚类处理，得到每一类的质心矢量，所有这些质心矢量的集合构成低频码本。若码本容量N过大，则计算量太大；若N过小，则码本增益过小，恢复出来的宽带语音信号效果较差。所以需要在计算复杂度和扩展语音质量之间寻求一种折中。在本章中，N取为2048。

F322、宽带码本生成

对于前8维聚类处理后的每一类，采用加权求平均的方法来计算后24维的中心矢量。该方法具体实现步骤如下：

(1)计算第i类初始质心aver0[i][k]

$aver 0 [i] [k] = \frac{1}{n} Σ_{j = 0}^{n} x [j] [k], i = ind [j], k = 10,11, \cdot \cdot \cdot, 37 - - - (102)$

其中，x[j][k]表示一个28维高频时域、频域包络矢量，n为某一类中的高频时域、频域包络矢量数，ind[j]表示矢量x[j][k]所在类的类别号。

(2)计算第j个矢量x[j][k]与所在类质心的距离dist[j]

$dist [j] = Σ_{k = 0}^{M} {(x [j] [k] - aver 0 [ind [j]] [k])}^{2}, k = 1,2, \cdot \cdot \cdot, 28 - - - (103)$

(3)计算第i类中所有矢量与质心之间距离倒数之和w[i]

$w [i] = \underset{ind [j] = i}{Σ} \frac{1}{dist [j]} - - - (104)$

(4)计算第i类新质心aver[i][k]

$aver [i] [k] = \underset{ind [j] = i}{Σ} \frac{1}{dist [j]} Σ_{k = 0}^{M_{i}} \frac{x [j] [k]}{w [i]} - - - (105)$

其中，M_i是第i类的矢量数。

(5)分别计算初始质心L₁范数sum0和新质心L₁范数sum

$sum 0 = Σ_{k = 0}^{M} | aver 0 [i] [k] | - - - (106)$

$sum = Σ_{k = 0}^{M} | aver [i] [k] | - - - (107)$

(6)判断每一类新质心和初始质心之间的距离是否小于预定门限T，即是否满足式(108)

$\frac{| sum 0 - sum |}{sum} \leq T - - - (108)$

若式(108)不满足，则令aver0[i][k]=aver[i][k]，并返回到步骤(2)，直到所有分类质心都满足式(108)。

迭代结束之后，所得到的质心即为高频时域包络以及频域包络聚类质心，所有这些质心组成高频包络码本。

在高频码本生成过程中，门限T的选择相当重要，若T太大，则不能有效减少一些特殊点对质心的影响；若T太小，则计算量会明显增大。因为，在本发明中，码本生成过程是离线进行的，所以T可以选的尽可能小

F4、高频增益索引映射关系训练

F41、高频增益索引提取

F411、固定码本增益计算

同D5

F412、基音增益计算

同D3

F413、增益量化

同D6

F414、激励计算

当前帧的激励信号u(n)为

$u (n) = {\hat{g}}_{p} v (n) + {\hat{g}}_{c} c (n) - - - (109)$

其中，和分别为F413中量化后的基音增益和固定码本增益。

F415、高频增益计算

在23.85kbps编码速率下，高频增益g_HB为

$g_{HB} = \frac{Σ_{i = 0}^{63} {(s_{HB} (i))}^{2}}{Σ_{i = 0}^{63} {(s_{HB 2} (i))}^{2}} - - - (110)$

其中，s_HB(i)为输入宽带语音经带通滤波器(通带为6.4到7KHz)滤波结果，s_HB2(i) 为高频带激励信号u_HB2(i)经高频带合成滤波器A_HB(i)滤波的结果

$A_{HB} (i) = \hat{A} (z / 0.8) - - - (111)$

由采样率为12.8KHz的信号分析得到，而解码的是16KHz的信号，所以

${FR}_{16} (f) = {FR}_{12.8} (\frac{12.8}{16} f) . - - - (112)$

其中，FR_12.8(f)为的频响。这说明12.8KHz采样率下的5.1KHz-5.6KHz将会映射成16KHz采样率下的6.4-7.0KHz。

F42、高频增益索引映射关系训练

窄带语音能量与高频增益索引的映射关系，可以由F22所介绍的最小二乘法进行线性拟合得出。将B5得到的窄带语音能量nb_ener_log作为输入，F415 得到的高频增益索引g_HB作为输出，利用最小二乘法进行线性拟合，可以得到二者之间的映射关系为：

g_HB＝0.535nb_ener_log+1310.7 (113)

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种AMR码流转换成AMR-WB码流的方法 [P] . 中国专利： CN103337243B . 2017.02.08
2. 一种AMR码流转换成AMR-WB码流的方法 [P] . 中国专利： CN103337243A . 2013-10-02
3. Encoded stream re-encoding method, encoded stream re-encoding apparatus, the encoding stream restoring method, encoded stream restoration device, the encoded stream re-encoding program, the computer reads recorded the encoded stream restoration program and their programs a recording medium [P] . 日本专利： JP4672594B2 . 2011-04-20

机译：编码流再编码方法，编码流再编码装置，编码流恢复方法，编码流还原装置，编码流再编码程序，计算机读取记录的编码流还原程序及其程序的记录介质
4. Encoded stream splicing method and the coded stream splicing machinery, coded stream generation method and the coded stream generation apparatus, and information processing apparatus and method [P] . 日本专利： JP3709721B2 . 2005-10-26

机译：编码流拼接方法和编码流拼接机器，编码流生成方法和编码流生成设备以及信息处理设备和方法
5. ENCODED STREAM RE-ENCODING METHOD, ENCODED STREAM RE-ENCODER, METHOD, DEVICE, AND PROGRAM FOR RESTORING ENCODED STREAM, AND ENCODED STREAM RE-ENCODING PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM FOR RECORDING THE PROGRAMS [P] . 日本专利： JP2007306274A . 2007-11-22

机译：编码流重编码方法，用于还原编码流的编码流重编码器，方法，设备和程序，以及用于记录程序的计算机可读记录介质和计算机可读记录介质