首页> 中国专利> 语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序

语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序

摘要

针对频域中表现的信号,利用协方差法或自相关法在频率方向上进行线形预测分析,求出线形预测系数,进而对求出的线形预测系数进行滤波强度的调整,然后利用调整后的系数在频率方向上进行滤波处理,由此使信号的时间包络变形。从而在以SBR为代表的频域中的频带扩展技术中,能够减轻所产生的前回声/后回声,提高解码信号的主观性质量而不使比特率显著增大。

著录项

  • 公开/公告号CN102379004A

    专利类型发明专利

  • 公开/公告日2012-03-14

    原文格式PDF

  • 申请/专利权人 株式会社NTT都科摩;

    申请/专利号CN201080014593.7

  • 发明设计人 辻野孝辅;菊入圭;仲信彦;

    申请日2010-04-02

  • 分类号G10L21/02(20060101);G10L19/02(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人李辉;于靖帅

  • 地址 日本东京都

  • 入库时间 2023-12-18 04:42:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-12-12

    授权

    授权

  • 2012-04-25

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20100402

    实质审查的生效

  • 2012-03-14

    公开

    公开

说明书

技术领域

本发明涉及语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音 编码程序以及语音解码程序。

背景技术

利用听觉心理去除人类知觉不需要的信息而将信号的数据量压缩为几十分之一 的语音音频编码技术在信号的传送/积蓄中是极为重要的技术。作为广泛使用的知觉 音频编码技术的例子,可列举以“ISO/IEC MPEG”标准化的“MPEG4AAC”等。

作为进一步提高语音编码的性能利用低比特率获得高语音质量的方法,近年来广 泛采用了利用语音的低频成分来生成高频成分的频带扩展技术。频带扩展技术的代表 例是“MPEG4 AAC”中利用的SBR(Spectral Band Replication:频带复制)技术。在 SBR中,针对通过QMF(Quadrature Mirror Filter:正交镜像滤波器)滤波器组变换 到频域的信号,进行从低频频带到高频频带的频谱系数的复写,由此生成高频成分, 然后,通过调整复写的系数的频谱包络和调性(tonality)来进行高频成分的调整。利 用了频带扩展技术的语音编码方式能够仅使用少量的辅助信息来再现信号的高频成 分,因此对于语音编码的低比特率化是有效的。

以SBR为代表的频域中的频带扩展技术,通过调整相对于频谱系数的增益、时 间方向的线形预测逆滤波处理、噪声重叠来对频域中表现的频谱系数进行频谱包络和 调性的调整。通过该调整处理,在对语音信号、拍手及响板这样的时间包络变化大的 信号进行编码时,有时在解码信号中会感知到被称为前回声(pre echo)或后回声(post echo)的残音状的噪声。这个问题是由于在调整处理的过程中高频成分的时间包络变 形并且多数情况下成为比调整前更平坦的形状而导致的。经由调整处理而变平坦的高 频成分的时间包络与编码前的原始信号中的高频成分的时间包络不一致,构成了产生 前回声/后回声的原因。

在以“MPEG Surround(环绕MPEG)”以及参数立体声为代表的采用参数处理 的多信道音频编码中也会产生同样的前回声/后回声的问题。多信道音频编码中的译 码器包括对解码信号进行基于残音滤波器的非相关化处理的单元,而且在非相关化处 理的过程中,信号的时间包络发生变形,产生与前回声/后回声同样的再现信号的劣 化。作为针对此课题的解决方法有TES(Temporal Envelope Shaping:时间包络成形) 技术(专利文献1)。在TES技术中,对QMF区域中表述的非相关化处理前的信号, 在频率方向进行线形预测分析,获得线形预测系数,然后,利用所获得的线形预测系 数对非相关化处理后的信号在频率方向进行线形预测合成滤波处理。通过该处理, TES技术提取出非相关化处理前的信号所具有的时间包络,并与其对应地调整非相关 化处理后的信号的时间包络。由于非相关化处理前的信号具有变形小的时间包络,因 此通过上述处理能够将非相关化处理后的信号的时间包络调整为变形小的形状,并且 能够获得改善了前回声/后回声的再现信号。

现有技术文献

专利文献

专利文献1:美国专利申请公开第2006/0239473号说明书

发明内容

发明所要解决的问题

以上所示的TES技术利用了非相关化处理前的信号具有变形小的时间包络。但 是,在SBR译码器中,通过对低频成分进行信号复写来复制出信号的高频成分,因 此无法获得与高频成分有关的变形小的时间包络。作为对此问题的解决方法之一,考 虑如下的方法:在SBR符号器中,对输入信号的高频成分进行分析,对分析结果获 得的线形预测系数进行量化并在比特流中进行复用而传送。由此,在SBR译码器中, 可获得包含与高频成分的时间包络有关的变形小的信息的线形预测系数。但是,此时, 伴随有如下的问题:量化后的线形预测系数的传送需要较多的信息量,编码比特流整 体的比特率明显增大。因此,本发明的目的是在以SBR为代表的频域内的频带扩展 技术中,能够减轻产生的前回声/后回声并提高解码信号的主观性质量,而不使比特 率显著增大。

解决问题的手段

本发明的语音编码装置是语音信号进行编码的语音编码装置,该语音编码装置的 特征在于,具备:核心编码单元,其对所述语音信号的低频成分进行编码;时间包络 辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助 信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以 及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、 和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。

在本发明的语音编码装置中,优选为,所述时间包络辅助信息表示如下参数,该 参数表示在规定的分析区间内所述语音信号的高频成分中的时间包络的变化的急剧 程度。

在本发明的语音编码装置中,优选为,所述语音编码装置还具备将所述语音信号 变换到频域的频率变换单元,所述时间包络辅助信息计算单元根据高频线形预测系数 来计算所述时间包络辅助信息,该高频线形预测系数是通过在频率方向上对由所述频 率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析而取得的。

在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元对由所述 频率变换单元变换到频域的所述语音信号的低频侧系数在频率方向上进行线形预测 分析,取得低频线形预测系数,根据该低频线形预测系数和所述高频线形预测系数来 计算所述时间包络辅助信息。

在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元分别根据 所述低频线形预测系数以及所述高频线形预测系数取得预测增益,并根据这两个预测 增益的大小来计算所述时间包络辅助信息。

在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元从所述语 音信号中分离出高频成分,从该高频成分中取得以时域表现的时间包络信息,并根据 该时间包络信息的时间的变化的大小来计算所述时间包络辅助信息。

在本发明的语音编码装置中,优选为,所述时间包络辅助信息包含差分信息,该 差分信息用于利用对所述语音信号的低频成分进行频率方向的线形预测分析而获得 的低频线形预测系数来取得高频线形预测系数。

在本发明的语音编码装置中,优选为,该语音编码装置还具备将所述语音信号变 换到频域的频率变换单元,所述时间包络辅助信息计算单元分别对由所述频率变换单 元变换到频域的所述语音信号的低频成分以及高频侧系数在频率方向上进行线形预 测分析,取得低频线形预测系数和高频线形预测系数,并取得该低频线形预测系数和 高频线形预测系数的差分,由此来取得所述差分信息。

在本发明的语音编码装置中,优选为,所述差分信息表示LSP(线谱对)、ISP (导抗谱对)、LSF(线谱频率)、ISF(导抗谱频率)、PARCOR系数的任意一个区 域中的线形预测系数的差分。

本发明的语音编码装置是对语音信号进行编码的语音编码装置,该语音编码装置 的特征在于,具备:核心编码单元,其对所述语音信号的低频成分进行编码;频率变 换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所 述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高 频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频 线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样 单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复 用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后 的所述高频线形预测系数的比特流。

本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音 解码装置的特征在于,具备:比特流分离单元,其将包含所述编码后的语音信号的来 自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比 特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其 将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由 所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高 频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成 分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息 调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单 元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成 单元生成的所述高频成分的时间包络变形。

在本发明的语音解码装置中,优选为,该语音解码装置还具备调整所述高频成分 的高频调整单元,所述频率变换单元是具有实数或复数系数的64通道QMF滤波器 组,所述频率变换单元、所述高频生成单元、所述高频调整单元进行以“ISO/IEC 14496-3”规定的“MPEG4 AAC”中的SBR译码器(SBR:Spectral Band Replication,频 带复制)为依据的动作。

在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率 变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预 测系数,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测 系数,所述时间包络变形单元针对由所述高频生成单元生成的频域的所述高频成分, 利用由所述时间包络调整单元调整后的线形预测系数,进行频率方向的线形预测滤波 处理,使语音信号的时间包络变形。

在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频 率变换单元变换到频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时 间包络信息,所述时间包络调整单元利用所述时间包络辅助信息调整所述时间包络信 息,所述时间包络变形单元通过将由所述高频生成单元生成的频域的高频成分与所述 调整后的时间包络信息重叠来使高频成分的时间包络变形。

在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频 率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,由此取得语音 信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述 时间包络信息,所述时间包络变形单元通过将所述高频生成单元所生成的频域的高频 成分与所述调整后的时间包络信息相乘来使高频成分的时间包络变形。

在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示用于调整线形 预测系数的强度的滤波强度参数。

在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该 参数表示所述时间包络信息的时间变化的大小。

在本发明的语音解码装置中,优选为,所述时间包络辅助信息包含相对于所述低 频线形预测系数的线形预测系数的差分信息。

在本发明的语音解码装置中,优选为,所述差分信息表示LSP(线谱对)、ISP (导抗谱对)、LSF(线谱频率)、ISF(导抗谱频率)、PARCOR系数的任意一个区 域中的线形预测系数的差分。

在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率 变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线 形预测系数,并且取得该频域的所述低频成分的每个时隙的功率,由此来取得语音信 号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低 频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时 间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用由所述时间包络 调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时 间包络变形,并且使该频域的所述高频成分与由所述时间包络调整单元调整后的所述 时间包络信息重叠,由此使所述高频成分的时间包络变形。

在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率 变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线 形预测系数,并且取得该频域的所述低频成分的每个QMF子带采样的功率,由此取 得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调 整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信 息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用所述 时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音 信号的时间包络变形,并且通过将该频域的所述高频成分与由所述时间包络调整单元 调整后的所述时间包络信息相乘来使所述高频成分的时间包络变形。

在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该 参数表示线形预测系数的滤波强度和所述时间包络信息的时间变化的大小两者。

本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音 解码装置的特征在于,具备:比特流分离单元,其将包含所述编码后的语音信号的来 自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元, 其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利 用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域 中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。

本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置 对语音信号进行编码,所述语音编码方法的特征在于,具有以下步骤:核心编码步骤, 所述语音编码装置对所述语音信号的低频成分进行编码;时间包络辅助信息计算步 骤,所述语音编码装置利用所述语音信号的低频成分的时间包络来计算时间包络辅助 信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以 及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中进行编 码了的所述低频成分、和在所述时间包络辅助信息计算步骤中计算出的所述时间包络 辅助信息的比特流。

本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置 对语音信号进行编码,所述该语音编码方法的特征在于,具有以下步骤:核心编码步 骤,所述语音编码装置对所述语音信号的低频成分进行编码;频率变换步骤,所述语 音编码装置将所述语音信号变换到频域;线形预测分析步骤,所述语音编码装置在频 率方向上对在所述频率变换步骤中变换到频域的所述语音信号的高频侧系数进行线 形预测分析,取得高频线形预测系数;预测系数抽样步骤,所述语音编码装置在时间 方向上对在所述线形预测分析单元步骤中取得的所述高频线形预测系数进行抽样;预 测系数量化步骤,所述语音编码装置将在所述预测系数抽样单元步骤中进行了抽样后 的所述高频线形预测系数进行量化;以及比特流复用步骤,所述语音编码装置生成至 少复用了在所述核心编码步骤中编码后的所述低频成分、和在所述预测系数量化步骤 中量化后的所述高频线形预测系数的比特流。

本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置 对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:比 特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流 分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述 比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步 骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高 频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频 成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析步骤,所述语音 解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包 络信息;时间包络调整步骤,所述语音解码装置利用所述时间包络辅助信息来调整在 所述低频时间包络分析步骤中取得的所述时间包络信息;以及时间包络变形步骤,所 述语音解码装置利用在所述时间包络调整步骤中调整后的所述时间包络信息,使在所 述高频生成步骤中生成的所述高频成分的时间包络变形。

本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置 对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:比 特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流 分离为编码比特流和线形预测系数;线形预测系数内插/外插步骤,所述语音解码装 置在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形步骤,所述 语音解码装置利用在所述线形预测系数内插/外插步骤中进行了内插或外插的所述线 形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音 信号的时间包络变形。

本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装 置作为以下单元发挥功能:核心编码单元,其对所述语音信号的低频成分进行编码; 时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间 包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的 近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低 频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特 流。

本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装 置作为以下单元发挥功能:核心编码单元,其对所述语音信号的低频成分进行编码; 频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上 对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析, 取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所 述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系 数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成 至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元 量化后的所述高频线形预测系数的比特流。

本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使 计算机装置作为以下单元发挥功能:比特流分离单元,其将包含所述编码后的语音信 号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对 所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单 元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通 过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来 生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述 低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅 助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变 形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频 生成单元生成的所述高频成分的时间包络变形。

本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使 计算机装置作为以下单元发挥功能:比特流分离单元,其将包含所述编码后的语音信 号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插 单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元, 其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在 频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变 形。

在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生 成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所 述线形预测滤波处理的结果获得的高频成分的功率调整为与所述线形预测滤波处理 前相等的值。

在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生 成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所 述线形预测滤波处理的结果获得的高频成分的任意频率范围内的功率调整为与所述 线形预测滤波处理前相等的值。

在本发明的语音解码装置中,优选为,所述时间包络辅助信息是所述调整后的所 述时间包络信息中的最小值与平均值的比率。

在本发明的语音解码装置中,优选为,所述时间包络变形单元控制所述调整后的 时间包络的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包 络变形之前与之后相等,然后通过将所述频域的高频成分与所述增益控制后的时间包 络相乘来使高频成分的时间包络变形。

在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频 率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,还利用在SBR 包络时间分段内的平均功率对每个所述QMF子带采样的功率进行归一化,由此取得 表现为乘上了各QMF子带采样的增益系数的时间包络信息。

本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音 解码装置的特征在于,具备:核心解码单元,其对包含所述编码后的语音信号的来自 外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单元获 得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到 频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析 单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络 信息;时间包络辅助信息生成部,其分析所述比特流而生成时间包络辅助信息;时间 包络调整单元,其利用所述时间包络辅助信息来调整由所述低频时间包络分析单元取 得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调 整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变 形。

在本发明的语音解码装置中,优选为,该语音解码装置具备相当于所述高频调整 单元的一次高频调整单元和二次高频调整单元,所述一次高频调整单元执行包含相当 于所述高频调整单元的处理的一部分的处理,所述时间包络变形单元对所述一次高频 调整单元的输出信号进行时间包络的变形,所述二次高频调整单元对所述时间包络变 形单元的输出信号,执行相当于所述高频调整单元的处理中的、所述一次高频调整单 元未执行的处理。所述二次高频调整单元优选为SBR解码过程中的正弦波的附加处 理。

发明效果

根据本发明,在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前 回声/后回声并提高解码信号的主观质量,而不用使比特率明显增大。

附图说明

图1是示出第1实施方式的语音编码装置的结构的图。

图2是用于说明第1实施方式的语音编码装置的动作的流程图。

图3是示出第1实施方式的语音解码装置的结构的图。

图4是用于说明第1实施方式的语音解码装置的动作的流程图。

图5是示出第1实施方式的变形例1的语音编码装置的结构的图。

图6是示出第2实施方式的语音编码装置的结构的图。

图7是用于说明第2实施方式的语音编码装置的动作的流程图。

图8是示出第2实施方式的语音解码装置的结构的图。

图9是用于说明第2实施方式的语音解码装置的动作的流程图。

图10是示出第3实施方式的语音编码装置的结构的图。

图11是用于说明第3实施方式的语音编码装置的动作的流程图。

图12是示出第3实施方式的语音解码装置的结构的图。

图13是用于说明第3实施方式的语音解码装置的动作的流程图。

图14是示出第4实施方式的语音解码装置的结构的图。

图15是示出第4实施方式的变形例的语音解码装置的结构的图。

图16是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图17是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图18是示出第1实施方式的其它变形例的语音解码装置的结构的图。

图19是用于说明第1实施方式的其它变形例的语音解码装置的动作的流程图。

图20是示出第1实施方式的其它变形例的语音解码装置的结构的图。

图21是用于说明第1实施方式的其它变形例的语音解码装置的动作的流程图。

图22是示出第2实施方式的变形例的语音解码装置的结构的图。

图23是用于说明第2实施方式的变形例的语音解码装置的动作的流程图。

图24是示出第2实施方式的其它变形例的语音解码装置的结构的图。

图25是用于说明第2实施方式的其它变形例的语音解码装置的动作的流程图。

图26是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图27是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图28是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图29是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图30是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图31是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图32是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图33是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图34是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图35是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图36是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图37是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图38是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图39是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图40是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图41是说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图42是示出第4实施方式的其它变形例的语音解码装置的结构的图。

图43是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。

图44是示出第1实施方式的其它变形例的语音编码装置的结构的图。

图45是示出第1实施方式的其它变形例的语音编码装置的结构的图。

图46是示出第2实施方式的变形例的语音编码装置的结构的图。

图47是示出第2实施方式的其它变形例的语音编码装置的结构的图。

图48是示出第4实施方式的语音编码装置的结构的图。

图49是示出第4实施方式的其它变形例的语音编码装置的结构的图。

图50是示出第4实施方式的其它变形例的语音编码装置的结构的图。

具体实施方式

以下,参照附图来详细说明本发明的优选实施方式。此外,在附图说明中,在可 能的情况下,对同一要素标注同一标号,并省略重复说明。

(第1实施方式)

图1是示出第1实施方式的语音编码装置11的结构的图。语音编码装置11物理 上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音 编码装置11的内置存储器中存储的预定的计算机程序(例如,用于进行图2的流程 图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音编码装置11。 语音编码装置11的通信装置从外部接收作为编码对象的语音信号,而且,将编码后 的复用比特流向外部输出。

语音编码装置11在功能上具备:频率变换部1a(频率变换单元)、频率逆变换 部1b、核心编解码器(core codec)编码部1c(核心编码单元)、SBR编码部1d、 线形预测分析部1e(时间包络辅助信息计算单元)、滤波强度参数计算部1f(时间 包络辅助信息计算单元)以及比特流复用部1g(比特流复用单元)。图1所示的语 音编码装置11的频率变换部1a~比特流复用部1g是通过语音编码装置11的CPU运 行存储在语音编码装置11的内置存储器中的计算机程序而实现的功能。语音编码装 置11的CPU通过运行该计算机程序(利用图1所示的频率变换部1a~比特流复用部 1g)来依次执行图2的流程图所示处理(步骤Sa1~步骤Sa7的处理)。该计算机程 序运行所需的各种数据以及通过运行该计算机程序生成的各种数据全部都存储在语 音编码装置11的ROM或RAM等内置存储器中。

频率变换部1a通过多通道QMF滤波器组分析经由语音编码装置11的通信装置 接收到的来自外部的输入信号,并获得QMF区域的信号q(k,r)(步骤Sa1的处理)。 其中,k(0≤k≤63)是频率方向的索引,r是表示时隙的索引。频率逆变换部1b利 用QMF滤波器组来合成从频率变换部1a获得的、QMF区域的信号中的低频侧的一 半系数,并获得仅包含输入信号的低频成分的下采样后的时域信号(步骤Sa2的处 理)。核心编解码器编码部1c对下采样后的时域信号进行编码并获得编码比特流(步 骤Sa3的处理)。核心编解码器编码部1c中的编码可基于以CELP方式为代表的语 音编码方式,另外还可基于以AAC为代表的转换编码或TCX(Transform Coded Excitation,转换编码激励)方式等的音频编码。

SBR编码部1d从频率变换部1a接收QMF区域的信号,并根据高频成分的功率 /信号变化/调性等的分析进行SBR编码,获得SBR辅助信息(步骤Sa4的处理)。 关于频率变换部1a中的QMF分析的方法以及SBR编码部1d中的SBR编码的方法, 例如,在文献“3GPP TS 26.404;Enhanced aacPlus encoder SBR part”中进行详细叙述。

线形预测分析部1e从频率变换部1a接收QMF区域的信号,并针对该信号的高 频成分在频率方向上进行线形预测分析,取得高频线形预测系数aH(n,r)(1≤n≤N) (步骤Sa5的处理)。其中,N是线形预测次数。另外,索引r是与QMF区域的信号 的子采样有关的时间方向的索引。关于信号线形预测分析,可以采用协方差法或自相 关法。针对q(k,r)中满足kx<k≤63的高频成分进行取得aH(n,r)时的线形预测分 析。其中,kx是与利用核心编解码器编码部1c进行编码的频谱区域的上限频率对应 的频率索引。另外,线形预测分析部1e也可以针对与在取得aH(n,r)时分析的频率 不同的低频成分进行线形预测分析,取得与aH(n,r)不同的低频线形预测系数aL(n,r) (这种与低频成分有关的线形预测系数与时间包络信息对应,以下,在第1实施方式 中是同样的)。在取得aL(n,r)时的线形预测分析是针对满足0≤k<kx的低频成分进 行分析。另外,该线形预测分析可以是针对0≤k<kx区间所包含的一部分频率区域进 行分析。

滤波强度参数计算部1f例如采用线形预测分析部1e所取得的线形预测系数来计 算滤波强度参数(滤波强度参数与时间包络辅助信息对应,以下,在第1实施方式中 是同样的)(步骤Sa6的处理)。首先,由aH(n,r)计算预测增益GH(r)。预测增 益的计算方法例如在“声音符号化、守谷健弘著  電子情報通信学会編(语音编码、 守谷健弘著、电子信息通信学会编)”中进行详细叙述。此外,在计算aL(n,r)的 情况下,同样计算预测增益GL(r)。滤波强度参数K(r)是随着GH(r)变大而变 大的参数,例如可根据下式(1)获得。其中,max(a,b)表示a和b的最大值,min (a,b)表示a和b的最小值。

[式1]

K(r)=max(0,min(1,GH(r)-1))

另外,在计算GL(r)的情况下,K(r)可作为随着GH(r)变大而变大、随着 GL(r)变大而变小的参数取得。此时的K例如可根据下式(2)来取得。

[式2]

K(r)=max(0,min(1,GH(r)/GL(r)-1))

K(r)是表示在SBR解码时调整高频成分的时间包络的强度的参数。与频率方 向的线形预测系数相对的预测增益随着分析区间的信号的时间包络表现出急剧的变 化而成为较大的值。K(r)是如下这样的参数:其值越大,越对译码器指示增强使 SBR所生成的高频成分的时间包络急剧变化的处理。此外,K(r)也可以是如下这 样的参数,其值越小,则越对译码器(例如,语音解码装置21等)指示减弱使SBR 所生成的高频成分的时间包络急剧变化的处理,该参数还可包含表示不执行使时间包 络急剧变化的处理的值。另外,还可以不传送各时隙的K(r),而传送代表多个时 隙的K(r)。为了决定共用同一K(r)值的时隙的区间,优选采用包含在SBR辅助 信息中的SBR包络的时间边界(SBR envelope time border)信息。

K(r)被量化之后被发送至比特流复用部1g。优选在量化前针对多个时隙r取 得例如K(r)的平均,由此来计算代表多个时隙的K(r)。而且,在传送代表多个 时隙的K(r)的情况下,也可以根据由多个时隙构成的整个区间的分析结果来取得 代表的K(r),而不是像式(2)那样根据分析各个时隙得到的结果来独立地进行K (r)的计算。例如可根据下式(3)来计算这种情况下的K(r)。其中,mean(·) 表示K(r)所代表的时隙区间内的平均值。

[式3]

K(r)=max(0,min(1,mean(GH(r)/mean(GL(r))-1)))

此外,在传送K(r)时,可与在“ISO/IEC 14496-3 subpart 4 General Audio Coding” 中记载的SBR辅助信息中包含的逆滤波模式信息相互排斥地传送。即,对于传送SBR 辅助信息的逆滤波模式信息的时隙,不传送K(r),而对于传送K(r)的时隙,不 传送SBR辅助信息的逆滤波模式信息(“ISO/IEC 14496-3 subpart 4 General Audio Coding”中的bs#invf#mode)。此外,也可以附加表示已传送K(r)或SBR辅助信息 中包含的逆滤波模式信息的哪一个的信息。另外,还可以将K(r)与SBR辅助信息 中包含的逆滤波模式信息组合作为一个矢量信息使用,并对该矢量进行熵编码。此时, 可以对K(r)与SBR辅助信息中包含的逆滤波模式信息之间的值的组合进行制约。

比特流复用部1g对由核心编解码器编码部1c计算出的编码比特流、由SBR编 码部1d计算出的SBR辅助信息和由滤波强度参数计算部1f计算出的K(r)进行复 用,并经由语音编码装置11的通信装置输出复用比特流(编码后的复用比特流)(步 骤Sa7的处理)。

图3是示出第1实施方式的语音解码装置21的结构的图。语音解码装置21物理 上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音 解码装置21的内置存储器中存储的预定的计算机程序(例如,用于进行图4的流程 图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置21。 语音解码装置21的通信装置接收从语音编码装置11、后述变形例1的语音编码装置 11a或后述变形例2的语音编码装置输出的编码后的复用比特流,而且,向外部输出 已解码的语音信号。如图3所示,语音解码装置21在功能上具备:比特流分离部2a (比特流分离单元)、核心编解码器解码部2b(核心解码单元)、频率变换部2c(频 率变换单元)、低频线形预测分析部2d(低频时间包络分析单元)、信号变化检测 部2e、滤波强度调整部2f(时间包络调整单元)、高频生成部2g(高频生成单元)、 高频线形预测分析部2h、线形预测逆滤波部2i、高频调整部2j(高频调整单元)、 线形预测滤波部2k(时间包络变形单元)、系数相加部2m以及频率逆变换部2n。 图3所示的语音解码装置21的比特流分离部2a~包络形状参数计算部1n是通过语音 解码装置21的CPU执行语音解码装置21的内置存储器中存储的计算机程序来实现 的功能。语音解码装置21的CPU通过执行该计算机程序(利用图3所示的比特流分 离部2a~包络形状参数计算部1n),依次执行图4的流程图所示的处理(步骤Sb1~ 步骤Sb11的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生 成的各种数据全部存储在语音解码装置21的ROM或RAM等内置存储器中。

比特流分离部2a经由语音解码装置21的通信装置将输入的复用比特流分离为滤 波强度参数、SBR辅助信息和编码比特流。核心编解码器解码部2b对从比特流分离 部2a输出的编码比特流进行解码,获得仅包含低频成分的解码信号(步骤Sb1的处 理)。此时,解码的方式可以基于以CELP方式为代表的语音编码方式,也可以基于 AAC或TCX(Transform Coded Excitation)方式等的音频编码。

频率变换部2c通过多通道QMF滤波器组分析从核心编解码器解码部2b输出的 解码信号,获得QMF区域的信号qdec(k,r)(步骤Sb2的处理)。其中,k(0≤k≤63) 是频率方向的索引,r是表示与QMF区域信号的子采样有关的时间方向索引的索引。

低频线形预测分析部2d针对各个时隙r在频率方向对从频率变换部2c获得的qdec(k,r)进行线形预测分析,取得低频线形预测系数adec(n,r)(步骤Sb3的处理)。 在与从核心编解码器解码部2b获得的解码信号的信号频带对应的0≤k<kx的范围中 进行线形预测分析。此外,该线形预测分析可以是针对0≤k<kx区间中包含的一部分 频域进行分析。

信号变化检测部2e检测从频率变换部2c获得的QMF区域的信号的时间变化, 并作为检测结果T(r)输出。例如可利用以下所示的方法进行信号变化的检测。

1.利用下式(4)取得时隙r中的信号的短时功率p(r)。

[式4]

p(r)=Σk=063|qdec(k,r)|2

2.利用下式(5)取得平滑了p(r)的包络penv(r)。其中,α是满足0<α<1的 常数。

[式5]

penv(r)=α·penv(r-1)+(1-α)·p(r)

3.利用p(r)和penv(r)根据下式(6)取得T(r)。其中,β是常数。

[式6]

T(r)=max(1,p(r)/(β·penv(r)))

以上所示的方法是基于功率变化的信号变化检测的简单例,也可以利用其它更加 简练的方法来进行信号变化检测。另外,还可以省略信号变化检测部2e。

滤波强度调整部2f针对从低频线形预测分析部2d获得的adec(n,r)进行滤波强 度的调整,获得调整后的线形预测系数aadj(n,r)(步骤Sb4的处理)。滤波强度的 调整可利用经由比特流分离部2a接收到的滤波强度参数K,例如根据下式(7)来进 行。

[式7]

aadj(n,r)=adec(n,r)·K(r)n    (1≤n≤N)

此外,在获得信号变化检测部2e的输出T(r)的情况下,也可以根据下式(8) 来进行强度的调整。

[式8]

aadj(n,r)=adec(n,r)·(K(r)·T(r))n    (1≤n≤N)

高频生成部2g将由频率变换部2c获得的QMF区域信号从低频频带复写到高频 频带,生成高频成分的QMF区域信号qexp(k,r)(步骤Sb5的处理)。高频的生成 可根据“MPEG4 AAC”的SBR中的高频生成(HF generation)方法来进行(“ISO/IEC 14496-3 subpart 4 General Audio Coding”)。

高频线形预测分析部2h针对各个时隙r在频率方向对高频生成部2g所生成的 qexp(k,r)进行线形预测分析,取得高频线形预测系数aexp(n,r)(步骤Sb6的处理)。 针对与高频生成部2g所生成的高频成分对应的kx≤k≤63范围进行线形预测分析。

线形预测逆滤波部2i将高频生成部2g所生成的高频频带的QMF区域的信号作 为对象,在频率方向进行以aexp(n,r)为系数的线形预测逆滤波处理(步骤Sb7的处 理)。线形预测逆滤波器的传递函数如下式(9)所示。

[式9]

f(z)=1+Σn=1Naexp(n,r)z-n

该线形预测逆滤波处理可以从低频侧的系数向高频侧的系数进行,也可以反向进 行。线形预测逆滤波处理是用于在后段中进行时间包络变形之前使高频成分的时间包 络暂时平坦化的处理,也可以省略线形预测逆滤波部2i。另外,取代对来自高频生成 部2g的输出进行针对高频成分的线形预测分析和逆滤波处理,可以针对来自后述高 频调整部2j的输出进行基于高频线形预测分析部2h的线形预测分析和基于线形预测 逆滤波部2i的逆滤波处理。此外,用于线形预测逆滤波处理的线形预测系数可以不 是aexp(n,r),而是adec(n,r)或aadj(n,r)。另外,用于线形预测逆滤波处理的线形 预测系数可以是对aexp(n,r)进行滤波强度调整而取得的线形预测系数aexp,adj(n,r)。 强度调整与取得aadj(n,r)时同样例如可根据下式(10)来进行。

[式10]

aexp,adj(n,r)=aexp(n,r)·K(r)n    (1≤n≤N)

高频调整部2j对来自线形预测逆滤波部2i的输出进行高频成分的频率特性以及 调性的调整(步骤Sb8的处理)。根据从比特流分离部2a输出的SBR辅助信息来进 行该调整。基于高频调整部2j的处理是根据“MPEG4 AAC”的SBR中的“高频调整(HF adjustment)”步骤来进行的,是针对高频频带的QMF区域信号进行时间方向的线形 预测逆滤波处理、增益的调整以及噪声的重叠的调整。在“ISO/IEC 14496-3 subpart 4 General Audio Coding”中详细叙述了以上步骤的详细处理。此外,如上所述,频率变 换部2c、高频生成部2g以及高频调整部2j均进行以“ISO/IEC 14496-3”规定的“MPEG4 AAC”中的SBR译码器为依据的动作。

线形预测滤波部2k针对从高频调整部2j输出的QMF区域的信号的高频成分qadj(n,r),利用从滤波强度调整部2f获得的aadj(n,r)在频率方向进行线形预测合成滤 波处理(步骤Sb9的处理)。线形预测合成滤波处理中的传递函数如下式(11)所述。

[式11]

g(z)=11+Σn=1Naadj(n,r)z-n

通过该线形预测合成滤波处理,线形预测滤波部2k使基于SBR生成的高频成分 的时间包络变形。

系数相加部2m将包含从频率变换部2c输出的低频成分的QMF区域的信号与包 含从线形预测滤波部2k输出的高频成分的QMF区域的信号相加,输出包含低频成 分与高频成分两者的QMF区域的信号(步骤Sb10的处理)。

频率逆变换部2n利用QMF合成滤波器组对从系数相加部2m获得的QMF区域 的信号进行处理。由此,取得时域的解码后的语音信号(其包含由核心编解码器解码 获得的低频成分和由SBR生成并利用线形预测滤波器对时间包络进行了变形的高频 成分两者),将该取得的语音信号经由内置的通信装置输出至外部(步骤Sb11的处 理)。此外,频率逆变换部2n在相互排斥地传送K(r)和“ISO/IEC 14496-3 subpart 4 General Audio Coding”中记载的SBR辅助信息的逆滤波模式信息的情况下,针对传送 K(r)且不传送SBR辅助信息的逆滤波模式信息的时隙,利用与该时隙前后的时隙 中的至少一个时隙对应的SBR辅助信息的逆滤波模式信息,可生成该时隙的SBR辅 助信息的逆滤波模式信息,也可以将该时隙的SBR辅助信息的逆滤波模式信息设定 为预先决定地规定模式。另一方面,频率逆变换部2n可针对传送SBR辅助信息的逆 滤波器数据且不传送K(r)的时隙,利用与该时隙前后的时隙中的至少一个时隙对 应的K(r),生成该时隙的K(r),也可以将该时隙K(r)设定为预先决定的规定 值。此外,频率逆变换部2n可根据表示已传送K(r)或SBR辅助信息的逆滤波模 式信息的哪一个的信息,来判断已传送的信息是K(r)还是SBR辅助信息的逆滤波 模式信息。

(第1实施方式的变形例1)

图5是示出第1实施方式的语音编码装置的变形例(语音编码装置11a)的结构 的图。语音编码装置11a物理上具备未图示的CPU、ROM、RAM以及通信装置等, 该CPU通过将ROM等语音编码装置11a的内置存储器中存储的规定的计算机程序 加载到RAM中并运行来统一地控制语音编码装置11a。语音编码装置11a的通信装 置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。

如图5所示,语音编码装置11a在功能上具备:高频频率逆变换部1h、短时功 率计算部1i(时间包络辅助信息计算单元)、滤波强度参数计算部1f1(时间包络辅 助信息计算单元)以及比特流复用部1g1(比特流复用单元),来代替语音编码装置 11的线形预测分析部1e、滤波强度参数计算部1f以及比特流复用部1g。比特流复用 部1g1具有与1G同样的功能。图5所示的语音编码装置11a的频率变换部1a~SBR 编码部1d、高频频率逆变换部1h、短时功率计算部1i、滤波强度参数计算部1f1以 及比特流复用部1g1是通过语音编码装置11a的CPU运行存储在语音编码装置11a 的内置存储器中的计算机程序来实现的功能。执行该计算机程序所需的各种数据以及 运行该计算机程序所生成的各种数据均存储在语音编码装置11a的ROM及RAM等 内置存储器。

高频频率逆变换部1h在将从频率变换部1a获得的QMF区域的信号中的、与由 核心编解码器编码部1c编码了的低频成分对应的系数置换为“0”之后,利用QMF合 成滤波器组进行处理,获得仅包含高频成分的时域信号。短时功率计算部1i将从高 频频率逆变换部1h获得的时域的高频成分划分为短区间而计算其功率,计算p(r)。 此外,作为替代方法,还可以利用QMF区域的信号通过下式(12)来计算短时功率。

[式12]

p(r)=Σk=063|q(k,r)|2

滤波强度参数计算部1f1检测p(r)的变化部分并决定K(r)的值,使得K(r) 随着p(r)的变化变大而变大。K(r)的值例如可利用与语音解码装置21的信号变 化检测部2e中计算T(r)相同的方法来计算。此外,还可以利用其它更简练的方法 来进行信号变化检测。另外,滤波强度参数计算部1f1也可以在针对低频成分和高频 成分分别取得短时功率之后,利用与语音解码装置21的信号变化检测部2e中计算T (r)相同的方法来取得低频成分以及高频成分各自的信号变化Tr(r)、Th(r),并 利用它们来确定K(r)的值。此时,例如,可根据下式(13)来取得K(r)。其中, ε例如是3.0等常数。

[式13]

K(r)=max(0,ε·(Th(r)-Tr(r)))

(第1实施方式的变形例2)

第1实施方式的变形例2的语音编码装置(未图示)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等变形例2的语音编码装置的内 置存储器中存储的预定的计算机程序加载到RAM并运行来统一地控制变形例2的语 音编码装置。变形例2的语音编码装置的通信装置从外部接收作为编码对象的语音信 号,并且将编码后的复用比特流输出至外部。

变形例2的语音编码装置在功能上具备未图示的线形预测系数差分编码部(时间 包络辅助信息计算单元)和接收来自该线形预测系数差分编码部的输出的比特流复用 部(比特流复用单元),来代替语音编码装置11的滤波强度参数计算部1f以及比特 流复用部1g。变形例2的语音编码装置的频率变换部1a~线形预测分析部1e、线形 预测系数差分编码部以及比特流复用部通过变形例2的语音编码装置的CPU执行变 形例2的语音编码装置的内置存储器中存储的计算机程序来实现功能。运行该计算机 程序所需的各种数据以及运行该计算机程序所生成的各种数据都存储在变形例2的 语音编码装置的ROM及RAM等内置存储器中。

线形预测系数差分编码部利用输入信号的aH(n,r)和输入信号的aL(n,r)根据 下式(14)来计算线形预测系数的差分值aD(n,r)。

[式14]

aD(n,r)=aH(n,r)-aL(n,r)(1≤n≤N)

线形预测系数差分编码部接着对aD(n,r)进行量化,并发送给比特流复用部(与 比特流复用部1g对应的结构)。该比特流复用部取代K(r)而将aD(n,r)复用到比 特流中,经由内置的通信装置将该复用比特流输出至外部。

第1实施方式的变形例2的语音解码装置(未图示)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等变形例2的语音解码装置的内 置存储器中存储的预定的计算机程序加载到RAM中并运行,来统一地控制变形例2 的语音解码装置。变形例2的语音解码装置的通信装置接收从语音编码装置11、变 形例1的语音编码装置11a或变形例2的语音编码装置输出的编码后的复用比特流, 而且将解码后的语音信号输出至外部。

变形例2的语音解码装置在功能上具备未图示的线形预测系数差分解码部,而取 代了语音解码装置21的滤波强度调整部2f。变形例2的语音解码装置的比特流分离 部2a~信号变化检测部2e、线形预测系数差分解码部以及高频生成部2g~频率逆变换 部2n通过变形例2的语音解码装置的CPU运行变形例2的语音解码装置的内置存储 器中存储的计算机程序来实现功能。运行该计算机程序所需的各种数据以及运行该计 算机程序所生成的各种数据均存储在变形例2的语音解码装置的ROM及RAM等内 置存储器中。

线形预测系数差分解码部利用从低频线形预测分析部2d获得的aL(n,r)和从比 特流分离部2a输出的aD(n,r),根据下式(15)来获得差分解码后的aadj(n,r)。

[式15]

aadj(n,r)=adec(n,r)+aD(n,r),1≤n≤N

线形预测系数差分解码部将这样差分解码后的aadj(n,r)发送给线形预测滤波部 2k。aD(n,r)如式子(14)所示可以是预测系数的区域中的差分值,也可以是在将预 测系数变换为LSP(Linear Spectrum Pair,线谱对)、ISP(Immittance Spectrum Pair, 导抗谱对)、LSF(Linear Spectrum Frequency,线谱频率)、ISF(Immittance Spectrum Frequency,导抗谱频率)、PARCOR系数等其它表现形式之后取差分的值。在此情 况下,差分解码也同样为相同的表现形式。

(第2实施方式)

图6是示出第2实施方式的语音编码装置12的结构的图。语音编码装置12物理 上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音 编码装置12的内置存储器中存储的预定的计算机程序(例如,用于进行图7的流程 图所示处理的计算机程序)加载至RAM中并运行,来统一地控制语音编码装置12。 语音编码装置12的通信装置从外部接收作为编码对象的语音信号,而且将编码后的 复用比特流输出至外部。

语音编码装置12在功能上具备线形预测系数抽样部1j(预测系数抽样单元)、 线形预测系数量化部1k(预测系数量化单元)以及比特流复用部1g2(比特流复用单 元),来取代语音编码装置11的滤波强度参数计算部1f以及比特流复用部1g。图6 所示的语音编码装置12的频率变换部1a~线形预测分析部1e(线形预测分析单元)、 线形预测系数抽样部1j、线形预测系数量化部1k以及比特流复用部1g2通过语音编 码装置12的CPU执行语音编码装置12的内置存储器中存储的计算机程序来实现功 能。语音编码装置12的CPU通过运行该计算机程序(利用图6所示的语音编码装置 12的频率变换部1a~线形预测分析部1e、线形预测系数抽样部1j、线形预测系数量 化部1k以及比特流复用部1g2)来依次执行图7的流程图所示的处理(步骤Sa1~步 骤Sa5以及步骤Sc1~步骤Sc3的处理)。执行该计算机程序所需的各种数据以及执 行该计算机程序所生成的各种数据均存储在语音编码装置12的ROM及RAM等内置 存储器中。

线形预测系数抽样部1j在时间方向上对从线形预测分析部1e获得的aH(n,r)进 行抽样,并将aH(n,r)中与一部分时隙ri对应的值和对应的ri的值发送给线形预测 系数量化部1k(步骤Sc1的处理)。其中,0≤i<Nts,Nts是在帧中进行aH(n,r)的 传送的时隙数。线形预测系数的抽样可以是基于固定的时间间隔的抽样,此外,也可 以是基于aH(n,r)的性质的不等时间间隔的抽样。例如,考虑在具有某长度的帧中 比较aH(n,r)的GH(r),在GH(r)超过固定值的情况下将aH(n,r)作为量化对象 等的方法。在不依据aH(n,r)的性质而将线形预测系数的抽样间隔均设为固定间隔 的情况下,无需针对不作为传送对象的时隙计算aH(n,r)。

线形预测系数量化部1k对从线形预测系数抽样部1j输出的抽样后的高频线形预 测系数aH(n,ri)和对应时隙的索引ri进行量化,并发送至比特流复用部1g2(步骤 Sc2的处理)。此外,作为代替结构,可以与第1实施方式的变形例2的语音编码装 置同样,将线形预测系数的差分值aD(n,ri)作为量化对象,来取代对aH(n,ri)进行 量化。

比特流复用部1g2将由核心编解码器编码部1c计算出的编码比特流、由SBR编 码部1d计算出的SBR辅助信息、以及与线形预测系数量化部1k输出的量化后的aH(n,ri)对应的时隙的索引{ri}复用到比特流中,并经由语音编码装置12的通信装置输 出该复用比特流(步骤Sc3的处理)。

图8是示出第2实施方式的语音解码装置22的结构的图。语音解码装置22物理 上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU将ROM等语音解码 装置22的内置存储器中存储的预定的计算机程序(例如,用于进行图9的流程图所 示的处理的计算机程序)加载到RAM中并运行,来统一地控制语音解码装置22。语 音解码装置22的通信装置接收从语音编码装置12输出的编码后的复用比特流,而且 将解码后的语音信号输出至外部。

语音解码装置22在功能上具备比特流分离部2a1(比特流分离单元)、线形预 测系数内插/外插部2p(线形预测系数内插/外插单元)以及线形预测滤波部2k1(时 间包络变形单元),来代替语音解码装置21的比特流分离部2a、低频线形预测分析 部2d、信号变化检测部2e、滤波强度调整部2f以及线形预测滤波部2k。图8所示的 语音解码装置22的比特流分离部2a1、核心编解码器解码部2b、频率变换部2c、高 频生成部2g~高频调整部2j、线形预测滤波部2k1、系数相加部2m、频率逆变换部 2n以及线形预测系数内插/外插部2p通过语音编码装置12的CPU运行语音编码装置 12的内置存储器中存储的计算机程序来实现功能。语音解码装置22的CPU通过执 行该计算机程序(利用图8所示的比特流分离部2a1、核心编解码器解码部2b、频 率变换部2c、高频生成部2g~高频调整部2j、线形预测滤波部2k1、系数相加部2m、 频率逆变换部2n以及线形预测系数内插/外插部2p),来依次执行图9的流程图所示 的处理(步骤Sb1~步骤Sb2、步骤Sd1、步骤Sb5~步骤Sb8、步骤Sd2以及步骤Sb10~ 步骤Sb11的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生 成的各种数据均存储在语音解码装置22的ROM及RAM等内置存储器中。

语音解码装置22具备比特流分离部2a1、线形预测系数内插/外插部2p以及线形 预测滤波部2k1,来代替语音解码装置22的比特流分离部2a、低频线形预测分析部 2d、信号变化检测部2e、滤波强度调整部2f以及线形预测滤波部2k。

比特流分离部2a1将经由语音解码装置22的通信装置输入的复用比特流分离为 与量化后的aH(n,ri)对应的时隙的索引ri、SBR辅助信息和编码比特流。

线形预测系数内插/外插部2p从比特流分离部2a1接收与量化后的aH(n,ri)对 应的时隙的索引ri,并通过内插或外插取得与没有传送线形预测系数的时隙对应的aH(n,r)(步骤Sd1的处理)。线形预测系数内插/外插部2p例如可根据下式(16)来 进行线形预测系数的外插。

[式16]

aH(n,r)=δ|r-ri0|aH(n,ri0),(1nN)

其中,ri0是与传送线形预测系数的时隙{ri}中的r最接近的数。另外,δ是满足 0<δ<1的常数。

另外,线形预测系数内插/外插部2p例如可根据下式(17)来进行线形预测系数 的内插。其中,满足ri0<r<ri0+1

[式17]

aH(n,r)=ri0+1-rri0+1-ri·aH(n,ri)+r-ri0ri0+1-ri0·aH(n,ri0+1),(1nN)

此外,线形预测系数内插/外插部2p可以在将线形预测系数变换为LSP(Linear Spectrum Pair,线谱对),ISP(Immittance Spectrum Pair,导抗谱对),LSF(Linear Spectrum Frequency,线谱频率),ISF(Immittance Spectrum Frequency,导抗谱频率), PARCOR系数等的其它表现形式之后进行内插/外插,将获得的值变换为线形预测系 数进行使用。将内插或外插后的aH(n,r)发送给线形预测滤波部2k1,用作线形预测 合成滤波处理中的线形预测系数,但是也可以用作线形预测逆滤波部2i中的线形预 测系数。在比特流中复用aD(n,ri)而不是aH(n,r)的情况下,线形预测系数内插/ 外插部2p在上述内插或外插处理之前,进行与第1实施方式的变形例2的语音解码 装置同样的差分解码处理。

线形预测滤波部2k1针对从高频调整部2j输出的qadj(n,r),利用从线形预测系 数内插/外插部2p获得的进行了内插或外插的aH(n,r),在频率方向上进行线形预测 合成滤波处理(步骤Sd2的处理)。线形预测滤波部2k1的传递函数如下式(18) 所述。线形预测滤波部2k1与语音解码装置21的线形预测滤波部2k同样地,通过进 行线形预测合成滤波处理来使基于SBR生成的高频成分的时间包络变形。

[式18]

g(z)=11+Σn=1NaH(n,r)z-n

(第3实施方式)

图10是示出第3实施方式的语音编码装置13的结构的图。语音编码装置13物 理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语 音编码装置13的内置存储器中存储的预定的计算机程序(例如,用于进行图11的流 程图所示的处理的计算机程序)加载到RAM中并运行,统一地控制语音编码装置13。 语音编码装置13的通信装置从外部接收作为编码对象的语音信号,而且将编码后的 复用比特流输出至外部。

语音编码装置13在功能上具备时间包络计算部1m(时间包络辅助信息计算单 元)、包络形状参数计算部1n(时间包络辅助信息计算单元)以及比特流复用部1g3 (比特流复用单元),来代替语音编码装置11的线形预测分析部1e、滤波强度参数 计算部1f以及比特流复用部1g。图10所示的语音编码装置13的频率变换部1a~SBR 编码部1d、时间包络计算部1m、包络形状参数计算部1n以及比特流复用部1g3通 过语音编码装置12的CPU运行语音编码装置12的内置存储器中存储的计算机程序 来实现功能。语音编码装置13的CPU通过运行该计算机程序(利用图10所示语音 编码装置13的频率变换部1a~SBR编码部1d、时间包络计算部1m、包络形状参数 计算部1n以及比特流复用部1g3),来依次执行图11的流程图所示的处理(步骤Sa1~ 步骤Sa4以及步骤Se1~步骤Se3的处理)。运行该计算机程序所需的各种数据以及 运行该计算机程序所生成的各种数据均存储在语音编码装置13的ROM及RAM等内 置存储器中。

时间包络计算部1m接收q(k,r),例如通过取得q(k,r)的每个时隙的功率来 取得信号的高频成分的时间包络信息e(r)(步骤Se1的处理)。此时,根据下式(19) 来取得e(r)。

[式19]

e(r)=Σk=kx63|q(k,r)|2

包络形状参数计算部1n从时间包络计算部1m接收e(r),还从SBR编码部1d 接收SBR包络的时间边界{bi}。其中,0≤i≤Ne,Ne是编码帧内的SBR包络数。包 络形状参数计算部1n针对编码帧内的各个SBR包络例如根据下式(20)来取得包络 形状参数s(i)(0≤i<Ne)(步骤Se2的处理)。此外,包络形状参数s(i)与时 间包络辅助信息对应,在第3实施方式中是同样。

[式20]

s(i)=1bi+1-bi-1Σr=bibi+1-1(e(i)-e(r))2

其中,

[式21]

e(i)=Σr=bibi+1-1e(r)bi+1-bi

上述式子中的s(i)是表示满足bi≤r<bi+1的第i个SBR包络内的e(r)的变化 大小的参数,e(r)随着时间包络的变化变大而取越大的值。上述式(20)以及(21) 是s(i)的计算方法的一例,例如也可以利用e(r)的SMF(Spectral Flatness Measure, 谱平坦度量度)或最大值与最小值之比等来取得s(i)。然后,对s(i)进行量化并 传送给比特流复用部1g3。

比特流复用部1g3将由核心编解码器编码部1c计算出的编码比特流、由SBR编 码部1d计算出的SBR辅助信息和s(i)复用到比特流中,并经由语音编码装置13 的通信装置输出复用后的比特流(步骤Se3的处理)。

图12是示出第3实施方式的语音解码装置23的结构的图。语音解码装置23物 理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语 音解码装置23的内置存储器中存储的预定的计算机程序(例如,用于进行图13的流 程图所示的处理的计算机程序)加载到RAM中并运行,来统一地控制语音解码装置 23。语音解码装置23的通信装置接收从语音编码装置13输出的编码后的复用比特流, 而且将解码后的语音信号输出至外部。

语音解码装置23在功能上具备比特流分离部2a2(比特流分离单元)、低频时 间包络计算部2r(低频时间包络分析单元)、包络形状调整部2s(时间包络调整单 元)、高频时间包络计算部2t、时间包络平坦化部2u以及时间包络变形部2v(时间 包络变形单元),以代替语音解码装置21的比特流分离部2a、低频线形预测分析部 2d、信号变化检测部2e、滤波强度调整部2f、高频线形预测分析部2h、线形预测逆 滤波部2i以及线形预测滤波部2k。图12所示的语音解码装置23的比特流分离部2a2、 核心编解码器解码部2b~频率变换部2c、高频生成部2g、高频调整部2j、系数相加 部2m、频率逆变换部2n以及低频时间包络计算部2r~时间包络变形部2v通过语音 编码装置12的CPU运行语音编码装置12的内置存储器中存储的计算机程序来实现 功能。语音解码装置23的CPU通过运行该计算机程序(利用图12所示的语音解码 装置23的比特流分离部2a2、核心编解码器解码部2b~频率变换部2c、高频生成部 2g、高频调整部2j、系数相加部2m、频率逆变换部2n以及低频时间包络计算部2r~ 时间包络变形部2v),来依次执行图13的流程图所示的处理(步骤Sb1~步骤Sb2、 步骤Sf1步骤Sf2、步骤Sb5、步骤Sf3~步骤Sf4、步骤Sb8、步骤Sf5以及步骤Sb10~ 步骤Sb11的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生 成的各种数据都存储在语音解码装置23的ROM及RAM等内置存储器中。

比特流分离部2a2将经由语音解码装置23的通信装置输入的复用比特流分离为 s(i)、SBR辅助信息和编码比特流。低频时间包络计算部2r从频率变换部2c接受 包含低频成分的qdec(k,r),并根据下式(22)取得e(r)(步骤Sf1的处理)。

[式22]

e(r)=Σk=063|qdec(k,r)|2

包络形状调整部2s利用s(i)来调整e(r),取得调整后的时间包络信息eadj(r)(步骤Sf2的处理)。例如可根据下式(23)~(25)来进行针对该e(r)的调 整。

[式23]

eadj(r)=e(i)+s(i)-v(i)·(e(r)-e(i)),(s(i)>v(i))

eadj(r)=e(r)    (其它)

其中,

[式24]

e(i)=Σr=bibi+1-1e(r)bi+1-bi

[式25]

v(i)=1bi+1-bi-1Σr=bibi+1-1(e(i)-e(r))2

上述式(23)~(25)是调整方法的一例,还可以采用使eadj(r)的形状接近于 s(i)所示的形状这样的其它调整方法。

高频时间包络计算部2t利用从高频生成部2g获得的qexp(k,r)根据下式(26) 计算时间包络eexp(r)(步骤Sf3的处理)。

[式26]

eexp(r)=Σk=kx63|qexp(k,r)|2

时间包络平坦化部2u根据下式(27)使从高频生成部2g获得的qexp(k,r)的 时间包络平坦化,并将所获得的QMF区域的信号qflat(k,r)发送到高频调整部2j(步 骤Sf4的处理)。

[式27]

qflat(k,r)=qexp(k,r)eexp(r),(kxk63)

可省略时间包络平坦化部2u中的时间包络的平坦化。另外,也可以取代针对来 自高频生成部2g的输出进行高频成分的时间包络计算和时间包络的平坦化处理,而 针对来自高频调整部2j的输出进行高频成分的时间包络计算和时间包络的平坦化处 理。此外,在时间包络平坦化部2u中利用的时间包络可以是从包络形状调整部2s获 得的eadj(r),而不是从高频时间包络计算部2t获得的eexp(r)。

时间包络变形部2v利用从时间包络变形部2v获得的eadj(r),使从高频调整部 2j获得的qadj(k,r)变形,并取得时间包络已变形的QMF区域的信号qenvadj(k,r)(步 骤Sf5的处理)。根据下式(28)来进行该变形。qenvadj(k,r)作为与高频成分对应 的QMF区域的信号被发送给系数相加部2m。

[式28]

qenvadj(k,r)=qadj(k,r)·eadj(r)    (kx≤k≤63)

(第4实施方式)

图14是示出第4实施方式的语音解码装置24的结构的图。语音解码装置24物 理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语 音解码装置24的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统 一地控制语音解码装置24。语音解码装置24的通信装置接收从语音编码装置11或 语音编码装置13输出的编码后的复用比特流,而且将解码后的语音信号输出至外部。

语音解码装置23在功能上具备:语音解码装置21的结构(核心编解码器解码部 2b、频率变换部2c、低频线形预测分析部2d、信号变化检测部2e、滤波强度调整部 2f、高频生成部2g、高频线形预测分析部2h、线形预测逆滤波部2i、高频调整部2j、 线形预测滤波部2k、系数相加部2m以及频率逆变换部2n)和语音解码装置24的结 构(低频时间包络计算部2r、包络形状调整部2s以及时间包络变形部2v)。而且, 语音解码装置24具备比特流分离部2a3(比特流分离单元)以及辅助信息变换部2w。 线形预测滤波部2k和时间包络变形部2v的顺序可以与图14所示的相反。此外,语 音解码装置24优选将由语音编码装置11或语音编码装置13编码后的比特流作为输 入。图14所示的语音解码装置24的结构通过语音解码装置24的CPU运行语音解码 装置24的内置存储器中存储的计算机程序来实现功能。运行该计算机程序所需的各 种数据以及执行该计算机程序所生成的各种数据都存储在语音解码装置24的ROM 及RAM等内置存储器中。

比特流分离部2a3将经由语音解码装置24的通信装置输入的复用比特流分离为 时间包络辅助信息、SBR辅助信息和编码比特流。时间包络辅助信息可以是在第1 实施方式中介绍的K(r)或也可以是在第3实施方式中介绍的s(i)。而且,还可 以是非K(r)、s(i)的其它参数X(r)。

辅助信息变换部2w对输入的时间包络辅助信息进行变换,获得K(r)和s(i)。 在时间包络辅助信息是K(r)的情况下,辅助信息变换部2w将K(r)变换为s(i)。 辅助信息变换部2w可以在取得例如bi≤r<bi+1区间内的K(r)的平均值

[式29]

K(i)

之后,利用规定的表,将该式(29)所示的平均值变换为s(i),由此来进行该 变换。此外,在时间包络辅助信息是s(i)的情况下,辅助信息变换部2w将s(i) 变换为K(r)。辅助信息变换部2w可以例如利用规定的表将s(i)变换为K(r), 由此进行该变换。其中,使i和r相对应,以满足bi≤r<bi+1的关系。

在时间包络辅助信息不是s(i)和K(r)而是参数X(r)的情况下,辅助信息 变换部2w将X(r)变换为K(r)和s(i)。优选辅助信息变换部2w利用例如规定 的表将X(r)变换为K(r)以及s(i),由此进行该变换。而且,优选辅助信息变 换部2w将X(r)按照每个SBR包络传送1个代表值。将X(r)变换为K(r)以及 s(i)的表可以互不相同。

(第1实施方式的变形例3)

在第1实施方式的语音解码装置21中,语音解码装置21的线形预测滤波部2k 可包含自动增益控制处理。该自动增益控制处理是使线形预测滤波部2k的输出的 QMF区域信号的功率与输入的QMF区域的信号功率一致的处理。一般情况下,利用 下式来实现增益控制后的QMF区域信号qsyn,pow(n,r)。

[式30]

qsyn,pow(n,r)=qsyn(n,r)·P0(r)P1(r)

这里,P0(r)、P1(r)分别用下式(31)以及式(32)表示。

[式31]

P0(r)=Σn=kx63|qadj(n,r)|2

[式32]

P1(r)=Σn=kx63|qsyn(n,r)|2

通过该自动增益控制处理,将线形预测滤波部2k的输出信号的高频成分功率调 整为与线形预测滤波处理前相等的值。其结果是,在根据SBR生成的高频成分的时 间包络已变形的线形预测滤波部2k的输出信号中,确保了在高频调整部2j中进行的 高频信号功率的调整的效果。此外,该自动增益控制处理还可以针对QMF区域的信 号的任意频率范围分别进行。可通过将式(30)、式(31)、式(32)中的n分别限 定在某个频率范围内来实现针对各个频率范围的处理。例如,第i个频率范围可表示 为Fi≤n<Fi+1(此时的i是表示QMF区域的信号的任意频率范围的编号的索引)。Fi表示频率范围的边界,优选为在“MPEG4 AAC”的SBR中规定的包络比例因子的频率 边界表。根据“MPEG4 AAC”的SBR的规定,在高频生成部2g中确定频率边界表。 通过该自动增益控制处理,将线形预测滤波部2k的输出信号的高频成分的任意频率 范围内的功率调整为与线形预测滤波处理前相等的值。其结果是,在根据SBR生成 的高频成分的时间包络已变形的线形预测滤波部2k的输出信号中,以频率范围为单 位保持了在高频调整部2j进行了的高频信号功率的调整的效果。另外,可对第4实 施方式中的线形预测滤波部2k进行与第1实施方式的本变形例3同样的变更。

(第3实施方式的变形例1)

第3实施方式的语音编码装置13中的包络形状参数计算部1n还可以通过以下这 样的处理来实现。包络形状参数计算部1n针对编码帧内的各个SBR包络,根据下式 (33)来取得包络形状参数s(i)(0≤i<Ne)。

[式33]

s(i)=1-min(e(r)e(i))

其中,

[式34]

e(i)

是e(r)的SBR包络内的平均值,其计算方法依据式(21)来进行。其中,SBR 包络表示满足bi≤r<bi+1的时间范围。另外,{bi}是作为信息包含在SBR辅助信息内 的SBR包络的时间边界,是以表示任意时间范围、任意频率范围的平均信号能量的 SBR包络比例因子为对象的时间范围的边界。另外,min(·)表示bi≤r<bi+1范围中 的最小值。因此,在这种情况下,包络形状参数s(i)是指示调整后的时间包络信息 的SBR包络内的最小值与平均值的比率的参数。另外,第3实施方式的语音解码装 置23中的包络形状调整部2s还可以通过下述处理来实现。包络形状调整部2s利用s (i)来调整e(r),取得调整后的时间包络信息eadj(r)。调整的方法依据下式(35) 或式(36)来进行。

[式35]

eadj(r)=e(i)(1+s(i)(e(r)-e(i))e(i)-min(e(r)))

[式36]

eadj(r)=e(i)(1+s(i)(e(r)-e(i))e(i))

式35用于调整包络形状,以使调整后的时间包络信息eadj(r)的SBR包络内的 最小值与平均值的比率、与包络形状参数s(i)的值相等。另外,可以对第4实施方 式进行与上述第3实施方式的本变形例1同样的变更。

(第3实施方式的变形例2)

时间包络变形部2v还可以用下式来取代式(28)。如式(37)所示,eadj,scaled(r)控制了调整后的时间包络信息eadj(r)的增益,使qadj(k,r)与qenvadj(k,r)的 SBR包络内的功率相等。另外,如式(38)所示,在第3实施方式的本变形例2中, 不将eadj(r)而是将eadj,scaled(r)与QMF区域的信号qadj(k,r)相乘而获得qenvadj(k,r)。 因此,时间包络变形部2v可进行QMF区域的信号qadj(k,r)的时间包络的变形,使 得SBR包络内的信号功率在时间包络变形前后相等。其中,SBR包络表示满足 bi≤r<bi+1的时间范围。另外,{bi}是作为信息包含在SBR辅助信息内的、SBR包络 的时间边界,是以SBR包络比例因子(其表示任意时间范围、任意频率范围的平均 信号能量)为对象的时间范围的边界。另外,本发明实施例中的术语“SBR包络”相当 于“ISO/IEC 14496-3”所规定的“MPEG4 AAC”中的术语“SBR包络时间分段”,所有实 施例中,“SBR包络”表示与“SBR包络时间分段”相同的内容。

[式37]

eadj,scaled(r)=eadj(r)·Σk=kx63Σr=bibi+1-1|qadj(k,r)|2Σk=kx63Σr=bibi+1-1|qadj(k,r)·eadj(r)|2

(kx≤k≤63,bi≤r<bi+1)

[式38]

qenvadj(k,r)=qadj(k,r)·eadj,scaled(r)

(kx≤k≤63,bi≤r<bi+1)

另外,也可以对第4实施方式进行与上述第3实施方式的本变形例2同样的变更。

(第3实施方式的变形例3)

式(19)可以是下述的式(39)。

[式39]

e(r)=(bi+1-bi)Σk=063|q(k,r)|2Σr=bibi+1-1Σk=063|q(k,r)|2

式(22)可以是下述的式(40)。

[式40]

e(r)=(bi+1-bi)Σk=063|qdec(k,r)|2Σr=bibi+1-1Σk=063|qdec(k,r)|2

式(26)可以是下述的式(41)。

[式41]

eexp(r)=(bi+1-bi)Σk=kx63|qexp(k,r)|2Σr=bibi+1Σk=kx63|qexp(k,r)|2

在依据式(39)以及式(40)的情况下,时间包络信息e(r)利用SBR包络内 的平均功率对每个QMF子带采样的功率进行归一化,并取平方根。其中,QMF子带 采样在QMF区域信号中是与同一时间索引“r”对应的信号矢量,表示QMF区域中的 一个子采样。另外,在本发明的整个实施方式中,术语“时隙”表示与“QMF子带采样” 相同的内容。在此情况下,时间包络信息e(r)表示应与各QMF子带采样相乘的增 益系数,调整后的时间包络信息eadj(r)也同样。

(第4实施方式的变形例1)

第4实施方式的变形例1的语音解码装置24a(未图示)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等的语音解码装置24a的 内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码 装置24a。语音解码装置24a的通信装置接收从语音编码装置11或语音编码装置13 输出的编码后的复用比特流,而且向外部输出解码后的语音信号。语音解码装置24a 在功能上具备比特流分离部2a4(未图示),以取代语音解码装置24的比特流分离 部2a3,此外,还具备时间包络辅助信息生成部2y(未图示),以取代辅助信息变换 部2w。比特流分离部2a4将复用比特流分离为SBR辅助信息和编码比特流。时间包 络辅助信息生成部2y根据编码比特流以及SBR辅助信息中包含的信息生成时间包络 辅助信息。

关于某SBR包络中的时间包络辅助信息的生成,可以例如利用该SBR包络的时 间幅度(bi+1-bi)、帧类别、逆滤波器的强度参数、背景噪声(noise floor)、高频功 率的大小、高频功率与低频功率的比率、在频率方向上对QMF区域中表现的低频信 号进行线形预测分析的结果的自相关系数或预测增益等。根据这些参数之一或多个值 来决定K(r)或s(i),由此能够生成时间包络辅助信息。例如可以根据(bi+1-bi) 来决定K(r)或s(i),使得SBR包络的时间幅度(bi+1-bi)越宽,则K(r)或s (i)越小,或者使得SBR包络的时间幅度(bi+1-bi)越宽,则K(r)或s(i)越大, 由此生成时间包络辅助信息。此外,可对第1实施方式以及第3实施方式进行同样的 变更。

(第4实施方式的变形例2)

第4实施方式的变形例2的语音解码装置24b(参照图15)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24b的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装 置24b。语音解码装置24b的通信装置接收从语音编码装置11或语音编码装置13输 出的编码后的复用比特流,而且将解码后的语音信号输出至外部。语音解码装置24b 如图15所示具备一次高频调整部2j1和二次高频调整部2j2,来取代高频调整部2j。

这里,一次高频调整部2j1进行基于“MPEG4 AAC”的SBR中的“HF调整(HF adjustment)”步骤中的、针对高频频带的QMF区域信号在时间方向的线形预测逆滤 波处理、增益调整以及噪声重叠处理的调整。此时,一次高频调整部2j1的输出信号 相当于“ISO/IEC 14496-3:2005”的“SBR工具(SBR tool)”内第4.6.18.7.6节“组合HF 信号(Assembling HF signals)”中记载的信号W2。线形预测滤波部2k(或线形预测 滤波部2k1)以及时间包络变形部2v以一次高频调整部的输出信号为对象进行时间 包络的变形。二次高频调整部2j2对从时间包络变形部2v输出的QMF区域的信号进 行“MPEG4 AAC”的SBR中的“HF调整(HF adjustment)”步骤中的正弦波的附加处 理。二次高频调整部的处理相当于以下处理:“ISO/IEC 14496-3:2005”的“SBR工具 (SBR tool)”内第4.6.18.7.6节“组合HF信号(Assembling HF signals)”中记载的根 据信号W2生成信号Y的处理中的、将信号W2置换为时间包络变形部2v的输出信号 的处理。

此外,在上述说明中仅将正弦波附加处理作为二次高频调整部2j2的处理,不过 也可以将“HF调整”步骤中的任意一个处理的作为二次高频调整部2j2的处理。另 外,可对第1实施方式、第2实施方式、第3实施方式进行同样的变形。此时,由于 第1实施方式以及第2实施方式具备线形预测滤波部(线形预测滤波部2k、2k1)而 不具备时间包络变形部,所以在对一次高频调整部2j1的输出信号进行了线形预测滤 波部的处理之后,以线形预测滤波部的输出信号为对象进行二次高频调整部2j2的处 理。

另外,由于第3实施方式具备时间包络变形部2v而不具备线形预测滤波部,所 以在对一次高频调整部2j1的输出信号进行了时间包络变形部2v的处理之后,以时 间包络变形部2v的输出信号为对象进行二次高频调整部的处理。

另外,在第4实施方式的语音解码装置(语音解码装置24、24a、24b)中,线 形预测滤波部2k与时间包络变形部2v的处理的顺序可逆。即,也可以对高频调整部 2j或一次高频调整部2j1的输出信号首先进行时间包络变形部2v的处理,接着,对 时间包络变形部2v的输出信号进行线形预测滤波部2k的处理。

另外,时间包络辅助信息包含指示是否进行线形预测滤波部2k或时间包络变形 部2v的处理的二进制控制信息,该控制信息不限于指示进行线形预测滤波部2k或时 间包络变形部2v的处理的情况,也可以为还包含滤波强度参数K(r)、包络形状参 数s(i)或者X(r)(决定K(r)和s(i)两者的参数)中任意一个以上作为信息 的形式。

(第4实施方式的变形例3)

第4实施方式的变形例3的语音解码装置24c(参照图16)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24c的内 置存储器中存储的预定的计算机程序(例如,用于进行图17的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24c。语音解码装置 24c的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。语 音解码装置24c如图16所示具备一次高频调整部2j3和二次高频调整部2j4,来代替 高频调整部2j,此外还具备个别信号成分调整部2z1、2z2、2z3,来代替线形预测滤 波部2k和时间包络变形部2v(个别信号成分调整部相当于时间包络变形单元)。

一次高频调整部2j3将高频频带的QMF区域的信号作为复写信号成分输出。一 次高频调整部2j3也可以针对高频频带的QMF区域信号,将利用从比特流分离部2a3 输出的SBR辅助信息进行了时间方向的线形预测逆滤波处理以及增益的调整(频率 特性的调整)的至少一方的信号作为复写信号成分输出。此外,一次高频调整部2j3 利用从比特流分离部2a3输出的SBR辅助信息来生成噪声信号成分以及正弦波信号 成分,并以分离的形式分别输出复写信号成分、噪声信号成分以及正弦波信号成分(步 骤Sg1的处理)。噪声信号成分以及正弦波信号成分依赖于SBR辅助信息的内容, 存在不生成这些成分的情况。

个别信号成分调整部2z1、2z2、2z3对所述一次高频调整单元的输出中包含的多 个信号成分分别进行处理(步骤Sg2的处理)。个别信号成分调整部2z1、2z2、2z3 中的处理可以是与线形预测滤波部2k同样的、利用了从滤波强度调整部2f获得的线 形预测系数的频率方向的线形预测合成滤波处理(处理1)。此外,个别信号成分调 整部2z1、2z2、2z3中的处理也可以是与时间包络变形部2v同样的、利用从包络形 状调整部2s获得的时间包络将各QMF子带采样与增益系数相乘的处理(处理2)。 另外,关于个别信号成分调整部2z1、2z2、2z3中的处理,在针对输入信号进行了与 线形预测滤波部2k同样的、利用了从滤波强度调整部2f获得的线形预测系数的频率 方向的线形预测合成滤波处理之后,还可以针对该输出信号进一步进行与时间包络变 形部2v同样的、利用从包络形状调整部2s获得的时间包络将各QMF子带采样与增 益系数相乘的处理(处理3)。另外,关于个别信号成分调整部2z1、2z2、2z3中的 处理,在针对输入信号进行了与时间包络变形部2v同样的、利用从包络形状调整部 2s获得的时间包络将各QMF子带采样与增益系数相乘的处理之后,还可以针对该输 出信号进行与线形预测滤波部2k同样的、利用了从滤波强度调整部2f获得的线形预 测系数的频率方向的线形预测合成滤波处理(处理4)。而且,个别信号成分调整部 2z1、2z2、2z3也可以不对输入信号进行时间包络变形处理,而直接输出输入信号(处 理5)。另外,个别信号成分调整部2z1、2z2、2z3中的处理也可以增加利用处理1~5 以外的其它方法使输入信号的时间包络变形的一些处理(处理6)。另外,个别信 号成分调整部2z1、2z2、2z3中的处理还可以是按照任意的顺序来组合处理1~6中的 多个处理的处理(处理7)。

个别信号成分调整部2z1、2z2、2z3中的处理也可以彼此相同,但是个别信号成 分调整部2z1、2z2、2z3也可以针对一次高频调整单元的输出中包含的多个信号成分, 分别以互不相同的方法进行时间包络的变形。例如,个别信号成分调整部2z1对所输 入的复写信号进行处理2,个别信号成分调整部2z2对所输入的噪声信号成分进行处 理3,个别信号成分调整部2z3对所输入的正弦波信号进行处理5,如此,针对复写 信号、噪声信号、正弦波信号分别进行互不相同的处理。而且,此时,滤波强度调整 部2f和包络形状调整部2s可以对个别信号成分调整部2z1、2z2、2z3分别发送相互 相同的线形预测系数及时间包络,不过也可以发送互不相同的线形预测系数及时间包 络,而且还可以对个别信号成分调整部2z1、2z2、2z3中任意2个以上发送同一线形 预测系数及时间包络。由于个别信号成分调整部2z1、2z2、2z3的1个以上可以不进 行时间包络变形处理而将输入信号直接输出(处理5),所以个别信号成分调整部2z1、 2z2、2z3作为整体对从一次高频调整部2j3输出的多个信号成分的至少一个进行时间 包络处理(在个别信号成分调整部2z1、2z2、2z3全部为处理5的情况下,由于对任 何一个信号成分都不进行时间包络变形处理,因而不具有本发明的效果)。

个别信号成分调整部2z1、2z2、2z3各自的处理可以固定为处理1~处理7中的 任意一个,也可以根据来自外部的控制信息,动态地决定进行处理1~处理7的哪一 个。此时,上述控制信息优选包含在复用比特流中。而且,上述控制信息还可以指示 特定的SBR包络时间分段、编码帧或者在其它时间范围中进行处理1~处理7的哪一 个,而且,即使没有特别指定控制的时间范围,也可以指示进行处理1~处理7的哪 一个。

二次高频调整部2j4对从个别信号成分调整部2z1、2z2、2z3输出的处理后的信 号成分求和而输出至系数相加部(步骤Sg3的处理)。此外,二次高频调整部2j4可 针对复写信号成分,利用从比特流分离部2a3输出的SBR辅助信息,进行时间方向 的线形预测逆滤波处理以及增益调整(频率特性的调整)的至少一方。

个别信号成分调整部2z1、2z2、2z3相互协调地进行动作,并对进行了处理1~7 中的任一处理之后的2个以上的信号成分相互求和,并对求和后的信号进一步施加处 理1~7中的任一处理而生成中间阶段的输出信号。此时,二次高频调整部2j4对上述 中间阶段的输出信号、以及还未与上述中间阶段的输出信号相加的信号成分求和,并 输出至系数相加部。具体地说,在对复写信号成分进行处理5,对噪声成分施加处理 1之后,优选将这2个信号成分相互求和,对求和后的信号进一步施加处理2而生成 中间阶段的输出信号。此时,二次高频调整部2j4将上述中间阶段的输出信号与正弦 波信号成分求和,并输出至系数相加部。

一次高频调整部2j3不限于复写信号成分、噪声信号成分、正弦波信号成分这3 个信号成分,还可以以相互分离的形式输出任意的多个信号成分。此时的信号成分可 以是将复写信号成分、噪声信号成分、正弦波信号成分中的2个以上求和后得到的成 分。而且,可以是将复写信号成分、噪声信号成分、正弦波信号成分的任意一个进行 了频带分割之后的信号。信号成分的数量可以是3以外,在这种情况下,个别信号成 分调整部的数量也可以是3以外。

通过SBR生成的高频信号由将低频频带复写为高频频带而获得的复写信号成 分、噪声信号和正弦波信号这3个要素构成。由于复写信号、噪声信号、正弦波信号 分别具有互不相同的时间包络,所以如本变形例的个别信号成分调整部所进行的那 样,通过互不相同的方法对各个信号成分进行时间包络的变形,由此与本发明的其它 实施例相比,能够进一步提高解码信号的主观质量。尤其是,由于噪声信号通常具有 平坦的时间包络,复写信号具有与低频频带的信号接近的时间包络,所以将它们分离 后使用并施加互不相同的处理,从而能够独立地控制复写信号以及噪声信号的时间包 络,这在提高解码信号的主观质量上是有效的。具体地说,优选对噪声信号进行使时 间包络变形的处理(处理3或处理4),对复写信号进行与对噪声信号的处理不同的 处理(处理1或处理2),还对正弦波信号进行处理5(即,不进行时间包络变形处 理)。或者,优选对噪声信号进行时间包络的变形处理(处理3或处理4),对复写 信号和正弦波信号进行处理5(即,不进行时间包络变形处理)。

(第1实施方式的变形例4)

第1实施方式的变形例4的语音编码装置11b(图44)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等的语音编码装置11b的内置存 储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置 11b。语音编码装置11b的通信装置从外部接收作为编码对象的语音信号,而且将编 码后的复用比特流输出至外部。语音编码装置11b具备线形预测分析部1e1,以代替 语音编码装置11的线形预测分析部1e,还具备时隙选择部1p。

时隙选择部1p从频率变换部1a接收QMF区域的信号,并选择实施线形预测分 析部1e1的线形预测分析处理的时隙。线形预测分析部1e1根据由时隙选择部1p通 知的选择结果,与线形预测分析部1e同样地对所选择的时隙的QMF区域信号进行线 形预测分析,取得高频线形预测系数、低频线形预测系数中的至少一个。滤波强度参 数计算部1f使用在线形预测分析部1e1中获得的、时隙选择部1p所选择的时隙的线 形预测系数计算滤波强度参数。关于时隙选择部1p的时隙选择,例如可利用与后述 本变形例的解码装置21a中的时隙选择部3a同样的、利用高频成分的QMF区域信号 的信号功率的选择方法中的至少一种。此时,时隙选择部1p中的高频成分的QMF 区域信号优选为从频率变换部1a接收的QMF区域的信号中的、在SBR编码部1d 进行了编码的频率成分。时隙的选择方法可采用上述方法中的至少一种,还可以采用 与上述方法不同的方法中的至少一种,还可以将它们组合来使用。

第1实施方式的变形例4的语音解码装置21a(参照图18)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置21a的内 置存储器中存储的预定的计算机程序(例如,用于进行图19的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置21a。语音解码装置 21a的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如 图18所示,语音解码装置21a具备低频线形预测分析部2d1、信号变化检测部2e1、 高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替 语音解码装置21的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析 部2h、线形预测逆滤波部2i以及线形预测滤波部2k,此外还具备时隙选择部3a。

时隙选择部3a针对由高频生成部2g生成的时隙r的高频成分的QMF区域的信 号qexp(k,r),判断是否在线形预测滤波部2k中进行线形预测合成滤波处理,并选 择进行线形预测合成滤波处理的时隙(步骤Sh1的处理)。时隙选择部3a向低频线 形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤 波部2i1、线形预测滤波部2k3通知时隙的选择结果。低频线形预测分析部2d1根据 由时隙选择部3a通知的选择结果,与低频线形预测分析部2d同样地对所选择的时隙 r1的QMF区域信号进行线形预测分析,并取得低频线形预测系数(步骤Sh2的处理)。 信号变化检测部2e1根据由时隙选择部3a通知的选择结果,与信号变化检测部2e同 样地检测所选择的时隙的QMF区域信号的时间变化,并输出检测结果T(r1)。

滤波强度调整部2f针对在低频线形预测分析部2d1中获得的、时隙选择部3a所 选择的时隙的低频线形预测系数进行滤波强度调整,获得调整后的线形预测系数adec(n,r1)。高频线形预测分析部2h1根据由时隙选择部3a通知的选择结果,与所选择 的时隙r1相关地,与高频线形预测分析部2k同样地在频率方向上对高频生成部2g 所生成的高频成分的QMF区域信号进行线形预测分析,并取得高频线形预测系数aexp(n,r1)(步骤Sh3的处理)。线形预测逆滤波部2i1根据由时隙选择部3a通知的选 择结果,与线形预测逆滤波部2i同样地,在频率方向上对所选择的时隙r1的高频成 分的QMF区域的信号qexp(k,r)进行以aexp(n,r1)为系数的线形预测逆滤波处理(步 骤Sh4的处理)。

线形预测滤波部2k3根据由时隙选择部3a通知的选择结果,针对从所选择的时 隙r1的高频调整部2j输出的高频成分的QMF区域的信号qadj(k、r1),与线形预 测滤波部2k同样地,利用从滤波强度调整部2f获得的aadj(n,r1),在频率方向上进 行线形预测合成滤波处理(步骤Sh5的处理)。另外,可对线形预测滤波部2k3施加 变形例3中记载的针对线形预测滤波部2k的变更。关于选择实施时隙选择部3a的线 形预测合成滤波处理的时隙,例如可以选择高频成分的QMF区域信号qexp(k,r)的 信号功率大于规定值Pexp,Th的一个以上的时隙r。优选用下式求出qexp(k,r)的信号 功率。

[式42]

Pexp(r)=Σk=kxkx+M-1|qexp(k,r)|2

其中,M是表示比高频生成部2g所生成的高频成分的下限频率kx高的频率范围 的值,此外,还可以将高频生成部2g所生成的高频成分的频率范围表示为 kx<=k<kx+M。另外,规定值Pexp,Th可以是包含时隙r的规定时间幅度的Pexp(r)的 平均值。此外,规定时间幅度可以是SBR包络。

另外,还可以选择为包含高频成分的QMF区域信号的信号功率达到峰值的时隙。 信号功率的峰值例如也可以是针对信号功率的移动平均值

[式43]

Pexp,MA(r)

[式44]

Pexp,MA(r+1)-Pexp,MA(r)

从正值变为负值的时隙r的高频成分的QMF区域的信号功率作为峰值。信号功 率的移动平均值

[式45]

Pexp,MA(r)

例如可通过下式来求出。

[式46]

Pexp,MA(r)=1cΣr=r-c2r+c2-1Pexp(r)

其中,c是确定求出平均值的范围的规定值。另外,信号功率的峰值可利用上述 方法求出,也可以利用不同方法求出。

此外,当从高频成分的QMF区域信号的信号功率变动小的稳定状态到变动大的 过渡状态的时间幅度t小于规定值tth时,可以至少选择一个该时间幅度中包含的时隙。 此外,当从高频成分的QMF区域信号的信号功率变动大的过渡状态到变动小的稳定 状态的时间幅度t小于规定值tth时,可以至少选择一个该时间幅度中包含的时隙。可 将|Pexp(r+1)-Pexp(r)|小于规定值(或小于等于规定值)的时隙r设为上述稳定状 态,将|Pexp(r+1)-Pexp(r)|大于等于规定值(或大于规定值)的时隙r设为上述过 渡状态,将|Pexp,MA(r+1)-Pexp,MA(r)|小于规定值(或小于等于规定值)的时隙r 设为上述稳定状态,将Pexp,MA(r+1)-Pexp,MA(r)|大于等于规定值(或大于规定值) 的时隙r设为上述过渡状态。而且,过渡状态、稳定状态可以利用上述方法进行定义, 也可以利用不同的方法进行定义。时隙的选择方法可至少采用上述方法中的一个,也 可以采用至少一个与上述不同的方法,还可以采用它们的组合。

(第1实施方式的变形例5)

第1实施方式的变形例5的语音编码装置11c(图45)物理上具有未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11c的内置存储 器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11c。 语音编码装置11c的通信装置从外部接收作为编码对象的语音信号,而且将编码后的 复用比特流输出至外部。语音编码装置11c具备时隙选择部1p1以及比特流复用部 1g4,来代替变形例4的语音编码装置11b的时隙选择部1p以及比特流复用部1g。

时隙选择部1p1与第1实施方式的变形例4中记载的时隙选择部1p同样地选择 时隙,并将时隙选择信息发送给比特流复用部1g4。比特流复用部1g4与比特流复用 部1g同样地,将由核心编解码器编码部1c计算出的编码比特流、由SBR编码部1d 计算出的SBR辅助信息以及由滤波强度参数计算部1f计算出的滤波强度参数复用, 此外还复用从时隙选择部1p1接收到的时隙选择信息,并经由语音编码装置11c的通 信装置输出复用比特流。上述时隙选择信息是后述语音解码装置21b中的时隙选择部 3a1接收的时隙选择信息,例如可包含所选择的时隙的索引r1。此外,例如可以是时 隙选择部3a1的时隙选择方法中使用的参数。第1实施方式的变形例5的语音解码装 置21b(参照图20)物理上具有未图示的CPU、ROM、RAM以及通信装置等,该 CPU通过将ROM等语音解码装置21b的内置存储器中存储的预定的计算机程序(例 如,用于进行图21的流程图所示的处理的计算机程序)加载到RAM中并运行来统 一地控制语音解码装置21b。语音解码装置21b的通信装置接收编码后的复用比特流, 而且将解码后的语音信号输出至外部。

语音解码装置21b如图20所示具有比特流分离部2a5以及时隙选择部3a1,来 代替变形例4的语音解码装置21a的比特流分离部2a以及时隙选择部3a,并向时隙 选择部3a1输入时隙选择信息。在比特流分离部2a5中,与比特流分离部2a同样地, 将复用比特流分离为滤波强度参数、SBR辅助信息和编码比特流,还分离时隙选择 信息。在时隙选择部3a1中,根据从比特流分离部2a5发送的时隙选择信息来选择时 隙(步骤Si1的处理)。时隙选择信息是用于选择时隙的信息,例如可包含所选择 的时隙的索引r1。此外,还可以是例如变形例4中记载的时隙选择方法中使用的参数。 在这种情况下,除了时隙选择信息之外,还将虽未图示但在高频信号生成部2g中生 成的高频成分的QMF区域信号也输入时隙选择部3a1。所述参数可以是用于例如选 择上述时隙的规定值(例如,Pexp,Th、tTh等)。

(第1实施方式的变形例6)

第1实施方式的变形例6的语音编码装置11d(未图示)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11d的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装 置11d。语音编码装置11d的通信装置从外部接收作为编码对象的语音信号,而且将 编码后的复用比特流输出至外部。语音编码装置11d具备未图示的短时功率计算部 1i1以取代变形例1的语音编码装置11a的短时功率计算部1i,还具备时隙选择部1p2。

时隙选择部1p2从频率变换部1a接收QMF区域的信号,并选择与在短时功率计 算部1i中实施短时功率计算处理的时间区间对应的时隙。短时功率计算部1i1根据由 时隙选择部1p2通知的选择结果,与变形例1的语音编码装置11a的短时功率计算部 1i同样地,计算与所选择时隙对应的时间区间的短时功率。

(第1实施方式的变形例7)

第1实施方式的变形例7的语音编码装置11e(未图示)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11e的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装 置11e。语音编码装置11e的通信装置从外部接收作为编码对象的语音信号,而且将 编码后的复用比特流输出至外部。语音编码装置11e具备未图示的时隙选择部1p3, 以代替变形例6的语音编码装置11d的时隙选择部1p2。此外,还具备接收来自时隙 选择部1p3的输出的比特流复用部,来代替比特流复用部1g1。时隙选择部1p3与第 1实施方式的变形例6中记载的时隙选择部1p2同样地选择时隙,将时隙选择信息发 送给比特流复用部。

(第1实施方式的变形例8)

第1实施方式的变形例8的语音编码装置(未图示)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等变形例8的语音编码装置的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例8的 语音编码装置。变形例8的语音编码装置的通信装置从外部接收作为编码对象的语音 信号,而且将编码后的复用比特流输出至外部。变形例8的语音编码装置除了变形例 2中记载的语音编码装置之外还具备时隙选择部1p。

第1实施方式中变形例8的语音解码装置(未图示)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等变形例8的语音解码装置的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例8的 语音解码装置。变形例8的语音解码装置的通信装置接收编码后的复用比特流,而且 将解码后的语音信号输出至外部。变形例8的语音解码装置具备低频线形预测分析部 2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线 形预测滤波部2k3,以代替变形例2中记载的语音解码装置的低频线形预测分析部2d、 信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i以及线形预测滤 波部2k,还具备时隙选择部3a。

(第1实施方式的变形例9)

第1实施方式的变形例9的语音编码装置(未图示)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等变形例9的语音编码装置的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例9的 语音编码装置。变形例9的语音编码装置的通信装置从外部接收作为编码对象的语音 信号,而且将编码后的复用比特流输出至外部。变形例9的语音编码装置具备时隙选 择部1p1,来代替变形例8中记载的语音编码装置的时隙选择部1p。此外,取代变形 例8中记载的比特流复用部,还具备除了向变形例8中记载的比特流复用部进行输入 还接收来自时隙选择部1p1的输出的比特流复用部。

第1实施方式的变形例9的语音解码装置(未图示)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等变形例9的语音解码装置的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例9的 语音解码装置。变形例9的语音解码装置的通信装置接收编码后的复用比特流,而且 向外部输出解码后的语音信号。变形例9的语音解码装置具备时隙选择部3a1来代替 变形例8中记载的语音解码装置的时隙选择部3a。此外,还具备分离上述变形例2 中记载的aD(n,r)的比特流分离部,来代替比特流分离部2a,取代比特流分离部2a5 的滤波强度参数。

(第2实施方式的变形例1)

第2实施方式的变形例1的语音编码装置12a(图46)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置12a的内置存储 器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置12a。 语音编码装置12a的通信装置从外部接收作为编码对象的语音信号,而且向外部输出 编码后的复用比特流。语音编码装置12a具备线形预测分析部1e1来取代语音编码装 置12的线形预测分析部1e,还具备时隙选择部1p。

第2实施方式的变形例1的语音解码装置22a(参照图22)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置22a的内 置存储器中存储的预定的计算机程序(例如,用于进行图23的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置22a。语音解码装置 22a的通信装置接收编码后的复用比特流,而且向外部输出解码后的语音信号。如图 22所示,语音解码装置22a具备低频线形预测分析部2d1、信号变化检测部2e1、高 频线形预测分析部2h1、线形预测逆滤波部2i1、线形预测滤波部2k2以及线形预测 内插/外插部2p1,来取代第2实施方式的语音解码装置22的高频线形预测分析部2h、 线形预测逆滤波部2i、线形预测滤波部2k1,以及线形预测内插/外插部2p,而且还 具备时隙选择部3a。

时隙选择部3a向高频线形预测分析部2h1、线形预测逆滤波部2i1、线形预测滤 波部2k2、线形预测系数内插/外插部2p1通知时隙的选择结果。在线形预测系数内插 /外插部2p1中,根据从时隙选择部3a通知的选择结果,与线形预测系数内插/外插部 2p同样地利用内插或外插来取得与作为所选择的时隙的没有传送线形预测系数的时 隙r1对应的aH(n,r)(步骤Sj1的处理)。在线形预测滤波部2k2中,根据从时隙 选择部3a通知的选择结果,与所选择的时隙r1相关地,针对从高频调整部2j输出的 qadj(n,r1),利用从线形预测系数内插/外插部2p1获得的已内插或外插的aH(n,r1), 与线形预测滤波部2k1同样地在频率方向进行线形预测合成滤波处理(步骤Sj2的 处理)。另外,可对线形预测滤波部2k2施加对第1实施方式变形例3中记载的线形 预测滤波部2k进行的变更。

(第2实施方式的变形例2)

第2实施方式的变形例2的语音编码装置12b(图47)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置12b的内置存储 器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置 11b。语音编码装置12b的通信装置从外部接收作为编码对象的语音信号,而且向外 部输出编码后的复用比特流。语音编码装置12b具备时隙选择部1p1以及比特流复用 部1g5来代替变形例1的语音编码装置12a的时隙选择部1p以及比特流复用部1g2。 比特流复用部1g5与比特流复用部1g2同样地,将在核心编解码器编码部1c中计算 出的编码比特流、在SBR编码部1d中计算出的SBR辅助信息、以及与从线形预测 系数量化部1k输出的量化后的线形预测系数对应的时隙的索引复用,此外,还在比 特流中复用从时隙选择部1p1接收到的时隙选择信息,经由语音编码装置12b的通信 装置将复用比特流输出。

第2实施方式的变形例2的语音解码装置22b(参照图24)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置22b的内 置存储器中存储的预定的计算机程序(例如,用于进行图25的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置22b。语音解码装置 22b的通信装置接收编码后的复用比特流,而且,将解码后的语音信号输出至外部。 如图24所示,语音解码装置22b具备比特流分离部2a6以及时隙选择部3a1,来代 替变形例1中记载的语音解码装置22a的比特流分离部2a1以及时隙选择部3a,并向 时隙选择部3a1输入时隙选择信息。在比特流分离部2a6中,与比特流分离部2a1同 样地将复用比特流分离为已量化的aH(n,ri)、与其对应的时隙的索引ri、SBR辅助 信息和编码比特流,并进一步分离时隙选择信息。

(第3实施方式的变形例4)

在第3实施方式的变形例1中记载的

[式47]

e(i)

可以是在e(r)的SBR包络内的平均值,此外还可以是其它规定的值。

(第3实施方式的变形例5)

包络形状调整部2s如上述第3实施方式的变形例3中记载的那样,鉴于调整后 的时间包络eadj(r)是例如在式(28)、式(37)以及(38)中那样与QMF子带采 样相乘的增益系数,优选通过规定值eadj,Th(r)对eadj(r)进行如下限制。

[式48]

eadj(r)≥eadj,Th

(第4实施方式)

第4实施方式的语音编码装置14(图48)物理上具备未图示的CPU、ROM、 RAM以及通信装置等,该CPU通过将ROM等语音编码装置14的内置存储器中存 储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置14。语音编 码装置14的通信装置从外部接收作为编码对象的语音信号,而且向外部输出编码后 的复用比特流。语音编码装置14具备比特流复用部1g7以代替第1实施方式的变形 例4的语音编码装置11b的比特流复用部1g,此外还具备语音编码装置13的时间包 络计算部1m以及包络参数计算部1n。

比特流复用部1g7与比特流复用部1g同样地将由核心编解码器编码部1c计算出 的编码比特流和由SBR编码部1d计算出的SBR辅助信息复用,此外,还将滤波强 度参数计算部计算出的滤波强度参数和包络形状参数计算部1n计算出的包络形状参 数变换为时间包络辅助信息而进行复用,将复用比特流(编码后的复用比特流)经由 语音编码装置14的通信装置输出。

(第4实施方式的变形例4)

第4实施方式的变形例4的语音编码装置14a(图49)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置14a的内置存储 器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置14a。 语音编码装置14a的通信装置从外部接收作为编码对象的语音信号,而且向外部输出 编码后的复用比特流。语音编码装置14a具备线形预测分析部1e1以代替第4实施方 式的语音编码装置14的线形预测分析部1e,还具备时隙选择部1p。

第4实施方式的变形例4的语音解码装置24d(参照图26)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24d的内 置存储器中存储的预定的计算机程序(例如,用于进行图27的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24d。语音解码装置 24d的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如 图26所示,语音解码装置24d具备低频线形预测分析部2d1、信号变化检测部2e1、 高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替 语音解码装置24的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析 部2h、线形预测逆滤波部2i以及线形预测滤波部2k,还具备时隙选择部3a。时间包 络变形部2v利用从包络形状调整部2s获得的时间包络信息,与第3实施方式、第4 实施方式以及这些变形例的时间包络变形部2v同样地,使从线形预测滤波部2k3获 得的QMF区域的信号变形(步骤Sk1的处理)。

(第4实施方式的变形例5)

第4实施方式的变形例5的语音解码装置24e(参照图28)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24e的内 置存储器中存储的预定的计算机程序(例如,用于进行图29的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24e。语音解码装置 24e的通信装置接收编码后的复用比特流,而且将解码的语音信号向外部输出。如图 28所示,在变形例5中,语音解码装置24e省略了与第1实施方式同样地可通过第4 实施方式整体省略的、变形例4中记载的语音解码装置24d的高频线形预测分析部 2h1和线形预测逆滤波部2i1,并且具备时隙选择部3a2以及时间包络变形部2v1,来 代替语音解码装置24d的时隙选择部3a以及时间包络变形部2v。此外,还变换作为 可通过第4实施方式整体来变换处理顺序的、线形预测滤波部2k3的线形预测合成滤 波处理和时间包络变形部2v1中的时间包络变形处理的顺序。

时间包络变形部2v1与时间包络变形部2v同样地利用从包络形状调整部2s获得 的eadj(r)来使从高频调整部2j获得的qadj(k,r)变形,取得时间包络已变形的QMF 区域的信号qenvadj(k,r)。此外,将利用在时间包络变形处理时获得的参数或至少在 时间包络变形处理时获得的参数计算出的参数作为时隙选择信息,通知给时隙选择部 3a2。作为时隙选择信息可以是式(22)、式(40)的e(r)或在其计算过程中未进 行平方根运算的|e(r)|2,还可以将某多个时隙区间(例如SBR包络)

[式49]

bi≤r<bi+1

中的这些e(r)的平均值,即式(24)的

[式50]

e(i),|e(i)|2

作为时隙选择信息。其中,

[式51]

|e(i)|2=Σr=bibi+1|e(r)|2bi+1-bi

此外,作为时隙选择信息可以是式(26)、式(41)的eexp(r)或在其计算过程 中未进行平方根运算的|eexp(r)|2,还可以将某多个时隙区间(例如SBR包络)

[式52]

bi≤r<bi+1

中的这些eexp(r)的平均值,即

[式53]

eexp(i),|eexp(i)|2

作为时隙选择信息。其中,

[式54]

eexp(i)=Σr=bibi+1-1eexp(r)bi+1-bi

[式55]

|eexp(i)|2=Σr=bibi+1-1|eexp(r)|2bi+1-bi

此外,作为时隙选择信息,可以是式(23)、式(35)、式(36)的eadj(r)或 在其计算过程中未进行平方根运算的|eadj(r)|2,还可以将某多个时隙区间(例如SBR 包络)

[式56]

bi≤r<bi+1

中的这些eadj(r)的平均值

[式57]

eadj(i),|eadj(i)|2

作为时隙选择信息。其中,

[式58]

eadj(i)=Σr=bibi-1-1eadj(r)bi+1-bi

[式59]

|eadj(i)|2=Σr=bibi+1-1|eadj(r)|2bi+1-bi

此外,作为时隙选择信息可以是式(37)的eadj,scaled(r)或在其计算过程中未进 行平方根运算的|eadj,scaled(r)|2,还可以将某多个时隙区间(例如SBR包络)

[式60]

bi≤r<bi+1

中的eadj,scaled(r)的平均值

[式61]

eadj,scaled(i),|eadj,scaled(i)|2

作为时隙选择信息。其中,

[式62]

eadj,scaled(i)=Σr=bibi+1-1eadj,scaled(r)bi+1-bi

[式63]

|eadj,scaled(i)|2=Σr=bibi+1-1|eadj,scaled(r)|2bi+1-bi

此外,作为时隙选择信息可以是与时间包络已变形的高频成分对应的QMF区域 信号的时隙r的信号功率Penvadj(r)或进行了其平方根运算的信号振幅值

[式64]

Penvadj(r)

还可以将某多个时隙区间(例如SBR包络)

[式65]

bi≤r<bi+1

中的它们的平均值即

[式66]

Penvadj(i),Penvadj(i)

作为时隙选择信息。其中,

[式67]

Penvadj(r)=Σk=kxkx+M-1|qenvadj(k,r)|2

[式68]

Penvadj(i)=Σr=bibi+1-1Penvadj(r)bi+1-bi

其中,M是表示比高频生成部2g所生成的高频成分的下限频率kx高的频率范围 的值,此外,还可以将高频生成部2g所生成的高频成分的频率范围表示为 kx≤k<kx+M。

时隙选择部3a2根据由时间包络变形部2v1通知的时隙选择信息,来判断是否在 线形预测滤波部2k中针对由时间包络变形部2v1使时间包络发生了变形的时隙r的 高频成分的QMF区域的信号qenvadj(k,r)实施线形预测合成滤波处理,并选择实施 线形预测合成滤波处理的时隙(步骤Sp1的处理)。

在本变形例的实施时隙选择部3a2的线形预测合成滤波处理的时隙选择中,可以 选择包含在由时间包络变形部2v1通知的时隙选择信息中的参数u(r)大于规定值 uTh的一个以上时隙r,也可以选择u(r)大于等于规定值uTh的一个以上时隙r。u(r) 可包含上述e(r)、|e(r)|2、eexp(r)、|eexp(r)|2、eadj(r)、|eadj(r)|2、eadj,scaled(r)、|eadj,scaled(r)|2、Penvadj(r)以及

[式69]

Penvadj(r)

中的至少一个,uTh可包含上述

[式70]

e(i),|e(i)|2,eexp(i),

|eexp(i)|2,eadj(i),|eadj(i)|2

eadj,scaled(i),|eadj,scaled(i)|2,

Penvadj(i),Penvadj(i),

中的至少一个。另外,uTh可以是包含时隙r的预定的时间幅度(例如SBR包络) 的u(r)的平均值。此外,还可以选择为包含u(r)为峰值的时隙。可与上述第1 实施方式的变形例4中的高频成分的QMF区域信号的信号功率峰值的计算同样地计 算u(r)的峰值。此外,可利用u(r)与上述第1实施方式的变形例4同样地判断 上述第1实施方式的变形例4中的稳定状态和过渡状态,并根据该状态来选择时隙。 时隙的选择方法可采用至少一个上述方法,也可以采用至少一个与上述方法不同的方 法,还可以将这些方法组合起来。

(第4实施方式的变形例6)

第4实施方式的变形例6的语音解码装置24f(参照图30)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等的语音解码装置24e的 内置存储器中存储的预定的计算机程序(例如,用于进行图29的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24f。语音解码装置24f 的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如图30 所示,在变形例6中,语音解码装置24f省略了与第1实施方式同样地可通过第4实 施方式整体省略的、变形例4中记载的语音解码装置24d的信号变化检测部2e1、高频 线形预测分析部2h1和线形预测逆滤波部2i1,并且具备时隙选择部3a2以及时间包络 变形部2v1来代替语音解码装置24d的时隙选择部3a以及时间包络变形部2v。此外, 还变换作为可通过第4实施方式的整体来变换处理顺序的、线形预测滤波部2k3的线 形预测合成滤波处理和时间包络变形部2v1中的时间包络变形处理的顺序。

时隙选择部3a2根据由时间包络变形部2v1通知的时隙选择信息,判断是否在线 形预测滤波部2k3中针对通过时间包络变形部2v1使时间包络变形的时隙r的高频成 分的QMF区域的信号qenvadj(k,r)实施线形预测合成滤波处理,选择实施线形预测 合成滤波处理的时隙,将所选择的时隙通知给低频线形预测分析部2d1和线形预测滤 波部2k3。

(第4实施方式的变形例7)

第4实施方式的变形例7的语音编码装置14b(图50)物理上具备未图示的CPU、 ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置14b的内置存储 器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置 14b。语音编码装置14b的通信装置从外部接收作为编码对象的语音信号,而且向外 部输出编码后的复用比特流。语音编码装置14b具备比特流复用部1g6以及时隙选择 部1p1,来取代变形例4的语音编码装置14a的比特流复用部1g7以及时隙选择部1p。

与比特流复用部1g7同样地,比特流复用部1g6将由核心编解码器编码部1c计算 出的编码比特流、由SBR编码部1d计算出的SBR辅助信息、以及将滤波强度参数计算 部计算出的滤波强度参数和包络形状参数计算部1n计算出的包络形状参数进行了变换 后得到的时间包络辅助信息复用,此外还复用从时隙选择部1p1接收到的时隙选择信息, 将复用比特流(编码后的复用比特流)经由语音编码装置14b的通信装置输出。

第4实施方式的变形例7的语音解码装置24g(参照图31)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24g的内 置存储器中存储的预定的计算机程序(例如,用于进行图32的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24g。语音解码装置 24g的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输出。如 图31所示,语音解码装置24g具备比特流分离部2a7以及时隙选择部3a1,来代替 变形例4中记载的语音解码装置2d的比特流分离部2a3以及时隙选择部3a。

与比特流分离部2a3同样地,比特流分离部2a7将经由音解码装置24g的通信装 置输入的复用比特流分离为时间包络辅助信息、SBR辅助信息和编码比特流,还分 离出时隙选择信息。

(第4实施方式的变形例8)

第4实施方式的变形例8的语音解码装置24h(参照图33)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24h的内 置存储器中存储的预定的计算机程序(例如,用于进行图34的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24h。语音解码装置 24h的通信装置接收编码后的复用比特流而且将解码后的语音信号向外部输出。如图 33所示,语音解码装置24h具备低频线形预测分析部2d1、信号变化检测部2e1、高 频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替变 形例2的语音解码装置24b的低频线形预测分析部2d、信号变化检测部2e、高频线 形预测分析部2h、线形预测逆滤波部2i以及线形预测滤波部2k,还具备时隙选择部 3a。一次高次谐波调整部2j1与第4实施方式变形例2中的一次高次谐波调整部2j1 同样地,进行上述“MPEG-4 AAC″的SBR中的“HF调整(HF Adjustment)”步骤中 的任意一个以上的处理(步骤Sm1的处理)。二次高次谐波调整部2j2与第4实施方 式变形例2中的二次高次谐波调整部2j2同样地,进行上述“MPEG-4 AAC″的SBR中 的“HF调整(HF Adjustment)”步骤中的任意一个以上的处理(步骤Sm2的处理)。 二次高次谐波调整部2j2中进行的处理优选为上述“MPEG-4 AAC″的SBR中的“HF 调整(HF Adjustment)”步骤的处理中的、一次高次谐波调整部2j1没有进行过的处 理。

(第4实施方式的变形例9)

第4实施方式的变形例9的语音解码装置24i(参照图35)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24i的内 置存储器中存储的预定的计算机程序(例如,用于进行图36的流程图所示的处理的 计算机程序)加载到RAM中并运行来统一地控制语音解码装置24i。语音解码装置 24i的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如 图35所示,语音解码装置24i省略了与第1实施方式同样地可通过第4实施方式整 体省略的、变形例8的语音解码装置24h的高频线形预测分析部2h1以及线形预测逆 滤波部2i1,并且具备时间包络变形部2v1以及时隙选择部3a2,以代替变形例8的 语音解码装置24h的时间包络变形部2v以及时隙选择部3a。此外,还变换作为可通 过第4实施方式的整体来变换处理顺序的、线形预测滤波部2k3的线形预测合成滤波 处理和时间包络变形部2v1中的时间包络变形处理的顺序。

(第4实施方式的变形例10)

第4实施方式的变形例10的语音解码装置24j(参照图37)物理上具备未图示 的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24j 的内置存储器中存储的预定的计算机程序(例如,用于进行图36的流程图所示处理 的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24j。语音解码装 置24j的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。 如图37所示,语音解码装置24j省略了与第1实施方式同样地可通过第4实施方式 的整体省略的、变形例8的语音解码装置24h的信号变化检测部2e1、高频线形预测 分析部2h1以及线形预测逆滤波部2i1,并且具备时间包络变形部2v1以及时隙选择 部3a2,来代替变形例8的语音解码装置24h的时间包络变形部2v以及时隙选择部 3a。此外,还变换作为可通过第4实施方式的整体来变换处理顺序的、线形预测滤波 部2k3的线形预测合成滤波处理和在时间包络变形部2v1中的时间包络变形处理的顺 序。

(第4实施方式的变形例11)

第4实施方式的变形例11的语音解码装置24k(参照图38)物理上具备未图示 的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24k 的内置存储器中存储的预定的计算机程序(例如,用于进行图39的流程图所示的处 理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24k。语音解码 装置24k的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输 出。语音解码装置24k如图38所示,具备比特流分离部2a7以及时隙选择部3a1, 来代替变形例8的语音解码装置24h的比特流分离部2a3以及时隙选择部3a。

(第4实施方式的变形例12)

第4实施方式的变形例12的语音解码装置24q(参照图40)物理上具备未图示 的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24q 的内置存储器中存储的预定的计算机程序(例如,用于进行图41的流程图所示的处 理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24q。语音解码 装置24q的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输 出。如图40所示,语音解码装置24q具备低频线形预测分析部2d1、信号变化检测 部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及个别信号成分调整部 2z4、2z5、2z6(个别信号成分调整部相当于时间包络变形单元),来代替变形例3 的语音解码装置24c的低频线形预测分析部2d、信号变化检测部2e、高频线形预测 分析部2h、线形预测逆滤波部2i以及个别信号成分调整部2z1、2z2、2z3,而且还具 备时隙选择部3a。

个别信号成分调整部2z4、2z5、2z6中的至少一个与所述一次高频调整单元的输 出中包含的信号成分相关地,根据由时隙选择部3a通知的选择结果,与个别信号成 分调整部2z1、2z2、2z3同样地,针对所选择的时隙的QMF区域信号进行处理(步 骤Sn1的处理)。利用时隙选择信息进行的处理优选包含上述第4实施方式变形例3 所记载的个别信号成分调整部2z1、2z2、2z3的处理中的、包括频率方向的线形预测 合成滤波处理的处理中的至少一个。

个别信号成分调整部2z4、2z5、2z6中的处理与上述第4实施方式变形例3中记 载的个别信号成分调整部2z1、2z2、2z3的处理同样可以彼此相同,但个别信号成分 调整部2z4、2z5、2z6也可以针对一次高频调整单元的输出中包含的多个信号成分分 别以互不相同的方法进行时间包络的变形(个别信号成分调整部2z4、2z5、2z6均没 有根据由时隙选择部3a通知的选择结果进行处理的情况与本发明第4实施方式的变 形例3等同)。

从时隙选择部3a向个别信号成分调整部2z4、2z5、2z6分别通知的时隙的选择 结果可以不全部相同,还可以全部都不相同或者一部分不同。

此外,在图40中构成为从一个时隙选择部3a向个别信号成分调整部2z4、2z5、 2z6分别通知时隙的选择结果的结构,但也可以具有多个时隙选择部,针对个别信号 成分调整部2z4、2z5、2z6的各个或一部分通知不同时隙的选择结果。另外,此时, 与个别信号成分调整部2z4、2z5、2z6中进行第4实施方式变形例3中记载的处理4 (针对输入信号,利用与时间包络变形部2v同样的、从包络形状调整部2s获得的时 间包络进行了将各QMF子带采样与增益系数相乘的处理,然后针对该输出信号,进 一步利用与线形预测滤波部2k同样的、从滤波强度调整部2f获得的线形预测系数的 在频率方向的线形预测合成滤波处理)的个别信号成分调整部相对的时隙选择部也可 以从时间包络变形部被输入时隙选择信息而进行时隙的选择处理。

(第4实施方式的变形例13)

第4实施方式的变形例13的语音解码装置24m(参照图42)物理地上具备未图 示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24m 的内置存储器中存储的预定的计算机程序(例如,用于进行图43的流程图所示的处 理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24m。语音解码 装置24m的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外 部。语音解码装置24m如图42所示具备比特流分离部2a7以及时隙选择部3a1,来 代替变形例12的语音解码装置24q的比特流分离部2a3以及时隙选择部3a。

(第4实施方式的变形例14)

第4实施方式的变形例14的语音解码装置24n(未图示)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24n的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装 置24n。语音解码装置24n的通信装置接收编码后的复用比特流,而且将解码后的语 音信号向外部输出。语音解码装置24n在功能上具备低频线形预测分析部2d1、信号 变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤 波部2k3,来代替变形例1的语音解码装置24a的低频线形预测分析部2d、信号变化 检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i,以及线形预测滤波部2k, 而且还具备时隙选择部3a。

(第4实施方式的变形例15)

第4实施方式的变形例15的语音解码装置24p(未图示)物理上具备未图示的 CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24p的内 置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装 置24p。语音解码装置24p的通信装置接收编码后的复用比特流,而且将解码后的语 音信号输出至外部。语音解码装置24p在功能上具备时隙选择部3a1,来代替变形例 14的语音解码装置24n的时隙选择部3a。此外,还具备比特流分离部2a8(未图示) 来取代比特流分离部2a4。

与比特流分离部2a4同样地,比特流分离部2a8将复用比特流分离为SBR辅助 信息和编码比特流,还分离出时隙选择信息。

工业上的可利用性

作为以SBR为代表的频域内的频带扩展技术中应用的技术,本发明不会显著增 大比特率,可用作减轻所产生的前回声/后回声并提高解码信号的主观性质量的技术。

标号说明

11、11a、11b、11c、12、12a、12b、13、14,14a、14b...语音编码装置,1a... 频率变换部,1b...频率逆变换部,1c...核心编解码器编码部,1d...SBR编码部,1e、 1e1...线形预测分析部,1f...滤波强度参数计算部,1f1...滤波强度参数计算部,1g、 1g1、1g2、1g3、1g4、1g5、1g6、1g7...比特流复用部,1h...高频频率逆变换部,1i... 短时功率计算部,1j...线形预测系数抽样部,1k...线形预测系数量化部,1m...时间包 络计算部,1n...包络形状参数计算部,1p,1p1...时隙选择部,21、22、23、24、24b、 24c...语音解码装置,2a、2a1、2a2、2a3、2a5、2a6、2a7...比特流分离部,2b...核心 编解码器解码部,2c...频率变换部,2d、2d1...低频线形预测分析部,2e、2e1...信号 变化检测部,2f...滤波强度调整部,2g...高频生成部,2h、2h1...高频线形预测分析 部,2i、2i1...线形预测逆滤波部,2j、2j1、2j2、2j3、2j4...高频调整部,2k、2k1、 2k2、2k3...线形预测滤波部,2m...系数相加部,2n...频率逆变换部,2p、2p1...线形 预测系数内插/外插部,2r...低频时间包络计算部,2s...包络形状调整部,2t...高频时 间包络计算部,2u...时间包络平坦化部,2v、2v1...时间包络变形部,2w...辅助信息 变换部,2z1、2z2、2z3、2z4、2z5、2z6...个别信号成分调整部,3a、3a1、3a2...时 隙选择部

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号