首页> 中国专利> ESM语音编码解码装置及其编码解码方法

ESM语音编码解码装置及其编码解码方法

摘要

本实发明提供ESM语音编码解码装置及其编码解码方法,装置包括ESM语音编码器、ESM语音解码器、计算机,计算机安装有磁盘、声卡,ESM语音编码器包括预处理模块、优化处理模块、筛函数分析处理模块、位值化处理模块依次连接组成,ESM语音解码器包括倒筛函数处理模块、梯度分析模块相连接组成,预处理模块与磁盘、声卡连接,筛函数分析处理模块、位值化处理模块分别与倒筛函数处理模块、磁盘连接,倒筛函数处理模块、梯度分析模块分别与磁盘、声卡连接,声卡连接有麦克风、扬声器。本发明可实现语音信号的极大压缩,可较好地应用于对语音信号要求不是很高的移动通信网和IP电话系统等人机对话领域。

著录项

  • 公开/公告号CN1905008A

    专利类型发明专利

  • 公开/公告日2007-01-31

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN200610034211.2

  • 发明设计人 范毅方;李知宇;

    申请日2006-03-13

  • 分类号G10L19/00(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人李卫东;罗观祥

  • 地址 510640 广东省广州市天河区五山

  • 入库时间 2023-12-17 18:12:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-05-07

    未缴年费专利权终止 IPC(主分类):G10L19/00 授权公告日:20100120 终止日期:20130313 申请日:20060313

    专利权的终止

  • 2010-01-20

    授权

    授权

  • 2007-03-28

    实质审查的生效

    实质审查的生效

  • 2007-01-31

    公开

    公开

说明书

                        技术领域

本发明涉及语音信号处理技术,具体是指ESM(Eratosthenes SieveMethods)语音编码解码装置及其编码解码方法。

                        背景技术

人类语音来源于物理振动,语音是由声带、声门和声道等人体的发音系统产生(对应于人体的器官主要包括肺、气管、咽喉、鼻和口腔等)。人类语音是一种模拟声音信号。随着数字技术的发展,作为主要媒体的语音在通信,计算机和广播电视等领域正进行着数字化革命。语音信号的处理主要包括以下几个方面:语音信号编码解码处理,语音合成与语音识别等,其中语音信号编码解码技术是最重要的组成部分。语音编码解码技术包含语音的压缩编码和译码解码等内容。语音编码解码技术是卫星通信网、移动通信网和IP电话系统的关键技术,它的发展水平直接影响通信的质量和效率。嵌入式、网络化的语音交互已成为一种必然趋势,在语音通信中,传输效率问题一直是设计考虑的关键,语音编码解码便是当前解决这一问题的主要途径。

目前,语音信号的数字编码方法主要分成三类:波形编码(如PCM、ADPCM编码等)、参数编码(LPC等)和混合编码(CELP、MPLP等)。PCM编码方式的采样速率为8kHz,每个样值用8bit非线性的μ律或A律进行编码,因此速率为64kbps;ADPCM编码速率32kbps;CELP编码速率达到4kbps~16kbps;Modify-MELP报道其压缩率为64倍(2.4kbps);目前最快的是LPC编码速率(1.2kbps~2.4kbps)。

波形编码(PCM,Pulse Code Modulation)是对语音时域或频域波形进行编码,由于这种系统保留原始样值的细节,从而保留了信号的各种过度特征,因此解码音质较高,但此系统编码速率较高,压缩比不大。参数编码的基础是利用人类语音的生成模型,这样在传输过程中只需要传送模型的参数,大大降低了系统的编码速率。参数编码的缺点在于恢复的语音质量较差。参数编码与波形编码相结合的编码方式称混合编码,这种编码方式具备了参数编码与波形编码的特点,在较低的比特率上能够获得较高的语音质量,但是,混合编码也继承了参数编码与波形编码两者的缺点:压缩率没有参数编码高,解码音质没有波形编码好。

                        发明内容

本发明的目的在于克服上述现有技术的缺点和不足,提供编码速率低,解码声音质量好的ESM语音编码解码装置。

本发明的目的还在于提供上述ESM语音编码解码装置的编码解码方法。

本发明的目的通过下述技术方案实现:本ESM语音编码解码装置包括ESM语音编码器、ESM语音解码器、计算机,计算机安装有磁盘、声卡,所述ESM语音编码器包括预处理模块、优化处理模块、筛函数分析处理模块、位值化处理模块依次连接组成,所述ESM语音解码器包括倒筛函数处理模块、梯度分析模块相连接组成,所述预处理模块与磁盘、声卡连接,筛函数分析处理模块、位值化处理模块分别与倒筛函数处理模块、磁盘连接,倒筛函数处理模块、梯度分析模块分别与磁盘、声卡连接,所述声卡连接有麦克风、扬声器。

所述计算机还安装有网卡,所述网卡与预处理模块、筛函数分析处理模块、位值化处理模块、倒筛函数处理模块、梯度分析模块分别连接。

本ESM语音编码解码装置的ESM语音编码解码方法,其步骤包括:

(1)语音通过麦克风转变为模拟语音信号,模拟语音信号通过声卡进行A/D转化成PCM语音信号传送给计算机;

(2)计算机将PCM语音信号以文件流传直接送给ESM语音编码器,或者以文本文件储存在磁盘后传送给ESM语音编码器;

(3)ESM语音编码器对语音信号处理后,以文件流直接传送给ESM语音解码器,或者以文本文件储存在磁盘后传送给ESM语音解码器;

(4)ESM语音解码器对语音信号处理后,以文件流直接传送给声卡,或者以文本文件储存在磁盘后传送给声卡。

为更好地实现本发明,本ESM语音编码解码装置的计算机通过网卡与网络连接,可以实现对远程PCM语音信号进行ESM语音编码解码,其步骤包括:

(1)语音通过麦克风转变为模拟语音信号,模拟语音信号通过声卡进行A/D转化成PCM语音信号传送给计算机;或者远程PCM语音信号通过网卡传送给计算机;

(2)计算机将PCM语音信号以文件流直接传送给ESM语音编码器,或者以文本文件储存在磁盘后传送给ESM语音编码器;

(3)ESM语音编码器对语音信号处理后,以文件流直接传送给ESM语音解码器或网卡,或者以文本文件储存在磁盘后传送给ESM语音解码器或网卡;

(4)ESM语音解码器对语音信号处理后,以文件流直接传送给声卡或网卡,或者以文本文件储存在磁盘后传送给声卡或网卡。

所述ESM语音编码器处理语音信号的步骤包括:

(1)预处理模块对语音文件流进行预处理,预处理包括高斯平滑处理和域值处理;

(2)处理后的语音信号进入优化处理模块进行优化处理;

(3)优化处理后的语音信号进入筛函数分析处理模块,筛函数分析处理模块接受外部筛孔控制参数,筛函数分析处理模块在筛孔控制参数的控制下分析语音信号的基本特征,根据语音信号的特征对语音信号进行正常筛处理、边界筛处理和临界值筛处理后,传送给位值化处理模块;

(4)位值化处理模块根据语音信号的用途,对语音信号进行三值化处理或五值化处理,所述三值化处理是指通过控制参数,位值化处理模块选择-1,0和1代码对筛函数分析处理模块处理后的语音信号进行处理,所述五值化处理是指通过控制参数,位值化处理模块选择-2,-1,0,1和2代码对筛函数分析处理模块处理后的语音信号进行处理。

所述ESM语音解码器处理语音信号的步骤包括:倒筛函数处理模块接受外部筛孔控制参数,并在筛孔控制参数的控制下分析经ESM语音编码器处理后的语音信号的基本特征,根据语音信号的特征对语音信号进行正常筛处理、边界筛处理和临界值筛处理。

所述倒筛函数模块处理后的语音信号传送到梯度分析模块,进行梯度分析处理,其步骤包括:

(1)计算相邻语音信号的梯度,作为相邻语音信号插值信号的变化值;

(2)根据相邻语音信号插值信号的变化值,对语音信号恢复。

本发明与现有技术相比,具有如下优点和有益效果:本发明选用了既降低量化每个语音样本的比特数又保持相对好的语的音质量的波形编码,同时达到甚至低于参数编码的编码速率;采用的算法相对简单便于硬件和软件实现;ESM最快编码速率能够达到0.5kbps~1kbps。编码速率为0.5kbps可用于人机对话中快速识别,编码速率为1kbps可用于移动通信网和IP电话系统等领域。

                        附图说明

图1是本发明的结构方框图;

图2是ESM语音编码器方框图;

图3是ESM语音解码器方框图;

图4-1~4-7是各个处理模块的流程图;

图5-1是原始语音信号的波形和频谱图;

图5-2是原始语音信号进行高斯平滑、域值预处理后的波形和频谱图;

图6是筛孔分别用8、32、64和128处理后的波形和频谱图;

图7-1是一段语音信号经过筛函数分析处理后的波形图;

图7-2是图7-1所示一段语音信号经过筛函数分析处理、五值化处理后的波形、频谱图;

图7-3是图7-1所示一段语音信号经过筛函数分析处理、三值化处理后的波形图;

图8-1是经过筛函数分析处理、直接进行倒筛函数处理后的波形图;

图8-2是经过筛函数分析处理、三值化处理、倒筛函数处理后的波形图。

                        具体实施方式

下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。

实施例一

如图1、2、3所示,本ESM语音编码解码装置包括ESM语音编码器、ESM语音解码器、计算机,计算机安装有磁盘、声卡,ESM语音编码器包括预处理模块、优化处理模块、筛函数分析处理模块、位值化处理模块依次连接组成,ESM语音解码器包括倒筛函数处理模块、梯度分析模块相连接组成,预处理模块与磁盘、声卡连接,筛函数分析处理模块、位值化处理模块分别与倒筛函数处理模块、磁盘连接,倒筛函数处理模块、梯度分析模块分别与磁盘、声卡连接,声卡连接有麦克风、扬声器。

计算机还安装有网卡,网卡与预处理模块、筛函数分析处理模块、位值化处理模块、倒筛函数处理模块、梯度分析模块分别连接。

如图1、2、3所示,本ESM语音编码解码装置的ESM语音编码解码方法,其步骤为:

(1)语音通过麦克风转变为模拟语音信号,模拟语音信号通过声卡进行A/D转化成PCM语音信号传送给计算机;

(2)计算机将PCM语音信号以文件流传直接送给ESM语音编码器,或者以文本文件储存在磁盘后传送给ESM语音编码器;

(3)ESM语音编码器对语音信号处理后,以文件流直接传送给ESM语音解码器,或者以文本文件储存在磁盘后传送给ESM语音解码器;

(4)ESM语音解码器对语音信号处理后,以文件流直接传送给声卡,或者以文本文件储存在磁盘后传送给声卡。

如图1、2、3所示,本ESM语音编码解码装置的计算机通过网卡与网络连接,还可以实现对远程PCM语音信号进行ESM语音编码解码,其步骤包括:

(1)语音通过麦克风转变为模拟语音信号,模拟语音信号通过声卡进行A/D转化成PCM语音信号传送给计算机;或者远程PCM语音信号通过网卡传送给计算机;

(2)计算机将PCM语音信号以文件流直接传送给ESM语音编码器,或者以文本文件储存在磁盘后传送给ESM语音编码器;

(3)ESM语音编码器对语音信号处理后,以文件流直接传送给ESM语音解码器或网卡,或者以文本文件储存在磁盘后传送给ESM语音解码器或网卡;

(4)ESM语音解码器对语音信号处理后,以文件流直接传送给声卡或网卡,或者以文本文件储存在磁盘后传送给声卡或网卡。

如图2所示,ESM语音编码器处理语音信号的步骤为:

(1)预处理模块对语音文件流进行预处理,预处理包括高斯平滑处理和域值处理;

(2)处理后的语音信号进入优化处理模块进行优化处理;

(3)优化处理后的语音信号进入筛函数分析处理模块,筛函数分析处理模块接受外部筛孔控制参数,筛函数分析处理模块在筛孔控制参数的控制下分析语音信号的基本特征,根据语音信号的特征对语音信号进行正常筛处理、边界筛处理和临界值筛处理后,传送给位值化处理模块;

(4)位值化处理模块根据语音信号的用途,对语音信号进行三值化处理或五值化处理,所述三值化处理是指通过控制参数,位值化处理模块选择-1,0和1代码对筛函数分析处理模块处理后的语音信号进行处理,所述五值化处理是指通过控制参数,位值化处理模块选择-2,-1,0,1和2代码对筛函数分析处理模块处理后的语音信号进行处理。

三值化处理可在完全保留语音信号的频域特征的情况下,对语音幅值进行最大地简化。五值化处理在较高的代码压缩率情况下,保留了一定的语音幅值,对解码后语音质量提高明显。

图5-1~图5-2是原始语音信号进行高斯平滑、域值预处理前、后的波形和频谱图比较,比较后可以发现语音的平滑度大大提高,同时噪声得到了很好地抑制;语音信号在进入筛处理之前再进行一次优化处理,优化处理由优化模块完成,优化处理的目的是根据人体语音信号的特征,极大地消除噪音信号使语音信号更加连续平滑;筛法是古希腊Eratosthenes提出来的,Eratosthenes筛法的“筛子”是指有限个条件组成的数学模型,定义的筛函数中,原始语音信号原始数据集,设定某种条件筛孔的筛子,通过筛子的语音信号形成了新的数据集,从而完成了语音信号的处理,筛子不是统计学中随机抽样,而是在保语音特征的前提下来减少数据量,也就是语音征量的提取。

图6-1~6-4是经过优化处理后,语音信号“Taxi”再通过筛函数分析处理模块在不同筛孔8、32、64和128处理后的波形和频谱图处理后效果(为了增加可比性,波形进行了归一化处理)。如图6-2所示,筛空为32时,和图5相比较,波形基本保持了原语音信号波形的主要特征,如图6-3、6-4所示,而筛孔为64和128时间波形残留的信息已经非常少了。

语音波形主要包含两个信息:时间-频率和时间-振幅,语音的特征由频率决定而非振幅,经过筛函数分析处理的语音信号虽然获得了极大地压缩,但仍可以通过位值化处理进一步简化语音信号。图7-1是一段语音信号经过筛函数分析处理后的波形图,图7-2是图7-1所示一段语音信号经过筛函数分析处理后,采用255,195,127,63和0五值化处理后的“Taxi”的波形频谱图,从图形上看信号发生很大的变化,但是通过播放器还是能够分辨出词音,只是感觉噪声很大,这是因为语音在放大的同时噪声也被放大,而从语音中完全去除噪声是很难办到的,以此方法可以极大地简化语音成为三值信号(2bit),图7-3是图7-1所示一段语音信号经过筛函数分析处理、三值化处理后的波形图。

如图3所示,ESM语音解码器处理语音信号的步骤包括:倒筛函数处理模块接受外部筛孔控制参数,并在筛孔控制参数的控制下分析经ESM语音编码器处理后的语音信号的基本特征,根据语音信号的特征对语音信号进行正常筛处理、边界筛处理和临界值筛处理。如图4-7所示,倒筛函数模块处理后的语音信号传送到梯度分析模块,进行梯度分析处理,通过梯度分析处理模块对语音信号进行幅域上的解码,梯度分析处理的步骤包括:

(1)通过梯度分析处理模块计算相邻语音信号的梯度,作为相邻语音信号插值信号的变化值;

(2)梯度分析处理模块根据相邻语音信号的变化值,对语音信号恢复,同时提高语音信号的音质。

ESM语音解码器对ESM语音编码器所形成的语音信号进行恢复。首先ESM语音解码器接受筛孔控制参数,筛孔控制参数决定倒筛函数处理模块的筛孔大小,倒筛函数模块是筛函数分析处理的逆运算,在对语音信号进行倒筛函数时,倒筛函数根据语音信号的特征选择筛选方式,经过倒筛函数处理后的通过控制器件储存、文件流传送或进入梯度分析模块进行进一步地恢复,梯度分析模块是在位值化处理、倒筛函数处理的基础上,根据语音信号前后数据点变化的情况对语音函数进行拟合。图8-1是经过筛函数分析处理、直接进行倒筛函数处理后的波形图,图8-2是经过筛函数分析处理、三值化处理、倒筛函数处理后的波形图。

通过实验和理论分析得出筛孔选择16时(1/16),三值化即2bit,则编码速率为1kbps,语音信号通过倒筛函数处理后基本恢复原语音的特征;选择32时(1/32),三值化即2bit,则编码速率为0.5kbps,此时信号已不适合交流式语音,但其特征仍然很明显。

如上所述,便可较好地实现本发明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号