首页> 中国专利> 民航管制语音稀疏编码方法

民航管制语音稀疏编码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

民航管制语音稀疏编码方法属于语音传输技术领域，尤其涉及一种民航管制语音稀疏编码方法。本发明提供一种编码速率低、语音质量好、安全性高、节省带宽的民航管制语音稀疏编码方法。本发明包括以下步骤：1）将待处理一段语音信号

著录项

公开/公告号CN103268765A

专利类型发明专利
公开/公告日2013-08-28

原文格式PDF
申请/专利权人沈阳空管技术开发有限公司;
展开▼

申请/专利号CN201310218874.X
发明设计人邱燕霖;吴戈;潘庆革;杨术轩;杨术森;林琳;刘哲;张磊;朱恩营;屈长鸣;
展开▼

申请日2013-06-04
分类号G10L19/005;
代理机构沈阳亚泰专利商标代理有限公司;
代理人史旭泰
地址 110167 辽宁省沈阳市东陵区小张尔481号
入库时间 2024-02-19 19:59:10

法律信息

法律状态公告日

法律状态信息

法律状态
2015-06-17

授权

授权
2013-09-25

实质审查的生效 IPC(主分类):G10L19/005 申请日:20130604

实质审查的生效
2013-08-28

公开

公开

说明书

技术领域

本发明属于语音传输技术领域，尤其涉及一种民航管制语音稀疏编码方法。

背景技术

民用航空空中交通服务，是管制员利用地空通信传输话音、气象等信息，对管辖区域内民航飞行器实施指挥、管制与引导等行为的总称。其中，语音通信是整个民航安全生产过程中最重要的环节。飞机飞行中的安全性主要靠语音通信指挥和保障。2006年以来，我国民用航空运输总量稳居世界第2，且以年均15%的速率持续增长，航班密度不断增大，导致空中交通管制语音通信容量急剧增加，找寻一种占用带宽更小、语音质量好的压缩方法成为一种必然的趋势。

卫星等窄带传输是民航语音通信的重要手段，要满足这样的传输方式，除了要保证传输语音的实时性和准确性，还要具备延时小、复杂度低等特点。

语音编码主要有三种方式: 波形编码、声码器和混合编码, 通常把编码速率低于64kbps的语音编码方式称为语音压缩编码技术。波形编码是将语音信号当作一般波形信号来处理，使重构的语音波形与原始语音波形尽可能保持一致，即在编码时以波形逼近为原则对语音信号进行编码。波形编码具有适应能力强、语音质量好和抗噪性强等优点，但是其编码速率较高，一般在16kb/s～64kb/s范围内。常见的编码方式包括脉冲编码调制(PCM)、自适应差分脉码调制(ADPCM)等。参数编码的基本思想是通过提取语音信号的特征参数来进行编码，力图使重构的语音具有尽可能高的可懂度，其优点是编码速率比较低，通常在16kb/s以下，甚至在2.4kb/s以下。但它的主要缺点是合成语音质量较差，自然度低，而且对说话环境要求苛刻，需要在安静的场合下才能有较高的可懂度。由于以上两种编码方法的先天性不足，后来人们提出了混合编码方法，它与参数编码相同的是，也采用了合成分析技术，同时又利用了语音的波形信息，增强了重构语音的自然度，使得合成语音质量有了明显的提高，其代价是编码速率有所上升，一般都在2.4kb/s～16kb/s之间。这类编码器主要有低延时码激励线性预测编码（LD-CELP）、规则脉冲激励线形预测编码(RPE-LPC)和码激励线形预测编码(CELP)等。

稀疏编码的概念源于视神经网络的研究，是对只有一小部分神经元同时处于活跃状态的多维数据的神经网络的表示方法。生物学实验表明，视皮层对外界刺激的处理采用神经稀疏表示原则，这既对繁杂冗余的信息提供了简单表示，又利于上层传感神经抽取刺激中最本质的特征。

从数学的角度讲，稀疏编码目前被假设为是对多维数据进行线性分解的一种表示方法。假设输入数据为n维随机向量，用表示线性转换后的m维向量，那么线性转换矩阵则为维，记为，线性转换表达式如下：

（1）W又称为稀疏变换矩阵，其每一个行向量类似小波变换中的小波基；S为线性转换后的稀疏分量，满足稀疏(超高斯)分布的要求，并且向量尽可能地相互独立。“稀疏性”的概念是指随机向量中的大部分元素都为零，只有极少数元素不为零。典型的稀疏分布如图1所示，其概率密度函数在原点处有尖锋，两旁有较重的拖尾。

发明内容

本发明就是针对上述问题，提供一种编码速率低、语音质量好、安全性高、节省带宽的民航管制语音稀疏编码方法。

为实现上述目的，本发明采用如下技术方案，本发明包括以下步骤：

1）将待处理一段语音信号x(n)进行无交叠分帧处理，帧长为M=512，得到N帧短时平稳语音序列，构成NM维的矩阵：

2）对X进行中心化，从中去除X的均值，令其为，处理后的数据为，其稀疏分量为：

去除S中零元素，，取少数非零分量组合得到新的系数为：

3）将通过稀疏变换矩阵进行反变换，得到压缩后的矩阵:

4）由和得压缩语音信号：

。

作为一种优选方案，对所述压缩语音信号的进行判断，查看内容是否相同；若是，直接传输一次内容相同的部分，并将数据长度附加发送。

作为另一种优选方案，本发明所述，

A=，即

A是对a(n)进行无交叠分帧处理，帧长为M=512，得到N帧短时的平稳语音序列，即

a(n)是与所述x(n)具有相同的统计特性的已知语音信号。

其次，本发明所述矩阵X中各参数为：

P为人耳可听见语音幅值最小值。

另外，本发明所述P为-10分贝。

本发明有益效果：本发明采用稀疏编码方法对语音进行压缩并加以实验验证，经过客观评价和多位管制员的实际评测可知，编解码前后的语音具有较好的相似度，且质量可达到4～5分。由此可以看出，稀疏编码法与其它语音编码方法相比，具有编码速率低、语音质量好的优势。结果表明，该方法能够改善空管话音质量及其传输方式，对飞行安全和效率的提升起到促进作用。另外，本发明采用稀疏编码算法压缩过的语音数据，封装成32个字节的小数据包进行交换传输，通过实测，该方法在保证语音质量的同时，带宽节省一倍以上，达到4kb/s。

附图说明

图1是稀疏分布示意图。

具体实施方式

设待处理一段语音信号x(n)，将x(n)进行无交叠分帧处理，帧长为M=512，得到N帧短时平稳语音序列，构成NM维的矩阵：

(2)

对进行处理，其中P为人耳可听见语音幅值最小值约-10分贝。

矩阵中各参数的确定：

其中

对X进行中心化，即从中去除X的均值，令其为，处理后的数据为，其稀疏分量：

（7）

去除S中零元素，取少数非零分量组合得到新的系数为：

（8）

即为S的各个稀疏分量经压缩后得到的矩阵，将通过神经元进行反变换便可得到压缩后的矩阵：

（9）

由和可得：

（10）

此时的帧长分别压缩为32，即语音传输率压缩到4kb/s，传输延时仅为9ms；更好地满足了民航卫星通信窄带（64k）传输需求，提高了实时性，杜绝了漏、吃字等指令丢失现象，使语音口令准确、及时、稳定地到达目的地。

将压缩后语音信号的进行判断，查看内容是否相同，若是，可直接传输一次内容相同的部分，并将数据长度附加发送即可，此方法可进一步达到对语音信号压缩的目的，进一步节省了带宽的占用。

由上述可以看出，利用稀疏编码进行语音压缩，计算复杂度低，传输延时小，在保证语音清晰度同时，带宽节省一倍以上，大大提高了民航管制语音的实时性和鲁棒性。

转换矩阵W的确定：由（1）式可知，稀疏编码语音压缩的关键是要寻找合适的转换矩阵，使语音信号经转换后得到的输出分量尽可能具有稀疏分布。

为了确定最优矩阵，设已知语音信号为a(n)，a(n)与x(n)具有相同的统计特性，对a(n)进行无交叠分帧处理，帧长为M=512，得到N帧短时平稳语音序列，构成NM维的矩阵：

(11)

根据语音信号的特点，我们可以假设矩阵，(12)

存在一个非零矩阵，使得矩阵A满足A=，其中设A是由N个源信号混叠而成，

(13)

进一步表示为：

(14)

在矩阵B的第j列的投影构成了语音信号的基本组成，因此语音数据A可以看作是由N个基函数的线性组合构成，矩阵B的每一列都是A的特征基函数，这些基函数反映了a(n)的本质特性，

（15）

其中即为转换矩阵，则有，这样的每一行对应语音信号a(n)的特征基函数。分离矩阵即为特征基函数矩阵，反映了原始语音信号a(n)的统计特性，因此求解出该特征矩阵也就得到了稀疏编码压缩中所需的神经元网络转换矩阵。

语音质量评价及比较：语音编码器的质量评价可分为客观质量评价和主观质量评价两种。客观质量评价是人们利用一些客观误差的测量方法来测量原始语音与编码重建语音之间的差别，给出一个定量的结果。主观评价是把编码的重建语音播放给有经验的管制员听，由管制员给语音信号的质量打分，这里所采用的方法为MOS法。采用客观评价和部分主观评价相结合的方法，可以更有效地评价语音质量。其中，管制员人数为30人，采用的语音尽量包括男女、中英文、大人和小孩等各种类型。

客观质量评价及比较，将稀疏编码法与标准宽带语音编码算法中G.723.1的语音进行比较。因为本发明算法的传输比特率是4kbit/s，因此采用比特率为6.3kbit/s的G.723.1编解码语音进行比较，比较的方法采用共轭谱距离测度法(CEP)、信噪比距离测度法(SNR)和似然比距离测度法(LR)，其结果相似度越大，评价值的绝对值就越小，且所有的评价值都是平均值。表2和表3分别为语音在G.723.1和本发明稀疏编码方法下的客观评价值，由表中数据可以看出，稀疏编码法比G.723.1具有更好的相似度。

表2 语音在G.723.1的6.3kbit/s下的客观评价值

表3 语音在本发明稀疏编码方法下的客观评价值

主观质量评价及比较：

在主观质量的评价中，可采用MOS的评价方法，还有降低等级（DCR）的评定方法。DCR方法是让听音者把编码后语音与编码前的语音相比，并评定出降低的程度，没有降低的给5分，对降低非常差的给1分，依次分为5个等级。表4为3种语音的MOS测试值，从表中可以看出，本发明稀疏编码法与G.723.1和LPC法相比语音质量较高。

表4各种语音的MOS测试值

下表是对传统语音压缩编码方法与本发明稀疏编码方法优缺点的比较。

可以理解的是，以上关于本发明的具体描述，仅用于说明本发明而并非受限于本发明实施例所描述的技术方案，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换，以达到相同的技术效果；只要满足使用需要，都在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 民航管制语音稀疏编码方法 [P] . 中国专利： CN103268765B . 2015.06.17
2. 民航管制语音稀疏编码方法 [P] . 中国专利： CN103268765A . 2013-08-28
3. SPARSE TRANSFORM METHOD FOR RESIDUAL SIGNAL IN VIDEO ENCODING, VIDEO ENCODING METHOD USING SPARSE TRANSFORM, AND METHOD FOR DECODING ENCODED SIGNAL BASED ON SPARSE TRANSFORM [P] . 韩国专利： KR101627069B1 . 2016-06-02

机译：用于视频编码中残留信号的稀疏变换方法，使用稀疏变换的视频编码方法以及基于稀疏变换的编码信号解码方法
4. A civil aviation air traffic control data fusion processing system [P] . 英国专利： GB201813914D0 . 2018-10-10

机译：民航空中交通管制数据融合处理系统
5. Device for adherence to international civil aviation organization response time in rescue or fire fighting measure on landing place with minimum air-traffic control occupation, has switchbox with multiple three-position-functional switches [P] . 德国专利： DE102008018455A1 . 2009-10-15

机译：遵守国际民航组织在降落地上的救援或消防措施中响应时间最短的空中交通管制人员的装置，具有带多个三位置功能开关的开关箱