首页> 中文学位 >感知压缩中音频稀疏表示的研究
【6h】

感知压缩中音频稀疏表示的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

图录

表录

第一章 绪论

1.1研究背景和意义

1.2研究现状

1.3论文的主要工作

1.4论文章节安排

第二章 感知压缩中稀疏表示相关理论

2.1感知压缩理论基础

2.2频谱感知压缩方法

2.3稀疏表示理论基础

2.4稀疏表示方法

2.5本章小结

第三章 音频稀疏表示的K-EMD方法

3.1音频稀疏表示现状

3.2 K-EMD算法

3.3 K-EMD性能对比实验

3.4本章小结

第四章 音频感知压缩系统实现

4.1系统框架

4.2学习字典训练

4.3编码端

4.4解码端

4.5音频感知压缩系统性能实验

4.6本章小结

第五章 总结与展望

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

展开▼

摘要

随着人们对音频、图像、视频等媒体的音质画质要求越来越高,传统的先采样后压缩的编码模式逐渐显现出其弊端:一方面,为了得到高音质高画质的媒体,传统编码模式需要采样器使用更高的采样率采集更多的样本点,而采样器硬件无法负担过高的采样率;另一方面,由于传输和储存的要求,编码器需要对采样得到的数据进行压缩,丢弃大部分冗余数据,造成了资源浪费。这种传统的编码模式极大地限制了多媒体技术的发展。近几年来,压缩感知理论迅速兴起。感知压缩是一种新型的采样理论,其主要目的是在采样的同时对信号进行压缩。相比于传统的先采样后压缩的编码模式,感知压缩仅需比原信号数据量更少的观测信号,就能以高概率恢复原信号,从而突破了奈奎斯特采样定律的束缚,使得采样器能够以亚奈奎斯特频率采样,节约了存储、传输等资源。
  虽然感知压缩技术从理论上能够达到较高的压缩率和重构准确度,并且对于其在图像和视频的应用已有大量的研究,但是实际上,感知压缩的性能并不理想,并且对于其在音频上的研究与应用少之又少。为了解决上述问题,本文对于感知压缩中信号稀疏表示进行研究,并提出了一种新型的学习字典构造算法——K平均聚类经验模态分解(K-means clustering empirical mode decomposition,K-EMD)字典构造方法。本文提出的K-EMD算法利用经验模态分解方法提取音频中的固有模态函数(Intrinsic Mode Function,IMF)及趋势信号(Trend),并对提取的成分进行K平均聚类,得到学习字典;同时,为了改善感知压缩中对于音频的稀疏表示性能,本文提出一种新的音频感知压缩编解码模式,突破了传统音频编解码中联合语音乐音编解码需要语音、乐音两套编解码方法的传统方式,首先使用Lasso算法将音频分为稳态成分、瞬态成分以及残差成分,再根据三部分成分的特点分别使用不同的感知压缩方法处理。对于稳态成分,由于其谐波特性较好,频谱较为稀疏,本文采取频谱感知压缩方法对稳态部分采样及重构;对于瞬态成分,由于其时域上的波形较为相似,具有一定的模式,本文采取基于K-EMD字典的感知压缩方法对瞬态部分采样及重构;对于残差成分,其中依旧包含原始音频的部分信息,若是舍弃此部分会对重构音频的音质产生影响,但是残差部分还包含部分噪声,没有特定的规律,所以本文采取基于贪婪自适应字典( Greedy Adaptive Dictionary,GAD)的感知压缩对残差部分采样及重构。
  为了验证本文提出的K-EMD学习字典构造方法的稀疏表示性能,并验证本文提出的对于音频的感知压缩系统的性能,本文分别对基于K-EMD的展开系数的稀疏度、基于K-EMD字典的重构准确度以及音频感知压缩系统的稀疏表示的稀疏度,系统重构准确度进行了大量实验,证明在稀疏性与重构准确性上相较广泛使用的K-SVD算法有一定程度上的提高,在稀疏性方面提高了57.46%,重构准确性提高了57.00%;同时本文提出的音频感知压缩编解码比使用单一稀疏表示方法的感知压缩编解码在稀疏表示展开系数的稀疏度方面提高了62.85%,在重构准确度方面提高了56.30%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号