首页> 中文学位 >基于音频指纹的分片音频检索算法的研究
【6h】

基于音频指纹的分片音频检索算法的研究

代理获取

目录

声明

第1章 绪 论

1.1研究背景和意义

1.2国内外研究的现状

1.3本文主要工作

1.4本文的组织结构

第2章 音频检索基础

2.1人类对音频信息的认知机理

2.2音频常用特征参数

2.3音频检索框架介绍

2.4音频检索评价

2.5小结

第3章 音频指纹检索技术的研究

3.1音频指纹检索技术介绍

3.2 Philips音频检索技术

3.3 Shazam音频检索技术

3.4小结

第4章 基于三角组合的音频指纹提取算法

4.1 音频指纹检索系统的总体流程

4.2音频数字化预处理

4.3改进的音频指纹提取算法

4.4音频指纹匹配算法

4.5仿真实验

4.6小结

第5章 基于音频指纹的分片音频检索方法

5.1分片音频检索方法介绍

5.2改进的音频指纹提取和匹配过程

5.3仿真实验

5.4小结

结论

参考文献

附录A 攻读学位期间的学术成果及参与的项目

致谢

展开▼

摘要

随着互联网的快速发展,多媒体信息尤其是音频信息呈现出爆炸式增长。传统的基于文本的检索方法已经不能满足人们对音频信息检索的需求。基于音频信号的音频检索技术的研究正在快步推进,尤其是音频指纹检索技术是研究的热点,音频指纹是从音频信号中提取的一段数字摘要,比较的是其相应较小的数字指纹,而不是直接比较很大的音频数据本身。因此,音频指纹检索技术不仅能大大减少搜索量,而且能够显著的提高检索效率。随着技术发展,其应用场景已经进入音乐检索、版权保护、广告监播、电视互动等各种领域。因此,对音频指纹检索技术进行研究有很大的意义。
  本文以Shazam算法为基础,通过对音频指纹提取过程进行分析,提出了改进的音频指纹提取算法,提高了音频检索的准确率。在改进音频指纹提取算法的基础上,提出了分片音频检索算法,在保证了检索准确率的同时,大大缩短了检索时间。主要工作如下:
  提出了一种基于三角组合的音频指纹提取算法。详细分析Shazam算法中音频指纹提取过程的优缺点,针对Shazam算法中将频谱峰值点进行点对组合构成音频指纹,优化为一个锚点对应两个目标峰值点组成三角组合,以此构成音频指纹。这样不但可以增加指纹信息量,减少提取的指纹量,而且更加增强了音频指纹的鲁棒性,从而提高了音频检索算法的准确性和鲁棒性,并且通过仿真实验证明了该改进算法较高的检索性能。
  提出了一种基于音频指纹的分片音频检索方法。该方法以改进的音频指纹提取算法为基础,对音频指纹提取和匹配过程进行优化,利用音频分片和匹配阈值的思想,将较长待检音频片段进行分片,对分片进行音频指纹提取和匹配,若匹配值大于匹配阈值,检索结束,就不用对剩余的分片进行任何处理,否则,就需要使用其他分片。该改进方法,在保证比较高的准确率的同时,能在很大程度上缩短检索时间,最后通过仿真实验也证明了该结论。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号