首页> 中文学位 >音频数据检索快速算法的研究
【6h】

音频数据检索快速算法的研究

代理获取

目录

声明

第1章 绪论

1.1研究目的和意义

1.2国内外相关领域的研究现状

1.3研究内容和主要工作

1.4内容安排

第2章 特征参数的提取与模板匹配

2.1引言

2.2音频帧短时分析和基本特征参数

2.3模板匹配

2.4本章小结

第三章 音频数据快速检索算法的分析与实现

3.1引言

3.2动态时间规整方法

3.3图像配准方法

3.4音频数据快速检索算法

3.5本章小结

第4章 实验与结果分析

4.1实验方案设计

4.2实验数据的准备

4.3实验过程

4.4实验结果与分析

4.5本章小结

结论

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音频检索。其中,语音信号处理与识别是一个传统的研究热点,随着音频数据的海量增长以及语音识别技术的相对稳定和成熟,音频检索逐渐成为了信息检索领域内的一个新的研究热点。音频检索研究如何从大量音频信息中快速准确地检索满足要求的音频数据。与语音识别技术相比,音频检索处理的数据是更一般的波形声音信号(包括语音和音乐),其研究成果可广泛地应用于远程教学、卫生医疗、数字图书馆、环境监测、新闻和娱乐节目的索引与标记等领域。
  本学位论文研究了利用图像配准方法的音频数据快速检索算法,简称FAR(Fast Audio Retrieval)。首先,采用音频处理中的短时分析技术将音频数据划分成一个个短时帧,并提取其MFCC特征参数;其次,将音频短时帧的特征参数MFCC转换为二值图像;最后,采用图像配准的方法对测试模板和参考模板的MFCC特征参数进行模板匹配,计算两个模板之间的匹配程度,并将该结果作为两个模板间的相似性测度输出。
  实验表明,利用图像配准方法的音频数据快速检索算法与基于DTW算法的音频检索算法相比,在检索的召回率、准确率以及 F-指标等方面都有较大的改善,而且采用了图像配准的方法,算法的执行效率也优越于DTW方法。因此,本学位论文提出的FAR算法可用于基于内容和语义的音频检索技术中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号