基于音频分割的场景分类研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着多媒体产业的迅速发展、音频信号处理技术研究的深入、音频分割和分类技术在现实生活中音频检索、视频分析和语音识别方面的广泛应用，音频信号的分割和分类技术越来越得到人们在日常生活中的普遍关注。音频信号的场景分割和分类技术是音频信号处理中一项重要的内容。音频信号的分割技术就是在一段音频文件中找到不同段落的起始点、终点的位置，音频的场景分类技术就是在分割技术找到段落起始点和终点的基础上，根据不同的段落特征进行场景的识别。这两项技术是语音识别中前端处理中的最关键的技术，其性能的优劣程度必然直接影响到语音识别系统的正确率。
　　本文首先介绍了音频分割和分类技术研究背景及现状，之后针对所采用的语料库，明确了音频信息中主要的音频类型，把音频分成纯语音、噪声、音乐、在背景音乐下的语音、静音和在噪声下的语音，共六种。之后分别介绍近几年国内外学者提出的一些音频分割算法，如固定窗长度的分割熵算法和基于贝叶斯信息准则(BIC)的音频分割算法，并进行仿真实验说明结果，比较这两种算法在不同情况下的优点和缺点。之后本文针对音频场景分割跳变点检测提出针对BIC算法的改进和实现，在低噪声条件下，能够很好的保证系统的准确率和鲁棒性，并减少了检测时间，实现了音频场景跳变点检测系统的高效性。由于支持向量机(SVM)能够成功的向高维空间非线性映射，本文采用支持向量机(SVM)作为分类器，运用K-means聚类算法生成字典，将每一段音频场景向生成的字典投影，从而得到每一类音频的新特征作为训练数据，根据对比出来的实验结果，说明生成的新特征与SVM分类器相结合的音频场景分类方法对于基线系统的分类方法优化了准确率。之后本文又在提取新特征上面提出了金字塔方法，进一步优化了分类系统的准确率。文章最后对分割熵和BIC两种音频分割算法进行归纳总结，并做出了一些关于音频场景跳变点检测方法的进一步改进方向和音频场景分类技术的前景展望。

著录项

作者
孙立仁;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科电子与通信工程
授予学位硕士
导师姓名张磊;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
音频分割; 信号处理; 场景识别; 分割熵算法; 贝叶斯信息准则;

相似文献

中文文献
外文文献
专利

1. 基于Squeeze-Excitation的音频场景分类研究 [J] . 乔高杰 ,廖闻剑 . 电子设计工程 . 2021,第019期
2. 基于超像素分割的空间相关主题模型及场景分类方法 [J] . 王立军 ,黄忠朝 ,赵于前 . 浙江大学学报（工学版） . 2015,第003期
3. 改进卷积神经网络的音频场景分类研究 [J] . 杨立东 ,张壮壮 . 现代电子技术 . 2021,第003期
4. 一种基于音频分割的音频分类算法 [J] . 杨贵安 ,邵玉斌 ,龙华 . 通信技术 . 2021,第002期
5. “视音频格式”的转换与分割—视音频格式的分割（3） [J] . 吴锦前 . 中国传媒科技 . 2002,第011期
6. 音频场景分类的音频特征提取和分析 [C] . 姜洪臣 ,梁伟 ,张树武 . 第八届全国人机语音通讯学术会议（NCMMSC8) . 2005
7. 基于HOG的音频特征提取研究及其在音频场景分类下的应用 [A] . 刘泉泉 . 2019

基于音频分割的场景分类研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅