音频分类
音频分类的相关文献在2000年到2022年内共计188篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播
等领域,其中期刊论文76篇、会议论文14篇、专利文献107270篇;相关期刊59种,包括上海大学学报(自然科学版)、内蒙古科技大学学报、长春工业大学学报(自然科学版)等;
相关会议11种,包括第十一届全国人机语音通讯学术会议、2010年亚太信息网络与数字内容安全会议、第五届和谐人机环境联合学术会议(HHME2009)、第18届全国多媒体学术会议(NCMT2009)、第4届全国普适计算学术会议(PCC2009)、第5届全国人机交互学术会议(CHCI2009)等;音频分类的相关文献由387位作者贡献,包括芦烈、杨立东、王珺等。
音频分类—发文量
专利文献>
论文:107270篇
占比:99.92%
总计:107360篇
音频分类
-研究学者
- 芦烈
- 杨立东
- 王珺
- 郑继明
- 劳振锋
- 杨嵩
- 谢湘
- 马路
- A·J·希菲尔德
- 匡镜明
- 吴渝
- 周迅
- 张晓龙
- 张艳宁
- 杨玉莲
- 王晓暄
- 王晶
- 谢磊
- 郑李磊
- G·恰奇克
- M·雷恩
- R·F·里昂
- S·本吉奥
- T·瓦尔特斯
- 丁宁
- 万旺根
- 于宝芸
- 付炜
- 何新
- 何新宇
- 何萍
- 余小清
- 俞玉莲
- 傅利泉
- 冷严
- 刘宇
- 刘曦环
- 刘翠
- 刘荣
- 劳伦·勒福舍尔
- 卢多维克·多米尼克·乔尔·勒保罗克
- 史迎春
- 吴军
- 吴坚
- 周杰
- 周献中
- 姜洪臣
- 孔明明
- 孙珏
- 巫海维
-
-
屈晓渊;
崔青
-
-
摘要:
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是一种符合人耳听觉特征,并与频率呈非线性对应关系的频谱特征,广泛应用在语音识别、音频特征分析等方面。对于目前广泛使用的通过单一特征进行音频分类的方法,存在分类准确度低、处理速度慢等方面的不足,提出了基于梅尔频率倒谱的音频分类算法,该算法对音频设定采样率,获取音频的时间序列,并根据时间序列提取梅尔频率倒谱系数特征,将获取的二维特征值进行数据拟合、标准化处理。构建多层卷积神经网络模型,将标准化处理后的梅尔频率倒谱系数特征作为网络的输入,通过交叉熵验证的方法,对模型的输出进行分类。通过实验数据可知,梅尔频率倒谱系数特征通过多层卷积网络处理后,分类结果准确率达到92.8%,使用模型进行分类时,速度达到每个样本7 ms的耗时,模型能对音频进行准确快速的分类。
-
-
熊华煜;
余勤;
任品;
雒瑞森
-
-
摘要:
为施行有效的音频分类以高效率处理日渐复杂的音频信息,研究采用包含多种神经网络在内的5种机器学习模型,实现多种决策下的音频分类以寻找最优模型,基于分类准确度对各模型分类效果进行评估,在使用正则化方法保证模型泛化能力的条件下,通过比较和实验,挖掘并验证出了相对最优的模型——卷积神经网络音频分类模型及对应参数,为现有音频分类模型的进一步优化提供了参考方向.
-
-
杨贵安;
邵玉斌;
龙华;
杜庆治
-
-
摘要:
为解决单一语音、音乐音频及其两者的混合音频进行语音/音乐分类时分类结果不准确的问题,提出一种基于音频分割的音频分类算法.利用能熵比特征进行音频分割,分割出的音乐段较为准确,而利用幅度均方根特征进行音频分割,分割出的语音段较为准确,避免了对语音段的过度分割.将两种分割方法分割所得音频段的起点和终点升序排列并两两组合形成新的音频段作为音频分割结果,音频分割结果中的每一个音频段即一种类型的音频.对音频分割结果中的每一个音频段提取幅度的峰态系数和平均基频两个特征,并利用高斯混合模型作为后端分类器进行分类.最后为了消除过分割现象,将同类型的相邻音频段合并便得到最终分类结果.实验结果表明,所提出的算法对混合音频具有很高的分割准确率,达到98.24%,对单一音频和混合音频仅提取二维特征便得到较高的分类准确率,分别达到98%和98.61%,与同类算法相比较分类准确率平均提高3.80%.
-
-
潘安迪;
肖川;
陈曦
-
-
摘要:
水声目标识别的任务是通过采集到水声目标的信号来对目标进行分类,在海洋勘探,监听技术等领域有着非常重要和广泛的应用.由于海洋环境的复杂性,以及船只目标发动机的多样性以及噪声的存在,水声目标识别是一个困难的任务.传统的特征提取方法无法提取到足够有效的特征表示,充分地表示目标.为了解决这个问题,本文提出了一种基于改进的视觉化词袋模型的水声识别算法,通过使用视觉化词袋模型对频谱图进行高维的特征提取,然后使用了自然语言处理领域中常见的词频-逆文件频率(TF-IDF)算法来对得到的特征向量进行权重调整,然后输入到多层感知机中,对水声目标进行分类识别.实验结果表明,本文提出的识别算法取得了92.53%的正确率,相比于当前效果最好的深度玻尔兹曼机(DBM)算法有了明显的提升.
-
-
郭毓博;
陆军;
段鹏启
-
-
摘要:
提出了一种针对竹笛技巧分类的数据集Breath和两个用于竹笛技巧分类的神经网络参考模型Breath1d和Breath2d,并针对此数据集的不同分类任务给出了最佳方法.将Breath数据集划分成子集,以多层感知机为性能评价基准方法,先用Breath1d和Breath2d模型对子集进行训练和预测,再用长短期记忆网络模型进行辅助测试,最后得出了最适合子任务的分类参考模型.对全数据集进行分类时,将Breath2d与Breath1d模型进行融合,并采用数据增强方法使全集分类准确率达到0.913.与传统音频分类任务相比,该工作扩展了音乐分类的研究领域,对民族音乐现代化发展有着良好的推动作用.
-
-
徐昫
-
-
摘要:
本文根据当前江苏广播广告的类型和播出流程,针对广告播后检测的需求设计了一个基于人工智能的广告自台监播系统,系统基于音频声纹对比技术检测普通广告,基于语音转写技术检测口播广告,并通过音频分类技术和自然语言处理技术对检测结果进行优化,提供广告播出情况的可视化图表和统计分析数据,实现了全频率、全类型、智能化的广告播后检测.
-
-
钱立恩;
马国峰;
庞博
-
-
摘要:
针对现阶段敏感音频识别分类方法普遍存在精度不高的状况,以阵地音频文件作为数据源构建敏感音频识别样本库,并通过深度学习残差网络训练敏感音频分类识别模型,用测试音频对准确率、精确率及召回率进行精度评价,并将其与卷积神经网络法、添加梅尔倒谱系数的支持向量机及添加梅尔倒谱系数的随机森林法进行对比。结果表明:提出的方法在敏感音频识别分类方面具有更好的表现。
-
-
-
邓晋;
潘安迪;
肖川;
刘姗琪
-
-
摘要:
海洋声场环境的时变空变特性、水声目标发声机理的多源性以及其他噪声源的干扰,给水声目标的检测和识别带来很多困难.常规的目标识别手段主要是基于音频时频域特征分析,在复杂海洋环境下的难以获取有效的表征特征及鲁棒的识别效果.为了解决这些问题,本文提出了基于迁移学习的水声目标识别,分别利用预训练网络VGG和VGGish提取深层声学特征及模型微调,实现水声目标的分类识别.实验表明,本文提出的识别算法有效提升了识别准确率,减少了训练时间,基于微调的迁移学习算法在水声目标识别上平均准确率为92.48%,取得了当前最好的识别结果.
-
-
杨立东;
靳浩杨;
王硕;
辛文超
-
-
摘要:
森林是地球上最宝贵的资源,但森林和古树被盗伐的事件却经常发生.将音频分类技术应用于森林保护,通过对盗伐过程中产生的音频进行识别,达到森林保护预警的目的.针对盗伐事件的音频场景特性,提取电锯声、引擎声、机器轰鸣声、手锯声、风噪等五种声音的音频特征,然后使用支持向量机作为分类器对音频事件进行识别.最后根据识别结果确定是否有盗伐行为发生.通过不同训练样本数量对比实验、随机样本实验和单项音频识别准确率实验最终确定总体识别率为99.1%,各项音频单独识别率在90%以上,说明此方法具有较好的识别效果.
-
-
Yang Lidong;
杨立东;
Wang Jing;
谢湘;
Xie Xiang;
王晶;
Kuang Jingming;
匡镜明
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
为了提高音频数据分类正确率,提出一种通过非负张量分解的分类方法.音频信号经过预处理后,提取声学特征和感知特征参数,然后构建非负的三阶音频张量,其各阶分别对应特征、帧、样本;其次,通过非负张量分解得到每一类音频的核张量与因子矩阵,让测试样本构建的张量与各类型音频的因子矩阵的转置进行张量乘,得到对核张量的近似;最后,通过Frobenius范数进行相似性度量完成分类.使用古典音乐、流行音乐、语音、噪声4种类型的音频数据测试分类效果,实验结果表明:平均分类正确率在85%以上,说明该方法可以有效的完成音频分类.
-
-
-
-
-
-
-
邢峰;
郑继明;
吴渝;
李婧
- 《第六届中国Rough集与软计算学术研讨会(CRSSC'2006)》
| 2006年
-
摘要:
音频分类是音频分析中的一项基本任务,它为基于内容的音频检索做准备.目前对音频分类方法的研究有很多.音频特征分析和抽取是音频分类的基础.许多文献是基于时域或傅立叶变换频域提取音频信号的特征的,但由于音频信号的短时平稳性,这些方法具有一定的局限性.小波理论的出现为信号分析提供一种时频分析工具,它已经成功地应用于不同的信号分析中.音频信号经小波变换后满足不确定性原则,提高了时频分辨率,同时也符合人耳的时频分辨特性.本文运用离散小波变换,利用小波系数计算质心、带宽、子带能量和静音比等特征,并根据得到的子带能量计算前后子带能量比,利用能量比对各子带能量进行处理,得到新的子带能量.将这些特征作为音频分类的基础,根据小波域中特征向量的特点,分别构造两个不同的线性判别式函数,从而把音频分成四种不同的种类.实验结果表明这种方法比较简单,提取小波域的特征所花费的计算较少,分类准确率达到87.2%。
-
-
吕萍;
颜永红
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文针对广播新闻语料声学环境复杂多变的特点,构建了完整的广播新闻语料识别系统一ThinkIT-BNR系统.该系统包括:音频匹配、音频自动分段、音频分类、说话人聚类、识别后处理,以及多阶段识别策略等多个模块.本文还通过半自动标注方法,建立了70小时的广播新闻语料库.对新闻联播节目的测试表明,ThinkIT-BNR系统的误识率仅为10.14%.
-
-
陈韵勇;
谢湘;
刘家康
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文通过建立mp3歌曲数据库,分析并选择了音频信号特征,研究了最近特征线(NFL)方法,最终把NFL用到所建立的数据库中,对语音、纯音乐和语音-音乐的混合三类音频信号进行分类.实验的结果表明,特征用14维MFCC时,NFL能够有效地对语音信号、纯音乐信号、语音-音乐的混合信号进行分类,正确率达到95.01%.
-
-
陈韵勇;
谢湘;
刘家康
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文通过建立mp3歌曲数据库,分析并选择了音频信号特征,研究了最近特征线(NFL)方法,最终把NFL用到所建立的数据库中,对语音、纯音乐和语音-音乐的混合三类音频信号进行分类.实验的结果表明,特征用14维MFCC时,NFL能够有效地对语音信号、纯音乐信号、语音-音乐的混合信号进行分类,正确率达到95.01%.