您现在的位置: 首页> 研究主题> 音频分类

音频分类

音频分类的相关文献在2000年到2022年内共计188篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播 等领域,其中期刊论文76篇、会议论文14篇、专利文献107270篇;相关期刊59种,包括上海大学学报(自然科学版)、内蒙古科技大学学报、长春工业大学学报(自然科学版)等; 相关会议11种,包括第十一届全国人机语音通讯学术会议、2010年亚太信息网络与数字内容安全会议、第五届和谐人机环境联合学术会议(HHME2009)、第18届全国多媒体学术会议(NCMT2009)、第4届全国普适计算学术会议(PCC2009)、第5届全国人机交互学术会议(CHCI2009)等;音频分类的相关文献由387位作者贡献,包括芦烈、杨立东、王珺等。

音频分类—发文量

期刊论文>

论文:76 占比:0.07%

会议论文>

论文:14 占比:0.01%

专利文献>

论文:107270 占比:99.92%

总计:107360篇

音频分类—发文趋势图

音频分类

-研究学者

  • 芦烈
  • 杨立东
  • 王珺
  • 郑继明
  • 劳振锋
  • 杨嵩
  • 谢湘
  • 马路
  • A·J·希菲尔德
  • 匡镜明
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 屈晓渊; 崔青
    • 摘要: 梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是一种符合人耳听觉特征,并与频率呈非线性对应关系的频谱特征,广泛应用在语音识别、音频特征分析等方面。对于目前广泛使用的通过单一特征进行音频分类的方法,存在分类准确度低、处理速度慢等方面的不足,提出了基于梅尔频率倒谱的音频分类算法,该算法对音频设定采样率,获取音频的时间序列,并根据时间序列提取梅尔频率倒谱系数特征,将获取的二维特征值进行数据拟合、标准化处理。构建多层卷积神经网络模型,将标准化处理后的梅尔频率倒谱系数特征作为网络的输入,通过交叉熵验证的方法,对模型的输出进行分类。通过实验数据可知,梅尔频率倒谱系数特征通过多层卷积网络处理后,分类结果准确率达到92.8%,使用模型进行分类时,速度达到每个样本7 ms的耗时,模型能对音频进行准确快速的分类。
    • 熊华煜; 余勤; 任品; 雒瑞森
    • 摘要: 为施行有效的音频分类以高效率处理日渐复杂的音频信息,研究采用包含多种神经网络在内的5种机器学习模型,实现多种决策下的音频分类以寻找最优模型,基于分类准确度对各模型分类效果进行评估,在使用正则化方法保证模型泛化能力的条件下,通过比较和实验,挖掘并验证出了相对最优的模型——卷积神经网络音频分类模型及对应参数,为现有音频分类模型的进一步优化提供了参考方向.
    • 杨贵安; 邵玉斌; 龙华; 杜庆治
    • 摘要: 为解决单一语音、音乐音频及其两者的混合音频进行语音/音乐分类时分类结果不准确的问题,提出一种基于音频分割的音频分类算法.利用能熵比特征进行音频分割,分割出的音乐段较为准确,而利用幅度均方根特征进行音频分割,分割出的语音段较为准确,避免了对语音段的过度分割.将两种分割方法分割所得音频段的起点和终点升序排列并两两组合形成新的音频段作为音频分割结果,音频分割结果中的每一个音频段即一种类型的音频.对音频分割结果中的每一个音频段提取幅度的峰态系数和平均基频两个特征,并利用高斯混合模型作为后端分类器进行分类.最后为了消除过分割现象,将同类型的相邻音频段合并便得到最终分类结果.实验结果表明,所提出的算法对混合音频具有很高的分割准确率,达到98.24%,对单一音频和混合音频仅提取二维特征便得到较高的分类准确率,分别达到98%和98.61%,与同类算法相比较分类准确率平均提高3.80%.
    • 潘安迪; 肖川; 陈曦
    • 摘要: 水声目标识别的任务是通过采集到水声目标的信号来对目标进行分类,在海洋勘探,监听技术等领域有着非常重要和广泛的应用.由于海洋环境的复杂性,以及船只目标发动机的多样性以及噪声的存在,水声目标识别是一个困难的任务.传统的特征提取方法无法提取到足够有效的特征表示,充分地表示目标.为了解决这个问题,本文提出了一种基于改进的视觉化词袋模型的水声识别算法,通过使用视觉化词袋模型对频谱图进行高维的特征提取,然后使用了自然语言处理领域中常见的词频-逆文件频率(TF-IDF)算法来对得到的特征向量进行权重调整,然后输入到多层感知机中,对水声目标进行分类识别.实验结果表明,本文提出的识别算法取得了92.53%的正确率,相比于当前效果最好的深度玻尔兹曼机(DBM)算法有了明显的提升.
    • 郭毓博; 陆军; 段鹏启
    • 摘要: 提出了一种针对竹笛技巧分类的数据集Breath和两个用于竹笛技巧分类的神经网络参考模型Breath1d和Breath2d,并针对此数据集的不同分类任务给出了最佳方法.将Breath数据集划分成子集,以多层感知机为性能评价基准方法,先用Breath1d和Breath2d模型对子集进行训练和预测,再用长短期记忆网络模型进行辅助测试,最后得出了最适合子任务的分类参考模型.对全数据集进行分类时,将Breath2d与Breath1d模型进行融合,并采用数据增强方法使全集分类准确率达到0.913.与传统音频分类任务相比,该工作扩展了音乐分类的研究领域,对民族音乐现代化发展有着良好的推动作用.
    • 徐昫
    • 摘要: 本文根据当前江苏广播广告的类型和播出流程,针对广告播后检测的需求设计了一个基于人工智能的广告自台监播系统,系统基于音频声纹对比技术检测普通广告,基于语音转写技术检测口播广告,并通过音频分类技术和自然语言处理技术对检测结果进行优化,提供广告播出情况的可视化图表和统计分析数据,实现了全频率、全类型、智能化的广告播后检测.
    • 钱立恩; 马国峰; 庞博
    • 摘要: 针对现阶段敏感音频识别分类方法普遍存在精度不高的状况,以阵地音频文件作为数据源构建敏感音频识别样本库,并通过深度学习残差网络训练敏感音频分类识别模型,用测试音频对准确率、精确率及召回率进行精度评价,并将其与卷积神经网络法、添加梅尔倒谱系数的支持向量机及添加梅尔倒谱系数的随机森林法进行对比。结果表明:提出的方法在敏感音频识别分类方面具有更好的表现。
    • 邓晋; 潘安迪; 肖川; 刘姗琪
    • 摘要: 海洋声场环境的时变空变特性、水声目标发声机理的多源性以及其他噪声源的干扰,给水声目标的检测和识别带来很多困难.常规的目标识别手段主要是基于音频时频域特征分析,在复杂海洋环境下的难以获取有效的表征特征及鲁棒的识别效果.为了解决这些问题,本文提出了基于迁移学习的水声目标识别,分别利用预训练网络VGG和VGGish提取深层声学特征及模型微调,实现水声目标的分类识别.实验表明,本文提出的识别算法有效提升了识别准确率,减少了训练时间,基于微调的迁移学习算法在水声目标识别上平均准确率为92.48%,取得了当前最好的识别结果.
    • 杨立东; 靳浩杨; 王硕; 辛文超
    • 摘要: 森林是地球上最宝贵的资源,但森林和古树被盗伐的事件却经常发生.将音频分类技术应用于森林保护,通过对盗伐过程中产生的音频进行识别,达到森林保护预警的目的.针对盗伐事件的音频场景特性,提取电锯声、引擎声、机器轰鸣声、手锯声、风噪等五种声音的音频特征,然后使用支持向量机作为分类器对音频事件进行识别.最后根据识别结果确定是否有盗伐行为发生.通过不同训练样本数量对比实验、随机样本实验和单项音频识别准确率实验最终确定总体识别率为99.1%,各项音频单独识别率在90%以上,说明此方法具有较好的识别效果.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号