梅尔频率倒谱系数
梅尔频率倒谱系数的相关文献在2008年到2022年内共计149篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、一般工业技术
等领域,其中期刊论文138篇、会议论文9篇、专利文献74207篇;相关期刊99种,包括科学技术与工程、应用科学学报、农业机械学报等;
相关会议8种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第三届上海-西安声学学会学术会议、2013上海-西安第三届声学学术交流会等;梅尔频率倒谱系数的相关文献由446位作者贡献,包括曹辉、李菲、王娜等。
梅尔频率倒谱系数—发文量
专利文献>
论文:74207篇
占比:99.80%
总计:74354篇
梅尔频率倒谱系数
-研究学者
- 曹辉
- 李菲
- 王娜
- 艾虎
- CAO Hui
- 曾以成
- 袁慧
- ZHAO Hai-jun
- 于泽源
- 刘政连
- 刘旭
- 周萍
- 孔戈
- 宣传忠
- 崔杰
- 张丽娜
- 张旭清
- 张金连
- 景新幸
- 李涛
- 樊思含
- 樊炳辉
- 武佩
- 殷希梅
- 毛燕湖
- 江婧
- 王昱翔
- 王润
- 王磊
- 翟春平
- 肖灵
- 胡子阳
- 胡峰松
- 谢小娟
- 贾宇波
- 赵海君
- 郗涛
- 郭乐乐
- 陈凯
- 陈巧红
- 陈雨莺
- 韩晓丽
- 颜普
- 马彦华
- 高建卫
- CHEN Dongshen
- F.Tong
- GUO Le-le
- HONG Qingyang
- LI Tao
-
-
楚宪腾;
王华朋;
杨海涛;
林暖辉
-
-
摘要:
为进一步提高说话人识别的准确率,提出一种新的基于卷积神经网络的说话人识别方法。利用卷积神经网络强大的处理图像能力可有效提高说话人识别的准确率。卷积神经网络相对于其他网络结构简单,训练时间较短且准确率较高。该方法首先对语音信号进行了预处理,包括重采样、分帧、加窗等操作,然后提取梅尔频率倒谱系数,之后送入卷积神经网络进行训练。通过LibriSpeech标准库和中文数据库测试表明,本算法识别率达到95%,可有效进行说话人识别。
-
-
孙浩楠;
仝志民;
谢秋菊;
李嘉熙
-
-
摘要:
咳嗽是猪患呼吸道系统疾病发病早期的主要症状。为解决猪呼吸系统疾病难以被发现和人工监测准确率低的问题,提出利用BP神经网络来检测和识别猪咳嗽声音的方案。基于四麦克风阵列进行猪声音数据的采集,以猪咳嗽声、打呼噜声、尖叫声、哼哼声、咆哮声的声音为研究对象,对得到的声音数据进行滤波、端点检测等预处理,把梅尔频率倒谱系数(MFCC)作为猪声音特征参数,建立BP神经网络学习和识别的模型。经五折交叉法验证猪咳嗽声平均识别率为85.33%,猪非咳嗽声平均识别率为86.24%,识别率均在85%以上,结果表明所提出的方案是可行的。这种方法可以高效地识别猪咳嗽声,为猪呼吸道疾病发病初期的诊断提供技术支持。
-
-
屈晓渊;
崔青
-
-
摘要:
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是一种符合人耳听觉特征,并与频率呈非线性对应关系的频谱特征,广泛应用在语音识别、音频特征分析等方面。对于目前广泛使用的通过单一特征进行音频分类的方法,存在分类准确度低、处理速度慢等方面的不足,提出了基于梅尔频率倒谱的音频分类算法,该算法对音频设定采样率,获取音频的时间序列,并根据时间序列提取梅尔频率倒谱系数特征,将获取的二维特征值进行数据拟合、标准化处理。构建多层卷积神经网络模型,将标准化处理后的梅尔频率倒谱系数特征作为网络的输入,通过交叉熵验证的方法,对模型的输出进行分类。通过实验数据可知,梅尔频率倒谱系数特征通过多层卷积网络处理后,分类结果准确率达到92.8%,使用模型进行分类时,速度达到每个样本7 ms的耗时,模型能对音频进行准确快速的分类。
-
-
王磊;
张华钟;
陈安东
-
-
摘要:
随着列车速度、铁道线路的进一步发展,国家对铁路安全愈发重视并提出了更高的要求。尤其是铁道线路长,铁轨零部件极多,一旦出现铁轨松动而修理不及时,会导致铁轨变形,发生重大交通事故。针对此问题,本研究设计了一种自动化识别铁轨松动的人工智能模型,构建了梅尔频率倒谱系数-概率线性判别分析模型(MFCC-PLDA)。结果显示该模型对铁轨松动的识别准确率高达98.5%,并将该模型与PCA-PLDA进行了实验对比,结果显示MFCC-PLDA效果最好。未来该方法可作为一种全新的智能识别技术应用于铁轨安全检测系统。
-
-
徐扬;
张嘉宝;
杨满玉;
李晶;
聂云丽
-
-
摘要:
汉语拼音的模糊匹配在关键词匹配、语音纠错等场景占据着重要地位,而传统的模糊匹配方法无法计算不同声母、韵母之间的听觉相似度,只能简单地将其作为相同和不同的两种情形处理,这在实际使用中,容易受方言、发音习惯等因素影响匹配正确率。文章针对该问题,提出了一种基于梅尔频率倒谱系数(MFCCs)和加入惩罚系数的动态时间序列规整(DTW)的方法,计算汉语拼音中各部分的相似度。MFCCs能够提取声音频谱中符合人耳听觉特性的特征,而DTW方法能够计算时间序列的相似度。根据实验表明,该方法能较好地区分出汉语拼音中发音相似的音标,能够提高各种拼音模糊匹配场景的匹配性能和准确率。
-
-
倪美玉;
曹为刚
-
-
摘要:
针对DCNN网络缺乏直观的物理声学特征描述等问题,为了提高其在说话人识别系统中的识别性能,提出基于MFCC加权与改进深度卷积神经网络的说话人识别算法。算法首先提取信号的MFCC特征,并对特征进行分量凸显和加权改进,以提高特征中对最终识别准确率贡献大的分量的作用,然后通过改进深度卷积神经网络的结构并增加深度残差网络,进一步对准帧间信息,提高网络对说话人识别需求的适应性。实验结果表明,文中算法在不同的分段信噪比下均取得最优的识别准确率。
-
-
沈明霞;
王梦雨;
刘龙申;
陈佳;
太猛;
张伟
-
-
摘要:
猪只呼吸道疾病易传染,影响猪的养殖生产效率,咳嗽是呼吸道疾病的显著症状之一,为识别猪只咳嗽声,提出了一种基于深度神经网络的识别方法。对声音信号进行谱减法去噪和双门限端点检测后分别提取梅山猪咳嗽及喷嚏、鸣叫、呼噜声的滤波器组(Log_filter bank,logFBank)和梅尔频率倒谱系数(Mel frequency cepstral coefficents,MFCC)特征,每种特征与其一阶及二阶差分组合作为卷积神经网络(Convolutional neural networks,CNNs)和深层前馈序列记忆神经网络(Deep feed forward sequential memory networks,DFSMN)咳嗽声识别模型的输入,进行多分类训练。对比不同特征提取方法及不同迭代次数对模型效果的影响,实验结果表明,以MFCC作为特征输入的CNNs模型效果较优,测试集上咳嗽声识别精确率为97%,召回率为96%,F1值为98%,总体识别准确率为96.71%。表明该模型有效可行,可为生猪福利养殖中猪咳嗽声识别提供技术支持。
-
-
王学松;
王世刚;
郭毅峰
-
-
摘要:
针对在采用线性预测系数(LPC)进行融安方言语音合成时合成效果差的问题,提出一种基于集合经验模态分解(EEMD)的融安方言语音合成算法。语音是一种非线性信号,传统特征提取算法对非线性信号的处理能力较弱。因此,提出在传统算法过程中先运用EEMD算法将语音信号分解成若干个线性分量,从而提高语音信号的划分精度;再对所有分量分别进行快速傅里叶变换(FFT);最后对所有分量进行频率求和,利用求和后的频率数据对融安方言语音进行合成。实验结果表明,利用文章算法合成的融安方言语音MFCC参数的均方根误差(RMSE)与传统算法相比降低了7.38%,合成效果更好。从合成后的语音波形图可以看出,文章算法能够更多地保留融安方言语音的细节信息。
-
-
高磊;
刘振奎;
魏晓悦;
张昊宇;
张奎
-
-
摘要:
为实现铁路隧道二次衬砌背后空洞智能诊断,基于声音识别技术,建立隧道空洞敲击检查声音智能识别模型。收集645段检查锤敲击衬砌的声音样本,运用信号特征分析的基本方法,分析有空洞和无空洞状态下声音信号的时域和频域特征,并提取24维梅尔频率倒谱系数作为机器学习数据集。用主成分分析法降维,经混合粒子群算法优化的支持向量机训练后,建立铁路隧道空洞敲击检查声音智能识别模型,将该模型应用于实际铁路隧道验证其有效性。建立的声音识别模型训练时长为31 s,准确率达95.56%,且能准确对实际工程中的声音样本做出分类。研究结果表明:对2种状态下的声音样本时域特征和频域特征进行对比和分析,不同状态下短时能量和声纹都出现明显的不同。运用PCA-混合PSO-SVM建立的声音识别模型,有着较高的准确率和较快的训练速度,能够根据敲击检查声音准确判断出隧道背后是否存在空洞,如何根据声音特征判断衬砌背后空洞的大小和深度等,将是下一步研究的重点。目前铁路隧道快速无损检测还无法大范围普及,人工检查仍是使用最广泛的检查方法,通过研究敲击检查声音智能识别,为隧道智能化诊断做出新的探索,对加快人工检查速度、提高信息化程度和实现无纸化作业有着重要的意义。
-
-
庞聪;
江勇;
廖成旺;
吴涛;
丁炜
-
-
摘要:
针对天然地震与人工爆破波形特征相似、难以区分的情况,结合灰狼优化算法和支持向量机,提出一种地震事件性质辨识新方法。通过梅尔频率倒谱系数法对2013年四川芦山地震地震事件信号和人工爆破信号进行分析,进过预加重、FFT、梅尔滤波及离散余弦变换等步骤,提取静态系数样本熵、一阶差分系数样本熵和二阶差分系数样本熵等作为样本特征集。使用灰狼算法优化支持向量机径向基核函数RBF中的惩罚系数和核函数半径形成新的GWO-SVM分类器,然后对事件进行辨识。结果表明:GWO-SVM分类器辨识效果明显优于SVM、RobustBoost集成学习、LDA、PLDA等分类器,其在1000次循环识别实验下的准确率均值相对SVM提高了9.2个百分点,标准差降低了3.2以上;t检验证明MFCC样本熵各特征具有可靠的地震事件分类效果;GWO-SVM与MFCC样本熵可作为天然地震事件与人工爆破事件的辨识方法与分类判据。
-
-
LI Tao;
李涛;
CAO Hui;
曹辉;
GUO Le-le;
郭乐乐
- 《2018中国西部声学学术交流会》
| 2018年
-
摘要:
为了提升连续语音识别系统性能,将深度自编码器神经网络应用于语音信号特征提取.通过堆叠稀疏自编码器组成深度自编码器(Deep Auto-Encoding,DAE),经过预训练和微调两个步骤提取语音信号的本质特征,使用与上下文相关的三音素模型,以音素错误率大小为系统性能的评判标准.仿真结果表明相对于传统梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征以及优化后的MFCC特征,基于深度自编码器提取的深度特征更具优越性.
-
-
-
-
-
-
-
-
-