您现在的位置: 首页> 研究主题> 声纹识别

声纹识别

声纹识别的相关文献在2000年到2023年内共计867篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术 等领域,其中期刊论文256篇、会议论文14篇、专利文献247230篇;相关期刊181种,包括辽宁工业大学学报(自然科学版)、电声技术、电子世界等; 相关会议12种,包括第一届全国声像资料检验鉴定技术交流会、第九届中国语音学学术会议、第五届和谐人机环境联合学术会议(HHME2009)、第18届全国多媒体学术会议(NCMT2009)、第4届全国普适计算学术会议(PCC2009)、第5届全国人机交互学术会议(CHCI2009)等;声纹识别的相关文献由1912位作者贡献,包括李稀敏、肖龙源、叶志坚等。

声纹识别—发文量

期刊论文>

论文:256 占比:0.10%

会议论文>

论文:14 占比:0.01%

专利文献>

论文:247230 占比:99.89%

总计:247500篇

声纹识别—发文趋势图

声纹识别

-研究学者

  • 李稀敏
  • 肖龙源
  • 叶志坚
  • 刘晓葳
  • 祝铭明
  • 洪青阳
  • 邱钊
  • 郑方
  • 张晨晨
  • 蔡振华
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 季敏飞; 陈宁
    • 摘要: 针对声纹识别任务中常常出现的由于真实场景语音与模型训练语料在内部特征(情感、语言、说话风格、年龄)或外部特征(背景噪声、传输信号、麦克风、室内混响)等方面的差异所导致的模型识别率低的问题,提出了一种基于对抗网络的声纹识别域迁移算法。首先,利用源域语音对X-Vector的声纹识别模型进行训练;然后,采用域迁移方法将源域训练的XVector模型迁移至目标域训练数据;最后,在目标域测试数据上检测迁移后的模型性能,并将其与迁移前的模型性能进行对比。实验中采用AISHELL1作为源域,采用VoxCeleb1和CNCeleb分别作为目标域对算法性能进行测试。实验结果表明,采用本文方法进行迁移后,在VoxCeleb1和CN-Celeb的目标域测试集上的等错误率分别下降了21.46%和19.24%。
    • 王志琪; 朱婧雯; 王振帅; 卢新祥
    • 摘要: 本文为公司和家庭探索设计了一款基于梅尔倒谱系数和高斯混合模型的声纹识别的简易门禁系统,主要基于STM32平台。为了实现无接触式畅通,用户也可在APP上进行声纹验证,此APP基于讯飞开放平台,具有较高的准确性和识别效率。
    • 楚宪腾; 杨海涛; 闫道申; 许铭洋; 王华朋
    • 摘要: 目前基于深度学习的说话人识别算法中,大多数算法只考虑了语音的空间域特征或时域特征,且模型训练难度大,准确率较低。针对说话人识别过程中存在的连续性强、空域、时域和频域特征提取不充分的难点,提出一种基于注意力机制(Attention mechanism)的混合卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)的说话人识别方法。该方法首先提取数据集Mel频率倒谱系数(Mel Frequency Cepstral Cofficient,MFCC)和Gammatone滤波器倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC);其次采用CNN从提取到的声学特征参数中提取高层次的属性特征,将学习到的深度特征参数经转换后送入LSTM中,以充分提取语音信号的时序信息;再次,使用注意力机制赋予LSTM隐藏层不同的权重,以增加关键帧语音对识别结果的贡献度;最后采用Softmax层实现说话人识别的分类。实验结果表明,所提的算法在中文数据集的准确率比CNN和CNN+LSTM模型分别提升10.38%和9.65%;在Librispeech数据集的准确率分别提高5.56%和5.72%。因此,本方法能充分考虑语音时频信息和关键帧的贡献度,进一步提高说话人识别的准确度。
    • 郑珊莹
    • 摘要: 主要叙述了基于微服务的智能化媒体资产管理系统技术架构、系统设计原则,详细分析媒体资产智能管理系统主要子系统的功能与模块组成,探讨了媒体资产管理系统的业务流程。
    • 王芷悦; 崔琳
    • 摘要: 传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。
    • 张可; 杨可军; 黄文礼; 王成龙; 季坤; 朱太云; 丁国成; 甄超
    • 摘要: 通过对大型电力变压器(电抗器)声纹信号采集、处理与特征分析,提出了一种基于声纹识别技术的变压器工况检测方法及验证系统,实现对变压器工作状态的判断检测。首先,通过声纹采集传感器实地采集获取73组变压器音频,共约1800 min;其次,分别运用分段、分帧、加窗音频预处理方法对所采集的变压器声纹进行去噪处理;再次,综合运用能量特征、频率特征、梅尔频率倒谱系数、频率压缩方法提取变压器声纹特征并进行有效融合;最后,针对变压器工况声音由稳定工作状况发出的声音与不稳定的瞬时杂音加性叠加问题,提出一种基于余弦相似度算法实现声纹叠加的分离检测,同时建立一套变压器工况检测与验证分析系统。
    • 魏春雨; 孙蒙; 邹霞; 张雄伟
    • 摘要: 语音是人机交互的重要载体,语音中既包含语义信息,还包含性别、年龄、情感等附属信息。深度学习的发展使得各类语音处理任务的性能得到了显著提升,智能语音处理的产品已应用于移动终端、车载设备以及智能家居等场景。语音信息被准确地识别是人与设备实现可信交互的重要基础,语音传递过程中的安全问题也受到了广泛关注。对抗样本攻击是最近几年兴起的一个研究热点,攻击者通过对样本进行微小的改动使深度学习模型预测错误,从而带来潜在的安全风险。语音识别领域同样面临着来自对抗样本的安全威胁,在对抗样本的攻击和防御方法上也与图像识别等领域存在显著差异。因此,研究语音对抗样本的攻击和防御方法具有重要意义。本文在介绍对抗样本相关概念的基础上,选取语音识别中的文本内容识别、声纹身份识别两个典型任务,按照从白盒攻击到黑盒攻击、从数字攻击到物理攻击、从特定载体到通用载体的顺序,采取从易到难、逐步贴近实际场景的方式,系统地梳理了近年来比较典型的语音对抗样本的攻击方法。从分类边界构造的角度,对语音对抗样本的防御方法进行分类论述,揭示各类方法实现防御的机理。对现阶段语音对抗样本攻击与防御方法的技术难点进行了分析与总结,并对语音对抗样本攻防未来的发展方向进行了展望。
    • 王健; 申炜涛; 耿皓松; 张艳
    • 摘要: 声纹识别,是根据声纹特征识别说话人身份的一种生物识别技术。与人脸识别、指纹识别、虹膜识别相比,声纹识别的数据获取更加便捷,不受时间地域的限制,数据采集成本更低,公众对声音采集的抵抗力较弱,已经在安防、刑侦、金融等多个领域被使用。而声纹识别算法的关键是描述特定对象的声纹特征,好的特征既要最大化保留说话人的语音特性,又要对噪音、语速、音量、说话内容等有较好的鲁棒性。针对语音数据较少、文本不相关情况下的声纹识别,本研究采用频繁序列挖掘技术对声音的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)组成的序列进行挖掘,将挖掘到的频繁序列作为说话人的语音特征,再使用PLDA判别方法,结果显示该模型对语音数据较少的情况识别效果良好。
    • 李伟; 曾繁洋; 王博; 陈忠斌
    • 摘要: 地下电缆在使用过程中,容易受到工程车辆作业破坏,针对这种情况,文章提出将声纹识别技术应用在地下电缆防护中,通过收集环境声音,判断电缆周围是否存在工程车辆作业,及时向有关部门发出预警。在声纹识别过程中,提出加权动态梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)作为声纹识别的特征参数,由梅尔倒谱系数及其加权的一阶和二阶差分系数合并而成,不仅能够反映音频信号的静态特性,还在很大程度上逼近音频的动态特性,并且与常用的特征参数相比,计算复杂程度更低。通过实验证明,以加权动态MFCC特征参数作为高斯混合模型–通用背景模型(gaussian mixture modeluniversal background,GMM-UBM)的特征参数的工程车辆识别系统,能够在提高识别率的情况下,大大降低系统的运行时间,以此实现地下电缆防护。
    • 陆正卿; 方维岚; 胡晓俊; 梁军汀
    • 摘要: 制冷机在工业企业中的使用极为广泛,为了能及时发现制冷机长期运行过程中因气缸、曲轴磨损及设备松动等引起的运行异常及故障,保证制冷机的长期、稳定运行,研制了一套基于声信号无线远传和声纹识别的制冷机运行及故障监控系统。系统采用通用分组无线业务(GPRS)移动通讯网络,将现场采集到的制冷机运转噪声信号无线远传给上位机,然后在上位机内采用Mel倒谱系数(MFCC)特征提取与长短时记忆(LSTM)神经网络相结合的声纹识别方法对接收到的声信号进行处理,进而对制冷机的运行状况及故障进行监控和识别。试验结果表明,采用MFCC与LSTM神经网络相结合的方法,可以有效地提高系统的识别率及诊断效果,具有良好的应用前景。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号