您现在的位置: 首页> 研究主题> 说话人确认

说话人确认

说话人确认的相关文献在1999年到2022年内共计185篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、教育 等领域,其中期刊论文121篇、会议论文12篇、专利文献262992篇;相关期刊63种,包括中国科学技术大学学报、电声技术、电子学报等; 相关会议12种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、浙江省电子学会2013年学术年会、第十一届全国人机语音通讯学术会议等;说话人确认的相关文献由344位作者贡献,包括郭武、戴礼荣、邢玉娟等。

说话人确认—发文量

期刊论文>

论文:121 占比:0.05%

会议论文>

论文:12 占比:0.00%

专利文献>

论文:262992 占比:99.95%

总计:263125篇

说话人确认—发文趋势图

说话人确认

-研究学者

  • 郭武
  • 戴礼荣
  • 邢玉娟
  • 王仁华
  • 戴蓓蒨
  • 李辉
  • 刘青松
  • 曹伟
  • 梁春燕
  • 陈昊亮
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 郭星辰; 俞一彪
    • 摘要: 仿冒攻击严重影响说话人识别系统的安全应用。文中提出了一种具有录音回放仿冒攻击检测能力的说话人识别系统,该系统采用前端攻击检测与后端说话人确认的串联结构,并通过信道频响分析和说话人个性特征分析提出了一种信道频响差强化倒谱系数(Channel frequency response Difference Enhancement Cepstral Coefficient,CDECC),该特征参数通过三阶多项式非线性频率尺度变换同时强化语音信号低频段和高频段的频谱分量,能够有效反映不同输入信道频率响应和不同说话人语音频谱的差异。基于ASVspoof 20172.0数据库的非特定说话人文本无关录音回放攻击检测的实验表明,采用CDECC的录音回放攻击检测等错率(EER)为25.03%,相比基线系统下降了10%。通过在说话人确认的前端嵌入录音回放攻击检测模块,说话人识别系统的错误接受率(FAR)明显下降,系统EER从3.32%下降为1.01%,鲁棒性得到有效提升。
    • 肖金壮; 李瑞鹏; 纪盟盟
    • 摘要: 无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署。针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概率分布的优势,在轻量级残差网络的基础上构建虚拟教师说话人确认模型(teacher-free speaker verification model,Tf-SV)。同时引入空间共享而通道分离的动态激活函数和附加角裕度损失函数,使所提模型在特征表达、训练效率以及模型压缩后性能等方面的水平得到极大提升,最终达到无文本说话人确认模型能够在存储或者计算资源有限设备上部署的目的。基于VoxCeleb1数据集的实验表明,虚拟教师说话人确认模型的等错误率(EER)降低到3.4%。与已有成果相比,指标有明显提升,证明了在说话人确认任务上所提压缩模型的有效性。
    • 瞿于荃; 龙华; 段荧
    • 摘要: 针对梅尔倒谱系数特征难以满足短语音说话人确认的问题,本文从同样是模仿人耳听觉机理的伽马通滤波器为基础,提出让抗噪性能更佳的伽马通频率倒谱系数作为输入特征.首先,在短语音条件下,提取伽马通频率倒谱系数,采用加减特征分量法计算其不同维数的贡献度大小.其次,选取其中贡献较高的分量作为特征,保留那些最能表征不同说话人之间差异的维数,直接实现了特征参数降维.最后,采用多种特征及其混合,通过i-vector说话人确认系统验证伽马通频率倒谱系数在短语音下的有效性.实验数据表明,不同测试语音长度条件下,相较其他声学及衍生特征,伽马通频率倒谱系数具有较强短语音的表征能力,单独使用或融合其他参数都进一步提升识别等误差率.
    • 陈敏; 俞一彪
    • 摘要: 录音回放攻击是说话人确认系统实际应用时面临的最大挑战.为实现录音回放攻击检测,首先对录音回放语音的输入信道结构特点和频率响应进行分析,发现输入信道结构上的差异会导致时域卷积效应和频率响应的高频衰减.因此,基于双谱分析的高维度频域信息表达能力,结合对角切片双谱计算和IMel滤波,提出一种录音回放攻击检测的对角双谱系数(Diagonal BiSpectrum Coefficient,DBSC)特征.在基于ASVspoof 20172.0语料库的录音回放攻击检测实验中,采用DBSC特征的录音回放攻击检测等错误率(Equal Error Rate,EER)为22.21%,相比常数Q倒谱系数(Constant Q Cepstral Coefficient,CQCC)特征和Teager能量倒谱系数(Teager Energy Cepstral Coefficient,TECC)特征分别下降了6% 和38.39%.结果说明,DBSC特征能够有效表征真实语音和录音回放语音的差异,具有良好的录音回放攻击检测能力.
    • 陈晨; 肜娅峰; 季超群; 陈德运; 何勇军
    • 摘要: 针对说话人确认中无法准确捕获特征间非线性关系的问题,提出了一种基于深层信息散度最大化的目标函数表示方法.该方法能通过计算特征所在分布之间相似度,来对特征间的非线性关系进行隐性表示,并在最大化这种统计相关性的优化目标指导下,使深度神经网络向着同类数据更紧凑、异类数据更分散的方向优化,最终达到提升深层特征空间区分性的目标.实验结果表明,相对于其他深度学习方法,所提方法的相对等错误率(EER)最多降低了15.80%,显著提升了系统性能.
    • 肜娅峰; 陈晨; 陈德运; 何勇军
    • 摘要: 身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效确认此时的总变化空间是否因为预先设置的维度过高而学到了冗余信息.为此,本文将贝叶斯主成分分析(Bayesian Principal Component Analysis,BPCA)引入总变化空间的学习过程中,利用其来为总变化空间引入更多的先验信息,从而对开发集数据中包含的信息进行补充,并在先验信息的约束下削弱总变化空间中无效维的影响.实验结果表明,当开发集数据不充足时,相比于传统的总变化空间学习方法,BPCA方法能够有效提升说话人确认系统的识别性能.
    • 陈亚峰; 郭武
    • 摘要: x-vector系统将一段不定长的语音通过神经网络映射成固定维的矢量来表征说话人信息,该系统在文本无关的说话人确认(Speaker verification,SV)任务中取得了优异的性能.本文将其应用到文本相关的SV任务中,在x-vector模型选择上,采用残差神经网络以获得更有区分性的x-vector;在包含多字符的语句中,对每个字训练一个残差神经网络;在提取过程中,每一字单独提取一个x-vector并单独进行说话人判决,最后将多个判决得分进行融合后给出最终的识别结果.实验是在数据库RSR2015 PartⅢ上进行的,提出的方法在男性和女性测试集上等错误率分别有15.34%、19.7%的下降.
    • 曹伟; 梁春燕
    • 摘要: 对于说话人确认系统,由于不同识别对得分分布的差异性,如果对原始得分直接使用统一门限判决,会严重影响系统的性能,因此需要对得分进行规整。针对现有得分规整方法的不足,本文提出一种基于对数似然值归一化(Log-likelihood Normalization,LLN)得分规整的说话人确认系统。LLN在不需要先验知识的情况下,通过扩大同一测试语音在目标说话人模型与非目标说话人模型上的得分差距,使同一测试语音对应的两类识别对得分混叠现象得到有效改善,进而利于系统的区分判决。实验证明,LLN是一种有效的得分规整方法,且与已有的零规整和测试规整形成互补,可进一步提高说话人确认系统的性能。
    • 曹伟; 梁春燕
    • 摘要: 对于说话人确认系统,由于不同识别对得分分布的差异性,如果对原始得分直接使用统一门限判决,会严重影响系统的性能,因此需要对得分进行规整.针对现有得分规整方法的不足,本文提出一种基于对数似然值归一化(Log-likelihood Normalization,LLN)得分规整的说话人确认系统.LLN在不需要先验知识的情况下,通过扩大同一测试语音在目标说话人模型与非目标说话人模型上的得分差距,使同一测试语音对应的两类识别对得分混叠现象得到有效改善,进而利于系统的区分判决.实验证明,LLN是一种有效的得分规整方法,且与已有的零规整和测试规整形成互补,可进一步提高说话人确认系统的性能.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号