说话人确认
说话人确认的相关文献在1999年到2022年内共计185篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、教育
等领域,其中期刊论文121篇、会议论文12篇、专利文献262992篇;相关期刊63种,包括中国科学技术大学学报、电子学报、电子与信息学报等;
相关会议12种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、浙江省电子学会2013年学术年会、第十一届全国人机语音通讯学术会议等;说话人确认的相关文献由344位作者贡献,包括郭武、戴礼荣、邢玉娟等。
说话人确认—发文量
专利文献>
论文:262992篇
占比:99.95%
总计:263125篇
说话人确认
-研究学者
- 郭武
- 戴礼荣
- 邢玉娟
- 王仁华
- 戴蓓蒨
- 李辉
- 刘青松
- 曹伟
- 梁春燕
- 陈昊亮
- 刘加
- 刘明辉
- 吴震东
- 李明
- 李轶杰
- 王东
- 章坚武
- 谭萍
- 赵力
- 陈存宝
- 何亮
- 刘柳
- 刘汝杰
- 古斌
- 史静朴
- 吴文昭
- 吴朝晖
- 徐灿
- 李恒杰
- 李波
- 杨莹春
- 王健宗
- 王波
- 王炳锡
- 石自强
- 苗振江
- 解焱陆
- 许敏强
- 陈丽萍
- 陈仙红
- 付中华
- 何勇军
- 何建超
- 余华
- 俞一彪
- 俞凯
- 周昆湘
- 奚吉
- 姚嘉迪
- 张怡颖
-
-
郭星辰;
俞一彪
-
-
摘要:
仿冒攻击严重影响说话人识别系统的安全应用。文中提出了一种具有录音回放仿冒攻击检测能力的说话人识别系统,该系统采用前端攻击检测与后端说话人确认的串联结构,并通过信道频响分析和说话人个性特征分析提出了一种信道频响差强化倒谱系数(Channel frequency response Difference Enhancement Cepstral Coefficient,CDECC),该特征参数通过三阶多项式非线性频率尺度变换同时强化语音信号低频段和高频段的频谱分量,能够有效反映不同输入信道频率响应和不同说话人语音频谱的差异。基于ASVspoof 20172.0数据库的非特定说话人文本无关录音回放攻击检测的实验表明,采用CDECC的录音回放攻击检测等错率(EER)为25.03%,相比基线系统下降了10%。通过在说话人确认的前端嵌入录音回放攻击检测模块,说话人识别系统的错误接受率(FAR)明显下降,系统EER从3.32%下降为1.01%,鲁棒性得到有效提升。
-
-
肖金壮;
李瑞鹏;
纪盟盟
-
-
摘要:
无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署。针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概率分布的优势,在轻量级残差网络的基础上构建虚拟教师说话人确认模型(teacher-free speaker verification model,Tf-SV)。同时引入空间共享而通道分离的动态激活函数和附加角裕度损失函数,使所提模型在特征表达、训练效率以及模型压缩后性能等方面的水平得到极大提升,最终达到无文本说话人确认模型能够在存储或者计算资源有限设备上部署的目的。基于VoxCeleb1数据集的实验表明,虚拟教师说话人确认模型的等错误率(EER)降低到3.4%。与已有成果相比,指标有明显提升,证明了在说话人确认任务上所提压缩模型的有效性。
-
-
瞿于荃;
龙华;
段荧
-
-
摘要:
针对梅尔倒谱系数特征难以满足短语音说话人确认的问题,本文从同样是模仿人耳听觉机理的伽马通滤波器为基础,提出让抗噪性能更佳的伽马通频率倒谱系数作为输入特征.首先,在短语音条件下,提取伽马通频率倒谱系数,采用加减特征分量法计算其不同维数的贡献度大小.其次,选取其中贡献较高的分量作为特征,保留那些最能表征不同说话人之间差异的维数,直接实现了特征参数降维.最后,采用多种特征及其混合,通过i-vector说话人确认系统验证伽马通频率倒谱系数在短语音下的有效性.实验数据表明,不同测试语音长度条件下,相较其他声学及衍生特征,伽马通频率倒谱系数具有较强短语音的表征能力,单独使用或融合其他参数都进一步提升识别等误差率.
-
-
陈敏;
俞一彪
-
-
摘要:
录音回放攻击是说话人确认系统实际应用时面临的最大挑战.为实现录音回放攻击检测,首先对录音回放语音的输入信道结构特点和频率响应进行分析,发现输入信道结构上的差异会导致时域卷积效应和频率响应的高频衰减.因此,基于双谱分析的高维度频域信息表达能力,结合对角切片双谱计算和IMel滤波,提出一种录音回放攻击检测的对角双谱系数(Diagonal BiSpectrum Coefficient,DBSC)特征.在基于ASVspoof 20172.0语料库的录音回放攻击检测实验中,采用DBSC特征的录音回放攻击检测等错误率(Equal Error Rate,EER)为22.21%,相比常数Q倒谱系数(Constant Q Cepstral Coefficient,CQCC)特征和Teager能量倒谱系数(Teager Energy Cepstral Coefficient,TECC)特征分别下降了6% 和38.39%.结果说明,DBSC特征能够有效表征真实语音和录音回放语音的差异,具有良好的录音回放攻击检测能力.
-
-
陈晨;
肜娅峰;
季超群;
陈德运;
何勇军
-
-
摘要:
针对说话人确认中无法准确捕获特征间非线性关系的问题,提出了一种基于深层信息散度最大化的目标函数表示方法.该方法能通过计算特征所在分布之间相似度,来对特征间的非线性关系进行隐性表示,并在最大化这种统计相关性的优化目标指导下,使深度神经网络向着同类数据更紧凑、异类数据更分散的方向优化,最终达到提升深层特征空间区分性的目标.实验结果表明,相对于其他深度学习方法,所提方法的相对等错误率(EER)最多降低了15.80%,显著提升了系统性能.
-
-
肜娅峰;
陈晨;
陈德运;
何勇军
-
-
摘要:
身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效确认此时的总变化空间是否因为预先设置的维度过高而学到了冗余信息.为此,本文将贝叶斯主成分分析(Bayesian Principal Component Analysis,BPCA)引入总变化空间的学习过程中,利用其来为总变化空间引入更多的先验信息,从而对开发集数据中包含的信息进行补充,并在先验信息的约束下削弱总变化空间中无效维的影响.实验结果表明,当开发集数据不充足时,相比于传统的总变化空间学习方法,BPCA方法能够有效提升说话人确认系统的识别性能.
-
-
-
陈亚峰;
郭武
-
-
摘要:
x-vector系统将一段不定长的语音通过神经网络映射成固定维的矢量来表征说话人信息,该系统在文本无关的说话人确认(Speaker verification,SV)任务中取得了优异的性能.本文将其应用到文本相关的SV任务中,在x-vector模型选择上,采用残差神经网络以获得更有区分性的x-vector;在包含多字符的语句中,对每个字训练一个残差神经网络;在提取过程中,每一字单独提取一个x-vector并单独进行说话人判决,最后将多个判决得分进行融合后给出最终的识别结果.实验是在数据库RSR2015 PartⅢ上进行的,提出的方法在男性和女性测试集上等错误率分别有15.34%、19.7%的下降.
-
-
曹伟;
梁春燕
-
-
摘要:
对于说话人确认系统,由于不同识别对得分分布的差异性,如果对原始得分直接使用统一门限判决,会严重影响系统的性能,因此需要对得分进行规整。针对现有得分规整方法的不足,本文提出一种基于对数似然值归一化(Log-likelihood Normalization,LLN)得分规整的说话人确认系统。LLN在不需要先验知识的情况下,通过扩大同一测试语音在目标说话人模型与非目标说话人模型上的得分差距,使同一测试语音对应的两类识别对得分混叠现象得到有效改善,进而利于系统的区分判决。实验证明,LLN是一种有效的得分规整方法,且与已有的零规整和测试规整形成互补,可进一步提高说话人确认系统的性能。
-
-
曹伟;
梁春燕
-
-
摘要:
对于说话人确认系统,由于不同识别对得分分布的差异性,如果对原始得分直接使用统一门限判决,会严重影响系统的性能,因此需要对得分进行规整.针对现有得分规整方法的不足,本文提出一种基于对数似然值归一化(Log-likelihood Normalization,LLN)得分规整的说话人确认系统.LLN在不需要先验知识的情况下,通过扩大同一测试语音在目标说话人模型与非目标说话人模型上的得分差距,使同一测试语音对应的两类识别对得分混叠现象得到有效改善,进而利于系统的区分判决.实验证明,LLN是一种有效的得分规整方法,且与已有的零规整和测试规整形成互补,可进一步提高说话人确认系统的性能.
-
-
-
-
-
王昌昌;
王成儒
- 《中国电子学会第十一届青年学术年会》
| 2005年
-
摘要:
本文针对传统的"一对多"训练算法中两类样本数不平衡会造成分类结果偏向数目较大一类的缺点,本文提出了用于文本无关说话人确认的一种改进的"一对多"算法.实验结果表明,改进后的算法克服了这种倾向性,从而提高了系统的识别性能.
-
-
-
何建超;
章坚武;
吴震东
- 《浙江省信号处理学会2015学术年会》
| 2015年
-
摘要:
本文使用TIMIT语料库通过最大期望算法训练得到512阶的通用背景模型,以MIT语料库为主实验库,通过贝叶斯学习算法从通用背景模型中自适应训练得到MIT两个信道下全部注册者的模型.接着将模板中个人高斯混合模型的均值空间映射到超矢量空间,对注册库中96个均值超矢量进行主成分降维分析后,观察发现性别影响大于信道影响,且降维后的数据在非线性回归分类器中具有最佳的分类效果.实验一中采用经典的UBM-MAP-GMM模型和似然比得分,分别对基于全局UBM和性别相关UBM系统的等错误率进行了分析;实验结果显示,在语音时长为25s时,系统等错误率由13.59%下降至11.72%.实验二中采用基于降维均值超矢量和余弦得分的系统,该系统提取类似于i-vector的低维均值超矢量作为身份矢量;实验结果显示,6144维均值超矢量能较好地表征说话人,系统等错误率进一步降至10.22%.
-
-
-
-
刘晓星;
李明;
韩疆;
潘接林;
张建平;
吕萍;
颜永红
- 《全国网络与信息安全技术研讨会'2004》
| 2004年
-
摘要:
随着互联网(Internet)的快速发展,一方面人们可以更容易从互联网上得到海量信息,人们的生活变得更方便;另一方面,互联网上也存在大量的有害信息,很多非法活动通过互联网的传播日益猖獗.网络信息安全成为国家安全和网络管理部门迫切的要求和关注的焦点,政府必须对互联网实行强有力的监控和管理.由于互联网上的海量信息,完全的人工监测是不可能的,计算机自动信息检索和监测技术成为网络信息安全的基础.说话人检测技术可以监测互联网上的音频文件或音频流是否来自需要监控的说话人,将成为网络信息安全中具有实用价值的技术手段之一.本文介绍了一个用于网络信息安全中的说话人检测系统,并提出了初步实验结果.
-
-
刘晓星;
李明;
韩疆;
潘接林;
张建平;
吕萍;
颜永红
- 《全国网络与信息安全技术研讨会'2004》
| 2004年
-
摘要:
随着互联网(Internet)的快速发展,一方面人们可以更容易从互联网上得到海量信息,人们的生活变得更方便;另一方面,互联网上也存在大量的有害信息,很多非法活动通过互联网的传播日益猖獗.网络信息安全成为国家安全和网络管理部门迫切的要求和关注的焦点,政府必须对互联网实行强有力的监控和管理.由于互联网上的海量信息,完全的人工监测是不可能的,计算机自动信息检索和监测技术成为网络信息安全的基础.说话人检测技术可以监测互联网上的音频文件或音频流是否来自需要监控的说话人,将成为网络信息安全中具有实用价值的技术手段之一.本文介绍了一个用于网络信息安全中的说话人检测系统,并提出了初步实验结果.
-
-
-
-
-
-
-
-
-
- 西北工业大学
- 西北工业大学深圳研究院
- 公开公告日期:2022-05-13
-
摘要:
本发明公开了一种大规模自组织麦克风阵列下帧级多通道的说话人确认方法,在单通道说话人确认系统的池化层之前加入时空处理块,分别建模通道内、通道间以及跨时间的上下文关系,进一步提升远场ASV的性能。包括如下步骤:1)在池化层之前加入由跨帧处理层(Cross‑Frame Processing Layer,CFL)和跨通道处理层(Cross‑Channel Processing Layer,CCL)组成的时空处理块;2)为了使噪声通道的通道权重为零,将跨通道处理层的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线33%的等错误率(EER);在Libri‑adhoc40数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线27%的等错误率,同时也实现了低于话语级跨通道自注意力ASV系统9%的等错误率,达到了优越的性能。
-
-