首页> 中国专利> 一种基于多类谱图特征注意力融合网络的说话人识别方法

一种基于多类谱图特征注意力融合网络的说话人识别方法

摘要

本发明公开了一种基于多类谱图特征注意力融合网络的说话人识别方法,采用改进的34层残差网络和3DCNN残差网络作为识别模型,将语音信号分别转化为语谱图、Mel‑Fbank谱图和Gam‑Fbank谱图作为网络的训练特征图,利用34层残差网络提取三种谱图的空间特征,接着将三种谱图堆叠后利用3DCNN残差网络提取谱图间相互关联特征,并在上述网络模型后端引入通道注意力机制,使得网络自主学习如何生成最佳特征向量,接着将四个模型生成的特征向量进行融合,最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较,以确定说话人身份。本发明弥补了说话人特征因单一而无法准确表达的缺陷,从而有效的提升了说话人识别的准确率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-01

    实质审查的生效 IPC(主分类):G10L17/02 专利申请号:2021108877261 申请日:20210803

    实质审查的生效

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号