首页> 中国专利> 一种基于多类谱图特征注意力融合网络的说话人识别方法

一种基于多类谱图特征注意力融合网络的说话人识别方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于多类谱图特征注意力融合网络的说话人识别方法，采用改进的34层残差网络和3DCNN残差网络作为识别模型，将语音信号分别转化为语谱图、Mel‑Fbank谱图和Gam‑Fbank谱图作为网络的训练特征图，利用34层残差网络提取三种谱图的空间特征，接着将三种谱图堆叠后利用3DCNN残差网络提取谱图间相互关联特征，并在上述网络模型后端引入通道注意力机制，使得网络自主学习如何生成最佳特征向量，接着将四个模型生成的特征向量进行融合，最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较，以确定说话人身份。本发明弥补了说话人特征因单一而无法准确表达的缺陷，从而有效的提升了说话人识别的准确率。

著录项

公开/公告号CN114038469A

专利类型发明专利
公开/公告日2022-02-11

原文格式PDF
申请/专利权人成都理工大学;成都图灵志杨信息科技有限责任公司;
展开▼

申请/专利号CN202110887726.1
发明设计人贾勇;焦旭;张葛祥;杨强;姚光乐;方祖林;罗标;汤刚;何瑶;
展开▼

申请日2021-08-03
分类号G10L17/02(20130101);G10L17/18(20130101);
代理机构11308 北京元本知识产权代理事务所(普通合伙);
代理人王红霞
地址 610000 四川省成都市二仙桥东三路1号
入库时间 2023-06-19 14:09:38

法律信息

法律状态公告日

法律状态信息

法律状态
2022-03-01

实质审查的生效 IPC(主分类):G10L17/02 专利申请号:2021108877261 申请日:20210803

实质审查的生效

相似文献

专利
中文文献
外文文献

1. 一种基于多类谱图特征注意力融合网络的说话人识别方法 [P] . 中国专利： CN114038469A . 2022-02-11
2. 基于语谱图统计特征的说话人识别方法 [P] . 中国专利： CN108831485A . 2018-11-16
3. SYSTEM AND METHOD FOR SEMANTIC ANALYSIS OF MULTIMEDIA DATA USING ATTENTION-BASED FUSION NETWORK [P] . US2021216862A1 . 2021-07-15

机译：基于注意力的融合网络的多媒体数据语义分析的系统和方法
4. SYSTEM AND METHOD FOR SEMANTIC ANALYSIS OF MULTIMEDIA DATA USING ATTENTION-BASED FUSION NETWORK [P] . WO2021143800A1 . 2021-07-22

机译：基于注意力的融合网络的多媒体数据语义分析的系统和方法
5. AUTOMATIC PEST COUNTING METHOD BASED ON COMBINATION OF MULTI-SCALE FEATURE FUSION NETWORK AND POSITIONING MODEL [P] . 世界知识产权组织专利： WO2020047738A1 . 2020-03-12

机译：基于多尺度特征融合网络与定位模型相结合的害虫自动计数方法