TristouNet: Triplet loss for speaker turn embedding

机译：TristouNet：扬声器转向嵌入的三重损失

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

TristouNet is a neural network architecture based on Long Short-Term Memory recurrent networks, meant to project speech sequences into a fixed-dimensional euclidean space. Thanks to the triplet loss paradigm used for training, the resulting sequence embeddings can be compared directly with the euclidean distance, for speaker comparison purposes. Experiments on short (between 500ms and 5s) speech turn comparison and speaker change detection show that TristouNet brings significant improvements over the current state-of-the-art techniques for both tasks.

机译：TristouNet是基于长期短期记忆递归网络的神经网络体系结构，旨在将语音序列投影到固定维数的欧几里得空间中。多亏了用于训练的三重态损失范式，可以将所得的序列嵌入直接与欧几里得距离进行比较，以进行说话人比较。简短的语音对话比较（500ms和5s之间）和说话人变化检测的实验表明，TristouNet相对于当前两项任务的最新技术都带来了显着改进。

著录项

来源
《IEEE International Conference on Acoustics, Speech and Signal Processing》|2017年|5430-5434|共5页
会议地点
作者
Hervé Bredin;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Speech; Training; Neural networks; Feature extraction; Euclidean distance; TV;

机译：语音;训练;神经网络;特征提取;欧氏距离;电视;

相似文献

外文文献
中文文献
专利

1. Improved deep embedding learning based on stochastic symmetric triplet loss and local sampling [J] . Nguyen Bac, De Baets Bernard Neurocomputing . 2020,第Auga18期

机译：基于随机对称三联损失和局部采样的深度嵌入学习
2. Learning embeddings for multiplex networks using triplet loss [J] . Seyedsaeed Hajiseyedjavadi, Yu-Ru Lin, Konstantinos Pelechrinis Applied Network Science . 2019,第1期

机译：使用三重态损耗学习多路复用网络的嵌入
3. A red thermally activated delayed fluorescence material as a triplet sensitizer for triplet-triplet annihilation up-conversion with high efficiency and low energy loss [J] . Wei Danqing, Ni Fan, Zhu Zece, Journal of Materials Chemistry, C. materials for optical and electronic devices . 2017,第48期

机译：一种红色热活化的延迟荧光材料，作为三重态 - 三重胶质湮灭的三重态敏化剂，高效率和低能量损失
4. TristouNet: Triplet loss for speaker turn embedding [C] . Herve Bredin IEEE International Conference on Acoustics, Speech and Signal Processing . 2017

机译：TRISTOUNET：扬声器转向嵌入的三态损耗
5. First Culture Embedding in the Language of Childhood Tales: A Qualitative Study on Conventions and Communication of C1-Korean Vs. C1-American Speakers [D] . ?Yang, Moon Youg 2020

机译：第一次嵌入童年故事语言的文化：关于C1-朝鲜与C1-韩国诉讼的定性和沟通的定性研究 C1-美国发言人
6. Adversarially Learned Total Variability Embedding for Speaker Recognition with Random Digit Strings [O] . Woo Hyun Kang, Nam Soo Kim 2019

机译：对抗性学习的总可变性嵌入用于随机数字字符串的说话人识别
7. TristouNet: Triplet Loss for Speaker Turn Embedding [O] . Bredin, Hervé 2017

机译：TristouNet：扬声器转动嵌入的三重损耗

TristouNet: Triplet loss for speaker turn embedding

摘要

著录项

相似文献

相关主题

期刊订阅