提供一种用于发声事件分离的方法,系统和程序,其可以在不排除会议期间的发声重叠的情况下高精度地分离说话者的发声内容。
解决方案:根据时间,从会议期间连续记录在会议连续部分中的多通道语音数据估计声源方向。估计扬声器作为声音源的存在范围,以识别谁在说话。因此,估计目标讲话者的位置矢量,并计算其他讲话者的噪声空间相关矩阵,以基于目标讲话者的位置矢量和其他讲话者相对于目标讲话者的噪声空间矩阵来生成滤波器。滤波器用于分离和输出仅目标扬声器的发音。
版权:(C)2007和JPO&INPIT
公开/公告号JP4565162B2
专利类型
公开/公告日2010-10-20
原文格式PDF
申请/专利权人 独立行政法人産業技術総合研究所;
申请/专利号JP20060057611
发明设计人 浅野 太;
申请日2006-03-03
分类号G10L21/02;G10L15/20;G10L15/00;
国家 JP
入库时间 2022-08-21 19:01:46