首页> 外国专利> SPEECH DATABASE REGISTRATION PROCESSING METHOD, SPEECH GENERATION SOURCE RECOGNIZING METHOD, SPEECH GENERATION SECTION RETRIEVING METHOD, SPEECH DATABASE REGISTRATION PROCESSING DEVICE, SPEECH GENERATION SOURCE RECOGNIZING DEVICE, SPEECH GENERATION SECTION RETRIEVING DEVICE, PROGRAM THEREFOR, AND RECORDING MEDIUM FOR SAME PROGRAM

SPEECH DATABASE REGISTRATION PROCESSING METHOD, SPEECH GENERATION SOURCE RECOGNIZING METHOD, SPEECH GENERATION SECTION RETRIEVING METHOD, SPEECH DATABASE REGISTRATION PROCESSING DEVICE, SPEECH GENERATION SOURCE RECOGNIZING DEVICE, SPEECH GENERATION SECTION RETRIEVING DEVICE, PROGRAM THEREFOR, AND RECORDING MEDIUM FOR SAME PROGRAM

机译：语音数据库注册处理方法，语音生成源识别方法，语音生成段检索方法，语音数据库注册处理设备，语音生成源识别设备，语音生成段，存储，记录，记录和处理

页面导航

摘要
著录项
相似文献

摘要

PROBLEM TO BE SOLVED: To provide a means making it possible to precisely retrieve a speaking section of a desired speaker even when video and audio include a part wherein a plurality of speakers speak at the same time.;SOLUTION: In a speaker speech registration phase, not only feature quantities of the voice of a speaker himself/herself, but also feature quantities of a voice composed of speech signals of a plurality of speakers are extracted and registered in a speech database 1. In a speaker retrieval phase, an input speech signal to be retrieved is segmented into short sections and feature quantities of the respective short sections are collated with feature quantities in the speech database 1 to recognize speakers. In a speaking section determination phase, retrieval results of speakers of the respective short sections are totalized in every fixed number of short sections and speaking sections of the speakers are found according to appearance frequencies of the speakers. In a speaker information display phase, the retrieval results of the speaking section are displayed.;COPYRIGHT: (C)2004,JPO

机译：解决的问题：提供一种手段，即使视频和音频包括多个讲话者同时讲话的部分，也可以精确地检索所需讲话者的讲话部分。解决方案：在讲话者语音注册阶段因此，不仅提取讲话者自己的语音的特征量，而且提取由多个讲话者的语音信号组成的语音的特征量并将其注册在语音数据库1中。在讲话者检索阶段，输入语音将要检索的信号分割成短部分，并且将各个短部分的特征量与语音数据库1中的特征量进行核对以识别说话者。在讲话区间确定阶段中，在每个固定数目的短区间中总计各个短区间的说话者的检索结果，并且根据说话者的出现频率找到说话者的说话区间。在讲话者信息显示阶段，显示讲话部分的检索结果。;版权所有：（C）2004，JPO

著录项

公开/公告号JP2004145161A

专利类型
公开/公告日2004-05-20

原文格式PDF
申请/专利权人 NIPPON TELEGR & TELEPH CORP NTT;
展开▼

申请/专利号JP20020312074
发明设计人 OSADA HIDENOBU;KOSUGI NAOKO;
展开▼

申请日2002-10-28
分类号G10L15/06;G10L11/02;G10L15/00;G10L15/04;G10L17/00;
国家 JP
入库时间 2022-08-21 23:34:12

相似文献

专利
外文文献
中文文献