首页> 中国专利> 一种视听融合的语音识别系统

一种视听融合的语音识别系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种视听融合的语音识别系统，采用视听耦合隐马尔科夫模型（Coupled Hidden Markov Model，CHMM），目的在于通过对视频信号和音频信号不同的采样率及延迟，允许了视听状态之间的状态的不同步（不用考虑视听同步过程）。一种视听融合的语音识别系统，包括：音频特征提取、视频特征提取、建立CHMM模型三个步骤。三个步骤之间的关系如下：对于视听语音识别系统而言就是由音频的HMM和视频的HMM组成。与单条链的HMM不同，CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系，允许音频信息和视频信息的状态的异步。另外，对于耦合隐马尔科夫模型而言，音频链和视频链所利用的最大期望算法（EM算法）进行参数估计的过程是独立的，与需要实时关联的音频视频模型相比减小了参数空间和参数复杂性。

著录项

公开/公告号CN104036775A

专利类型发明专利
公开/公告日2014-09-10

原文格式PDF
申请/专利权人天津思博科科技发展有限公司;
展开▼

申请/专利号CN201410140715.7
发明设计人不公告发明人;
展开▼

申请日2014-04-09
分类号G10L15/14;
代理机构
代理人
地址 300384 天津市滨海新区华苑产业区海泰发展六道6号海泰绿色产业基地K1座4门202室
入库时间 2023-12-17 01:44:27

法律信息

法律状态公告日

法律状态信息

法律状态
2017-06-06

发明专利申请公布后的视为撤回 IPC(主分类):G10L15/14 申请公布日:20140910 申请日:20140409

发明专利申请公布后的视为撤回
2014-10-15

实质审查的生效 IPC(主分类):G10L15/14 申请日:20140409

实质审查的生效
2014-09-10

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种视听融合的语音识别系统 [P] . 中国专利： CN104036775A . 2014-09-10
2. 一种基于PCNN语谱图特征融合的情感语音识别系统 [P] . 中国专利： CN107845390A . 2018-03-27
3. A method for encapsulating audiovisual content streams in an MPEG-2 private section, a device for encapsulating audiovisual content in an MPEG-2 private section to be multiplexed in an MPEG-2 transport stream, a dialog for digital TV Application, user device, method for transmitting audiovisual content and / or data, and communication protocol for data network [P] . 日本专利： JP2017520954A . 2017-07-27

机译：一种将视听内容流封装在MPEG-2专用部分中的方法，一种将视听内容封装在要在MPEG-2传输流中多路复用的MPEG-2专用部分中的设备，用于数字电视的对话框，用户设备，方法用于传输视听内容和/或数据，以及用于数据网络的通信协议
4. A method for the production of the head or head part of a model doll for generating an audio - visual impression or. A method for generating an audio - visual model dolls representation or. For such a representation of usable model dolls head [P] . 德国专利： DE2747129A1 . 1978-04-27

机译：一种生产模型玩偶的头部或头部以产生视听印象的方法。一种用于生成视听模型玩偶表示形式或方法的方法。对于可用模型娃娃头的这种表示
5. confluitore tele / video confluitore audiovisual [P] . ITMI20012179A1 . 2003-04-21

机译：电信/视频融合器视听融合器