首页> 中国专利> 通过音素预测进行视觉语音识别

通过音素预测进行视觉语音识别

页面导航

摘要
著录项
相似文献

摘要

用于执行视觉语音识别的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，一种方法包括：接收包括多个视频帧的视频，其中每个视频帧描绘双唇；使用视觉语音识别神经网络来处理所述视频，以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数，其中所述视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间‑聚合神经网络层；其中可能标记的词汇表包括多个音素；以及使用所述输出分数来确定由所述视频中描绘的双唇所表达的词的序列。

著录项

公开/公告号CN112041924A

专利类型发明专利
公开/公告日2020-12-04

原文格式PDF
申请/专利权人渊慧科技有限公司;
展开▼

申请/专利号CN201980026370.3
发明设计人 B.希林格福德;I.A.阿萨埃尔;J.F.戈梅斯德弗雷塔斯;
展开▼

申请日2019-05-20
分类号G10L15/25(20060101);G06K9/00(20060101);
代理机构11105 北京市柳沈律师事务所;
代理人金玉洁
地址英国伦敦
入库时间 2023-06-19 09:06:00

相似文献

专利
中文文献
外文文献

1. 通过音素预测进行视觉语音识别 [P] . 中国专利： CN112041924A . 2020-12-04
2. 使用优化的音素集进行广东话语音识别的系统和方法 [P] . 中国专利： CN101908339A . 2010-12-08
3. VISUAL SPEECH RECOGNITION BY PHONEME PREDICTION [P] . US2021110831A1 . 2021-04-15

机译：音素预测的视觉语音识别
4. Code Mapping refers to the technique of visually 'mapping' phonemes (English speech sounds) with the letter or letter string that represents each separate phoneme, on paper. Text displays this 'Code Mapping' technique using 2 colours, with a third to segment split vowel digraphs. These show the 'reader' where speech sounds will change as the word is decoded. The ability to segment words in this way, orally, is known to be difficult for Dyslexic learners, who generally have poor phonemic awareness. Therefore the typing or writing of text using this technique is highly beneficial. [P] . AU2017100059A4 . 2017-03-02

机译：代码映射是指在纸上以视觉方式“映射”音素（英语语音）的技术，其中字母或字母字符串代表每个单独的音素。文本使用两种颜色显示此“代码映射”技术，第三种用于分割元音二合字母。这些显示了“阅读器”，语音在解码时会发生变化。众所周知，诵读困难的学习者很难以这种方式对单词进行口头分割，因为他们通常音素意识较差。因此，使用这种技术键入或书写文本是非常有益的。
5. Speech recognition method for e.g. telephone server, involves Viterbi type decoding over Markov network to obtain list of candidates, and rejecting candidate if its evaluated phoneme is conformable with one phoneme of set of phonemes [P] . 法国专利： FR2859812A1 . 2005-03-18

机译：语音识别方法，例如电话服务器，涉及通过马尔可夫网络进行维特比类型解码以获得候选列表，如果其评估的音素符合一组音素，则拒绝候选