首页> 中国专利> 通过音素预测进行视觉语音识别

通过音素预测进行视觉语音识别

摘要

用于执行视觉语音识别的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收包括多个视频帧的视频,其中每个视频帧描绘双唇;使用视觉语音识别神经网络来处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,其中所述视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间‑聚合神经网络层;其中可能标记的词汇表包括多个音素;以及使用所述输出分数来确定由所述视频中描绘的双唇所表达的词的序列。

著录项

  • 公开/公告号CN112041924A

    专利类型发明专利

  • 公开/公告日2020-12-04

    原文格式PDF

  • 申请/专利权人 渊慧科技有限公司;

    申请/专利号CN201980026370.3

  • 申请日2019-05-20

  • 分类号G10L15/25(20060101);G06K9/00(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人金玉洁

  • 地址 英国伦敦

  • 入库时间 2023-06-19 09:06:00

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号