首页> 中国专利> 基于深度学习的多模态图像语音解读方法和系统

基于深度学习的多模态图像语音解读方法和系统

摘要

本发明公开了一种基于深度学习的多模态图像语音解读方法和系统,该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型;搭建语音转换神经网络并训练得到语音转换神经网络模型;获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解,有助于该类人群的日常生活。同时,上述方案可以应用于幼儿教育,在小孩学习身边事物的过程中起辅助作用,也可应用于娱乐场所,应用范围广,具有很高的实际使用价值。

著录项

  • 公开/公告号CN115273810A

    专利类型发明专利

  • 公开/公告日2022-11-01

    原文格式PDF

  • 申请/专利权人 成都理工大学;

    申请/专利号CN202210777466.7

  • 发明设计人 王丽;汤影;缪昊洋;

    申请日2022-07-04

  • 分类号G10L13/08;G10L25/30;G10L13/047;G06V10/82;G06V30/19;G06V30/41;G06N3/04;G06N3/08;

  • 代理机构成都市熠图知识产权代理有限公司;

  • 代理人邓昉

  • 地址 610059 四川省成都市成华区二仙桥东三路1号

  • 入库时间 2023-06-19 17:24:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-01

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号