首页> 中国专利> 基于深度学习的多模态图像语音解读方法和系统

基于深度学习的多模态图像语音解读方法和系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于深度学习的多模态图像语音解读方法和系统，该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型；搭建语音转换神经网络并训练得到语音转换神经网络模型；获取待语音解读的图像，经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解，有助于该类人群的日常生活。同时，上述方案可以应用于幼儿教育，在小孩学习身边事物的过程中起辅助作用，也可应用于娱乐场所，应用范围广，具有很高的实际使用价值。

著录项

公开/公告号CN115273810A

专利类型发明专利
公开/公告日2022-11-01

原文格式PDF
申请/专利权人成都理工大学;
展开▼

申请/专利号CN202210777466.7
发明设计人王丽;汤影;缪昊洋;
展开▼

申请日2022-07-04
分类号G10L13/08;G10L25/30;G10L13/047;G06V10/82;G06V30/19;G06V30/41;G06N3/04;G06N3/08;
代理机构成都市熠图知识产权代理有限公司;
代理人邓昉
地址 610059 四川省成都市成华区二仙桥东三路1号
入库时间 2023-06-19 17:24:03

法律信息

法律状态公告日

法律状态信息

法律状态
2022-11-01

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 基于深度学习方法解读医学图像特征的辅助诊断系统 [P] . 中国专利： CN108257135A . 2018-07-06
2. 基于深度学习的CBCT图像跨模态预测CTA图像的卒中风险筛查方法和系统 [P] . 中国专利： CN112101523A . 2020-12-18
3. DRIVER DROWSINESS DETECTION SYSTEM USING IMAGE AND PPG DATA BASED ON MULTIMODAL DEEP LEARNING [P] . 韩国专利： KR102096617B1 . 2020-04-02

机译：基于多模态深度学习的图像和PPG数据驾驶员驾驶检测系统
4. FULL-MODAL MEDICAL IMAGE SEQUENCE GROUPING METHOD BASED ON DEEP LEARNING SIGN STRUCTURE [P] . WO2022077858A1 . 2022-04-21

机译：基于深度学习符号结构的全模态医学图像序列分组方法
5. - Deep Learning-Based Image Processing Apparatus Image Processing Method and Computer-readable Medium and Deep Learning-Based Image Sensing Apparatus [P] . 韩国专利： KR102083835B1 . 2020-03-03

机译： -基于深度学习的图像处理设备的图像处理方法和计算机可读介质以及基于深度学习的图像传感设备