首页> 中国专利> 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先，视频中说话人的唇部区域被直接提取为视觉特征，降低了人工设计视觉特征提取噪声的误差，其次，二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板，可有效地对声学特征的时频特性和视觉特征的时空特性进行建模；再次，根据声学模板和视觉模板，可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度；最后，对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重，以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献，提高了关键词识别的性能。

著录项

公开/公告号CN109147763B

专利类型发明专利
公开/公告日2020-08-11

原文格式PDF
申请/专利权人深圳市感动智能科技有限公司;北京大学深圳研究生院;
展开▼

申请/专利号CN201810752379.X
发明设计人丁润伟;庞程;刘宏;
展开▼

申请日2018-07-10
分类号
代理机构北京君尚知识产权代理有限公司;
代理人邱晓锋
地址 518000 广东省深圳市南山区桃源街道西丽镇丽山路桑泰大厦大学城创业园506
入库时间 2022-08-23 11:08:55

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-11

授权

授权
2019-01-29

实质审查的生效 IPC(主分类):G10L15/05 申请日:20180710

实质审查的生效
2019-01-04

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 [P] . 中国专利： CN109147763B . 2020.08.11
2. 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 [P] . 中国专利： CN109147763A . 2019-01-04
3. SPEECH RECOGNITION METHOD BASED ON CONFIDENCE LEVEL OF KEYWORD MODEL WHICH IS WEIGHTED FOR RESPECTIVE FRAMES AND APPARATUS USING THE METHOD [P] . 日本专利： JP2006227628A . 2006-08-31

机译：基于关键词模型可信度的语音识别方法及其加权方法
4. INVERSE APERTURE SYNTHESIS RADAR APPARATUS AND TARGET DISCRIMINATION METHOD USING INVERSE APERTURE SYNTHESIS RADAR IMAGE [P] . 日本专利： JP2001221857A . 2001-08-17

机译：逆孔径合成雷达装置及基于孔径逆合成雷达图像的目标识别方法
5. Neural Networks ENTROPY-BASED NEURAL NETWORKS PARTIAL LEARNING METHOD AND SYSTEM [P] . 韩国专利： KR102120443B1 . 2020-06-08

机译：神经网络的基于熵的神经网络局部学习方法和系统