首页> 中国专利> 一种基于多级编码的文本到视频的跨模态检索方法

一种基于多级编码的文本到视频的跨模态检索方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于多级编码的文本到视频的跨模态检索方法，该方法包括：首先获取视频和文本的初步特征，然后通过两个多级编码网络分支分别对两种模态的全局、时序和局部信息进行编码；对于视频端提取音频特征，对于文本端提取句子特征；最后将编码的多个特征进行多级特征融合，得到鲁棒的视频和文本表达。通过全连接层将两个模态的特征映射到一个统一公共空间中，利用公共空间算法学习两个模态之间的关系，通过端到端的方式训练模型，自动学习文本和视频的匹配关系，从而实现文本到视频的跨模态检索。本发明是一种无概念的方法，不需复杂的概念检测操作，就能实现跨模态检索，并且利用了深度学习技术，在很大程度上提高了检索的性能和效率。

著录项

公开/公告号CN111309971A

专利类型发明专利
公开/公告日2020-06-19

原文格式PDF
申请/专利权人浙江工商大学;
展开▼

申请/专利号CN202010060690.5
发明设计人董建锋;叶金德;章磊敏;林昶廷;王勋;
展开▼

申请日2020-01-19
分类号
代理机构杭州求是专利事务所有限公司;
代理人刘静
地址 310018 浙江省杭州市下沙高教园区学正街18号
入库时间 2023-12-17 10:08:05

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-14

实质审查的生效 IPC(主分类):G06F16/783 申请日:20200119

实质审查的生效
2020-06-19

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于预聚类引导的视频文本跨模态检索方法 [P] . 中国专利： CN116186328A . 2023-05-30
2. 一种基于多级编码的文本到视频的跨模态检索方法 [P] . 中国专利： CN111309971B . 2022-03-25
3. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING [P] . 美国专利： WO2021092632A2 . 2021-05-14

机译：基于弱监督的基于文本的视频时刻通过跨关注建模检索
4. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING [P] . 美国专利： WO2021092632A3 . 2022-01-13

机译：基于弱监督的基于文本的视频时刻通过跨关注建模检索
5. ATTENTION-BASED DEEP CROSS-MODAL HASH RETRIEVAL METHOD AND APPARATUS, AND RELATED DEVICE [P] . WO2022155994A1 . 2022-07-28

机译：一种基于注意力的深度跨模态哈希检索方法及装置及相关装置