首页> 中文学位 >基于神经网络的跨模态多媒体检索方法研究
【6h】

基于神经网络的跨模态多媒体检索方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

跨模态多媒体检索是信息检索的一个重要研究领域。随着大数据时代的到来,不同模态数据呈爆炸性增长,基于单模态数据的检索已经不能满足人们的需要,跨模态多媒体检索技术应运而生,且正在成为信息检索的新趋势,在理论研究和实际应用方面都有重要的研究意义。 跨模态多媒体检索技术,就是建立不同模态数据间的配对关系。本文主要研究跨模态多媒体检索领域中图像与文本互相检索的问题,任务包含两部分:已知查询图像,检索相关文本;已知查询文本,检索相关图像。 本文使用深度限制的玻尔兹曼机预训练的稀疏神经网络模型,从以下三个方面探讨神经网络技术在跨模态多媒体检索中的应用,提出如下方法: 1.提出一种跨模态多媒体语义匹配(Cross-Media Semantic Matching)方法。该方法使用两个独立的深度神经网络模型将图像和文本的底层特征映射到二者共同的语义空间。具体地,使用训练图像和文本的底层特征以及二者的标签训练两个独立的深度神经网络模型,将测试图像和文本的底层特征输入训练好的两个网络模型中,将其顶层输出作为图像和文本共同的语义空间。方法使用完全的语义信息进行跨媒体检索,不需要对数据底层特征(如线形、边缘或单词、短语等)的明确理解,既考虑了同构媒体数据的语义信息,也考虑了异构媒体数据的语义相关。 2.提出一种模态重构的跨模态多媒体检索(Modality-Reconstructed Cross-media Retrieval) 方法。该方法使用一个深度神经网络模型将图像的底层特征映射到文本的特征空间中。具体地,使用训练图像和文本的底层特征训练一个深度神经网络模型,将测试图像的底层特征输入训练好的网络模型中,将网络的顶层输出作为文本的特征空间。方法使用深度神经网络将图像的底层特征直接映射到文本的特征空间中,省略了图像和文本间的同构子空间,且不需要大量的标记样例。 3.提出一种基于协同深度语义学习的跨模态多媒体检索(Cross-Media Retrieval with Collective DeepSemantic Learning)方法。该方法使用两个深度神经网络模型将图像和文本的底层特征映射到二者共同的语义空间中,且使用协同深度语义学习技术探索无标记数据中潜在的语义信息。具体地,两个互补的深度神经网络首先被训练来协同地将图像和文本样例投影到一个共同表示空间中,基于此,生成无标记图像和文本样例的弱语义标记。然后,把他们和有标记的训练样例再次输入网络模型并训练网络。方法从数据的全局结构信息出发,能挖掘出无标记样例中潜在的语义信息,将无标记样例的弱语义标记协同学习为强语义标记,增强检索模型的类别判别能力以及语义建模能力,并可以发现一个更有意义的语义子空间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号