首页> 中文学位 >跨媒体检索中文本与图像信息融合研究
【6h】

跨媒体检索中文本与图像信息融合研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景与意义

1.2 跨媒体检索发展概述

1.3 本文研究的主要内容及章节安排

1.4 本章小结

第2章 跨媒体检索的特征提取

2.1 文本的特征提取

2.2 图像的手工特征提取

2.3 图像的深度学习模型

2.4 本章小结

第3章 跨媒体信息融合与哈希检索

3.1 跨媒体信息融合

3.2 哈希检索简介

3.3 本章小结

第4章 基于卷积神经网络的跨媒体检索研究与实现

4.1 基于词-词相似矩阵的监督哈希跨媒体检索模型

4.2 基于余弦距离损失函数的监督哈希跨媒体检索模型

4.3 深度学习开源框架Caffe

4.4 跨媒体数据集简介

4.5 实现与结果分析

4.6 本章小结

第5章 总结展望

5.1 总结

5.2 展望

参考文献

致谢

个人简历、在校期间发表学术论文与研究成果

展开▼

摘要

随着互联网和多媒体技术以及压缩编码技术的发展,硬件存储能力极大提升,大量的多媒体数据存在网络中;相比于单一媒体,多媒体能提供更多的信息。
  面对浩瀚的数据海洋,如何准确有效地按照用户的需求找出相关的多媒体数据。现有检索系统广泛存在一个“语义鸿沟”问题,即两幅图像可能在视觉特征上并不相似,但它们却在同一主题之下;或者两幅图像视觉特征部分相似,却表达不同的主题。为了解决语义鸿沟问题,近年来已有许多学者提出跨媒体检索模型,利用现有的文本、图像、视频特征提取算法、特征降维方法,建立融合模型,融合不同媒体之间的特征,试图将多媒体数据的高层语义剥离出来。
  在特征提取中,由于视频这一媒体在经过场景分割、关键帧提取等过程之后一定程度上相当于图像,而音频经过场景识别、语音识别等过程之后一定程度上相当于文本,因此本文将研究重点放在文本与图像的信息融合中。
  本文首先介绍了跨媒体检索的发展概述,跨媒体检索的特征提取,包括文本以及图像对于跨媒体检索有贡献的特征提取方法。然后介绍了本文的主要创新工作,两种基于卷积神经网络的跨媒体哈希检索模型,基于词-词相似矩阵的监督哈希跨媒体检索模型和基于余弦距离损失函数的监督哈希跨媒体检索模型,利用深度学习模型和自然语言处理技术,使得文本信息融合到图像检索过程中,完成跨媒体检索任务。
  本文使用深度学习开源框架Caffe以及自然语言处理工具NLTK进行实验仿真,两种模型将图像卷积特征与文本词向量、词-图对应矩阵作为神经网络的输入,将设计的融合哈希码作为训练目标,将文本与图像同时映射到二进制哈希码中,利用快速哈希检索技术进行检索,两种模型分别设计了融合哈希码和一种损失函数,使得对应文本与对应图像通过神经网络能获得距离相近的哈希码。实验表明,这两种方法能够较好的完成跨媒体中以图搜文、以文搜图的任务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号