首页> 中文学位 >社交多媒体数据语义理解和关联表达
【6h】

社交多媒体数据语义理解和关联表达

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 社交多媒体数据研究的关键问题

1.3 本文主要工作

1.4 本文主要创新点

1.5 本文结构安排

第2章 国内外研究现状和工作基础

2.1 弱监督学习

2.1.1 数据去噪

2.1.2 噪音鲁棒模型

2.2 特征选取

2.2.1 批处理方法

2.2.2 在线特征选取

2.3 模型简化

2.4 照片集关联表达

2.5 多摄像头视频关联表达

第3章 弱监督社交多媒体数据语义理解

3.1 弱监督目标识别问题建模

3.2 弱监督相关反馈深度神经网络

3.2.1 经典深度卷积神经网络

3.2.2 相关反馈深度卷积神经网络

3.2.3 相关反馈分析

3.3 实验结果和评估

3.3.1 目标识别

3.3.2 社交图片标注

3.4 本章小结

第4章 大规模社交多媒体数据快速处理

4.1 在线特征选取问题建模

4.2 置信度加权二阶在线特征选取

4.3 快速在线特征选取算法

4.3.1 一阶快速在线特征选取算法

4.3.2 二阶快速在线特征选取算法

4.3.3 复杂度分析

4.4 置信度加权多类二阶在线特征选取

4.5 实验结果和评估

4.5.1 实验设置

4.5.2 合成数据集实验评估

4.5.3 中等规模真实数据集实验评估

4.5.4 物体识别实验评估

4.5.5 大规模真实数据集实验评估

4.6 深度卷积神经网络模型简化

4.6.1 卷积层参数简化

4.6.2 基于在线特征选取的模型简化

4.6.3 实验结果和评估

4.7 本章小结

第5章 基于主题的照片集故事化表达

5.1 主要问题与系统框架

5.2 照片集分析与梳理

5.2.1 事件检测

5.2.2 照片筛选

5.3 照片集故事合成

5.3.1 语义理解

5.3.2 风格选取

5.3.3 生成视频片段

5.3.4 音乐分析

5.3.5 故事合成

5.4 实验结果和评估

5.4.1 事件检测和关键照片选取评估

5.4.2 照片集故事合成评估

5.5 本章小结

第6章 移动多摄像头视频自动剪辑

6.1 主要问题

6.2 可计算视频剪辑语法

6.2.1 用户调研

6.2.2 视频剪辑调研结果

6.2.3 音频剪辑调研结果

6.2.4 可计算视频剪辑语法

6.3 移动多摄像头视频自动剪辑系统

6.3.1 系统框架

6.3.2 音频剪辑

6.3.3 镜头切换点检测

6.3.4 视频镜头选取

6.4 实验结果和评估

6.4.1 数据集

6.4.2 实验设置

6.4.3 音频剪辑评价

6.4.4 切换点检测评估

6.4.5 视频剪辑评估

6.5 本章小结

第7章 总结与展望

7.1 本文总结

7.2 研究工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

近年来,智能手机及其它移动智能设备呈现出了爆发式的增长与普及。高清摄像头、大容量存储和高速的网络连接为用户创造了极其便利的拍摄和分享条件,用户几乎可以在任意时间、任意地点拍摄照片或视频,并将它们分享到社交网络上,产生了海量的社交多媒体数据。然而,这些数据都以碎片化的形式存在,当前的社交多媒体系统缺乏智能的工具或服务将它们组织起来,并选取符合用户个性化需求的数据呈现给用户,用户也很难快速准确地检索到他们需要的数据。因此,如何充分挖掘和利用社交多媒体数据成为了当前重要的研究问题。
  本论文针对社交多媒体数据的语义理解和关联表达做了深入研究,目标是实现一个能够理解社交多媒体数据、根据用户需求选取有关联的数据并以丰富的表达形式呈现给用户的关联表达系统。由于社交多媒体数据的语义内容丰富多样,收集并标注每个语义的训练数据的难度和成本很高,因此语义理解首先需要解决标注难的问题。其次,由于社交多媒体数据的规模庞大,语义理解需要解决处理慢的问题。社交多媒体数据的关联表达是基于社交多媒体数据的语义理解,根据用户个性化的需求选取有关联的数据,并以丰富的表达形式呈现给用户。本论文分别从照片和视频两个角度研究了关联表达的具体应用。语义理解和关联表达构成了挖掘和利用社交多媒体数据相对完整的框架。
  针对上述问题,本论文的主要研究工作和创新成果包括:
  1.对于语义理解标注难的问题,提出了一种直接从社交多媒体数据学习目标识别模型的弱监督相关反馈深度学习算法。传统深度学习算法对于训练数据中的标注噪音十分敏感,本论文基于感知连续性,利用数据在特征空间的相互关系,使得不同数据在训练过程中有不同的贡献加权,从而抑制标注噪音的影响。实验结果表明,与已有算法相比,本论文提出的弱监督相关反馈深度学习算法具有更好的噪声鲁棒性。
  2.对于语义理解处理慢的问题,论文首先从减少数据特征种类和数目的角度提出了一种从大规模高维数据中选取特征的高效算法。本论文基于二阶在线学习算法,利用特征的置信度选取特征,并提出了基于堆结构的快速在线特征选取算法。由于置信度的单调递增特性,本论文进一步将算法的复杂度降低为与非零特征数目成正比。实验结果表明,该算法能够极大减少特征选取的计算时间,并达到接近甚至超过当前最好特征选取算法的准确率。其次,论文从加快提取深度特征速度的角度提出了基于在线特征选取的深度卷积神经网络模型简化算法。算法增加了对应卷积层输出特征图每个通道的权重层,通过在权重层上进行特征选取,将三维卷积核的组稀疏优化问题转化为一维特征选取问题。实验结果表明,该模型简化算法在几乎不影响模型准确率的情况下极大减少了模型的参数个数。
  3.对于照片关联表达问题,设计并实现了一个基于主题的照片集故事化表达系统Monet。系统首先检测照片集中的事件并选取一部分代表性的照片子集,完成对照片集的分析与梳理。其次,系统根据对照片的语义理解结果赋予不同照片不同的主题,并针对每个主题的照片运用可计算的风格模板生成具有关联表达能力和丰富表达效果的音乐视频。实验结果表明,Monet系统提供了更好的照片集分析与梳理和故事合成效果。
  4.对于视频关联表达问题,设计并实现了一个全自动移动多摄像头视频自动剪辑系统MoVieUp。论文从音频剪辑和视频剪辑两个角度解决自动剪辑问题。音频剪辑评估所有音频流的质量,在最少切换次数准则下选取高质量的音频流片段,并拼接成单一音频流。视频剪辑首先根据音频的节奏和语义选取镜头切换点,其次在保证镜头运动一致性的条件下最大化镜头质量和镜头多样性,完成镜头选取和拼接,得到单一视频流。实验结果表明,MoVieUp系统达到了当前最好的移动多摄像头视频自动剪辑效果,提供了更好的用户体验。

著录项

  • 作者

    吴岳;

  • 作者单位

    中国科学技术大学;

  • 授予单位 中国科学技术大学;
  • 学科 信息与通信工程
  • 授予学位 博士
  • 导师姓名 俞能海,李世鹏;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    社交多媒体数据; 语义理解; 关联表达; 特征选取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号