首页> 中文学位 >基于粗粒度和多模态特征的视频分割算法及其应用研究
【6h】

基于粗粒度和多模态特征的视频分割算法及其应用研究

代理获取

目录

声明

第1章 绪 论

1.1 研究背景及其意义

1.1.1 国外研究现状

1.1.2 国内研究现状

1.2 课题来源

1.3 本文主要工作

1.4 论文结构安排

第2章 研究基础

2.1 视频分割概述

2.2 均值漂移算法

2.3 卷积神经网络

2.3.1 卷积神经网络概述

2.3.2 卷积神经网络结构

2.4 VGGNet

2.5 孪生神经网络

2.6 本章小结

第3章 基于粗粒度特征的用户引导的视频场景分割

3.1 视频分割问题描述

3.2 视频场景分割框架

3.3 视频特征提取

3.4 视频分割算法

3.4.1 用于计算帧间相似距离的算子

3.4.2 聚类半径的回归算法

3.4.3 时域上的均值漂移聚类算法

3.4.4 多级聚类算法

3.5 实验结果

3.5.1 评估指标

3.5.2 评估数据

3.5.3 评估结果

3.6 本章小结

第4章 基于多模态特征提取的新闻视频拆条

4.1 基于多模态特征提取的新闻拆条框架

4.2 视频特征提取

4.2.1 图像特征

4.2.2 字幕特征

4.2.3 音频特征

4.3 数据标准化和数据增强

4.3.1 数据标准化

4.3.2 数据增强

4.4 预测分割点

4.5 VGGNet-SN

4.5.1 网络结构

4.5.2 网络训练

4.6 实验结果

4.6.1 实验环境

4.6.2 评估指标

4.6.3 视频候选分割点的预测

4.6.4 视频分割点的判别

4.7 本章小结

结 论

参考文献

附录A 攻读学位期间发表的学术论文

附录B 攻读学位期间参与的科研项目

致 谢

展开▼

摘要

随着当前互联网技术和多媒体技术地迅猛发展,网络视频信息呈现出爆炸式增长的形势,如何有效而且自动化地对视频数据进行浏览、管理和检索已然成为目前计算机视觉领域中的研究重点。视频分割是指在时域上将一个视频拆分成多个语义片段,这些语义片段通常来说,是根据用户意图来定义的某些特定概念或主题。视频分割的意义在于可以通过将视频划分为多个独立的语义单元来对需要处理的视频构建目录,实现对视频地快速浏览,以及找到视频中内容单元的边界。然而现有的视频分割方法仍存在无法自动适应场景粒度,分割效率低下等问题。  针对现有视频分割方法的场景概念依赖于人为判断,镜头的平移缩放难以处理,聚类算法需要阈值等问题,本文提出了基于粗粒度特征的用户引导的视频场景分割算法。算法包括特征提取阶段和场景分割阶段。在特征提取阶段中,对视频进行粗粒度特征提取,节省了时间开销和计算开销。在场景分割阶段中,提出了计算帧间相似距离的算子,用来解决镜头移动问题。提出了根据用户需求计算聚类半径的半径回归算法,用来解决场景概念依赖人为判断和聚类算法需要阈值的问题。除此之外,还提出了时域均值聚类算法和多级聚类算法。  针对目前新闻节目种类多,数据量大,媒体从业人员对新闻视频进行手动分割效率低下等问题,本文提出了一种采用VGG网络进行特征提取,采用孪生网络进行分类判断的新闻拆条算法。该算法包含视频多模态特征提取,视频候选分割点预测和候选分割点判定三个阶段。在视频多模态特征提取阶段,将视频的字幕信息、音频特征和视频特征综合起来分析。在视频候选分割点预测阶段,利用静音帧的性质对新闻视频进行候选分割点的预测。在最后的候选分割点判定阶段,利用孪生网络进行相似度检测,利用特征自提取后的特征向量进行相似度度量,分辨出真实的分割点。  实验表明,本文所提出的视频场景分割算法的平均F值为0.72,在不需要精确分割或需要根据用户意图快速迭代分割的情况下,所提出的视频场景分割是一种更经济、更有前景的方法。所提出的新闻视频自动拆条算法准确度为92%,能够成为媒体从业人员进行新闻拆条的重要辅助工具。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号