首页> 中国专利> 基于特征袋模型和监督学习的视频语义标注方法

基于特征袋模型和监督学习的视频语义标注方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于特征袋模型和监督学习的视频语义标注方法。该方法的包括步骤如下：(1)对电影视频进行预处理，进行视频镜头边界检测，对电影进行镜头分割；然后采取一定的策略提取出各个镜头的关键帧，每一幅关键帧作为视频镜头的代表帧；(2)构建一个视频语义本体库，定义大量的语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索；(3)提取视频关键帧的SIFT特征，然后采用k-means聚类对这些特征点聚类，每一个聚类代表一个“视觉单词”,从而生成“视觉词汇表”；(4)提取部分“视觉词汇表”进行训练，标注出相应的语义信息，采用监督学习方法，预测测试样本中的“视觉单词”，实现对视频关键帧的语义标注。

著录项

公开/公告号CN102663015A

专利类型发明专利
公开/公告日2012-09-12

原文格式PDF
申请/专利权人上海大学;
展开▼

申请/专利号CN201210075050.7
发明设计人章剑飞;蔡喜;李平;丁友东;
展开▼

申请日2012-03-21
分类号
代理机构上海上大专利事务所(普通合伙);
代理人何文欣
地址 200444 上海市宝山区上大路99号
入库时间 2023-12-18 06:28:50

法律信息

法律状态公告日

法律状态信息

法律状态
2019-03-08

未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20150506 终止日期:20180321 申请日:20120321

专利权的终止
2015-05-06

授权

授权
2012-11-07

实质审查的生效 IPC(主分类):G06F17/30 申请日:20120321

实质审查的生效
2012-09-12

公开

公开

说明书

技术领域

本发明涉及一种基于特征袋模型和监督学习的视频语义标注方法，属于计算机视觉和视频检索领域。

技术背景

在多媒体信息检索中，基于可视化内容的分析与检索已经相对成熟。然而，对于大多数用户而言，基于语义信息的应用显得更加重要。对语义的理解是指人能够从图像或视频中所得到的认知信息，它包括视频数据中含有的客观存在的具体的物体、物体与物体之间的时空关系以及它所含有的事件语义信息等。用户检索视频时，往往希望能够通过具体的语义信息对视频进行检索。例如通过语义信息查找“演员A与演员B对话的电影片断”，或者“发生某事件的视频片断”等。所以在视频检索中，视频语义信息提取和标注非常重要。

特征袋是一种有效的语义提取方法,也可以称为“词袋”，这种模型来源于自然语言处理。为了对文本进行分类，在自然语言处理中用一个词袋来表示一篇“文档”，即“文档”等价于一个装满了“词语”的袋子。将“词袋”引入到计算机视觉分类领域中的基本思想是把一幅图像看作是一篇“文档”，而图像中提取出的特征认为是“词语”。本发明采用的方法是提取视频的特征作为视频的“词语”。采用SIFT(Scale Invariant Feature Transform，尺度无关特征变换)特征，再对特征点进行聚类得到视频“字典”。然后采用基于机器学习方法来对视觉“词典”进行学习，得到检测模型，通过该模型对视频中是否含有某种语义信息进行检测和标注。

Chong-Wah, Ngo等在“Experimenting VIREO-374: Bag-of-Visual-Words and Visual-Based Ontology for Semantic Video Indexing and Search”(ACM Multimedia,2007)一文中, 提出一种用“Bag-of-Visual-Words”和基于视频本体对LSCOM(Large-Scale Concept Ontology for Multimedia，大规模语义概念本体库)语义本体库中选用374个具有代表性的语义概念进行了语义提取和标注的研究。

Yu-Gang Jiang等在“Towards Optimal Bag-of-Features for Object Categorization and Semantic Video Retrieval”(CIVR’07, July 9–11, 2007)一文中，提出一种基于Bag-of-Features(特征袋模型)的视频对象语义提取算法，该算法优化了各种影响Bag-of-Features性能因素来提高视频对象语义提取性能，其中包括检测器的选择，词汇大小和权重等。

D. Xu等在“Video Event Recognition Using Kernel Methods with Multilevel Temporal Alignment”(IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.30, NO.11, PP.1985-1997, 2008)一文中，提出从所有视频帧中选取一个视频段作为一个无序词袋的描述，一个视频段通常是由事件按时间发展的多个子段构成，所以该算法建立一个基于时间序列的多层金字塔模型，通过融合不同金字塔层的信息，用具有辨别力的kernel方法来测量视频的相似性以实现视频的场景识别。

J. Tang等在“Structure sensitive manifold ranking for video concept detection”(in Proceedings of ACM International conference on Multi-medial，2007)一文中，提出一种基于SIFT-Bag的视频事件识别方法，该方法编码每一个视频段作为无序SIFT特征向量的词袋，从训练样本视频段中提取SIFT特征向量进行全局高斯混合模型学习，在识别阶段，基于SIFT-Bag核被用在支持向量机中来对事件进行分类。

一段视频所表达的内容复杂，语义信息千差万别，为了能够准确，有效地对视频进行语义提取和标注，首先需要构建一个视频语义本体库，定义大量的语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索。许多研究机构致力于视频语义本体库的研究，多种视频语义本体库标准被提出。M. Naphade等“Large-scale concept ontology for multimedia”( IEEE Multimedia. 13(3). pp.86–91, 2006)，IBM公司，卡内基梅隆大学和哥伦比亚大学等研究机构在2006年为新闻视频领域制定的一种多媒体大规模语义概念本体库。该语义概念本体库目前已经定义834个词汇概念，这些词汇概念按照树状结构定义。该语义概念本体库把Cyc词汇中的300，000多个概念和2百多万个规则映射到该语义本体库中，以扩大LSCOM的概念量。哥伦比亚大学选用该语义概念本体库中的374个概念对视频进行语义注释、TRECVID-2006选用了其中449个语义概念对视频进行手工标注等。Kodak 公司在2007年为Kodak实际用户制定了Kodak's consumer video benchmark data set视频基本数据集。该数据集是首次为用户领域定义大规模词汇集和词汇结构，其中包括7种类型概念，分别是SUBJECT ACTIVITY, ORIENTATION, LOCATION, TRADITIONAL SUBJECT MATTER, OCCASION, AUDIO, CAMERA MOTION，共定义了100多个概念。我们通过调研电影领域的知识特点，同时考虑对电影语义标注处理需要强大的知识库的支持，本发明借用HowNet(知网)相关知识来构建一个电影语义本体库。

发明内容

本发明的目的是在于针对已有技术存在的缺陷提供一种基于特征袋模型和监督学习的视频语义标注方法能有效可靠、尽量少的人为参与情况下，完整、准确的提取视频流中基于镜头的语义信息，并且根据所提取的语义信息对视频镜头进行语义标注，从而实现基于语义信息对视频进行快速、准确地管理和检索。

本发明的目的通过以下措施来达到：

一种基于特征袋模型和监督学习的视频语义标注方法，其特征在于具体操作步骤如下：

(1) 电影视频数据集预处理

电影视频数据集预处理主要包括电影视频的镜头分割和关键帧提取两部分。为了快速、有效地对电影视频进行管理和检索，采用基于镜头的语义标注，所以电影视频自动语义提取和标注的首要工作是镜头边界检测。由于电影内容丰富多样、差异性大，存在很多影响镜头边界检测算法性能的因素，如：视频亮度突然大幅度的变化、物体快速运动以及摄像机的缩放和快速移动等操作的影响。为了提高电影语义提取和标注的效率，本发明提出一种针对电影领域的基于SIFT和SVM(支持向量机)的镜头边界检测算法，提高镜头边界检测的准确率。视频镜头分割后，对每个镜头选取一个能简洁地表示该镜头主要内容的帧作为该镜头的关键帧，目的是为用户展示检索结果。

(2) 语义本体库的建立；

电影语义本体库的构建是指在语义概念提取和标注之前需要构建一个电影语义本体库，定义大量的语义概念，依据语义概念来描述电影视频的语义信息。许多研究机构制定和建立了一些视频语义概念库，但这些视频语义概念库是应用于新闻、医学卫生、艺术等特定领域，并不适合电影语义标注，对于电影视频，没有一个成熟的语义概念库，所以通过调研电影领域的知识特点，同时考虑对电影语义标注处理需要强大的知识库的支持，本发明借用知网相关知识来构建一个电影语义本体库。

(3) 语义提取和标注

由于电影内容丰富多样，蕴含的语义概念信息量大、差异性大，如何最大限度地自动提取视频中的语义信息和自动语义标注，建立基于语义层次上的索引和检索，一直以来是困挠研究者的问题。本发明根据电影领域的知识特点提出以下电影视频语义提取和标注方案，该方案是采用特征袋模型和监督学习方法建立视频的低层特征和高层语义信息间的映射关联模型来提取电影视频的语义信息。

(4) 实现基于视频镜头的语义标注：采用支持向量机对样本视觉词汇进行训练，与高层语义进行标注，运用于测试集视觉词汇，实现基于视频镜头的语义标注。

本发明与已有技术相比具有如下特点：

（1）本发明提供的实现算法流程清晰、结构完整，实现效率高。

（2）特征袋模型采用提取视频关键帧SIFT特征，经过聚类构造的视觉词汇表更能反映图像对象的特征，为实现高准确率的语义标注提供了保证。

（3）为提高语义标注的准确率，对影响特征袋性能的各个因素进行了实验总结，包括视频帧特征的选取、视觉词汇表的构造及其大小，选取最优的方案。

（4）监督学习方法采用支持向量机对视觉词汇样本进行训练，标注样本，从而对测试集视觉词汇进行标注，其中对影响标注性能的支持向量机核函数进行了对比实验，选取对提高标注性能最有效的核函数。

附图说明

图1是基于特征袋和监督学习的视频语义标注方法程序框图。

图2是基于特征袋和支持向量机方法的视频语义标注实例图示。

图3是视频的不同逻辑单元图。

图4是镜头淡出过程中SIFT关键点数目图。

图5是镜头扫换转换检测图。

图6是电影视频语义标注结构图。

图7是部分小汽车训练样本。

图8是生成的小汽车视觉单词表中的前50个视觉单词。

图9是用户界面设计图。

具体实施方式

本发明的优先实施例结合附图说明如下：

实施例一：

参见图1，基于特征袋模型和监督学习的语义标注方法，具体操作步骤如下：一种基于特征袋模型和监督学习的视频语义标注方法，其特征在于，具体操作步骤如下：

(1) 将收集的电影视频数据集进行预处理，视频镜头分割和提取镜头关键帧；

(2) 构建一个视频语义本体库，定义语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索；

(3) 采用k-means聚类算法对视频关键帧提取的SIFT特征点进行聚类，构造视觉词汇表；

(4) 然后采用支持向量机对样本视觉词汇进行训练，与高层语义进行标注，运用于测试集视觉词汇，实现基于视频镜头的语义标注。

实施例二：

参见图2-图9本实施例与实施例一基本相同，特例之处如下：

所述步骤(1)中的视频镜头分割所采用的视频镜头分割算法是一种针对电影领域视频的镜头边界检测算法，如图3、图4、图5所示。

所述步骤(2)构建一个视频语义本体库，如图6所示。

所述步骤(3)的采用 k-means聚类算法对视频关键帧提取的SIFT特征点进行聚类，构造视觉词汇表，如图7、图8所示。

所述步骤(4)的实现基于视频镜头的语义标注，如图9所示。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于特征袋模型和监督学习的视频语义标注方法 [P] . 中国专利： CN102663015B . 2015.05.06
2. 基于特征袋模型和监督学习的视频语义标注方法 [P] . 中国专利： CN102663015A . 2012-09-12
3. System and method for image annotation and multi-modal image retrieval using probabilistic semantic models [P] . 美国专利： US7814040B1 . 2010-10-12

机译：利用概率语义模型进行图像标注和多模态图像检索的系统和方法
4. INTERFACE FOR SEMANTIC ANNOTATION SYSTEM FOR MOVING OBJECTS IN INTERACTIVE VIDEO, AND METHOD FOR USING SAME [P] . 韩国专利： KR101507272B1 . 2015-03-31

机译：交互式视频中移动对象的语义标注系统的接口以及使用该接口的方法
5. SYSTEM AND METHOD FOR MAKING SEMANTIC ANNOTATION FOR OBJECTS IN INTERACTIVE VIDEO AND INTERFACE FOR THE SYSTEM [P] . 美国专利： US2015229996A1 . 2015-08-13

机译：用于在交互式视频和系统界面中进行对象的语义标注的系统和方法