首页> 中国专利> 一种基于演示视频的多模式索引方法及系统

一种基于演示视频的多模式索引方法及系统

摘要

本发明涉及一种基于演示视频的多模式索引系统,包括文本索引模块,人脸索引模块和图表索引模块,可以通过演示视频中的文本信息,如PPT上的文字或者讲解人说的话中的文字信息进行检索,也可以通过讲解人的面部特征进行索引,或者通过演示视频中的图表进行索引,通过上述索引方式,无需利用其他信息,只需要借助视频本身的信息就能进行检索,本发明所述的基于演示视频的多模式索引系统有效避免了现有技术中仅使用文本信息进行检索,适用范围小的问题,是一种可以采用多种检索模式,仅依靠视频本身的信息进行检索的基于演示视频的多模式索引系统。

著录项

  • 公开/公告号CN102855317A

    专利类型发明专利

  • 公开/公告日2013-01-02

    原文格式PDF

  • 申请/专利权人 王晖;

    申请/专利号CN201210320130.4

  • 发明设计人 王晖;

    申请日2012-08-31

  • 分类号G06F17/30(20060101);G06K9/00(20060101);

  • 代理机构11250 北京三聚阳光知识产权代理有限公司;

  • 代理人张建纲

  • 地址 100022 北京市朝阳区双井富力城D2-2602

  • 入库时间 2024-02-19 17:04:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-09

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2012103201304 申请日:20120831 授权公告日:20160504

    专利权的终止

  • 2016-05-04

    授权

    授权

  • 2013-02-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120831

    实质审查的生效

  • 2013-01-02

    公开

    公开

说明书

技术领域

本发明涉及一种视频的搜索引擎方法,具体是一种基于演示视频的多模 式索引方法和系统,属于搜索引擎技术领域。

背景技术

随着互联网技术的日益发展,网络资源成为一种重要的数据资源,发挥 起越来越重要的作用,视频数据以其形象、直接的方式备受青睐。演示视频 是指PPT讲座、演讲以及讲授为主的视频,其主要用于电子课堂、远程教育、 学术会议报告、讲座等场合。演示视频的特点是以讲授为主,一般有主要的 演讲或讲授人,其通过PPT或者其他演示内容进行讲解或演讲。演示视频已 经称为电子教学或者网络教学的主要形式。如斯坦福大学已经向所有公众开 办了网络课堂,吸引了超过20万的学生参与。

当网络教学日益称为趋势,网络上的教学视频日益增长,学生也大幅增 加时,不断增长的视频数据量也增加了阅读视频信息及获取所需视频数据的 难度。如何在海量视频中快速检索出所需要的视频资料显得至关重要,有效 的视频索引工具成为必需。视频名称、演讲者名字等标准信息可以作为关键 词来进行搜索,但是众多的视频资源中,有很多视频信息在录入时并未存储 这些信息,这就让这种检索方式能够检索出的视频信息受到限制。为此,研 究人员提出了基于内容的视频检索技术。基于内容的视频检索技术是指从视 频数据中提取出对象语义或者视觉信息、音频信息、运动信息等特征,再根 据这些视频的特征在视频数据库中进行相关信息查询,从而找到具有相似内 容的视频数据。

如中国专利文献CN101398854A中公开了一种视频片段检索方法和系统, 该方法包括以下步骤:对原始视频片段进行帧采样;对每个原始视频片段内 选取的采样帧进行聚类,在每个聚类中选取一帧图像作为代表帧,并根据每 个聚类内帧图像的数量计算该代表帧所占的比例值;依据所需比较的两个视 频的代表帧建立一个加权二分图,加权二分图的权重由所述代表帧之间的相 似度和该代表帧在相应聚类内的比例值确定;对加权比例二分图作最大权匹 配,获得两个视频片段的相似度;通过视频片段的相似度分析,在数据库进 行与输入的检索视频片段相似的视频片段检索。但是在该技术方案中,加权 的权重根据代表帧之间的相似度来确定,此时权重的判断有一定的主观性, 这就很难确保权重的准确性,从而导致在视频检索时的准确度下降。

在美国专利US2011081075A中也公开了一种基于演示视频的搜索方法和 系统,在该专利文献公开的搜索方法中,其仅仅使用文本进行索引,这些文 本信息来自视频元数据和视频片段中,虽然该技术方案中也提到了人脸,但 是仅仅使用人脸判断这些视频中是仅有幻灯片的信息还是也记录了演讲者或 者讲授人的可视化信息。因此,在该公开的技术方案中,仅能使用文本信息 进行检索,当无法获得文本信息时,则无法对其进行检索,使检索适用范围 小,受到文本信息的限制。

发明内容

本发明所要解决的技术问题是现有技术中基于演示视频的检索准确度不 高、检索方式受限、适用范围小的技术问题,从而提供一种可通过多种途径 进行检索,具有较高精度的演示视频的多模式索引方法和系统。

为解决上述技术问题,本发明提出一种基于演示视频的多模式索引方法 及系统。

一种基于演示视频的多模式索引系统,包括至少如下一个模块:

文本索引模块,包括文本检测识别单元和文本匹配单元,所述文本 检测识别单元从视频库的视频中提取文本信息并建立文本特征库,文本 匹配单元将文本索引信息与所述文本特征库中的信息进行比较,识别出 匹配的视频;

人脸索引模块,包括人脸识别单元和人脸匹配单元,人脸识别单元 用于对视频库中视频中的演讲者进行面部识别,建立人脸特征库,然后 通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进 行比较,识别出匹配的视频;

图表索引模块,包括图表识别单元和图表匹配单元,图表识别单元 用于对视频库中视频中的图表进行识别,建立图表特征库;然后通过图 表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比 较,识别出匹配的视频。

本发明所述的基于演示视频的多模式索引系统,包括文本索引模块、人 脸索引模块和图表索引模块中的任意两个模块。

本发明所述的基于演示视频的多模式索引系统,其特征在于:包括文本 索引模块、人脸索引模块和图表索引模块。

一种基于演示视频的多模式索引方法,包括如下步骤中的一个或多个:

1)文本索引,文本检测识别单元从视频库的视频中提取文本信息并建 立文本特征库,文本匹配单元将文本索引信息与所述文本特征库中的信息进 行比较,识别出匹配的视频;

2)人脸索引,通过人脸识别单元对视频库中视频中的演讲者进行面部 识别,建立人脸特征库,然后通过人脸匹配单元将输入的人脸索引信息与所 述人脸特征库中的信息进行比较,识别出匹配的视频;

3)图表索引,通过图表识别单元对视频库中视频中的图表进行识别, 建立图表特征库;然后通过图表匹配单元将输入的图表索引信息与所述图表 特征库中的信息进行比较,识别出匹配的视频。

本发明所述的基于演示视频的多模式索引方法,还包括步骤4),综合文 本索引、人脸索引和图表索引的匹配结果,获得最优检索结果。

本发明所述的基于演示视频的多模式索引方法,所述文本索引信息、人 脸索引信息和图表索引信息从索引视频中提取。

本发明所述的基于演示视频的多模式索引方法,所述文本检测识别单元 从视频库的视频中提取文本信息时,包括

1)从视频的声道中提取声音信息,进行语音识别获得文本信息;

2)从视频的画面中提取文本信息,进行图像和字体识别获得文本信 息。

本发明所述的基于演示视频的多模式索引方法,所述文本检测识别单元 从视频的画面中提取文本信息的步骤如下:

a)对视频画面通过拉普拉斯变换进行高斯边缘检测,然后将相连的边缘 进行分组,再进行基于几何学和边缘密度约束的区域修整;

b)通过积分直方图进行局部最优自适应二值化计算,获得文本的图像信 息;

c)调用开源的OCR识别工具,进行文字识别;

d)经过文本标准化处理后的最终结果作为提取出的文本信息;

本发明所述的基于演示视频的多模式索引方法,所述人脸识别单元对视 频库中视频中的演讲者进行面部识别的步骤包括:

a)结合标准人脸检测器和皮肤滤色器提取每一帧视频画面中的人脸特 征;

b)从当前位置初始化追踪程序,

c)使用标准表述符号代表人脸区域;

d)运用分辨率、肤色的数量以及姿势在每次追踪中选择一个人脸;

e)与其他追踪相比较,最后为每个演讲者选中一个最接近的面部图像。

本发明所述的基于演示视频的多模式索引系统,图表识别单元对对视频 库中视频中的图表进行识别,包括如下步骤:

a)通过色彩饱和度估计量从视频画面中识别出各帧图像;

b)通过识别程序获取图表所在的位置;

c)结合视觉信息,根据实时平均连接算法汇集成图表区域;

d)在汇集过程中,选择最大的区域作为形成的图表区域;

e)调用灰度自动白平衡算法进行颜色矫正。

本发明的上述技术方案相比现有技术具有以下优点:

(1)本发明所述的基于演示视频的多模式索引系统,包括文本索引模块, 人脸索引模块和图表索引模块,可以通过演示视频中的文本信息,如PPT上 的文字或者讲解人说的话中的文字信息进行检索,也可以通过讲解人的面部 特征进行索引,或者通过演示视频中的图表进行索引,通过上述索引方式, 无需利用其他信息,只需要借助视频本身的信息就能进行检索,本发明所述 的基于演示视频的多模式索引系统有效避免了现有技术中仅使用文本信息进 行检索,适用范围小的问题,是一种可以采用多种检索模式,仅依靠视频本 身的信息进行检索的基于演示视频的多模式索引系统。在合适的情况下,也 可以采用其中的一种或两种或三种进行索引,可以多种形式组合,根据检索 的需要如时间需求和准确度需要来选择合适的索引方式,具有更好的灵活性。

(2)本发明所述的基于演示视频的多模式索引系统,检索用的文本信息 可以通过视频声道的声音来提取,也可以通过从视频画面中显示的文字信息 进行文字识别来提取,这样根据语音中的文本信息和视频中的文字信息,都 可以进行文本索引,进一步扩展了其可以检索的范围。

(3)本发明所述的基于演示视频的多模式索引系统,从视频的画面中提 取文本信息时通过边缘检测、连接以及修整,然后进行局部最优自适应计算, 再调用OCR识别工具进行文字识别,然后进行标准化处理得到文本信息,通 过该方法可以获得较好的画面中文本信息的识别,提高文本索引的准确度。

(4)本发明所述的基于演示视频的多模式索引系统,对视频库中视频中 的演讲者进行面部识别,结合标准人脸检测器和皮肤滤色器,进行人脸识别, 获得最近进的人脸图像。

(5)本发明所述的基于演示视频的多模式索引系统,视频中的图表进行 识别,通过色彩饱和度来识别各帧图像,通过连接算法获得图表信息,将图 表识别引入到演示视频中,由于演示视频中运用的图表较多,这样通过图表 就可以检索到所需的视频信息,不仅扩展了检索的范围,也提高了检索精度。

(6)本发明所述的基于演示视频的多模式索引系统,综合文本索引、人 脸索引和图表索引的匹配结果,获得最优检索结果,采用单一的方法就可以 获得相应的视频,当同时采用上述三种检索方式时,可以综合三个检索结果, 有利于搜索到最优的结果,提高检索的准确度。

附图说明

为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作 进一步详细的说明,其中,

图1是本发明所述基于演示视频的多模式索引系统的结构示意图;

图2是本发明所述从视频的画面中提取文本信息的流程图;

图3是本发明所述对视频库中视频中的演讲者进行面部识别的流程图;

图4是本发明所述对视频库中视频中的图表进行识别的流程图。

具体实施方式

实施例1:

本发明所述的一种基于演示视频的多模式索引系统,结构如图1所示, 包括文本索引模块、人脸索引模块和图表索引模块,具体如下:

(A)文本索引模块,包括文本检测识别单元和文本匹配单元,所述文本 检测识别单元从视频库的视频中提取文本信息并建立文本特征库,文本匹配 单元将文本索引信息与所述文本特征库中的信息进行比较,识别出匹配的视 频。

(B)人脸索引模块,包括人脸识别单元和人脸匹配单元,人脸识别单元 用于对视频库中视频中的演讲者进行面部识别,建立人脸特征库,然后通过 人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较, 识别出匹配的视频。

(C)图表索引模块,包括图表识别单元和图表匹配单元,图表识别单元 用于对视频库中视频中的图表进行识别,建立图表特征库;然后通过图表匹 配单元将输入的图表索引信息与所述图表特征库中的信息进行比较,识别出 匹配的视频。

上述三个模块中,文本索引模块从视频中提取文本信息,人脸索引模块 从视频中获得演讲者的人脸特征,图表索引模块获得视频中的图表信息,这 样,通过文本、人脸图像和图表这三种方式都可以对演示视频进行检索,根 据用户使用的索引信息(如文本、人脸图像和图表)对视频库中的视频进行 索引,获得匹配程度较高的演示视频,为用户提供参考,这样用户就可以通 过这三种方式快捷的获得所需的视频信息。此处,用户使用的索引信息可以 为索引视频,用户使用视频来检索视频,根据用户使用的索引视频,从该视 频中提取出文本索引信息、人脸索引信息和图表索引信息,此时提取这些索 引信息的方法与从视频库中提取特征建立文本特征库、人脸特征库和图表特 征库的方法相似,因此其匹配时具有一致性。

上述文本索引、人脸索引、图表索引的方法和算法,可以采用现有技术 中的方法。

本实施例中所述基于演示视频的多模式索引系统对应的索引方法如下:

1)文本索引,文本检测识别单元从视频库的视频中提取文本信息并建 立文本特征库,文本匹配单元将文本索引信息与所述文本特征库中的信息进 行比较,识别出匹配的视频。

2)人脸索引,通过人脸识别单元对视频库中视频中的演讲者进行面部 识别,建立人脸特征库,然后通过人脸匹配单元将输入的人脸索引信息与所 述人脸特征库中的信息进行比较,识别出匹配的视频。

3)图表索引,通过图表识别单元对视频库中视频中的图表进行识别, 建立图表特征库;然后通过图表匹配单元将输入的图表索引信息与所述图表 特征库中的信息进行比较,识别出匹配的视频。

4)综合文本索引、人脸索引和图表索引的匹配结果,获得最优检索结果。

作为可以变换的实施方式,所述基于演示视频的多模式索引系统不需要 全部同时包括上述三个模块,也可以选择仅仅包括(A)文本索引模块、(B) 人脸索引模块、(C)图表索引模块中的一种或两种,选择合适的匹配方式进 行匹配。

实施例2:

在实施例1的基础上,本发明所述的一种基于演示视频的多模式索引系 统包括文本索引模块、人脸索引模块和图表索引模块。

(A)文本索引模块,包括文本检测识别单元和文本匹配单元,所述文本 检测识别单元从视频库的视频中提取文本信息并建立文本特征库,文本匹配 单元将文本索引信息与所述文本特征库中的信息进行比较,识别出匹配的视 频。

在文本索引模块中,从视频库的视频中提取文本信息时,采用的具体方 法如下:

1)从视频的声道中提取声音信息,进行语音识别获得文本信息;

2)从视频的画面中提取文本信息,进行图像和字体识别获得文本信息, 具体步骤如下,流程图如图2所示:

a)对视频画面通过拉普拉斯变换进行高斯边缘检测,然后将相连的边缘 进行分组,再进行基于几何学和边缘密度约束的区域修整;

b)通过积分直方图进行局部最优自适应二值化计算,获得文本的图像信 息;

c)调用开源的OCR识别工具,进行文字识别;

d)经过文本标准化处理后的最终结果作为提取出的文本信息;

(B)人脸索引模块,包括人脸识别单元和人脸匹配单元,人脸识别单元 用于对视频库中视频中的演讲者进行面部识别,建立人脸特征库,然后通过 人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较, 识别出匹配的视频。

在人脸索引模块中,所述对视频库中视频中的演讲者进行面部识别的步 骤如下,流程图如图3所示,包括:

a)结合标准人脸检测器和皮肤滤色器提取每一帧视频画面中的人脸特 征;

b)从当前位置初始化追踪程序,

c)使用标准表述符号代表人脸区域;

d)运用分辨率、肤色的数量以及姿势在每次追踪中选择一个人脸;

e)与其他追踪相比较,最后为每个演讲者选中一个最接近的面部图像。

(C)图表索引模块,包括图表识别单元和图表匹配单元,图表识别单元 用于对视频库中视频中的图表进行识别,建立图表特征库;然后通过图表匹 配单元将输入的图表索引信息与所述图表特征库中的信息进行比较,识别出 匹配的视频。

对视频库中视频中的图表进行识别,包括如下步骤,如图4所示:

a)通过色彩饱和度估计量从视频画面中识别出各帧图像;

b)通过识别程序获取图表所在的位置;

c)结合视觉信息,根据实时平均连接算法汇集成图表区域;

d)在汇集过程中,选择最大的区域作为形成的图表区域;

e)调用灰度自动白平衡算法进行颜色矫正。

实施例3:

一种基于演示视频的多模式索引方法,包括如下过程:

一、预处理:

1、对视频数据库中的视频如演示视频(PPT等)进行处理,通过文本检 测识别单元从视频库的视频中提取文本信息并建立文本特征库;通过人脸识 别单元用于对视频库中视频中的演讲者进行面部识别;通过图表识别单元用 于对视频库中视频中的图表进行识别,建立图表特征库;

2、对索引视频进行预处理,与对视频数据库中的视频进行处理的方式类 似,提取出文本索引信息、人脸索引信息和图表索引信息。

二、检索:

1)文本索引,文本匹配单元将文本索引信息与所述文本特征库中的信 息进行比较,识别出匹配的视频;

2)人脸索引,通过人脸匹配单元将输入的人脸索引信息与所述人脸特 征库中的信息进行比较,识别出匹配的视频;

3)图表索引,通过图表匹配单元将输入的图表索引信息与所述图表特 征库中的信息进行比较,识别出匹配的视频。

综合文本索引、人脸索引和图表索引的索引结果,得到最优匹配的视频。

作为可以变换的实施方式,所述的基于演示视频的多模式索引系统,可 以通过单独采用文本索引、人脸索引以及图表索引的方式进行检索,还可以 通过综合使用文本索引、人脸索引和图表索引中的至少两种检索方式进行检 索,然后综合其匹配结果,这样可以获得跟好的检索结果,参考多种检索方 式,获得最优结果。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的 限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出 其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。 而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之 中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号