首页> 中国专利> 一种基于图像识别的电视节目识别方法和系统

一种基于图像识别的电视节目识别方法和系统

摘要

本发明公开了一种基于图像识别的电视节目识别方法和系统,所述方法包括:S1,视频采集卡采集各电视频道的直播视频图像,提取各电视频道的视频图像特征值,并发送到图像处理服务器;S2,图像处理服务器实时建立并更新各电视频道的视频图像特征索引表;S3,移动终端拍摄当前电视频道的屏幕画面,提取屏幕画面的视频图像特征值,并发送图像识别请求和视频图像特征值到图像处理服务器;S4,图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特征索引表中的视频图像特征值进行比对,确定当前电视频道的频道ID;S5,移动终端根据频道ID确定当前直播视频所属节目。本发明能提高图像识别的准确率和效率,抗干扰能力强。

著录项

  • 公开/公告号CN104506946A

    专利类型发明专利

  • 公开/公告日2015-04-08

    原文格式PDF

  • 申请/专利权人 南京阅视网络科技有限公司;

    申请/专利号CN201410729624.7

  • 发明设计人 孔炯;马小骏;

    申请日2014-12-04

  • 分类号H04N21/472;H04N21/258;H04N21/235;H04N21/435;

  • 代理机构北京联创佳为专利事务所(普通合伙);

  • 代理人郭防

  • 地址 210036 江苏省南京市鼓楼区汉中门大街301号402室

  • 入库时间 2023-12-18 08:10:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-05

    授权

    授权

  • 2015-05-06

    实质审查的生效 IPC(主分类):H04N21/472 申请日:20141204

    实质审查的生效

  • 2015-04-08

    公开

    公开

说明书

技术领域

本发明涉及一种基于图像识别的电视节目识别方法和系统,属于图像内容识别和电视互 动社交领域。

背景技术

随着三网融合的推进,IPTV日益普及,尤其是OTT平台及智能电视的快速发展,观众 收视习惯日益多样化。为积极有效应对全媒体多屏融合的市场竞争,广电行业相关企事业单 位正积极有效利用外部资源,充分发挥各自优势,开拓思路,努力创新,提供更多增值业务 及新媒体应用,提升现有用户的ARPU值及用户黏度,并在新业务与新运营模式上进行积极 探索与尝试。

电视互动社交应用系统,作为以广电有线网络为基础的一款服务于电视终端用户的互联 网应用业务,一方面满足了广电网络运营商发展基础收视业务的需求,一方面满足了用户及 时方便获取海量电视信息资源的需求。此应用业务可以通过手机、PAD等终端为用户提供节 目导视、社交、商务、娱乐等综合信息推送与互动服务,实现跨屏导视、点播控制、互动共 享及电视购物等手机与电视交互的业务模式,打造适合不同用户需求的手机互动电视资讯业 务,吸引更多年轻用户回归到电视。

目前,在用户参与电视节目互动方面,除了传统的热线电话、短信参与等方式,还出现 了基于声音感知的参与方式,但是基于直播视频识别的非现场互动参与方式,目前还相对缺 乏。因而,如果能让用户通过移动终端摄像设备,拍摄并发送实时直播视频图像,在服务后 台进行图像识别,判断用户正在参与该节目,并且推送互动参与内容,将极大改善用户的互 动参与体验。

而现有的电视节目图像识别技术,一般都是提取电视画面中的电视台台标和频道名称来 进行识别,确定用户正在参与的电视节目,但这种方法在实际应用过程中很难有好的效果。 根据实验,通常用户与电视的距离为2-3米或更远,在这样的距离条件下手机拍摄的电视画 面中的电视台台标和频道名称会非常小,拍摄光线差、拍摄视角造成的偏差也会导致拍摄画 面不清晰,这几种情况下采集的图像并不适合将其与服务器后台中的频道数据进行比对分 析,会导致识别的结果不准确,常常需要反复拍摄多次进行识别。

发明内容

本发明的目的在于,提供一种基于图像识别的电视节目识别方法和系统,能够提高图像 识别的准确率和效率,并且抗干扰能力强。

为解决上述技术问题,本发明采用如下的技术方案:一种基于图像识别的电视节目识别 方法,包括以下步骤:

S1,视频采集卡采集各电视频道的直播视频图像,提取各电视频道的视频图像特征值,并将 视频图像特征值发送到图像处理服务器;

S2,图像处理服务器实时建立并更新各电视频道的视频图像特征索引表,所述视频图像特征 索引表主要包含视频图像特征值与频道ID的对应关系,即采集的某张图像特征值属于哪个 频道的;

S3,移动终端拍摄当前电视频道的屏幕画面,提取屏幕画面的视频图像特征值,并发送图像 识别请求和视频图像特征值到图像处理服务器;

S4,图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特征索引表中的视 频图像特征值进行比对,确定当前电视频道的频道ID;

S5,移动终端根据当前电视频道的频道ID确定当前直播视频所属节目。

前述的基于图像识别的电视节目识别方法中,步骤S1和步骤S3中所述提取视频图像特 征值具体包括:

S11,利用深度图网格顶点的曲率值计算刚性变换不变性度量,并作为二维图像上的灰度 值,创建二维灰度图像;

S12,利用SIFT算法对二维灰度图像进行特征点检测与匹配,通过映射关系建立多视图上的 特征点及匹配关系。

前述的基于图像识别的电视节目识别方法中,步骤S3具体包括:

S31,判断移动终端是否有方向传感器,若有,则转至步骤S32;若没有,则转至步骤 S33;

S32,判断移动终端是否有被举起动作,若有,则转至步骤S33;若没有,则重复步骤 S32,直到检测到移动终端被举起动作为止;

S33,摄像头开始对焦,待对焦完成,获取当前电视频道的视频图像,并提取视频图像特征 值;

S34,发送图像识别请求和视频图像特征值数据到图像处理服务器。

前述的基于图像识别的电视节目识别方法中,图像处理服务器有一个图像识别线程池, 线程池中有多个功能相同的线程,称为图像识别线程;每个图像识别线程在一段时间内(比 如200ms,该时间取决于图像处理服务器CPU的处理能力,CPU能力越强需要的时间越 短)处理一个图像识别请求。当图像处理服务器接收到多个用户并发的图像识别请求时,先 进行调度控制,再进行图像识别,所述调度控制具体为:图像处理服务器内的调度控制算法 将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中;监测请求队列和图像识 别线程池,若发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状态为空闲 的图像识别线程时,则将请求时间最早的图像识别请求分配给状态为空闲的图像识别线程, 从请求队列中移除此请求,将此图像识别线程的状态改为忙;一旦图像识别线程处理完请求 后将立即回到图像识别线程池,并把状态改为“空闲”,等待调度控制算法分配新的图像识 别请求。

前述的基于图像识别的电视节目识别方法中,步骤S4具体包括:

S41,根据视频图像特征索引表进行图像粗配,在索引表中选出最有可能配准的8~12条候 选视频图像特征值;

S42,根据选出的候选视频图像特征值进行图像精配,选出完全匹配的视频图像特征值;

S43,根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的频道ID, 返回该频道ID到移动终端。

优选的,所述步骤S41中,根据视频图像特征索引表进行图像粗配,在索引表中选出最 有可能配准的10条候选视频图像特征值。

前述的基于图像识别的电视节目识别方法中,步骤S5具体为:移动终端根据图像处理 服务器返回的频道ID,确定当前发送的视频图像所属的频道,自动调用电视节目互动服务 器的电子节目菜单确定当前直播视频所属节目。

一种实现前述方法的基于图像识别的电视节目识别系统,包括:

图像采集服务器,用于通过视频采集卡采集各电视频道的直播视频图像,提取各电视频道的 视频图像特征值,并将视频图像特征值发送到图像处理服务器;

图像特征索引表模块,用于图像处理服务器实时建立并更新各电视频道的视频图像特征索引 表;

电视图像采集模块,用于移动终端拍摄当前电视频道的屏幕画面,提取屏幕画面的视频图像 特征值,并发送图像识别请求和视频图像特征值到图像处理服务器;

图像识别模块,用于图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特 征索引表中的视频图像特征值进行比对,确定当前电视频道的频道ID;

节目确定模块,用于移动终端根据当前电视频道的频道ID确定当前直播视频所属节目。

前述的基于图像识别的电视节目识别系统中,图像采集服务器包括:

视频卡采集模块,用于通过视频采集卡对各电视频道的直播节目视频流进行图像数据采集; 图像预处理模块,用于利用深度图网格顶点的曲率值计算刚性变换不变性度量,并作为二维 图像上的灰度值,创建二维灰度图像,再利用SIFT算法对二维灰度图像进行特征点检测与 匹配,通过映射关系建立多视图上的特征点及匹配关系。

前述的基于图像识别的电视节目识别系统中,电视图像采集模块包括:

方向传感器判断模块,用于判断移动终端是否有方向传感器,若有,则转至举起动作判断模 块;若没有,则转至图像特征值提取模块;

举起动作判断模块,用于判断移动终端是否有被举起动作,若有,则转至图像特征值提取模 块;若没有,则一直判断是否有被举起动作,直到检测到为止;

图像特征值提取模块,用于摄像头开始对焦,待对焦完成,获取视频图像,并提取视频图像 特征值;

图像识别请求模块,用于向图像处理服务器发送图像识别请求和视频图像特征值数据。

前述的基于图像识别的电视节目识别系统中,还包括识别请求控制模块,用于图像处理 服务器接收多个并发的图像识别请求并对其进行调度控制,启动图像识别模块;所述识别请 求控制模块包括:

队列建立模块,用于将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中;

监测模块,用于监测请求队列是否有未处理的图像识别请求,以及图像识别线程池中是否有 状态为空闲的图像识别线程;

请求分配模块,用于当发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状 态为空闲的图像识别线程时,将请求时间最早的图像识别请求分配给状态为空闲的图像识别 线程,从请求队列中移除此请求,将此图像识别线程的状态改为忙。

前述的基于图像识别的电视节目识别系统中,图像识别模块包括:

粗配模块,用于根据视频图像特征索引表进行图像粗配,在索引表中选出最有可能配准的 8~12条候选视频图像特征值;

精配模块,用于根据选出的候选视频图像特征值进行图像精配,选出完全匹配的视频图像特 征值;

对比模块,用于根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的 频道ID,返回该频道ID到移动终端。

前述的基于图像识别的电视节目识别系统中,所述节目确定模块,用于移动终端根据图 像处理服务器返回的频道ID,确定当前发送的视频图像所属的频道,自动调用电视节目互 动服务器的电子节目菜单确定当前直播视频所属节目。

与现有技术相比,本发明应用于数字化电视领域,通过视频卡实时采集电视直播节目视 频图像,运用局部图像特征描述及匹配技术对图像进行识别,并与用户移动终端发送的节目 图像进行比对,来识别用户正在观看哪个频道的哪个电视节目。

本发明没有使用电视台台标或频道名称进行图像比对,而是将移动终端拍摄的整幅图像 与索引表中的整幅图像进行对比,因此能够抵抗以下干扰因素:1)拍摄距离远而造成的图 像小;2)拍摄时光线差造成的图像明暗度问题;3)拍摄视角造成的图像偏差;抗干扰能力 强。

在图像比对过程中,采用“粗配”和“精配”两个阶段,“粗配”耗时少,从大量后台 服务器采集到的各个电视频道的图像中迅速筛选出很少一部分与移动终端发送过来的图像相 似的图像,作为候选图像;粗配完成后,将进行耗时较多的精配,精配即把移动终端发送来 的图像与粗选出来的多个候选图像一一进行精细的比对,这样可以大大提高算法运行的速 度。在比对过程中,考虑到一张电视画面图像不一定能确保服务器比对成功,为此在预先设 定的时间段内(即用户能容忍等待的时间段内),如果一次比对不成功,移动终端还会接着 发第二张电视画面图像给服务器用于比对,由此提高了算法的强壮性,使得比对成功的概率 大大提高。假设有100个频道,对于每个频道,图像采集服务器每秒采集8帧图像,在1秒 内系统将采集800帧图像。对于移动终端发来的一个图像识别请求,考虑两个延时因素:第 一个延时是电视信号与图像采集服务器的电视信号之间可能有延时;第二个延时是移动终端 发送拍摄图像到图像处理服务器过程中的网络传输延时(必然因素)。为了提高图像比对成 功率,图像处理服务器必须将移动终端发来的图像与服务器中某一段时间内的所有图像进行 比对,假设取时间段为60秒(根据以往的实验,对于国内的电视及网络状况,延迟产生的 时间段可能在5~70秒),这就意味着图像处理服务器在图像识别时需要将一张拍摄图像与 服务器中的48000张图像进行比对,而对于目前市场流行的服务器而言,这样的比对通常需 要消耗至少几十分钟甚至更长时间。而采用本发明后,从拍摄视频图像到获得确定的频道 ID一般仅需要2~5秒,因此通过这样一个从粗到精的图像比对过程,既保证了系统的执行 速度,又保证系统的选取准确率。

本发明是一种除传统的热线电话、短信参与等方式外的电视节目非现场互动参与方式, 它极大改善用户的电视互动参与体验。用户可以借助身边的移动终端的摄像设备,发送实时 直播视频图像,在服务后台通过图像识别,判断用户正在参与该节目,并且推送互动参与内 容,非现场实时地参与电视节目互动,拓展电视节目的有趣性和参与感,提高电视节目收视 率,使其作为用户与电视节目互动的一种现实和有效的实现途径,可以建立一个统一的电视 节目互动平台,实现与传统的电视节目对接,具有巨大的市场价值。

附图说明

图1是本发明实施例1的方法流程图;

图2是本发明实施例1的电视图像采集流程图;

图3是本发明实施例1的移动终端图像识别请求流程图;

图4是本发明实施例1的图像识别流程图;

图5是本发明实施例2的系统结构示意图;

图6是本发明实施例2的电视图像采集模块的结构示意图;

图7是本发明实施例2的识别请求控制模块的结构示意图;

图8是本发明实施例2的图像识别模块的结构示意图。

下面结合附图和具体实施方式对本发明作进一步的说明。

具体实施方式

本发明实施例1:一种基于图像识别的电视节目识别方法,如图1所示,包括以下步 骤:

S1,通过视频采集卡对各电视频道的直播节目视频流进行每秒N帧的图像采集,提取各电视 频道的视频图像特征值,并将视频图像特征值发送到图像处理服务器(如图2所示);

S2,图像处理服务器实时建立并更新各电视频道的视频图像特征索引表;

S3,移动终端拍摄当前电视频道的屏幕画面,提取屏幕画面的视频图像特征值,并发送图像 识别请求和视频图像特征值到图像处理服务器;

S4,图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特征索引表中的视 频图像特征值进行比对,确定当前电视频道的频道ID;

S5,移动终端根据图像处理服务器返回的频道ID,确定当前发送的视频图像所属的频道, 自动调用电视节目互动服务器的电子节目菜单(EPG)确定当前直播视频所属节目。

所述步骤S1中N的取值根据实际需要而定,N越大则采集的图像越密集,对后续的频 道图像识别越有利,但N越大会消耗服务器越多的CPU和内存资源,也为频道图像识别带来 更大的代价,因此在实际应用中,必须综合考虑可接受的频道识别成功率和硬件代价这两个 因素,寻找一个折中的取值。假设视频的帧率为每秒25帧,则N可以取1和25之间的任一 整数。

所述步骤S1和步骤S3中所述提取视频图像特征值具体包括:

S11,利用深度图网格顶点的曲率值计算刚性变换不变性度量,并作为二维图像上的灰度 值,创建二维灰度图像;

S12,利用SIFT算法对二维灰度图像进行特征点检测与匹配,通过映射关系建立多视图上的 特征点及匹配关系。

所述步骤S2中,索引表的更新时间与视频采集卡采集直播节目图像的时间是一致的, 也是每秒N帧。

如图3所示,所述步骤S3具体包括:

S31,判断移动终端是否有方向传感器,若有,则转至步骤S32;若没有,则转至步骤 S33;

S32,判断移动终端是否有被举起动作,若有,则转至步骤S33;若没有,则重复步骤 S32,直到检测到移动终端被举起动作为止;

S33,摄像头开始对焦,待对焦完成,获取当前电视频道的视频图像,并提取视频图像特征 值;

S34,发送图像识别请求和视频图像特征值数据到图像处理服务器。

所述步骤S32中,移动终端是否有被举起动作可通过移动终端中的重力传感器辅助判 断,即:读取重力传感器x轴、y轴、z轴三个方向的数据,通过这三个数据来判断是否被 举起。

图像处理服务器有一个图像识别线程池,线程池中有多个功能相同的线程,称为图像识 别线程;每个图像识别线程在一段时间内(比如200ms,该时间取决于图像处理服务器CPU 的处理能力,CPU能力越强需要的时间越短)处理一个图像识别请求。当图像处理服务器 接收到多个用户并发的图像识别请求时,先进行调度控制,再进行图像识别。所述调度控制 具体为:图像处理服务器内的调度控制算法将多个用户并发图像识别请求按请求时间顺序放 入一个请求队列中;监测请求队列和图像识别线程池,若发现请求队列中有未处理的图像识 别请求并且图像识别线程池中有状态为空闲的图像识别线程时,则将请求时间最早的图像识 别请求分配给状态为空闲的图像识别线程,从请求队列中移除此请求,将此图像识别线程的 状态改为忙;一旦图像识别线程处理完请求后将立即回到图像识别线程池,并把状态改为 “空闲”,等待调度控制算法分配新的图像识别请求。

如图4所示,经过图像识别请求调度控制处理后,启动图像识别模块,所述步骤S4具 体包括:

S41,根据视频图像特征索引表进行图像粗配,在索引表中选出最有可能配准的8、9、10、 11或12(优选是10条)条候选视频图像特征值;

S42,根据选出的候选视频图像特征值进行图像精配,选出完全匹配的视频图像特征值;

S43,根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的频道ID, 返回该频道ID到移动终端。

所述步骤S41中,图像粗配是为了快速查找视频图像特征索引表中的相似图像集,通过 将局部视觉特征集合转化为视觉词汇,建立树形结构的分层聚类模型,利用分频词汇关键词 检索技术的特点,将视觉特征转化为视觉词汇,在匹配过程中无需遍历所有节点,大大减少 了查询时间,提升了系统性能。

所述步骤S42中,图像精配是利用局部特征精确匹配相似图像集,确定最终匹配结果, 即:通过两两比较局部特征点集合,计算所有视觉特征的相似度并对其进行几何校验,获取 相似度最高的图像,并输出结果。

本发明实施例2:一种实现实施例1的基于图像识别的电视节目识别系统,如图5所 示,包括:

图像采集服务器,用于通过视频采集卡采集各电视频道的直播视频图像,提取各电视频道的 视频图像特征值,并将视频图像特征值发送到图像处理服务器;

图像特征索引表模块,用于图像处理服务器实时建立并更新各电视频道的视频图像特征索引 表;

电视图像采集模块,用于移动终端拍摄当前电视频道的屏幕画面,提取屏幕画面的视频图像 特征值,并发送图像识别请求和视频图像特征值到图像处理服务器;

图像识别模块,用于图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特 征索引表中的视频图像特征值进行比对,确定当前电视频道的频道ID;

节目确定模块,用于终端根据图像处理服务器返回的频道ID,确定当前发送的视频图像所 属的频道,自动调用电视节目互动服务器的电子节目菜单确定当前直播视频所属节目。

所述图像采集服务器包括:

视频卡采集模块,用于通过视频采集卡对各电视频道的直播节目视频流进行图像数据采集; 图像预处理模块,用于利用深度图网格顶点的曲率值计算刚性变换不变性度量,并作为二维 图像上的灰度值,创建二维灰度图像,再利用SIFT算法对二维灰度图像进行特征点检测与 匹配,通过映射关系建立多视图上的特征点及匹配关系。

如图6所示,所述电视图像采集模块包括:

方向传感器判断模块,用于判断移动终端是否有方向传感器,若有,则转至举起动作判断模 块;若没有,则转至图像特征值提取模块;

举起动作判断模块,用于判断移动终端是否有被举起动作,若有,则转至图像特征值提取模 块;若没有,则一直判断是否有被举起动作,直到检测到为止;

图像特征值提取模块,用于摄像头开始对焦,待对焦完成,获取视频图像,并提取视频图像 特征值;

图像识别请求模块,用于向图像处理服务器发送图像识别请求和视频图像特征值数据。

系统还包括识别请求控制模块,用于图像处理服务器接收多个并发的图像识别请求并对 其进行调度控制,启动图像识别模块;如图7所示,所述识别请求控制模块包括:

队列建立模块,用于将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中;

监测模块,用于监测请求队列是否有未处理的图像识别请求,以及图像识别线程池中是否有 状态为空闲的图像识别线程;

请求分配模块,用于当发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状 态为空闲的图像识别线程时,将请求时间最早的图像识别请求分配给状态为空闲的图像识别 线程,从请求队列中移除此请求,将此图像识别线程的状态改为忙。

如图8所示,所述图像识别模块包括:

粗配模块,用于根据视频图像特征索引表进行图像粗配,在索引表中选出最有可能配准的 8~12条候选视频图像特征值;

精配模块,用于根据选出的候选视频图像特征值进行图像精配,选出完全匹配的视频图像特 征值;

对比模块,用于根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的 频道ID,返回该频道ID到移动终端。

其中,该系统的网络架构中还涉及到了以下设备:

(1)图像采集服务器

主要负责从视频采集卡采集图像,同时对采集的图像进行预处理,提取图像特征并发送 给图像处理服务器。

(2)图像处理服务器

图像处理服务器包括两部分:应用服务器和识别服务器。应用服务器负责接收来自移动 终端的图像识别请求,解析请求并转发给识别服务器,并接收频道识别结果最终返回给手机 用户;识别服务器负责处理来自用户发起的频道识别请求并把结果返回给应用服务器。

(3)移动终端

移动设备客户端应用主要包括互动参模块和电视图像采集模块。互动参与模块主要提供 用户与电视节目互动功能,诸如投票功能,评论和抽奖等。电视图像采集模块主要提供通过 手机摄像头实时拍摄电视节目视频图像,抽取图像局部特征值,并且向图像处理服务器发送 图像识别请求;并且把图像处理服务器识别的结果告诉互动参与模块。

(4)电视节目互动内容服务器

提供一个电视节目互动内容平台,为手机电视节目互动应用提供内容和配置服务。

通过此系统网络架构,实现了用户通过移动终端应用与电视的节目实时互动。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号