首页> 中国专利> 一种基于场景结构分析的城市监控视频融合方法

一种基于场景结构分析的城市监控视频融合方法

摘要

本发明提供一种基于场景结构分析的城市监控视频融合方法,针对固定摄像头进行的配准过程,包括首先进行监控场景结构分析过程,然后基于场景结构特征分析结果,寻找三维模型纹理与实时视频场景中典型结构的匹配关系和摄像头内外参数,确定相应图像配准信息,实现固定摄像机实时监控视频的融合显示;针对可控摄像头进行的配准过程,包括建立动态全景索引图并记录配准参考点信息,在实时匹配过程中根据动态全景索引图快速查找配准参考点,获取正确的配准信息,从而实现可控摄像机实时监控视频的融合显示。本发明通过场景结构保证视频配准融合的准确性和鲁棒性;同时通过动态全景图快速找到配准参考点,实现实时监控视频的融合。

著录项

  • 公开/公告号CN105516654A

    专利类型发明专利

  • 公开/公告日2016-04-20

    原文格式PDF

  • 申请/专利权人 华中师范大学;

    申请/专利号CN201510833248.0

  • 发明设计人 赵刚;

    申请日2015-11-25

  • 分类号H04N7/18(20060101);G06T17/00(20060101);G06T7/00(20060101);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人严彦

  • 地址 430079 湖北省武汉市洪山区珞瑜路152号

  • 入库时间 2023-12-18 15:42:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-26

    授权

    授权

  • 2016-05-18

    实质审查的生效 IPC(主分类):H04N7/18 申请日:20151125

    实质审查的生效

  • 2016-04-20

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉及增强现实技术领域,尤其是一种基于场景结构分析的城市监控 视频融合方法。

背景技术

随着社会对安全需求的日益重视和提高,视频监控在现实生活中的应用越来越广,作用 也越来越大。目前传统视频监控系统采用在多个屏幕(电视墙)上显示监控视频流,由于缺 乏摄像头位置信息的直观显示,监视人员无法及时将众多屏幕上显示的监控图像进行内容和 位置的关联分析和判断。

基于增强虚拟环境(AugmentedVirtualEnvironment,AVE)的三维全景监控技术,能够将 实时监控视频与监控区域三维虚拟模型进行配准融合,形成较单个摄像头视域广得多的大场 景监控画面,并提供监控位置感知和定位功能,对监控区域的宏观态势感知和展示具有重要 意义。基于AVE的视频监控技术的核心在于监控视频实时融合问题,即如何快速、高效、 准确地实现监控视频与监控区域三维模型的精确融合。然而,在城市户外复杂监控场景下, 由于光照、遮挡、图像质量等环境因素,监控视频的实时融合与配准算法的准确性和鲁棒性 尚无法得到有效保证;另一方面,摄像机的运动姿态可能变化,此时视频融合系统应实时提 供最佳虚拟视角的视频融合画面。但由于视频配准算法的计算量大,视频融合算法的实时性 问题也成为亟需解决的主要问题。在实际的视频监控应用中,监控场景往往是复杂和多变的, AVE系统的发展和应用受到了严重制约。

针对固定摄像机监控视频实时融合问题,目前主要有基于图像特征匹配的视频配准与融 合方法和基于能量反馈的视频配准方法两大类。基于图像特征匹配的方法被广泛应用于现有 的各种商业系统中,如GoogleEarth、微软虚拟地球等。主要是将摄像机拍摄的2D图像能够 以纹理的形式映射到三维模型中的对应位置。基于摄像机标定和能量反馈的视频配准方法通 过人工指定视频和模型之间的点线对应关系,利用射影几何知识自动求解摄像机内外参数, 再将这些内参数和外参数关联到模型中的虚拟摄像机上,从而实现固定摄像机的视频投影。 目前存在的主要问题是对摄像机的安装位置和角度条件过于苛刻,尤其是在城市室外复杂监 控环境,结果容易受到光照和背景的影响,在实际应用中缺乏鲁棒性,摄像头标定的工作量 也相当可观。

对于可控摄像机,摄像机运动姿态的变化要求视频融合方法能够进行动态配准,一类方 法是根据摄像机姿态估计结果,将模型中的多边形平面投影到视频帧中,形成局部边缘增强 的图像,并计算图像的方向能量,选择方向能量最小的姿态估计为可控摄像机的最佳姿态估 计,并进而实现可控摄像机的视频投影;另外一种是基于全景图匹配的视频实时准算法,其 主要思路是首先创建一组不同焦距模式下的全景图,通过手工方式选择2D点、线特征并标 记其在3D模型中的对应位置,计算全景图与三维模型的配准关系。在摄像机姿态发生变化 时,通过图像特征匹配的方式,寻找实时图像与全景图的最佳匹配,进而完成配准工作。现 有方法主要问题是实时融合中需要进行大量特征提取和匹配运算,具有较大的处理时延,实 时性要求无法满足。

综上所述,现有研究尚无法完全满足城市户外复杂监控场景下,光照、遮挡、图像质量 对监控视频的实时融合要求,准确性、鲁棒性和实时性亟缺乏保证。

发明内容

为了克服现有技术的不足,有效保证城市户外复杂监控场景下监控视频融合的准确性、 鲁棒性和实时性,本发明提出了一种基于场景结构分析的城市监控视频融合方法,通过场景 结构分析和动态全景图索引解决固定摄像机和可控摄像机的视频融合问题。

本发明的技术方案提供一种基于场景结构分析的城市监控视频融合方法,根据摄像头类 型进行相应配准过程,摄像头类型包括固定摄像头和可控摄像头,

所述固定摄像头的位置和焦距都固定,针对固定摄像头进行的配准过程,包括首先进行 监控场景结构分析过程,然后基于场景结构特征分析结果,寻找三维模型纹理与实时视频场 景中典型结构的匹配关系和摄像头内外参数,确定相应图像配准信息,实现固定摄像机实时 监控视频的融合显示;

其中,

所述监控场景结构分析过程包括以下步骤,

步骤1.1,场景视觉修正,包括采用视频曝光度校正和视频颜色校正方法,对三维模型纹 理图像和实时视频图像分别进行视觉修正;

步骤1.2,低层场景结构特征提取与修补,包括对三维模型纹理图像和实时视频图像,分 别基于特征检测方法和图像变换方法初步提取低层场景结构特征,通过特征聚类与合并处理, 修补和优化低层场景结构特征信息;所谓低层结构特征为简单结构特征,包括点、线或面;

步骤1.3,场景分类信息提取,包括针对实际监控视频场景,查询预先建立的城市典型监 控场景结构分析数据库,获取场景分类相关信息,包括当前监控场景所属的场景类别,以及 该类别场景所包含的典型场景结构;

步骤1.4,高层场景结构特征提取,包括对三维模型纹理图像和实时视频图像,分别结合 场景分类相关信息,确定当前监控场景应该提取的高层场景结构特征信息,提取相应的高层 场景结构特征,并通过位置关联性分析,建立低层结构特征与高层结构特征的从属与关联关 系;所谓高层结构特征指组成监控场景的场景结构元素,包括宏观物体或建筑;

所述寻找三维模型纹理与实时视频场景中典型结构的匹配关系和摄像头内外参数,确定相应 图像配准信息,实现方式如下,

步骤2.1,关键场景结构选择,包括对三维模型纹理图像和实时视频图像,分别从场景结 构特征分析结构中选择在监控场景中占主体部分的高层场景结构作为候选关键场景结构;

步骤2.2,场景结构匹配,包括对三维模型纹理图像和实时视频图像,分别从候选关键场 景结构中选择若干低层场景结构,根据2D-3D坐标配对信息,计算出若干投影矩阵和畸变参 数实现投影参数估计,并对多组参数进行加权平均实现投影参数加权与优化,形成相应图像 配准信息;

所述可控摄像头的位置和焦距能够调整,可控摄像头的位置调整为水平转动或垂直转动, 针对可控摄像头进行的配准过程,包括建立动态全景索引图并记录配准参考点信息,在实时 匹配过程中根据动态全景索引图快速查找配准参考点,获取正确的配准信息,从而实现可控 摄像机实时监控视频的融合显示;

其中,

所述构建动态全景索引图实现方式为,对摄像头水平/垂直范围等分为n个区间,获得n+1个 摄像头可能所处的水平/垂直位置sj,j∈{0,1,2...,n};对摄像头的水平/垂直转动速度等分为m 个区间,获得m+1个摄像头水平/垂直转动速度vi,i∈{0,1,2...m};对摄像头变焦范围进行r 等分,获得r+1个可能的摄像头焦距fl,l∈{0,1,2...,r};进行以下步骤,

1)初始化l=0,i=0,驱动可控摄像机从各起始位置sj分别转动到最大运动范围, j∈{0,1,2...,n},在各转动过程中分别进行以下操作,

记录经过每一个参考位置sk时的时间t和实时视频图像,k∈{j+1,j+2...,n},然后运用对固 定摄像头进行的配准过程,计算每一个参考位置sk时的图像配准信息,形成全过程的配准参 考点信息(sj→sk,tk,vi,fl,camParamk,Pick),其中tk表示摄像头以水平/垂直转动角速度从位 置sj到达位置sk所需的时间,camParamk表示此位置sk的图像配准信息,Pick则表示此时的 实时视频图像信息;最后将所有配准参考点对应的视频图像按照顺序进行拼接,构成一幅全 景图;

2)判断是否l=r,若否则令i=i+1,采用下一速度vi,返回步骤1),若是则记录下可 控摄像头在不同运动速度下的配准参考点信息及构建的全景图,进入3);

3)判断是否i=m,若否则令l=l+1,采用下一焦距fl,返回步骤1)、2),是则记录 下可控摄像头不同焦距模式下的动态配准参考点信息及相应的全景图,从而得到焦距fl和水 平/垂直转动速度v为索引的动态全景索引图。

而且,所述在实时匹配过程中根据动态全景索引图快速查找配准参考点,获取正确的配 准信息,实现方式如下,

在摄像头尚未运动前,获取当前摄像头焦距fl,将t=t0时摄像头的实时视频图像在焦距 为fl的全景图中进行匹配,找出当前摄像头起始位置sj

当摄像头开始运动后,通过摄像头运动参数提取获得摄像头当前转动速度vi和方向,并 开始计时,记为t;所述方向为水平转动或垂直转动,

在当前时间t=tk时,以(sj→sk,vi,fl)作为参数在相应方向的动态全景索引图中进行查找,包 括对t=tk时摄像头的实时视频图像进行降噪预处理后,基于实时图像特征提取结构在动态全 景索引图中寻找匹配的子图,获取相应的配准参考点信息(sj→sk,tk,vi,fl,camParamk,Pick); 将t=tk时摄像头的实时视频图像与(sj→sk,tk,vi,fl,camParamk,Pick)和 (sj→sk+1,tk+1,vi,fl,camParamk+1,Pick+1)两个位置的子图分别进行匹配,匹配度高的位置相应 的配准信息则作为正确的最终配准信息。

本发明利用场景结构分析解决传统配准方法中过于依赖图像特征匹配的准确性问题,通 过场景结构之间更加精确的约束关系,来保证视频配准和融合的准确性和鲁棒性;同时通过 在动态全景图中快速找到配准参考点,大量减少了实时匹配过程中进行特征提取和匹配的计 算量,从而实现可控摄像机实时监控视频的融合。

本发明可以广泛用于城市安防监控甚至军事指挥调度、军事基地防卫、战场环境增强等 相关领域,对于促进视频监控产业及相关公共安全产业发展,具有重要的理论价值、经济价 值和社会意义。

附图说明

图1是本发明实施例的总体处理原理图。

图2是本发明实施例的场景结构特征提取处理流程图。

图3是本发明实施例的固定摄像机配准与融合处理流程图。

图4是本发明实施例的可控摄像机配准与融合处理流程图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

针对现有方法在实际应用中的各种不足,本发明提供了一种基于场景结构分析的城市监 控视频融合方法,该方法包括城市复杂监控场景分析与结构特征提取、基于场景结构约束的 固定摄像机视频融合与优化算法、基于动态全景图索引的可控摄像机快速配准与融合三个部 分。

本发明的原理为:选取具有代表性的多种城市视频监控场景,获取不同光照条件和遮挡 情况下的实时图像,自动检测三维模型的典型场景结构和实时视频中的场景结构,并对场景 结构特征信息进行聚类和优化,提取有用的场景不变结构特征,为视频融合与配准提供依据; 基于场景结构特征分析结果,寻找三维模型纹理与实时视频场景中典型结构的匹配关系,在 不对摄像头进行额外标定操作的情况下,提取摄像头内外参数和图像特征,解决固定摄像头 监控视频与三维模型的配准问题;模拟可控摄像机的运动过程,建立一系列不同运动模式下 的全过程动态配准参考点,形成多幅动态全景索引图,利用可控摄像机的云台参数信息,并 以此为基础在实时匹配过程中获取可控摄像头运动参数和位置,在动态全景索引图中进行快 速查找配准参考点,获取正确的配准信息,从而实现可控摄像机实时监控视频的融合显示。 根据摄像头类型进行相应配准过程,摄像头类型包括固定摄像头和可控摄像头,

本发明实施例提供的一种基于场景结构分析的城市监控视频融合方法,根据摄像头类型 进行相应配准过程,摄像头类型包括固定摄像头和可控摄像头,

所述固定摄像头的位置和焦距都固定,针对固定摄像头进行的配准过程,包括首先进行 监控场景结构分析过程,然后基于场景结构特征分析结果,寻找三维模型纹理与实时视频场 景中典型结构的匹配关系和摄像头内外参数,确定相应图像配准信息,实现固定摄像机实时 监控视频的融合显示;

所述可控摄像头的位置和焦距能够调整,可控摄像头的位置调整为水平转动或垂直转动, 针对可控摄像头进行的配准过程,包括建立动态全景索引图并记录配准参考点信息,在实时 匹配过程中根据动态全景索引图快速查找配准参考点,获取正确的配准信息,从而实现可控 摄像机实时监控视频的融合显示。

如图1所示,实施例涉及监控系统既有固定摄像头,也有可控摄像头,可以首先进行固 定摄像头所需的监控场景结构分析。实施例所提供的流程包括以下步骤:

步骤1,监控场景结构分析:选取具有代表性的多种城市视频监控场景,获取不同光照 条件和遮挡情况下的实时图像,自动检测三维模型的典型场景结构和实时视频中的场景结构, 提取有用的场景不变结构特征;

进行步骤1前,可以预先构建常见的城市典型监控场景结构分析数据库,用于分类存储 常见的城市监控场景以及该类场景所包含的典型场景结构(建筑物、道路、标志杆),为后 续获取场景分类相关信息,提取监控视频中典型场景结构奠定基础。

常见的城市监控场景可以分为室内场景和室外场景。考虑到城市视频监控的特点和业务 需求,监控点的选择往往以满足实际业务应用为目标,因此,室外监控场景主要包括广场(如 大型活动广场、站前广场、公园广场)、交通道路(如主干道、街道、偏远小巷)、单位入 口、城市道路路口;室内场景主要包括房间、建筑物内楼道、出入口等。实际实施案例时可 以大量采集和上述各种监控地点的监控视频场景画面,并按照上述分类规则(也可以是其他 分类规则)进行分类存储,构建城市典型监控场景分析基础数据库;然后针对此数据库中采 集到的每一个场景进行场景分析,获取此一场景的场景结构组成及其分布特点,并进行相应 的元数据描述,具体实施时,可由用户辅助进行分析,提高效率;在此基础上,归纳和总结 出各类典型监控场景的场景结构组成的共同特性。

如对于道路路口监控场景,一般都会包含地面上的交通标志线、红绿灯标杆等场景结构 元素,而对于城市道路监控场景,一般都可以发现行道树、机动车道分界线、人行道路沿等 典型场景结构元素。将上述分析场景分析结果与对应的场景分类结合起来,构建出城市典型 监控场景结构分析数据库,可以为步骤1中场景结构特征提取提供参考,即可以指明某一监 控场景应该重点分析和提取的关键场景结构。

步骤1的主要目的就是要自动检测三维模型的典型场景结构和实时监控视频中的场景结 构,提取有用的场景典型结构特征。但由于监控视频画面尤其是户外监控视频画面容易受到 光照、噪声、图像采集质量等因素的影响,将极大降低结构特征提取的准确性和可靠性。考 虑到上述问题,因此,步骤1的实施应至少包含场景视觉修正、场景分类信息提取、低层场 景结构特征提取与修补、高层场景结构特征提取等关键部分,实施例的具体实现如图2所示:

步骤1.1,场景视觉修正,采用视频曝光度校正和视频颜色校正方法对三维模型纹理图像 和实时视频图像分别进行视觉修正。

所述监控场景视觉校正,包含曝光度校正和视频颜色校正两个部分。考虑到三维模型纹 理图像一般只是拍摄一次获得的,而实时监控视频图像的曝光度和颜色变化比较大,因此可 以考虑先对三维模型纹理图像进行相应的校正,然后以校正后的纹理图像作为参考图像,采 用自动校正方法对实时监控视频图像进行相应的校正。

以视频曝光度校正为例,可以先采用公式1和公式2所示的常用视频曝光度人工校正算 法,本领域技术人员自行调整ΔS,在得到需要的效果后,最后反变换调整亮度I,也可以采 用其他视频曝光度调整函数,对三维模型纹理图像的每个像素点的曝光度进行校正。

S'=S+ΔS公式1

I=f(S)=2551+e-AS公式2

其中,I表示图像亮度,S表示原始图像曝光度,ΔS表示曝光度调节值,S'表示调节后 曝光度,A表示图像对比度,e表示数学常量。

然后,以上述校正后的三维模型纹理图像作为参考图像,以实时监控视频作为被校正图 像,可以采用以下自动视觉曝光度校正方法对实时监控视频图像进行相应的校正:

1)对参考视频图像和待校正视频图像分别进行颜色空间变换,由RGB颜色空间变换到 YCrCb颜色空间;

2)对参考视频图像和待校正视频图像分别进行亮度区域划分,从而获取各个区域的图像 的平均亮度值;

3)计算待校正图像的各个区域的曝光度调节因子其中 ΔSregion是待校正图像某一区域的曝光度调节因子,Ireg_cur为待校正图像该区域的亮度平均值, Ireg_ref为参考图像中对应区域的亮度平均值,ΔS为校正三维模型纹理图像时确定的曝光度调 节值;

4)根据上述区域曝光度调节因子,对待校正视频图像的各个区域的亮度,运用公式1和 2进行校正(将ΔSregion带入作为ΔS),从而得到亮度校正图像。

步骤1.2,低层场景结构特征提取与修补:对于三维模型纹理图像和实时视频图像,分别 基于特征检测方法和图像变换方法初步提取低层场景结构特征(点、线),通过特征聚类与 合并处理,修补和优化低层场景结构特征信息;

本发明中,所谓低层结构特征主要指易于提取的点、线、面等简单结构特征,所谓高层 结构特征指组成监控场景的宏观物体或建筑等场景结构元素;所述低层场景结构特征提取主 要是提取监控场景图像中的点、线等图像特征信息,在实施中可以采用常用的Surf特征提取 特征点信息,采用Hough变换提取线段图像特征信息。以线段提取为例,可以采用概率Hough 变换(PHT),即把图像平面上的点对应到参数平面上的线,最后通过统计特性来解决问题。 假如图像平面上有两条直线,那么最终在参数平面上就会看到两个峰值点,依此类推。

由于图像噪声的原因,一条原本完整连续的直线,在图像特征上表现出多个具有一点间 隔的直线片段。所以需要可以一定的策略对检测得到的直线进行提纯和优化。

步骤1.3,场景分类信息提取:针对实际监控视频场景,查询预先建立的城市典型监控场 景结构分析数据库,获取场景分类相关信息,即当前监控场景所属的场景类别,以及该类别 场景所包含的典型场景结构(建筑物、道路、标志杆等)。

步骤1.4,高层场景结构特征提取,包括对三维模型纹理图像和实时视频图像分别结合场 景分类相关信息,确定当前监控场景应该提取的高层场景结构特征信息,并提取相应的高层 场景结构特征;在此基础上,通过位置关联性分析,建立低层结构特征与高层结构特征的从 属与关联关系;

所述高层场景结构特征提取,主要是指提取监控场景中典型场景结构元素,如广场监控 场景中的灯杆、花圃,道路路口监控场景中的交通标志线、红绿灯标杆,道路监控场景中的 行道树、机动车道分界线、人行道路沿。具体需要提取何种高层场景结构特征,就需要查询 城市典型监控场景结构分析数据库,获取场景分类相关信息。如果已经确定当前处理的监控 场景是校园建筑物入口,则应该重点提取该栋建筑物以及周边的建筑物和设施等关键场景结 构元素。从三维模型纹理图像和实时监控视频图像提取高层场景结构特征可以采取以下步骤 进行:

1)由于需要提取的高层场景结构元素已经确定,所以可以采用基于主动轮廓(Snake)的图 像分割和目标提取方法将高层场景结构元素(如建筑物、灯杆、道路边沿)进行初步分割和 提取;基于主动轮廓(Snake)的图像分割和目标提取方法为现有技术,本发明不予赘述;

2)通过基于多结构元素的数学形态学方法将提取的高层场景结构元素进行优化,提高结 构元素提取的完整性;基于多结构元素的数学形态学方法为现有技术,本发明不予赘述;

在此基础上,将已经提取的低层结构特征(点、直线、曲线等)与高层场景结构(建筑物、 灯杆、花圃)进行位置和方向的比较和分析,从而确认相应的特征点、直线段或曲线段分别 从属于何种高层场景结构,一般通过比较坐标即可确定某低层结构特征是否属于某高层场景 结构的一部分。

步骤2,固定摄像头配准:基于场景结构特征分析结果,对三维模型纹理图像和实时视 频图像分别寻找三维模型纹理与实时视频场景中典型结构的匹配关系和摄像头内外参数,解 决固定摄像头监控视频与三维模型的配准问题,从而实现固定摄像机实时监控视频的融合显 示。

所述固定摄像头的位置和焦距都固定,具体流程实现详细说明如下:

步骤2的主要目的就是基于场景结构特征分析结果,寻找三维模型纹理与实时视频场景 中典型结构的匹配关系和摄像头内外参数,解决固定摄像头监控视频与三维模型的配准问题。 本发明中基于图像的场景结构分析结构,就是考虑到了场景结构具有较强的抗干扰性和独特 性。与图像的灰度信息、颜色信息相比,结构特征更能广泛地反映场景的基本信息,对光照、 视角变换具有较好的鲁棒性。因此,本发明进一步提出步骤2的实施应至少包含关键场景结 构选择、场景结构提取与配对两个部分,实施例的具体实现如图3所示:

步骤2.1,关键场景结构选择,包括对三维模型纹理图像和实时视频图像,分别从场景结 构特征分析结构中选择在监控场景中占主体部分高层场景结构作为候选关键场景结构;

所述关键场景结构选取主要是考虑到某一监控场景中提取到的高层场景结构可能有多 个,在实施的过程中就要首先结合到监控应用场景、场景结构比例和清晰度进行高层场景结 构重要性分析,在此基础上再选择一个主要的高层场景结构作为配准过程使用的场景结构。 比如道路监控场景中的往往有行道树、机动车道分界线、人行道路沿。具体实施时,本领域 技术人员可自行选择候选关键场景结构,也可以预先指定选择原则,例如如果实时监控画面 人行道路沿所占面积较大,就选择人行道路沿作为配准的主要参考场景结构,否则就应该选 取行道树或机动车道分界线。

步骤2.2,场景结构匹配:对三维模型纹理图像和实时视频图像,分别从候选关键场景结 构中选择若干低层场景结构,根据2D-3D坐标配对信息,计算出若干投影矩阵和畸变参数实 现投影参数估计,并对多组参数进行加权平均实现投影参数加权与优化,形成较为准确的配 准信息。

所谓选择若干低层场景结构,主要是考虑到实时视频图像和纹理图像会有多个低层场景 结构互相对应(比如多个直线段对应,每根对应的线段上都可以取若干个对应的2D-3D对应 点),一般4-5个点就可以算出来一组投影矩阵和畸变参数,每组都可能受到噪声影响,所 以可以加权(最简单的是平均)。所得配准信息包含摄像头的内外参数以及优化之后的投影 参数(投影矩阵和畸变参数)。

步骤3,可控摄像头配准:建立动态全景索引图及配准参考点信息,并以此为基础在实 时匹配过程中获取可控摄像头运动参数和位置,在动态全景索引图中进行快速查找配准参考 点,获取正确的配准信息,从而实现可控摄像机实时监控视频的融合显示。

步骤3主要解决监控摄像机运动过程中的视频配准和融合问题。针对基于静态全景图配 准方法在实时匹配过程中仍然需要进行大量的特征匹配和搜索计算,实时性无法保障的问题。 本发明提出了一种新的基于动态全景索引图的方法来减少实时匹配过程中的计算量,即预先 模拟可控摄像机的运动过程,建立一系列不同运动模式下的全过程动态配准参考点,形成多 幅动态全景索引图。因为对于某一特定可控摄像机,其可转角度、运动速度、焦距大小、变 焦速度等在不同时间运用时均不会发生较大变化,其运动过程和模式均是有限的,在进行实 时配准应用前可以通过实验的方法进行数据采集和建模。在实时匹配过程中,通过惯性轨迹 预测,可以快速找到配准参考点,然后配合少量的场景特征匹配计算,进一步修正和优化配 准信息,大量减少了实时匹配过程中进行特征提取和匹配的计算量,从而实现可控摄像机实 时视频的融合。因此,针对基于动态全景索引图的可控摄像机视频配准和融合方法应包括运 动模拟与模式提取、动态全景索引图构建、动态全景图参考点搜索、实时图像快速匹配与修 正等部分,如图4所示:

所述建立动态全景索引图及配准参考点信息的实现方式为:根据运动模拟与模式提取, 进行图像配准与动态全景图拼接。可控摄像机一般能够水平转动或垂直转动。首先获取可控 摄像机(或可控云台)的各项性能参数,包括变焦范围、水平转动范围和速度、垂直转动范 围和速度等。然后将上述参数范围进行等间隔划分,如对摄像头水平范围等分为n个区间, 则可获得n+1个摄像头可能所处的水平位置sj(j∈{0,1,2...,n}),类似的也可以对垂直转动范围 进行等分处理;然后对摄像头的水平转动速度等分为m个区间,则可获得m+1个摄像头水平 转动速度vi(i∈{0,1,2...m}),类似的也可以对垂直转动速度进行等分处理;对摄像头变焦范围 进行r等分,则可以获得r+1个可能的摄像头焦距fl(l∈{0,1,2...,r})。做好上述划分之后,就 可以大致将该摄像头的运动模式和状态进行形式化描述,即某一可控摄像头的运动模式可以 描述为(sj→sk,vi,fl),这一描述的含义是摄像头正从位置sj以水平转动角速度vi向位置sk转 动,并且此时摄像头的焦距为fl;当摄像头的运动模式为(sj→sj,0,fl),则表示摄像头在sj位 置静止不动,若vi为负数,则表示运动方向为当前方向相反。在构建全过程动态全景图时, 可以利用步骤1、2所述方法计算出摄像头在摄像头可能所处的水平位置sj(j∈{0,1,2...,n})和 可能的摄像头焦距fl(l∈{0,1,2...,r})下的图像配准信息。在作出上述定义和预处理后,即可通 过以下步骤构建全过程的动态全景图(以摄像头水平转动为例):

4)在摄像头焦距fl一定的情况下,在可控摄像机可选的水平转动速度范围内,可初始化 l=0,设置摄像机处于某一水平转动速度为vi,可初始化i=0,即第一次执行1)时速度设 为v0,驱动可控摄像机从起始位置sj(j∈{0,1,2...,n-1})分别转动到最大运动范围sn,在各转 动过程中分别进行以下操作:

记录经过每一个参考位置sk(k∈{j+1,j+2...,n})时的时间t和实时视频图像,然后运用固定摄 像机配准方法(如步骤1、2),计算这些参考位置时的图像配准信息(摄像头内、外参数信 息),形成由摄像头焦距fl、水平转动速度vi、运动时间t以及图像配准信息等组成的全过程 的配准参考点信息(sj→sk,tk,vi,fl,camParamk,Pick),k∈{j+1,j+2...,n},其中tk表示摄像 头以水平转动角速度从位置sj到达位置sk所需的时间,camParamk表示此位置sk的图像配准 信息,Pick则表示此时的实时视频图像信息;以参考位置sk为配准参考点,最后将所有配准 参考点对应的视频图像按照顺序进行拼接,构成一幅全景图。

具体实施时,为形成全面的索引,需要对以s0、s1、s2…sn-1分别为起始位置转动到最大 运动范围并记录全过程,可以采用以下子步骤实现,

1.1)初始化j=0;

1.2)驱动可控摄像机从起始位置sj转动到最大运动范围sm;在此过程中记录经过每一个参考 位置sj+1,sj+2,…sn时的时间t和实时视频图像,然后运用固定摄像机配准方法分别计算参考位 置sj+1,sj+2,…sn的图像配准信息,形成配准参考点信息(sj→sk,tk,vi,fl,camParamk,Pick), k∈{j+1,j+2...,n};将sj+1,sj+2,…sn对应的视频图像按照顺序进行拼接,构成一幅全景图;

1.3)判断是否j=n-1,若否令j=j+1,采用起始位置sj,返回步骤1.2),若是则拼接起 始位置为s0、s1、s2…sn-1分别相应的全景图,构成一幅更大的全景图,进入2);

5)判断是否对m+1个摄像头水平转动速度fl(l∈{0,1,2...,r})处理完毕,即判断当前是否 l=r,若否则改变可控摄像机水平转动速度v,令i=i+1,采用下一速度vi,返回重复步骤 1),若是则记录下可控摄像头在不同运动速度下的配准参考点信息及构建的若干幅全景图, 即基于每一个不同的摄像机转动速度得到一幅全景图,进入3);

6)判断是否对l+1个摄像头焦距vi(i∈{0,1,2...m})处理完毕,即判断当前是否i=m,若否 则改变可控摄像机焦距fl,令l=l+1,采用下一焦距fl,返回步骤1),重复步骤1)、2), 是则记录下可控摄像头不同焦距模式下的动态配准参考点信息及相应的全景图,从而得到以 焦距fl和水平转动速度v为索引的动态全景索引图,完成此流程。

构建好动态全景索引图及配准参考点信息后,在实时匹配过程中就可以此为基础,基于 运动参数提取,进行动态全景图参考点搜索,完成基于全景图图像的快速匹配与修正,从而 得到动态配准信息:结合实时的摄像头运动参数和位置,在动态全景索引图中进行快速查找 配准参考点,获取正确的配准信息,从而实现可控摄像机实时监控视频的融合显示,具体实 施时,本领域技术人员可自行设定匹配度计算方式,例如可以采用基于SURF特征的匹配方 法,按最近邻匹配规则进行计算。具体实现流程是:

1)在摄像头尚未运动前,获取当前摄像头焦距fl,将此时的实时视频图像在焦距为fl的 全景图中进行匹配,通过实时图像预处理对t=t0时摄像头的实时视频图像进行降噪预处理 后,基于实时图像特征提取获得的Surf特征数据在动态全景索引图中寻找匹配的子图,找出 当前摄像头起始位置sj

2)当摄像头开始运动后,通过摄像头运动参数提取获得摄像头当前转动速度vi和方向, 并开始计时,记为t;所述方向为水平转动或垂直转动;

3)当当前时间t=tk时,以(sj→sk,vi,fl)作为参数在相应方向的动态全景索引图中进行 查找,实际上,根据sj、tk和vi可得sk,因此可以直接通过参数(sj,tk,vi,fl)在动态全景索引 图中寻找匹配的子图,获取相应的配准参考点信息(sj→sk,tk,vi,fl,camParamk,Pick),并以 此配准信息作为候选配准信息;其中tk表示摄像头以水平转动角速度从位置sj到达位置sk所 需的时间,camParamk表示此位置的图像配准信息,Pick则表示此时的实时视频图像信息。

进一步地,考虑到云台精确度和相关扰动,实际匹配过程中摄像头的运动和动态全景索 引图构建时的运动模式可能不会完全相同,因此要对配准信息进行相应的修正。可以考虑通 过实时图像预处理对t=tk时摄像头的实时视频图像进行降噪预处理后,将基于实时图像特征 提取获得的Surf特征数据与(sj→sk,tk,vi,fl,camParamk,Pick)和 (sj→sk+1,tk+1,vi,fl,camParamk+1,Pick+1)两个位置的全景图图像分别进行匹配,匹配度高的位 置所代表的配准信息则作为最终配准信息。

具体实施时,在获取监控场景结构分析结果后,根据实际摄像头类型,可以灵活地选择 进行固定摄像头配准和可控摄像头配准。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技 术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不 会偏离本发明的精神或者超越所附权利要求书所定义的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号