法律状态公告日
法律状态信息
法律状态
2022-10-11
未缴年费专利权终止 IPC(主分类):G06K 9/00 专利号:ZL2017110304914 申请日:20171027 授权公告日:20200811
专利权的终止
2020-08-11
授权
授权
2018-04-17
实质审查的生效 IPC(主分类):G06K9/00 申请日:20171027
实质审查的生效
2018-03-23
公开
公开
技术领域
本发明涉及一种交通模式和异常行为的检测方法,特别涉及一种交通路口的视频监控的交通模式和异常行为的检测方法。
背景技术
随着机器视觉和数据挖掘技术的发展,自动发现视频监控数据中的有用信息成为可能。其中,从拥挤的人、车流交通路口场景的视频数据中发现有规律的交通模式或者反常的交通行为,成为一类还未完全解决的有重要研究价值和技术应用前景的问题。解决这类问题,往往存在如下几点挑战:1)在复杂和拥挤的交通场景下,现有的基于计算机视觉跟踪的方法性能往往较差;2)交通模式与视频中的底层的特征无关,它反应了视频中的高层的语义信息,而这些信息涉及到机器视觉中的高层视觉即视觉理解问题。底层视觉特征和高层视觉语意之间往往存在着巨大的语意鸿沟,这使得基于底层视觉特征检测的方法——目标检测、目标跟踪方法无法获取整个视频的上层语义信息。具体到交通路口的交通模式检测和异常交通行为检测的问题上,由于交叉路口存在密集的人流和车流,场景容易受到噪声、光照、天气变化和复杂背景信息等的影响,基于目标检测和目标运动轨迹聚类的方法性能往往较差。
为了克服上述方法的缺点,另一类直接利用视频的底层运动信息例如光流信息来获取视频场景中的“事件”或“活动”的方法逐渐流行起来。该类方法避免了对单个运动目标的跟踪,主要利用相邻的视频帧之间的丰富的局部运动信息——来自底层特征的位置和运动信息,再利用复杂的降维模型(例如主题模型)从高维的特征信息中提取有效的高层语义信息。常见的主题模型,例如PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)、HDP(Hierarchical Dirichlet Process)等最初用于文本语料库中的主题发现,后来也逐渐用于图像和视频等的分析任务。王晓刚等[1]提出了一种利用层次贝叶斯模型的非监督的学习框架为复杂和拥挤的视频场景中的“事件”和“行为模式”进行建模的方法。宋等[2]提出了一种两层LDA结构的交通模式挖掘方法,该方法可以发现交通路口视频场景中的简单交通模式和复杂交通模式以及检测异常交通行为。文献[3]利用FSTM(Fully Sparse Topic Model)来进行交通视频的异常检测。文献[4]提出了一种利用HDP和HDP-HMM分别来学习交通视频中的典型活动和交通状态信息,并利用高斯过程来对交通状态信息进行分类。MCTM(Markov Clustering Topic Model)利用LDA模型对交通视频帧的底层特征——视觉词进行建模和马尔可夫链来对相邻视频帧间的时间关系进行建模。该方法可以实现将交通视觉特征层次的聚类为局部的交通模式和全局的交通模式。WS-JTM(Weakly Supervised Joint Topic Model)是一种弱监督的联合主题模型。该模型在LDA模型的基础上,充分利用了不同视频文档的类别特征对典型的交通模式和异常的交通模式进行挖掘。另一类方法主要是基于非主题模型的方法。该类方法主要利用矩阵分解、稀疏字典学习等建模方法,对底层的视觉特征进行主题建模以获取典型和异常的交通模式。
上述两类交通视频交通模式挖掘方法中,基于概率主题模型的方法很难获得稀疏的交通模式即视频文档中主题不是稀疏分布的。此外,基于概率主题模型的方法模型的学习和推理方法较复杂,导致算法的运算过程复杂、计算量大。基于非概率主题模型的方法由于能充分利用视觉信息中的稀疏性而被广泛用于交通视频中的典型和异常交通模式的发现,但必须事先指定主题即交通模式的数量,缺乏一定的灵活性。针对这些问题,本发明提出了一种两层结构的交通模式分析方法,第一层利用BNBP-PFA(贝塔负二项过程——泊松因子分解)主题模型来提取主题即简单的交通模式,得到每个视频文档在主题(简单交通模式)上的分布情况,第二层BNBP-PFA主题模型在第一层获得的主题的基础上获得第二层的主题即视频中的复杂交通模式。和文献[2]的两层LDA模型相比,本发明提出的方法由于采用了BNBP-PFA主题模型,每一层都不需要预先指定主题的数量。此外和LDA模型相比,由于BNBP适合处理稀疏的计数型数据,而特别适合处理视频的运动特征数据;和HDP主题模型相比,BNBP具有更好的结构形式和计算上的灵活性。
发明的内容
本发明的主要目的是克服现有的交通模式和异常行为的检测方法的不足,提供了一种新的基于两层BNBP-PFA主题模型的交通模式和异常行为检测的方法。该方法利用两层的BNBP-PFA主题模型来同时实现检测交通视频中的简单交通模式和复杂交通模式,和现有的方法相比具有识别的模式更多、准确率更高,能自动学习模式的数量等优点,取得了比现有方法更好的检测效果;在此基础上提出了基于两层BNBP-PFA主题模型的对数似然函数值的异常行为检测方法,取得了比现有方法更好的检测效果。
本发明提出的方法,包括视频光流特征的提取和视频文档的生成、基于两层BNBP-PFA主题模型的简单交通模式和复杂交通模式检测、交通视频中异常行为的检测等技术问题。为了解决这些技术问题,本发明提供了一种交通路口视频监控的交通模式和异常行为的检测方法,所述方法包括以下步骤:
A1.将时长为T秒的长视频按照时间顺序划分为长度为Ts秒的短视频剪辑,每个视频剪辑作为一个视频文档,共得到N=T/Ts个视频文档;
A2.对每个视频文档,计算其每相邻两对视频帧的光流向量;
A3.对A2中所得的光流向量进行量化得到每个视频文档的每对视频帧的视频词;
A4.基于词袋模型,统计每个视频文档的视频词的计数向量,得到整个长视频所组成的视频文档集的文档——词计数矩阵M;
A5.对A4中得到的视频文档利用BNBP-PFA主题模型进行主题提取,得到主题-词的分布和文档-主题的分布,所得的主题就是视频中的简单交通模式;
A6.对A5中得到的主题作为新的词,将A5所得文档-主题分布作为新的文档,利用BNBP-PFA主题模型进行主题提取,得到第二层主题模型的主题-词的分布,所得的主题就是视频中的复杂交通模式;
A7.在A5和A6所得两层BNBP-PFA主题模型基础上,基于两层主题模型的对数似然函数值,检测视频帧中的异常行为。
上述步骤A2中的相邻两对帧的光流向量计算的过程具体包括:
A21.对相邻的两个连续视频帧Ix,Iy计算每个像素点(i,j)的光流信息向量(vx(i,j),vy(i,j));
A22.按照公式
上述步骤A3中的对光流向量进行量化得到视频词的过程具体包括:
A31.对光流的位置信息进行划分:将大小为Nx×Ny视频帧划分为N1×N1的像素块,总共得到
A32.光流强度和方向的量化:每个像素块包含N12个像素点,将这N12个像素点的平均光流值作为该像素块的光流向量
A33.按照上述量化方法,可以得到的视频文档集的词汇表的大小为
上述步骤A5具体包括:
假设A4中所得的文档计数矩阵为Mij∈RP×N,该计数矩阵包含N个文档的P个特征。按照公式
上述步骤A6具体包括:
将步骤A5中所得的主题φik当作步骤A6中的词,A6中的文档——词的分布θkj就看作是由A5中的主题组成的。按照公式
上述步骤A7具体包括:
A71.在整个视频文档集的文档——视觉词计数矩阵M上,随机选择80%的视频文档组成训练视频文档集X,剩下的20%的视频文档集组成测试集Y=M-X;
A72.在测试集Y上,按照公式
A73.按照公式
A74.计算视频帧ypi在两层BNBP-PFA主题模型上的加权似然函数值F=η·F1+(1-η)·F2,其中取参数η∈(0,1);
A75.将A74中计算得到的似然函数值F和给定的门限值Th1进行比较,如果有F<Th1,则视频帧ypi中包含有异常行为,否则没有。
本发明提供的实施例的有益效果:
本发明将主题模型应用于交通视频场景的理解和分析,发明了一种既能检测交通视频场景中的简单交通模式和复杂交通模式又能检测异常交通行为的方法。本发明的方法和现有方法相比其发现的交通模式更多、质量更高。此外,由于采用了非参数化的主题模型,本发明的方法不需要事先指定主题的数量,这在处理一些复杂的、未知的交通视频数据时非常有用。本发明所提出的方法可以应用于交通视频中交通模式的挖掘和异常交通行为的检测,对智慧交通以及交通视频监控等领域的发展具有重要意义。
附图说明
图1为本发明一种交通路口视频监控的交通模式和异常行为的检测方法具体实施例的流程图;
图2为本实施例中所用数据集的样例帧;
图3为本实施例中本发明方法在视频数据集中发现的第一层主题即简单交通模式;
图4为本实施例中LDA方法在视频数据集中发现的15个主题;
图5为本实施例中FTM方法在视频数据集中发现的15个主题;
图6为本实施例中HDP方法在视频数据集中发现的15个主题;
图7为本实施例中本发明方法在视频数据集中发现的第二层主题即复杂交通模式;
图8为本实施例中本发明的方法在视频数据集上检测到的4种异常交通行为;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式做进一步的详细描述。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
图1为本发明一种交通路口视频监控的交通模式和异常行为的检测方法具体实施例的流程图。如图1所示,本实施例交通模式和异常行为的检测方法的工作流程包括如下步骤:
A1:将时长为T秒的长视频按照时间顺序划分为长度为Ts秒的短视频剪辑,每个视频剪辑作为一个视频文档,共得到N1=T/Ts个视频文档。
在本步骤中,通过计算机下载QMUL Junction Dataset 2数据集公开的交通路口视频数据(http://www.eecs.qmul.ac.uk/~tmh/downloads.html)作为本发明的实施例的视频数据。该数据集包含一个时长为52分钟,帧率为25Hz,每帧大小为360×288像素的繁忙的城市交通路口视频。该数据集的样例帧如图2所示,包含6个运动模式如表1所示。该数据集共包含4种异常行为。该视频数据总长度为3120秒,其中取一个视频文档的长度为12秒视频(总共300视频帧),则共得到260个视频文档后,进入步骤A2。
表1 图2中QMUL Junction Dataset 2数据集中包含的可能的运动模式及其描述(分上、下、左、右四个方向)
A2:对每个视频文档,计算其每相邻两对视频帧的光流向量。
在本步骤中,对每个视频文档所包含的300个视频帧,从第二帧开始,按照时间先后顺序依次计算该帧Ix和相邻的前一帧Iy之间的在每个像素点(i,j)上的光流向量(vx(i,j),vy(i,j)),这里的光流计算采用标准的Lucas-Kanade光流计算方法。然后按照公式
A3:对A2中所得的光流向量(M(i,j),D(i,j))进行量化得到每个视频文档的每对视频帧的视频词。
在本步骤中,对光流的位置信息、强度和方向分别进行量化,具体包括三个子步骤:
1)将大小为360×288像素的视频帧划分为8×8的像素块,总共得到1620个像素块,用每个像素块中心点的坐标作为该块的坐标;
2)光流强度和方向的量化:将每个像素块包含的64个像素点的平均光流值作为该像素块的光流向量
3)按照上述量化方法,可以得到每个视频文档集的词汇表的大小为6480。
A4.基于词袋模型,统计每个视频文档的视频词的计数向量,得到整个视频数据集所组成的视频文档集的文档——词计数矩阵M260*6480;
A5.对A4中得到的视频文档矩阵M260*6480利用BNBP-PFA主题模型进行主题提取,得到主题-词的分布Φ和文档-主题的分布Θ,所得的主题就是视频中的简单交通模式;
上述步骤A5具体包括:
假设A4中所得的文档计数矩阵为Mij∈R6480×260,该计数矩阵包含260个文档的6480个特征。按照公式
1)记
2)按照下面的公式(1)采样得到mijk;
[mij1,…,mijK]~Mult(mij;ζij1,…,ζijK)(1)
3)利用泊松分布和多项式分布之间的关系,以及关系式
p(φk|-)~Dir(αφ+m1·k,…,αφ+mP·k)>
4)边缘化φk和θkj后,m·jk~NB(rk,pk),pk~Beta(cε,c(1-ε)),则pk可按下式(3)采样得到;
p(pk|-)~Beta(cε+m··k,c(1-ε)+Nrk)(3)
5)由于
可以得到K=15个主题分布矩阵Φ∈RP×K和K=15个主题在N=260个文档中的组成情况矩阵Θ∈RK×N,其中主题分布矩阵表示K=15个主题在P=6480个特征上的分布情况。所得的主题就是视频中的简单交通模式如图3所示,作为和本发明的方法所得实验结果的比对,图4-图6分别给出了LDA方法[4]、HDP方法[1]和FTM方法[3]在QMUL>
A6.对A5中得到的主题分布Φ作为新的词,将A5所得文档-主题分布Θ作为新的文档,利用BNBP-PFA主题模型进行主题提取,得到第二层主题模型的主题-词的分布Φ’,所得的主题就是视频中的复杂交通模式;
上述步骤A6具体包括:
将步骤A5中所得的15个主题φik的分布当作A6中的词,A6中的文档——词的分布θkj就看作是由A5中的主题组成的。按照公式
1)记
2)按照下面的公式(5)采样得到θkjk′;
[θkj1,…,θkjK′]~Mult(θkj;ζ′kj1,…,ζ′kjK′)(5)
3)利用泊松分布和多项式分布之间的关系,以及关系式
p(φ′k′|-)~Dir(α′φ′+θ1·k′,…,α′φ′+θK·k′)>
4)边缘化φ′k′和θ′k′j后,θ·jk′~NB(r′k′,p′k′),p′k′~Beta(c′ε′,c′(1-ε′)),则p′k′可按下式(7)采样得到;
p(p′k′|-)~Beta(c′ε′+θ··k′,c′(1-ε′)+N′r′k′)>
5)由于
可以得到K′=3个主题分布矩阵Φ'∈RK×K'和K′=3个主题在N=260个文档中的组成情况矩阵Θ'∈RK'×N,其中主题分布矩阵表示K′=3个主题在K=15个子主题(即简单交通模式)上的分布情况。A6中所得的主题就是视频中的复杂交通模式如图7所示。和文献[2]中的方法仅能得到左右和上下两个大的方向的复杂交通模式相比,本发明所提出的方法可以获得更多的详细的复杂交通模式。下表2给出了本发明的方法在QMUL>
表2 QMUL Junction Dataset 2数据集上的3种交通模式的主题组成和交通流状态说明
A7.在A5和A6所得两层BNBP-PFA主题模型基础上,基于两层主题模型的对数似然函数值,检测视频帧中的异常行为。
上述步骤A7具体包括:
A71.在整个视频文档集的文档——视觉词计数矩阵M260×6480上,随机选择80%的视频文档组成训练视频文档集X,剩下的20%的视频文档集组成测试集Y=M-X;
A72.在测试集Y上,按照公式
A73.按照公式
A74.计算视频帧ypi在两层BNBP-PFA主题模型上的加权似然函数值F=η·F1+(1-η)·F2,其中取参数η=0.5;
A75.将A74中计算得到的似然函数值F和给定的门限值Th1=0.1进行比较,如果有F<Th1,则视频帧ypi中包含有异常行为,否则没有。
对测试数据集上的每个视频文档进行检测,可以得出包含异常交通行为的视频帧。在图8中,本发明的方法在QMUL Junction Dataset 2数据集上检测到的4种异常交通行为分别为:(1)行人不走斑马线横穿马路,(2)行人人行道上过马路闯红灯,(3)车辆在交叉路口中间变道,(4)车辆从两车之间穿行。图8中用红色的框标出了异常行为发生的对象及位置。
为了定量的评价本发明提出的异常交通行为检测方法的性能,将本发明提出的方法和文献[6]中的MCTM方法和LDA方法进行对比实验。为了对比实验的方便,MCTM方法和LDA方法在QMUL Junction Dataset 2数据集上异常交通行为检测的数据直接引用文献[6]中的结果。由于在QMUL Junction Dataset 2数据集上图5中所示的异常行为模式(3)和(4)出现较少,且MCTM方法仅粗略的检测了2种行人的异常交通模式即对应于图5中的异常行为(1)和(2),故本发明仅采用2种异常行为的数据来进行对比实验。下表3分别给出了本发明的异常检测方法、MCTM和LDA方法在QMUL Junction Dataset 2数据集上的实验结果。
表3 各种方法在QMUL Junction Dataset 2数据集上异常检测性能比较实验结果
从表3的实验结果可知,在QMUL Junction Dataset 2数据集上,本发明提出的异常交通行为检测方法在行人横穿马路和行人闯红灯两种异常行为检测上均获得最好的结果,总TPR(真正率)获得最大值而总FPR(假正率)获得最小值。综上所述,本发明的方法在QMUL Junction Dataset 2数据集上获得了比MCTM和LDA方法更好的异常行为检测能力。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
参考文献
[1]X.Wang,X.Ma,E.Grimson,Unsupervised activity perception byhierarchical Bayesian models,in:IEEE Conference on Computer Vision andPattern Recognition,2007,pp.1–8.
[2]L.Song,F.Jiang,Z.Shi,A.Katsaggelos,“Understanding dynamic scenesby hierarchical motion pattern mining”,IEEE International Conference onMultimedia and Expo(ICME),pp.1–6,2011.
[3]K.Than,and T.B.Ho,"Fully sparse topic models",Proceedings of theEuropean conference on Machine Learning and Knowledge Discovery in Databases-Volume Part I,2012.
[4]Liao W,Rosenhahn B,Yang M Y.Video Event Recognition by CombiningHDP and Gaussian Process[C].IEEE International Conference on Computer VisionWorkshop.IEEE,2015:166-174.
[5]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journalof Machine Learning Research,2003,3:993-1022.
[6]T.Hospedales,S.Gong and T.Xiang,“A Markov Clustering Topic Modelfor Mining Behaviour in Video,”in Proc.Int’l.Conf.Computer Vision,pp.1165-1172,2009.
机译: 双模式交通路口,在交通路口处引导交通的系统及其方法
机译: 交通路口多通道视频监控方法
机译: 一种交通模式数据库的预处理方法,包括分析,评估和组合不同交通模式时空基础模块中车辆的局部交通状况数据