首页> 中国专利> 基于分层观测向量分解的隐马尔科夫模型的行为识别方法

基于分层观测向量分解的隐马尔科夫模型的行为识别方法

摘要

本发明涉及一种基于分层观测向量分解的隐马尔科夫模型的行为识别方法,包括目标检测、目标跟踪、特征提取、运动建模、行为识别等几个方面。其中该方法针对目前多人行为识别方法的不足对传统的隐马尔科夫模型进行改进,分离了模型中的个体状态和交互状态来突出目标之间的交互关系,通过分解观测节点来降低计算量,同时,该模型允许参加运动的目标个数发生变化,在特征选取问题上比传统方法也有了很大的灵活性,允许同时使用离散特征和连续特征。本发明对于视频监控、基于内容的视频检索等领域中的多人交互的行为分析有重要作用。

著录项

  • 公开/公告号CN101739568A

    专利类型发明专利

  • 公开/公告日2010-06-16

    原文格式PDF

  • 申请/专利权人 北京交通大学;

    申请/专利号CN200910236898.1

  • 发明设计人 苗振江;郭萍;邓海峰;

    申请日2009-11-04

  • 分类号G06K9/62;G06T7/20;

  • 代理机构北京正理专利代理有限公司;

  • 代理人张占榜

  • 地址 100044 北京市海淀区上园村3号

  • 入库时间 2023-12-18 00:27:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-12-24

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20120704 终止日期:20131104 申请日:20091104

    专利权的终止

  • 2012-07-04

    授权

    授权

  • 2010-09-01

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20091104

    实质审查的生效

  • 2010-06-16

    公开

    公开

说明书

技术领域

本发明涉及视频中人体行为识别方法,特别是涉及一种基于分层的观测向量分解的隐马尔科夫模型的多人行为识别方法,应用于模式识别、人工智能、计算机视觉、图像处理等技术领域。

背景技术

视频监控技术在近年来备受社会关注,特别是自“911”恐怖袭击、马德里爆炸案以及伦敦爆炸案等事件之后,对计算机自动进行视频监控产品的研究和开发就更加迫切。现在,摄像头在很多社区,校园,街道内都随处可见,但是,目前的视频监控技术却远远不够智能,监控工作基本由人工完成。然而,由于人的精力、体力以及劳务成本等因素影响,人工监控的效率比较低。长时间枯燥的监控工作常常使工作人员的精神疲倦,对异常情况变得不敏感,不能及时监测。这就导致目前的监控设备在很大程度上变成了录像工具,往往在异常情况或突发事故已经发生之后才进行事后的查验。但此时损失和影响已经造成,无法挽回,完全是一种亡羊补牢式的监控方式。为了真正实现“智能”监控,研究计算机自动进行视频监控,自动分析识别场景中的人的行为是十分必要的。

目前,市场上已经有了一些初步的智能监控产品,如以色列的Ioimage公司,美国的ObjectVideo公司,中国汉王科技股份有限公司等都在进行相关产品的研发。但是,目前的产品总体来讲还不很成熟,只能识别特定条件下的一些简单行为,如进入,离开等。这显然远不能满足智能监控的需要。特别需要指出的是,不论是已经投入使用的产品,还是正在进行的学术研究,现有的成果大多只针对单人行为识别,对多人之间的交互行为的研究很不成熟。而实际应用所关注的行为很多都涉及多个人。多人行为识别需要考虑人与人之间的交互关系,相对单人行为分析更加复杂,但监控系统中需要重点考虑的很多行为均涉及多个人,例如打架,尾随等。研究多人行为识别会对基于视频的智能监控起到非常重要的作用,而目前多人行为识别的研究成果很少,远远无法满足智能监控的需要。

现有的多人行为识别一般采用基于运动模型的识别方法,其中应用最为广泛的是隐马尔科夫模型(HMM)及其衍生模型。对于传统的HMM,在同一时刻只有一个状态节点和一个观测节点。在多人行为中,观测向量往往维数较高,如果采用传统的HMM会产生很大的计算量,此外,传统的HMM将所有人的特征组合为一个特征向量,不能很好的拟合多人之间的交互。为了解决传统HMM在多人行为中的问题,近年来出现了很多改进模型。如PHMM,LHMM,HHMM等。其中,对于多人行为识别影响较大的为耦合隐马尔科夫模型,即(CHMM)。CHMM由两条或两条以上以一定条件概率关联的隐马尔科夫链组成。每一条隐马尔科夫链代表一个人的行为,各隐马尔科夫链之间的连接代表多人之间的交互。与传统HMM相比,由于增加了隐马尔科夫链的条数并引入各链之间的状态转移,CHMM能更好的描述多人之间的行为交互。但是,CHMM中隐马尔科夫链条的数目与行为中的目标的数目有关,不允许运动目标的个数发生变化,这就导致了CHMM对不同人数的行为建模时模型的不一致,引起的直接后果是庞大的工作量。例如,在一个监控系统中,如果我们需要分析两人,三人和四人的行为,则我们需要建立三个独立的CHMM。在多人行为识别领域,目前较难找到对不同人数,不同行为都通用的模型,对多人行为的建模分析是现在多人行为识别的研究热点。

发明内容

本发明针对目前视频中多人行为识别方法的不足之处,提供一种基于分层观测向量分解的隐马尔科夫模型的行为识别方法,能实现多人行为识别,允许参加运动的目标个数发生变化,及连续特征和离散特征同时出现,以解决多人行为识别中对交互关系的表达问题。

本发明是对传统隐马尔科夫模型(HMM)的一种改进,我们给这种改进后的隐马尔科夫模型起名为“基于分层的观测向量分解的隐马尔科夫模型”。主要的改进有两点:①.传统的HMM在每个时刻只有一个状态节点,本发明中,每个时刻有两个状态节点,一个叫个体状态,描述多人行为中每个人的各自的行为;另一个叫交互状态,描述多人行为中的交互关系。②.传统的HMM的每个状态节点只能产生一个符号(即一个观测节点),本发明中,每个状态产生一组符号,也就是说将观测节点分解为若干组,我们称之为子观测节点。

在本发明中,基于分层的观测向量分解的隐马尔科夫模型的每个个体状态下设置了两组子观测节点(对应两类个体特征),每个交互状态下设置有三组子观测节点(对应三类交互特征)。对每组子观测节点,其观测向量的个数等于参与此行为的人数(对个体状态),或者等于人数*(人数-1)/2(对交互状态)。

本发明的目的通过以下技术方案来实现:

基于分层观测向量分解的隐马尔科夫模型的行为识别方法,包括以下步骤:

步骤S 1)运动目标检测:对摄像头拍摄的运动区域建立背景模型,当运动目标进如拍摄区域后进行前景提取,得到运动目标的轮廓;

步骤S2)运动目标跟踪:根据检测的结果初始化目标的位置,之后对目标进行跟踪,得到运动目标的运动轨迹;

步骤S3)行为特征提取:提取运动目标的轨迹特征和轮廓特征,轨迹特征主要包括两两运动目标之间的距离、两两目标的运动速度之差及两两目标之间的运动方向夹角,轮廓特征主要包括轮廓变化率和目标的最小外接矩形框的长宽比;

步骤S4)运动模型训练:对于要识别的每一种行为,将其所有的用于训练的视频的特征输入到基于分层的观测向量分解的隐马尔科夫模型中,训练该行为的模型参数并保存;

步骤S5)行为识别:将未知行为视频的特征输入到每一个已经训练好的运动模型中,计算未知行为与每种已知运动模型的匹配概率,得到识别结果。

其中所述步骤S1)中的建立背景模型包括如下两个步骤:

步骤S11:对摄像头拍摄区域的背景事先进行混合高斯背景建模;

步骤S12:系统开始运行后,根据背景模型提取运动的前景目标,并采用腐蚀、膨胀图像处理算法优化目标检测结果,得到运动目标的轮廓。

所述步骤S2)中的得到运动目标运动轨迹包括如下两个步骤:

步骤S21:根据目标检测的结果对目标的位置用最小外接矩形框进行初始化,得到位置坐标及最小外接矩形框中的颜色分布;

步骤S22:当目标在场景中运动的过程中,利用粒子滤波算法,利用颜色分布特征对目标进行跟踪,描绘出其运动的轨迹。

所述步骤S3)中提取运动目标的轨迹特征和轮廓特征包括如下两个步骤:

步骤S31:根据跟踪得到的目标运动轨迹,计算两两运动目标之间的距离、两两目标的运动速度之差及两两目标之间的运动方向夹角;

步骤S32:根据背景剪除的结果计算目标轮廓最小外接矩形框的长宽比以及轮廓的变化率。

所述步骤S4)中运动模型训练包括以下步骤:

步骤S41:对每种行为采用基于分层的观测向量分解的隐马尔科夫模型进行训练;

所述基于分层的观测向量分解的隐马尔科夫模型中有两条马尔科夫链,参数估计过程对两条链分别进行,参数集合为λ=(A,B,π),其中,

π(m)=P(S0=m)表示每条链中每个状态S的初始概率分布,m为状态可取的一种值,设状态的取值空间为Mi,则m∈Mi,i表示第i条链,i=1,2。这里,我们设M1={1,2,3},M2={1,2,3};

A(m,n)=P(St+1=n|St=m)表示每条链内t时刻到t+1时刻的状态转移概率,即St到St+1的转移概率,m,n为每条链的状态的可取值,m,n∈Mi,i=1,2;

表示两条链之间的状态转移概率,即从链i在t时刻的状态St链i向链j在t+1时刻的状态St+1链j的转移概率,其中i,j=1,2,且i与j不相等,m∈Mi,n∈Mj

参数π和A的计算方法与传统HMM及CHMM相同。

Bi(Ot)=P(Ot|St=m)表示第i条链的符号产生概率,即在已知状态St时产生符号Ot的概率,i=1,2;

在此模型中,每组观测节点对输出概率的贡献程度不同,每个状态的符号产生概率由每组观测节点的概率加权求和得到,即:

Bi(Ot)=Σk=1NωkP(Otk|St=m),其中,

其中N表示特征的种类数,本发明中使用了2种个体特征和3种交互特征,因此对于个体状态N=2,对于交互状态N=3,RR表示人数,ωk表示第k种特征对输出概率的贡献权重;

对于选用的离散特征来讲,则

其中c为特征的取值,设特征的取值空间为C,则c∈C;

对于连续特征来说,假设特征向量服从混合高斯分布,则有:

其中,N(u,δ)表示均值为μ,方差为δ的高斯分布,ck为每个高斯分布的权重.

步骤S42:将以上训练的参数结果λ=(A,B,π)进行保存。

所述步骤S5)中的具体行为识别包括以下步骤:

步骤S51:对未知的行为数据进行步骤S3中的特征计算;

步骤S52:将得到的特征分别代入每个行为的模型中计算后验概率,匹配概率最大的模型即为待识别的结果。其中,后验概率的计算方法采用递归的前向算法,具体递归过程如下:

①初始化:

②递归:

③终止:

p(O|λ)=ΣiΣjαT-1(i,j)

本发明的优点在于:

1.交互性是多人行为区别于单人行为的一个重要特征。在基于分层的观测向量分解的隐马尔科夫模型中,我们将个人状态和交互状态分离开来,可以更直观和清晰地对交互特征进行描述。

2.特征分离可以降低特征维度,在一定程度上起到了降维,减小计算量的作用,这对于多人行为是非常关键的,因为随着人数的增加和行为的复杂,传统的单一特征向量的表示方法会造成巨大的计算增长量。

3.基于分层的观测向量分解的隐马尔科夫模型的模型结构不会随目标个数的变化而变化。当行为中的目标人数发生变化时,只要改变模型中每个组中的向量的个数即可,这并不会影响到模型的结构,也不需要改变模型的训练和识别方法。

4.在基于分层的观测向量分解的隐马尔科夫模型中,由于每种特征相互分离,离散特征和连续特征可以同时采用,这可以给特征选取带来方便,而在以往的HMM及其变种中,连续特征和离散特征是无法同时出现在同一模型中的。

附图说明

图1为本发明的流程示意图;

图2为基于分层的向量分解的隐马尔科夫模型结构图;

图3为本发明中的系统训练流程图;

图4为本发明中的系统识别流程图。

具体实施方式

图1:本发明的流程示意图,为了给出一个清晰地描述,我们将以5种多人行为的识别为例,但本发明的应用范围并不局限于这5种行为。在发明内容中我们提到,本发明中的基于分层的观测向量分解的隐马尔科夫模型与传统模型相比,对目标个数无要求,而传统的模型需要限定目标个数。因此,我们选择了目标个数为2和3时的情况进行识别来说明基于本发明的优点。假设我们要识别以下5种行为:

行为1:两个目标迎面相遇;

行为2:一个目标尾随另一个目标;

行为3:一个目标将另一个目标推倒;

行为4:第一个目标尾随第二个目标,第二个目标尾随第三个目标;

行为5:第一个目标尾随第二个目标,第三个目标和第二个目标迎面相遇;

实施过程如下:

步骤S1)运动检测。

本实例用于视频监控中,摄像头固定不动,因而背景也相对静止。我们采用混合高斯模型对背景事先进行建模,再通过视频捕获到得视频帧与模型相比较得到运动目标,接下来,使用膨胀、腐蚀等图像处理算法优化背景剪除结果。

步骤S2)运动跟踪。

跟踪的算法在这里采用了粒子滤波,实现自动跟踪,自动将运动轨迹描绘出来。

步骤S3)特征提取。

对于每段视频都要分别提取出个体特征和交互特征:个体特征包括每个目标的长宽比和每个目标的轮廓变化率,计算方法是用上一帧的轮廓面积除以本帧的轮廓面积。交互特征包括两两目标之间的距离、两两目标的运动方向夹角以及两两目标的速度差。在实际应用中,可以选用的特征不局限于本例所述特征。本发明中的基于分层的观测向量分解的隐马尔科夫模型与传统模型相比,在特征选择上同时使用离散和连续特征。这里,我们将个体特征的取值取为连续值,将交互特征离散化。

步骤S4)运动模型训练。

在训练过程中,我们对每种行为搜集了10段训练视频。图3给出了训练过程的流程图,每种行为的训练过程独立进行。对于某种特定的行为,首先收集其训练数据,对每个训练数据使用混合高斯模型进行目标检测,使用粒子滤波算法进行目标跟踪。根据检测和跟踪的结果,进行个体特征和交互特征的表示。将该行为的所有训练数据的特征都计算完毕后,将所有特征数据带入该行为的基于分层的观测向量分解的隐马尔科夫模型,计算该模型的参数,并保存,训练结束。

基于分层的观测向量分解的隐马尔科夫模型的结构图如图2所示。在本例中,每个个体状态下有2组子观测节点(两类个体特征),每个交互状态下有3组子观测节点(三类交互特征)。对每组子观测节点,其观测向量的个数等于参与此行为的目标个数(对个体状态),或者等于RR*(RR-1)/2(对交互状态,RR表示目标个数)。行为4和5中有3个运动目标,因此其个体状态下的每组子观测节中应有3个观测向量,而交互状态下的每组子观测节点中应有3*(3-1)/2=3个观测向量。行为1,2和3中有2个运动目标,计算可得其个体状态下的每组子观测节点中有2个观测向量,而交互状态下的每组子观测节点中有2*(2-1)/2=1个观测向量。这里,我们假设每组观测节点之间互相独立。

我们需要的模型及其参数有:

参数集合为λ=(A,B,π),个体状态的特征种类N=2,交互状态的特征种类N=3,对于行为4,5来说,人数RR=3。对于行为1,2,3来说,人数RR=2。个体状态和交互状态的状态数目都取3。详细的参数训练过程见发明内容步骤S4所述。

训练结束后,我们得到这五种行为的模型,其参数分别为λi=(Ai,Bi,πi),其中i=行为1,行为2,…行为5。

步骤S5)行为识别。

行为的识别过程我们在图4中给出了说明。当未知行为视频输入以后,首先进行目标检测、跟踪和特征提取,这几个步骤的执行方法同训练过程相同。将提取到的未知行为的特征记做O。得到行为的特征后,将特征分别代入到我们待识别的5种行为的基于分层的观测向量分解的隐马尔科夫模型中,利用前向算法(具体计算过程见发明内容步骤S5所述),分别计算未知行为与5个模型的匹配概率,即分别求出p(O|λi),其中i=行为1,行为2,…行为5。从5个p(O|λi)中找到概率最大的模型即为最终的识别结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号