技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于人物属性和上下文的社会关系识别方法。
背景技术
社会关系,是人类个体间组成的关系,是社会结构的基础。当我们看一张图像时,便会很自然地联想图中人物间的关系,这能为人物性格以及可能将采取的行为提供线索。在计算机视觉领域,社会关系信息也大有用处,可被用于提高其他任务准确率,如人物轨迹预测、多目标跟踪等。现如今,科研工作者已在目标检测、场景解析等场景理解方面的任务取得了相当的进步,而对于社会关系理解这一在图像理解领域与场景理解同等重要的任务上所投注的关注还不够多。
在社会关系理解这一领域,已有科研工作者提出的一些解决方案。主要分为以下四类。第一类侧重于识别亲缘关系,如夫妻、亲子、兄弟姐妹等;第二类侧重于识别活动中的人物关系,但此关系定义是基于身份的而非活动中直接的角色,例如上下级而非主人宾客;第三类侧重于社会中某个文化群体,例如洛丽塔、正太等,将外貌特征相近的归为一类;第四类基于是基于人物姿势表情来分类。由以上研究方案,不难发现社会关系的划分定义是十分多样的,如何找到一种完备又精确的社交关系分类是一个棘手的问题。
由于人物属性与社会关系有着千丝万缕的关系。例如,在亲缘关系识别中,由人物脸部提取的年龄特征、性别特征起着关键作用;在文化群体识别中,人物的穿衣风格扮演着不可或缺的角色。
目前主要在社会关系识别领域存在的两个问题,一是社会关系分类的复杂性与多样性为识别关系的完备与准确带来了挑战;二是现今社会关系识别模型没有综合考虑到人物属性与背景信息。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种基于人物属性和上下文的社会关系识别方法,本发明将人物属性与上下文背景相结合做社会关系识别,有助于提高了识别结果的准确率。
为了实现上述目的,本发明采用如下技术方案:
一种基于人物属性和上下文的社会关系识别方法,包括如下步骤:
步骤一、分别训练不同属性的CNN模型提取出不同属性表达,再拼接不同属性表达作为输入,训练SVM模型识别关系;
步骤二、输入评估数据得到不同关系的得分,然后,将物体区域图像特征和人物区域图像特征分别初始化知识图中物体节点以及关系节点;
步骤三、采用attention机制去掉对关系识别无意义的背景物体,得到得分后,与属性模型的得分进行融合,得到最终的识别结果。
作为本发明所述的一种基于人物属性和上下文的社会关系识别方法的一种改进,所述步骤一包括:
将两个人物的头部区域或身体区域分别输入到Caffet卷积网络提取特征,再将所得两个人的特征拼接起来作为输入到三层全连接网络;
最后一层输出为该属性特征表达得到所有属性表达后,将其输入到SVM分类器中,最终得到在所有社会关系上的评分。
作为本发明所述的一种基于人物属性和上下文的社会关系识别方法的一种改进,所述步骤一中,所述CNN模型为双流CNN模型。
作为本发明所述的一种基于人物属性和上下文的社会关系识别方法的一种改进,所述网络中的结点包括背景物体节点和社会关系节点,所述背景物体节点以物体图像区域提取出的特征作为初始值,所述社会关系节点以人物图像区域提取出的特征拼接后的特征作为初始值。
作为本发明所述的一种基于人物属性和上下文的社会关系识别方法的一种改进,所述步骤三中,所述attention机制基于GNN模型,所述GNN模型中每个节点可以聚合来自其邻居的信息,同时将自己的消息传递给邻居,从而支持所有节点之间的交互。
作为本发明所述的一种基于人物属性和上下文的社会关系识别方法的一种改进,所述步骤三还包括:
对于给定的社会关系节点和物体节点使用低秩双线性池化来融合他们的隐状态;
计算注意力系数时只考虑与关系节点相邻的物体节点,最后使用sigmoid函数对其归一化;
将其自身特征与物体节点加权特征拼接作为最终的特征。
作为本发明所述的一种基于人物属性和上下文的社会关系识别方法的一种改进,所述步骤三中,所述属性模型采用PIPA数据集训练,所述PIPA数据集包括人物头部框、人物身体框以及社会关系。
本发明的有益效果在于,本发明包括如下步骤:步骤一、分别训练不同属性的CNN模型提取出不同属性表达,再拼接不同属性表达作为输入,训练SVM模型识别关系;步骤二、输入评估数据得到不同关系的得分,然后,将物体区域图像特征和人物区域图像特征分别初始化知识图中物体节点以及关系节点;步骤三、采用attention机制去掉对关系识别无意义的背景物体,得到得分后,与属性模型的得分进行融合,得到最终的识别结果。本发明采用深度神经网络,层数足够多的神经网络能够使得网络有更好的学习能力,训练出更好的参数;并采用预训练模型的方法提取人物属性表达,能提取到更多属性表达,不局限于单个数据集标签;还引入了交互性属性,采用双流CNN进行特征提取,提高了基于属性社会关系识别模型的性能;此外,采用图卷积神经网络,该网络可被用于学习非欧几里得数据,因此这里用于学习背景物体与社交关系的联系;并在上下文GNN模型中引入attention机制,去除意义不大的背景物体对社会关系识别结果的影响,提高了识别的准确率;本发明将具有社会学意义的人物属性与上下文背景相结合做社会关系识别,提高了识别结果的准确率,为其余计算机视觉领域任务提供关键信息,该技术可被用于刑侦领域识别罪犯伴随人群关系、互联网社交领域等。
附图说明
下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。
图1为本发明的总体结构示意图。
图2为本发明的人物属性特征提取模型的结构示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1~2对本发明作进一步详细说明,但不作为对本发明的限定。
目前主要在社会关系识别领域存在的两个问题,一是社会关系分类的复杂性与多样性为识别关系的完备与准确带来了挑战;二是现今社会关系识别模型鲜少综合考虑到人物属性与背景信息,而二者对社会关系识别均是必不可少的。该方法针对问题一,首先是以社会学研究里五大类关系划分及12种社会关系为起始,衍生出20种社会关系,再基于这20种社会关系对PIPA数据集做标注,剔除出现率不高的四种分类,得到了最终确定的16种社会关系分类。针对问题二,这里分别训练了基于人物属性的模型以及基于背景物体的知识图模型,然后进行融合得到最终结果。首先,分别训练不同属性的双流CNN模型提取出不同属性表达,再拼接不同属性表达作为输入,训练SVM模型识别关系,最终输入评估数据得到不同关系的得分。然后,将物体区域图像特征和人物区域图像特征分别初始化知识图中物体节点以及关系节点,采用attention机制去掉那些对关系识别无意义的物体,得到基于上下文模型的得分后,与属性模型的得分进行融合,得到最终的识别结果,其中,基于属性模型指的是在别的数据集上训练的,可参见图1所示。
基于上下文模型和基于属性模型都采用PIPA数据集训练,该数据集标注包括人物头部框、人物身体框以及社会关系标签,只有基于属性的模型中子结构,即,属性特征提取模型是在别的数据集上训练得到的。
由于PIPA包含的标签有限,无法包含所有我们选取的属性。因此人物属性特征提取模型是在其他数据集预训练得到的,例如对于服饰属性,是在Berkeley行人属性数据集上训练得到的,再将PIPA人物身体区域输入该模型,该模型最后一层全连接层输出即为所求服饰属性特征表达(是特征表达,而非特定标签)。值得注意的是,预训练模型的结构也是不相同的,对于有交互性的人物属性例如年龄差属性,采用的是一种双流CNN。如图2所示,将两个人物的头部区域或身体区域分别输入到Caffet卷积网络提取特征,再将所得两个人的特征拼接起来作为输入到三层全连接网络,最后一层FC输出为该属性特征表达得到所有属性表达后,将其输入到SVM中,最终得到在所有社会关系上的评分。
仅依赖人物属性进行社会关系识别忽略了上下文背景信息,因此这里对背景物体与人物社会关系间关系用GNN进行学习。如图1所示,网络中结点由背景物体节点与社会关系节点两类节点组成。物体节点以物体图像区域提取出的特征作为初始值,关系节点以人物图像区域提取出的特征拼接后的特征作为初始值。所有结点都有隐状态值hv,其既用于记录特征初值,也用于标记结点类型,初始值如下所示:
对于关系节点:节点类型向量为[1,0],节点特征初值均为从图像中提取到的关系特征(这里有16种关系标签,也就有16个关系节点);
对于检测到的物体节点:节点类型向量为[0,1],节点特征为从图像中提取到的物体特征(目标检测出的被认为是物体的候选框);
对于尚未明确是否物体的的其他节点:节点类型向量为[0,1],节点特征初始化为0向量(目标检测中的置信度不足的候选框);
该GNN模型中每个节点可以聚合来自其邻居的信息,同时将自己的消息传递给邻居,从而支持所有节点之间的交互。在时刻t,节点融合邻居节点信息的表达如下所示,其中A为该节点与其他节点的邻接矩阵:
Recurrent Unit(类似LSTM)更新公式如下:
并非所有背景物体都对社会关系识别有意义,因此这里引入attention机制去除意义不大的背景物体对社会关系识别结果的影响。将每个社会关系节点和其相邻的物体节点的最后一次的隐状态作为输入,算得到的分数代表其相对重要性。计算过程如下所示:
e
α
式一:用低秩双线性池化方法融合关系节点ri和物体节点oj特征,U、V为参数矩阵;
式二:a(hij)为attention机制学习到的系数(物体oj对关系ri的重要性);
式三:用sigmoid函数对学习到的系数归一化;
首先,对于给定的社会关系节点和物体节点使用low-rankbilinearpooling来融合他们的隐状态,得到h
其中,Ori为关系节点i特征,Ooj为物体节点j特征,αij为上面学习到的归一化后的系数,Fi为关系i最终的特征
特征最后输入Softmax层得到在各社会关系上的得分。如图1所示,将该GNN模型得分与输入为属性特征的SVM分类器得分融合,得到最终识别结果。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
机译: 基于状况和上下文信息生成用户自定义内容的方法和装置,该情况和上下文信息能够使用程序的上下文信息来创建用户自定义内容
机译: 结合上下文相关的说话人识别和上下文无关的说话人识别及语音识别设备的人工情报秘书服务中的说话人识别方法
机译: 基于上下文的算术编码设备,基于上下文的算术编码方法,基于上下文的算术解码设备,基于上下文的算术解码方法和至少一种计算机可读介质。