首页> 中国专利> 基于跨平台用户社交多媒体行为的人口属性推断方法

基于跨平台用户社交多媒体行为的人口属性推断方法

摘要

本发明公开了一种基于跨平台用户社交多媒体行为的人口属性推断方法。其中,该方法包括针对所述用户在所述各平台的社交多媒体行为,提取文本特征和图片特征,得到所述各平台的用户特征;将训练集中用户的人口属性和所述用户特征作为监督信息,进行多个空间的对偶投影矩阵学习,并对所述用户的所述各平台的社交多媒体行为进行约束,以确定所述各平台的对偶投影矩阵和共享稳定的用户信息;根据所述用户特征对所述对偶投影矩阵进行投影变换,并基于投影变换结果所得到的所述共享稳定的用户信息进行所述人口属性的推断。本发明实施例解决了观察到的社交多媒体行为的动态性和相对稳定的人口属性之间的矛盾,提高了用户的人口属性推断结果的准确性。

著录项

  • 公开/公告号CN106096653A

    专利类型发明专利

  • 公开/公告日2016-11-09

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201610409460.9

  • 发明设计人 桑基韬;徐常胜;项连城;

    申请日2016-06-12

  • 分类号G06K9/62;G06Q50/00;

  • 代理机构北京瀚仁知识产权代理事务所(普通合伙);

  • 代理人宋宝库

  • 地址 100080 北京市海淀区中关村东路95号

  • 入库时间 2023-06-19 00:49:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-22

    授权

    授权

  • 2016-12-07

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20160612

    实质审查的生效

  • 2016-11-09

    公开

    公开

说明书

技术领域

本发明实施例涉及数据处理技术领域,尤其是涉及一种基于跨平台用户社交多媒体行为的人口属性推断方法。

背景技术

随着社会媒体(social media)的流行,越来越多的人参与到各种各样的在线社交网络中,并发表和分享大量的多媒体信息。为了实现高效的数字信息化管理和个性化社会媒体服务,通过社交多媒体行为进行用户建模变得越来越迫切和重要。用户建模包括了很多的方面,从人口属性(例如:年龄、性别、婚姻状况和职业等)、个人兴趣(例如:政治、技术、音乐和运动等)到社交网络状态、流动模式、消费模式及情感倾向等。其中,人口属性记录了基本和本质的用户信息,并构成了最基础的维度来建立一般的用户模型,因此被广泛地用在实际信息服务中。

近几年有大量的研究通过用户社交多媒体行为进行用户人口属性的推断。大部分的工作着重于提出先进的特征和模型或者发掘更多其他的信息和知识。但是,目前一个很重要的问题一直被忽略而未被研究:观察到的社会多媒体行为的动态性和相对稳定的人口属性之间的矛盾。如图1的左边所示,可见,用户社交多媒体行为随着焦点不时地改变而显著变化。一方面,已有人口属性推断工作一般将用户不同时间的动态行为看成一个整体,不可避免地导致了用户建模中的信息丢失和没能成功抓取动态行为和稳定人口属性之间的潜在关系。另一方面,个人兴趣建模的工作已经通过将用户行为分成不同时间段进行随时间变化的兴趣估计解决了动态性问题。在这样的人口属性推断背景下,考虑到人口属性包括了性别、年龄、婚姻状况和职业等是静态的或者在很长一段时间内保持不变的,动态兴趣建模的方法并不能直接进行应用。

因此,亟需一种方法来解决这个矛盾,利用用户动态的社交多媒体行为进行稳定的人口属性推断。

发明内容

鉴于上述问题,提出了本发明以便提供一种至少部分地解决上述问题的一种基于跨平台用户社交多媒体行为的人口属性推断方法。

为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:

一种基于跨平台用户社交多媒体行为的人口属性推断方法,所述方法至少包括:

针对所述用户在所述各平台的社交多媒体行为,提取文本特征和图片特征,得到所述各平台的用户特征;

将训练集中用户的人口属性和所述用户特征作为监督信息,进行多个空间的对偶投影矩阵学习,并对所述用户的所述各平台的社交多媒体行为进行约束,以确定所述各平台的投影矩阵和共享稳定的用户信息;

根据所述用户特征对所述对偶投影矩阵进行投影变换,并基于投影变换结果所得到的所述共享稳定的用户信息进行所述人口属性的推断。

优选地,所述社交多媒体行为包括文本信息;

所述针对所述用户在所述各平台的社交多媒体行为,提取文本特征,具体包括:

提取所述文本信息中的词干;

去除停用词及在所述文本信息中出现词频小于预定词频的词。

优选地,所述提取文本特征具体还包括:

采用基于熵的方法,计算每个词的互信息熵,并选取预定数目并对所述人口属性选择具有识别力的词;

采用TF-idf方法对选取出的词进行重新加权,得到文本特征。

优选地,所述社交多媒体行为包括图片信息;

所述针对所述用户在所述各平台的社交多媒体行为,提取图片特征,具体包括:

针对所述图片信息,利用VGG16模型根据全连接层提取视觉特征;

针对所述视觉特征,采用最大池的方法进行处理,得到聚合特征向量。

优选地,所述将训练集中用户的人口属性和所述用户特征作为监督信息,进行多个空间的对偶投影矩阵学习,并对所述用户的所述各平台的社交多媒体行为进行约束,以确定各平台的对偶投影矩阵和共享稳定的用户信息,具体包括:

构建以下模型:

>minWp,Wq,S||Fp-WpS||F2+||Fq-WqS||F2+λ1||S-A||F2+λ2||Wp||F2+λ3||Wq||F2>

其中,所述F=[f1,f2,…,fN]表示训练集中所有N个用户的社交行为特征,所述Fp、所述Fq分别表示两个平台上所有N个用户的社交行为特征,所述p和所述q表示两个平台所对应的数据,所述S=[s1,s2,…,sN]表示各平台共享稳定的用户信息,所述A=[a1,a2,…,aN]表示人口属性的离散表示,所述Wp、所述Wq分别表示两个社交平台的对偶投影矩阵,所述λ1、所述λ2和所述λ3表示三个正则化参数;

确定所述模型的偏导数为:

>Wp=2Wp(SST+λ2I)-2FpST>

>Wq=2Wq(SST+λ3I)-2FqST>

>S=2MS-2[(Wp)TFp+(Wq)TFq+λ1A]>

其中,M=(Wp)TWp+(Wq)TWq1I;

令所述偏导数等于0,确定以下更新规则:

Wp=FpST(SST2I)-1

Wq=FqST(SST3I)-1

S=M-1[(Wp)TFp+(Wq)TFq1A]

根据所述更新规则,迭代更新Wp、Wq和S,直至收敛或达到最大迭代次数,以确定所述各平台的对偶投影矩阵和共享稳定的用户信息。

优选地,所述用户的人口属性包括属性值;

所述根据所述用户特征对所述对偶投影矩阵进行投影变换,并基于投影变换结果所得到的所述共享稳定的用户信息进行所述人口属性的推断,具体包括:

根据以下公式估计所述用户的人口属性:

>s*=mins||fp-Wps||F2+||fq-Wqs||F2>

其中,s*表示估计出的用户的人口属性值;

对估计出的所述人口属性中的属性值所对应的得分进行排序,选择得分最高的属性值作为所述用户的人口属性。

优选地,所述用户的人口属性包括属性值;

所述根据所述用户特征对所述对偶投影矩阵进行投影变换,并基于投影变换结果所得到的所述共享稳定的用户信息进行所述人口属性的推断,具体包括:

根据以下公式估计所述用户的人口属性:

>s*=mins||f-Ws||F2>

其中,所述f表示对应于某个平台的用户特征,其取fp或fq,所述W表示对应于某个平台的投影矩阵,其取Wp或Wq,s*表示估计出的用户的人口属性值;

对估计出的所述人口属性中的属性值所对应的得分进行排序,选择得分最高的属性值作为所述用户的人口属性。

与现有技术相比,上述技术方案至少具有以下有益效果:

本发明实施例通过提取用户在各平台的社交多媒体行为中的文本特征和图片特征,得到各平台的用户特征;将训练集中用户的人口属性和用户特征作为监督信息,进行多个空间的对偶投影矩阵学习,并对用户的各平台社交多媒体行为进行约束,以确定各平台的投影矩阵和共享稳定的用户信息;根据用户特征对对偶投影矩阵进行投影变换,并基于投影变换结果所得到的共享稳定的用户信息进行人口属性的推断。本发明实施例利用跨社交网络的用户动态社交多媒体行为,解决了观察到的社交多媒体行为的动态性和相对稳定的人口属性之间的矛盾,提高了用户的人口属性推断结果的准确性。

当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。

附图说明

附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:

图1为根据一示例性实施例示出的基于跨平台用户社交多媒体行为的人口属性推断方法的流程示意图;

图2为根据另一示例性实施例示出的针对一个用户根据社会多媒体行为进行人口属性推断的示意图;

图3a为根据一示例性实施例示出的本发明实施例提供的方法在“性别”人口属性下与其他技术的对比结果示意图;

图3b为根据一示例性实施例示出的本发明实施例提供的方法在“性别”推断过程中不同设置的对比结果示意图。

这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。

需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。

需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。

在实际应用中,为了解决用户动态的社交多媒体行为(也可以称之为社会多媒体行为)和稳定的人口属性之间的矛盾,提高用户属性推断的准确率,本发明实施例提出一种基于跨平台用户社交多媒体行为的人口属性推断方法。本发明实施例的主要技术构思是得到每个用户的人口属性,并找到不同平台用户行为之间的关联,获得其共享的用户信息。

如图2所示,上述方法可以包括:步骤S200至步骤S220。其中:

S200:针对用户在平台的社交多媒体行为,提取文本特征和图片特征,得到各平台的用户特征。

其中,平台可以是但不限于Google+、Twitter等。用户的社交多媒体行为可以包含但不限于用户发表的文本信息及其相关联的内容,比如文章、图片、视频等。通过这些信息联合起来可以反映用户的行为,以进行用户多平台的共享模式挖掘。

在上述步骤中,对于用户在平台的社交多媒体行为中的文本信息,提取文本特征的步骤可以包括:

S201:提取文本信息中的词干。

具体地,本步骤例如可以是将将过去式、过去分词、现在分词等变形转换成动词原形。

S202:去除停用词及在文本信息中出现词频小于预定词频的词。

示例性地,停用词可以是a、an、the、that等没有实际含义的词。

例如,上述步骤中的预定词频可以设置为15。在实际实施过程中,可以将在整个文本信息中出现词频小于15的词去除掉。

为了减少特征表示的维数和更好地反映用户行为,本发明实施例还可以包括步骤S203至步骤S204。

S203:采用基于熵的方法,计算每个词的互信息熵,并选取预定数目并对人口属性选择具有识别力的词。

S204:采用TF-idf方法对选取出的词进行重新加权,得到文本特征。

另外,用户的社交多媒体行为除了包含文本内容以外,还有很多的图片内容。本发明实施例同时考虑图片特征,可以更进一步地表示用户行为。

对于用户在平台的社交多媒体行为中的图片信息,提取图片特征的步骤可以包括:

S205:针对图片信息,利用VGG16模型根据全连接层提取视觉特征。

作为示例,本发明实施例可以使用在ImageNet(图像识别最大数据库)上训练的VGG16模型,针对每一张图片,根据全连接层提取1000维视觉特征。

由于用户通常发表了超过一张的图片,所以,本发明实施例还可以以下步骤:

S206:针对视觉特征,采用最大池的方法进行处理,得到聚合特征向量。

其中,最大池的方法就是对每一维求最大值。例如,在实际应用中本发明实施例可以对得到的1000维视觉特征求取每一维的最大值,这样可以得到每个用户的1000维聚合特征向量。

将上述得到的各平台的文本特征和图片特征串联起来,就可以得到各平台的用户特征。该用户特征也就是该用户的社交行为特征。

在实际应用中,如果针对的是多个平台,则可以分别对每一个平台采取上述步骤来提取文本特征和图片特征,以获得每个平台的每个用户的用户特征。

S210:将训练集中用户的人口属性和用户特征作为监督信息,进行多个空间的对偶投影矩阵学习,并对用户的各平台的社交多媒体行为进行约束,以确定各平台的对偶投影矩阵和共享稳定的用户信息。

不同的平台对应不同的行为空间,所以,用户特征也就是用户行为特征空间,用户属性值的空间也就是人口属性空间。对于每个平台(例如:在线社交网络),可以假设用户行为特征空间和人口属性空间的关联可以用投影矩阵来表示。在训练的时候,人口属性空间是已知的。因此,用户的人口属性可以通过其社交行为特征直接进行投影进行推断。

例如,用su表示用户的人口属性,fu表示用户的社交行为特征,W表示投影矩阵;则,上述假设可以用公式表示为:fu=Wsu

因此,为了解决观察到的动态社交行为和相对稳定的人口属性之间的矛盾,本步骤的基本思想是寻找不同平台(例如:社交网络)上大量用户行为的共享模式,通过观察训练集用户的社交行为特征和已知的、训练集中与用户社交行为特征相对应的人口属性集,来学习投影矩阵W。

由此,本发明实施例以两个平台为例进行说明,设平台上所有用户的数量为N,用S表示两个平台的共享因子,可以构建以下模型(即目标函数):

>minWp,Wq,S||Fp-WpS||F2+||Fq-WqS||F2+λ1||S-A||F2+λ2||Wp||F2+λ3||Wq||F2>

其中,F=[f1,f2,…,fN]表示训练集中所有N个用户的社交行为特征,Fp、Fq分别表示两个平台上所有N个用户的社交行为特征,p和q表示两个平台所对应的数据,S=[s1,s2,…,sN]表示训练集中所有N个用户的人口属性,即各平台共享稳定的用户信息,A=[a1,a2,…,aN]表示人口属性的离散表示,Wp、Wq分别表示两个社交平台的对偶投影矩阵,λ1、λ2和λ3表示三个正则化参数。

本领域技术人员应能理解,上述假设仅为举例,不视为对本发明保护范围的不当限定。

上述模型中,S为A的连续形式,这样可以更好地反映用户不同属性值的相对强弱。模型中包含了已有的特征、对偶投影矩阵及共享模式。通过对目标函数进行模型训练,可以得到对偶投影矩阵。

通过构建上述模型,利用了不同的平台所求出的人口属性S可以反映一些稳定行为模式。

考虑到目标函数中有很多变量,本发明实施例采用一个等价的算法来寻找Wp、Wq和S的最优解。具体地是,固定其他变量最小化目标函数求一个变量。

确定上述模型的偏导数为:

>Wp=2Wp(SST+λ2I)-2FpST---(1)>

>Wq=2Wq(SST+λ3I)-2FqST---(2)>

>S=2MS-2[(Wp)TFp+(Wq)TFq+2λ1A]---(3)>

其中,M=(Wp)TWp+(Wq)TWq1I。

令上述偏导数等于0,则,可以得到以下更新规则:

Wp=FpST(SST2I)-1>

Wq=FqST(SST3I)-1>

S=M-1[(Wp)TFp+(Wq)TFq1A]>

根据公式(4)、(5)和(6)迭代更新Wp、Wq和S,直到收敛或最大迭代次数,从而导出多个空间的对偶投影矩阵和两个平台共享稳定的用户信息。其中,共享稳定的用户信息是指用户在属性空间中的表示,也即每个用户在不同平台的社交行为特征所对应的同样的S值。

S220:根据用户特征对对偶投影矩阵进行投影变换,并基于投影变换结果所得到的共享稳定的用户信息进行人口属性的推断。

在一个可选的实施例中,对于一个给定的新用户,针对用户在多个平台的社交行为数据,已知该用户的用户特征(社交行为特征)fp和fq,根据求出的对偶投影矩阵Wp和Wq,通过以下公式估计该用户的人口属性值(即用户属性表示):

>s*=mins||fp-Wps||F2+||fq-Wqs||F2---(7)>

其中,s*表示估计出的用户的人口属性值。这里,s*是最后求得的结果,可以认为s*与s的含义一样,共享稳定的用户信息s就是本步骤要的结果。

在另一个可选的实施例中,当投影矩阵是通过跨平台用户社交多媒体行为得到的时候,可以选取其中对应于一个平台的投影矩阵,基于用户在该单一平台上的社交行为数据,通过以下公式来推断该用户的人口属性值:

>s*=mins||f-Ws||F2---(8)>

其中,f表示对应于某个平台的用户特征,其取fp或fq,W表示对应于某个平台的投影矩阵,其取Wp或Wq,s*表示估计出的用户的人口属性值。这里,也可以认为s*与s的含义一样。

上述公式(7)和(8)即为投影变换过程,求出的s用于该用户的属性推断。

上述得到的用户的人口属性s*是一个连续值向量,其每一项对应了某种属性的某一属性值所对应的得分。

本发明实施例通过对估计出的每种人口属性的属性值所对应的得分进行排序,选择得分最高的属性值作为该种属性的最终推断结果。

作为示例,以性别属性为例,如果得到的s*为[0.75,0.25],那么该用户为男性。

下面对本发明实施例进行评估。

本实施例将社交网站Google+和Twitter作为平台。其中,通过Google+上用户分享的其他平台账号,本实施例建立了包含1478个共同用户的集合,并下载了他们最近发表的2000条帖子(包括了文本和图片)和用户的资料。图1显示了根据用户“Rick Bakas”在Google+和Twitter上的社交行为数据(包括了文本和图片)进行了用户属性推断,其中用户行为数据是动态变化的,而他的人口属性是相对稳定的。

下面以“性别”这一人口属性为例进行评估。图3a为本发明实施例提供的方法在“性别”下与其他技术的对比结果。从图3a可以看出,尽管在单平台下的投影矩阵(PME)方法的推断准确率不如支持向量机(SVM)方法的推断准确率,但是本发明实施例的对偶投影矩阵提取(CPME)方法利用了丰富的跨社交平台用户数据,有效地提高了用户人口属性推断准确率。这同时说明了本发明实施例提供的方法可以有效地解决用户动态行为数据和相对稳定的人口属性之间的矛盾。图3b为本发明实施例提供的方法在“性别”推断过程中不同设置的对比结果。从图3b可以看出,本发明实施例提供的方法在“性别”推断过程中利用不同用户数据的设置的推断准确率,分别给定用户单独在Google+上的数据、单独在Twitter上的数据及两个平台上所有的数据(Both OSNs)。即使只有一个平台的数据,本发明实施例提供的方法的推断准确率仍要高于其他方法的推断准确率。因为,在对偶投影矩阵提取的过程中已经得到了潜在的不同平台之间的稳定关联。同时,给定更多的用户数据可以得到更高的用户属性推断准确率。因此,本发明方法可以有效地进行用户人口属性的推断。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。

以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。

需要说明的是,本文中涉及到的流程图或框图不仅仅局限于本文所示的形式,其还可以进行划分和/或组合。

需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。

术语“包括”、“包含”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。

本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号