法律状态公告日
法律状态信息
法律状态
2018-05-15
授权
授权
2016-03-09
实质审查的生效 IPC(主分类):G06F17/27 申请日:20151204
实质审查的生效
2016-02-10
公开
公开
技术领域
本发明涉及一种基于文字交互行为的用户特征建模方法,属于互联网技术领域。
背景技术
现在是一个信息过剩的时代,每天用户接受的信息非常多,但是真正用户喜欢、需要的 很少。因此,出现了用户个性化推荐的技术方案,希望能向用户推荐其真正喜欢、需要的内 容。
随着社会化网络的逐步发展,人们进行信息交流的方式也多种多样,例如:论坛、微博、 MSN、QQ等,已经深受大家的喜爱,它们为人们的沟通、信息交流提供了新的途径,是除了 手机、固话、电子邮件之外的又一种重要的信息交流方式。借助这些文字交互系统,可以让 人和人之间的交流成本大大降低,且提高了效率。目前,这些成熟的文字交互系统已得到了 迅速的发展壮大,几乎涵盖了人们生活的各个方面。但如何基于用户的文字交互行为来挖掘 用户的个性化特征,从而能利用这些特征实现个性化推荐等目标,还没有发现有相关的解决 方案。
发明内容
有鉴于此,本发明的目的是提供一种基于文字交互行为的用户特征建模方法,能基于用 户的文字交互行为来挖掘用户的个性化特征。
为了达到上述目的,本发明提供了一种基于文字交互行为的用户特征建模方法,包括有:
步骤一、采集每个用户发表的文字,将文字进行分词,并将每个分词转化成一个词向量, 再根据文字所包含的分词,将用户发表的文字转化成相应的文字向量,同时为每个用户分别 构建两个向量:喜好特征向量和自身特征向量;
步骤二、根据用户之间的关注和交互记录,计算不同用户对其主动交互的其它用户的关 注强度,并为每个用户构建一个深度关注用户群,然后根据不同用户的深度关注用户群,构 建以所有用户为节点的用户深度关注网络图,所述用户深度关注网络图中,每个用户各为一 个节点,且存在有由每个用户节点指向其深度关注的用户节点的有向边,所述有向边的权值 为用户节点对其深度关注的用户的关注强度;
步骤三、根据用户深度关注网络图中每个用户节点的有向边的权值,分别计算每个用户 的喜好特征向量和自身特征向量。
与现有技术相比,本发明的有益效果是:本发明充分利用用户的发表文字、关注和交互 记录这些用户行为,计算出用于表征用户个性的喜好特征向量和自身特征向量,技术方案简 单易行,具有很高的易操作性和实用性;本发明进一步使用喜好特征向量和自身特征向量这 两个向量分别对每个用户的喜好和自身所具备的特征进行标识,通过多次迭代计算来得到最 终的用户向量,从而能对用户的喜好和自身特征进行精准把握;还可以基于本发明中每个用 户的喜好特征向量和自身特征向量,并通过向量之间的相似度计算,来实现个性化推荐等目 标。
附图说明
图1是本发明一种基于文字交互行为的用户特征建模方法的流程图。
图2是图1步骤二中,根据用户之间的关注和交互记录,计算任一用户Ua对其主动交互 的其它用户的关注强度,并为用户Ua构建一个深度关注用户群的具体计算流程图。
图3是用户深度关注网络图的一个实施例示意图。
图4是图1步骤三中,根据用户深度关注网络图,分别计算每个用户的喜好特征向量和 自身特征向量的具体计算流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细 描述。
如图1所示,本发明一种基于文字交互行为的用户特征建模方法,包括有:
步骤一、采集每个用户发表的文字,将文字进行分词,并将每个分词转化成一个词向量, 再根据文字所包含的分词,将用户发表的文字转化成相应的文字向量,同时为每个用户分别 构建两个向量:喜好特征向量和自身特征向量;
步骤二、根据用户之间的关注和交互记录,计算不同用户对其主动交互的其它用户的关 注强度,并为每个用户构建一个深度关注用户群,然后根据不同用户的深度关注用户群,构 建以所有用户为节点的用户深度关注网络图,所述用户深度关注网络图中,每个用户各为一 个节点,且存在有由每个用户节点指向其深度关注的用户节点的有向边,所述有向边的权值 为用户节点对其深度关注的用户的关注强度;
步骤三、根据用户深度关注网络图中每个用户节点的有向边的权值,分别计算每个用户 的喜好特征向量和自身特征向量。
所述步骤一中,可以采用现有的一些技术将文字分词、以及将分词转化成词向量,如 word2vec等。根据文字所包含的分词,将用户发表的文字转化成相应的文字向量的计算公式 可以如下:其中,X是文字向量,ni是文字所包含的第i个分词的个数,wi是文字所包含的第i个分词对应的词向量,N是文字所包含的互不相同的分词总数,i是1 到N之间的一个自然数。喜好特征向量、自身特征向量分别用于表示用户的喜好、或自身所 具有的特征,本发明可以根据两个向量的计算来挖掘用户的个性化特征。
如图2所示,步骤二中,根据用户之间的关注和交互记录,计算任一用户Ua对其主动交 互的其它用户的关注强度,并为用户Ua构建一个深度关注用户群,还可以进一步包括有:
步骤21、从用户Ua的关注和交互记录中,寻找用户Ua主动交互(例如评论、回复或点 赞等)的所有其他用户;
步骤22、从用户Ua主动交互的所有其他用户中提取其中一个用户;
步骤23、根据用户Ua对提取用户的关注时间、和每次主动交互的发生时间距离当前日期 的天数,计算用户Ua对提取用户的关注强度:
g(Ua,Ut)的计算过程还可以进一步如下:判断用户Ua和提取用户Ut所使用的文字交互 系统是否具有关注功能?如果是,则根据用户Ua对提取用户Ut的关注天数,计算g(Ua,Ut): 其中,p是关注权重调整系数,q是关注天数调整系数, p、q分别是一个大于0的实数,其值可以根据实际需要而设定,tg(Ua,Uj)是用户Ua对提 取用户Ut的关注天数;如果否,则g(Ua,Ut)=1;
步骤24、判断是否已提取完用户Ua主动交互的所有其他用户?如果是,则继续下一步; 如果否,则继续从用户Ua主动交互的所有其他用户中提取下一个用户,转向步骤23;
步骤25、统计用户Ua对所有其他用户的主动交互次数之和: 其中,Uj是用户Ua主动交互的第j个用户,J是用户Ua所 有主动交互的用户数,zj(Ua,Uj)是用户Ua对用户Uj的主动交互次数,j是1到J之间的一 个自然数;
步骤26、为用户Ua构建一个深度关注的用户群,初始化为空,并设定深度关注强度sq 为0,然后将用户Ua对其他用户的关注强度按照从大到小的次序对用户Ua主动关注的所有其 他用户进行排序,并按顺序从中挑选出第一个用户;
步骤27、将挑选用户保存到用户Ua深度关注的用户群中,然后计算深度关注强度sq: sq=sq+zj(Ua,Ud),其中,Ud是挑选用户,并判断sq是否大于或等于Sum_zj(Ua)×r%?如 果是,本流程结束;如果否,则继续下一步;其中,r%是深度关注比值阈值,r可以是[20, 80]范围内的一个实数;
步骤28、判断是否已挑选完用户Ua主动关注的所有用户?如果是,则本流程结束;如果 否,则继续按顺序从用户Ua主动关注的所有其他用户中挑选出下一个用户,转向步骤27。
这样,对应于用户Ua深度关注的用户群中的每个关注用户,在步骤二所构建的用户深度 关注网络图中各存在有一条由用户Ua的节点指向每个关注用户的节点的有向边。例如,图3 所示的用户深度关注网络图中,共包括有5个用户节点:U1、U2、U3、U4、U5,用户U1深 度关注的用户群为:{U2,U4},用户U2深度关注的用户群为:{U3,U5},用户U3深度关 注的用户群为:{U2,U5},用户U4深度关注的用户群为:{U1,U2,U5},用户U5深度关 注的用户群为:{U4}。
如图4所示,步骤三中,计算每个用户的喜好特征向量和自身特征向量,还可以进一步 包括有:
步骤31、根据用户发表文字的文字向量、以及每篇文字的发表日期距离当前日期的天数, 对每个用户的喜好特征向量和自身特征向量的取值进行初始化,初始化的计算公式可以如下:
步骤32、设定迭代次数D_Num为0;
步骤33、为深度关注网络图中的每个用户节点寻找由其指向其他用户节点的所有有向边, 然后根据所有有向边的权值及指向节点的自身特征向量,计算每个用户的更新后的喜好特征 向量:
步骤34、为深度关注网络图中的每个用户节点寻找由其他用户节点指向自身节点的所有 有向边,然后根据所有有向边的权值及其它用户节点的喜好特征向量,计算每个用户的更新 后的自身特征向量:
步骤35、将所有用户的喜好特征向量和自身特征向量替换成其更新后的喜好特征向量和 自身特征向量,即Des(Ua)=Des'(Ua)、Cha(Ua)=Cha'(Ua);
步骤36、更新迭代次数:D_Num=D_Num+1,判断迭代次数D_Num是否大于迭代次 数阈值?如果是,则本流程结束;如果否,则转向步骤33,所述迭代次数阈值可以根据实际 情况而灵活设置,根据具体情况进行若干次迭代计算后,即可得到每个用户的喜好特征向量 和自身特征向量。
本发明还可以通过分词向量、文字向量、用户的喜好特征向量或自身特征向量之间的相 似度计算,从中遴选出相似度高的分词、文字、或用户信息推荐给用户。因此,本发明还可 以包括有以下的一个或多个步骤:
A、计算用户的自身特征向量和若干个分词的词向量之间的相似度:Sim(Cha(Ua),w), 其中,Cha(Ua)是用户Ua的自身特征向量,w是分词的词向量,当相似度越大,则表示用户 Ua和词w的相关度越高,然后从中遴选出相似度大的分词来表征用户;
B、计算用户的喜好特征向量和若干个文字向量之间的相似度:Sim(Des(Ua),X),其 中,Des(Ua)是用户Ua的喜好特征向量,X是文字向量,当相似度越大,则表示用户Ua对 文字X的兴趣越大,然后从中遴选出相似度大的文字推荐给用户;
C、计算用户的喜好特征向量和其他若干个用户的自身特征向量之间的相似度:Sim (Des(Ua),Cha(Ub)),其中,Des(Ua)是用户Ua的喜好特征向量,Cha(Ub)是用户Ub的 自身特征向量,当相似度越大,则表示用户Ua对用户Ub的兴趣越大,然后从中遴选出相似 度大的用户推荐给用户进行关注;
D、计算用户的喜好特征向量、自身特征向量和其他若干个用户的喜好特征向量、自身特 征向量之间的相似度:a×Sim(Cha(Ua),Cha(Ub))+b×Sim(Des(Ua),Des(Ub)),其中, a、b分别是自身、喜好的相似度系数,a、b的值可以根据实际情况而设定,Cha(Ua)、Cha(Ub) 分别是用户Ua、Ub的自身特征向量,Des(Ua)、Des(Ub)分别是用户Ua、Ub的喜好特征向 量,当相似度越大,则表示用户Ua和用户Ub越相似,然后从中遴选出相似度大的用户的喜 好信息推荐给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
机译: 一种计算机辅助的用户行为检测方法,包括将远程测试区域作为HTTP响应传输到用户的原始HTTP请求,并通过跟踪功能识别用户与网页的交互
机译: 基于用户交互的多媒体内容序列优化方法,涉及确定多媒体内容的句子,确定度量和表示用户行为
机译: 终端用户个性化信息显示在交互式媒体中,例如互联网,涉及基于个人用户行为和/或联系历史的用户个人信息