首页> 中国专利> 一种基于文字交互行为的用户特征建模方法

一种基于文字交互行为的用户特征建模方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于文字交互行为的用户特征建模方法，包括：采集用户发表文字，将文字进行分词，并将每个分词转化成词向量，再将用户发表文字转化成文字向量，同时为每个用户分别构建喜好特征向量和自身特征向量；计算不同用户对其主动交互的其它用户的关注强度，并为每个用户构建一个深度关注用户群，然后构建以所有用户为节点的用户深度关注网络图，网络图中，每个用户各为一个节点，且存在由用户节点指向其深度关注的用户节点的有向边，有向边权值为用户节点对其深度关注的用户的关注强度；根据用户深度关注网络图，计算用户的喜好特征向量和自身特征向量。本发明属于互联网技术领域，能基于用户的文字交互行为来挖掘用户的个性化特征。

著录项

公开/公告号CN105320647A

专利类型发明专利
公开/公告日2016-02-10

原文格式PDF
申请/专利权人北京邮电大学;
展开▼

申请/专利号CN201510883613.9
发明设计人廖建新;沈奇威;张涛;张磊;朱晓民;
展开▼

申请日2015-12-04
分类号G06F17/27;G06F17/30;
代理机构
代理人
地址 100876 北京市海淀区西土城路10号
入库时间 2023-12-18 14:21:19

法律信息

法律状态公告日

法律状态信息

法律状态
2018-05-15

授权

授权
2016-03-09

实质审查的生效 IPC(主分类):G06F17/27 申请日:20151204

实质审查的生效
2016-02-10

公开

公开

说明书

技术领域

本发明涉及一种基于文字交互行为的用户特征建模方法，属于互联网技术领域。

背景技术

现在是一个信息过剩的时代，每天用户接受的信息非常多，但是真正用户喜欢、需要的很少。因此，出现了用户个性化推荐的技术方案，希望能向用户推荐其真正喜欢、需要的内容。

随着社会化网络的逐步发展，人们进行信息交流的方式也多种多样，例如：论坛、微博、 MSN、QQ等，已经深受大家的喜爱，它们为人们的沟通、信息交流提供了新的途径，是除了手机、固话、电子邮件之外的又一种重要的信息交流方式。借助这些文字交互系统，可以让人和人之间的交流成本大大降低，且提高了效率。目前，这些成熟的文字交互系统已得到了迅速的发展壮大，几乎涵盖了人们生活的各个方面。但如何基于用户的文字交互行为来挖掘用户的个性化特征，从而能利用这些特征实现个性化推荐等目标，还没有发现有相关的解决方案。

发明内容

有鉴于此，本发明的目的是提供一种基于文字交互行为的用户特征建模方法，能基于用户的文字交互行为来挖掘用户的个性化特征。

为了达到上述目的，本发明提供了一种基于文字交互行为的用户特征建模方法，包括有：

步骤一、采集每个用户发表的文字，将文字进行分词，并将每个分词转化成一个词向量，再根据文字所包含的分词，将用户发表的文字转化成相应的文字向量，同时为每个用户分别构建两个向量：喜好特征向量和自身特征向量；

步骤二、根据用户之间的关注和交互记录，计算不同用户对其主动交互的其它用户的关注强度，并为每个用户构建一个深度关注用户群，然后根据不同用户的深度关注用户群，构建以所有用户为节点的用户深度关注网络图，所述用户深度关注网络图中，每个用户各为一个节点，且存在有由每个用户节点指向其深度关注的用户节点的有向边，所述有向边的权值为用户节点对其深度关注的用户的关注强度；

步骤三、根据用户深度关注网络图中每个用户节点的有向边的权值，分别计算每个用户的喜好特征向量和自身特征向量。

与现有技术相比，本发明的有益效果是：本发明充分利用用户的发表文字、关注和交互记录这些用户行为，计算出用于表征用户个性的喜好特征向量和自身特征向量，技术方案简单易行，具有很高的易操作性和实用性；本发明进一步使用喜好特征向量和自身特征向量这两个向量分别对每个用户的喜好和自身所具备的特征进行标识，通过多次迭代计算来得到最终的用户向量，从而能对用户的喜好和自身特征进行精准把握；还可以基于本发明中每个用户的喜好特征向量和自身特征向量，并通过向量之间的相似度计算，来实现个性化推荐等目标。

附图说明

图1是本发明一种基于文字交互行为的用户特征建模方法的流程图。

图2是图1步骤二中，根据用户之间的关注和交互记录，计算任一用户U_a对其主动交互的其它用户的关注强度，并为用户U_a构建一个深度关注用户群的具体计算流程图。

图3是用户深度关注网络图的一个实施例示意图。

图4是图1步骤三中，根据用户深度关注网络图，分别计算每个用户的喜好特征向量和自身特征向量的具体计算流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于文字交互行为的用户特征建模方法，包括有：

步骤三、根据用户深度关注网络图中每个用户节点的有向边的权值，分别计算每个用户的喜好特征向量和自身特征向量。

所述步骤一中，可以采用现有的一些技术将文字分词、以及将分词转化成词向量，如 word2vec等。根据文字所包含的分词，将用户发表的文字转化成相应的文字向量的计算公式可以如下：其中，X是文字向量，n_i是文字所包含的第i个分词的个数，w_i是文字所包含的第i个分词对应的词向量，N是文字所包含的互不相同的分词总数，i是1 到N之间的一个自然数。喜好特征向量、自身特征向量分别用于表示用户的喜好、或自身所具有的特征，本发明可以根据两个向量的计算来挖掘用户的个性化特征。

如图2所示，步骤二中，根据用户之间的关注和交互记录，计算任一用户U_a对其主动交互的其它用户的关注强度，并为用户U_a构建一个深度关注用户群，还可以进一步包括有：

步骤21、从用户U_a的关注和交互记录中，寻找用户U_a主动交互(例如评论、回复或点赞等)的所有其他用户；

步骤22、从用户U_a主动交互的所有其他用户中提取其中一个用户；

步骤23、根据用户U_a对提取用户的关注时间、和每次主动交互的发生时间距离当前日期的天数，计算用户U_a对提取用户的关注强度： $S (U_{a}, U_{t}) = g (U_{a}, U_{t}) \times Σ_{m = 1}^{M_{j}} e^{- k \times t_{h}^{m} (U_{a}, U_{t})},$ 其中，U_t是提取用户，S(U_a,U_t)是用户U_a对提取用户U_t的关注强度，g(U_a,U_t)是用户U_a对提取用户U_t的关注权重系数，是用户U_a对提取用户U_t的主动交互强度，M_j是用户U_a对提取用户U_t的主动交互次数，k是主动交互系数，k是一个大于0的实数，其值根据实际需要而设定，是用户U_a对提取用户U_t的第m次主动交互的发生时间距离当前日期的天数，例如当用户U_a对提取用户U_t的第m次主动交互和当前日期是同一天时，则m是1 到M_j之间的一个自然数；

g(U_a,U_t)的计算过程还可以进一步如下：判断用户U_a和提取用户U_t所使用的文字交互系统是否具有关注功能？如果是，则根据用户U_a对提取用户U_t的关注天数，计算g(U_a,U_t)：其中，p是关注权重调整系数，q是关注天数调整系数， p、q分别是一个大于0的实数，其值可以根据实际需要而设定，t_g(U_a,U_j)是用户U_a对提取用户U_t的关注天数；如果否，则g(U_a,U_t)＝1；

步骤24、判断是否已提取完用户U_a主动交互的所有其他用户？如果是，则继续下一步；如果否，则继续从用户U_a主动交互的所有其他用户中提取下一个用户，转向步骤23；

步骤25、统计用户U_a对所有其他用户的主动交互次数之和：其中，U_j是用户U_a主动交互的第j个用户，J是用户U_a所有主动交互的用户数，zj(U_a,U_j)是用户U_a对用户U_j的主动交互次数，j是1到J之间的一个自然数；

步骤26、为用户U_a构建一个深度关注的用户群，初始化为空，并设定深度关注强度sq 为0，然后将用户U_a对其他用户的关注强度按照从大到小的次序对用户U_a主动关注的所有其他用户进行排序，并按顺序从中挑选出第一个用户；

步骤27、将挑选用户保存到用户U_a深度关注的用户群中，然后计算深度关注强度sq： sq＝sq+zj(U_a,U_d)，其中，U_d是挑选用户，并判断sq是否大于或等于Sum_zj(U_a)×r％？如果是，本流程结束；如果否，则继续下一步；其中，r％是深度关注比值阈值，r可以是[20， 80]范围内的一个实数；

步骤28、判断是否已挑选完用户U_a主动关注的所有用户？如果是，则本流程结束；如果否，则继续按顺序从用户U_a主动关注的所有其他用户中挑选出下一个用户，转向步骤27。

这样，对应于用户U_a深度关注的用户群中的每个关注用户，在步骤二所构建的用户深度关注网络图中各存在有一条由用户U_a的节点指向每个关注用户的节点的有向边。例如，图3 所示的用户深度关注网络图中，共包括有5个用户节点：U₁、U₂、U₃、U₄、U₅，用户U₁深度关注的用户群为：{U₂，U₄}，用户U₂深度关注的用户群为：{U₃，U₅}，用户U₃深度关注的用户群为：{U₂，U₅}，用户U₄深度关注的用户群为：{U₁，U₂，U₅}，用户U₅深度关注的用户群为：{U₄}。

如图4所示，步骤三中，计算每个用户的喜好特征向量和自身特征向量，还可以进一步包括有：

步骤31、根据用户发表文字的文字向量、以及每篇文字的发表日期距离当前日期的天数，对每个用户的喜好特征向量和自身特征向量的取值进行初始化，初始化的计算公式可以如下： $D e s (U_{a}) = C h a (U_{a}) = Σ_{f = 1}^{F} X_{f} (U_{a}) \times e^{- s \times t_{w}^{f} (U_{a})},$ X_f(U_a)是用户U_a发表的第f篇文字所对应的文字向量，F是用户U_a发表的文字篇数，s是文字向量调整系数，s是一个大于 0的实数，其默认值可以为1，是用户U_a的第f篇文字的发表日期距离当前日期的天数，f是1到F之间的一个自然数；

步骤32、设定迭代次数D_Num为0；

步骤33、为深度关注网络图中的每个用户节点寻找由其指向其他用户节点的所有有向边，然后根据所有有向边的权值及指向节点的自身特征向量，计算每个用户的更新后的喜好特征向量： ${Des}^{'} (U_{a}) = u \times D e s (U_{a}) + (1 - u) \times Σ_{l = 1}^{L_{S}} S (U_{a}, U_{l}) \times C h a (U_{l}),$ 其中，Des'(U_a)是用户U_a的更新后的喜好特征向量和自身特征向量，u是喜好特征向量的权重系数，其值可以是[0，1) 数值范围内的一个实数，U_l是以用户U_a节点为起始的第l条有向边的指向用户节点， S(U_a,U_l)是用户U_a节点指向用户U_l节点的有向边的权值(即用户U_a对其深度关注的用户U_l的关注强度)，Cha(U_l)是用户U_l的自身特征向量，L_S是用户U_a节点指向其他用户节点的有向边个数(即用户U_a对其深度关注的用户总数)，l是1到L_S之间的一个自然数；

步骤34、为深度关注网络图中的每个用户节点寻找由其他用户节点指向自身节点的所有有向边，然后根据所有有向边的权值及其它用户节点的喜好特征向量，计算每个用户的更新后的自身特征向量： ${Cha}^{'} (U_{a}) = v \times C h a (U_{a}) + (1 - v) \times Σ_{z = 1}^{Z_{S}} S (U_{z}, U_{a}) \times D e s (U_{z}),$ 其中，Cha'(U_a) 是用户U_a的更新后的自身特征向量，v是自身特征向量的权重系数，其值可以是[0，1)数值范围内的一个实数，U_z是指向用户U_a节点的第z条有向边的起始用户节点，S(U_z,U_a)是由用户U_z节点指向用户U_a节点的有向边的权值(即用户U_z对其深度关注的用户U_a的关注强度)，Des(U_z)是用户U_z的喜好特征向量，Z_S是指向用户U_a节点的有向边个数(即深度关注用户U_a的用户总数)，z是1到Z_S之间的一个自然数；

步骤35、将所有用户的喜好特征向量和自身特征向量替换成其更新后的喜好特征向量和自身特征向量，即Des(U_a)＝Des'(U_a)、Cha(U_a)＝Cha'(U_a)；

步骤36、更新迭代次数：D_Num＝D_Num+1，判断迭代次数D_Num是否大于迭代次数阈值？如果是，则本流程结束；如果否，则转向步骤33，所述迭代次数阈值可以根据实际情况而灵活设置，根据具体情况进行若干次迭代计算后，即可得到每个用户的喜好特征向量和自身特征向量。

本发明还可以通过分词向量、文字向量、用户的喜好特征向量或自身特征向量之间的相似度计算，从中遴选出相似度高的分词、文字、或用户信息推荐给用户。因此，本发明还可以包括有以下的一个或多个步骤：

A、计算用户的自身特征向量和若干个分词的词向量之间的相似度：Sim(Cha(U_a)，w)，其中，Cha(U_a)是用户U_a的自身特征向量，w是分词的词向量，当相似度越大，则表示用户 U_a和词w的相关度越高，然后从中遴选出相似度大的分词来表征用户；

B、计算用户的喜好特征向量和若干个文字向量之间的相似度：Sim(Des(U_a)，X)，其中，Des(U_a)是用户U_a的喜好特征向量，X是文字向量，当相似度越大，则表示用户U_a对文字X的兴趣越大，然后从中遴选出相似度大的文字推荐给用户；

C、计算用户的喜好特征向量和其他若干个用户的自身特征向量之间的相似度：Sim (Des(U_a)，Cha(U_b))，其中，Des(U_a)是用户U_a的喜好特征向量，Cha(U_b)是用户U_b的自身特征向量，当相似度越大，则表示用户U_a对用户U_b的兴趣越大，然后从中遴选出相似度大的用户推荐给用户进行关注；

D、计算用户的喜好特征向量、自身特征向量和其他若干个用户的喜好特征向量、自身特征向量之间的相似度：a×Sim(Cha(U_a)，Cha(U_b))+b×Sim(Des(U_a)，Des(U_b)),其中， a、b分别是自身、喜好的相似度系数，a、b的值可以根据实际情况而设定，Cha(U_a)、Cha(U_b) 分别是用户U_a、U_b的自身特征向量，Des(U_a)、Des(U_b)分别是用户U_a、U_b的喜好特征向量，当相似度越大，则表示用户U_a和用户U_b越相似，然后从中遴选出相似度大的用户的喜好信息推荐给用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于文字交互行为的用户特征建模方法 [P] . 中国专利： CN105320647B . 2018.05.15
2. 一种基于交互行为的区块链用户可信度评价方法 [P] . 中国专利： CN110324362B . 2021.06.04
3. Computer-assisted method for detection of user behavior, involves transmitting remote testing area as HTTP-response to original HTTP-request of user, and recognizing interaction of user with web page by tracking function [P] . 德国专利： DE102006051092A1 . 2008-04-30

机译：一种计算机辅助的用户行为检测方法，包括将远程测试区域作为HTTP响应传输到用户的原始HTTP请求，并通过跟踪功能识别用户与网页的交互
4. Method for optimization of multi-media content sequence based on user interaction, involves determining sentence of multi-media content, determining metric for measurement and representing of user behaviors [P] . 德国专利： DE102009002714A1 . 2010-11-04

机译：基于用户交互的多媒体内容序列优化方法，涉及确定多媒体内容的句子，确定度量和表示用户行为
5. Terminal user individualized information display within interactive media e.g. for Internet, involves user-individual information on basis of individual user behavior and or contact history with information [P] . 德国专利： DE10333751A1 . 2005-03-10

机译：终端用户个性化信息显示在交互式媒体中，例如互联网，涉及基于个人用户行为和/或联系历史的用户个人信息