首页> 中国专利> 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法

一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法

摘要

本发明涉及一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,主要从以下三方面进行设计,1)构建复杂网络模型,2)确定节点重要性指标,3)神经网络聚类;本方法将复杂网络模型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘。

著录项

  • 公开/公告号CN105740381A

    专利类型发明专利

  • 公开/公告日2016-07-06

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201610056077.X

  • 发明设计人 张兴兰;刘炀;

    申请日2016-01-27

  • 分类号G06F17/30(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 00:02:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-06

    未缴年费专利权终止 IPC(主分类):G06F16/9535 专利号:ZL201610056077X 申请日:20160127 授权公告日:20190517

    专利权的终止

  • 2019-05-17

    授权

    授权

  • 2016-08-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160127

    实质审查的生效

  • 2016-07-06

    公开

    公开

说明书

技术领域

本发明涉及挖掘用户兴趣的方法,尤其涉及一种基于复杂网络特性及神经网络聚 类挖掘用户兴趣的方法,从用户使用软件的行为日志中挖掘用户感兴趣的软件,属于人工 智能领域。

背景技术

随着互联网技术的迅猛发展,软件技术作为信息产业的一种,其发展也不可小觑, 各种新产品、新应用层出不穷,已经成为生产和生活的重要组成部分。在电子产品如此泛滥 的时代,如何抓住用户的兴趣、提高用户对于产品的忠实度和兴趣感,成为提升企业核心竞 争力的一个强有力的方案。由于用户使用电子产品(PC或者手机)的过程都是使用各种各样 软件的过程,所以对用户使用软件的行为日志进行分析,挖掘用户感兴趣的软件,获取用户 的兴趣集,使得产品开发商可以根据获取的用户兴趣集提供个性化的信息服务,开展增值 业务,提高产品综合价值。

近年来,机器学习领域吸引了越来越多的关注和研究,随着信息科技的进步、人类 行为学的发展,国内外的研究学者已经将用户行为分析挖掘的理论进行了实践研究,并逐 步转入商业应用的阶段,取得了良好的成效。大量的研究表明根据用户行为日志挖掘用户 兴趣是具有一定研究意义和应用价值的。其中Ford等人采用AprioriAll序列规则挖掘算法 对用户访问站点的日志进行研究分析,获取用户的访问兴趣,并根据用户的兴趣设置广告 投放,提高了网站的商业价值,但是AprioriAll算法只适用于挖掘用户感兴趣的关联序列, 不适用于挖掘用户兴趣的排列顺序。李建廷等人提出了基于用户浏览动作分析用户兴趣度 的计算方法,充分考虑了用户访问次数、访问动作、访问速度三种访问模式下的用户兴趣度 的计算方式,并利用BP神经网络将这三种模式下的用户兴趣度进行融合,取得了良好的实 验效果,这对神经网络算法研究用户兴趣度的融合以及聚类提供了思想,但是BP神经网络 对于网络的初始权重十分敏感,不同的初始化值往往会造成不同的训练结果,这很容易造 成偏差。王微微等人提出了一种基于用户行为日志挖掘用户兴趣的模型,结合用户的浏览 内容和行为模式建立用户兴趣向量,再根据期望最大化的计算方法实现用户聚类,建立最 终的用户兴趣模型,该模型虽然可以识别用户的购买兴趣,却没有充分考虑用户行为之间 的顺序,即行为的前后序列关系。王梓等人提出了一种基于复合关键词向量空间的方法,最 大限度将用户感兴趣的关键词建立关联关系,但其选用的关键词是基于产品属性的,其方 法不具有普遍通用性。

复杂网络技术是大数据处理技术的一种,是从复杂性科学角度出发,探索隐藏在 大数据中真正的数据价值。复杂网络主要是依靠一切事务都具有相互作用的表现(例如WWW 中网页之间的链接关系、文章之间的引用关系和超市中啤酒尿布的关联关系),利用网络的 视角建立数据模型,挖掘数据规则,并通过复杂网络的小世界效应和无标度特性计算网络 中节点的重要性,形成网络节点的重要性序列。聚类是数据挖掘中的一个重要组成部分,是 通过度量样本间的相似性,发现隐藏在底层的关联性数据的又一个常见方法。

为了从用户使用软件的行为日志中获取用户感兴趣的软件,本方法应用复杂网络 中的理论知识以及神经网络聚类的方法,先形成用户的兴趣软件集,然后再应用神经网络 算法对兴趣软件集中的软件进行聚类,实现这两种方法的结合,计算用户兴趣软件集。首先 根据用户行为间的相互作用建立复杂网络模型,将软件看作复杂网络中的节点,按照软件 使用的顺序构建边,充分考虑了用户使用软件之间的关联关系。然后根据复杂网络模型的 统计指标和行为本身的概率特性,计算网络节点的重要性序列,形成用户兴趣节点社区。最 后利用word2vec工具形成软件的向量,根据向量之间的余弦距离衡量软件的相似性,实现 用户兴趣社区聚类,合并聚类形成最终的用户感兴趣的软件集合。

发明内容

为了挖掘用户的兴趣软件和软件之间的关联性,本方法将复杂网络模型应用到用 户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介 数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型 挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且 将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘。

为实现上述目的,本发明采用的技术方案为一种基于复杂网络特性及神经网络聚 类挖掘用户兴趣的方法,主要从以下三方面进行设计。

1)构建复杂网络模型。用户使用软件的先后顺序具有一定的相关性,如用户先使 用Windows照片查看器,然后使用Photoshop,接着使用PowerPoint,这些软件体现了用户使 用图片形成文档的过程,在所有软件的使用序列中形成小世界效应,所以按照软件使用的 顺序,使得共同出现在一个窗口内的软件形成共现关系,构建复杂网络拓扑结构。利用 PageRank的思想,以节点之间的连接度作为边的权重。

2)确定节点重要性指标。针对节点重要性排序的指标特性的计算方法,形成用户 兴趣社区;其中,节点的度表示该节点的邻居数,有大量邻居数的节点具有更大的影响力和 号召力。

3)神经网络聚类。利用CBOW和Skip-gram模型对用户兴趣社区中的软件依据上下 文序列中的关联形成软件词向量,并利用向量的距离进行聚类,合并聚类,确定最终的用户 兴趣软件集。

第一、构建复杂网络模型

用户在同一个开关机会话中使用软件的先后顺序具有很强的相关性。换言之,相 邻软件都是相关联的,所以采用K近邻的共现情况构成复杂网络中的边集,而研究发现K=2 时节点之间的联系最强,此时具有明显的小世界特性。复杂网络G=(V,E)是由|V|=N个节 点和|E|=M条边连接所组成的一个有向网络,其中,V为复杂网络G的节点集,由用户软件行 为日志中的候选软件组成,且

In(vi)={vj|<vj,vi>∈E},Out(vi)={vj|<vi,vj>∈E}

E为G的边集,由软件的共现关系形成且对于vi+1∈V,如果vi, vi+1符合K近邻的共现情况,则有<vi,vi+1>∈E,边的权重可写成

strength(vi,vj)=1Σ|posi-posj|---(1)

weight(vi,vj)=Ti*strength(vi,vj)(2)

其中,strength(vi,vj)表示节点vi,vj之间的连接强度,|posi-posj|表示节点vi,vj在共现窗口内的距离,weight(vi,vj)表示边<vi,vj>的权重,Ti表示软件节点vi的使用时长。 i,j为整数且0≤i<N(本方法中的下标取值均如此),i≠j。

第二、节点重要性统计特性

在本方法的用户软件行为日志中,用户使用软件的时长能够反映软件的重要性, 只需要将复杂网络中节点的重要性对其进行修正即可。根据传播动力学的知识衡量网络中 节点的重要性,将网络中的节点作为传播源,通过计算目标节点的传播范围来衡量节点在 传播过程中的影响力以及号召力。在一个网络中,节点删除前后网络图联通性的变化能够 充分说明该节点是否有足够的能力破坏网络,体现了节点的重要性。所以综合考虑复杂网 络特性、实用性以及行为数据本身的特性,选取节点聚集系数、节点介数和节点度数作为评 价节点重要性的指标特性。

1)节点聚集系数

节点vi的聚集系数是与该节点相邻的结点之间的连接数和它们之间所有可能存 在的连接数的比值,表示了所有相邻结点形成一个小团簇的紧密程度。节点的聚集系数写 成

clu(vi)=|{ejk}|ki(ki-1)---(4)

其中,ki表示与节点vi相邻的节点个数,这些邻接点之间可能存在ki(ki-1)条边,| ejk|表示vi邻接点之间实际存在的边数且ejk∈E。

2)节点介数

节点Vi的介数是任意两个节点的最短路径中经过节点vi的路径数与最短路径的总 数形成的比值,反映该节点在网络中的影响力。计算公式写成

bet(vk)=Σkijnd(ijk)nd(ij)---(5)

其中,nd(ij)表示vi和vj之间最短路径的数目,nd(ijk)表示vi和vj经过vk的最短路径 的数目。

3)节点度数

节点的度数表示与该节点相连接的边的个数,度的大小直接反映了该节点对于复 杂网络中其他节点的影响力,计算公式写成

gre(vi)=Σ<vi,vj>Eaij---(6)

aij=1<vi,vj>E0<vi,vj>E

IMP(vi)=βTi-1nΣTi1nΣ(Ti-1nΣTj)2+(1-β)gi-1nΣgi1nΣ(gi-1nΣgj)2---(7)

gi=clu(vi)+bet(vi)+gre(vi)(8)

其中,gi表示复杂网络G中节点vi的重要性系数的综合值,clu(vi)为节点vi的聚集 系数,bet(vi)为节点vi的介数,gre(vi)为节点vi的度,Ti表示节点vi的使用时长,β是指标调 参,取值0.6。

综上所述,公式(7)是综合软件的时长特性和节点在复杂网络中的重要性的综合 性指标,是多个判定指标标准化处理后再合并的结果,成为评判软件重要性的综合指标。

第三、神经网络聚类

CBOW和Skip-gram模型是基于问答模式的,一个问题出现某种答案的现象,也能够 表示成一个问题与某种答案形成共现关系的情况。所以本方法使用word2vec工具融合CBOW 模型和Skip-gram模型,将软件看成词项,基于前期工作中网络拓扑结构中的共现关系、日 志中软件的使用顺序构成的序列上下文形式,计算各个软件的向量,然后根据向量余弦距 离计算软件相似性,在本方法中取距离最近的软件形成聚类。其中,余弦距离公式可写成,

cosθ=<a,b>|a||b|---(9)

其中,表示节点vi的向量,表示节点vj的向量。

附图说明

图1发明框架示意图。

具体实施方式

如图1所示为本发明的示意图,为了验证本方法对用户兴趣软件的挖掘效果,收集 1000名测试用户在15天之内(20150805-20150819)使用电脑软件的行为日志,并人工采集 用户选定的兴趣软件与最终的实验结果进行比对,采用精确度P、召回率R、F1值对结果进行 评测,用精确度表明算法挖掘的准确性,召回率表明算法挖掘的覆盖性,F1值是对精确度和 召回率两个指标的综合评估率的说明,计算公式可写成

P=NminingrightNmining---(10)

R=NminingrightNsample---(11)

F1=2×P×RP+R---(12)

其中,Nminingright表示算法挖掘出用户兴趣中正确兴趣的数量,Nmining表示算法挖掘 用户兴趣的总数,Nsample表示用户标注的兴趣总数,并将本方法与基于关键词提取用户兴趣 模型的算法(TextRank)进行比对,本方法在精确度、召回率、F1值上都有所提高。算法平均 值结果对比如表1所示。

表1算法平均值结果的对比表

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号