公开/公告号CN113127696A
专利类型发明专利
公开/公告日2021-07-16
原文格式PDF
申请/专利权人 武汉大学深圳研究院;深圳市新一代信息技术研究院有限公司;
申请/专利号CN202110299342.8
申请日2021-03-21
分类号G06F16/901(20190101);G06F16/9537(20190101);G06Q50/00(20120101);
代理机构44322 广东德而赛律师事务所;
代理人柴吉峰
地址 518057 广东省深圳市南山区科技园南区科苑南路武汉大学深圳产学研大楼A304室
入库时间 2023-06-19 11:52:33
技术领域
本发明涉及互联网技术领域,本发明属于影响力度量领域,具体涉及一种提高基于行为的影响力度量准确性方法。
背景技术
从上世纪末开始,Web 2.0技术引发了在线社交网络的快速发展,如Twitter、Facebook、微博等。此后,研究人员首次可以通过在线网站收集大量与现实世界一致的数据。能够深入研究社会影响与社交网络中的网络结构、用户行为、舆论等诸多原因之间的相关性。在社交网络影响力度量方面取得了大量的成果,广泛应用于专家调查、推荐系统、商品营销等领域。同时,人们已经习惯借助社交网络平台上分享日常的生活,人们不再单纯地作为内容的接收者,他们还成为了内容的生产者和传播者。研究用户之间的影响力度量有极大的作用。
目前基于位置的社交网络越来越流行,用户热衷于在社交网络分享他们的地理位置并签到,发表评论和意见等。目前关于基于位置的社交网络方面的研究已经有很多,但是这些研究中关于影响力度量的方法一部分单纯从网络拓扑结构进行度量,缺乏了用户之间的关键交互内容信息,其影响力度量准确度不佳;一部分考虑了用户行为以及用户相关社交文本信息,丰富了用户特征,相比基于网络拓扑结构的影响力度量效果更好。但上述度量方法都主要是依据用户之间存在相似性的行为以确定影响力的大小,这种判断的标准过于单一,针对于基于签到信息的用户影响力度量来说,很容易出现两个用户在同位置签到但两者之间并无关系的情况。
综上所述,现有的技术存在的问题是:现有的基于用户签到信息的影响力度量主要是通过用户签到位置或者相关签到信息的相似度来确定用户之间的影响力。现有的度量方法的标准单一,影响力的度量精度较差。
发明内容
针对现有技术存在的问题,本发明提出了一种基于签到信息的影响力度量方法,技术方案如下:
一种提高基于行为的影响力度量准确性方法,包含以下步骤:
步骤1、构建初始网络;
步骤2、测量用户m对目标用户n的单次行为影响力,判定用户m与目标用户n之间是否存在连边;m、n两用户没有连边,则m、n两用户在该签到行为下的影响力为0;m、n两用户有连边,则执行步骤3;
步骤3、剔除用户本身个人喜好的影响;
步骤4、计算社会大众影响因素的影响;
步骤5、剔除来自朋友圈因素的影响;
步骤6、计算基于用户偏好相似的影响;
步骤7、对用户行为相似度随时间变化产生的影响进行修正;
步骤8、在步骤3至7的基础上,计算目标用户n受到m的影响力。
优选地,在步骤1中使用无向图G(V,E,C)表示基于位置的社交网络,V表示网络中的节点集合,即社交网络用户集合;E表示网络中边的集合,即社交用户之间的关系;任意用户x的签到记录用
优选地,在步骤2中包括以下子步骤:
步骤2.1:如果m、n两个用户均在同一位置签到,且m的签到时间早于n的签到时间则存在影响力,则直接进入步骤3;
步骤2.2:如果m、n两个用户在同一位置签到,但m的签到时间晚于n的签到时间,或者mn两个用户没有在同一位置签到,则不存在影响力;
优选地,在步骤3中剔除用户本身个人喜好的影响根据所有用户的签到记录
优选地,在步骤4中,有别于社交圈子,即所有一阶朋友的影响,这里规定社会大众为用户的非直接朋友;社会大众的影响因素用流行度来计算,影响力与社会大众影响因素呈现反比关系;其中地点流行度是指某个地点在当前某长度时段受到社会大众追捧的程度,某位置流行度为:位置在当前时间段内被所有用户签到的次数占该时间段所有位置总签到次数的比例;包括以下两个子步骤:
步骤4.1:计算位置
其中,
步骤4.2:剔除位置热门影响因素后用户n受到的来自所有邻居朋友用户的总的影响力,表示如下:
g
优选地,在步骤5中,朋友圈子由目标用户n的多个邻居朋友组成,首先根据用户之间的行为影响力随时间间隔的延长而衰减理论,建立影响力时间衰减模型,然后根据用户朋友圈的影响因素,对目标用户的影响力大小按照时间先后顺序对影响力进行重分配;其中重分配由朋友圈子中不同用户对目标用户的影响力大小因激活时间间隔不同而不同,根据softmax函数进行m对n的影响力重分配,主要分为以下2个子步骤:
步骤5.1:利用概率论中e指数时间衰减模型来量化衰减率,时间衰减模型表示如下:
其中,I(n|m)表示用户m对n的影响力,σ为衰减系数,
步骤5.2:在时间衰减模型下,对于朋友圈子中不同用户对目标用户的影响力大小因激活时间间隔不同而不同;根据softmax函数进行m对n的影响力重分配,剔除朋友圈影响因素后m对n的影响力模型如下:
其中,
优选地,在步骤6中,将用户m、n的所有签到位置提取出来,表示为:
优选地,在步骤7中,于用户相似度是随时间变化的,在初期用户的位置行为记录较少,而后期的位置行为记录则较多,这两次的行为偏好相似度计算结果也是不一样的,考虑到用户行为相似度随时间变化,因此对杰卡德相似度系数进行改进;假设用户n与m分别在
优选地,在步骤8中,计算目标用户n受到m的影响力,根据步骤3-7中m、n之间偏好相似度、位置热门影响因素以及目标用户n的朋友圈的影响因素模型,将m、n之间的影响力从上述混淆因素分离;其中影响力与位置相似度和位置热门度呈反比,并且目标用户n受到m的影响力为基于朋友圈对n的总影响力的影响力重分配除以位置相似度;m对n的基于单次行为
其中,g为调节因素。
技术效果:
本发明的技术方法是本发明考虑了导致用户之间存在相似签到行为的多种原因,用户本身的个人喜好、用户朋友圈共同影响、位置热门因素等,从而使两个用户之间的影响力度量结果更加准确。
附图说明
图1是本发明的方法流程图。
具体实施例
以下结合实施例详细说明本发明的技术方案。
实施例:
在社交网络数据集Gowalla上应用本发明,Gowalla是一个大型位置社交服务的提供商,用户可以在一个位置打卡后,因此,Gowalla的数据集非常适合构建基于位置的社交网络。在Gowalla上计算指定用户m对目标用户n在单次位置访问行为Q
步骤1:社交网络中每个用户的签到记录由签到位置和签到时间组成,任意用户x的签到记录表示为记录
步骤2:度量指定两个用户m、n之间的影响力,判定用户m与目标用户n之间是否存在影响力。
步骤2.1:如果m、n两个用户均在同一位置签到,且m的签到时间早于n的签到时间则存在影响力,则直接进入步骤3。
步骤2.2:如果m、n两个用户在同一位置签到,但m的签到时间晚于n的签到时间,或者m、n两个用户没有在同一位置签到,则不存在影响力:
步骤3:用户重复行为去除,根据所有用户的签到记录
步骤4:计算位置热门度因素影响,有别于朋友圈(所有邻居朋友)的影响,位置热门的影响因素用热门度来计算,影响力与位置热门影响因素呈现反比关系。其中位置热门度是指某个位置在当前某长度时段受到位置热门追捧的程度,某位置热门度为:位置在当前时间段内被所有用户签到的次数占该时间段所有位置总签到次数的比例。主要有以下两个子步骤:
步骤4.1:计算位置
其中,
步骤4.2:剔除位置热门影响因素后用户n受到的来自所有邻居朋友用户的总的影响力,表示如下:
g
步骤5:剔除来自朋友圈子因素的影响,朋友圈子由目标用户n的多个邻居朋友组成,首先根据用户之间的行为影响力随时间间隔的延长而衰减理论,建立影响力时间衰减模型,然后根据用户朋友圈的影响因素,对目标用户的影响力大小按照时间先后顺序对影响力进行重分配。其中重分配由朋友圈子中不同用户对目标用户的影响力大小因激活时间间隔不同而不同,根据softmax函数进行m对n的影响力重分配。主要分为以下2个子步骤:
步骤5.1:利用概率论中e指数时间衰减模型来量化衰减率,时间衰减模型表示如下:
其中,I(n|m)表示用户m对n的影响力,σ为衰减系数,
步骤5.2:在时间衰减模型下,对于朋友圈子中不同用户对目标用户的影响力大小因激活时间间隔不同而不同。根据softmax函数进行m对n的影响力重分配,剔除朋友圈影响因素后m对n的影响力模型如下:
其中,
步骤6:计算基于位置相似度的影响,将用户m,n的所有签到位置提取出来,表示为:
步骤7:由于用户相似度是随时间变化的,在初期用户的位置行为记录较少,而后期的位置行为记录则较多,这两次的行为偏好相似度计算结果也是不一样的,考虑到用户行为相似度随时间变化,因此对杰卡德相似度系数进行改进。假设用户n与m分别在
步骤8:计算目标用户n受到m的影响力,根据步骤3-7中m、n之间偏好相似度、位置热门影响因素以及目标用户n的朋友圈的影响因素模型,将m、n之间的影响力从上述混淆因素分离。其中影响力与位置相似度和位置热门度呈反比,并且目标用户n受到m的影响力为基于朋友圈对n的总影响力的影响力重分配除以位置相似度。m对n的基于单次行为
其中,g为调节因素。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
机译: 一种基于多元资源度量的时差调整方法,一种基于多元资源度量和存储介质值调整时差的装置,一种基于多元度量值存储时差的程序
机译: 一种基于复杂通信系统的用户行为度量方法-一致性程度
机译: 一种基于质谱分析数据的提高确定生物聚合物氨基酸残基序列准确性的方法