法律状态公告日
法律状态信息
法律状态
2022-09-20
实质审查的生效 IPC(主分类):G06Q50/00 专利申请号:2022105042931 申请日:20220510
实质审查的生效
2022-09-02
公开
发明专利申请公布
技术领域
本发明属于用户行为探究技术领域,具体涉及一种在线社区亲社会与反社会行为传染性度量方法。
背景技术
用户行为传染性度量是通过各种因素获取社区中用户行为传染性得分进而可以获取用户行为传染性排名,挖掘亲社会传染性高的用户可以促进其言论对社区的友好建设进行推促作用,挖掘反社会传染性高的用户可以抑制其与关注者之间的链接从而控制反社会行为大规模的发酵。其中,PageRank算法(又称网页排名)虽然最初是用来标识网页的等级/重要性的一种方法,但在社交网络中也拥有重要应用,因而受到国内外研究者的广泛关注。PageRank算法的基本原理是:在初始阶段,网页根据网页间的链入链出关系构建Web图,给各个网页设定一个初始的Pagerank值,该值通常为1/n,n代表网页的数量。其次对于网页的PageRank值进行不断的更新,当达到设置的收敛条件时,即为最终的PageRank值。其中有两个关键概率需要解决,一个是网页间的传染概率,一个是重启概率。目前,少有PageRank算法对用户传染性进行度量,同时度量时考虑的因素大多借鉴信息传播的角度从拓扑结构、用户属性和历史数据进行分析,少有考虑行为传染自身的特征。
发明内容
为了克服现有技术的不足,本发明提供了一种在线社区亲社会与反社会行为传染性度量方法,首先获取在线社区用户个人属性数据、用户历史回答数据和社交关系数据;接着通过回答数据是否被折叠并且根据折叠原因将其标注为反社会行为,通过textcnn模型对回答数据是否是亲社会行为进行标注;然后对时间因素、用户免疫状态、传染者与易感者的相互状态、亲社会与反社会行为之间的相互影响和环境因素进行度量,得到一个用户可能受另一个用户的传染而回答问题的概率;最后使用PageRank算法,结合传染概率和重启因素,断进行迭代,得到最终的用户传染性度量数值排序。该方法由于考虑到了行为传染的多种影响因素,对于用户传染性度量具有较好的性能。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:获取在线社区用户个人属性数据、用户历史回答数据和社交关系数据;利用用户之间的社交关系数据构建出在线社交网络;
步骤2:如果用户历史回答数据被折叠并且折叠原因为预定义的反社会行为则将该数据标注为反社会行为;通过人工标注和textcnn模型将剩余数据标注为亲社会行为;
步骤3:从时间因素、用户免疫状态、传染者与易感者的相互状态、亲社会与反社会行为之间的相互影响和环境因素对用户u可能受用户v的传染而回答问题的概率进行度量;
步骤3-1:用户行为传染的时间因素T度量如下:
其中α、∈是分别对亲社会与反社会行为传染时间间隔绘制时间间隔分布图获得的参数值;n表示用户u的历史亲社会或反社会行为中受用户v的传染而回答问题的概率的次数,Interval(v,u,i)表示用户u的亲社会行为或反社会行为i受用户v的传染的时间间隔;
步骤3-2:用户免疫状态S的度量如下:
其中,Time
步骤3-3:对于传染者与易感者的相互状态G的度量如下:
其中,sex
步骤3-4:亲社会与反社会行为之间的相互影响F的度量表示如下:
其中num
步骤3-5:对于环境因素E的度量如下:
其中E
步骤3-6:用户u可能收到用户v传染而回答问题的概率定义为:
其中,Followers表示用户v的粉丝;
步骤4:使用历史传染数量衡量重启因子:
其中,H_Con(v)表示历史传染数量,V表示整个行为传染网络中的所有节点;δ为常数;
步骤5:基于PageRank算法,其中采用步骤3得到的概率P(v,u)和步骤4得到的重启因子替换PageRank算法的概率,进行用户行为传染性值的更新迭代;
当PageRank算法迭代停止时,得到最终的用户传染性度量数值排序。
进一步地,所述反社会行为包括违反法律法规、不友善、色情低俗、不实、传播封建迷信和其他危害行为。
进一步地,所述步骤5迭代的具体步骤为:
1)随机选择种子节点作为初始节点;
2)信息在节点上停留,然后随机选择跟随节点进行传染;
3)接收到该信息的节点成为新的种子节点,并重复第二个步骤;
4)当网络收敛时,得到最终的用户传染性的值。
本发明的有益效果如下:
本发明对在线社区中亲社会与反社会行为传染进行了探究,发现了亲社会与反社会行为传染的特征。并结合这些特征对用户传染性进行度量,本发明不仅考虑了亲社会与反社会行为传染用户影响因素,也考虑了网络拓扑结构,对于在线社区中用户亲社会与反社会行为传染性度量具有较优的性能。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明利用以下原理:考虑到采集到的数据是无标注的,反社会行为可以根据是否处于被折叠的状态并根据折叠原因进行标注,而亲社会行为在初始数据中没有任何标签可以识别,使用textcnn模型对亲社会行为进行标注。考虑到传染性度量自身特性后,借鉴医学传染性特征从时间因素、用户免疫状态、传染者与易感者的相互状态、亲社会与反社会行为之间的相互影响和环境因素这五个方面对用户对粉丝之间的概率进行度量。最后用前面的概率表示PageRank算法中用户与其粉丝之间的概率,用历史传染数量衡量PageRank算法中的重启因素。最后当PageRank模型迭代停止时,得到最终的用户传染性度量数值排序。
如图1所示,一种在线社区亲社会与反社会行为传染性度量方法,包括如下步骤:
步骤1:获取在线社区用户个人属性数据、用户历史回答数据和社交关系数据;利用用户之间的社交关系数据构建出在线社交网络。
步骤2:根据用户历史回答数据是否被折叠并且根据折叠原因如果是违反法律法规、不友善、色情低俗、不实、传播封建迷信和其他危害行为将该数据标注为反社会行为;通过人工标注和textcnn模型将剩余数据标注为亲社会行为;
步骤3:从时间因素、用户免疫状态、传染者与易感者的相互状态、亲社会与反社会行为之间的相互影响和环境因素对用户u可能受用户v的传染而回答问题的概率进行度量;
步骤3-1:行为传染性会随着时间的消逝而减弱,两个用户之间的行为传染的时间间隔越短,行为传染就越快,所以对于时间因素的度量如下:
其中α,∈是分别对亲社会与反社会行为传染时间间隔绘制时间间隔分布图获得的参数值;
步骤3-2:用户距离上次被传染的时间间隔越短,再次被传染的概率就越高,所以对于用户免疫状态的度量如下:
其中Time
步骤3-3:针对于亲社会行为而言,同性参与者之间的传染更加强烈,而异性参与者之间的传染现象不太明显;对于反社会行为而言,男性参与者之间的传染更加剧烈,而其他参与者之间的传染并不强烈,所以对于传染者与易感者的相互状态的度量如下:
其中sex
步骤3-4:亲社会行为总数对于用户发出反社会行为具有促进作用,反社会行为总数对于用户发出亲社会行为具有抑制作用,所以亲社会与反社会行为之间的相互影响的度量如下:
其中num
步骤3-5:亲社会行为传染的发生所处的环境比反社会行为传染的发生所处的环境更加的积极,所以环境因素的度量如下:
其中E
步骤3-6:用户u可能收到用户v传染而回答的概率定义为:
步骤4:计算重启因子,一个用户如果拥有更高的历史传染数量,那么其他用户就更可能被改用户传染,所以使用历史传染数量衡量重启因子:
其中,H_Con(v)表示历史传染数量,δ是为了避免出现0值;
步骤5:基于PageRank算法,其中采用步骤3量化的用户间的传染概率和步骤4量化的重启因子替换以往的概率,进行用户行为传染性值的更新迭代。具体步骤为:1)随机选择种子节点作为初始节点;2)信息在节点上停留,然后随机选择跟随节点进行传染;3)接收到该信息的节点成为新的种子节点,并重复第二个步骤;4)当网络收敛时,得到最终的用户传染性的值。
当PageRank算法迭代停止时,得到最终的用户传染性度量数值排序。
机译: 一种在线发布内容内部社区循环的方法-社区帖子与互动分析
机译: 在线社区主持系统和方法,用于维护个人的在线社区纪念
机译: 在线社区支持设备,在线社区支持方法和程序