首页> 中国专利> 一种社会网络用户参与主题行为分析方法

一种社会网络用户参与主题行为分析方法

摘要

本发明涉及的是一种社会网络用户参与主题的行为分析方法。本发明包括:定义主题相似性,关键词相似性,并建立“用户—主题—关键词”三个层次的网络模型;设计具有最大区分度的“关键词”选择算法;给出用户行为分析的相关定义和计算公式,具体包括:用户主动参与主题行为,被动参与主题行为,主题传播力以及主题影响力,并对用户参与主题的行为进行分析。本发明用网络模型完整的记录了用户在社会网络中的行为,并设计了具有最大区分度的关键词选择算法,保证了用户行为分析的效率。

著录项

  • 公开/公告号CN103838806A

    专利类型发明专利

  • 公开/公告日2014-06-04

    原文格式PDF

  • 申请/专利权人 哈尔滨工程大学;

    申请/专利号CN201310470139.8

  • 申请日2013-10-10

  • 分类号G06F17/30;

  • 代理机构

  • 代理人

  • 地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

  • 入库时间 2024-02-20 00:15:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-12

    授权

    授权

  • 2014-07-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131010

    实质审查的生效

  • 2014-06-04

    公开

    公开

说明书

技术领域

本发明涉及的是一种社会网络用户参与主题的行为分析方法。 

背景技术

社会网站的流行使得人们分享和传播信息变得十分方便和快捷,不同用户对网络信息有着不同的喜好程度,如何分析用户选择信息的行为方式,并根据用户参与主题的行为特征推荐用户可能喜欢的信息内容是一个重要的研究问题。 

目前国内外的研究学者在这些方面已经有了一定的研究和应用的成果。如:《Science》杂志刊登的The Spread of Behavior in an Online Social Network Experiment研究了行为的传播对于网络结构的影响。在《电子学报》杂志刊登的“基于用户偏好的嵌入性网络结构分析”一文分析了用户行为与其所处的互联网及现实社会关系网络之间的双重嵌入关系,从关系性嵌入和结构性嵌入两个维度给出了一些测度指标和分析方法。《计算机应用与软件》杂志刊登的“基于短信的社会网络行为分析”一文从交往圈和交往频度这两个方面对手机用户的短信发送行为进行实证研究。通过对出度、入度、交往圈大小、入出边比、新联系人比、出边平均权重和出边权重方差等七个行为特征的统计分析。《计算机研究与发展》杂志中“基于用户行为的色情网站识别”一文验证了用户访问色情网站与普通网站时的行为的差异性,并设计了基于用户行为的色情网站识别方法。《小型微型计算机系统》杂志刊登的“基于情感词典扩展技术的网络舆情倾向性分析”针对网民关于话题评论简单、数目众多的特点,建立了基于扩展的情感词典,开发了一个评论倾向性分析的半自动化网络舆情分析系统。从已有研究成果可知,研究用户参与主题行为模型是研究社会网络中用户话题倾向性分析和用户主题推荐和预测的基础,具有一定的研究意义。 

发明内容

本发明的目的在于提出一种利用网络分析方法对社会网络用户参与主题的行为进行分析的方法。 

本发明的目的是这样实现的: 

1)定义主题相似性,关键词相似性,并建立“用户—主题—关键词”三个层次的网络模型; 

2)设计具有最大区分度的“关键词”选择算法; 

3)给出用户行为分析的相关定义和计算公式,具体包括:用户主动参与主题行为,被动参与主题行为,主题传播力以及主题影响力,并对用户参与主题的行为进行分析。 

定义主题相似性,关键词相似性,并建立“用户—主题—关键词”三个层次的网络模型 的方法为:1)从社会网络的日志文件中获得每个用户发布和接收的主题信息;2)如果两个用户之间进行了通信,则产生一条从发送用户到被发送用户的有向边;3)当主题中包含一个关键词时,则从主题到该关键词产生一条无向边;4)用户发布一个主题,则从用户到主题建立一条有向连边,如果用户接收一个主题,则从主题到用户建立一条有向连边;5)定义主题的相似性,如果两个主题的相似性超过阈值则以这两个主题为端点,建立一条无向边;6)定义关键词的相似性,如果两个关键词的相似性超过阈值则以这两个关键词为端点,建立一条无向边。 

设计具有最大区分度的“关键词”选择算法是:1)选择“用户—主题—关键词”三层网络中度最大的关键词节点,并将其加入到所选关键词集合中;3)在“用户—主题—关键词”三层网络中删除被选择节点,以及与该节点相连接的其他主题节点;3)返回到步骤1)直到所选关键词节点的度小于设定的阈值。 

给出用户行为分析的相关定义和计算公式,具体包括:用户主动参与主题行为,被动参与主题行为,主题传播力以及主题影响力,并对用户参与主题的行为进行分析的方法是:1)使用用户发送这一类主题的概率表示用户主动参与主题行为,计算方法为用户发送这一类主题信息占其发送总信息的比例;2)使用用户被发送这一类主题的概率表示用户被动参与主题行为,计算方法为用户被发送这一类主题的信息占其所接收信息的比例;3)主题的传播力使用用户所发送的该主题占所有用户的发送该主题的比例来计算;4)主题的影响力使用用户接收的该类主题占所有用户的接收该类主题的比例来计算。 

本发明的有益效果在于: 

本发明用网络模型完整的记录了用户在社会网络中的行为,并设计了具有最大区分度的关键词选择算法,保证了用户行为分析的效率。 

附图说明

图1“用户—主题—关键词”三层网络示意图; 

图2关键词选取算法原理示意图。 

具体实施方式

下面结合附图和实施例对本发明进一步说明。本发明包括: 

1)定义主题相似性,关键词相似性,并建立“用户—主题—关键词”三个层次的网络模型; 

2)设计具有最大区分度的“关键词”选择算法;; 

3)给出用户行为分析的相关定义和计算公式,具体包括:用户主动参与主题行为,被动参与主题行为,主题传播力以及主题影响力,并对用户参与主题的行为进行分析。 

所述的定义主题相似性,关键词相似性,并建立“用户—主题—关键词”三个层次的网络模型的方法为:1)从社会网络的日志文件中获得每个用户发布和接收的主题信息;2)如果两个用户之间进行了通信,则产生一条从发送用户到被发送用户的有向边。3)当主题中包含一个关键词时,则从主题到该关键词产生一条无向边;4)用户发布一个主题,则从用户到主题建立一条有向连边,如果用户接收一个主题,则从主题到用户建立一条有向连边。5)定义主题的相似性,如果两个主题的相似性超过阈值则以这两个主题为端点,建立一条无向边;6)定义关键词的相似性,如果两个关键词的相似性超过阈值则以这两个关键词为端点,建立一条无向边。 

所述的设计具有最大区分度的“关键词”选择算法是:1)选择“用户—主题—关键词”三层网络中度最大的关键词节点,并将其加入到所选关键词集合中;3)在“用户—主题—关键词”三层网络中删除被选择节点,以及与该节点相连接的其他主题节点;3)返回到步骤1)直到所选关键词节点的度小于设定的阈值。 

所述的给出用户行为分析的相关定义和计算公式,具体包括:用户主动参与主题行为,被动参与主题行为,主题传播力以及主题影响力,并对用户参与主题的行为进行分析的方法是:1)使用用户发送这一类主题的概率表示用户主动参与主题行为,计算方法为用户发送这一类主题的信息占其发送总信息的比例;2)使用用户被发送这一类主题的概率表示用户被动参与主题行为,计算方法为用户被发送这一类主题的信息占其所接受信息的比例;3)主题的传播力使用用户所发送的该主题占所有用户的发送该主题的比例来计算;4)主题的影响力使用用户接收的该类主题占所有用户的接收该类主题的比例来计算。 

针对以上情况,本发明从网络分析的角度出发,提出一种社会网络用户参与主题的行为分析技术。 

本发明是基于如下问题而设计的: 

社会网络中用户参与主题的行为分析是一个挑战性的任务,对用户参与主题的行为模式分析为用户推荐有效的信息提供技术基础。对主题的传播力和影响力的分析可对当前社会网络中的讨论热点提供量化的评价,因此具有重要的理论和现实意义。 

本发明的主要技术特征体现在: 

1)建立“用户—主题—关键词”三个层次的网络模型 

具体技术路线是:1.用户、主题和关键词的相互关联关系在它们之间建立边;2.通过“用户—主题—关键词”三个层次的网络模型可以完整地保存用户的所有信息,为后续的网络分析提供了基础。 

2)设计具有最大区分度的“关键词”选择算法。 

具体技术路线:1.使用贪婪策略,每步骤选取具有最大度的关键词节点;2.删除该节点以及与该节点相连接的所有主题节点;3.返回到步骤1。 

列有公共交点。量化后的数据列形成新的数据序列,建立GM(1,N-1)模型,继而得到灰色关联矩阵。该模型为x0(0)(i)+az0(1)(i)=Σm=1N-1bmxm(1)(i),其中xm(1)(i)=Σi=1kxm(0)(i)(k=1,2,...,n),Z0(1)=(z0(1)(2),z0(1)(3).....z0(1)(n))为的紧邻均值生成序列,z0(1)(i)=12(x0(1)(i)+x0(1)(i-1)),-a为系统发展系数,bm为驱动系数,按最小二乘法求解可得到a和bm的估计值。 

(2)根据灰色关联矩阵计算出灰关联系数,继而得到关联度ri(i=1,2...n),ri即为比较序列中失效因素对参考序列失效因素的灰关联度,表明此因素与彼因素发展变化势态接近程度,其数值变化范围为0~1。ri数值越接近于1,影响程度越大。根据ri的大小进行数列排序,据此得出消防系统连锁失效因素的主次排序,判断出哪个失效因素与系统连锁性失效关联最大,筛选出连锁失效的主要因素,从而解析了失效因素对船舶消防系统安全的影响程度。 

(3)根据步骤(1)中的灰色关联矩阵,进行灰色聚类将实时观测的失效因素进行归并。,n个连锁失效因素可被聚为f类(f≤n),使得在失效评估中能用这些失效因素的综合平均指标或者其中的某一个失效因素来代表若干因素而使信息不受严重损失。这样就简洁地说明船舶消防系统连锁失效的行为,为简化连锁失效评价指标体系提供了理论依据。 

(4)结合发明步骤(2)中的连锁失效因素的排序,在发明步骤(3)的F类的每一类找出代表性失效因素,共有p个代表性失效因素(n≥p≥f),建立BP人工神经网络的预测模型。神经网络的输入向量为p个代表性失效因素,记为Z=(z1,z2,....zp)。输出量为Y=(Y1,Y2,Y3),把输出向量划分为安全、一般安全、失效三种状态分别用(1,0,0)、(0,1,0)、(0,0,1)表示,预测了舱室消防状态和消防系统连锁失效的行为,为船舶消防系统安全决策提供了参考依据。 

本发明提供了一种基于灰色关联聚类和BP人工神经网络的船舶消防系统连锁性失效的预测方法,不仅给出了连锁失效因素的主次排序,而且预测了船舶消防系统连锁性失效的行为,其思路和方法可推广于具有类似结构的其他复杂系统的连锁失效预测。 

定义主题相似性,关键词相似性,并建立“用户—主题—关键词”三个层次的网络模型 

用户的行为分析建立在一个网络模型中,然后利用网络分析方法对其进行分析,具体的建立“用户—主题—关键词”三个层次网络模型的方法步骤如下: 

从社会网络网站的日志文件中获取每个用户的活动信息,包括:通信信息、发送和接收 主题信息等; 

建立一个三个层次的网络模型,网络中的节点包括:用户、主题和关键词,示意图如图1所示。 

节点之间的连接包括以下几种情况:a)如果两个用户之间进行了通信,则产生一条从发送用户到被发送用户的有向边;b)当主题中包含一个关键词时,则从主题到该关键词产生一条无向边;c)用户发布一个主题,则从用户到主题建立一条有向连边,如果用户接收一个主题,则从主题到用户建立一条有向连边。d)定义主题的相似性,第i个主题和第j个主题的相似性计算公式为:similarityijSubject=|SubjectiKeywordSubjectjKeyword||SubjectiKeywordSubjectjKeyword|,式中表示第个i主题所包含的关键词集合。当两个主题的相似性超过阈值则以这两个主题为端点,建立一条无向边;e)定义关键词的相似性,第i个关键词和第j个关键词的相似性计算公式为:similarityijKeyword=|KeywordiSubjectKeywordjSubject||KeywordiSubjectKeywordjSubject|,式中表示第i个关键词出现主题(Subject)的集合。当两个关键词的相似性超过阈值则以这两个关键词为端点,建立一条无向边; 

2)设计具有最大区分度的“关键词”选择算法 

主题中出现的关键词数量很多,如果全部关键词进行后续的数据分析一方面会存在数据稀疏问题,另一方面会降低分析过程的效率。因此需要将关键词进行进一步的过滤和简化处理是十分必要的。但是所选择的关键词需要满足有以下两点要求:(1)选择在主题出现词频较大的词,词频较小的词对后续分析的意义不大;(2)避免选择区分度不大的关键词,如图2所示,关键词节点的入度顺序,分别为C2,C1,C3,但是C1和C2中包含有2个相同的关键词,那么如果选择C2后再选择C1的话只会增加一个主题信息,但是C3的入度虽然小于C1,但是如果选择C1会增加2个主题信息,因此应该选择关键词的顺序为C2,C3,C1。 

具有最大区分度的“关键词”选择算法的具体步骤如下: 

选择“用户—主题—关键词”三层网络中度最大的关键词节点,如果节点的度数是否超过了设定的阈值,就将它加入到所选关键词集合中: 

在“用户—主题—关键词”三层网络中删除已经加入到候选集合中的关键词节点,并删除与该关键词向连接的主题节点,以及主题节点的连边: 

返回到算法开始,直到所选择的关键词节点的度少于设定的阈值。 

3)给出用户行为分析的相关定义和计算公式,具体包括:用户主动参与主题行为,被动 参与主题行为,主题传播力以及主题影响力,并对用户参与主题的行为进行分析。 

用户的主动和被动参与主题的行为体现了用户对某一主题的感兴趣程度(与其他主题相比);主题的传播力和影响力体现同一主题在多种角色用户中被使用情况(与不同角色用户相比)。因此它们是互为补充的关系。具体实现如下: 

用户主动参与主题行为,表示用户发送这一类主题的概率,计算方法为用户发送这一类主题的信息占其发送总信息的比例,用户i主动参与主题Subject的计算公式为: ActivebehavioriSubject=OutDegreeiSubject/|SubjectKeyword|Σj=1n(OutDegreeiSubjectj/SubjectjKeyword|),式中n为主题类的总数,式中 为用户i指向主题Subject的连接出度;|SubjectKeyoord|为主题Subject包含的关键词数量。这是由于主题可能包含多个关键词,并且每个关键词类中含有的关键词数目并不一样,因此在量化时需要计算节点连接类中关键词的均值,避免关键词数目不一致所造成的影响; 

用户被动参与主题行为,表示用户被发送这一类主题的概率,计算方法为用户被发送这一类主题的信息占其所接受信息的比例,计算公式为: 

主题的传播力,是指某一类角色用户所发送的该类主题占所有用户的发送该类主题的比例,计算公式为:SubjectInfluencei=OutDegreeiSubjectΣj=1nOutnDegreejSubject;

主题的影响力,是指某一类角色用户接收的该类主题占所有用户的发送该类主题的比例。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号