首页> 中国专利> 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统

面向特定主题的隐蔽社区核心交际圈检测发现方法和系统

摘要

本发明提出了一种面向特定主题的隐蔽社区核心交际圈检测发现方法和系统。系统包括:关键核心用户提取模块,包括:消息相似性分析模块,用户聚合模块,核心用户提取重构模块;关键核心用户交际圈提取模块,包括:用户组关系模块及关键用户关系模块。方法包括以下步骤:建立特定主题消息内容库;对特定主题内容消息库中的消息进行分组;得到基于相似消息的消息组;建立消息组中的消息与用户的映射;对用户进行分组合并,设定相应的权值,提关键核心用户;将以关键核心用户为节点,提取两两互相链接的虚拟链接关系网为关键核心用户的核心交际圈。与传统的拓扑组织结构分析方法相比,能够快速发现和提取与主题相关的关键核心用户。

著录项

  • 公开/公告号CN106156117A

    专利类型发明专利

  • 公开/公告日2016-11-23

    原文格式PDF

  • 申请/专利权人 中国科学院信息工程研究所;

    申请/专利号CN201510160958.1

  • 发明设计人 沙灜;毋建军;梁棋;

    申请日2015-04-07

  • 分类号G06F17/30;

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 100093 北京市海淀区闵庄路甲89号

  • 入库时间 2023-06-19 00:56:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-05-01

    授权

    授权

  • 2016-12-21

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150407

    实质审查的生效

  • 2016-11-23

    公开

    公开

说明书

技术领域

本发明涉及社交网络的社区发现与跟踪领域,是一个基于特定主题的隐蔽社区核心交际圈进行快速发现的方法和系统。

背景技术

近年来,随着社交网络的大规模广泛应用,人们越来越多地将线下活动转移到线上社交网络中。社交网络是由许多关系链接而构成的实体网络,在人们的日常生活中发挥了重要的作用,用户与网络之间的交互加快了社会行为向网络行为、现实社会关系向网络社会关系以及社交信息向网络信息的转化。目前,一些微博网站(如Twitter,新浪微博、Facebook、人人网等)逐渐兴起,一方面代表了社交网络的特性,用户可以关注一些用户,随时发表、转发、评论消息等;另一方面表现了媒体特性,很多知名用户第一时间发布相关新闻消息后,这些消息能够被迅速的转发与传播,这种信息扩散的迅速性、规模性、影响力是传统媒体所无法比拟的。越来越多的社会民众通过社交网络来表达想法或者传播观点,社交网络具有交流便捷和传播迅速的特点,信息通过级联的扩散形成了大规模的影响力传播。

在大规模社交网络中,精准定位追踪特定主题下的关键用户,追踪发现特定主题下关键用户所形成的隐性的社区(隐蔽社区),有效提取、界定这些隐蔽社区的规模、所属用户的关系网络、社区演变趋势,对深入研究网络特定主题与网络人际关系、网络特定主题与现实人际关系、网上下人际关系它们之间的内在影响及规律,具有重要的理论及现实意义。

人们在社交网络中所形成的关系,有显性和隐性之分,显性关系是指网络交互行为所形成的链接关系,隐性关系是指不具有显性链接关系的人们之间讨论相同或相似的特定话题,所自发形成的群落。这些围绕特定话题所形成的关系,成为近年来社交网络关系研究的热点问题,尤其是隐性关系的研究,更是成为研究的重点。

基于显性链接关系的研究,主要集中在网络社区划分、发现相关的算法等方面,早期的社区结构划分算法主要有图分割法(Graph Partition)和层次聚类法(Hierarchical Clustering,基于社会学)两大类,其中图分割法以Kernighan-Lin算法和基于图的Laplace矩阵特征值的谱平分法(Spectral Bisection Method)为代表,层次聚类是采用基于各个节点之间连接的相似性或者连接强度,将社交网络进行划分,形成若干个社团。此外,根据向 网络中添加边或是从网络中移除边的思路,社区划分的方法又可以分为分裂方法(divisive method)和凝聚方法(agglomerative method)两大类别。在上述的各种网络划分中,无论是GN算法(分裂算法)、快速社团划分算法(NF算法)、CNM算法,还是Informap算法通过在节点和边线之间的动态信息流图,来描述整个全网的状态,都是在基于图的拓扑结构基础上,通过度中心性、接近中心性、介数中心性、特征向量中心性等来计算节点用户的重要程度,划分用户之间的链接关系。但拓扑链接结构划分特定主题下的用户,并不能有效的发现兴趣相似的用户群体及其所形成的隐性社区。

基于不同的研究角度,也有研究者从信息传播模型出发,在社交网络中模拟信息传播,根据传播的范围来采用蒙特卡洛模拟的方式进行节点影响力的评估;基于信息扩散的角度,以粉丝规模数、转发规模数、提及规模数来评价单个用户的影响力,Domingos等人提出社交网络中个人的网络影响力最大化,从该节点出发的信息能传播到达的最大范围。Weng等人基于PageRank的思想提出了TwitterRank算法,采用了综合Twitter的Topic和发布频率的方式改进了概率转移矩阵(也即是用户在某Topic下发表的tweets越多,转移概率就越大)。下面就本发明中关键词语定义如下:

面向特定主题的隐蔽社区:是指在社交网络中,那些不具有显性链接关系的用户讨论主题下系列话题,所自发形成的隐性群落,他们彼此之间没有直接的链接关系或可能并不知道对方的存在。

关键核心用户:是指在讨论主题下系列话题,促使隐性社区自发形成的过程中,话题积极的发起者、推动者或组织者,便为此特定主题下隐蔽社区中的关键核心用户。

主题:主题由一系列话题组成,一个主题可以包含一个或多个话题。话题由关键词来进行表示。

核心交际圈:是指由这些隐蔽社区中的关键核心用户所构成的虚拟链接关系网络,称为特定主题下的隐蔽社区核心交际圈,即为整个隐蔽社区结构构成中的框架。

综上所述,目前社交网络的研究工作主要集中在三个方面:以显性的链接关系(拓扑结构关系)为主的社区划分研究;以用户发布的消息及频率、用户具有的属性(profile、粉丝数、转发数等)来分析用户所影响的范围;以用户发布的消息内容分析用户讨论的话题及其话题模型建模。上述研究虽然涉及了基于链接关系的社区发现、用户影响力及范围、话题模型建模等技术,但关于隐蔽社区定义及发现、关键核心用户定义及提取、隐蔽社区核心交际 圈发现及提取三个方面的技术综合应用,尤其是隐蔽社区核心交际圈发现及提取技术,是目前的研究空白。

另外,目前对消息内容相似的判定方法有基于串匹配技术的文本扫描策略(主要用于英文),尽管该方法处理速度快,但是其存在精度不高的缺点,并不适用于中文信息处理,对中文信息的处理采用统计和规则的方法,统计通常采用分词或分词后的词频、位置等信息统计,规则的采用语义、语法规则,无论采用哪一种方法,都是仅对文本内容进行处理,一般为长文本的处理,但对短消息尤其是推文内容(通常不过140字),在进行分词、去除停用词后,有意义的主题词相对较少,比较稀疏,上述方法并不适合。

发明内容

为了实现特定主题下的隐蔽社区发现和提取,本发明提出了一种面向特定主题的隐蔽社区核心交际圈检测发现方法和系统。

本发明的系统包括:

关键核心用户提取模块,包括:

消息相似性分析模块,用以对一特定主题消息内容库中的消息进行相似性计算,并根据相似性对消息进行分组,得到基于相似消息的消息组;

用户聚合模块,用以建立消息组中的消息与用户的映射聚合;

核心用户提取重构模块,用以根据用户跨越消息组的个数对用户进行分组,然后对同时跨越同一消息组的用户进行合并,并根据消息组内用户合并的个数(活跃度)对用户设定相应的权值,然后再从合并后的用户中以跨越一定消息组的个数为依据,提取特定主题下的关键核心用户;

关键核心用户交际圈提取模块,包括:用户组关系模块,用以提取关键核心用户消息组用户之间的虚拟关系;关键用户关系模块,用以提取关键核心用户与关键核心用户之间、关键核心用户与消息组用户之间的虚拟关系;

隐蔽社区发现模块,包含用户关系模块,用以提取相似消息合并后的用户及其关系;社区发现模块,用以提取关键核心用户消息组用户所形成的隐蔽关系。

本发明的方法包括以下步骤:

1)建立特定主题消息内容库;针对特定的每一个主题设置一组关键词列表,根据关键词列表与原始的消息内容进行匹配,以建立特定主题消息内容库。

2)对特定主题内容消息库中的消息进行相似性计算,并根据相似性对消息进行分组;得 到基于相似消息的消息组;

3)建立消息组中的消息与用户的映射;

4)根据用户跨越消息组的个数对用户进行分组,然后对同时跨越同一消息组的用户进行合并,并对用户设定相应的权值,提取跨越一定个数消息组的用户为特定主题下的关键核心用户。

5)将以关键核心用户为节点,提取两两互相链接的虚拟链接关系网为关键核心用户的核心交际圈。

与传统的拓扑组织结构分析方法相比,由于通过按特定用户的消息相似性判定分类、并进行映射聚合,因而其对与主题相关的关键核心用户能够快速发现和提取。

附图说明

图1为本发明的系统部署图

图2为本发明的主体框架图。

图3为本发明的关键核心用户交际圈和隐蔽社区发现处理流程图。

图4为本发明关键核心用户提取的处理流程图。

图5为本发明实施例中某特定主题下隐蔽社区核心关键用户与拓扑社区实验结果的一映射图。

图6为本发明实施例中某特定主题下隐蔽社区核心关键用户与拓扑社区实验结果的另一映射图

具体实施方式

为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。

本系统的部署如图1所示,首先对本发明的核心技术构思进行说明,如图2所示,本发明的主体框架主要包含三个子框架模块,社交网络关键核心用户发现及提取、特定主题下的隐蔽社区发现、特定主题下的隐蔽社区中关键人物核心交际圈发现。

本发明面向特定主题的关键核心用户、隐蔽社区核心交际圈发现、隐蔽社区发现的处理流程,如图3所示,包括以下步骤:

(一)建立特定主题消息内容库。首先在特定主题下建立一组关键词列表,以关键词列表为keywords,在原始消息库中对消息内容进行匹配,提取与关键词关联的消息内容、消息用 户、消息发布时间、用户的profile等属性。

(二)将特定主题消息库内容进行相似性计算,以消息的相似性进行分组,得到基于相似消息的消息用户组,并建立消息组用户映射。即对分组的消息用户,在同一组中进行重复消息剔除、同组同一用户合并,建立消息与用户的多对一映射。

(三)将映射后的用户组,以用户跨越消息用户组的个数(至少2个),对用户组进行分别合并。然后对同一消息组内的重复用户进行合并,并对用户设定相应的权值,此时,对跨越一定个数消息组的用户作为特定主题下的关键核心用户。

(四)以关键核心用户为节点,将关键核心用户所在原有的相似消息用户组进行合并,淘汰掉关键核心用户所在消息组之外的且消息组用户低于2个的消息用户,形成以关键核心用户组为框架的,覆盖所有关键核心用户的特定主题的隐蔽社区。

(五)以关键核心用户为节点,构建关键核心用户之间的虚拟关系网络、关键核心用户与其所在消息组用户的虚拟关系网络,此时,以关键核心用户为节点的两两互连的虚拟链接关系网便为关键核心用户的核心交际圈。

(六)基于特定主题的关键核心用户在隐蔽社区与拓扑社区的映射关系,提取关键核心用户所在的拓扑关系所在社区结构。

上述步骤(二)、(三)、(四)、(五)关键核心用户和核心交际圈发现是本发明的核心。

关键用户核心用户提取过程主要从消息内容的相似性进行判定,基于相似消息组映射分类聚合用户,并最终发现提取关键核心用户。如图4所示。

具体地,特定主题下的隐蔽社区中关键人物核心交际圈的提取步骤如下:

1)对社交网络的所有的用户消息相似性判断、以消息的相似性进行分组,得到基于相似消息的消息用户组

2)对跨消息组用户,基于跨消息组的个数进行识别

3)对特定主题下的跨消息组用户进行识别

4)提取关键核心用户,以关键核心用户为节点,两两互连的虚拟链接关系为边,构建出关键核心用户之间的虚拟链接关系

5)提取关键核心用户的核心交际圈

特定主题下的隐蔽社区发现及提取的步骤如下:

1)以关键核心用户为节点,提取与关键核心用户所在消息组用户及关系。

2)对同一用户组中的重复用户,基于消息的相似性进行判定合并

3)对所有关键核心用户所在的消息组用户,进行合并,形成特定主题下的隐蔽社区。

系统说明

面向特定主题的隐蔽社区系统由三个子框架模块构成,分为关键核心用户提取模块、关键核心用户交际圈提取模块、隐蔽社区发现模块。

关键核心用户提取模块,包含消息相似性分析模块、用户聚合模块、核心用户提取重构模块等。其中,消息相似性分析模块,用以对一特定主题消息内容库中的消息进行相似性计算,并根据相似性对消息进行分组,得到基于相似消息的消息组;用户聚合模块,用以建立消息组中的消息与用户的映射;核心用户提取重构模块,用以根据用户跨越消息组的个数对用户进行分组,然后对同时跨越同一消息组的用户进行合并,并对用户设定相应的权值,以跨越一定个数消息组的用户作为特定主题下的关键核心用。

关键核心交际圈提取模块,包含用户组关系模块,用以提取关键核心用户消息组用户之间的虚拟关系;关键用户关系模块等,用以提取关键核心用户与关键核心用户之间、关键核心用户与消息组用户之间的虚拟关系。

隐蔽社区发现模块,包含用户关系模块,用以提取相似消息合并后的用户及其关系;社区发现模块用以提取关键核心用户消息组用户所形成的隐蔽关系。

积极效果

理论分析

在社交网络中,基于特定主题所形成的社交网络社区,通常以链接关系为基础,选取主题下讨论相关话题的用户,以他们的链接关系进行拓展,以此提取发现社区,在此过程中,哪些用户是话题的组织者、参与者、推动者,仅靠链接关系无法进行分析和界定,此外,通过链接关系拓展的用户,也不一定是对讨论话题感兴趣的用户,所提取的社区,往往与主题事实社区具有较大的偏离,同时,以链接关系为基础,所划分、提取社区中的用户也不一定是话题相关的用户,如何有效的发现话题相关的关键核心用户、关键核心用户的交际圈,以及以它们为核心的隐蔽社区,具有非常重要的意义,下述实验也全面的验证了此分析中的理论判断。

实验效果

实施例:

数据集为采集系统采集的1G原始消息数据,共2664802条网络社交消息数据,话题分为4个话题,每一个话题按与消息的相关度进行初步筛选,分别用于话题的原始数据。每一个话题数据代表着一个话题集合。在此基础上,按框架模型,进行话题隐蔽社区关键核心用户和核心交际圈的发现和提取,得到最终的实验结果。

从图5中可以看出,隐蔽社区用户以话题为核,形成了特定主题下的多个社区,社区以 关键核心用户为核心,形成其组织结构,关键核心用户在隐蔽社区中进行话题的组织或发起,最少它也是话题的积极参与推动者,如*xin**、*cao**、L**等。另外也可以从映射的拓扑社区划分来看,*cao**、L**也是大V用户,属于隐蔽社区与拓扑社区之间的重叠用户,但从属于隐蔽社区与拓扑社区它们之间的重叠用户整体数量上来看,大部分关键核心用户,在拓扑社区结构中,其本身并不是大V用户(粉丝多的用户),大V用户在话题中并不一定扮演关键组织或发起角色。

图6中可以看出,隐蔽社区中的关键核心用户如*BBC**、*RF**、de**等,在拓扑社区中并不是中心节点,也不是大V用户,它们所构成的隐蔽社区,在拓扑社区划分中,处于边缘角色,也侧面证明了隐蔽社区中关键用户圈子,并不是大V用户所构成的拓扑圈子。

需说明的是,图5和图6中相关用户名仅为示意,为避免侵犯用户隐私,特做匿名处理,并不影响对技术方案的说明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号