首页> 中国专利> 基于社交媒体内容的关键用户挖掘方法、系统及装置

基于社交媒体内容的关键用户挖掘方法、系统及装置

摘要

本发明提供一种基于社交媒体内容的关键用户挖掘方法、系统及装置,包括:基于关键词获取预设时间段的微博,基于分类模型对所述微博进行分类,获取特定人群的微博;对特定人群的微博基于时间维度和特征维度建立对应关系,获取特征维度高于预设值的对应的时间窗口,获取时间窗口对应的微博;基于LDA模型对所述时间窗口对应的微博进行主题分类,获得进行主题分类后的微博,获得所述主题分类后的每条微博对应所属类别的概率,设定类别的概率阈值,获取最大概率大于所述类别的概率阈值的各个主题下的微博,获取所述各个主题下的微博对应的用户;对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数。本发明用于挖掘特定人群的微博意见领袖。

著录项

  • 公开/公告号CN112487264A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 上海蜜度信息技术有限公司;

    申请/专利号CN202011363444.3

  • 发明设计人 不公告发明人;

    申请日2020-11-27

  • 分类号G06F16/906(20190101);G06F16/9536(20190101);G06Q50/00(20120101);

  • 代理机构31219 上海光华专利事务所(普通合伙);

  • 代理人邬嫡波

  • 地址 201204 上海市浦东新区中国(上海)自由贸易试验区张衡路198弄10号301AB室

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及数据分析技术领域,特别是涉及一种基于社交媒体内容的关键用户挖掘方法、系统及装置。

背景技术

现有的意见领袖挖掘算法包括:

基于pagerank/leaderank的意见领袖挖掘:PageRank,又称网页排名、谷歌左侧排名、PR,是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。PageRank排名本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。其基本假设是:更重要的页面往往更多地被其他页面引用(或称其他页面中会更多地加入通向该页面的超链接)。

Leaderrank算法是基于pagerank算法提出的,并最初应用于在线社会标签网的一种用户排序算法。Leaderank算法的基本思想是在整个网络已有节点外另加一个背景节点,并且将它与已有的所有节点双向连接,于是得到N+1个节点的网络,这个网络是一个强连通的网络,再按照原始的pagerank算法计算得到原来N个节点的重要性排序。

QMOLA算法:QMOLA算法是一种基于主题相似度的多标签均衡社团划分算法和快速意见领袖挖掘算法QMOLA。首先采用I-LDA计算主题分布,并籍此计算出主题相似度。并利用主题相似度排序,确定节点标签传播更新的顺序,再结合邻居节点间的社团标签信息更新自身的社团标签信息,由此划分出高稳定性的主题社团;然后针对某一主题社团,根据结构特征排除粉丝数、关注数和VIP等级较低的用户,确定候选人集合;最后,根据候选人的传播特征和情感特征计算用户影响力,挖掘TOP-K个意见领袖。

基于pagerank/leaderank的意见领袖挖掘注重考虑用户和用户间的交互特征,对于用户自身的如关注人群性质、自身发文特征,未考虑。

QMOLA算法一定程度上解决基于pagerank/leaderank的意见领袖挖掘方法,但在针对特征人群相关文本的原始处理上未有涉及,情感特征单使用关键词的词向量平均值作为句向量特征过于笼统。

本申请加入原始文本处理方式,对情感特征使用情绪分类作为辅助。从而更好的达到挖掘效果。

意见领袖,是指在人际传播网络中经常为他人提供信息,同时对他人施加影响的“活跃分子”,他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。而微博意见领袖是指微博用户中的意见领袖。由于微博意见领袖的影响力大,那么如何及时识别微博意见领袖,从而引导信息传输。

因此,希望能够解决如何更好地进行微博意见领袖挖掘的问题。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于社交媒体内容的关键用户挖掘方法、系统及装置,用于解决现有技术中如何更好地进行微博意见领袖挖掘的问题。

为实现上述目的及其他相关目的,本发明提供一种基于社交媒体内容的关键用户挖掘方法,包括以下步骤:基于关键词获取预设时间段的微博,基于分类模型对所述微博进行分类,获取特定人群的微博;对特定人群的微博基于时间维度和特征维度建立对应关系,获取特征维度高于预设值的对应的时间窗口,获取所述时间窗口对应的微博;基于LDA模型对所述时间窗口对应的微博进行主题分类,获得进行主题分类后的微博,获得所述主题分类后的每条微博对应所属类别的概率,设定类别的概率阈值,获取最大概率大于所述类别的概率阈值的各个主题下的微博,获取所述各个主题下的微博对应的用户;对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数。

于本发明的一实施例中,所述基于分类模型对所述微博进行分类,获取特定人群的微博包括:提取基于关键词获取预设时间段的微博的部分微博;对所述部分微博进行标注,标注为是特定人群和非特定人群;通过分类模型基于标注对未标注的微博进行分类,获取特定人群的微博。

于本发明的一实施例中,所述特征维度包括以下任意一种或多种:转发数、评论数、点赞数、发博数。

于本发明的一实施例中,所述对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数包括以下步骤:基于结构特征公式计算获得用户的结构特征值;基于传播互动特征公式计算获得用户的传播互动特征值;基于情感特征公式计算获得用户的情感特征值;设定结构特征阈值,选出大于结构特征阈值的用户,对大于结构特征阈值的用户基于用户影响力公式计算获得用户的影响力指数;所述用户影响力公式基于传播互动特征值和情感特征值计算获得。

于本发明的一实施例中,所述结构特征公式为:

IND-P(u)=followerNo.(u)*a1+I(VIPtype(u)=yi)*a2i;

其中,followerNo.(u)表示用户u的粉丝数,VIPtype(u)表示用户u的VIP类型;a1表示对应属性的权重;yi表示微博用户分类中的各分类;a2i表示微博认证类型所对应的权重,所述微博认证类型包括:金V、蓝V、橙V、达人、普通;I为指示函数,当输入使得等式VIPtype(u)=yi成立时,为1,否则为0。

于本发明的一实施例中,所述传播互动特征公式为:

IND-C(u)=postNo(u)*a1+likedNo(u)*a2+repostNo(u)*a3+commentNo(u)*a4;

其中,postNo(u)表示用户u的平均1天发微博数;likedNo(u)表示用户u的平均1天被点赞数;repostNo(u)指用户u的平均1天被转发数;commentNo(u)表示用户u的平均1天被评论数,a1、a2、a3、a4表示对应属性的权重。

于本发明的一实施例中,所述情感特征公式为:

当用户的微博是非中性情绪的微博时,所述情感特征公式为:

其中,positive_reply(u)表示在用户u的微博评论中呈现与用户微博相同情感倾向的评论数量,negative_reply(u)表示在用户u的微博评论中呈现与用户微博相反情感倾向的评论数量,neutral-count(u)表示用户u的微博评论中呈现“中性”情绪的评论数量;All-reply(u)表示用户u的微博中的所有评论数;

当用户的微博是中性情绪的微博时,所述情感特征公式为:

其中,positive_reply(u)表示在用户u的评论中正向评论的数量,negative_reply(u)表示在用户u评论中反向评论的数量。

于本发明的一实施例中,所述用户影响力公式为:

其中,d为阻尼系数;N表示大于结构特征阈值的用户的数量,R(i)表示用户i被选为候选人的粉丝集合;L(j)表示用户j进行互动的且被选为候选人的用户集合;INF_C(i)表示用户i的传播特征值;INF_E(i)表示用户i的情感特征值。

为实现上述目的,本发明还提供一种基于社交媒体内容的关键用户挖掘系统,包括:分类模块、获取模块、主题分类模块和计算模块;所述分类模块用于基于关键词获取预设时间段的微博,基于分类模型对所述微博进行分类,获取特定人群的微博;所述获取模块用于对特定人群的微博基于时间维度和特征维度建立对应关系,获取特征维度高于预设值的对应的时间窗口,获取所述时间窗口对应的微博;所述主题分类模块用于基于LDA模型对所述时间窗口对应的微博进行主题分类,获得进行主题分类后的微博,获得所述主题分类后的每条微博对应所属类别的概率,设定类别的概率阈值,获取最大概率大于所述类别的概率阈值的各个主题下的微博,获取所述各个主题下的微博对应的用户;所述计算模块用于对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数。

为实现上述目的,本发明还提供一种基于社交媒体内容的关键用户挖掘装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述基于社交媒体内容的关键用户挖掘装置执行任一上述的基于社交媒体内容的关键用户挖掘方法。

如上所述,本发明的一种基于社交媒体内容的关键用户挖掘方法、系统及装置,具有以下有益效果:用于挖掘特定人群的微博意见领袖。

附图说明

图1显示为本发明的基于社交媒体内容的关键用户挖掘方法于一实施例中的流程图;

图2显示为本发明的基于社交媒体内容的关键用户挖掘系统于一实施例中的结构示意图;

图3显示为本发明的基于社交媒体内容的关键用户挖掘装置于一实施例中的结构示意图。

元件标号说明

21 分类模块

22 获取模块

23 主题分类模块

24 计算模块

31 处理器

32 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

本发明的基于社交媒体内容的关键用户挖掘方法、系统及装置,挖掘特定人群的微博意见领袖。

如图1所示,于一实施例中,本发明的基于社交媒体内容的关键用户挖掘方法,包括以下步骤:

步骤S11、基于关键词获取预设时间段的微博,基于分类模型对所述微博进行分类,获取特定人群的微博。

具体地,所述基于关键词获取预设时间段的微博,是指通过设定关键词和预设时间段,获取在所述预设时间段内,且包含所述关键词的微博。所述分类模型包括:朴素贝叶斯分类器,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。

具体地,所述基于分类模型对所述微博进行分类,获取特定人群的微博包括:提取基于关键词获取预设时间段的微博的部分微博;对所述部分微博进行标注,标注为是特定人群和非特定人群;通过分类模型基于标注对未标注的微博进行分类,获取特定人群的微博。这样仅需要标注部分微博,就可以通过分类模型对未标注的微博进行分类。例如,想要查找农民工相关微博,所述关键词为民工、打工,那么就可以基于关键词获取预设时间段的微博的部分微博,但是基于关键词提取的所述部分微博并不一定真的是农民工相关微博,这时就需要对所述部分微博进行标注,标注为是特定人群和非特定人群,这里特定人群就是指农民工相关人群,非特定人群就是农民工不相关人群。这样相当于进行了二次校正。然后就可以通过分类模型基于标注对未标注的微博进行分类。使用关键词过滤缩小研究微博的范围。

步骤S12、对特定人群的微博基于时间维度和特征维度建立对应关系,获取特征维度高于预设值的对应的时间窗口,获取所述时间窗口对应的微博。

具体地,所述对特定人群的微博基于时间维度和特征维度建立对应关系是指建立以时间维度为x轴、特征维度为y轴的对应关系图。所述特征维度包括以下任意一种或多种:转发数、评论数、点赞数、发博数。即建立时间与转发数、时间与评论数、时间与点赞数、时间与发博数的对应关系图。

具体地,获取特征维度高于预设值的对应的时间窗口,获取所述时间窗口对应的微博。例如设定特征维度为转发数,且转发数的预设值为转发100条,那么获取转发数超过100条对应的时间窗口,即转发数超过100条的微博所对应的转发时间段即为时间窗口。所述时间窗口对应的微博是指在该时间窗口内发送的特定人群的微博。使用时间交叉分析缩小研究微博范围。

步骤S13、基于LDA模型对所述时间窗口对应的微博进行主题分类,获得进行主题分类后的微博,获得所述主题分类后的每条微博对应所属类别的概率,设定类别的概率阈值,获取最大概率大于所述类别的概率阈值的各个主题下的微博,获取所述各个主题下的微博对应的用户。

具体地,所述LDA模型是指隐含狄利克雷分布(英语:Latent Dirichletallocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA模型的另一个优点则是,对于每一个主题均可找出一些词语来描述它。

具体地,基于LDA模型对所述时间窗口对应的微博进行主题分类后,每个微博可以归为一个或多个类别,且每个类别都有各自的所属类别的概率;所述获取最大概率大于所述类别的概率阈值的各个主题下的微博是指判断每个微博概率最大的所属类别的概率是否大于概率阈值,当大于概率阈值时,即为最大概率大于所述类别的概率阈值的各个主题下的微博。

步骤S14、对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数。

具体地,所述对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数包括以下步骤:基于结构特征公式计算获得用户的结构特征值;基于传播互动特征公式计算获得用户的传播互动特征值;基于情感特征公式计算获得用户的情感特征值;设定结构特征阈值,选出大于结构特征阈值的用户,对大于结构特征阈值的用户基于用户影响力公式计算获得用户的影响力指数;所述用户影响力公式基于传播互动特征值和情感特征值计算获得。

具体地,所述结构特征公式为:

IND-P(u)=followerNo.(u)*a1+I(VIPtype(u)=yi)*a2i;

其中,followerNo.(u)表示用户u的粉丝数,VIPtype(u)表示用户u的VIP类型;a1表示对应属性的权重;yi表示微博用户分类中的各分类;a2i表示微博认证类型所对应的权重,所述微博认证类型包括:金V、蓝V、橙V、达人、普通;I为指示函数,当输入使得等式VIPtype(u)=yi成立时,为1,否则为0。由于在微博环境中,用户的粉丝与用户的关注数不同,并非取决于该微博用户的主动行为,因此计算该特征,排除原算法中的关注数特征。粉丝数数据进行标准化处理,使得数据指标之间具有可比性。

具体地,所述传播互动特征公式为:

IND-C(u)=postNo(u)*a1+likedNo(u)*a2+repostNo(u)*a3+commentNo(u)*a4;

其中,postNo(u)表示用户u的平均1天发微博数;likedNo(u)表示用户u的平均1天被点赞数;repostNo(u)指用户u的平均1天被转发数;commentNo(u)表示用户u的平均1天被评论数,a1、a2、a3、a4表示对应属性的权重。

具体地,所述情感特征公式为:

当用户的微博是非中性情绪的微博时,所述情感特征公式为:

其中,positive_reply(u)表示在用户u的微博评论中呈现与用户微博相同情感倾向的评论数量,negative_reply(u)表示在用户u的微博评论中呈现与用户微博相反情感倾向的评论数量,neutral-count(u)表示用户u的微博评论中呈现“中性”情绪的评论数量;All-reply(u)表示用户u的微博中的所有评论数;细化情感分类为6种情感特征,分别是“高兴(Happy)”,“惊奇/惊讶(Surprise)”,“愤怒(Angry)”,“恐惧(Fear)”,“悲伤(Sad)”和“中性(Neutral)”。对微博和微博对应评论分别利用六元情感模型判断。以“高兴(Happy)”作为正面情绪,“中性(Neutral)”作为中性情绪,“惊奇/惊讶(Surprise)”,“愤怒(Angry)”,“恐惧(Fear)”,“悲伤(Sad)”作为负面情绪。

当用户的微博是中性情绪的微博时,所述情感特征公式为:

其中,positive_reply(u)表示在用户u的评论中正向评论的数量,negative_reply(u)表示在用户u评论中反向评论的数量。

具体地,所述用户影响力公式为:

其中,d为阻尼系数;N表示大于结构特征阈值的用户的数量,R(i)表示用户i被选为候选人的粉丝集合;L(j)表示用户j进行互动的且被选为候选人的用户集合;INF_C(i)表示用户i的传播特征值;INF_E(i)表示用户i的情感特征值。从而得到用户影响力最大的n个用户,即为特定人群的微博意见领袖。具体地,R(i)表示用户i被选为候选人的粉丝集合,即与用户i有互动的且结构特征>结构特征阈值的用户。被选为候选人就是:结构特征>结构特征阈值的用户,L(j)表示用户j进行互动的且被选为候选人的用户集合表示是:在结构特征>结构特征阈值的用户中,与用户j进行过互动的用户数量。使用修改特征的用户影响力公式进行计算,更符合微博文本的特征,可根据处理文本的特征,添加或删减相关特征的属性。

如图2所示,于一实施例中,本发明的基于社交媒体内容的关键用户挖掘系统,包括:分类模块21、获取模块22、主题分类模块23和计算模块24;所述分类模块21用于基于关键词获取预设时间段的微博,基于分类模型对所述微博进行分类,获取特定人群的微博;所述获取模块22用于对特定人群的微博基于时间维度和特征维度建立对应关系,获取特征维度高于预设值的对应的时间窗口,获取所述时间窗口对应的微博;所述主题分类模块23用于基于LDA模型对所述时间窗口对应的微博进行主题分类,获得进行主题分类后的微博,获得所述主题分类后的每条微博对应所属类别的概率,设定类别的概率阈值,获取最大概率大于所述类别的概率阈值的各个主题下的微博,获取所述各个主题下的微博对应的用户;所述计算模块24用于对所述用户分别基于意见领袖挖掘算法计算,得到用户的影响力指数。

需要说明的是,分类模块21、获取模块22、主题分类模块23和计算模块24的结构和原理与上述基于社交媒体内容的关键用户挖掘方法中的步骤一一对应,故在此不再赘述。

需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Micro Processor Uint,简称MPU),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

如图3所示,于一实施例中,本发明的基于社交媒体内容的关键用户挖掘装置包括:处理器31和存储器32;所述存储器32用于存储计算机程序;所述处理器31与所述存储器32相连,用于执行所述存储器32存储的计算机程序,以使所述基于社交媒体内容的关键用户挖掘装置执行任一所述的基于社交媒体内容的关键用户挖掘方法。

具体地,所述存储器32包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

优选地,所述处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述,本发明基于社交媒体内容的关键用户挖掘方法、系统及装置,用于挖掘特定人群的微博意见领袖。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号