公开/公告号CN105447144A
专利类型发明专利
公开/公告日2016-03-30
原文格式PDF
申请/专利权人 北京中科汇联科技股份有限公司;
申请/专利号CN201510825096.X
申请日2015-11-24
分类号
代理机构北京庆峰财智知识产权代理事务所(普通合伙);
代理人李文军
地址 100094 北京市海淀区东北旺西路8号9号楼二区305
入库时间 2023-12-18 15:12:07
法律状态公告日
法律状态信息
法律状态
2018-05-11
授权
授权
2016-06-29
实质审查的生效 IPC(主分类):G06F17/30 申请日:20151124
实质审查的生效
2016-03-30
公开
公开
技术领域
本发明涉及微博大数据分析方法,尤其涉及基于大数据分析技术的微博转 发可视化分析方法及系统。
背景技术
微博是当前最流行的社交网络应用,不同于传统的互联网应用,其独特的 媒体特性赋予了用户更多的话语权,用户及时信息的接受者,也是信息的发布 者和传播者,这也是我们常说的自媒体,每当热点事件发生时,众多用户借助 微博平台参与讨论,发表个人观点,伴随事件持续发展,个人意见渐渐汇聚成 群体观点,这是社会舆情的重要组成部分,所以,对微博某一些事件的群体观 点进行分析,是一件非常有意义的事情。
目前抓取新浪微博的数据一般有两种方式:一种方式是模拟登陆强行抓取 HTML源码,然后再对HTMl源码进行解析,提取其中的有价值的信息(用户 相关信息,包括头像、性别、粉丝数、地域、标签、ID等等,所发微博的相关 信息,包括微博正文、图片信心、被转发、被评论等等)。第二种方式是利用新 浪微博官方提供的API来直接请求数据,返回的数据格式是JSON,是一种纯数 据的格式、里面囊括了所有的用户需要的数据。
以上两种方式相比,第二种方式拿数据的速度快、完整性高、稳定性强, 但是申请API稍微复杂、而且不容易通过验证,现在仍然有很多应用使用的是 第一种方式来抓取数据。
但无论通过以上哪种方式拿到的数据都是一条一条的单独零散存在的,每 一条数据都是独立的一个个体,和其他的数据比没有什么关系,但是这表面看 起来毫无关系的一条条数据实际内部有着千丝万缕的联系,微博的转发是将多 条消息文本串联成具有独立话题信息的文本序列,沿着转发序列,旧话题结束, 新话题开始,这样,话题之间的连接关系反映了热点事件中的某个话题随着时 间的一个演变过程,因此,如果需要全面了解一个话题,既需要单纯的消息文 本,也需要文本间的拓扑关系。
发明内容
为了解决上述技术问题,本发明提供了一种基于大数据分析技术的微博转 发可视化分析方法,包括:
S1、获取源微博和所有转发微博,所述转发微博直接或间接转发所述源微 博;
S2、提取所述源微博和转发微博中的文本信息;
S3、根据提取的文本信息得到所述源微博和所有转发微博的转发关系,所 述转发关系包括所述转发微博之间的转发关系;
S4、根据所述转发关系绘制可视化图形。
进一步地,步骤S4中所述的根据所述转发关系绘制可视化图形包括:将转 发微博和与该条转发微博具有直接转发关系的源微博或转发微博用线段连接。
进一步地,所述步骤S3还包括:根据所述转发关系得到转发层次,统计对 应每个转发层次的转发微博数量。
进一步地,步骤S4还包括:根据所述转发层次和对应每个转发层次的转发 微博数量绘制可视化图形。
进一步地,步骤S2还包括:提取所述源微博和转发微博的用户属性,所述 用户属性包括实名用户、大粉丝和普通粉丝;步骤S3还包括:统计不同用户属 性的用户对应的转发微博数量。
相应地,本发明还提供了一种基于大数据分析技术的微博转发可视化分析 系统,包括:
获取模块,用于获取源微博和所有转发微博,所述转发微博直接或间接转 发所述源微博;
文本提取模块,用于提取所述源微博和转发微博中的文本信息;
分析模块,用于根据提取的文本信息得到所述源微博和所有转发微博的转 发关系,所述转发关系包括所述转发微博之间的转发关系;
可视化模块,用于根据所述转发关系绘制可视化图形。
进一步地,所述可视化模块中所述的根据所述转发关系绘制可视化图形包 括:将转发微博和与该条转发微博具有直接转发关系的源微博或转发微博用线 段连接。
进一步地,所述分析模块还包括:根据所述转发关系得到转发层次,统计 对应每个转发层次的转发微博数量。
进一步地,所述可视化模块还包括:根据所述转发层次和对应每个转发层 次的转发微博数量绘制可视化图形。
进一步地,所述文本提取模块还包括:提取所述源微博和转发微博的用户 属性,所述用户属性包括实名用户、大粉丝和普通粉丝;所述分析模块还包括: 统计不同用户属性的用户对应的转发微博数量。
本发明从源微博和所有转发微博中提取文本信息,并根据所述文本信息得 到微博的转发关系,所述转发关系还包括转发层次,最终通过转发关系绘制可 视化图形,通过本发明的方案,将一个个单独存在的微博关联起来,使转发微 博文本间的拓扑关系更加清晰,从而有效地提高微博转发关系的可视化,便于 分析转发微博的内在关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将 对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下 面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的基于大数据分析技术的微博转发可视化分析方 法的系统框图;
图2是利用本发明实施例提供的基于大数据分析技术的微博转发可视化分 析方法绘制的一个可视化图形;
图3是利用本发明实施例提供的基于大数据分析技术的微博转发可视化分 析方法绘制的另一个可视化图形;
图4是本发明实施例提供的基于大数据分析技术的微博转发可视化分析方 法采用的一个微博图片;
图5是采用本发明实施例提供的基于大数据分析技术的微博转发可视化分 析方法对上述微博图片分析得到的图片;
图6是本发明实施例中根据转发人性别比例做出的分析图形;
图7是本发明实施例中根据转发人地域分布做出的分析图形;
图8本发明实施例中是根据转发时间趋势做出的分析图形。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参见图1-图8,以数据源是标准JSON数据源(通过weiboAPI返回的结 果集)为例对本发明的技术方案进行说明:
发明人通过分析大量的json样本,观察到能够找出这些单独存在的文本之 间的联系的唯一突破口就在于retweeted_status中的text字段,也就是微博作者 所发送的文本,一般情况下是下述格式:
好看//晴烨芜星:挺好看的,笑到流泪到笑中含泪//西风邪:喜欢121// 神秘心理学:微博,强烈33推荐关注全球影视天地
通过分析这段文本,基本能够得到我们想要的全部信息:1.结构;2.具体的 文本内容。
上述文本中的//相当于网络中的一个节点,一段文字靠//分成多个小 部分,越靠右侧的就越接近事件源。这样的话,通过获取大量的转发微博文本, 利用D3JS的API就可以根据层级关系绘制出点线图。
基于大数据分析技术的微博转发可视化分析方法包括以下步骤:
S1、获取源微博和所有转发微博,所述转发微博直接或间接转发所述源微 博;
S2、提取所述源微博和转发微博中的文本信息;
S3、根据提取的文本信息得到所述源微博和所有转发微博的转发关系,所 述转发关系包括所述转发微博之间的转发关系;
S4、根据所述转发关系绘制可视化图形。
具体算法为:
1.先确定事件源点(源微博)的位置和下标,默认index=0。
2.从获取的转发微博文本集合collection中拿出一条文本,下标 index=index++。
3.查看该条文本一共有几个node节点,并把这些node节点记录在节点集合 collection中,collection=[node-0,......,node-n],并且要记录源下标source-index和 目标下标target-index,在记录之前还必须检查这个node有没有出现过,如果出 现过,就忽略掉,不记录。
4.转发文本集合中的所有文本节点,不断重复2,3步骤,直至没有文本节点 为止。
5.最终得到的一个转发微博的节点node集合和一个下标index集合。
最终根据得到的node集合和index集合绘制的可视化图形如图2所示。
D3JS所需要的JSON格式为:
发明人拼接JSON的代码片段(java):
最终得到转发关系的数据结构。
另一方面,所述步骤S3还包括:根据所述转发关系得到转发层次,统计对 应每个转发层次的转发微博数量。步骤S4还包括:根据所述转发层次和对应每 个转发层次的转发微博数量绘制可视化图形。
步骤S2还包括:提取所述源微博和转发微博的用户属性,所述用户属性包 括实名用户、大粉丝和普通粉丝;步骤S3还包括:统计不同用户属性的用户对 应的转发微博数量。使用D3JS来做绘制可视化图形的可视化工具,绘制出的图 形如图3所示。
相应地,本发明还提供了一种基于大数据分析技术的微博转发可视化分析 系统,包括:
获取模块,用于获取源微博和所有转发微博,所述转发微博直接或间接转 发所述源微博;
文本提取模块,用于提取所述源微博和转发微博中的文本信息;
分析模块,用于根据提取的文本信息得到所述源微博和所有转发微博的转 发关系,所述转发关系包括所述转发微博之间的转发关系;
可视化模块,用于根据所述转发关系绘制可视化图形。
进一步地,所述可视化模块中所述的根据所述转发关系绘制可视化图形包 括:将转发微博和与该条转发微博具有直接转发关系的源微博或转发微博用线 段连接。
进一步地,所述分析模块还包括:根据所述转发关系得到转发层次,统计 对应每个转发层次的转发微博数量。
进一步地,所述可视化模块还包括:根据所述转发层次和对应每个转发层 次的转发微博数量绘制可视化图形。
进一步地,所述文本提取模块还包括:提取所述源微博和转发微博的用户 属性,所述用户属性包括实名用户、大粉丝和普通粉丝;所述分析模块还包括: 统计不同用户属性的用户对应的转发微博数量。
至此,我们已经基本上把某一个事件的转发的结构层次用可视化的工具展 示出来了(一个是转发关系图(力导图),如图2所示,一个是转发层级图(日 晕图),如图3所示)。
仅仅有了转发的关系和层级还是远远不够的,文字存在的最终意义还是在 它本身想要表达的观点上,既文本本身的意义上,所以剖析大众的主要观点才 是更加重要的。
自动摘要(观点提炼)是自然语言处理中一个非常重要的课题,他通过分 析文本,对文章内容进行归纳总结,然后生成摘要,由于近年来的互联网的蓬 勃发展,针对用户生成内容(user-generatedcontentUGC)的自动摘要研究成为 了学术界的新热点,采用的技术是聚类算法(Textclusteringfortopic summarization,TC),具体是采用基于距离的聚类算法(K-means),具体的算法 的实现步骤为:
1.文档预处理:1)文档分词;2)移除停用词;3)单词正规化处理。
2.分出的单词就作为索引项(或单词表),它们代表的就是向量空间的项向 量。
3.计算项权值:这包括要计算1)词频;2)倒排文件频率;3)TF-IDF权值。
其中TF-IDF全称是termfrequency–inversedocumentfrequency,它是 一种加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份 文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同 时会随着它在语料库中出现的频率成反比下降,计算公式为:
先来计算TF:
以上式子中ni,j是该词在文件dj中的出现次数,而分母则是在文件dj中所有字 词的出现次数之和。
再计算IDF:
以上公式中|D|表示语料库中的文件总数,表示包含词语ti的文件数目(即ni≠0的文件数目)。
这样TF和IDF都计算出来了,TF-IDF就可以计算出来了
tfidfi,j=tfi,j·idfi
4.计算文档之间的相似度,一般用余弦相似度(cosinesimilarity)一同使用于向量 空间模型中,用以判断两份文件之间的相似性。
对于两个N维向量的,计算其余弦相似度的算法公式为:
假设两个句子的词频向量为:
句子A:[1,2,2,1,1,1,0]
句子B:[1,2,2,1,1,2,1]
那么他们的余弦相似度就为:
最后我们再使用数据挖掘中的Kmeans算法,结合余弦值算法,便可对文章 进行聚类了,聚类步骤如下:
1.从c个数据对象任意选择k个对象作为初始聚类中心。
2.循环(3)到(4)直到每个聚类不再发生变化为止。
3.根据每个聚类对象的均值(中心对象),计算每s个对象与这些中心对象 的距离;并根据最小距离重新对相应对象进行划分。
4.重新计算每个(有变化)聚类的均值(中心对象)。
如图4所示,我们以新华网发布的一条阅兵期间对抗日老兵致敬的微博为 例说明。
抽出所有的转发的文本,并且把多余的干扰节点全部去除掉,既移除掉所 有的//连同右边的内容,然后只留下纯文本内容。经过一系列算法之后,我们 可以得到图5的结果。
该结果非常清楚的显示了用户的主要观点,并且对其进行了分类,看上去 一目了然。
当然除了聚类和转发分析之外,用API返回的数据源,我们还可以分析出 其他的一些数据来,这些数据都可以使用一些工具使其可视化,比如转发量时 间走势、地域分布、性别分布、转发人出现频次等等,这些数据不需要做特殊 处理,即可非常容易的运用到图表中,如及时渔系统中我们除了D3JS之外使用 的就是highcharts来作一些常规的图表。图6-图8便是使用highcharts来展示的 其他几个维度的数据;图6是根据转发人性别比例做出的分析图形;图7是根 据转发人地域分布做出的分析图形;图8是根据转发时间趋势做出的分析图形。
本发明的文字功能可以对微博话题的转发(评论也可以)的内容进行分析、 聚类、数据重组,并最终形成一系列可视化的图表,把暗藏在微博之间千丝万 缕的关系剥离出来、对于社会舆情的分析、处理有很大的帮助,对于舆情分析 师来说,这也是一个不可多得的功能强大的分析工具。
本发明从源微博和所有转发微博中提取文本信息,并根据所述文本信息得 到微博的转发关系,所述转发关系还包括转发层次,最终通过转发关系绘制可 视化图形,通过本发明的方案,将一个个单独存在的微博关联起来,使转发微 博文本间的拓扑关系更加清晰,从而有效地提高微博转发关系的可视化,便于 分析转发微博的内在关系。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这 些改进和润饰也视为本发明的保护范围。
机译: 基于财经事件的微博,应用服务器和计算机可读存储介质财务分析方法
机译: 基于大数据分析技术的企业信用评估方法和系统
机译: 实现微博转发的方法,系统及装置