首页> 中国专利> 一种采集微博内容的方法及设备

一种采集微博内容的方法及设备

摘要

本发明公开了一种采集微博内容的方法及设备,其中该方法包括:采集微博用户库中预先选定的微博用户的微博内容和微博参数;根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;根据提取到的热门关键词或热门关键词组,按照预先设定的采集频率采集与热门关键词或热门关键词组相关的微博内容,通过本发明的实施例能够有效提高采集与微博热点话题相关的微博内容的效率。

著录项

  • 公开/公告号CN103593397A

    专利类型发明专利

  • 公开/公告日2014-02-19

    原文格式PDF

  • 申请/专利号CN201310476050.2

  • 发明设计人 冯青松;

    申请日2013-10-12

  • 分类号G06F17/30(20060101);

  • 代理机构11410 北京市中伦律师事务所;

  • 代理人张思悦

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2024-02-19 22:14:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2013104760502 申请日:20131012 授权公告日:20181009

    专利权的终止

  • 2018-10-09

    授权

    授权

  • 2014-03-19

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131012

    实质审查的生效

  • 2014-02-19

    公开

    公开

说明书

技术领域

本发明属于计算机技术领域,尤其涉及一种采集微博内容的方法及设备。

背景技术

随着时代的发展和进步,像“微博”这种社交服务平台应运而生,并逐渐 渗透到社会的各个方面。微博以其短小快捷的独特魅力迅速吸引了大量用户, 引发微博议事浪潮。跟其他信息传播方式相比,微博有其独到之处。首先,它 能更快速地发布和传播信息。由于字数的限制,微博发布的内容短小精悍。第 二,微博可以允许任何人或指定人群阅读、回复、转发,实现了一对多、多对 多的传播。第三,微博的传播效果更为显著。短小精悍的信息在达到受众层面 时,不会耗费太多的时间去理解,内容的简易使其更容易被接受。第四,微博 具有实时交互传播的特性。

与传统互联网信息抓取不同,微博内容抓取要求有更高的时效性。目前常 用的抓取方式是,注册一批僵尸用户,通过这些僵尸用户关注一批质量比较的 微博用户,然后不断抓取这批微博用户的微博内容,同时这些僵尸用户自身也 会发表或转发一些微博内容,其中充斥大量无用或广告等内容,因此使得在微 博中传播的内容非常之多,如何从中找到高质量微博内容是一个很大的难题。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的采集微博内容的方法及设备。

依据本发明的一个方面,提供了一种采集微博内容的方法,包括:采集微 博用户库中预先选定的微博用户的微博内容和微博参数;根据采集到的微博内 容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;根 据提取到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与 所述热门关键词或热门关键词组相关的微博内容。

可选地,在按照预先设定的采集频率采集与所述热门关键词或热门关键词 组相关的微博内容的步骤之后,所述方法还包括:采集发布和/或转发与所述 热门关键词或热门关键词组相关的微博内容的微博用户;将采集到的微博用户 更新到微博用户库中,并将采集到的微博用户的选定状态标识为选定。

可选地,其中,所述方法还包括:判断所述微博用户库中预先选定的微博 用户是否符合预定义的条件;如果所述预先选定的微博用户不符合预定义的条 件,则将所述微博用户库中预先选定的微博用户的选定状态标识为非选定;如 果所述预先选定的微博用户符合预定义的条件,则保持所述微博用户库中预先 选定的微博用户的选定状态不变。

可选地,所述判断所述微博用户库中预先选定的微博用户是否符合预定义 的条件的步骤包括:判断所述微博用户库中微博用户是否为恶意注册用户,如 果所述预先选定的微博用户为恶意注册用户,则判断结果为所述预先选定的微 博用户不符合预定义的条件,如果所述预先选定的微博用户不是恶意注册用 户,则判断结果为所述预先选定的微博用户符合预定义的条件;和/或者判断 所述微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃 度阈值,如果所述微博用户的活跃度低于预先设定的活跃度阈值,则判断结果 为所述预先选定的微博用户不符合预定义的条件;如果所述微博用户的活跃度 不低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户符合预 定义的条件;其中,所述活跃度包括:微博用户发布或转发微博的频率、微博 用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。

可选地,所述判断所述微博用户库中微博用户是否为恶意注册用户的步骤 包括:判断所述微博用户的用户评分值是否低于预先设定的恶意注册评分值;

如果所述微博用户的用户评分值低于预先设定的恶意注册评分值,则判断 结果为所述微博用户是恶意注册用户;如果所述微博用户的用户评分值不低于 预先设定的恶意注册评分值,则判断结果为所述微博用户不是恶意注册用户。

可选地,所述用户评分值基于微博用户关注的用户数、微博用户的粉丝数 和微博用户发布的微博数计算得到。

可选地,所述采集预先选定的微博用户的微博内容和微博参数的步骤为: 通过微博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用 户的微博内容和微博参数。

可选地,所述根据采集到的微博内容和微博参数,提取出与微博热点话题 相关的热门关键词或热门关键词组步骤包括:根据采集到的所述微博内容和微 博参数,按照预先设定的微博类别对所述微博内容进行分类处理;对各个微博 类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话 题相关的微博内容;对各个微博类别下的与微博热点话题相关的微博内容分别 进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或 热门关键词组。

可选地,所述微博参数包括:微博用户的属性信息、微博的总转发次数、 微博的总评论次数、微博认证用户的转发次数、和微博认证用户的评论次数中 的任意一种或多种组合。

依据本发明的另一个方面,还提供一种采集微博内容的设备,包括:第一 采集模块,用于采集预先选定的微博用户的微博内容和微博参数;提取模块, 用于根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关 键词或热门关键词组;第二采集模块,用于根据提取到的所述热门关键词或热 门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组 相关的微博内容。

可选地,所述设备还包括:第三采集模块,用于采集发布和/或转发与所 述热门关键词或热门关键词组相关的微博内容的微博用户;微博用户更新模 块,用于将采集的微博用户更新到微博用户库中,并将采集的微博用户的选定 状态标识为选定。

可选地,所述设备还包括:判断模块,用于判断所述微博用户库中预先选 定的微博用户是否为符合预定义的条件;选定状态更新模块,用于如果所述预 先选定的微博用户不符合预定义的条件,则将所述微博用户库中预先选定的微 博用户的选定状态标识为非选定;如果所述预先选定的微博用户符合预定义的 条件,则保持所述微博用户库中预先选定的微博用户的选定状态不变。

可选地,所述判断模块包括:恶意注册判断单元,用于判断所述微博用户 库中微博用户是否为恶意注册用户,如果所述预先选定的微博用户为恶意注册 用户,则判断结果为所述预先选定的微博用户不符合预定义的条件,如果所述 预先选定的微博用户不是恶意注册用户,则判断结果为所述预先选定的微博用 户符合预定义的条件;和/或者活跃度判断单元,用于判断所述微博用户库中 的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果所述微 博用户的活跃度低于预先设定的活跃度阈值,则判断结果为所述预先选定的微 博用户不符合预定义的条件;如果所述微博用户的活跃度不低于预先设定的活 跃度阈值,则判断结果为所述预先选定的微博用户符合预定义的条件,其中所 述活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和 微博用户的当天在线时间中的任意一种或多种组合。

可选地,所述恶意注册判断单元进一步用于判断所述微博用户的用户评分 值是否低于预先设定的恶意注册评分值;如果所述微博用户的用户评分值低于 预先设定的恶意注册评分值,则判断结果为所述微博用户是恶意注册用户;如 果所述微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果 为所述微博用户不是恶意注册用户。

可选地,所述第一采集模块进一步用于通过微博网站的应用程序编程接口 采集所述微博用户库中预先选定的微博用户的微博内容和微博参数。

可选地,所述提取模块包括:分类单元,用于根据采集到的所述微博内容 和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理;热点话 题处理单元,用于对各个微博类别下的微博内容进行微博热点话题处理,得到 各个微博类别下与微博热点话题相关的微博内容;提取单元,用于对各个微博 类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博 类别下的与微博热点话题相关的热门关键词或热门关键词组。

由上述技术方案可知,本发明的实施例具有如下有益效果:首先,在采集 微博内容时,可根据提取到的热门关键词或热门关键词组,按照预先设定的采 集频率采集与热门关键词或热门关键词组相关的微博内容,也就是,通过变频 采集可以提高采集微博内容的效率,对于实时性要求高、信息多的热门关键词 或热门关键词组,可以使用较高的频率采集,反之,可以使用较低的频率采集。 其次,根据微博内容和微博参数对微博内容进行分类,可以提高查找微博热点 话题的精确度。再次,通过热门关键词或热门关键词组采集发现微博用户,可 以减少人工查找微博用户的成本。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并 不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的 部件。在附图中:

图1示出了根据本发明实施例中的采集微博内容的方法100的流程图;

图2示出了根据本发明实施例中的采集微博内容的方法100中S111~S115 的流程图;以及

图3示出了根据本发明实施例中的采集微博内容的设备300的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

下面结合图1来说明根据本发明一个实施例的、适于解决上述技术问题的 采集微博内容的方法100的流程图。如图1所示,本发明实施例的方法100 包括:步骤S101、步骤S103和步骤S105,方法100始于步骤S101,在步骤 S101中,采集微博用户库中预先选定的微博用户的微博内容和微博参数。

在本发明的实施例中,微博用户库中记录有多个微博用户的相关信息,其 中每个微博用户的选定状态包括:选定和非选定,其中“选定”表示需要采集 该微博用户的微博内容和微博参数,“非选定”表示不需要采集该微博用户的 微博内容和微博参数。当然可以理解的是,在本发明的实施例中微博用户的选 定状态可以进行调整,即可以将微博用户的选定状态由选定调整为非选定,或 者将微博用户的选定状态由非选定调整为选定。

可选地,在本发明的实施例中,可以通过微博网站(例如新浪微博、腾讯 微博等)的应用程序编程接口(Application Programming Interface,API)采集 微博用户库中预先选定的微博用户的微博内容和微博参数。当然可以理解的 是,在本发明的实施例中并不限定采集微博内容和微博参数的具体方式。

可选地,在本发明的实施例中,微博参数包括:微博用户的属性信息、微 博的总转发次数、微博的总评论次数、微博认证用户的转发次数、和微博认证 用户的评论次数中的任意一种或多种组合。其中,微博用户的属性信息包括: 微博用户的标签信息,例如标签信息可以包括微博用户的爱好、职业、性格等 信息。

随后,在步骤S103中,根据采集到的微博内容和微博参数,提取出与微 博热点话题相关的热门关键词或热门关键词组。

可选地,在步骤S103中,首先根据采集到的微博内容和微博参数,按照 预先设定的微博类别对微博内容进行分类处理;对各个微博类别下的微博内容 进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内 容;对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理, 提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。

可选地,在本发明的实施例中,每一个预先设定的微博类别都对应多个关 键词,将这些关键词与采集到的微博内容和/或微博参数进行匹配,如果能够 匹配上,则将微博内容分类到与该关键词对应的微博类别,其中预先设定的微 博类别包括:房产、娱乐、经济、政治和互联网等多种类型。

可选地,在本发明的实施例中,可以通过各个微博类别下的微博内容中是 否具有微博热点话题标志,来判断该微博内容是否与微博热点话题相关,如果 微博内容中具有微博热点话题标志,则判断该微博内容与微博热点话题相关。 例如该微博热点话题标志可以是“#”,微博热点话题的表现形式可以是“# 假期后遗症#”,即微博热点话题为“假期后遗症”,当然可以理解的是,在 本发明的实施例中并不限定微博热点话题标志的具体形式。

可选地,在本发明的实施例中,在得到各个微博类别下与微博热点话题相 关的微博内容之后,可以采用现有的分词技术对微博内容进行分词处理,然后 可以基于词语出现的频率,提取出各个微博类别下的与微博热点话题相关的热 门关键词或热门关键词组。

随后,在步骤S105中,根据提取到的热门关键词或热门关键词组,按照 预先设定的采集频率采集与热门关键词或热门关键词组相关的微博内容。

可选地,在本发明的实施例中,对于每次采集都能达到饱和状态的采集, 则可以降低采集频率。对于采集数量比较少的热门关键词或热门关键词组,根 据采集数量和时间间隔划分出不同的区间,相应地采集频率乘以对应区间的权 重。当然可以理解的是,在本发明的实施例中并不限定采集频率的具体值。

可选地,在本发明的实施例中,可以采用Request-rate指定采集频率,语 法:Request-rate:1/5 0600-0845,指定同一个网络爬虫每多少秒采集一次网页 和采集时间段,例如1/5 0600-0845,当然可以理解的是,在本发明的实施例 中并不限定采集频率的具体值。

在现有技术中,由于有些微博内容可能涉及微博热点话题,但如果该微博 内容中没有微博热点话题标志,则可能导致采集不到该微博内容。而在本发明 的实施例中,通过之前提取的热门关键词或热门关键词组,从微博中采集与热 门关键词或热门关键词组相关的微博内容,可使得采集到的微博内容更加全 面。

可选地,在本发明的实施例中,在步骤S105之后,方法100还包括:步 骤S107和步骤S109,在步骤S107中,采集发布和/或转发与热门关键词或热 门关键词组相关的微博内容的微博用户。

通过步骤S105可以采集到与热门关键词或热门关键词相关的微博内容的 微博用户,然而其中有些微博用户可能在微博用户库中没有记录(即新的微博 用户),考虑到这类微博用户发布或转发与热门关键词或热门关键词组相关的 微博内容的可能性较高,因此有必要将这类微博用户的相关信息记录到微博用 户库中。

随后,在步骤S109中,将采集到的微博用户更新到微博用户库中,并将 采集到的微博用户的选定状态标识为选定。

可选地,在本发明的实施例中,在步骤S109中微博用户更新之后,可以 检测微博用户库中的微博用户是否有重复如果有则删除重复的微博用户的 相关信息。

为了提高提高采集微博内容的工作效率,可以对微博用户库中的微博用户 进行恶意注册用户识别和/或活跃度识别。如果微博用户为恶意注册用户,或 者微博用户的活跃度较低,则可以将微博用户库中微博用户的选定状态调整为 非选定。

需要说明的是,图1所示的方法并不限定按所示的各步骤的顺序进行,可 以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分, 上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。

如图2所示,为本发明实施例中的采集微博内容的方法100中更新微博用 户库的流程图,该方法100还包括:步骤S111、步骤S113和步骤S115,在 步骤S111中,判断微博用户库中预先选定的微博用户是否符合预定义的条件。

可选地,在本发明的实施例中,在步骤S111中可以通过以下两种方式之 一或者两种方式的组合来判断微博用户库中预先选定的微博用户是否符合预 定义的条件:

方式一、判断微博用户库中微博用户是否为恶意注册用户,如果述预先选 定的微博用户为恶意注册用户,则判断结果为预先选定的微博用户不符合预定 义的条件,如果预先选定的微博用户不是恶意注册用户,则判断结果为述预先 选定的微博用户符合预定义的条件;

一般地,恶意注册用户指的是虚假注册用户、僵尸粉丝、僵尸粉或机器注 册用户等。

方式二、判断微博用户库中的预先选定的微博用户的活跃度是否低于预先 设定的活跃度阈值,如果微博用户的活跃度低于预先设定的活跃度阈值,则判 断结果为预先选定的微博用户不符合预定义的条件;如果微博用户的活跃度不 低于预先设定的活跃度阈值,则判断结果为预先选定的微博用户符合预定义的 条件,其中活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登 录时间和微博用户的当天在线时间中的任意一种或多种组合。

例如:每日发表微博≥5条,活跃度权值=0.2;3≤每日发表微博<5条, 活跃度权值=0.1;每日发表微博<3条;活跃度权值=0;

连续登录奖励规则:连续登录≥3天,活跃度权值=0.5;连续登录≥5天, 活跃度权值=1;连续登录≥10天,活跃度权值=2.5;连续登录≥20天,活跃 度权值=5;连续登录≥30天,活跃度权值=7.5。

其中,在上述方式一中可通过以下具体方式来判断微博用户库中微博用户 是否为恶意注册用户:

判断微博用户的用户评分值是否低于预先设定的恶意注册评分值;如果微 博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为微博用户 是恶意注册用户;如果微博用户的用户评分值不低于预先设定的恶意注册评分 值,则判断结果为微博用户不是恶意注册用户。

可选地,在本发明的实施例中,可以根据微博用户的头像信息、粉丝的数 量、微博内容的质量、发布或转发微博的频率等参数,采用现有的计算方式计 算得到用户评分值。例如:用户评分值满分100分,微博用户的头像总分5 分,粉丝的数量总分10分,微博内容的质量总分10分,……,然后基于上述 评分标准,计算选定微博用户的用户评分值。当然可以理解的是,在本发明的 实施例中并不限定识别恶意注册用户的方式。

如果预先选定的微博用户不符合预定义的条件,则进入步骤S113,在步 骤S113中,将微博用户库中预先选定的微博用户的选定状态标识为非选定。 也就是,取消采集属于恶意注册用户或活跃度较低的微博用户发布或转发的微 博内容。

如果预先选定的微博用户符合预定义的条件,则进入步骤S115,在步骤 S115中,保持微博用户库中预先选定的微博用户的选定状态不变。也就是, 如果预先选定的微博用户不是恶意注册用户或者活跃度较高,则下次采集微博 内容时,仍然需要采集该微博用户发布或转发的微博内容。

在本发明的实施例中,步骤S111~步骤S115可以与图1中的步骤S101~ 步骤S109中的任一步骤同时执行,也可以在其中任一步骤之后或任一步骤之 前执行。可选地,步骤S111~步骤S115可以在图1中的步骤S101之前执行, 即在采集微博用户库中预先选定的微博用户的微博内容和微博参数之前,判断 微博用户库中预先选定的微博用户是否为恶意注册用户和/或者预先选定的微 博用户的活跃度较低,如果该微博用户是恶意注册用户和/或微博用户的活跃 度较低时,则取消对该微博用户的选定,从而可以减少采集的微博用户的数量, 提高采集微博内容的准确性。

需要说明的是,图2所示的方法并不限定按所示的各步骤的顺序进行,可 以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分, 上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。

下面结合图3说明根据本发明一个实施例、适于解决上述技术问题的一种 采集微博内容的设备300。

如图3所示,根据本发明的实施例的采集微博内容的设备300可以主要包 括:第一采集模块301、提取模块303和第二采集模块305。应当理解,图3 中所表示的各个模块的连接关系仅为示例,本领域技术人员完全可以采用其它 的连接关系,只要在这样的连接关系下各个模块也能够实现本发明的功能即 可。

在本说明书中,各个模块的功能可以通过使用专用硬件、或者能够与 适当的软件相结合来执行处理的硬件来实现。这样的硬件或专用硬件可以 包括专用集成电路(ASIC)、各种其它电路、各种处理器等。当由处理器实 现时,该功能可以由单个专用处理器、单个共享处理器、或者多个独立的 处理器(其中某些可能被共享)来提供。另外,处理器不应该被理解为专 指能够执行软件的硬件,而是可以隐含地包括、而不限于数字信号处理器 (DSP)硬件、用来存储软件的只读存储器(ROM)、随机存取存储器(RAM)、 以及非易失存储设备。

在本发明的实施例中,第一采集模块301,用于采集预先选定的微博用户 的微博内容和微博参数。

在本发明的实施例中,提取模块303,用于根据采集到的微博内容和微博 参数,提取出与微博热点话题相关的热门关键词或热门关键词组。

在本发明的实施例中,第二采集模块305,用于根据提取到的热门关键词 或热门关键词组,按照预先设定的采集频率采集与热门关键词或热门关键词组 相关的微博内容。

可选地,在本发明的实施例中,设备300还包括:

第三采集模块307,用于采集发布和/或转发与所述热门关键词或热门关键 词组相关的微博内容的微博用户;

微博用户更新模块313,用于将采集的微博用户更新到微博用户库中,并 将采集的微博用户的选定状态标识为选定。

可选地,在本发明的实施例中,所述第一采集模块301进一步用于通过微 博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用户的微 博内容和微博参数。

可选地,在本发明的实施例中,所述提取模块303包括:

分类单元,用于根据采集到的所述微博内容和微博参数,按照预先设定的 微博类别对所述微博内容进行分类处理;

热点话题处理单元,用于对各个微博类别下的微博内容进行微博热点话题 处理,得到各个微博类别下与微博热点话题相关的微博内容;

提取单元,用于对各个微博类别下的与微博热点话题相关的微博内容分别 进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或 热门关键词组。

继续参见图3,采集微博内容的设备300还包括:判断模块309和选定状 态更新模块311。

在本发明的实施例中,判断模块309用于判断微博用户库中预先选定的微 博用户是否为符合预定义的条件;

可选地,在本发明的实施例中,判断模块309还包括:恶意注册判断单元 3091和/或活跃度判断单元3093,其中

恶意注册判断单元3091,用于判断所述微博用户库中微博用户是否为恶 意注册用户,如果所述预先选定的微博用户为恶意注册用户,则判断结果为所 述预先选定的微博用户不符合预定义的条件,如果所述预先选定的微博用户不 是恶意注册用户,则判断结果为所述预先选定的微博用户符合预定义的条件;

活跃度判断单元3093,用于判断所述微博用户库中的预先选定的微博用 户的活跃度是否低于预先设定的活跃度阈值,如果所述微博用户的活跃度低于 预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户不符合预定义 的条件;如果所述微博用户的活跃度不低于预先设定的活跃度阈值,则判断结 果为所述预先选定的微博用户符合预定义的条件,其中所述活跃度包括:微博 用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线 时间中的任意一种或多种组合。

可选地,在本发明的实施例中,恶意注册判断单元3091进一步用于判断 所述微博用户的用户评分值是否低于预先设定的恶意注册评分值;如果所述微 博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为所述微博 用户是恶意注册用户;如果所述微博用户的用户评分值不低于预先设定的恶意 注册评分值,则判断结果为所述微博用户不是恶意注册用户。其中,用户评分 值可以基于微博用户关注的用户数、微博用户的粉丝数和微博用户发布的微博 数计算得到。

在本发明的实施例中,选定状态更新模块311用于如果预先选定的微博用 户不符合预定义的条件,将所述微博用户库中预先选定的微博用户的选定状态 标识为非选定;如果预先选定的微博用户符合预定义的条件,则保持所述微博 用户库中预先选定的微博用户的选定状态不变。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有 相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构 造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程 语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且 上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发 明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细 示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或 多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一 起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法 解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确 记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发 明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式 的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为 本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适 应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实 施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它 们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中 的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利 要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所 有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、 摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来 代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它 实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意 味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求 书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器 上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解, 可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实 施例的采集微博内容的设备中的一些或者全部部件的一些或者全部功能。本发 明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装 置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可 以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的 信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他 形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并 且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施 例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的 限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之 前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包 括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干 设备的单元权利要求中,这些设备中的若干个可以是通过同一个硬件项来具体 体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解 释为名称。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号