首页> 中国专利> 传播健康度的统计方法、系统和装置

传播健康度的统计方法、系统和装置

摘要

本发明提供了传播健康度的统计方法、系统和装置。其中,该方法包括:A,获取并记录在设定时间内分享至社交网站的网站内容被执行第一操作引起的初次分享量、被执行第二操作引起的社区传播量、以及被执行第三操作引起的回流量;B,在所述设定时间结束时,对在所述设定时间内分享至所述社交网站中的网站内容进行解析,获取该网站内容所属的主域名;C,针对获取的主域名,利用属于该主域名的所有网站内容在所述设定时间内的初次分享量、社区传播量和回流量确定该主域名的初始分享量、社区传播量和回流量;D,利用主域名的初始分享量、社区传播量和回流量统计主域名的健康传播度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-13

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20151225 变更前: 变更后: 申请日:20120426

    专利申请权、专利权的转移

  • 2014-06-04

    授权

    授权

  • 2012-11-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120426

    实质审查的生效

  • 2012-09-19

    公开

    公开

说明书

技术领域

本发明涉及计算机技术,特别涉及传播健康度的统计方法、系统和装置。

背景技术

本申请所指的传播健康度,其主要是指网络站点(以下简称网站)的传 播效果,也即热门程度。通常,一个网站具有吸引力,则说明该网站的传播 效果好,热门程度高,相应地,传播健康度就高,反之亦然。

目前技术尚没有网站传播健康度的统计方法,仅有一些微博应用比如新 浪微博风云榜中研究话题和词语的热度。其中,如果一个话题参与热议的用 户越多,大家讨论得越激烈,则说明该话题的热议次数就越多,它就在热门 话题榜上排的位置越高;同样,如果某个关键词在一定时间内被微博的博文 提及的次数越多,它就在热门关键词榜上排的位置就越高。但是,这种研究 话题和词语的受欢迎度虽然能评估话题或者词语的热门程度,但其有三大问 题:

第一,其数据采集范围仅是对应的微博用户,以新浪微博风云榜为 例,则新浪微博风云榜仅是针对新浪微博用户,数据采集范围比较窄,无法 推及互联网用户行为,代表性较差。

第二,其研究对象仅是微博博文,研究对象比较局限,无法推及网 站内容;

第三,其仅是从议论次数和被微博博文提及的次数来简单地衡量 内容的热度,比较单一,无法体现网站的传播健康度。

基于上述三个问题,可以看出,现有技术尚没有一种方法可以更准确地 统计出网站传播健康度。因此,一种网站传播健康度的统计方法是当前亟待 解决的技术问题。

发明内容

本发明提供了网络站点传播健康度的统计方法、系统和装置,以实现网络站 点传播健康度的统计。

本发明提供的技术方案包括:

一种传播健康度的统计方法,包括:

A,获取在设定时间内分享至社交网站的网站内容被执行第一操作引起的初 次分享量、被执行第二操作引起的社区传播量、以及被执行第三操作引起的回 流量;

B,在所述设定时间结束时,对在所述设定时间内分享至所述社交网站中的 网站内容进行解析,获取该网站内容所属的主域名;

C,针对获取的主域名,利用属于该主域名的所有网站内容在所述设定时间 内的初次分享量、社区传播量和回流量确定该主域名的初始分享量、社区传播 量和回流量;

D,利用主域名的初始分享量、社区传播量和回流量统计主域名的健康传播 度。

一种传播健康度的统计装置,包括:

获取模块,用于获取在设定时间内分享至社交网站的网站内容被执行第一操 作引起的初次分享量、被执行第二操作引起的社区传播量、以及被执行第三操 作引起的回流量;

解析模块,用于在所述设定时间结束时,对在所述设定时间内分享至所述社 交网站中的网站内容进行解析,获取该网站内容所属的主域名;

确定模块,用于针对获取的主域名,利用属于该主域名的所有网站内容在所 述设定时间内的初次分享量、社区传播量和回流量确定该主域名的初始分享量、 社区传播量和回流量;

统计模块,用于利用主域名的初始分享量、社区传播量和回流量统计主域名 的健康传播度。

一种传播健康度的统计系统,该系统包括:数据上报服务器、分布式数据库、 以及如上所述的装置;其中,

所述数据上报服务器用于上报在设定时间内分享至社交网站的网站内容被 执行第一操作引起的初次分享量、被执行第二操作引起的社区传播量、以及被 执行第三操作引起的回流量至所述装置;

所述分布式数据库用于存放所述数据上报服务器上报的在设定时间内分享 至社交网站的网站内容被执行第一操作引起的初次分享量、被执行第二操作引 起的社区传播量、以及被执行第三操作引起的回流量,以供如上所述的装置处 理所述数据上报服务器上报的在设定时间内分享至社交网站的网站内容被执行 第一操作引起的初次分享量、被执行第二操作引起的社区传播量、以及被执行 第三操作引起的回流量。

由以上技术方案可以看出,本发明中,通过获取并记录在设定时间内分享至 社交网站的网站内容被执行第一操作引起的初次分享量、被执行第二操作引起 的社区传播量、以及被执行第三操作引起的回流量,在所述设定时间结束时, 对在所述设定时间内分享至所述社交网站中的网站内容进行解析,获取该网站 内容所属的主域名,以及针对获取的主域名,利用属于该主域名的所有网站内 容在所述设定时间内的初次分享量、社区传播量和回流量确定该主域名的初始 分享量、社区传播量和回流量,利用主域名的初始分享量、社区传播量和回流 量统计主域名的健康传播度,实现网络站点传播健康度的统计。

附图说明

图1为本发明实施例提供的方法流程图;

图2为本发明实施例提供的示例流程图;

图3为本发明实施例提供的第一数据记录示意图;

图4为本发明实施例提供的第二数据记录示意图;

图5为本发明实施例提供的第三数据记录示意图;

图6为本发明实施例提供的装置结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。

本发明提供的方法包括图1所示的流程:

参见图1,图1为本发明实施例提供的方法流程图。如图1所示,该流 程可包括以下步骤:

步骤101,获取在设定时间内分享至社交网站的网站内容被执行第一操作引 起的初次分享量、被执行第二操作引起的社区传播量、以及被执行第三操作引 起的回流量。

在本发明中,可对设定时间进行定义,比如,定义设定时间为1天,或者1 周等,本发明并不具体限定。

另外,本发明中,网站内容被执行第一操作引起的初次分享量实质为设定时 间内该网站内容被执行第一操作的次数之和,同理,网站内容被执行第二操作 引起的社区传播量、以及被执行第三操作引起的回流量依次为网站内容被执行 第二操作的次数之和、以及被执行第三操作的次数之和。

下面对本发明中的第一操作、第二操作、第三操作进行描述:

在本发明中,网站内容被执行第一操作可定义为:所述网站内容被从社 交网站之外的其他网站,比如优酷(youku)或土豆(tudou)等网站的用户 选取并分享至所述社交网站,和/或,所述网站内容被从所述社交网站中选取 并被直接分享在社交网站;

所述网站内容被执行第二操作可定义为:所述网站内容被用户在所述社 交网站中转发、和/或评论、和/或推荐;其中,这里的推荐优选可为点击或 触发社交网站中的“赞”按钮。以推荐具体为社交网站中的“赞”按钮为例, 则通过在社交网站中嵌入“赞“按钮,网站的浏览者点击或者通过其他方式 触发该“赞”按钮,即可以便捷地推送所述网站内容。其中,这种“赞”按 钮可以通过JS(JavaScrip)代码来形成。

所述网站内容被执行第三操作可定义为:所述网站内容在所述社交网站 中被用户查看,和/或所述网站内容触发用户直接访问用于提供所述网站内容 的原始网站。比如,所述网站内容通过所述第一操作被从优酷网站选取并分 享至社交网站,如此,对该网站内容执行第三操作,即为:直接在社交网站 触发比如点击该网站内容以观看该网站内容,或者,直接点击该内容中的相 关链接访问该网站内容的原始网站即优酷网站。

基于第一操作、第二操作、以及第三操作的定义,则,

上述的网站内容被执行第一操作引起的初始分享量具体为:网站内容比 如优酷的视频文件在所述预设时间内被用户分享到社区网站,此时记录该网 站内容在设定时间内被所有用户分享到社交网站的次数之和,和/或,网站内 容比如社交网站的视频文件在所述设定时间内被所有用户直接在社交网站发 布的次数之和。

上述的网站内容被执行第二操作引起的社区传播量具体为:网站内容被 社交网站的用户在社交网站内部转发、和/或评论和/或推荐比如点击“赞” 按钮等操作,这些操作量在所述设定时间内的累积为该网站内容的社区传播 量;

上述的网站内容被执行第三操作引起的回流量具体为:网站内容被社交网 站的用户在社交网站内查看比如点击观看,和/或该点击该网站内容中相关链接 触发用户直接访问其原始网站,这些查看量和/或从社交网站访问提供该网站内 容的原始网站的总量为该网站内容的回流量。

步骤102,在所述设定时间结束时,对在所述设定时间内被分享至所述社交 网站中的网站内容进行解析,获取该网站内容所属的主域名。

其中,所述主域名其实质与网站内容所述的网站对应。

步骤103,针对获取的主域名,利用属于该主域名的所有网站内容在所述设 定时间内的初次分享量、社区传播量和回流量确定该主域名的初始分享量、社 区传播量和回流量。

具体地,步骤103可包括:从所述设定时间内被分享至所述社交网站中的所 有网站内容中统计出属于该主域名的所有网站内容的初次分享量之和、社区传 播量之和、以及回流量之和,将统计出的初次分享量之和、社区传播量之和、 以及回流量之和作为该主域名的初始分享量、社区传播量和回流量。

步骤104,利用主域名的初始分享量、社区传播量和回流量统计主域名 的健康传播度。

优选地,本发明中,步骤104具体实现时可包括:展示主域名的初始分 享量、社区传播量和回流量,针对展示的主域名的初始分享量、社区传播量 和回流量,按照以下原则统计主域名的健康传播度:主域名的回流量越大于 社区传播量比如回流量显著大于社区传播量,以及社区传播量越大于初次分 享量比如社区传播量显著大于初次分享量,则该主域名的健康传播度越高。

由于主域名其实质与网站内容所述的网站对应,因此,本步骤104统计 主域名的健康传播度,实质也是统计网站的健康传播度。其中,当统计出网 站的健康传播度高时,表示该网站具有吸引力,非常受社交网站用户欢迎, 反之亦然。

以上对图1所示的方法进行了描述。

在本发明中,优选地,可将上述的网站内容举例为URL地址串。另外, 还可将上述的社交网站举例为现有Qzone网站(腾讯公司的社交类网站)。

下面以网站内容为URL地址串、社交网站为Qzone网站为例对图1所 示流程进行详细描述:

参见图2,图2为本发明实施例提供的示例图。在图2中,该示例主要 涉及以下四部分:

第一部分:设定时间内URL地址串的初次分享量、社区传播量、以及回 流量的上报。比如2012年1月1日这一天内,当URL地址串被执行第一操 作分享至Qzone时,上报初次分享量;同样,当URL地址串在Qzone中被 执行第二操作、第三操作时,也依次上报社区传播量和回流量。

作为本发明实施例的一种扩展,本发明实施例中,上除URL地址串的初 次分享量、社区传播量、以及回流量均可以流水日志的方式上报。相应地, 上报的目的地就为日志server,具体如图2所示。其中,流水日志中至少包 含时间信息、URL地址串和操作类型。

第二部分:数据入库与挖掘。本部分中,当日志server接收到上述流水 日志时,将该流水日志记录至分布式数据仓库中,至此,该分布式数据仓库 的数据记录如图3所示;之后,当设定时间比如2012年1月1日这一天结束 时,对该设定时间内上报的每一流水日志进行数据加工计算和挖掘。

其中,该数据加工计算和挖掘可通过事先开发好的一个脚本代码实现, 为便于描述,本发明可将该脚本代码记为python脚本代码。

如此,当设定时间比如2012年1月1日这一天结束时,由分布式数据仓 库调用所述python脚本代码对该设定时间内上报的每一流水日志进行数据 加工计算和挖掘。其中,数据加工计算和挖掘具体可为:

步骤1,针对通过流水日志上报的URL地址串进行主域名解析,以解析 出流水日志上报的URL地址串所述的主域名。

优选地,本步骤1在对URL地址串解析之前可进一步包括:判断该URL 地址串是否符合网络地址规定,如果否,则删除该URL地址串,结束对该 URL地址串的主域名解析,否则,继续执行该URL地址串的主域名解析。

步骤2,判断该解析的主域名是否在预设的域名白名单中,如果否,则 删除该URL地址串,如果是,则继续维持该URL地址串。以解析的主域名 在预设的域名白名单为例,则在针对图3所示的数据记录执行完本步骤1和 2后,可得到图4所示的数据记录。

通过步骤2的判断,目的是清洗掉一些无关的URL地址串,以节省性能。

步骤3,针对获取的主域名,统计出属于该主域名的所有URL地址串的 初次分享量之和、社区传播量之和、以及回流量之和,将统计出的初次分享 量之和、社区传播量之和、以及回流量之和依次作为该主域名的初始分享量、 社区传播量和回流量。

针对图4所示的数据记录执行完本步骤3之后,可得到图5所示的数据 记录。

至此,完成第二部分的数据挖掘。

其中,为便于后续查询本部分挖掘出的数据,可将得到的图5所示的数 据记录汇总至预设的结果表中。其中,该结果表之前已记录了某些主域名之 前的初始分享量、社区传播量和回流量。

第三部分:结果表中的数据入库。也即将结果表中所有主域名的初始分 享量、社区传播量和回流量、或者上述设定时间比如2012年1月1日内得到 的所有主域名的初始分享量、社区传播量和回流量同步至已建立好的数据库, 例如oracle数据库,图2以oracle数据库为例示出。优选地,为防止数据被 重复同步至oracle数据库,节省同步时间,作为本发明的一个实施例,本发 明将上述设定时间比如2012年1月1日内得到的所有主域名的初始分享量、 社区传播量和回流量同步至已建立好的数据库比如图2示出的oracle数据库。

第四部分:统计主域名的传播健康度,具体为:前台应用程序比如PHP 抓取图2示出的oracle数据库存放的上述设定时间比如2012年1月1日内得 到的所有主域名的初始分享量、社区传播量和回流量,并展示给用户。其中, 该展示可利用预设的模型展现算法执行,具体如图2所示。

展示的主域名的初始分享量、社区传播量和回流量,对于产品研发和内 容运营都很有意义。比如,产品或者网站的运营者可根据属于其产品的主域 名的初始分享量、社区传播量和回流量来评估该主域名对应的网站是否健康, 是否用吸引力,以便进一步优化内容,同时,网络用户也可根据主域名的初 始分享量、社区传播量和回流量来评估该主域名对应的网站是否健康,是否 有吸引力,以便进一步决定是否利用该网站执行其需要的操作。

优选地,本发明中,如果一个主域名的社区回流量大于社区传播量,而 社区传播量也大于初次分享量,则说明该主域名对应的网站非常受社区用户 欢迎。反之,社区回流量小于社区传播量,而社区传播量也小于初次分享量, 则说明该主域名对应的网站不具有明显的吸引力。

另外,本发明通过树立了用于评估主域名也即网站传播健康度的三大指 标即主域名的初始分享量、社区传播量和回流量,能够提高内容在社区传播 尤其是病毒传播的效果能见度,并且,本发明能够从海量数据中挖掘数据通 过图形可视化展示主域名的初始分享量、社区传播量和回流量,便于用户直 观得出主域名的健康传播度。

至此,完成了本发明提供的方法描述。

参见图6,图6为本发明实施例提供的装置结构图。如图6所示,该装 置包括:

获取模块,用于获取并记录在设定时间内分享至社交网站的网站内容被执行 第一操作引起的初次分享量、被执行第二操作引起的社区传播量、以及被执行 第三操作引起的回流量;

解析模块,用于在所述设定时间结束时,对在所述设定时间内分享至所述社 交网站中的网站内容进行解析,获取该网站内容所属的主域名;

确定模块,用于针对获取的主域名,利用属于该主域名的所有网站内容在所 述设定时间内的初次分享量、社区传播量和回流量确定该主域名的初始分享量、 社区传播量和回流量;

统计模块,用于利用主域名的初始分享量、社区传播量和回流量统计主域名 的健康传播度。

其中,所述网站内容被执行第一操作包括:所述网站内容被从社交网站之外 的其他网站选取并分享至所述社交网站,和/或,所述网站内容被从所述社交网 站中选取并被直接分享在社交网站;

所述网站内容被执行第二操作包括:所述网站内容被用户在所述社交网站中 转发、和/或评论、和/或推荐;

所述网站内容被执行第三操作包括:所述网站内容在所述社交网站中被用户 查看,和/或所述网站内容触发用户直接访问用于提供所述网站内容的原始网站。

本发明中,所述解析模块进一步判断该网站内容所属的主域名是否在预设的 域名白名单中,如果否,则删除该网站内容,如果是,则继续维持该网站内容。

如图6所示,所述确定模块可包括:

第一统计子模块,用于针对获取的主域名,从所述设定时间内被分享至所述 社交网站中的所有网站内容中统计出属于该主域名的所有网站内容的初次分享 量之和、社区传播量之和、以及回流量之和;

确定子模块,用于将所述统计子模块统计出的初次分享量之和、社区传播量 之和、以及回流量之和作为该主域名的初始分享量、社区传播量和回流量。

如图6所示,所述统计模块可包括:

展示子模块,用于展示主域名的初始分享量、社区传播量和回流量;

第二统计子模块,用于针对展示的主域名的初始分享量、社区传播量和回流 量,按照以下原则统计主域名的健康传播度:主域名的回流量越大于社区传播 量,以及社区传播量越大于初次分享量,则该主域名的健康传播度越高。

在本发明中,优选地,所述网站内容为URL地址串。

至此,完成对本发明实施例提供的装置描述。

另外,本发明还提供了传播健康度的统计系统,其中,该系统包括:数 据上报服务器、分布式数据库、以及如上图6所示的装置;其中,

所述数据上报服务器用于上报在设定时间内分享至社交网站的网站内容被 执行第一操作引起的初次分享量、被执行第二操作引起的社区传播量、以及被 执行第三操作引起的回流量至所述装置;

所述分布式数据库用于存放所述数据上报服务器上报的在设定时间内分享 至社交网站的网站内容被执行第一操作引起的初次分享量、被执行第二操作引 起的社区传播量、以及被执行第三操作引起的回流量,以供如上所述的装置处 理所述数据上报服务器上报的在设定时间内分享至社交网站的网站内容被执行 第一操作引起的初次分享量、被执行第二操作引起的社区传播量、以及被执行 第三操作引起的回流量。

优选地,本发明中,基于图2描述的示例,所述数据上报服务器可为日 志服务器,其通过流水日志的方式获取并上报在设定时间内分享至社交网站 的网站内容被执行第一操作引起的初次分享量、被执行第二操作引起的社区 传播量、以及被执行第三操作引起的回流量至所述装置。

其中,所述装置执行的操作均如图6所示,这里不再赘述。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号