首页> 中国专利> 用于通过社交网络进行情绪检测、测量和规格化的系统和方法

用于通过社交网络进行情绪检测、测量和规格化的系统和方法

摘要

本发明提出了一种新的方法,其构思了各种系统和方法,以提供检测、测量、聚合和规格化由一组用户在社交网络中对某个事件或话题所表达的情绪的能力,使得规格化的情绪真实地反映公众对该特定事件或话题的情绪。此外,也可相对于基线情绪对所收集和测量的个体用户在社交网络中表达的情绪进行规格化,以便真实地反映个体用户在其表达时的情绪。

著录项

  • 公开/公告号CN104145264A

    专利类型发明专利

  • 公开/公告日2014-11-12

    原文格式PDF

  • 申请/专利权人 托普西实验室股份有限公司;

    申请/专利号CN201280059775.5

  • 发明设计人 R·A·戈时;S·P·曼雷;

    申请日2012-10-26

  • 分类号G06F17/30(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人陈新

  • 地址 美国加利福尼亚

  • 入库时间 2023-12-17 02:24:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-07

    授权

    授权

  • 2015-03-25

    专利申请权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20150225 申请日:20121026

    专利申请权、专利权的转移

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121026

    实质审查的生效

  • 2014-11-12

    公开

    公开

说明书

相关申请的交叉引用

本申请要求于2011年10月26日提交的美国临时专利申请No. 61/551,833和于2012年10月25日提交的美国专利申请No.13/660,533的优 先权,并且据此以引用方式并入本文。

背景技术

社交媒体网络,例如Facebook、Twitter和Google+,近年来作为基于 Web的通信平台呈指数级增长。数以亿计的人每天都在使用各种形式的社 交媒体网络彼此通信和保持联系。因此,用户在社交媒体网络中发生的活 动,例如在Twitter上张贴推文,已经成为一种现象,并且可收集它们以用 于各种测量和分析。具体地,可通过其相应的公开可用的应用编程接口 (API)从社交网络的社交数据源来检索这些用户活动数据,对其进行索 引、处理并在本地存储以用于进一步分析。

这些从社交网络实时收集的流数据与随时间推移(overtime)收集和存 储的那些数据一起提供了用于各种测量和分析的基础。用于测量和分析的 一些度量包括但不限于:

·提及的次数-提及关键字、术语或链接的总次数;

·由影响者提及的次数-有影响力的用户提及关键字、术语或链接的 总次数;

·重要帖子提及的次数-已重新发布或包含链接的推文提及关键字、 术语或链接的总次数;

·速度-在先前的时间窗口(如七天)中,关键字、术语或链接“复 制”(taking off)的程度。

除了对数据内容执行上述测量和分析之外,分析用户通过其在社交网 络中的活动(如推文和帖子)表达的所聚合的情绪也同样重要。作为非限 制性实例,可由一组用户在一定时间段内关于某个话题表达的推文的百分 比来测量这种所聚合的情绪,分为积极、中性和消极。尽管对用户通过社 交网络表达的情绪进行的此类测量提供了对其看法/观点的实时计量,但此 类测量可能由于各种因素而有偏差,所述各种因素包括但不限于最活跃, 从而最可能在社交网络中表达其感受的用户的类型、每个个体用户表达的 时机和优选方式等。因此,如测量的那样,用户在社交网络中对某些问题 或事件表达的情绪可能不是大多数公众情绪的真实和准确的反映。

相关领域的上述实例以及与其相关的局限性旨在为例证性的而非排他 性的。在阅读说明书并研究附图后,相关领域的其他局限性将变得显而易 见。

附图说明

图1示出了用以支持通过社交网络进行情绪检测、测量和规格化的一 种系统图示的实例。

图2示出了用以支持通过社交网络进行情绪检测、测量和规格化的一 种过程的流程图的实例。

具体实施方式

在附图的图示中通过举例而非限制的方式例示了该方法,其中类似附 图标记表示类似元件。应该指出的是,本公开中提到“一个”或“一些” 实施例未必是同一实施例,并且此类引用表示至少一个。

本发明提出了一种新的方法,该方法设想了各种系统和方法以提供对 一组用户在社交网络中对于某个事件或话题表达的情绪进行检测、测量、 聚合和规格化的能力,使得规格化的情绪真实地反映公众对该特定事件或 话题的情绪。在本文中,可基于表达用户观点所在的社交网络的一种或多 种的自然偏差、所讨论的事件或话题的性质、以及用户在社交网络中的活 动时机,对用户表达的所聚合的情绪的测量进行规格化。此外,也可相对 于基线情绪对所收集和测量的个体用户在社交网络中表达的情绪进行规格 化,该基线情绪反映每个个体用户的自然倾向和/或在链接到个体用户的其 他内容中表达的情绪,以便真实地反映用户在其表达时的情绪。

如下文所提及,社交媒体网络或社交网络可以是任何可公开访问的基 于Web的平台或社区,使它的用户/成员能够发贴、共享、交流以及与彼此 进行交互。作为非限制性实例,此类社交媒体网络可以是但不限于 Facebook、Google+、Tweeter、LinkedIn、博客、论坛或任何其他基于Web 的社区。

如下文所提及,用户在社交媒体网络中的活动包括但不限于发布推 文、对推文进行回复和/或转发、发帖、评论其他用户的帖子、发表观点 (如喜欢)、供稿、联系(如添加其他用户为好友)、引用、链接到其他 网站或应用,或社交网络中的任何其他活动。与创建时间可能不会始终与 内容明确相关的典型Web内容相比,用户在社交网络中的活动的一个独有 特性是,存在与每个活动相关联的明确时间戳,使得可以建立在社交网络 中的随时间推移的用户活动的模式。

图1示出了支持通过社交网络进行情绪检测、测量和规格化的一种系 统图示的实例。尽管图示将组件示出为在功能上是独立的,但此类示出仅 用于说明性目的。显而易见的是,该图中所描绘的组件可以任意组合或划 分成独立的软件、固件和/或硬件组件。此外,同样显而易见的是,无论此 类组件如何组合或划分,其都可以在相同的主机或多个主机上执行,并且 其中多个主机可通过一个或多个网络进行连接。

在图1的实例中,系统100包括至少数据收集引擎102和情绪分析引 擎104。如本文所用,术语“引擎”是指用于实现某一目的的软件、固件、 硬件或其他组件。引擎通常将包括存储于非易失性存储器(也称为辅助存 储器)中的软件指令。在执行软件指令时,处理器将软件指令的至少一个 子集加载到存储器(也称为主存储器)中。处理器然后执行存储器中的软 件指令。处理器可以是共享处理器、专用处理器、或者共享或专用处理器 的组合。典型的程序将包括对硬件组件(如I/O设备)的调用,这通常需要 执行驱动程序。驱动程序可以被视为或不被视为引擎的一部分,但区别不 是关键性的。

在图1的实例中,每个引擎都可以在一个或多个托管设备(主机)上 运行。在本文中,主机可以是计算设备、通信设备、存储设备、或能够运 行软件组件的任何电子设备。作为非限制性实例,计算设备可以是但不限 于膝上型PC、台式PC、平板电脑、iPod、iPhone和iPad、Google的 Android设备、PDA或服务器。存储设备可以是但不限于硬盘驱动器、闪存 驱动器、或任何便携式存储设备。通信设备可以是但不限于移动电话。

在图1的实例中,数据收集引擎102和情绪分析引擎104均具有通信 接口(未示出),该通信接口是一个软件组件,其使得引擎能够遵循某些 通信协议,例如TCP/IP协议,通过一个或多个通信网络(未示出)彼此相 互通信。在本文中,通信网络可以是但不限于互联网、内联网、广域网 (WAN)、局域网(LAN)、无线网络、蓝牙、WiFi和移动通信网络。网 络的物理连接和通信协议是本领域的技术人员所熟知的。

在图1的实例中,数据收集引擎102通过周期性地采集社交网络信息 以收集来自每个用户的最新活动数据来收集关于用户在社交网络中的活动 的数据。考虑到社交媒体网络中的巨大数量的可访问数据,数据收集引擎 102可基于针对用户的活动收集计划表选择性地收集来自每个个体用户的数 据。如果未在信息采集的时刻根据用户的活动收集计划表收集用户的活 动,则数据收集引擎102将跳过与该用户相关的内容并继续移动到要根据 他/她的计划表收集其活动的下一用户。数据收集引擎102对数据的此类选 择性收集减少了每轮信息采集所需的时间和资源,而不会损害 (comprising)所收集数据的新鲜度。在一些实施例中,数据收集引擎102 可以运行和协调来自不同互联网地址(IP)的多个信息采集器以便收集尽 可能多的数据。社交媒体信息采集引擎106也可最大化每次(HTTP)请求 收集的新数据的量。

在一些实施例中,数据收集引擎102可基于与用户在社交网络中的活 动相关联的时间戳,针对每个用户来建立随时间推移的活动分布模式/模 型。这种随时间推移的活动分布模式可反映出每个个体用户在社交网络中 何时最活跃或最不活跃以及用户在社交网络中的活动频率,并可用于为用 户制定活动收集计划表。作为非限制性实例,用户可能在晚上8-12点之间 在社交网络中最活跃,而在清晨期间可能最不活跃,或者用户在周末而非 工作日最活跃。

在一些实施例中,数据收集引擎102还可以确定在发生某些事件时每 个个体用户是否和/或何时可能最活跃,所述某些事件例如是用户追随的某 项体育赛事或产品新闻(如iPhone发布)。作为另外一种选择,数据收集 引擎102可以确定用户的活动与该用户在社交网络中联系的一个或多个好 友的活动密切相关。作为非限制性实例,如果该用户的一个或多个好友变 得活跃,例如开始一个有趣的讨论或参与在线游戏,还可能使用户也主动 参与进去。

在一些实施例中,数据收集引擎102可利用由社交网络提供的应用编 程接口(API)收集关于用户在社交网络中的活动的数据。作为非限制性实 例,由Facebook提供的OpenGraph API暴露了社交网络中的多个资源(即 与用户活动相关的数据),其中每种资源都具有ID,并且内省法可用于了 解其上可用的类型和方法。在本文中,ID可以是用户名和/或编号。由于所 有资源都具有编号的ID并且只有部分资源具有命名的ID,因此仅使用编号 的ID来指代资源。

在图1的实例中,情绪分析引擎104通过多个种情绪文本计分方案检 测和识别用户在所收集的他们在社交网络中的活动的数据中表达的关于/对 于某个特定事件或话题的情绪,所述计分方案考虑了通常人们在社交媒体 网络中,尤其在Twitter中如何表达自己的方式和细微差别。在Twitter的非 限制性实例中,在传统情绪测量技术无法很好处理的推文的140字符约束 之内,人们表达自己的方式存在显著差异。基于数据收集引擎102实时收 集的并随时间推移存储的海量数据的分析和测试,情绪分析引擎104能够 识别推文中的多个“推客用语”(twitterisms),即在所收集的数据中的情 绪表达的具体特征,所述具体特征不仅指示人们对某个事件或某些事物的 感受,而且也是人们如何在诸如Twitter等社交网络中使用推文表达自己所 特有的。由多个情绪文本计分方案利用这些识别的情绪表达的特征来检测 用户在社交网络中表达的情绪。在本文中,每位用户的情绪以非常积极、 积极、平常、消极、非常消极来表征。

一旦基于所收集的用户活动检测到了用户的情绪,情绪分析引擎104 将评估和聚合用户对特定事件或话题的情绪(积极或消极情绪)。作为非 限制性实例,在新的iPhone发布时间前后分析Twitter上与iPhone相关的 推文可以表明,21%的用户是积极的,而18%的用户是消极的。如果将该 时间段扩展到发布之后的一个星期或一个月,社交情绪分数可能指向不同 的情绪分数(用户积极或消极的更高百分比),因为用户有更多时间体验 新的iPhone。

在一些实施例中,情绪分析引擎104相对于基线情绪对用户的所聚合 的情绪和/或每个个体用户的情绪进行规格化,所述基线情绪考虑了一个或 多个因素/偏差,其包括但不限于用户表达观点所在的社交网络的自然偏 差、所讨论的事件或话题的性质、以及用户在社交网络中的活动的时机。 在本文中,各种统计度量,例如中数、平均数、标准偏差、相关度或这些 度量的任意组合,可由情绪分析引擎104使用以对用户的随时间推移而测 量的情绪进行规格化。为了获得每个个体用户和/或公众对特定事件的情绪 的准确测量,此类情绪规格化是必要的。此外,情绪分析引擎104可相对 于每个个体用户的自然倾向和/或在链接到个体用户的其他内容中表达的情 绪,对每个个体用户的所测量的情绪进行规格化。

在一些实施例中,情绪分析引擎104基于每个个体用户或一组用户的 情绪的规格化测量,计算对于事件或话题的社交情绪分数。在本文中,对 于事件的社交情绪分数代表一个或多个个体用户在社交网络中对当前事件 和/或在一定时间段内(根据被分析的用户活动的时间戳)表达的规格化情 绪,其中这种社交情绪分数反映个体用户的真实情绪或公众的情绪。

在发布新iPhone前后分析用户情绪的前一实例中,基于用户在Twitter 上的推文所测量的情绪对于iPhone发布而言仅仅稍显积极(21%积极, 18%消极)。不过,由于在Twitter上表达的情绪往往比公众的情绪更消 极,因此在情绪分析引擎104相对于Twitter的消极偏差进行规格化时,稍 显积极的情绪读数实际上要积极得多。

作为另一个非限制性实例,用户在Twitter上表达的最强烈的消极情绪 往往针对与政治相关的事物,而最强烈的积极情绪不像消极情绪那样强 烈,并且集中在无争议的话题上,例如旅行、摄影等。因此,在对情绪分 析引擎104所测量的情绪分数进行规格化时必须要考虑到这一点,并且在 围绕政治问题的大部分情绪呈压倒性消极的情况下进行规格化时,政治事 件稍显积极的读数事实上可能指示该事件深受欢迎。

作为另一个非限制性实例,如果用户1在遣词造句时往往更积极(如 他/她经常会讲“太好了”),而用户2在遣词造句时往往更保守(如他/她 经常会讲“还可以”),那么在由情绪分析引擎104相对于其消极偏差进 行规格化时,用户2的积极表达(例如“太好了”)实际上相当积极,而 在相对于其积极偏差进行规格化时,用户1的相同表达可能仅仅是中性 的。

图2示出了支持通过社交网络进行情绪检测、测量和规格化的一种过 程的流程图的实例。尽管此图示为了例示目的按照特定顺序示出了功能步 骤,但该过程不限于步骤的任何特定顺序或排列。相关领域的技术人员将 会知道,可以通过各种方式省略、重新排列、组合和/或调整此图示中描绘 的各个步骤。

在图2的实例中,流程图200开始于方框202,在该方框202中收集关 于多个用户在社交网络中的活动的数据。流程图200继续至方框204,在该 方框204中检测并测量如在所收集的用户在社交网络中的活动的数据中所 表达的他们中的每一个对某个事件或话题的情绪。流程图200继续至方框 206,在该方框206中任选地聚合所检测到的多个用户对事件或话题的情 绪。流程图200结束于方框208,在该方框208中相对于基线情绪对用户的 所聚合的情绪和/或每个个体用户的情绪进行规格化,使得规格化的情绪真 实地反映公众和/或个体用户对事件或话题的情绪。

对于计算机领域中的技术人员显而易见的是,可利用本公开的教导编 程的常规通用或专用数字计算机或一个或多个微处理器来实施一个实施 例。对于软件领域的技术人员显而易见的是,熟练的程序员基于本公开的 教导能够容易地准备适当的软件编码。对于本领域的技术人员显而易见的 是,也可通过制备集成电路或将常规组件电路的适当网络进行互联来实施 本发明。

一个实施例包括计算机程序产品,该计算机程序产品是在其上/其中存 储有指令的一种或多种机器可读介质,其可用于对一个或多个主机进行编 程以执行本文给出的任何特征。机器可读介质可包括但不限于一种或多种 磁盘,包括软盘、光盘、DVD、CD-ROM、微驱动器和磁光盘、ROM、 RAM、EPROM、EEPROM、DRAM、VRAM、闪存设备、磁卡或光卡、纳 米系统(包括分子存储器IC),或适于存储指令和/或数据的任何类型的介 质或设备。本发明包括存储在一种或多种计算机可读介质中的任一种上的 软件,以用于控制通用或专用计算机或微处理器的硬件,并用于使计算机 或微处理器与人类观察者或利用本发明的结果的其他机构进行交互。此类 软件可包括但不限于设备驱动程序、操作系统、执行环境/容器和应用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号