首页> 中国专利> 用于将信息从一个数据集转换到另一个数据集的系统和方法

用于将信息从一个数据集转换到另一个数据集的系统和方法

摘要

一种校准目标人口的关系未知的对象数据以使校准的对象数据能够更加准确地代表目标人口的方法和系统。在许多情况下,校准会涉及差分权重方案的使用,其被用到成分水平的数据。系统和方法允许在对象数据集中的观察到的变量的值可以被加权,以使其发生率相等于由参考数据集表示的参考人口的发生率,即使在参考数据集中使用的变量以为参考人口作出的估计没有针对对象数据集被收集或者测量。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-04

    授权

    授权

  • 2015-07-22

    实质审查的生效 IPC(主分类):G06F17/00 申请日:20130531

    实质审查的生效

  • 2015-06-24

    公开

    公开

说明书

相关申请的交叉引用

本申请要求2013年3月15日提交的美国专利申请号13/836,591, 标题为“A SYSTEM AND METHOD FOR TRANSFERRING INFORMATION FROM  ONE DATA SET TO ANOTHER”的优先权,其要求2012年6月1日提交的美 国临时专利申请号61/654,771,标题为“A SYSTEM AND METHOD FOR  TRANSFERRING INFORMATION FROM ONE DATA SET TO ANOTHER”的权益, 其全部内容通过引用合并于此。

背景技术

如今,媒体研究者和信息管理者可以任意使用与消费者相关的广泛信息。 这些数据包括以明显的,主动方法收集的,也包括一些以不明显的观察收集 的。前者的例子包括调查,保修登记,通过互联网连接设备主动数据收集, 以及频繁的购物节目。后者的例子包括从数据流获得的数据,优惠券赎回, 信用卡交易,通过数字机顶盒的电视观看行为,因特网观察行为(例如通过 cookies的交互),IP跟踪等等。在过去,大多数用于人口估计的数据一致被 认为是从具有良好定义的已知的人口关系,例如概率样本中得到的。受需求 驱动,通过一些老范例的失败,以及通过新技术,其产生了多样的以及潜在 有利的信息,越来越多的可用数据,在表面上,是来自不具有良好定义的已 知人口关系并且不直接代表将要被测量的人口的数据集。尽管数据的所有类 型都是潜在有用的(例如,良好定义的人口关系数据,在某些方式上,也被 认为是良好定义的人口关系数据不是已知的),基于不具有数据集元素和人 口元素之间良好定义的已知的关系,现有技术提供了很少的用于提高人口估 计的精确性的工具。

当要分析的人口规模(“目标人口”)很大,需要分析目标人口(这里 “原始数据”)信息的研究者很少实施人口的所有成员的原始数据的规则化 测量,因为收集这么多的信息成本往往很高,它需要的收集时间太长,或者 是因为一些其他原因不切实际。一个高数据收集成本的著名示例是十年一次 的人口普查。在美国,根据美国政府问责办公室公布的“Preliminary Lessons  Learned Highlight the Need for Fundamental Reforms”,2010人口普查花费大 概130亿美元来收集大概3.08亿美国居民的数据。

由于实施大量目标人口的人口普查的高成本,研究者将典型得只收集一 部分人口数据(例如,采样人群),并且将然后根据样本和它与人口的关系, 估计整体人口的特性。这种方法的问题是,样本可能是误导的,由于在样本 选择本身过程中的已知,以及未知存在的偏差。例如,样本会经常成为自选 择偏差的受害者,因为样本人口的一些成员拒绝被观察或者不能被观察。样 本,包括那些交易数据集合中的(例如通过信用卡的在收银处的购买,在订 购了某种电视服务的家庭中实施的电视观看行为交易,其观看行为交易被监 视,等等)通常是参与者以结果样本被偏差的方式进行选择的:它用充分的 并且未知的方式不准确地代表了整体目标人口。这些选择偏差的存在会使人 口特性的结果估计不准确,在直观的或者偏见的感觉上。

在本说明书中方便起见,一些术语将被定义。收集到的数据,是用于做 人口估计的原始数据集合,不管是明显地收集到还是不明显地,在下文中称 为“对象数据”。用来获取目标人口属性的数据集将被称作“参考数据”。 代表特定事件的不明显获得的数据(例如信用卡交易,电视机顶盒的信道变 化,在网络浏览器的URL上的点击,频繁的快交易,或者与商家的可靠得 程序交易)在下文中被称作“交易数据”。在本文中,有所区别的是,“个 人-身份信息”,也就是说,具有充分独特性的数据可用于识别特定的个人 或者家庭,例如社保号,名字/地址结合,信用卡号,等等。而“个人信息”, 不一定足以识别特定的个人或用户,然后也被认为是隐私信息,比如收入, 宗教偏好,年龄,等等。个人-身份信息的使用存在许多法律限制。此外, 许多公司对于使用个人信息很敏感,即使没有具体的法律限制。

过去媒体调查发生在研究者控制样本,抽样框,以及问调查问题的情形 中。统计方法和估计程序被发展以解释人口样本的估计和属性与研究目标的 整体人口之间的区别。通过技术的结合-例如严谨的样本框设计,概率抽样, 过度抽样,优化配置,以及样本平衡-大量的方法论工具发展起来。这些技 术中的大部分利用概率理论从样本数据中构建人口特性估计。一些,像样本 平衡,没有使用概率机制,但是至少,假设将被分析的数据具有充分细节, 以使调查者能够构建校准型估计,利用从样本元素中直接收集的校准变量值, 来对未来人口做出估计。总之,这些校准估计和过程要求用于校准的变量存 在于样本收集的数据中。

当样本受到选择偏差时,基于概率抽样的估计技术通常是不充分的。对 象数据集不一定基于从完全覆盖了目标人口的定义的采样框中取得的概率样 本的事实意味着一些变量或者它们的值的比率或者发生率可能并不能好的近 似其本来那么大量的人口中的相应比率。使用这些数据的估计量不具有使对 象数据集中的结果偏差足够正确的选择可能性。如果适合于校准估计量的变 量在对象数据集中可以被获得,则校准或者相关技术可被用于调整估计。但 是,这些传统的统计技术要求用于平衡变量的调查回应者级别信息在对象数 据集中是存在的。换句话说,样本平衡技术要求用于平衡的所有变量存在于 (例如,天然存在于)数据集中,以使平衡变量对于数据集中的每个回应者 可被观察或测量到。例如,在做人口估计的过程中,当对象数据集包含数据 集中的每个回应者的必要人口统计数据时,传统的平衡技术可应用于提高数 据集的代表性,以匹配目标人口的人口统计的统计量。

然而,这些传统调查估计技术要求所有平衡变量存在于数据集的事实是 现代数据隐私要求情形下的严重限制。例如,许多消费者反对允许调查、数 据收集,或者市场公司去收集(或者结合)伴随着旨在被分析的主要调查或 者交易数据的个人信息。许多消费者反对提供(或者可能不能提供)信息, 例如他们是否观看了特定的电视广告,节目或者频道,他们是否观看了特定 的英特网网站或者以其他方式消费其他因特网内容,例如通过使用智能手机 应用程序,他们是否购买了或者将要购买特定的产品,以及真正的或者潜在 的产品购买发生在什么情形下,他们是否使用特定的服务以及相关条件,等 等。

在一些情况下,目标人口的成员可能,在获得足够补偿的条件下(比如 金钱补偿,产品优惠券,人群中第一个尝试新产品的机会等等),只选择参 加收集个人信息的一项调查(或者一个交易),因为他们被使用的信息受到 感知风险或者他们的隐私受到潜在损害。目标人口的其他成员可能选择根本 不参加收集任何个人信息的调查。因此,调查者实施向回应者要个人信息 (不同于个人身份信息)或者研究者本意提供调查给回应者补偿来交换这些 信息(或者不提供这些补偿,或者提供补偿水平的错误形式)的事实影响了 人口中的哪一部分将成为调查回应者,并且因此可能在调查结果中引入在不 收集个人信息时不存在的偏差。进一步,在任何调查或者数据收集发生的其 他情形(比如,例如,一天中的时间,一周中的天,位置,或者目标人口的 不同成员可能或多或少回应的各种其他情形)可影响样本的代表性,以及哪 一部分人口潜在回应者决定参与,然后在样本中引入偏差。

此外,信息(可能被分析,类似于如何分析交易相关的调查信息)在交 易数据库中被收集到的消费者,可能有权,在他们个人信息被使用或者被与 其他公司分享的情形下,收到通知。现在通常在法律上,或者文化上,都不 能接受甚至问一个消费者他们的种族,性别,年龄,身高,体重,宗教,家 庭状况,婚姻状况,残疾状况,流动性,家庭财产,位置,雇佣状态,行业, 收入,教育水平,政治信仰,性取向,任何其他人口统计信息,或者任何可 能被隐私政策限制的其他信息(不管是个人身份信息还是个人信息)。

同时,这些消费者通常还被法律赋予权利,要求公司在特定的方式上, 限制使用或者分享他们的个人信息,因此限制公司可以使用消费者个人信息 的方式。例如,1999年的金融服务现代化法案(简称“格雷姆-里奇-比利雷 法案”)要求金融机构在消费者关系建立时,以及自此的每一年,提供“隐 私注意”。这种或者其他隐私法律现在存在于美国,以及其他国家,并且广 泛影响着行业和市场的范围。

然而,从数据库中消除个人信息的问题是将调查的统计量或者其他数据 收集应用到期望的目标人口的现有技术调查分析技术(例如样本平衡)要求 在数据集中存在个人信息,以使调查统计量更能代表目标人口(换句话说, 以减少偏差)。

许多过去的技术集中在依赖于概率抽样技术和基于概率的估计模型的建 立的估计技术。但是,最近,越来越需要使用不是从严格的概率样本中收集 的数据集(因为,例如,样本没有回应或者框的覆盖问题,或者因为数据来 源于一些过程,这些过程被设计为其他目的)。如上所述,这些数据通常不 具有做出人口特性的合理估计所需必要的校准变量。在数据收集过程中的测 量数据通常不如在严谨计划的样本调查中选择地好,严谨计划的样本调查使 用概率样本和具有针对用途的数据收集工具,例如,美国人口普查进行的当 前人口调查。最终结果是许多数据集中存在的变量不能被研究者预先决定, 并且即使校准变量是存在的,一些或者所有可能被数据带有的隐私限制等等 排除出去。示例包括因特网广告服务器日志,电视机顶盒观看数据,以及信 用卡交易数据。一些这种数据通常是,例如,交易的剩余数据或者在交易 “管道”中收集的交易或者因特网交互信息。这些数据集通常包括百万或者 十亿的数据点,但是每个单独的回应数据点可能缺少比如传统人口统计数据 的补充数据,进一步样本可能是未知的质量并且可能由于内在的选择或者其 他偏差,不能代表整体人口。因此,需要有估计技术,其可以平衡这些数据 集尽管收集到的数据集中缺少可用校准变量。至少上述问题的结果是,亟需 能将调查,或者其他样本数据,交易数据,或者统计量的估计调整地更加能 够代表期望的目标人口,不需要数据集当中存在调整变量的(比如参与者的 个人信息)统计估计技术。这样做会在不需要存储或甚至直接知道参与者的 个人信息的情况下,得到目标人口特性的更准确的估计。

附图说明

图1是基于参考数据和分区方案分析对象数据的系统框图。

图2是通过分区对象数据、计算分区的统计量、基于参考部分调整统 计量以及结合统计量来说明对象数据分析的数据流程图。

图3是根据参考数据和分区方案解释参考部分的判断的数据流程图。

图4是判断有利于分析对象数据的分区方案的代表性方法的示意图。

图5A是说明如参照图2示出的对象电视观看数据的数据流程图。

图5B是说明如参照图2示出的对象金融交易数据的数据流程流程图。

具体实施例

本文描述了校准目标人口的关系未知的对象数据,以使校准对象数据 可以更精确地代表目标人口的系统和方法。在许多情况下,校准会涉及差 分权重方案的使用,其被用到成分水平的数据。这里使用的术语“校准 (动词)”或者“校准(名词)”意味着使一个或多个数据集更加近似另 一个或多个数据集的方法。

这里描述的系统和方法允许在对象数据集中的观察到的变量的值可以 被加权,以使即使在参考数据集中使用的变量以为参考人口作出的估计没 有针对对象数据集被收集或者测量,其发生率和使用参考人口的参考数据 集的参考或者目标人口的发生率相等。特别地,这里描述的系统和方法允 许来自对象数据集的估计通过使用目标人口的个人信息特性被平衡或者以 其他方式被调整,尽管个人信息特性不是对象数据集中收集的数据的一部 分。

示出的方法不要求在对象数据集中的校准变量的存在,校准变量在被 用于校准目标人口的统计量中的对象数据集一起使用。允许建立参考部分, 参考部分使用不可在原始数据集(“对象数据”)中获得的变量,以校准 或者以其他方式调整人口的对象数据估计,对人口的估计正如参考数据集 示出的被需要。例如,公开的方法论让使用只包含TV观看变量(来自美 国未知家庭的非概率样本)的家庭TV观看数据来产生美国人口的观看行 为的校准的以及更精确的估计成为可能,而不是其它可能的对象数据单独 设置。

在一些实施例中,方法论使用一个或者更多的复合变量来产生目标人 口的校准统计量。例如,在样本平衡中首先校准年龄,然后性别,然后种 族,等等是不寻常的。在本文公开的过程中,数据集中天生存在的变量, 例如行为变量,被用来建立“分区”变量,并且一个或者更多的分区变量 随后被用作校准的偏差。

例如,在家庭观看行为的对象数据集被分为使用分区方案的多个对象 分区之后,根据目标人口中相同或者相似定义的分区调整这些对象数据分 区的发生率。通常从另一个被称作参考数据集的数据集中决定目标人口的 分区发生率。一个这样的例子是在每个分区中通过分区权值加权对象数据 观察,以使数据集的每个分区的发生率的加权估计与参考人口的每个分区 的发生率的估计大约相同。另一个例子是使用参考数据集去产生目标人口 的分区的发生率估计,并且然后加权对象数据集合,以使在对象人口的分 区发生率产生的加权估计与通过使用参考数据集为参考人口产生的估计相 同。

类似地,未出现在对象数据集中的变量值可能从参考数据集的值中估 计出来,通过这些分区方法“回转”到对象数据中去。例如,假设变量A 出现在参考数据集中,但是没有出现在对象数据集中。然后,当在参考数 据集中创建分区时,在每个分区中决定A的可能值的发生率,并且A的值 的发生率的相对分布然后被应用到相应的分区的元素或者记录中,其出现 在对象数据集中。变量A的可能值可能用每个可能结果的概率矢量表示, 合适于当前任务的单个值或者间隔值。单个值可能是最可能的回应,平均 回应,中值回应,加权回应线性组合,等等。在这种方式中,变量A的可 能值直接在对象数据集中被估计。

本公开的技术的进一步应用是估计几个对象数据集代表参考集的程度。 通过测量这几个数据集的每一个中的多个分区的发生率的比率,并且将这 些比率与参考数据集的相应分区的比率进行比较,可用其代表参考数据集 的程度对多个对象数据集进行排序或者比较。从最具有代表意义的多个对 象数据集中计算出具有代表性的统计量。可选择地,统计量的加权结合可 基于排序或者比较在一些或者全部多个对象数据集合上计算出来。

本发明的各种实施例现将参照附图进行描述。下面的描述为透彻理解 和实现这些实施例的描述提供了特定细节。然而,本领域的技术人员将理 解本发明可以在没有许多这些细节的情况下实践。此外,一些众所周知的 结构或功能可能不被详细示出或描述,以避免不必要地模糊各种实施例的 相关描述。

在本文中所呈现的描述中所使用的术语旨在以其最宽泛的合理方式来 解释,即使它在与本发明的某些具体实施例的详细描述中被使用。某些术 语可能在此强调;然而,任何旨在以任何限制的方式来解释的术语将被公 开地、明确地类似于在本详细说明部分那样被限定。

本文公开了校准具有对象人口的对象数据集,以提供如参考数据集示 出的参考人口的更好的估计的系统和方法。相同的变量或者特性不会同时 存在于对象数据集合和参考数据集合。校准包括使用分区方案来将对象数 据集分区成对象分区,根据一个或更多的对象数据集中的变量为每个对象 分区计算至少一个统计量,使用与每个对象分区相关的参考部分调整每个 分区统计量,并且结合调整的统计量。通过使用分区方案将参考数据集分 区成参考部分决定每个分区相关的参考部分。例如,系统和方法可将调查 的信息,交易数据集,或者能代表期望人口的人口普查数据作为参考数据 集加以利用。系统利用参考数据去校准对象调查,交易性数据集合,或者 行为数据集合,并且让对象数据集合更能反映期望人口的组成。参考数据 集可包括个人信息,尽管对象数据集可能排除个人信息。

在一些实施例中,系统和方法使用非概率推理桥梁,去产生估计,估 计通过根据不在对象数据集中的变量校准估计,更加能够代表所预期的人 口。系统将计算的权值集应用于无论是原始形式的,还是聚合形式的对象 数据集。本公开的技术的一个好处是用于平衡的变量不需要天然存在或者 目前存在于对象数据集中,例如,不需要测量或者观察附于人口的任何记 录或者元素。应该理解的是,考虑到现代数据隐私政策,可根据不天然存 在或者存在于对象数据集中的变量去调整数据,是非常有用的。

在一些实施例中,系统和方法为在每种情况值上被调整的参考人口变 量使用条件概率分布。平衡变量不需要存在于对象数据集中。

在一些实施例中,对象数据集是包含电视观看数据的数据库,以及系 统和方法校准电视观看数据,以更接近地表示目标用户信息,目标用户信 息由电视观看数据表示,由非存储在电视观看数据中的特性定义。例如, 电视观看数据可能省略某些人口统计特性,由于在相关服务或者交易提供 时包含在隐私协议里的限制。校准电视观看数据包括:将电视观看数据根 据组的标识符分组,并且对于每一个组,将组的数据与组的标识符相关的 估计量相乘组。(由此表示为聚合),并且可选地聚集组产品。估计量通 过如下决定:根据组标识符划分具有至少一个目标用户特性的参考数据集, 并且对于每一组,根据组的至少一个目标用户决定与目标用户相关的组的 估计量。

本文公开的系统和方法能够使电视观看数据反映需要用的一系列家庭 的电视观看行为,即使电视观看行为包括较少或者没有信息关于家庭的人 口统计组成。系统使将要被校准的电视观看数据,能够反映行为组的人口, 比如,但不限制于,特定的人口统计信息定义的组。

在一些实施例中,本文公开的系统和方法可能与用于代表信用卡用户, 网上交易,或者收银处的购物车购买的交易数据结合使用。系统允许这样 的不具有相关个人信息的交易性数据集被校准,以减轻由使用频率引起的 偏差。减轻基于交易行为队列通过依赖不同的数据来源被获得,其与交易 数据集合,过多表示或者不足表示的孤立组一起。在这些情况下,不同的 数据来源合作以改善与观察的真实天然性相关的估计。

系统

图1是系统100的框图,系统100分析收集对象数据集132,并基于 对象数据集校准估计,以使对象数据集的统计量更接近地反映在一个或者 更多的维度中测量的参考数据集138的组成,比如在参考数据集中被反映 的行为和/或人口统计特性。为了校准对象数据集132,系统使用分区方案 134来将对象数据集132分组。这些组,或者“分区”,由系统调整,以使 对象数据集132被校准地更加能够代表由参考数据集138反映的所预期的 人口。当对象数据集用这种方式校准,在校准中使用的变量的估计或者设 计改变,以及在对象数据集中的至少一些其他变量的估计或者设计,即使 他们没有用在校准过程中。但是,在参考数据集的变量的值不会改变。

系统包括收集对象数据集合132的对象数据收集组件110,其代表多 个参与者120a,120b,···120n的行为。参与者120可能是消费者,调 查参与者或者其他个体,并且他们的行为可被收集数据直接或者间接地反 映,收集数据可能被明显或者不明显地收集。本领域的技术人员将理解的 是,对象数据集合可能包含大量的参与者数量和类型。例如,对象数据集 132可包括反映数十,数百,数钱,数百万,等等参与者的数据。对象数 据集包含直接或者间接反映参与者行为的信息。例如,参与者可被如下识 别:计算机标识符(例如计算机或者硬件的序列号或者标识符,间接代表 计算机的人类使用者),用户使用的移动电话标识符,家庭标识符(例如 引用房屋,宿舍,军事房屋单元或者基地,医院或者其他具有电视机的群 体住所,其中的电视观看数据可被收集并用为对象数据),金融账户标识 符(例如收集购买信息的信用卡账户),车牌号(关于某人的驾驶行为可 被收集为对象数据),WEB网站访客标识符,例如因特网协议地址(关于 其的某人的导航历史可被收集),纳税实体(关于其,多种其他信息可被 收集)等等。对象数据收集组件可通过公用的或者私人的,有线的或者无 线的网络112(例如,因特网)接收对象数据集132.对象数据集132可来 源于口头询问,比如在特定组,可来源于观察,比如使用视频或者静止图 片照相机,通过收集书面的调查答案,通过计算机管理调查,来源于记录 的和观察的调查数据,来源于收银机交易(比如特定的供应商或者金融机 构处的信用卡交易历史)以及类似的。对象数据集132可能被明显或者不 明显地获得,即,反映在对象数据集中的参与者行为可能知道也可能不知 道关于他们行为的数据集正在被收集。

在一些实施例中,对象数据集132的所有或者一部分可能被第三方收 集,比如提供电视观看数据的电视服务供应商。在一些实施例中,一些收 集的信息与其他收集的信息结合,例如通过结合两个数据集,参与者标识 符一起共享(例如当一些IP地址重叠的时候,将因特网协议(“IP”)地 址的第一网络服务器日志和IP地址的第二网络服务器日志结合起来)。

系统在存储设备130中存储对象数据集132,以及其他信息。存储设 备130可包括能够存储计算机可访问数据的任何计算机介质类型,比如磁 硬盘和软盘的磁盘驱动器,光盘驱动器,磁带盒,磁带驱动器,闪存卡, 数字视频光盘(DVD),伯努利盒式磁带,RAM,ROM,智能卡等等。 事实上,系统可用可存储或者传输计算机可读指令和数据的任何介质,包 括在网络上的连接端点或者点,比如局域网(LAN),广域网(WAN)或 者因特网。在一些实施例中,系统使用多个数据存储设备,而非在此说明 的单个存储设备130。本文描述的本发明的各方面可进一步存储或者分布 在计算机可读介质中,其包括磁的和光学可读,以及便捷式计算机盘,可 被存储在芯片固件中(例如EEPROM芯片),以及电分布于在因特网或者 其他网络上(包括无线网络)。

此外,存储设备130存储分区方案134,分区组件140使用分区方案 将对象数据集132和参考数据集进行分区(例如,分组)。分区方案134 可由为数据集合和多个数据分区指定的分析参数或者计算机可读指令组成, 其数据内容被放于任何给定的分区。在一些方面,分区方案是一个函数, 其可接受参与者或者居民作为输入,此外,结合相关的参与者或者居民数 据,并且返回方案分配给参与者或者居民的分区标识符(例如,“第一分 区”“第二分区”等等)。分区方案134将数据集的所有内容分成了多个 不重叠的区,意味着与单个参与者或者居民相关的数据集的内容没有被复 制到两个分区中去。

系统100可使用多个分区方案来将数据集分成至少两个分区。根据应 用,系统可将数据集分成任意的分区数,例如10个分区,30个分区,成千 上万的分区等等。在将本地或者国家水平分析的家庭电视行为进行分区的 例子中,发现分区方案生成的10至30个分区在家庭分区中是有用的范围。 对于一些对象数据集分析需要,分区方案用均匀的方式对数据进行分区是 理想的(例如给定分区的组成部分在一个或者更多的变量上没有显著变 化)。下面将详细描述系统100如何使用分区方案对对象数据集132和参 考数据集138进行分区的示例。系统100的分区方案决定组件148决定分 区方案134。在下面标题为“分区方案计算”下,分区方案决定组件148 的功能被详细描述。

系统100使用统计量计算组件142来计算对象数据集132的至少一个 对象数据统计量(系统100还可以计算参考数据集138的统计量)。在一 些示例中,统计量计算组件142为对象数据集132的分区计算个体统计量, 使用参考部分匹配组件146调整计算统计量,并且结合分区的调整统计量。

参考部分匹配组件146调整系统100计算的对象分区的至少一个统计 量,以使对象分区更接近地匹配对应于对象分区的参考部分。当多个分区 被调整,以使对象数据集132的分区上的分布匹配参考数据集138的分区 上的分布。对象数据集132被校准,以更能代表参考数据集138反映的期 望人口。

参考部分决定组件144决定参数数据集138以及分区方案134,相应 的参考部分135,其将引起参考部分匹配组件146以校准分区对象数据集, 以为了更接近地代表由参考数据集138定义的人口。在下面标题为“参考 部分计算”中给出决定参考部分的另外一些细节。

参考数据收集组件150用合理的方式收集参考数据集138。例如,通 过上面描述的技术,系统100可为对象数据收集组件110收集对象数据集 132,收集参考数据集138。这里使用的“居民”用于描述可获得参考数据 集138的任何组别。参考数据集可包括调查参与者,消费者,回应者,购 买者,观看者等等。在参考数据收集组件150使用人口普查收集技术的实 施例中,参考数据集138可是人口普查。注意参考数据集的居民的数量m 不会匹配对象数据集的参与者的数量n,并且对象数据集可能与参考数据 集共享个体。此外,参考数据集中与每个个体相关的数据往往不同于对象 数据集中与每个个体相关的数据。典型地,参考数据集138将包含一些与 对象数据集132相同的变量以及其他没有在对象数据集中示出,但是是参 考数据集示出的人口估计的变量。在对象数据集132的一个参与者120是 参考数据集138的居民160的情况下,系统100可能或不能直接识别匹配。 即使当系统100不能直接识别匹配,当数据集132和138包含不同的模式 (比如习惯性的行为性或者其他不同的交易性模式),并且当基于这些模 式分区方案134进行有效分区时,系统100可能将对一个既是参与者又是 居民的个体进行分区。参考数据集138可能或者不可能包括从至少一部分 居民160收集的个人信息。

参考数据集138为系统100提供了参考,以校准对象132(或者,一 个或者更多的由此计算的统计量),以使对象数据集更接近地近似参考人 口。例如,参考数据集138可能是人口普查数据,其以一系列人口统计变 量的方式特征化每个居民。在一些实施例中,参考数据的个人数据(例如 居民的人口统计信息)被分析和调整,必要时,获得参考人口的一个或者 更多的期望个人特性。参考数据集138被当做参考,决定哪一个参考部分 用于调整至少一个对象数据集中的统计量136,以使其跟接近地匹配参考 人口,其上的对象数据集132的投影是所期望的。

系统的用户170可使用用户接口180去指定多个分析选择,比如期望 的参考数据集138,期望的对象数据集132,期望的分区方案134等等。系 统100还可提供正在使用的分析参数,以及相应的统计量(包括在调整和 结合之前或之后),以使用户170监视分析过程并且改善参数。在一些实 施例中,用户接口可简单地向用户170展示分析结果,不需要用户改变分 析选项。在图1没有加以说明的一些方面,分析被送到其他系统以用于进 一步的处理、报告等等。

在一些情况下,理想情况是在应用本文公开的分区方法论之前,预处 理参考数据集138或者对象数据集132。如果参考数据集不能反映期望人 口,在用参考数据集之前,参考数据集138可能被系统100预处理,以减 少偏差或者提供精确性。预处理的例子是,系统100调整参考数据集138, 以使其更近似于期望人口普查数据所代表的一组个体。人口普查数据可能 从政府机关,公司,或者手机这些数据的其他来源中得到。如果对象数据 集132不能反映期望人口,在如本文公开地进一步校准对象数据集132之 前,对象数据集132可类似地被系统100预处理以减少偏差或者提高精确 性。

在一些情况下,需要的目标人口的属性可能通过各种估计程序从参考 数据集中获得。通过计算程序获得属性,计算程序与从整体人口中获得相 同人口属性或者参数的程序直接相似,比如方法,求和等等。可选择地, 目标人口的属性可通过更复杂的程序获得,比如加权方法和求和,或者甚 至更复杂的程序,要求取得人口属性的必要估计。

图2是示出系统100执行对象数据集132的分析的数据流程图。系统 对对象数据集132进行分区,为分区计算统计量,基于参考部分135调整 统计量,并且结合调整的统计量。这里的箭头通常表示系统100在执行数 据处理操作。

所示出的对象数据集132显示参与者120的非个人标识符202,结合 同样是参与者120的相关的非个人原始对象数据204。“非个人”意味着, 在某些方面,收集的数据可包括限制的个人信息,或者在某些方面,根本 没有个人信息。在某些方面,参与者标识符可简单地指代对象数据集132 中的相关的原始数据。在某些方面,参与者标识符可包括一些非个人其他 标识符,比如分配给参与者的随机或者散列数。原始对象数据204可能是 对象数据收集组件110收集的,无论是明显地还是不明显地,参与者给调 查问题的答案,或者任何其他观察到的数据,行为性数据或者交易性数据, 等等。

在某些方面,对象数据收集组件110收集的数据可被处理或者改善, 比如消除不必要的数据传输和/或存储,比如防止对象数据集132具有不必 要的存储数据。选择性地只分析某些数据可减少存储组件130的存储要求, 减少网络112的所需的带宽,并且减少与接收或者存储非期望数据(比如 现代数据隐私要求禁止的个人信息)相关的可能性或者潜在危害,等等。 对象数据收集组件110的进一步功能可能是验证,测试,预处理,或者清 理对象数据集132,比如检测丢失数据,并可选地为特定参与者122或者 特定时间段估计或者以其他方式说明对象数据集132的某些数据组件的丢 失。

分区方案决定组件148使用对象数据集132以计算分区方案134,尽 管在其他实施例中,分区方案134可无需对象数据集132而被决定。分区 组件使用对象数据集132以及分区方案134,以将对象数据集132分区成 至少两个分区(例如,第一调查分区210和第二调查分区220)。分区组 件140可使用的任何数量的至少两个分区,虽然为了简洁起见,在图2只 示出了两个分区210和220。分区组件140通常将根据原始数据204对对 象数据进行分区。例如,如果原始数据204包含了电视观看行为,比如参 与者(比如家庭)在相关的时间观看的频道或者在特定频道上观看的总体 持续时间,分区组件可指定是否将与参与者相应的标识符202和原始数据 204存放到特定分区中,例如基于参与者在特定的时间或者天,或者一天 中的特定时间(或者“天中的部分”),是否(或者有趋势)观看电视,

或者特定的频道或者频道类型,或者具有特定的改变频道行为(例如,跳 过广告,频繁地改变频道),或者观看许多电视,或者趋向于观看高清内 容,或者观看大量的录制内容(例如通过数字录像机或者视频点播,或者 其他非传统的电视内容来源,比如在线),或者上述特性的组合,等等。 分区方案134可包含简单或者复杂的算法(例如,考虑原始数据204的许 多不同方面,有时一次性考虑许多因素的算法)。

在图2示出的第一分区210中,参与者1(122a)和参与者2(122b) 被示出为分区成第一分区210,由那些参与者的相关标识符212和第一次 出现在第一分区210的原始数据214表示。相应地,在对象数据集132中 被说明的剩余参与者122x和122y被显示,以及它们相关的标识符122和 原始数据224被分区到第二分区220。尽管图2示出了四个参与者(n=4), 两个参与者,以及出现在分区中的特定参与者结合的例子,这些选择是出 于清楚说明以及简洁起见,并且不被解释为对本发明范围的限制。本领域 的普通人员将认识到许多其他参与者数量(例如,“n”),其他分区数量, 和其他分区参与者的结合,甚至是更大数量的参与者,或者更大数量的分 区是可能的。分区成员将共同分享某些信息,取决于原始数据204可用的 部分,以及分区方案的行为。例如,如果几天的长时间段的电视观看行为 可以获得,以及如果参与者在“白天”天中的部分(可能被定义为本地时 间周一到周五的上午7至下午4:30的小时)进行他们大部分的电视观看 (或者某些特定的比例或者小时总数),如果分区方案将参与者放入第一 调查分区210,然后他们将至少共同的电视观看行为(或者没有直接记录 在对象数据集132的其他相关的事项,比如特定的性别,特定等级的收入 水平,特定的雇佣状态,特定地理区域的居住,等等)。

在一些方面,系统100,例如通过统计量计算组件142,基于第一分 区210,为第一调查分区210生成一个或者更多的统计量216。例如,统计 量计算包括一部分分区成员(例如,由标识符212所描述的那些),其已 经在特定频道上观看至少特定持续时间的特定时间的特定的节目,比如特 定时间的电视播放的一小时共和党总统候选人辩论。例如,如果参与者1 观看了预定的辩论的最少部分(例如,6分钟1秒,或者24分钟),但是 参与者2根本没有观看辩论(或者观看了少于预定的最小部分),然后为 第一分区210计算的相应的统计量可能是50%。这些统计量表明一半考虑 的参与者遇到统计量情形。

许多其他可计算统计量可能被使用,例如原始数据表示的数字值平均 值(例如参与者观看的特定节目的持续时间,录制节目观看量,观看的总 可用观看分钟的部分,在内容持续时间的频道变化数量,等等)。在一些 情况下,统计量可能是聚合值(例如,组合的)而不是平均值,或者其可 能是平均值,中位数,模式,标准偏差,标准误差,或者任何可在数据上 执行的统计量计算。例如,统计量可能代表花费在观看特定电视节目的平 均时间。

系统还将通过相同或者不同的公式或者通过为第一分区210计算统计 量216的统计计算方法,为第二分区220计算统计量226。引用观看的电 视共和党总统候选人辩论的一部分人口计算的例子,如果没有第二分区 220参与者(例如参与者122x或者122y)观看了辩论或者最少需要的最小 持续时间,226中计算和存储的统计量将包括0(或者0%)。

在所示的两个分区例子中,参考分区135包括第一分区217的参考部 分,和第二分区227的参考部分。将被理解的是,为了简洁和清楚起见, 尽管图中只示出了两个分区,在多个实施例中,这些分区的数量可多于两 个。参考部分匹配组件146使用第一分区参考部分217,来调整第一分区 统计量216并且产生调整的第一分区统计量219。调整可包括第一分区加 权系数218的计算,可通过对象分区部分分离参考部分来执行。例如,对 象分区部分可被定义为用参与者总数量120除以每个分区的参与者的数量, 并且参考部分可能基于参考数据集138被计算为类似的比率。例如,当用 对象数据集132的四个总共参与者除以第一分区210的两个参与者时,第 一分区部分(第一分区210)将是50%。如果第一分区引用部分217是 60%,用它除以第一分区部分50%,会得到第一分区权值(或者“加权系 数”)218为1.2(或者120%)。参考部分匹配组件146将权值(例如第 一分区权值218)应用到计算的分区统计量(例如第一分区统计量),以 计算分区的调整统计量(例如,调整第一分区统计量219)。例如,如果 第一分区统计量216表明第一分区210的50%的参与者观看了电视播放的 共和党总统候选人辩论,并且如果第一分区权值218是120%,然后调整的 第一分区统计量219将表明观看过辩论的调整的第一分区的0.6(或者60%) 的调整值。为第一分区执行的相同统计量计算会为其他分区执行。例如,当 第二分区220的参与者3(“n-1”)和4(“n”)都没有观看过共和党总统 候选人辩论时,第二分区统计量216可包括值0(或者“0%”)。

权值可能由分数,百分比,绝对数,或其他因子或者乘数表示。在一些 实施例中,分区权值可能由不同的程序计算。例如,可计算一系列权值,以 加权包含某些额外参考变量的部分参与者数据,以给予与参考数据集138相 一致的值。另一个例子,数据的加权可由调整记录或者记录组的算术等同过 程完成。也就是说,记录或者记录组可能被重复或者其他方式调整,以在使 用或者没有使用因子,乘数,或者其他算术等同操作时,取得相同的加权效 果。

当分区权值大于10,这意味着系统100已经确定分区代表性过低(例 如,对象数据集中的分区中的参与者太少)。当分区权值小于1.0,分区是 代表性过高的(例如,对象数据集中的分区中的参与者太多)。当分区权值 等于1.0,调查分区既不是代表性过高也不是过低的,并且调整的分区统计 量将等于未调整的分区统计量(例如,如果第一分区权值218是1.0,然后 调整的第一分区统计量219将等于未调整的第一分区统计量216)。

参照第二分区(例如,分区220,标识符222,原始数据224,统计量 226,参考部分227,分区权值228以及调整的统计量229)的图2中的项 目以与关于第一分区的图中的项目(例如,210,212,214,216,218和 219)彼此交互相似的和相应的方法进行彼此交互。进一步,系统100通过 合适的分区方案134和额外的支持数据项和处理步骤,可被扩展以使用两 个以上的分区。它还可以被扩展来包含多于单个对象数据集和单个参考数 据集138。

在参考部分匹配组件146已经为每个分区调整至少一个统计量(例如, 219和229)之后,其然后结合调整的统计量来为对象数据集132产生至少 一个校准的统计量230。分区的调整统计量结合的方式取决于统计量,但 是可能包括执行它们的平均操作,比如加权平均(例如,基于分区参与者 的非调整数量),对它们进行求和(用于基于计数的统计量),进一步子 除或者细分它们,等等。

例如,如果第一分区统计量216代表“分区1中由两个家庭,其中一 个观看了民主党总统辩论,另一个没有观看”,并且第二分区统计量226 代表“分区2中存在两个家庭,没有一个观看了民主党辩论”,然后可能 根据下面示例计算校准统计量230。

(1)出于示例目的,假设计算的第一分区权值218等于每个家庭 1.25,并且计算的第二分区权值228等于每个家庭0.75。换句话说,在第 一分区的家庭将被上升加权,以调整代表性过低,并且第二分区的家庭将 被降低加权,以调整校准统计量的代表性过高。

(2)计算第一分区调整的统计量219:

(a)分区1的家庭1观看了辩论,所以它对调整的第一分区统计量 219的贡献=1.25(第一分区权值)*1.0(观看过)=1.25加权观看。

(b)分区1的家庭2没有观看辩论,所以它对调整的第一分区统计 量219的贡献=1.25(第一分区权值)*0.0(未观看)=0.0加权观看。

(c)第一分区的全部加权观看的总和=1.25+0.0=1.25(例如,调整 第一分区统计量219)。第一分区的权值总和=1.25+1.25=2.5。

(3)计算第二分区调整的统计量229:

(a)分区2的家庭3没有观看辩论,所以它对调整的第二分区统计 量229的贡献=0.75(第二分区权值)*0.0(没有观看)=0.0加权观看。

(b)分区2的家庭4没有观看变量,因此它对调整的第二分区统计 量229的贡献=0.75(第二分区权值)*0.0(没有观看)=0.0加权观看。

(c)第二分区的全部加权观看的总和=0.0+0.0=0.0(例如,调整第 二分区统计量229)。第二分区的权值总和=0.75+0.75=1.5。

(4)通过求和调整的第一分区统计量219和调整的第二分区统计量 229中的加权家庭以及除以所有权值的总和来计算校准的统计量230:

(a)全部调整的观看总和=1.25(第一分区调整的统计量)+0.0(第 二分区调整的统计量)=1.25。

(b)权值总和=2.5(第一分区)+1.5(第二分区)=4.0。

(c)校准的统计量230=全部调整观看总和/权值总和 =1.25/4.0=0.3125。

换句话说,在校准之后,统计量反映在分区人口内的31.25%的家庭观 看了辩论。

参照第二调查分区220相关的图2所示的所有项目(例如220,222, 224,226,227,228和229)被系统100使用,计算,决定,匹配等等, 并且用与第一调查分区210和它相应的项目(例如,210,212,214,216, 218和219)被使用和彼此交互相应和类似的方法来彼此交互。这里公开的 实施例可被扩展到任何数量的这些分区。

在本发明的某些方面,参考部分匹配组件146可直接为系统100的随 后使用,或者为不同系统的可能使用,在对象数据集132中直接节约权值 (例如218和228)或者参考部分(例如217和227)而不是直接将权值应 用到计算的统计量上。在某些方面,权值或者参考部分在分区中(例如, 210和220)与原始数据集204一起存储。

本发明的一些实施例可使用,同时存在于一部分对象数据集的和一部 分参考数据集的额外数据,以计算分区权值。然后通过选择它们计算分区 权值,以使对象数据集的额外数据变量的加权发生率匹配相同的参照数据 集的额外数据变量的发生率。

本发明的进一步实施例可使用分区来将变量从参考数据集回转到对象 数据集中去。例如,假设变量A存在于参考数据集,但不存在于对象数据 集。当在参考数据集中产生分区时,系统100决定每个分区中的变量A的 可能值的发生率。变量A的值可能被表示为单个值,间隔值,与分区相关 的每个可能结果的概率矢量。单个值可能是最可能的回应,平均回应,中 值回应,加权回应线性组合,等等。变量A值的发生率的相关分布然后由 系统100应用到对象数据集132的相应分区的元素或者记录中。在这种方 式下,变量A的可能值在对象数据集中被直接估计,即使不存在于对象数 据集中。在类似的方式下,变量A可存在于对象数据集中,但不存在与参 考数据集中。在这种情况中,对象数据集的变量可被用于回转参考数据集 的变量值。

有时,不管是参考数据集138还是对象数据集132,都会判断用户 170需要未出现在任一数据集的变量。在这种情况下,系统100可生产应用 到一个或者两个数据集的模型变量。系统100通过依赖于包含模型变量的 外部数据集(未知),生成模型变量。处于丰富分区方案的目的,系统通 过外部数据集的分区,决定模型变量的可能值的发生率,并且在参考数据 集138或者对象数据集132的每个分区中应用模型数据。

在本发明的一些方面,系统可通过跳过某些不必要的步骤,优化计算 机效率,或者减少不必要的数据存储或者数据传送。例如,如果为指定的 分区索引计算的统计量结果已经被预定为某一值,系统可利用该值而不是 计算分区索引的统计量。相似地,当参考部分135的应用程序被预定为不 具有保证校准效果时(例如,分区,分区统计量计算,分区统计量调整, 以及结合),系统可决定不对这些数据进行分区。在另一个示例中,系统 可通过排除一部分对象数据132,节省不必要的计算,存储或者数据传输。 这将发生在,参考部分135的应用程序趋向于帮助纠正由排除一部分对象 数据132而引起的不准确性。在一些情况下,这能够通过不需要购买或者 收集尽可能大的对象数据节约成本。

参考部分计算

图3是示出基于参考数据集138和分区方案134的参考部分135的计 算的数据流程图。如图2所示,箭头通常表示系统100在执行数据处理操 作。

参考数据集138包含每个居民160的标识符302和原始数据304。可 选择地,参考数据集138也包括与所有或者一部分居民160相关的个人信 息。个人信息是可能用于识别个体的信息,并且当使用或者发布这些信息 时,会受到高度的安全防范措施。安全措施可由政府,公司,政策委员会, 或者其他机构指示。

为了简洁起见,出现在图3的参考数据集138的居民数量为4。但是, 许多其他居民数量(“m”)可能存在于参考数据集138中。其可能是大 于,等于,或者小于参与者120的数量(“n”)的。

如上面描述的图1和图2,分区组件140使用分区方案134,以基于居 民的原始数据304,将参考数据集138分成多个参考分区310和320。与居 民相关的被分区的个人数据306将为居民保留在分区中。

例如,第一参考分区310示出了标识符312,原始数据314,以及对 应于第一参考分区的居民(例如,居民1(160a)和居民2(160b))。再 举一个例子,第二参考分区320包含标识符322,原始数据324以及可用 于居民的任何个人数据326(例如,居民“m”(160y)和居民m-1 (160x))。

参考部分决定组件144可为每个分区产生参考部分135(例如,第一 分区参考部分217和第二分区参考部分227),通过,例如,用数据集中 居民数除以分区中的居民数。为每个分区参考部分的过程重复地为每个参 考部分进行。例如,如果在第一参考分区310中有六个居民,在参考数据 集138由十个居民,然后决定的第一分区的参考部分217将是6÷10=60% (或者0.6)。如果在第二参考分区320中有四个居民,在参考数据集中 138中有10个居民,第二分区部分227将是4÷10=40%(或者0.4)。

在本发明的一些实施例中,参考部分217和227可进一步被调整,或 者被不同地计算,比如当用于期望分析的参考人口与参考数据集138的居 民160不同时。例如,特定分区的个人数据(比如第一分区的个人数据 316)期望被分析(重新定义为“参考人口”),然后第一分区217的参考 部分会增加,并且其他分区的参考部分(例如,第二分区227的参考部分) 可能被设置为0。在某些方面,多个参考部分将被用户170出于多个理由 调整,比如增加或者减少一个或者更多分区的个人数据的期望表示(例如, 第一分区316或者第二分区326的个人数据)。

分区方案计算

图4示出了当决定由系统100执行的对象数据的分析的有用分区方案 134时,分区方案决定组件144可使用的多个因素。

分区方案决定组件144可使用的因素包括,但不仅限于:

402-基于随机标准,比如基于随机数,决定分区方案。

404-使用用于决定分区方案的意见专家的判断。例如,用户170能 够通过用户接口180,向分区方案决定组件提供有用指令。在一些情况下, 意见专家将试验多个分区方案134并且执行判断(比如通过比较哪些能实 现预期效果,哪些不能)。在一些情况下,系统可使用自动路线,其基于 意见专家定义的参数,解决最优分区方案(或者一些情况下,基于预定的 参数)。分区方案的优化可基于,例如,使用本领域公知技术来优化参数, 比如使用单纯形法,或者其他代替方法(比如非线性优化方法)。

406-基于电视观看行为决定对数据进行分区的分区方案。基于电视 观看行为分区在上面已经有所描述(例如在至少与图2示例的相关描述 中),但是基于电视观看行为的分析的许多其他不同方法是可能的。除了 电视观看行为,其他媒体使用行为,比如在线Web活动,社交媒体使用, 移动应用程序(“app”)互动,在线视频观看,等等。这些将被用于决定 分区。

408-基于金融交易行为决定对数据进行分区的分区方案。当调查或 者参考数据包括金融交易,比如收银记得银行卡交易,或者信用卡持有者 的信用卡的年度总结信息,分区方案可能基于,例如,金融交易的时间, 交易购买的产品或者服务(或者相应的产品或者服务类别)交易实施的地 点,交易的金钱价值,交易实施的货币,被用来交易的交易的网络或者交 易类型(例如,维萨卡,万事达卡,美国运通,发现,在线支付,个人指 标,现金等等),交易实施的频率,等等。

同样地,多个分区方案可被分区方案决定组件148为其他交易目的使 用,比如分析捐赠交易,分析历史位置(比如一个或者更多航线的航班的 行驶历史,或者全球定位设备的坐标历史),分析无线服务账户的通话历 史,过滤电子邮件交易信息,比如发送电子邮件的频率,电子邮件发送的 目标域名等等。

410-决定对原始数据集进行均匀分区的分区方案,比如通过分许分 区的原始对象数据集的均匀性,并且保证其不具有参与者之间的模式,例 如,分区中的原始数据集是随机的。如果数据不是均匀的(例如,如果存 在能区分给定分区中的数据的参与者的模式),这可能表明额外的分区 (例如,改变分区方案,以使其分区成更多的分区)是有用的。在一些情 况下,均匀性可基于分区中的参与者的数量估计。一些分区可被判断为具 有比其他分区多的参与者,并可能标志系统以修改其分区方案来进一步将 那些分区细分成额外的分区,或者以其他方式改变分区方案来在分区中产 生更少的参与者。在一些情况下,具有太少参与者的分区将被标志为结合, 比如以简化分区程序,或者以提高计算机效率,等等。

412-决定对原始数据进行均匀分区的分区方案。上述关于对原始对 象数据进行均匀分区410的讨论可被应用到原始参考数据304(以及其相 应的居民160),而不是原始对象数据集132(以及相应的参与者120)。

414-决定对个人参考数据进行均匀分区的分区方案。将人口分成可 能的不同的人口统计组,和类似的,将是非常有用的。分区方案134仍然 必须根据原始数据(例如,204和304)对数据集进行分区;但是可分析分 区的(例如,316和326)个人参考数据,比如用于均匀性(例如,通过分 析参考分区310和320的个人数据316和326是否是均匀的)。在一些方 面,参考分区中的个人数据不是均匀的指示是进一步改善分区方案134是 必要的分区方案决定组件148的指示器。

416-决定对原始数据和参考数据的结合进行分区的分区方案(例如, 至少一个原始居民数据304和个人居民数据306)。在一些情况下,对象 数据集132和参考数据集138可被结合,(在一些情况下,加权不同)然 后与410和412相似地考虑分区结果的均匀性。

示例-电视观看数据

图5A是示出了如前面参照图2描述的对象电视观看数据的分析的数 据流程图。特别地,图5A明确了由系统100执行的对象电视观看数据集 532a,大致如前面参照图2示出的。系统对对象电视观看数据集532a进行 分区,为每个分区计算电视观看统计量,基于参照部分调整电视观看统计 量,并且结合调整的电视观看统计量。这里的箭头通常表示系统100在执 行数据处理操作。

如以上参照图2所述,示出的对象电视观看数据集532a显示了参与者 120的标识符502b,以及同样是参与者120的相关的原始对象电视数据 504a。对象数据收集组件110收集的信息可能被处理或者改善,比如消除 不必要的数据传输和/或存储,比如防止对象数据集532a具有不必要的存 储数据。

通常如参照图2所述,对象电视观看数据集532a可能被分区方案决定 组件148使用,以计算分区方案534a,尽管在其他实施例中,分区方案 534a可不被对象电视观看数据集532a决定。分区组件使用对象电视观看数 据集532a以及分区方案534a,来将对象电视观看数据集532a分成至少两 个分区(例如,第一对象分区510a和第二对象分区520a)。如上所述,分 区组件140可使用任何数量的至少两个分区,并且将通常根据原始电视观 看数据504a对对象电视观看数据进行分区。

在图5A示出的第一对象分区510a,参与者1(122a)和参与者2 (122b)被分区到第一分区510a中,由那些参与者的相关标识符512a和 第一次出现在第一分区510a的原始电视观看数据514a表示。相应地,示 出了剩余参与者122x和122y,以及被分区到第二分区520a的它们相关的 标识符522a和原始电视观看数据524a。

系统100,例如通过统计量计算组件142,为第一分区510a生成一个 或者更多的电视观看统计量516a。如上所述,可使用许多可计算的统计量。 系统还通过相同或者不同的公式,或者通过上面所述的,被用来为第一分 区510a计算电视观看统计量516a,为第二分区520a计算电视观看统计量 526a。

在示出的两个分区示例中,参考部分135包含第一分区517a的参考部 分,以及第二分区527a的参考部分。将被理解的是,为了简洁和清楚起见, 尽管图中只示出了两个分区,在多个实施例中,这些分区的数量可大于两 个。参考部分匹配组件146使用第一分区参考部分517a来调整第一分区电 视观看统计量516a,并产生调整的第一分区电视观看统计量519a。调整可 包括第一分区加权系数518a的计算和应用,其可能通过对象分区部分除以 参考部分实施。如上所述将应用权值分区。

参照第二对象分区520a的相关的图5A所示的所有项目(例如,520a, 522a,524a,526a,527a,528a和529a)被系统100使用,计算,决定, 匹配等等,并且用与第一对象分区510a和它相应的项目(例如,510a, 512a,514a,516a,518a和519a)使用和彼此交互相应和类似的方法来彼 此交互。这里公开的实施例可被扩展到任何数量的这些分区。

参考部分匹配组件146为每个分区调整至少一个电视观看统计量(例 如,519a和529a),然后它将结合调整的电视观看统计量,来为对象电视 观看数据集532a产生至少一个校准的电视观看统计量530a。分区的调整的 电视观看统计量(例如,519a和529a)被结合于此,如上所述。匹配组件 146的操作的类似变化可发生,如上参照图2所描述的。

图5A所示的示例过程使反映一系列家庭的观看行为的电视观看数据 能够将被使用,即使电视观看行为包括较少或者没有关于家庭的人口统计 组成的信息。系统使电视观看数据将被校准以反映行为组的人口,比如, 但不限制于,由特定的人口统计信息定义的组。有兴趣的组织然后将能够 使用校准的电视观看统计量530a,去获得人的电视观看行为的更精确的理 解。这些信息可能被内容产生商,经销商,广告商或者其他群体使用以做 出关于,例如,广告和/或者内容的分布时间和范围的更明智的选择。

示例-金融交易数据

图5B是数据流程图,示出了如前参照图2描述的对象金融交易数据 的分析。特别地,图5B明确了由系统100执行的对象金融交易数据集 532b,大致如前面参照图2所述。系统对对象金融交易数据集532b进行分 区,为每个分区计算金融交易统计量,基于参照部分调整金融交易统计量, 并且结合调整的金融交易统计量。这里的箭头通常表示系统100在执行数 据处理操作。

如上参照图2所述,示出的对象金融交易数据集532b显示了参与者 120的标识符502b,与同样是参与者120的相关的原始对象电视数据504b 相结合。对象数据收集组件110收集的信息可能被处理或者改善,比如消 除不必要的数据传输和/或存储,比如防止对象数据集532b具有不必要的 存储数据。

通常如参照图2示出的,对象金融交易数据集532b可能被分区方案 决定组件148使用,以计算分区方案534b。尽管在其他实施例中,分区方 案534b可不被对象金融交易数据集532b决定。分区组件使用对象金融交 易数据集532b以及分区方案534b,来将对象金融交易数据集532b分成至 少两个分区(例如,第一对象分区510b和第二对象分区520b)。如上所 述,分区组件140可使用任何数量的至少两个分区,并且将通常根据原始 金融交易数据504b对对象金融交易数据进行分区。

在图5B示出的第一对象分区510b,参与者1(122a)和参与者2 (122b)被分区到第一分区510b中,由那些参与者的相关标识符512b和 第一次出现在第一分区510b的原始金融交易数据514b表示。相应地,示 出了在对象数据集132中的剩余参与者122x和122y,以及被分区到第二 分区520b的它们相关的标识符522b和原始金融交易数据524b。

系统100,例如通过统计量计算组件142,为第一分区510b生成一个 或者更多的金融交易统计量516b。如上所述,可使用许多可计算的统计量。 系统还通过相同或者不同的公式,或者通过上面所述的,被用来为第一分 区510b计算金融交易统计量516b,为第二分区520b计算金融交易统计量 526b。

在示出的两个分区示例中,参考部分135包含第一分区517b的参考 部分,以及第二分区527b的参考部分。将被理解的是,为了简洁和清楚起 见,尽管图中只示出了两个分区,在多个实施例中,这些分区的数量可大 于两个。参考部分匹配组件146使用第一分区参考部分517b来调整第一分 区金融交易统计量516b,并产生调整的第一分区金融交易统计量519b。调 整可包括第一分区加权系数518b的计算和应用,其可能通过对象分区部分 除以参考部分实施。如上所述将应用权值分区。

参照第二对象分区520b的图5B所示的所有项目(例如,520b, 522b,524b,526b,527b,528b和529b)被系统100使用,计算,决定, 匹配等等,并且用与第一对象分区510b和它相应的项目(例如,510b, 512b,514b,516b,518b和519b)使用和彼此交互相应和类似的方法来彼 此交互。这里公开的实施例可被扩展到任何数量的这些分区。

在参考部分匹配组件146为每个分区调整至少一个电视观看统计量 (例如,519b和529b)之后,然后它将结合调整的电视观看统计量来为对 象电视观看数据集532a产生至少一个校准的电视观看统计量530b。分区 的调整的电视观看统计量(例如,519b和529b)被如上所述结合。匹配组 件146的操作的变化可类似如上参照图2所述而发生。

图5B所示的示例过程使反映一组消费者的购买行为的金融交易数据 将被使用,即使金融交易行为包括较少或者没有关于消费者的人口统计组 成的信息。系统使金融交易数据将被校准以反映行为组的人口,比如,但 不限制于,特定的人口统计信息定义的组。有兴趣的组织然后将能够使用 校准的金融交易统计量530a去获得人的金融交易行为的更精确的理解。这 些信息可能被内容产生商,经销商,广告商或者其他群体使用来做出关于 例如,产品决策,市场,分配,欺诈评估,或者以其他方式优化努力的时 间和范围的更明智的选择以取得商业服务或者产品的最大利润销售。

备注

尽管未做要求,本发明的各方面和实施例利用了计算机可执行指令的 通用环境,诸如由通用计算机,例如,服务器或私人计算机执行的程序。 本领域技术人员将理解,本发明可以由其它计算机系统实现,包括因特网 设备、手持式设备、可穿戴计算机、蜂窝或移动电话、多处理器系统、基 于微处理器或可编程消费电子产品、机顶盒、网络PC、小型计算机、大型 计算机等。本发明可以体现在被专门编程、配置或构造以执行本文详细说 明的一个或多个计算机可执行指令的专用计算机或数据处理器。事实上, 术语“计算机”,如本文所通常使用的,是指任何上述装置,以及任何数 据处理器或能够与网络,包括消费电子产品,例如游戏设备、照相机,或 其它具有处理器和其他组件,例如,网络通信电路的任何设备电子装置进 行通信的任何设备。

本发明也可以在分布式计算环境中实施,其中任务或模块由远程处理 设备执行,其通过通信网络链接,诸如局域网(“LAN”),广域网进行 的实践(“WAN”)或因特网。在分布式计算环境中,程序模块或子程序 可以位于本地和远程存储器存储设备中。

一般而言,本发明的实施例的详细描述并非意在穷举或将本发明限制 于以上公开的精确形式。本领域技术人员将认识到虽然本发明的具体的实 施例和示例在上文以说明的目的描述,但各种等同修改是在本发明的范围 之内是可行的。例如,尽管处理或模块以给定的顺序呈现,备选实施例可 以以不同的顺序执行具有多个步骤的程序或采用具有多个模块的系统,并 且某些过程或模块可以被删除、移动、添加、细分、组合和/或修改。这些 过程或模块可以以各种不同的方式来实现。此外,尽管过程或模块偶尔在 串行执行时被示出,这些过程或模块可改为并行执行,或可以在不同的时 间执行。

根据上述详细说明可对本发明做出这些或其他修改。虽然上述说明详 细描述了本发明的某些实施例和描述了最佳预期模式,无论上述描述在文 章中多么详细,本发明可以以多种方式实现。本发明的细节可以在其实现 细节上产生相当大的变化,同时仍然被包含在本文所公开的发明中。如上 所述,所使用的特定术语在描述本发明的某些特征或各方面时,不应被视 为暗示该术语在此被重新定义以与该术语相关的方面限制本发明的任何特 定的特性、特征,或各方面。在一般情况下,以下权利要求书中所使用的 术语不应当被解释为将本发明限制在本说明书中公开的具体实施例,除非 上述详细说明部分明确定义了此种术语。因此,本发明的实际范围不仅包 括所公开的实施例,而且还包括实施或实现本发明的所有等同的方式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号