首页> 中国专利> 多维度数据分析模型动态扩展方法和系统

多维度数据分析模型动态扩展方法和系统

摘要

本发明提供一种多维度数据分析模型动态扩展方法和系统,所述扩展方法包括导入数据集,检测数据集获得检测信息。根据检测信息将数据集内的属性字段映射到预先设定的维度模型或建立新的维度,形成动态扩展后的维度模型。根据动态扩展后的维度模型建立表征属性字段和属性字段所对应的元素之间关系的元素表和表征属性字段和所属维度模型内层级之间关系的关系表。本发明提供的多维度数据分析模型动态扩展方法和系统支持维度的动态扩展,扩展非常灵活,不同用户之间的扩展不会相互干扰,具有很低的扩展成本,且可以处理动态、多样的数据,符合大数据时代的需求。

著录项

  • 公开/公告号CN104850623A

    专利类型发明专利

  • 公开/公告日2015-08-19

    原文格式PDF

  • 申请/专利权人 杭州迅涵科技有限公司;

    申请/专利号CN201510256270.3

  • 发明设计人 冯讯;韩晓南;

    申请日2015-05-19

  • 分类号G06F17/30(20060101);

  • 代理机构杭州裕阳专利事务所(普通合伙);

  • 代理人应圣义

  • 地址 311800 浙江省杭州市西湖区枫华府第10幢503

  • 入库时间 2023-12-18 10:31:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-07

    授权

    授权

  • 2015-09-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150519

    实质审查的生效

  • 2015-08-19

    公开

    公开

说明书

技术领域

本发明设计数据分析领域,且特别涉及一种多维度数据分析模型动态扩展 方法和系统。

背景技术

数据分析系统需要将其代表的业务场景表示成计算机能够处理的形式,这 就是分析的数据模型。同时,用户也通过数据模型去理解数据,并与系统交互。

目前主要有两种方法来实现数据分析:一是为某个场景定制一个应用,这 样可以比较贴切地描述分析对象,理论上可以达到理想的效果,但是开发资源 要求高,受开发者水平限制大。

另一种方法是在一个分析系统中,建立能够描述不同数据模型的语言或工 具。这种方法使数据分析系统能适用于不同业务场景,具有很大优势。在这种 系统中,数值分析最有效的方法是利用维度的概念。但是现有的多维度分析系 统建立模型的灵活度有限,一般来说,模型描述的是一个静态的数据集,而且 都要求先建立完整的模型,才能开始分析。数据模型一旦建立,变动的代价将 很大,当用户面对预定义维度以外的数据时,数据分析就不能有效进行。这样 的多维度模型不适合多数据来源,或半结构化,非结构化数据的分析

发明内容

本发明为了克服现有分析系统开发成本高且扩展困难的问题,提供一种多 维度数据分析模型动态扩展方法和系统。

为了实现上述目的,本发明提供一种多维度数据分析模型动态扩展方法包 括:

导入数据集,检测数据集获得检测信息;

根据检测信息将数据集内的属性字段映射到预先设定的维度模型或建立新 的维度,形成动态扩展后的维度模型;

根据动态扩展后的维度模型建立表征属性字段和属性字段所对应的元素之 间关系的元素表和表征属性字段和所属维度模型内层级之间关系的关系表。

于本发明一实施例中,根据检测信息将数据内的属性字段映射到预先设定 的维度模型的方法包括直接映射和间接映射。

于本发明一实施例中,当数据集内的某一属性字段与其所属的维度模型内 某一层级之间满足设定规则时,属性字段直接映射到其所属的维度模型内,形 成层级的子节点或父节点。

于本发明一实施例中,当数据集内的某一属性字段的元素与维度模型内某 一层级的元素之间存在多对一或一对多的关系时,将属性字段动态增加到其所 属的维度模型内,且属性字段为层级的父节点或子节点。

于本发明一实施例中,导入数据集后,采用抽样检测或全样本检测来获得 检测信息。

于本发明一实施例中,检测信息包括:数据类型、数据内容和数据范围, 数据类型由属性字段表征,数据内容由元素表征,数据范围为属性字段所对应 的元素的一致程度。

于本发明一实施例中,根据检测信息将数据内的属性字段映射到预先设定 的维度模型的步骤包括:

将数据范围与设定阈值进行比较;

当数据范围大于或等于设定阈值时,匹配数据类型和预先设定的维度模型;

当数据类型与预先设定的维度模型匹配时,将数据集内的属性字段映射到 预先设定的维度模型;否则,建立新的维度。

本发明的另一方面还提供一种多维度数据分析模型动态扩展系统包括检测 模块、动态扩展模块和表组建模块。检测模块导入数据集,检测数据集获得检 测信息。动态扩展模块根据检测信息将数据集内的属性字段映射到预先设定的 维度模型或建立新的维度,形成动态扩展后的维度模型。表组建模块根据动态 扩展后的维度模型建立表征属性字段和属性字段所对应的元素之间关系的元素 表和表征属性字段和所属维度模型内层级之间关系的关系表。

于本发明一实施例中,当数据集内的某一属性字段与其所属的维度模型内 某一层级之间满足设定规则时,属性字段直接映射到其所属的维度模型内,形 成层级的子节点或父节点。

于本发明一实施例中,当数据集内的某一属性字段的元素与维度模型内某 一层级的元素之间存在多对一或一对多的关系时,将属性字段动态增加到其所 属的维度模型内,且属性字段为层级的父节点或子节点。

经由上述的技术方案可知,在本发明实施例中,用户导入数据集,检测模 块检测数据集获得检测信息。动态扩展模块根据检测信息将数据映射到预先设 定的维度模型上或者建立新的维度。即以预先设定的维度模型为基础维度模型, 在基础维度模型上动态扩展数据集内所包含的属性字段。数据集内的属性字段 可以动态扩展为基础维度模型内某一层级的父节点或子节点,扩展方式非常灵 活且不同的用户只共用基础维度模型,动态扩展后的维度模型不会相互影响。 本发明提供的多维度数据分析模型动态扩展方法和系统支持维度的动态扩展, 可以处理动态、多样的数据,使得数据集之间通过模型进行的复杂关联成为可 能,符合大数据时代的需求。

进一步的,为方便模型的动态扩展,设置数据集内的属性字段映射包括直 接映射和间接映射。针对不同的数据采用不同的映射方式,提高数据的分析和 处理速度,满足大数据的处理。

为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳 实施例,并配合附图,作详细说明如下。

附图说明

图1所示为本发明一实施例提供的多维度数据分析模型动态扩展方法的流 程图。

图2所示为图1中步骤S20所包含的步骤的流程图。

图3所示为本发明一实施例提供的多维度数据分析模型动态扩展方法的实 现示意图。

图4所示为本发明一实施例提供的预先设定的一种维度模型。

图5所示为本发明一实施例提供的在图4所示的维度模型上动态扩展后的 维度模型。

图6所示为本发明一实施例提供的在图4所示的维度模型上动态扩展后的 另一维度模型。

图7所示为本发明一实施例提供的多维度数据分析模型动态扩展系统的结 构示意图。

具体实施方式

如图1、图2和图3所示,本实施例提供的多维度数据分析模型动态扩展方 法包括:

步骤S10、导入数据集,检测数据集获得检测信息。于本实施例中,通过抽 样检测的方式获取数据集的检测信息,抽样的量可以为数据量的百分比或采用 其它的方式进行设定。采用抽样检测的方式可以大大提高对数据集的检测速度。 然而,本发明对检测的方式不作任何限定。于其它实施例中,可以采用全样本 检测的方式来获得数据集的检测信息。

于本实施例中,数据集经检测后所形成的检测信息包括数据类型、数据内 容和数据范围,所述检测包括维度的抽取和数据范围的计算。数据类型是由属 性字段进行表征,如属性字段为年、月、日或时间戳中的一个或多个时,则数 据类型为时间类型的数据;当属性字段为城市、县市、街道、详细地址等时, 则数据类型为地理类型。数据内容由元素表征,如具体的2012年、2013年、2014 年等数据。数据范围为属性字段所对应的元素一致性的程度。具体而言,在有 些数据集内会包括两个或两个以上表征不同数据类型的属性字段,检测模块计 算每一属性字段所对应的元素的一致程度形成数据范围。

步骤S20、根据检测信息将数据集内的属性字段映射到预先设定的维度模型 或建立新的维度,形成动态扩展后的维度模型。具体包括:

步骤S21、将数据范围与设定阈值进行比较;

步骤S22、当数据范围大于或等于设定阈值时,匹配数据类型和预先设定的 维度模型;

步骤S23、当数据类型与预先设定的维度模型匹配时,将数据集内的属性字 段映射到预先设定的维度模型;否则,建立新的维度。

具体而言,当数据集内包括时间类型(“年”这一属性字段)和地理类型(“城 市”这一属性字段)的数据时,检测模块计算“年”这一属性字段所对应的所 有元素的一致程度。譬如,“年”这一属性字段下包括100个元素,这100个元 素中有95个是符合“年”这一属性字段的标准格式(如XXXX年),则此时“年” 这一属性字段的数据范围为95%。当数据范围大于或等于设定阈值(如90%) 时,将“年”这一属性字段映射到预先设定的维度模型内的时间维度上。同样 的,检测模块计算“城市”这一属性字段的数据范围,当该数据范围大于或等 于设定阈值时,将“城市”这一属性字段映射到预先设定的维度模型内的地理 维度上。然而,本发明对设定阈值的具体数值不作任何限定。用户可以根据数 据集的情况来自行设定其它阈值。

于本实施例中,将数据集内的属性字段映射到预先设定的维度模型的方法 包括直接映射和间接映射。根据数据集内数据与其所属的维度模型内某一层级 之间的关系来选择映射方法,该设置可大大增加数据扩展的速度,可满足大数 据处理的要求。然而,本发明对此不作任何限定。于其它实施例中,可只采用 间接映射的方式。以下对直接映射和间接映射作详细介绍。

图4所示为预先设定的维度模型内的地理维度。对于直接映射,当用户导 入的数据集中,某一属性字段与其所属的维度模型内某一层级之间满足设定规 则时,属性字段直接映射到该维度模型内,形成某一层级的子节点或父节点。 所述设定规则为用户自定义的规则,如省份-城市-区县之间的隶属规则、年-月- 日-时间戳的隶属规则或者城市-电话号码之间隶属规则等常规隶属规则。

具体而言,当导入的数据集中详细地址这一属性字段的数据范围大于设定 阈值时,将详细地址这一属性字段映射到图4所示的地理维度内。由于详细地 址内会包括城市、街道等信息,通过详细地址动态抽取出城市、街道等属性, 详细地址隶属于街道,因此动态增加到街道这一层级下,成为街道的子节点。 这种映射关系是根据预先设定的规则从属性字段上直接获取关联的层级,具有 很高的映射速度。

然而,在很多时候数据集内的数据不仅仅是简单的时间类型或地理类型, 属性字段和维度模型内的层级之间的关系也不再遵循预先设定的规则。如图4 所示,数据集内通常会包括“富裕度”等属性字段,此时无法使用直接映射。 间接映射为:当数据集内的某一属性字段所对应的元素与维度模型内某一层级 的元素之间存在多对一或一对多的关系时,将属性字段动态增加到其所属的维 度模型内,且属性字段为该层级的父节点或子节点。具体举例:

分析数据集发现富裕度这一属性字段下的元素与城市这一属性字段下的元 素存在一对多的关系,如富裕的区域包括北京、上海、杭州、广州等城市,中 等的区域包括绍兴、嘉兴、宁波等城市,不富裕的区域包括新疆、青海等城市。 由于城市属于地理维度,因此可以将富裕度这一属性字段增加到预先设定的地 理维度模型,如图4所示的地理维度模型内。由于富裕度和城市之间是一对多 的关系,因此,富裕度这一属性字段将成为城市这一层级的父节点,即富裕度 这一属性字段和省份这一层级并列,维度以树的方式沿横向动态扩展,扩展的 方式非常灵活。

当层级的动态扩展完成后,需要执行步骤S30。

步骤S30、根据动态扩展后的维度模型建立表征属性字段和属性字段所对应 的元素之间关系的元素表和表征属性字段和所属维度模型内层级之间关系的关 系表。扩展的属性字段和其它层级之间的关系为关系表,如城市隶属于富裕度; 而属性字段与其所对应的元素之间的关系为元素表,如富裕度这一属性字段对 应的元素有富裕、中等和不富裕。当多维度数据分析模型动态扩展完成后,用 户可以通过元素表和关系表来实现数据的查询、关联和分析。

本发明提供的多维度数据分析模型动态扩展方法,用户可基于系统预先设 定的维度模型进行动态扩展,动态扩展可以采用树的形式,即可在原有的维度 模型上进行延伸扩展,也可进行横向的并列扩展。扩展方式非常灵活,且不同 的用户之间仅仅是共用预先设定的维度模型,而扩展后的动态模型位于不同的 客户端,彼此之间不会产生干扰,具有很好的通用性能。进一步的,根据数据 集与预先设定的维度模型内某一维度之间的关系来选择不同的映射方式,大幅 度提高了扩展速度。

与上述多维度数据分析模型动态扩展方法相对应的,本发明还提供一种多 维度数据分析模型动态扩展系统,包括检测模块100、动态扩展模块200和表组 建模块300。检测模块100导入数据集,检测数据集获得检测信息。动态扩展模 块200根据检测信息将数据集内的属性字段映射到预先设定的维度模型或建立 新的维度,形成动态扩展后的维度模型。表组建模块300根据动态扩展后的维 度模型建立表征属性字段和属性字段所对应的元素之间关系的元素表和表征属 性字段和所属维度模型内层级之间关系的关系表。

于本实施例中,动态扩展模块200的映射方法包括直接映射和间接映射。 当数据集内的某一属性字段与其所属的维度模型内某一层级之间满足设定规则 时,属性字段直接映射到其所属的维度模型内,形成层级的子节点或父节点。 当无法实现直接映射且数据集内的某一属性字段的元素与维度模型内某一层级 的元素之间存在多对一或一对多的关系时,将属性字段动态增加到其所属的维 度模型内,且属性字段为层级的父节点或子节点。然而,本发明对此不作任何 限定。于其它实施例中,动态扩展模块200可只采用间接映射的方式来实现维 度的动态扩展。

综上所述,在本发明中,用户导入数据集,检测模块100检测数据集获得 检测信息,动态扩展模块200根据检测信息将数据映射到预先设定的维度模型 上或者建立新的维度。即以预先设定的维度模型为基础维度模型,在基础维度 模型上动态扩展数据集内所包含的属性字段。数据集内的属性字段可以动态扩 展为基础维度模型内某一层级的父节点或子节点,扩展方式非常灵活且不同的 用户只共用基础维度模型,动态扩展后的维度模型不会相互影响。本发明提供 的多维度数据分析模型动态扩展方法和系统支持维度的动态扩展,可以处理动 态、多样的数据,使得数据集之间通过模型进行的复杂关联成为可能,符合大 数据时代的需求。

进一步的,为方便模型的动态扩展,设置数据集内的属性字段映射包括直 接映射和间接映射。针对不同的数据采用不同的映射方式,提高数据的分析和 处理速度,满足大数据的处理。

虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟 知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此 本发明的保护范围当视权利要求书所要求保护的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号