首页> 中国专利> 一种基于通讯数据的数据挖掘方法及系统

一种基于通讯数据的数据挖掘方法及系统

摘要

本发明提供一种基于通讯数据的数据挖掘方法及系统,用于对通讯数据进行分析以获取多个用户间关联关系,其特征在于,包括如下步骤:a.获取通讯数据;b.根据所述通讯数据所面向的目标对象确定与所述通讯数据相关联的用户与所述目标对象之间的关联关系。本发明通过对通讯数据的深度挖掘,能够确定发送通讯数据的主体、接收通讯数据的主体、通讯数据所关联的其他主体之间的关联度,从而可以为其他应用场景的处理提供基础数据。

著录项

  • 公开/公告号CN103116590A

    专利类型发明专利

  • 公开/公告日2013-05-22

    原文格式PDF

  • 申请/专利权人 上海亿动信息技术有限公司;

    申请/专利号CN201110366039.1

  • 发明设计人 马良骏;

    申请日2011-11-17

  • 分类号G06F17/30(20060101);

  • 代理机构72003 隆天国际知识产权代理有限公司;

  • 代理人张浴月;张志杰

  • 地址 200052 上海市徐汇区天钥桥路333号腾飞大厦29楼

  • 入库时间 2024-02-19 18:53:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-14

    授权

    授权

  • 2014-03-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20111117

    实质审查的生效

  • 2013-05-22

    公开

    公开

说明书

技术领域

本发明涉及通讯处理控制系统,尤其是移动通讯处理系统,具体地,涉 及在通讯处理系统中基于通讯数据的数据挖掘方法以及对应的系统。

背景技术

随着互联网技术、移动通讯技术的快速发展,每天通过互联网、移动网 络要传输大量的通讯数据,企业的运营通常基于这些通讯数据开展。例如, 移动运营商需要对移动终端所发出的通讯数据进行处理,以实现用户通过移 动终端进行通话或者传输数据的需求。又例如,应用软件供应商要对通讯数 据进行处理,以实现其应用程序的功能,例如即时聊天工具应用程序需要对 不同用户之间的通讯数据进行传输、解包并在接收方用户的窗口界面上显示 发送方用户所发出的文字内容,必要时即时聊天工具应用程序还需要对通讯 数据中的数据进行更进一步的处理,例如显示自定义表情或者其他操作。又 例如,网页服务商会接受来自用户的通讯数据,并根据该等通讯数据向用户 发送网页数据或其他数据,从而实现用户与网站的交互。

在上述过程中,可以通过互联网来传输通讯数据,也可以通过移动网络 来传输通讯数据。从通讯原理来看,采用互联网或者移动网络传输通讯数据 的本质相同;究其本质,都是一个终端向另一个终端传输一组数据包,接收 方终端对所接收到的通讯数据进行解析并予以相应的处理。而在解析的过程 中,接收方终端需要对该等通讯数据予以分析。但如何对通讯数据进行分析 以获得与通讯数据有关联的主体之间的关系,目前并没有相应的解决方案。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于通讯数据的数据 挖掘方法及系统。

根据本发明的一个方面,提供一种基于通讯数据的数据挖掘方法,用于 对通讯数据进行分析以获取多个用户间关联关系,其包括如下步骤:a.获取 通讯数据;b.根据所述通讯数据所面向的目标对象确定与所述通讯数据相关 联的用户与所述目标对象之间的关联关系。

根据本发明的另一个方面,还提供一种基于通讯数据的数据挖掘系统, 用于对通讯数据进行分析以获取多个用户间关联关系,其包括:获取模块, 用于获取通讯数据;第一确定模块,用于根据所述通讯数据所面向的目标对 象确定与所述通讯数据相关联的用户与所述目标对象之间的关联关系。

本发明通过对通讯数据的深度挖掘,能够确定发送通讯数据的主体、接 收通讯数据的主体、通讯数据所关联的其他主体之间的关联度,从而可以为 其他应用场景的处理提供基础数据。例如,对于两个关联度高度相关的主体, 在一个主体在浏览某一产品或服务的介绍时,可以主动地向另一主体推送与 该产品或服务有关的信息。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其 它特征、目的和优点将会变得更明显:

图1示出根据本发明的第一实施例的,基于通讯数据的数据挖掘方法的 流程图;

图2示出根据本发明的第二实施例的,基于通讯数据的数据挖掘方法的 流程图;

图3示出根据本发明的第三实施例的,基于通讯数据的数据挖掘方法的 流程图;

图4示出根据本发明的第四实施例的,基于通讯数据的数据挖掘系统的 结构图。

具体实施方式

下面结合附图详细描述本发明的具体实施例。应当注意,这里描述的实 施例只用于举例说明,并不用于限制本发明。

图1是本发明的第一实施例的,基于通讯数据的数据挖掘方法的流程图。 首先执行步骤S100:获取通讯数据。在本实施例中,本发明所应用的数据挖 掘系统获取的通讯数据来源于以下方式中的一种:

第一、由一个用户发出,该用户与该通讯数据相关联。其中,可以通过 各种手段接收来自该用户的通讯数据。例如,当该用户通过长期演进(Long  Term Evolution,LTE)通讯方式发出该通讯数据,则该数据挖掘系统也通过 LTE通讯方式接收该通讯数据。相应地,本领域技术人员理解,若该用户通 过其他通讯方式发出该通讯数据,则该数据挖掘系统相类似地采用对应的通 讯方式接收该通讯数据,在此不予赘述。

第二、由第三方系统发出,且该第三方系统可以发出多条通讯数据。其 中,可以通过各种方式接收来自第三方系统的通讯数据。例如,第三方系统 通过移动网络、互联网、电信网或广播网络等向用户发送多条通讯数据。相 应地,该数据挖掘系统通过对应的网络协议、通讯协议或广播协议接收来自 第三方系统的该通讯数据。

需要说明的是,如果获取的通讯数据被以加密方式传输,则该数据挖掘 系统相应地也采用对应的解密方式解密该通讯数据;如果该通讯数据被以压 缩方式传输,则该数据挖掘系统相应地也采用对应的解压缩方式解压缩该通 讯数据。本领域技术人员可以理解的是,如果该通讯数据被以加密方式和压 缩方式传输,则该数据挖掘系统相应地也会对该通讯数据进行解密和解压缩。

然后执行步骤S110,根据该通讯数据所面向的目标对象确定与该通讯数 据相关联的用户与该目标对象之间的关联关系。具体地,本步骤包括如下步 骤:

首先执行步骤S111,确定与该通讯数据相关联的用户。本领域技术人员 理解,优选地,如果通讯数据是由用户发起,则该数据挖掘系统可以将发起 该通讯数据的用户作为与该通讯数据相关联的用户,例如该通讯数据中所包 含的“sender”域所确定的用户即为该发起者。进一步地说,该发起者可以是广 义的,例如曾经转发该通讯数据的主体,或者修改后转发该通讯数据的主体 都可以作为该发起者。其中,曾经转发该通讯数据的主体或者修改后转发该 通讯数据的主体也可以称为有权限接收该通讯数据的中间用户。如果通讯数 据是由委托者委托给第三方系统发起,则委托者视为通讯数据的发起者。本 领域技术人员可以理解的是,该数据挖掘系统可以结合该通讯数据所采用的 发送方式,相应地解析该通讯数据并获取该发起者信息,在此不予赘述。

接下来进入步骤S112,确定该通讯数据所面向的目标对象。具体地,可 以通过以下方式之一确定该通讯数据所面向的目标对象:

第一、确定该通讯数据的第一指示信息;确定曾经发出的、与该第一指 示信息的近似度高于第一阈值的第二指示信息对应的通讯数据所面向的对象 作为该目标对象。例如,用户庚曾经分别向四个用户甲、乙、丙、丁发送一 条通讯数据,向用户甲、乙、丙、丁发送的通讯数据中分别包括关键字“玫瑰”、 “牡丹”、“手机”和“松树”,其中,这些关键字即为本实施例中通讯数据的第 二指示信息。此时,用户庚向第五个用户戊发送一条通讯数据,该通讯数据 包括关键字“月季”,该关键字为本实施例中通讯数据的第一指示信息。该数 据挖掘系统根据预先设置的算法可知,“月季”具有属性1:属于植物;属性2: 属于鲜花;以及属性3:可以作为生日礼物,即“月季”包括三个属性。相应 地,“玫瑰”和“牡丹”也属于植物、是鲜花以及可以作为生日礼物。即“玫瑰” 和“牡丹”包括“月季”的三个属性。因此“牡丹”和“玫瑰”分别与“月季”的近似度 为100%。而“松树”虽然是植物中的一种,但不属于鲜花,也不作为生日礼物, 其与“月季”的近似度为40%。而“手机”属于IT产品,并不属于植物,也不是 鲜花,也不能作为生日礼物,其与“月季”的近似度为0。该数据挖掘系统初 始设置的指示信息的近似度阈值为70%。综上可知,“玫瑰”和“牡丹”与“月季” 的近似度高于预设的近似度阈值70%,因此,可以将关键字“玫瑰”和“牡丹” 对应的通讯数据所面向的用户甲和乙作为目标对象。本领域技术人员可以理 解的是,本实施例中可以对指示信息赋予多种属性,例如第一指示信息可以 赋予属性1、属性2、属性3和属性4,而第二指示信息包含的第一指示信息 的属性越多,其与第一指示信息的近似度越高。反之,其与第一指示信息的 近似度越低。例如第二指示信息包含第一指示信息的四种属性,则第二指示 信息与第一指示信道的近似度为100%;例如第二指示信息包含第一指示信 息的两种属性,则第二指示信息与第一指示信息的近似度为50%;例如第二 指示信息不包括第一指示信息的任何属性,则第二指示信息与第一指示信道 的近似度为0。当然,不同属性所占的权重也可以不同,例如,属性1和属 性2分别占权重比为30%和40%,属性3和属性4分别占权重比为10%和 20%,如果第二指示信息包含第一指示信息的属性1和属性2,则第二指示 信息与第一指示信道的近似度为70%。本领域技术人员可以理解的是,本实 施例中的指示信息以关键字为例,但本发明的保护范围并不于此,为了实现 本发明的目的,本实施例的指示信息还可以采用标识符或是哈希值等其他方 式,具体的实现方式与关键字的实现方式类似,在此不再赘述。

第二、确定该通讯数据的第三指示信息;确定曾经发出、与该第三指示 信息所针对的客体相同的第四指示信息对应的通讯数据所面向的对象作为该 目标对象。例如,某用户庚曾经分别向三个用户甲、乙、丙发送一条通讯数 据,向用户甲、乙、丙发送的通讯数据中分别包括关键字“Nokia”、“Motorola” 和“生日快乐”,这些关键字即为本实施例中通讯数据的第四指示信息。此时, 用户庚向第四个用户丁发送一条通讯数据,该通讯数据包括关键字“HTC”, 该关键字为本实施例中通讯数据的第三指示信息。该数据挖掘系统从发送给 丁的通讯数据中提取该关键字“HTC”,将该关键字与发送给甲、乙、丙的通 讯数据中提取的关键字进行比较,判断“Nokia”、“Motorola”和“HTC”同属于 手机,则确定“Nokia”、“Motorola”和“HTC”所针对的客体相同。此时,该数 据挖掘系统将关键字“Nokia”、“Motorola”对应的用户甲和用户乙作为目标对 象。又例如,用户庚曾经分别向三个用户甲、乙、丙发送一封电子邮件,向 用户甲、乙、丙发送的电子邮件中分别包括关键字“张三”、“李四”和“会议主 题”,其中,这些关键字即为本实施例中电子邮件的第四指示信息。此时,用 户庚向第四个用户丁发送一封电子邮件,该电子邮件包括关键字“王五”,该 关键字为本实施例中电子邮件的第三指示信息。该数据挖掘系统从发送给丁 的通讯数据中提取该关键字“王五”,将该关键字与该用户发送给甲乙丙的电 子邮件中提取的关键字进行比较,判断“张三”、“李四”和“王五”同属于一个 公司,则确定“张三”、“李四”和“王五”所针对的客体相同。此时,该将关键 字“张三”、“李四”对应的电子邮件所面向的用户甲和用户乙作为目标对象。 本实施例中的指示信息以关键字为例,但本发明的保护范围并不于此,为了 实现本发明的目的,本实施例的指示信息还可以采用标识符或是哈希值等其 他方式,具体的实现方式与关键字的实现方式类似,在此不再赘述。

通过步骤S112可以确定大量的目标对象,从而为以后的基础数据提供 更多的数据来源。

最后执行步骤S113,确定与该通讯数据相关联的用户与该目标对象之间 的关联关系。基于步骤S112中已确定满足预设条件的目标对象,在本步骤 中,可以确定与该通讯数据相关联的用户与该目标对象之间的关联关系为紧 密关联。

图2示出根据本发明的第二实施例的,基于通讯数据的数据挖掘方法的 流程图。首先执行步骤S200和步骤S210。其中,步骤S200与第一实施例的 步骤S100相同,步骤S210中的步骤S211与第一实施例的步骤S111相同, 在不再赘述。

接下来进入步骤S210中的步骤S212,确定该通讯数据所面向的目标对 象。在接收到该通讯数据之后,该数据挖掘系统根据该通讯数据确定该通讯 数据所面向的目标对象。其中,该通讯数据所面向的目标对象是指发出该通 讯数据的用户。例如当该通讯数据的数据内容对应于一个Email时,该目标 对象优选地为该Email的接收者或抄送者;又例如当该通讯数据的数据内容 对应于一个网页时,则该目标对象优选地为被推荐浏览该网页的主体;又例 如当该通讯数据的数据内容对应于一应用程序时,在该目标对象优选地为该 应用程序的安装者。本领域技术人员理解的是,根据该通讯数据的数据内容 的不同,可以确定不同的目标对象,在此不予赘述。

然后进入步骤S213,根据通讯数据的类型确定与该通讯数据相关联的用 户与该目标对象之间的关联关系。具体地,通讯数据的类型可以是以下类型 中的一种:第一、转发一通讯数据,其中一个或多个对象作为转发的目标对 象;第二、修改一通讯数据后并发出修改后的通讯数据;第三、发布一通讯 数据。在本实施例中,该数据挖掘系统会判断通讯数据的类型,如果该通讯 数据的类型是上述类型中的一种,则表示目标对象会关心该通讯数据,因此, 可以确定与该通讯数据相关联的用户与该目标对象之间的关联关系为紧密关 联;如果不是,则可以确定与该通讯数据相关联的用户与该目标对象之间的 关联关系为松散关联。由于该数据挖掘系统仅需要通过判断通讯数据的类型 来确定与该通讯数据相关联的用户与该目标对象之间的关联关系,无需进行 复杂的运算,因而可以提高运算速度,降低系统的运算成本。

图3示出根据本发明的第三实施例的,基于通讯数据的数据挖掘方法的 流程图。由于第三实施例的步骤S300-S310可以分别与第一实施例的步骤 S100-S110相同,也可以分别与第二实施例的步骤S200-S210相同。为了简 化说明,本实施例所对应的附图是基于第二实施例对应的附图的基础上绘制。

本实施例在执行完步骤S300-S310之后,执行步骤S320,确定与该通讯 数据关联的用户与该目标对象针对该特定目标客体的关联关系。具体可以分 为如下情况:

第一、如果通讯数据的内容为转发针对一特定目标客体的通讯数据,则 该数据挖掘系统确定与通讯数据相关联的用户与目标对象所针对的特定目标 客体的关联关系为松散关联。例如,用户甲通过邮件(即为通讯数据)接收 到用户乙发送的针对某一问题的评论信息料,并将该评论信息通过邮件转发 给用户丙,在这种应用场景下,该数据挖掘系统将用户甲确定为与通讯数据 相关联的用户,该数据挖掘系统将用户丙确定为目标对象,该评论信息为本 实施例中特定目标客体,由于用户甲仅仅是通过邮件转发对该问题的评论信 息,可能表明用户甲和用户丙对这该问题的评论信息并不感兴趣。此时,用 户甲只是转发该通讯数据,并未加入自己的观点,所以该数据挖掘系统将用 户甲与该问题的评论信息之间的关联关系确定为松散关系。

第二、如果通讯数据的内容为发布或修改针对一特定目标客体的通讯数 据,则该数据挖掘系统确定与该通讯数据相关联的用户与目标对象所针对的 特定目标客体的关联关系为紧密关联。例如,用户甲通过微博(即为通讯数 据)向用户乙发布某一服务信息,或是用户甲将其接收的某一服务信息进行 更详细地描述或介绍后通过微博发送给用户乙,其中,该服务信息为本实施 例中的特定目标客体,用户甲即为与通讯数据相关联的用户,用户乙为目标 对象。此时,由于用户甲修正或发布通讯数据,表明在通讯数据中已经加入 了用户甲的观点,所以该数据挖掘系统将与该通讯数据相关联的用户甲与目 标对象用户乙所针对的特定目标客体的关联关系确定为紧密关联。

第三、该通讯数据为一用户针对一特定目标客体发布其认证信息,则该 数据挖掘系统可以根据认证信息的内容确定与通讯数据相关联的用户与目标 对象所针对特定目标客体的关联关系。如果认证信息的内容是通过对特定目 标客体的认证,则该数据挖掘系统确定与该通讯数据相关联的用户与该目标 对象所针对特定目标客体的关联关系为紧密关联。如果认证信息的内容是拒 绝对特定目标客体的认证,则该数据挖掘系统确定与该通讯数据相关联的用 户与该目标对象所针对特定目标客体的关联关系为不相关。例如,用户甲通 过博客(即为通讯数据)接收到用户乙发送的针对某一品牌的家用电器的资 料,由于用户甲曾经购买过该品牌的家用电器,并认可该家用电器的品质, 此时,用户甲对该品牌的家用电器持正面评价,即该品牌的家用电器通过用 户甲的认证。用户甲通过博客将包含其通过对品牌的家用电器认证信息发送 给用户丙。在这种应用场景下,该数据挖掘系统将用户甲确定为与通讯数据 相关联的用户,该数据挖掘系统将用户丙确定为目标对象。由于用户甲发送 的博客中包含其通过对该品牌的家用电器认证的信息,此时,该数据挖掘系 统将用户甲和该品牌的家用电器之间的关联关系确定为紧密关系。反之,如 果用户甲对品牌的家用电器不予认可,则该数据挖掘系统将用户甲和该品牌 的家用电器之间的关联关系确定为不相关。本领域技术人员可以理解的是, 上述特定目标客体只是为了举例需要,本发明的保护范围并不限于此。

图4是本发明的第四实施例的,基于通讯数据的数据挖掘系统的结构图。 如图4所示,该系统用于对通讯数据进行分析以获取多个用户间关联关系, 包括:获取模块,用于获取通讯数据;以及第一确定模块,用于根据该通讯 数据所面向的目标对象确定与该通讯数据相关联的用户与该目标对象之间的 关联关系。其中,该通讯数据可以由一个用户发出或是由第三方系统发出。

为了更清楚地确定用户与目标对象之间的关系,该第一确定模块包括:

第一确定单元,用于确定与该通讯数据相关联的用户;第二确定单元, 用于确定该通讯数据所面向的目标对象;以及第三确定单元,用于确定该用 户与该目标对象之间的关联关系。

其中,第一确定单元,具体用于将发起该通讯数据的用户作为该与该通 讯数据相关联的用户;或者将有权限接收该通讯数据的中间用户作为与该通 讯数据相关联的用户。

其中,第二确定单元具体用于:确定该通讯数据的第一指示信息,确定 曾经发出的、与该第一指示信息的近似度高于第一阈值的第二指示信息对应 的通讯数据所面向的对象作为该目标对象;或是用于:确定该通讯数据的第 三指示信息;确定曾经发出的、与该第三指示信息所针对的客体相同的第四 指示信息对应的通讯数据所面向的对象作为该目标对象。在第二确定单元确 定目标对象时,该第三确定单元具体用于:确定与该通讯数据相关联的用户 与该目标对象之间的关联关系为紧密关联。

此外,该第三确定单元具体用于:根据以下通讯数据的类型中的一种确 定与该通讯数据关联的用户与该目标对象之间的关联关系为紧密关系:转发 一通讯数据,其中一个或多个对象作为该转发的目标对象;修改一通讯数据 后并发出该修改后的通讯数据;或发布一通讯数据。

参照图4所示,该系统还包括:第二确定模块(虚线框所示),用于根 据该通讯数据的内容确定与通讯数据相关联的用户与该目标对象所针对特定 目标客体的关联关系。

其中,如果通讯数据的内容为转发针对一特定目标客体的通讯数据,则 第二确定模块确定与该通讯数据相关联的用户与该目标对象所针对特定目标 客体的关联关系为松散关联。

如果通讯数据为一用户针对一特定目标客体发布其认证信息,则第二确 定模块根据如下情况确定关联关系:

第一、如果认证信息为通过对该特定目标客体的认证,相应地,该第二 确定模块确定与该通讯数据相关联的用户与该目标对象所针对该特定目标客 体的关联关系为紧密关联;或者

第二、如果认证信息为拒绝对该特定目标客体的认证,相应地,该第二 确定模块确定该与该通讯数据相关联的用户与该目标对象所针对该特定目标 客体的关联关系为不相关。

如果通讯数据的内容为发布或修改针对一特定目标客体的通讯数据,则 第二确定模块确定与该通讯数据相关联的用户与该目标对象所针对该特定目 标客体的关联关系被确定为紧密关联。

本发明通过对通讯数据的深度挖掘,能够确定发送通讯数据的主体、接 收通讯数据的主体、通讯数据所关联的其他主体之间的关联度,从而可以为 其他应用场景的处理提供基础数据。例如,对于两个关联度高度相关的主体, 在一个主体在浏览某一产品或服务的介绍时,可以主动地向另一主体推送与 该产品或服务有关的信息。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局 限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种 变形或修改,这并不影响本发明的实质内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号