首页> 中国专利> 针对数据缺失的数据特征挖掘方法及其相关设备

针对数据缺失的数据特征挖掘方法及其相关设备

摘要

本申请属于人工智能领域,涉及针对数据缺失的数据特征挖掘方法、装置、计算机设备及存储介质,所述方法包括:根据数据表生成数值化查询表;从原始数据中获取样本生成第一样本集,基于第一样本集生成第二样本集;根据第一样本集和第二样本集进行树模型训练和解析,根据解析结果生成第一KB模型和第二KB模型;基于数值化查询表更新第一KB模型和第二KB模型,更新后对各样本的数据进行处理并输入预设的DNN模型中,输出第一预测结果和第二预测结果进行比较,根据比较结果判定是否将存在数据缺失的特征作为目标特征。本申请还涉及区块链技术,获取的目标特征的特征值可存储于区块链中。本方案可应用于医疗数据库的数据挖掘,推动智慧医疗的建设。

著录项

  • 公开/公告号CN112199374A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 中国平安人寿保险股份有限公司;

    申请/专利号CN202011056328.7

  • 发明设计人 陈远波;

    申请日2020-09-29

  • 分类号G06F16/22(20190101);G06F16/2458(20190101);G06F16/27(20190101);G06K9/62(20060101);

  • 代理机构44385 深圳市世联合知识产权代理有限公司;

  • 代理人汪琳琳

  • 地址 518000 广东省深圳市福田区益田路5033号平安金融中心14、15、16、37、41、44、45、46层

  • 入库时间 2023-06-19 09:29:07

说明书

技术领域

本申请涉及人工智能技术领域,尤其涉及针对数据缺失的数据特征挖掘方法、装置、计算机设备及存储介质。

背景技术

在利用数据进行回归或者分类建模时,经常碰到数据缺失的情况,造成数据缺失的原因很多,包括:

1、数据暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,致使一部分属性值空缺。

2、数据被遗漏。例如因为输入时认为不重要、忘记填写或对数据理解错误而人为遗漏,或者由于数据采集设备的故障、存储介质的故障、传输媒体的故障等原因丢失而遗漏。

3、数据中有些对象的某个或某些属性不可用。例如未婚者的配偶姓名。

4、数据与给定语境无关,且获取这些数据信息的代价太大。

5、系统实时性能要求较高,要求得到这些数据前迅速做出判断或决策。

然而这些缺失的数据对模型的建立有时会有很大影响。没有高质量的数据,就没有高质量的分析结果。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,基于这样的数据构建模型进行分析和预测,将会得出错误的分析和预测结果,因此如何在数据存在缺失时确定具有稳定预测效果的特征成为亟待解决的问题。

发明内容

本申请实施例的目的在于提出一种针对数据缺失的数据特征挖掘方法、装置、计算机设备及存储介质,以解决现有技术中如何在数据存在缺失时确定具有稳定预测效果的特征的问题。

为了解决上述技术问题,本申请实施例提供一种针对数据缺失的数据特征挖掘方法,采用了如下所述的技术方案:

一种针对数据缺失的数据特征挖掘方法,包括下述步骤:

根据特征挖掘指令获取数据表,将所述数据表中的特征字段名称进行数值化处理,生成数值化查询表;

从原始数据中获取预设数量的样本生成第一样本集,基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集;

根据所述第一样本集和所述第二样本集分别进行树模型训练,在分别得到第一树模型和第二树模型后进行树模型解析,根据所述第一树模型和所述第二树模型的解析结果分别生成第一KB模型和第二KB模型;

基于所述数值化查询表更新所述第一KB模型和所述第二KB模型,通过更新后的所述第一KB模型和所述第二KB模型分别对各样本的数据进行处理;

将所述第一样本集和所述第二样本集中处理后的样本数据分别输入预设的DNN模型中,分别输出第一预测结果和第二预测结果并进行比较,根据比较结果判定是否将所述存在数据缺失的特征作为目标特征。

为了解决上述技术问题,本申请实施例还提供一种针对数据缺失的数据特征挖掘装置,采用了如下所述的技术方案:

一种针对数据缺失的数据特征挖掘装置,包括:

字段处理模块,用于根据特征挖掘指令获取数据表,将所述数据表中的特征字段名称进行数值化处理,生成数值化查询表;

样本生成模块,用于从原始数据中获取预设数量的样本生成第一样本集,基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集;

模型训练模块,用于根据所述第一样本集和所述第二样本集分别进行树模型训练,在分别得到第一树模型和第二树模型后进行树模型解析,根据所述第一树模型和所述第二树模型的解析结果分别生成第一KB模型和第二KB模型;

数据处理模块,用于基于所述数值化查询表更新所述第一KB模型和所述第二KB模型,通过更新后的所述第一KB模型和所述第二KB模型分别对各样本的数据进行处理;

比较判断模块,用于将所述第一样本集和所述第二样本集中处理后的样本数据分别输入预设的DNN模型中,分别输出第一预测结果和第二预测结果并进行比较,根据比较结果判定是否将所述存在数据缺失的特征作为目标特征。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的针对数据缺失的数据特征挖掘方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的针对数据缺失的数据特征挖掘方法的步骤。

与现有技术相比,本申请实施例提供的针对数据缺失的数据特征挖掘方法、装置、计算机设备及存储介质主要有以下有益效果:

通过构建数据存在缺失和数据不存在缺失的样本集,并以此分别训练得到对应的KB模型,再基于KB模型产生大量的具有稳定预测效果的组合特征,特别对于存在数据缺失的情况下,通过KB模型产生大量的具有稳定预测效果的组合特征,可以实现对不同应用场景下特征缺失值包含的信息的合理填充,再将组合特征后输入DNN模型中进行训练预测,根据DNN模型的输出结果的对比来验证特征缺失值是否影响模型的稳定性,最终得到影响模型稳定性的目标特征,以便后续对这些目标特征的特征值进行补全,提高模型的稳定性。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,下面描述中的附图对应于本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的针对数据缺失的数据特征挖掘方法的一个实施例的流程图;

图3是据本申请的根据第一样本集进行树模型训练的一个示例;

图4是据本申请的根据第二样本集进行树模型训练的一个示例;

图5是根据本申请的对样本的数据进行处理的一个实施例的流程图;

图6是根据本申请的针对数据缺失的数据特征挖掘装置的一个实施例的结构示意图;

图7是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的针对数据缺失的数据特征挖掘方法一般由服务器执行,相应地,针对数据缺失的数据特征挖掘装置一般设置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,其示出了根据本申请的针对数据缺失的数据特征挖掘方法的一个实施例的流程图。所述的针对数据缺失的数据特征挖掘方法包括以下步骤:

S201,根据特征挖掘指令获取数据表,将所述数据表中的特征字段名称进行数值化处理,生成数值化查询表;

S202,从原始数据中获取预设数量的样本生成第一样本集,基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集;

S203,根据所述第一样本集和所述第二样本集分别进行树模型训练,在分别得到第一树模型和第二树模型后进行树模型解析,根据所述第一树模型和所述第二树模型的解析结果分别生成第一KB模型和第二KB模型;

S204,基于所述数值化查询表更新所述第一KB模型和所述第二KB模型,通过更新后的所述第一KB模型和所述第二KB模型分别对各样本的数据进行处理;

S205,将所述第一样本集和所述第二样本集中处理后的样本数据分别输入预设的DNN模型中,分别输出第一预测结果和第二预测结果并进行比较,根据比较结果判定是否将所述存在数据缺失的特征作为目标特征。

下面对上述步骤进行展开说明。

对于步骤S201,具体的,接收用户通过给定入口发送的特征挖掘指令来访问数据库,读取存储于数据库中的数据表,可以根据数据表的表名(比如sw_wj_safe.table)或者存储路径来获取数据表,数据表中包含若干特征字段,以保险代理人增员场景为例,从保险代理人基本信息(比如性别、年龄、学历、工作经历等)、保险代理人入司流程中的信息(比如培训数据、APP活跃数据等)、保险代理人工作信息(比如历史保单数据等)中可提取若干特征字段形成数据表,这些特征字段包括性别、年龄、学历、培训信息、活跃度等,为方便后续的数据处理,需将特征字段进行数值化处理,比如以1标识性别,2标识年龄等,由此保证特征字段名称的数值化查询表全局唯一。

在一些实施例中,若存在互相关联的多个数据表,可以分别生成多个数值化查询表,并将这些数值化查询表进行关联存储。

对于步骤S202,具体的,根据数据挖掘指令或者在完成上述数值化查询表的生成后,访问数据库读取原始数据,原始数据为历史数据,在获取原始数据时,可以是从同一个数据库中读取,也可以是从多个互相独立的数据库中分别读取,比如在保险代理人增员场景下,保险代理人的入司流程中的信息和代理人工作信息可能分属不同的系统进行管理,数据存储在不同的数据库中,在读取某个保险代理人(即一个样本)的数据信息时,将访问多个数据库得到一个样本的全部数据。

在从原始数据中选择预设数量的样本生成第一样本集的过程中,由于原始数据中存在若干样本,当样本数量超出某一阈值或者样本所处的时间区间早于某一时间节点时,为避免后续处理的数据量过大或者为保证样本数据的时效性,可以通过筛选出满足样本数量阈值或满足时间区间的多个样本,形成上述第一样本集。

在生成第二样本集的过程中,由于原始数据中每个样本均对应相同的一组特征,样本数据的不同表现在特征值的差异,其中部分样本的部分特征的特征值可能缺失,因此本实施例中所说的数据缺失,是指第一样本集全部样本中的部分样本存在的某个或某几个特征的数据缺失的情形,而非所有数据缺失,因而在得到第一样本集所有样本的全部数据之后,一些样本可能存在缺失的数据,具体体现在样本的某个特征或某几个特征的特征值缺失,比如1000个样本,其中100个样本的学历特征的特征值缺失,200个样本的活跃度特征的特征值缺失等,此时将第一样本集中存在特征值缺失的特征所对应的样本剔除,即生成第二样本集。

本实施例中,在对存在特征值缺失的特征所对应的样本进行剔除时,可以是基于单个特征进行剔除,也可以是基于两个或以上特征进行剔除,比如当前学历特征和活跃度特征存在特征值缺失,可将学历特征的特征值缺失的样本进行剔除形成第二样本集,或者活跃度特征的特征值缺失的样本进行剔除形成第二样本集,或者将学历特征和活跃度特征中的特征值缺失的样本均进行剔除形成第二样本集。

故在一些实施例中,所述基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集可包括:确定存在数据缺失的多个特征,依次基于各个存在数据缺失的特征对所述第一样本集中的样本进行剔除,得到多个所述第二样本集。具体的,当依次基于各个存在数据缺失的特征对所述第一样本集中的样本进行剔除,得到多个所述第二样本集时,后续针对每个第二样本集均执行步骤S203至步骤S205,此时步骤S205中的目标特征是指对预测模型的影响大的入模特征组,由此可以确定存在缺失数据的多个特征中对模型预测影响大的多个入模特征,以提示用户将这些入模特征的特征值补全。本实施例在基于单个特征进行剔除时,在进行模型预测时可以依次考量单个特征对目标变量(即模型预测值)的影响。

在另一些实施例中,所述基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集可包括:确定存在数据缺失的多个特征,将所述多个特征进行组合,得到多组特征,依次基于各组特征对所述第一样本集中的样本进行剔除,得到多个所述第二样本集。具体可根据实际情况进行特征集的选择,当特征值存在缺失的特征有两个时,直接以特征组进行样本剔除,即将特征值同时存在缺失的两个特征所对应的样本剔除;当特征值存在缺失的特征至少有三个时,可将存在特征值缺失的两个或多个特征形成组合,得到多组特征,基于各组特征对第一样本集中的样本进行剔除,同样的可以得到多个第二样本集,针对每个样本集执行步骤S203至步骤S205,此时步骤S205中的目标特征是指对预测模型的影响大的特征组,由此可以确定存在缺失数据的多个特征中对模型预测影响大的特征组,以提示用户将这些特征组所包含的特征的特征值补全。本实施例在基于多个特征进行剔除时,在进行模型预测时可以考量特征组对目标变量的影响。

在本实施例中,在对第一样本集进行样本剔除后,正负样本的比例可能发生变化,在一些实施例中,在所述根据所述第一样本集和所述第二样本集分别进行树模型训练之前,所述方法还包括:判断所述第二样本集的正负样本比例与所述第一样本集的正负样本比例是否一致,若不一致则调整所述第二样本集中的正样本或负样本的数量,使所述第二样本集与所述第一样本集的正负样本比例保持一致。具体的,正负样本比例是指正样本和负样本的比例,以上述图3和图4所示例子进行说明,在包含1000个样本的第一样本集中,正负样本比例为4:1,第二样本集中的正负样本的比例为2.2:1,意味着第二样本集中相对于第一样本集而言负样本的占比过高,可以通过进一步剔除部分负样本的方式使第二样本集的正负样本比例达到4:1。通过调整正负样本比例一直可以降低正负样本更加准确地评价缺失数据对模型预测带来的影响。

对于步骤S203,具体的,在根据第一样本集进行树模型训练时,第一样本集中样本特征的缺失值被赋予null值,即在训练树模型时null值被当做特征值来使用,以基于单个特征进行剔除为例,假如现有1000样本,根据年龄和学历两个特征进行树模型训练,其中部分样本的年龄特征存在数据缺失,以null值填充,树模型训练的目标变量的值为“留”和“去”,分别以1和0表示,1000个样本中“留”(正样本)的数量为670,“去”(负样本)的数量为330,则根据第一样本集训练出来的模型树结构如图3所示,在根据存在数据缺失的年龄特征对第一样本集进行样本剔除后,得到包含800个样本的第二样本集,则训练出来的模型树结构如图4所示,由图3和图4可知在填充null值后相比于剔除存在数据缺失的样本,具有更多的组合特征(叶子节点)。

在一些实施例中,原始数据存在一定的时间跨度,比如半年或更长,故所述方法还包括获取预设的多个时间区间;相应的,所述根据所述第一样本集和所述第二样本集分别进行树模型训练包括:根据所述第一样本集和所述第二样本集在各所述时间区间的样本数据分别进行树模型训练,得到与各所述时间区间对应的多个上述第一树模型和多个所述第二树模型,以得到第一树模型集和第二树模型集。其中,各所述时间区间的时间起点相同,后续步骤将基于第一树模型集和第二树模型集进行解析、模型生成、数据编码以及训练预测。通过设置多个时间区间,可获得更多的组合特征,降低数据时间跨度长对特征值缺失的特征的预测能力带来的影响,由此提高特征值存在缺失的特征的挖掘准确度。在具体实施例中,可采用GBDT(GBDT,GradientBoostingDecisionTree,梯度提升迭代决策树)模型进行树模型训练,对应的可形成GBD(GBD,GradientBoostingDecision,梯度提升迭代决策)集群,上述的特征字段名称数值化和树模型训练的处理均在GBD集群中进行,相比于原始数据,设置多个时间区间形成的组合特征具有的更多的信息量。

进一步的,根据所述第一树模型和所述第二树模型的解析结果分别生成第一KB模型和第二KB模型具体是指,解析第一树模型和第二树模型,根据第一树模型的解析结果生成第一KB模型,并根据第二树模型的解析结果生成第二KB模型。其中KB是指KnowledgeBase,即知识库,第一KB模型和第二KB模型是由众多知识条目组合形成的知识库模型。

具体的,对第一树模型和第二树模型进行解析是将叶子节点所在的树枝(branch)提取出来形成知识条目,参考图3对此进行说明,在根据第一样本集训练得到的树模型中,可以生成如下知识条目:

年龄(非null)→年龄(小于25岁)→学历(本科);

年龄(非null)→年龄(小于25岁)→学历(非本科);

年龄(非null)→年龄(大于25岁)→学历(本科);

年龄(非null)→年龄(大于25岁)→学历(本科);

年龄(null)→学历(本科);

年龄(null)→学历(非本科)。

基于这些知识条目组合可以生成第一KB(knowledge base,知识库)模型。

相应的,参考图4对此进行说明,在根据第二样本集训练得到的树模型中,可以生成如下知识条目:

年龄(小于25岁)→学历(本科);

年龄(小于25岁)→学历(非本科);

年龄(大于25岁)→学历(本科);

年龄(大于25岁)→学历(本科)。

通过这些知识条目组合可以生成第二KB模型。

对于步骤S204,在一些实施例中,如图5所示,基于所述数值化查询表更新所述第一KB模型和所述第二KB模型,通过更新后的所述第一KB模型和所述第二KB模型分别对各样本的数据进行处理包括:

S501,结合所述数值化查询表,通过所述第一KB模型和所述第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理,得到第一样本编码数据;

S502,根据所述第一样本编码数据对所述第一树模型和所述第二树模型的解析结果进行筛选,并基于筛选结果生成更新的第一KB模型和更新的第二KB模型;

S503,结合所述数值化查询表,通过所述更新的第一更新KB模型和所述更新的第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理,得到第二样本编码数据。

其中所述第二样本编码数据用作所述DNN模型的输入。

上述实施例通过生成第一KB模型和第二KB模型可以融合不同的树模型产生大量的特征组合,本实施例中步骤S501可对样本数据进行编码,具体可通过采用embedding的方式,形成若干特征组合条件,其可反映特征之间的交叉组合特性,如果样本满足特征组合条件,则其对应的知识条目取值为1,否则为0,从而完成样本数据编码,得到第一样本编码数据,步骤S502通过对各第一样本编码数据的统计,可对产生的组合特征进行重要性(预测能力)和饱和度(稳定能力)分析,获得各知识条目的饱和度和重要性,将饱和度和重要性小于预设阈值的知识条目过滤后,可以从所述第一树模型和所述第二树模型的解析结果中筛选出具有稳定预测效果的特征的知识条目集,基于剩余的知识条目生成更新的第一KB模型和更新的第二KB模型。步骤S503再结合所述数值化查询表、所述更新的第一更新KB模型和所述更新的第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理,得到第二样本编码数据,步骤S503对样本数据编码的过程与步骤S501相同。步骤S501至S503的作用在于在数据缺失的时候通过各种不同的树模型产生大量的组合特征,并对组合特征进行稳定性筛选,找出具有稳定预测效果的组合特征,根据筛选后的组合特征进行数据编码,得到用作DNN模型的输入的数据。

在一些实施例中,所述通过所述第一KB模型和所述第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理包括:对所述第一样本集和所述第二样本集进行拆分,生成多个第一样本子集和多个第二样本子集;通过所述第一KB模型和所述第二KB模型分别对所述第一样本子集和所述第二样本子集中的样本数据进行编码处理。后续针对第一样本子集和第二样本子集的样本数据进行编码,可以实现并行编码,提高编码效率。

对于步骤S205,将编码后的数据输入DNN模型中进行训练预测,其中第一预测结果对应于第一样本集,第二预测结果对应于第二样本集。由于通过KB模型编码处理后的数据提供了额外信息,相比原始数据多了很多交叉组合性质,同时对数据的质量进行了控制,相比于直接使用原始数据去训练DNN模型的网络参数,可避免欠拟合现象,因而可提升DNN模型的预测效果。第一预测结果为包含了存在缺失数据的样本的预测结果,第二预测结果为剔除了存在缺失数据的样本的预测结果,通过比较二者的准确性可以判断存在缺失数据的样本的特征对模型预测的影响程度,以便确定影响模型稳定性的特征数据(稳定且预测能力较强),得到目标特征,以便这些目标特征的特征值进行后续的数据采集,故在进一步的实施例中,当根据比较结果判定将所述存在数据缺失的特征作为目标特征时,输出获取所述目标特征的缺失值的提示信息,以提醒用户需要补充哪些数据来提高模型建立和预测的稳定性和准确性。

在实际应用时,可将上述方法生成CPython脚本(二进制)进行执行,相比于Python脚本,采用CPython脚本可以提高计算机的运算速率,节省数据处理时间。

本申请提供的针对数据缺失的数据特征挖掘方法,通过构建数据存在缺失和数据不存在缺失的样本集,并以此分别训练得到对应的KB模型,再基于KB模型产生大量的具有稳定预测效果的组合特征,特别对于存在数据缺失的情况下,通过KB模型产生大量的具有稳定预测效果的组合特征,可以实现对不同应用场景下特征缺失值包含的信息的合理填充,再将组合特征后输入DNN模型中进行训练预测,根据DNN模型的输出结果的对比来验证特征缺失值是否影响模型的稳定性,最终得到影响模型稳定性的目标特征,以便后续对这些目标特征的特征值进行补全,提高模型的稳定性。

需要强调的是,为进一步保证信息的私密和安全性,在确定将所述存在数据缺失的特征作为目标特征后,后续获取的目标特征的特征值还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。所述数据特征挖掘方法可应用于医疗数据库中的数据挖掘,从而推动智慧城市的智慧医疗建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6,作为对上述图2所示方法的实现,本申请提供了一种针对数据缺失的数据特征挖掘装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图6所示,本实施例所述的针对数据缺失的数据特征挖掘装置包括:字段处理模块601、样本生成模块602、模型训练模块603、数据处理模块604以及比较判断模块605。

其中,字段处理模块601用于根据特征挖掘指令获取数据表,将所述数据表中的特征字段名称进行数值化处理,生成数值化查询表;样本生成模块602用于从原始数据中获取预设数量的样本生成第一样本集,基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集;模型训练模块603用于根据所述第一样本集和所述第二样本集分别进行树模型训练,在分别得到第一树模型和第二树模型后进行树模型解析,根据所述第一树模型和所述第二树模型的解析结果分别生成第一KB模型和第二KB模型;数据处理模块604用于基于所述数值化查询表更新所述第一KB模型和所述第二KB模型,通过更新后的所述第一KB模型和所述第二KB模型分别对各样本的数据进行处理;比较判断模块605用于将所述第一样本集和所述第二样本集中处理后的样本数据分别输入预设的DNN模型中,分别输出第一预测结果和第二预测结果并进行比较,根据比较结果判定是否将所述存在数据缺失的特征作为目标特征。

具体的,字段处理模块601接收用户通过给定入口发送的特征挖掘指令来访问数据库,读取存储于数据库中的数据表,可以根据数据表的表名(比如sw_wj_safe.table)或者存储路径来获取数据表,数据表中包含若干特征字段,为方便后续的数据处理,需将特征字段进行数值化处理,比如以1标识性别,2标识年龄等,由此保证特征字段名称的数值化查询表全局唯一。

在一些实施例中,若存在互相关联的多个数据表,字段处理模块601可以分别生成多个数值化查询表,并将这些数值化查询表进行关联存储。

样本生成模块602根据数据挖掘指令或者在完成上述数值化查询表的生成后,访问数据库读取原始数据,原始数据为历史数据,在获取原始数据时,可以是从同一个数据库中读取,也可以是从多个互相独立的数据库中分别读取。样本生成模块602在从原始数据中选择预设数量的样本生成第一样本集的过程中,由于原始数据中存在若干样本,当样本数量超出某一阈值或者样本所处的时间区间早于某一时间节点时,为避免后续处理的数据量过大或者为保证样本数据的时效性,可以通过筛选出满足样本数量阈值或满足时间区间的多个样本,形成上述第一样本集。样本生成模块602在生成第二样本集的过程中,由于原始数据中每个样本均对应相同的一组特征,样本数据的不同表现在特征值的差异,其中部分样本的部分特征的特征值可能缺失,因此本实施例中所说的数据缺失,是指第一样本集全部样本中的部分样本存在的某个或某几个特征的数据缺失的情形,而非所有数据缺失,因而在得到第一样本集所有样本的全部数据之后,一些样本可能存在缺失的数据,具体体现在样本的某个特征或某几个特征的特征值缺失,此时将第一样本集中存在特征值缺失的特征所对应的样本剔除,即生成第二样本集。

本实施例中,样本生成模块602在对存在特征值缺失的特征所对应的样本进行剔除时,可以是基于单个特征进行剔除,也可以是基于两个或以上特征进行剔除。

故在一些实施例中,所述样本生成模块602基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集时,具体用于确定存在数据缺失的多个特征,依次基于各个存在数据缺失的特征对所述第一样本集中的样本进行剔除,得到多个所述第二样本集。本实施例在基于单个特征进行剔除时,在进行模型预测时可以依次考量单个特征对目标变量(即模型预测值)的影响。

在另一些实施例中,所述样本生成模块602基于存在数据缺失的特征对所述第一样本集中的样本进行剔除,生成第二样本集时,具体用于确定存在数据缺失的多个特征,将所述多个特征进行组合,得到多组特征,依次基于各组特征对所述第一样本集中的样本进行剔除,得到多个所述第二样本集。本实施例在基于多个特征进行剔除时,在进行模型预测时可以考量特征组对目标变量的影响。

在本实施例中,在所述样本生成模块602对第一样本集进行样本剔除后,正负样本的比例可能发生变化,在一些实施例中,在所述模型训练模块603根据所述第一样本集和所述第二样本集分别进行树模型训练之前,所述样本生成模块602还用于:判断所述第二样本集的正负样本比例与所述第一样本集的正负样本比例是否一致,若不一致则调整所述第二样本集中的正样本或负样本的数量,使所述第二样本集与所述第一样本集的正负样本比例保持一致。具体的,正负样本比例是指正样本和负样本的比例。通过调整正负样本比例一直可以降低正负样本更加准确地评价缺失数据对模型预测带来的影响。

在本实施例中,模型训练模块603在根据第一样本集进行树模型训练时,第一样本集中样本特征的缺失值被赋予null值,即在训练树模型时null值被当做特征值来使用,具体如图3和图4所示,可知在填充null值后相比于剔除存在数据缺失的样本,具有更多的组合特征(叶子节点)。模型训练模块603对第一树模型和第二树模型进行解析是将叶子节点所在的树枝(branch)提取出来形成知识条目。

在一些实施例中,原始数据存在一定的时间跨度,比如半年或更长,故所述模型训练模块603还用于获取预设的多个时间区间;相应的,所述模型训练模块603根据所述第一样本集和所述第二样本集分别进行树模型训练时,具体用于根据所述第一样本集和所述第二样本集在各所述时间区间的样本数据分别进行树模型训练,得到与各所述时间区间对应的多个上述第一树模型和多个所述第二树模型,以得到第一树模型集和第二树模型集。其中,各所述时间区间的时间起点相同,后续将基于第一树模型集和第二树模型集进行解析、模型生成、数据编码以及训练预测。通过设置多个时间区间,可获得更多的组合特征,降低数据时间跨度长对特征值缺失的特征的预测能力带来的影响,由此提高特征值存在缺失的特征的挖掘准确度。在具体实施例中,所述模型训练模块603可采用GBDT(GBDT,GradientBoostingDecisionTree,梯度提升迭代决策树)模型进行树模型训练,对应的可形成GBD(GBD,GradientBoostingDecision,梯度提升迭代决策)集群,上述的特征字段名称数值化和树模型训练的处理均在GBD集群中进行,相比于原始数据,设置多个时间区间形成的组合特征具有的更多的信息量。

在一些实施例中,所述数据处理模块604基于所述数值化查询表更新所述第一KB模型和所述第二KB模型,通过更新后的所述第一KB模型和所述第二KB模型分别对各样本的数据进行处理时,具体用于:结合所述数值化查询表,通过所述第一KB模型和所述第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理,得到第一样本编码数据;根据所述第一样本编码数据对所述第一树模型和所述第二树模型的解析结果进行筛选,并基于筛选结果生成更新的第一KB模型和更新的第二KB模型;结合所述数值化查询表,通过所述更新的第一更新KB模型和所述更新的第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理,得到第二样本编码数据;其中所述第二样本编码数据用作所述DNN模型的输入。所述模型训练模块603通过生成第一KB模型和第二KB模型可以融合不同的树模型产生大量的特征组合,本实施例中数据处理模块604可对样本数据进行编码,具体可通过采用embedding的方式,形成若干特征组合条件,其可反映特征之间的交叉组合特性,如果样本满足特征组合条件,则其对应的知识条目取值为1,否则为0,从而完成样本数据编码,得到第一样本编码数据,并通过对各第一样本编码数据的统计,可对产生的组合特征进行重要性(预测能力)和饱和度(稳定能力)分析,获得各知识条目的饱和度和重要性,将饱和度和重要性小于预设阈值的知识条目过滤后,可以从所述第一树模型和所述第二树模型的解析结果中筛选出具有稳定预测效果的特征的知识条目集,基于剩余的知识条目生成更新的第一KB模型和更新的第二KB模型,最后再结合所述数值化查询表、所述更新的第一更新KB模型和所述更新的第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理,得到第二样本编码数据,数据处理模块604在数据缺失的时候通过各种不同的树模型产生大量的组合特征,并对组合特征进行稳定性筛选,找出具有稳定预测效果的组合特征,根据筛选后的组合特征进行数据编码,得到用作DNN模型的输入的数据。

在一些实施例中,所述数据处理模块604通过所述第一KB模型和所述第二KB模型分别对所述第一样本集和所述第二样本集中的样本数据进行编码处理时,具体用于对所述第一样本集和所述第二样本集进行拆分,生成多个第一样本子集和多个第二样本子集;通过所述第一KB模型和所述第二KB模型分别对所述第一样本子集和所述第二样本子集中的样本数据进行编码处理。后续针对第一样本子集和第二样本子集的样本数据进行编码,可以实现并行编码,提高编码效率。

在本实施例中,比较判断模块605将所述数据处理模块604编码后的数据输入DNN模型中进行训练预测,其中第一预测结果对应于第一样本集,第二预测结果对应于第二样本集。由于通过KB模型编码处理后的数据提供了额外信息,相比原始数据多了很多交叉组合性质,同时对数据的质量进行了控制,相比于直接使用原始数据去训练DNN模型的网络参数,可避免欠拟合现象,因而可提升DNN模型的预测效果。第一预测结果为包含了存在缺失数据的样本的预测结果,第二预测结果为剔除了存在缺失数据的样本的预测结果,通过比较二者的准确性可以判断存在缺失数据的样本的特征对模型预测的影响程度,以便确定影响模型稳定性的特征数据(稳定且预测能力较强),得到目标特征,以便这些目标特征的特征值进行后续的数据采集,故在进一步的实施例中,当根据比较结果判定将所述存在数据缺失的特征作为目标特征时,比较判断模块605还用于输出获取所述目标特征的缺失值的提示信息,以提醒用户需要补充哪些数据来提高模型建立和预测的稳定性和准确性。

本实施例提供的针对数据缺失的数据特征挖掘装置的具体内容和相关示例性说明还可参考上述方法实施例中相关内容,在此不再赘述。

本申请提供的针对数据缺失的数据特征挖掘装置,通过构建数据存在缺失和数据不存在缺失的样本集,并以此分别训练得到对应的KB模型,再基于KB模型产生大量的具有稳定预测效果的组合特征,特别对于存在数据缺失的情况下,通过KB模型产生大量的具有稳定预测效果的组合特征,可以实现对不同应用场景下特征缺失值包含的信息的合理填充,再将组合特征后输入DNN模型中进行训练预测,根据DNN模型的输出结果的对比来验证特征缺失值是否影响模型的稳定性,最终得到影响模型稳定性的目标特征,以便后续对这些目标特征的特征值进行补全,提高模型的稳定性。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73,所述存储器71中存储有计算机可读指令,所述处理器72执行所述计算机可读指令时实现上述方法实施例中所述的针对数据缺失的数据特征挖掘方法的步骤,并具有与上述针对数据缺失的数据特征挖掘方法相对应的有益效果,在此不作展开。

需要指出的是,图中仅示出了具有存储器71、处理器72、网络接口73的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

在本实施例中,所述存储器71至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器71可以是所述计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,所述存储器71也可以是所述计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件,例如对应于上述针对数据缺失的数据特征挖掘方法的计算机可读指令等。此外,所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器72在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中,所述处理器72用于运行所述存储器71中存储的计算机可读指令或者处理数据,例如运行对应于所述针对数据缺失的数据特征挖掘方法的计算机可读指令。

所述网络接口73可包括无线网络接口或有线网络接口,该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的针对数据缺失的数据特征挖掘方法的步骤,并具有与上述针对数据缺失的数据特征挖掘方法相对应的有益效果,在此不作展开。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号