首页> 中国专利> 一种基于数据修复和主动学习验证的生存认证方法及系统

一种基于数据修复和主动学习验证的生存认证方法及系统

摘要

本公开公开了一种基于数据修复和主动学习验证的生存认证方法及系统;读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

著录项

  • 公开/公告号CN110321350A

    专利类型发明专利

  • 公开/公告日2019-10-11

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN201910543707.X

  • 申请日2019-06-21

  • 分类号

  • 代理机构济南圣达知识产权代理有限公司;

  • 代理人黄海丽

  • 地址 250061 山东省济南市历城区山大南路27号

  • 入库时间 2024-02-19 13:58:35

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-03

    授权

    授权

  • 2019-11-05

    实质审查的生效 IPC(主分类):G06F16/22 申请日:20190621

    实质审查的生效

  • 2019-10-11

    公开

    公开

说明书

技术领域

本公开涉及医保信息处理领域,特别是涉及一种基于数据修复和主动学习验证的生存认证方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。

在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:

生存认证,全称退休人员生存认证,是伴随社会保险政策的实施而产生的一种需求。当前,国家规定退休人员每年需到当地的社保机构进行一次生存认证,即,退休人员需证明自己还健在、符合继续领取养老金的条件。生存认证的目的是防止或减轻由于养老金冒领行为而产生的养老金流失问题。

养老金冒领是指,一个领取养老金的退休人员死亡后,其家属由于故意或无意等原因未能及时向社保机构报告其死亡、并且继续领取养老金的行为。目前生存认证工作主要依靠人工服务完成,这导致了两个问题:

一、退休人员数量庞大,生存认证工作往往会耗费经办机构大量的人力资源和时间。进而导致了退休人员生存信息更新周期长(当前,国家规定退休人员每年只需进行一次生存认证)和养老金流失发现不及时的问题。

二、现阶段,生存认证需要全体退休人员配合社保机构的工作,这导致了社会成本的上升和社会资源的浪费。

发明人发现在实现生存认证的同时,存在以下技术问题需要解决:

第一,目前生存认证数据终端采集的数据不够全面,存在数据缺失的问题;

第二,目前生存认证数据终端采集的数据存在篡改或伪造的嫌疑,数据的真伪性缺乏有效的验证。

发明内容

为了解决现有技术的不足,本公开提供了一种基于数据修复和主动学习验证的生存认证方法及系统;

第一方面,本公开还提供了基于数据修复和主动学习验证的生存认证方法;

基于数据修复和主动学习验证的生存认证方法,包括:

读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;

识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;

对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;

利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

第二方面,本公开还提供了基于数据修复和主动学习验证的生存认证系统;

基于数据修复和主动学习验证的生存认证系统,包括:

读取模块,其被配置为读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;

识别模块,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;

数据补全模块,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;

生存认证模块,其被配置为:利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

第三方面,本公开还提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述第一方面所述方法的步骤。

第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述第一方面所述方法的步骤。

第五方面,本公开还提供了基于数据修复和主动学习验证的生存认证系统;

基于数据修复和主动学习验证的生存认证系统,包括:

医保卡读卡器,其被配置为:读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;

人脸识别器,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;

处理器,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;

利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

与现有技术相比,本公开的有益效果是:

可以实现缺失数据的修复;

可以实现数据真实性校验,保证数据的准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本公开实施例一提供的利用修复补全和验证更新后的生存认证信息数据库中的数据,实现生存认证方法流程图;

图2为本公开实施例一提供的基于主动学习的生存认证方法使用的特征;

图3为本公开实施例二提供的利用修复补全和验证更新后的生存认证信息数据库中的数据,实现生存认证系统功能框图;

图4(a)和图4(b)为本公开实施例一提供的基于不同样本选择函数进行样本选择的执行样例;

图5为本公开实施例一提供的生存认证模型的预测结果。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一,本实施例提供了基于数据修复和主动学习验证的生存认证方法;

基于数据修复和主动学习验证的生存认证方法,包括:

读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;

识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;

对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;

利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

作为一个或多个实施例,通过医保卡读卡器读取每张退休人员医保卡的信息;通过人脸识别器识别每个退休人员的人脸信息。

作为一个或多个实施例,所述对生存认证信息数据库的个人基本信息进行修复补全;具体步骤包括:

通过二代身份证读卡器读取二代身份证信息,所述二代身份证信息,包括个人身份证号和个人基本信息;利用获取的二代身份证信息,对生存认证信息数据库的个人基本信息进行修复补全。

作为一个或多个实施例,所述对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;具体步骤包括:

根据二代身份证信息从税务局服务器中获取职业信息和个人经济信息;利用获取的职业信息和个人经济信息,对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证。

作为一个或多个实施例,所述对生存认证信息数据库中的人脸信息进行真实性验证;具体步骤包括:

根据二代身份证信息从公安局服务器中获取人脸信息;利用获取的人脸信息对生存认证信息数据库中的人脸信息进行真实性验证。

作为一个或多个实施例,所述对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;具体步骤包括:

根据二代身份证信息从云服务器中获取患病历史信息和近期健康状况信息;利用获取的患病历史信息和近期健康状况信息,对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;所述云服务器定期从指定的各医院服务器中获取每个身份证号对应的患病历史信息和近期健康状况信息。

作为一个或多个实施例,如图1所示,所述利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证;具体步骤包括:训练阶段和应用阶段,其中训练阶段包括:步骤S1至步骤S4;应用阶段包括步骤S5;

S1:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;

S2:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;

S3:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;

如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;

如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;

如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;

S4:对于嫌疑样本集S,通过人工进行逐一认证。

S5:根据分类器M对数据集T中的样本进行分类。

作为一个或多个实施例,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;

样本选择函数:

其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′。

根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。

作为一个或多个实施例,从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,使用卡方检验筛选出卡方检验P值小于等于设定阈值的特征;对于卡方检验筛选出的特征使用斯皮尔曼相关系数进行分析,筛选出斯皮尔曼相关系数的值大于设定阈值的特征作为与生存认证关联度高的生存认证特征。

把退休人员的生存认证问题看做2分类问题。我们应用主动学习模型,根据样本选择函数选择嫌疑样本,并通过人工验证判断其真实的生存状态(即,是生存还是死亡),最终将真实生存状态为“死亡”的样本的标签修正为“死亡”,从而实现对死亡样本集的有效扩展。

作为一个或多个实施例,S1的具体案例包括:

基于某地级市的社保系统获取就医历史数据为应用实例,提取特征并构造了数据集。我们构造的特征集包含25个特征,如图1。该特征集的特征分为5种,分别刻画退休人员的基本信息、职业信息、经济状况、历史患病信息和近期(在本实施例中,为最近3个月)健康状况。从时间线的角度考虑,我们不仅描述了退休人员历史上最严重一次患病(特征名后面由字母“H”标记,例如,医院级别H),而且描述了最近一次患病(特征名后面由字母“L”标记,例如,医院级别L)。由于我们的医疗保险数据中包含的疾病ID多达数万,首先,我们根据ICD-10标准将所有疾病分为21个大类,进而又将所有疾病分为251个小类。

所构造特征包含连续型、有序分类和无序分类3类。为了度量每个特征与目标之间的相关性,首先,我们应用卡方检验对特征进行了分析。一般认为,如果卡方检验的P值小于或等于0.05,则认为该特征与目标显著相关。卡方检验的结果表明,我们所构造的25个特征均与目标显著相关,如表1所示。

表1.特征的卡方检验结果

为了分析每个特征的重要性,我们进一步使用斯皮尔曼相关系数分析连续型/有序型特征与目标之间的相关性。注意,由于表示性别的特征和3个职业相关的特征属于无序型特征,因此这4个特征未使用斯皮尔曼相关系数进行分析。图2中,图底部的刻度值即为斯皮尔曼相关系数值。斯皮尔曼相关系数的值越大,说明该特征越重要。

在本实施例中,分类目标的语义为“这个人是否会死亡”。由黑色纯色填充的矩形条表示该特征的值与目标成正相关,由斜线图案填充的矩形条表示该特征的值与目标成负相关。例如,对于特征“年龄”,其对应的黑色矩形条代表的语义为“人越年长,死亡概率越高”。对于特征“职工”,其斜线矩形条代表的语义为“职工类型的退休人员比居民类型的退休人员死亡概率低”。

作为一个或多个实施例,S2的具体案例包括:

训练集T′包含T中的全部死亡样本,并按照生存样本:死亡样本=2:1的原则对T中的生存样本进行欠采样。

作为一个或多个实施例,使用训练集T′训练分类器M,得到训练好的分类器M的具体案例包括:

在生存认证模型中,分类器M的任务是根据选好的特征,有效地对数据集进行分类。因此,分类器M与本公开的生存认证模型并不是紧密耦合的。我们可以在生存认证模型中应用不同的分类器。例如,逻辑回归、贝叶斯分类器、神经网络和随机森林等。除了选择单一的分类器,还可以使用委员会(QBC)机制。该机制由“委员会”给出分类结果,即,多个分类器各自对同一个样本给出分类结果,然后像“委员会”成员一样对该样本的类别进行投票。可以使用不同的投票机制。例如,一种方案是,“委员会”各个成员给出的结果拥有相同的权重;另一种方案是,“委员会”各个成员的权重与该成员以往的分类准确率相关。

作为一个或多个实施例,S4的具体案例包括:

样本选择函数F(·)依据样本的“不确定性”和“多样性”来选择样本。样本的“不确定性”,是指分类器M对某个样本分为某个类别的“信心”,具体表现形式为M将该样本分类为某个类别的概率。样本的“多样性”是指该样本与某个指定的样本集合中的样本相比是否具有差异性,从而避免这个样本集里的样本过于相似。若样本集里的样本过于相似,将导致分类器无法学习到足够的分类信息。

要衡量样本的“不确定性”,一种方法是最小信心(Least Confidence,LC)方法。另一种方法是边缘抽样(Margin approach)方法,其选出的样本是该样本最可能的两个类的概率之差最小的样本。由于生存认证属于2分类问题,边缘抽样方法与LC方法具有相同的效果,因此,本实施例中,用LC方法衡量样本的“不确定性”。分类器M将样本分为该类的概率越小,表示分类器对该样本属于该类拥有越小的信心。如下面公式所示:

其中,x表示某个样本,y(x)表示该样本的标签,表示分类器的分类结果。表示根据分类器M将样本x分类为y的概率,代表依据LC方法选出的样本。

然而在生存认证问题中,工作人员最需要验证的样本,并不是使分类器信心最小的样本。人们关心的样本是分类器强烈认为属于死亡但现有标签为“默认的生存”的样本,即x∈S的样本。本实施例中,我们把这种描述样本“不确定性”的方法称为“最大嫌疑”方法(记为MS)。因此,对以上公式进行调整以适应本公开的场景:

将样本的“多样性”纳入考虑可以使样本选择函数选出的样本更具代表性,从而使分类器学习到更多信息。样本“多样性”的度量通常转化为样本间“相似性”的度量。典型的“相似性”度量指标包括“余弦相似度”、“高斯相似度”等。为了减少样本“相似性”的计算量,一种经典的方法是首先计算候选样本集的“中心点”进而以候选样本x与的相似性近似代表样本x与最终选出的样本集合S′中其他样本的相似性。

最终,我们得到综合考虑样本“不确定性”和样本“多样性”的样本选择函数:

其中,λ是调整式中两项权重的参数,本实施例中,设λ=0.5。

本实施例所述的基于主动学习的生存认证方法在使用时分2个阶段:

(1)训练阶段。根据训练集T获得分类器M。

2016年有8109人死亡。假设这8109人中有3178人(约40%)主动前来备案死亡信息,即剩余的8109-3178=4931人未主动通知社保机构,其标签是“默认的生存”。现在,我们可以基于真实的数据模拟死亡样本的扩充过程。如前所述,有多种样本选择函数可供我们使用。本实施例考察了4种样本选择函数F(·)。如下表所示:

表2.样本选择函数F(·)

在综合考虑样本“不确定性”和样本“多样性”的策略中,权重λ=0.5。应用每一种样本选择函数的完整训练过程都进行了5次迭代。每次迭代构造的S′集合包含2000个被选中的样本(S集合大于2000)。

以应用QBC分类器为例,图4(a)和图4(b)展示了在不同样本选择函数下,对“伪生存”样本的发现情况。图4(a)展示了4中样本选择函数下,经每次迭代后死亡样本的累计数量(即,死亡样本集的大小)。从图4(a)中我们可以看到,F(MS&Cos)具有最好的效果。F(MS&Gau)与F(MS)的差别不大,但都优于F(Random)。总体来讲,应用了“不确定性”和“多样性”原则的样本选择函数略优于只应用“不确定性”的样本选择函数;2种策略均优于随机选择策略。

图4(b)比较了不同分类器对生存认证模型训练阶段的影响。由图可知,在样本选择函数确定的情况下(该实验中样本选择函数为F(GS&Cos)),各种分类器对样本选择过程的影响并不大。其中,应用QBC方法比单一分类器略有优势。这是因为在整个训练过程中,每轮迭代(包括对分类器最初一次的训练)所使用的样本集都只包含较少的干扰数据。“委员会”的每个投票人都能给出“理性”的投票,从而保证QBC方法的有效性。此外,我们发现随机森林分类器和逻辑回归分类器略优于其他分类器。

图4(a)和图4(b)的实验结果表明,在生存认证训练阶段,样本选择函数的作用略大于分类器的作用。综合考虑到样本选择“不确定性”和“多样性”的样本选择函数会提高样本选择的效率。同时,QBC机制也会对提高样本选择效率提高进一步的帮助。

(2)测试或应用阶段。根据分类器M对测试集T中的样本进行分类。

图5展示了应用F(GS&Cos)样本选择函数和QBC分类器的生存认证模型的分类效果。我们以2017年前三个月的数据作为测试集。实验结果证明,生存认证模型在生存和死亡分类任务中的总体准确率在80%以上。因此,该模型可以有效减少社保机构工作人员的关注范围,并帮助工作人员识别出大部分的死亡人员。与此同时,我们观察到,生存认证模型会受到月份的影响。

实施例二,本实施例提供了基于数据修复和主动学习验证的生存认证系统;

基于数据修复和主动学习验证的生存认证系统,包括:

读取模块,其被配置为读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;

识别模块,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;

数据补全模块,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;

生存认证模块,其被配置为:利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

作为一个或多个实施例,如图3所示,所述生存认证模块,包括:

训练单元:

特征提取子单元:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;

不均衡数据处理子单元:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;

分类器训练子单元:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;

如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;

如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;

如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;

人工验证子单元:对于嫌疑样本集S,通过人工进行逐一认证,并获得分类器M;

应用单元:

根据分类器M对数据集T中的样本进行分类。

作为一个或多个实施例,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;

样本选择函数:

其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′。

根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。

实施例三,本实施例还提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述实施例一所述方法的步骤。

实施例四,本实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述实施例一所述方法的步骤。

实施例五,本实施例提供了基于数据修复和主动学习验证的生存认证系统;

基于数据修复和主动学习验证的生存认证系统,包括:

医保卡读卡器,其被配置为:读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;

人脸识别器,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;

处理器,其被配置为对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;

利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

作为一个或多个实施例,所述利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证;具体步骤包括:

训练阶段:

S1:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;

S2:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;

S3:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;

如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;

如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;

如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;

S4:对于嫌疑样本集S,通过人工进行逐一认证,并获得分类器M;

应用阶段:

根据分类器M对数据集T中的样本进行分类。

作为一个或多个实施例,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;

样本选择函数:

其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′。

根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号