首页> 中国专利> 异常低收入人口监测方法、装置、设备及介质

异常低收入人口监测方法、装置、设备及介质

摘要

本发明公开了异常低收入人口监测方法、装置、设备及介质,其公开的方法包括:S1、获取低收入人群数据源;S2、数据预处理及特征工程:数据预处理后进行特征工程,以筛选主要特征;S3、无监督算法预测:分别采用kemeans算法、孤立森林算法及支持向量机算法对低收入人群异常值进行预测;S4、无监督算法评价及选择:评价S3中各算法预测的准确率,选择最优的低收入人群异常值检测算法。本发明充分考虑低收入数据集数据量与特征量的份额,优选三种对数据量与特征量的份额比例m/n高低的适用性不同的无监督学习算法进行预测,以根据实际的预测效果选择最合适的无监督学习算法,提高准确率。

著录项

  • 公开/公告号CN116541735A

    专利类型发明专利

  • 公开/公告日2023-08-04

    原文格式PDF

  • 申请/专利权人 厦门市民数据服务股份有限公司;

    申请/专利号CN202310243190.9

  • 发明设计人 上官慧柏;林晨;李志航;

    申请日2023-03-14

  • 分类号G06F18/23213(2023.01);G06F18/2411(2023.01);G06F17/16(2006.01);G06F17/18(2006.01);

  • 代理机构厦门纳益维知专利代理事务所(普通合伙) 35273;

  • 代理人黄华

  • 地址 361000 福建省厦门市软件园三期诚毅北大街62号109单元1418号

  • 入库时间 2024-01-17 01:23:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-22

    实质审查的生效 IPC(主分类):G06F18/23213 专利申请号:2023102431909 申请日:20230314

    实质审查的生效

说明书

技术领域

本发明涉及大数据技术领域,具体涉及一种异常低收入人口监测方法、装置、设备及介质。

背景技术

低收入人口(低收入家庭、临时救助对象、救助申请未批准对象、不符合条件已退出救助的对象、支出型困难家庭)数据量大,无法手动标记异常值,需要动态监测异常值。

因此,现有技术拟基于大数据与人工智能动态监测异常值。

如,公开号为CN109145113A,名称为《一种基于机器学习的学生贫困程度预测方法》的发明申请,其公开了一种基于机器学习的学生贫困程度预测方法,通过获取学生相关渠道的数据,将数据进行解析并计算出学生贫困的各种特征值,对缺失数值进行填补,并对数据进行标准化,映射到固定区间,后按照快速聚类算法,采用欧氏距离将数据聚集为多类,并计算每类对评价贫困程度的重要程度。对分类后每组数据组成的矩阵按照相关性分块,最终根据分块后的矩阵计算贫困综合得分,所述综合得分可以在贫困生资助时的资助金额决策时用以参考,其中分数越高说明越贫困,越需要资助。

如,公开号为CN109992592A,名称为《一种基于校园消费卡流水数据的高校贫困生识别方法》的发明申请,其公开了如下方法:步骤一、获取学生校园消费卡流水数据,建立SQL Server数据库;步骤二、利用核主成分分析方法选取多个分类特征;步骤三、基于步骤二选取的分类特征,建立RandomForest分类器,并利用训练数据进行训练;步骤四、基于步骤三获得的RandomForest分类器,建立用于高校贫困生识别的预测模型。其利用核主成分分析方法实现了关键特征提取,并建立了基RandomForest的分类预测模型,提高了高校贫困生识别的精准度。

但现有技术仍然存在缺陷,主要为:未考虑低收入数据集数据量与特征量的份额。机器学习中关于数据的表达一般是n*m的矩阵,n代表样本的数量,一行(row)数据代表一个独立数据。而m代表特征变量(attribute/feature/variable)的数量,一列(column)数据代表某个特征在所有样本上的数值。准确的评价数据样本,应该是数据量与特征量的份额是m/n,也就是特征量除以数据量。例如:一个100*2的数据,数据量大小为100,特征量为2。用线性函数来拟合,相当于用100个点来拟合到二次函数上,这个数据量一般来说是比较富余的。但如果是100*200的数据,仍是100个数据点,每个数据的特征数是200,那么很显然这样的数据是不行的,过拟合的危险极高。通过PCA降维后的数据,数据量与特征量的份额比例m/n是一个相对值,这取决于模型输入的实际低收入人口数据集的数据量,现有技术未能考虑实际低收入人口数据集的数据量的差异性,选用单一的无监督算法,不能达到理想的检测效果。

发明内容

本发明的目的之一在于提供一种充分考虑实际低收入人口数据集的数据量的差异性,采用三种对数据量与特征量的份额比例m/n高低的适用性不同的无监督算法模型进行异常值的预测,再对预测结果进行评价,结合实际情况选择相对最优的预测算法。

为实现上述目的,本发明采用以下技术方案:

异常低收入人口监测方法,包括:

S1、获取低收入人群数据源;

S2、数据预处理及特征工程:数据预处理后进行特征工程,以筛选主要特征;

S3、无监督算法预测:分别采用kemeans算法、孤立森林算法及支持向量机算法对低收入人群异常值进行预测;

S4、无监督算法评价及选择:评价S3中各算法预测的准确率,选择最优的低收入人群异常值检测算法。

进一步地,S1中,低收入人群数据源的获取渠道包括民政画像及不同公共服务渠道的用户行为数据,所述民政画像包括用户基本信息、用户年龄分层、教育程度、家庭经济状况、个人劳动能力、工作性质、信用信息中的一种或多种,所述用户行为数据包括社会救助、社会福利、养老、志愿服务、优待抚恤、复退安置、社会事务中的一种或多种。

进一步地,S21、数据预处理,对缺失值进行补全,极端值进行剔除;S22、根据标准化后的数据集计算相关系数矩阵R;S23、计算相关系数矩阵R的特征值及对应特征向量;S24、计算每个成分的贡献率和累计贡献率;S25、选取满足以下所有条件的主成分:主成分的贡献率达到85%以上;主成分的方差大于1;为碎石图中变化最大之处以上的主成分;S26、PCA算法对数据进行降维。

进一步地,S3中kemeans算法包括:通过elbow曲线确定最佳聚类数量;计算每个数据点与其最近的聚类中心之间的距离,将最大的距离标识为异常数据;设定异常值的比例为1%;设定一个判定异常值的阈值;通过阈值来判定数据是否为异常值。

进一步地,S3中孤立森林算法包括:设定异常值的比例为1%;使用fit方法对孤立森林模型进行训练;使用predict方法去发现数据中的异常值,返回1表示正常值,返回-1表示异常值。

进一步地,S3中支持向量机算法包括:设置参数nu=1%;指定要在算法中使用的核类型rbf;设置RBF内核类型的参数gamma=0.01;predict对数据进行分类,返回1表示正常值,返回-1表示异常值。

进一步地,S4包括:对异常值聚类预测结果人工标注异常值标签;选用衡量方法ACC,衡量指标选用NMI及Rand index以衡量异常值聚类预测结果与异常值标签的相似度,判断各算法的准确性,以相似度最高的算法作为最优的低收入人群异常值检测算法。

本发明的又一目的在于提供一种异常低收入人口监测装置,以实现前述方法,其包括:数据获取模块,用于获取低收入人群数据源;数据预处理模块,用于对数据获取模块所获取的数据进行预处理;特征工程模块,用于从数据预处理模块预处理后的数据中筛选主要特征;kemeans预测模型、孤立森林模型及支持向量机模型,分别用于低收入人群异常值预测;模型评价模块,用于评价各模型的准确性,并选择最优的模型用于数据的预测输出。

本发明的再一目的在于提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如前所述的异常低收入人口监测方法。

本发明的再一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令被执行时,实现如前所述的异常低收入人口监测方法。

采用上述技术方案后,本发明与背景技术相比,具有如下优点:

本发明充分考虑低收入数据集数据量与特征量的份额,优选三种对数据量与特征量的份额比例m/n高低的适用性不同的无监督学习算法进行预测,以根据实际的预测效果选择最合适的无监督学习算法,提高准确率。

附图说明

图1为本发明的流程示意图;

图2为本发明的数据预处理与特征工程示意图;

图3为本发明不同无监督学习算法的预测示意图;

图4为本发明装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。另外,需要说明的是:

实施例

请参考图1所示,本发明公开了一种异常低收入人口监测方法,其包括:

S1、获取低收入人群数据源;

S2、数据预处理及特征工程:对缺失值进行补全,极端值进行剔除。通过协方差矩阵的特征值和特征向量,计算出每个主成分(特征)的解释方差,以及累计解释方差,筛选低收入人群累计解释方差组合最大的N个主成分,根据主成分的筛选个数N,PCA算法对数据进行降维;

S3、无监督算法预测:分别采用kemeans算法、孤立森林算法及支持向量机算法对低收入人群异常值进行预测;

S4、无监督算法评价及选择:评价S3中各算法预测的准确率,选择最优的低收入人群异常值检测算法。

其中,S1中,低收入人群数据源的获取渠道包括民政画像及不同公共服务渠道的用户行为数据。具体地,民政画像可包括用户基本信息、用户年龄分层、教育程度、家庭经济状况、个人劳动能力、工作性质、信用信息中的一种或多种;用户行为数据可包括社会救助、社会福利、养老、志愿服务、优待抚恤、复退安置、社会事务中的一种或多种。

请参考图2所示,S2中数据预处理及特征工程具体包括:

S21、数据预处理,对缺失值进行补全,对极端值进行剔除;

S22、根据标准化后的数据集计算相关系数矩阵R:

首先,根据标准化后的数据集计算协方差矩阵Z;

对于一组低收入人群样本资料X,其中有m个观测值x

计算每一列的平均值,则有,

计算每一列的方差,则有,

对数据进行标准化处理,则有,

得到矩阵Z,

其次,计算相关系数,则有:

得到相关系数矩阵R:

r

S23、计算相关系数矩阵R的特征值及对应特征向量;

协方差矩阵是实对称阵,知其特征值为非负,设其特征值λ

若原先X的各个列代表的指标变量,合成向量,记为V

S24、计算每个成分的贡献率和累计贡献率;

每个成分的贡献率为,

累计贡献率为,

S25、选取主成分。主成分数量的选取则是根据累积贡献率确定,本实施例中,选取满足以下所有条件的主成分:主成分的贡献率达到85%以上;主成分的方差大于1;为碎石图中变化最大之处以上的主成分;此处方法的叠加是多次使用PCA降维方法的经验值筛选,属于主观因素,细化了筛选指标,方差和碎石能更保证新变量能包括原始变量的绝大多数信息。

S26、PCA算法对数据进行降维:根据主成分的筛选个数N,对数据进行降维,将PCA算法的参数n_components设置为N。

综上,在现有技术中,数据源往往存在如下问题:首先,特征选择不准确,低收入人群的特征繁多,仅凭借人为经验判断特征的相关性,进行特征选择,所选特征对低收入人群的描述不准确;其次,低收入人群的数据量大,再结合特征维度后,计算时间复杂度高。

因此,本申请清洗数据后通过特征工程筛选低收入人口的主要特征,以准确选择特征;通过协方差矩阵的特征值计算出每个主成分(特征)的贡献度(解释方差),以及累计贡献度(累计解释方差),筛选累计解释方差组合最大的N个主成分;通过PCA算法对数据进行降维,降低了计算的时间复杂度,计算效率高。

请参考图3所示,本实施例中,通过kemeans算法、孤立森林算法与支持向量机算法分别进行异常值的预测。

S3中kemeans算法包括:

通过elbow曲线确定最佳聚类数量:为了找出合理的距离中心数,尝试尽可能多的聚类中心数,画出Elbow曲线,通过观察Elbow曲线,当聚类中心数量增加到Elbow曲线趋于收敛时,可以确定聚类中心数为K。

计算每个数据点与其最近的聚类中心之间的距离,将最大的距离标识为异常数据;

设定异常值的比例outliers_fraction为1%,这样设置是因为在标准正太分布的情况下(N(0,1))我们一般认定3个标准差以外的数据为异常值,3个标准差以内的数据包含了数据集中99%以上的数据,所以剩下的1%的数据可以视为异常值。根据异常值比例outliers_fraction,计算异常值的数量number_of_outliers。

设定一个判定异常值的阈值threshold;通过阈值threshold来判定数据是否为异常值。

S3中,孤立森林算法包括:

设置一个异常值比例的参数contamination=1%,这样设置是因为在标准正太分布的情况下(N(0,1))我们一般认定3个标准差以外的数据为异常值,3个标准差以内的数据包含了数据集中99%以上的数据,所以剩下的1%的数据可以视为异常值。

使用fit方法对孤立森林模型进行训练;

使用predict方法去发现数据中的异常值,返回1表示正常值,-1表示异常值

S3中,支持向量机(One-Class SVM)的异常检测包括:

设置参数nu=1%,它是训练误差分数的上限和支持向量分数的下限,并且必须在0和1之间。基本代表期望的异常值在数据集中的比例,在标准正太分布的情况下(N(0,1))我们一般认定3个标准差以外的数据为异常值,3个标准差以内的数据包含了数据集中99%以上的数据,所以剩下的1%的数据可以视为异常值;

指定要在算法中使用的核类型rbf,它使SVM能够使用非线性函数将超空间投影到更高维度;

设置RBF内核类型的参数gamma=0.01,通过此参数影响模型的“平滑度”;

predict对数据进行分类,因为我们的模型是单类模型,所以返回+1或-1,-1表示是异常值,1表示是正常值。

如此,本申请通过kemeans算法、孤立森林(Isolation Forest)算法及支持向量机算法对数据量与特征量的份额比例m/n高低的适用性不同,以根据实际数据的差异性,结合实际情况选择相对最优的预测算法。

具体而言,基于聚类的异常检测中的假设是如果我们对数据进行聚类,则正常数据将属于聚类,而异常将不属于任何聚类或属于小聚类;泛化能力强,对于数据特征维度较低的数据集有较好的分类效果,本申请可以理解为对于低收入人口数据集的数据量与特征量份额比例m/n低的,更适合选用kmeans算法。

孤立森林认定异常值的原则是异常值是少数的和不同的数据;相较于K-means等传统算法,孤立森林算法对高维数据有较好的鲁棒性,本申请可以理解为对于低收入人口数据集的数据量与特征量份额比例m/n较高的,更适合选用独立森林算法;

支持向量机(One-Class SVM)认定异常值的原则是将数据密度较高的区域分类为正,将数据密度较低的区域分类为负。iForest不适用于特别高维的数据。由于每次切数据空间都是随机选取一个维度,建完树后仍然有大量的维度信息没有被使用,导致算法可靠性降低.相比于iForest算法,SVM算法适用于更高维空间中的样本数据集。在数据维度很高,或者对相关数据分布没有任何假设的情况下,OneClassSVM可以作为一种很好的outlier detection方法。本申请可以理解为对于低收入人口数据集的数据量与特征量份额比例m/n高的,更适合选用One-Class SVM算法。

S4中,即对各预测算法进行评价,并选择试用的算法,其包括:

对异常值聚类预测结果人工标注异常值标签,应当理解,此处的人工标签只用来衡量算法好坏,而不用来训练模型;

选用衡量方法Clustering Accuracy(ACC),衡量指标选用Normalized MutualInformation(NMI),Rand index,这两个指标是衡量异常值聚类预测结果与实际结果的相似度。例如,对于同一低收入人群数据集X,无监督算法A将异常值聚类为C

请参考图4所示,本发明的又一目的在于提供一种异常低收入人口监测装置,以实现前述方法,其包括数据获取模块、数据预处理模块、特征工程模块、kemeans预测模型、孤立森林模型、支持向量机模型及模型评价模块。

其中,数据获取模块用于获取低收入人群数据源(低收入家庭、临时救助对象、救助申请未批准对象、不符合条件已退出救助的对象、支出型困难家庭等);数据预处理模块用于对数据获取模块所获取的数据进行预处理,如补全缺失值、删除极端值(最大值、最小值);特征工程模块用于从数据预处理模块预处理后的数据中筛选主要特征;kemeans预测模型、孤立森林模型及支持向量机模型,分别用于低收入人群异常值预测;模型评价模块,用于评价各模型的准确性,并选择最优的模型用于数据的预测输出。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

相应地,本发明的再一目的在于提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如前所述的异常低收入人口监测方法。

相应地,本发明的再一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令被执行时,实现如前所述的异常低收入人口监测方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R AM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号