技术领域
本发明涉及敏感数据补全技术领域,尤其涉及基于矩阵补全技术的敏感数据补全方法。
背景技术
进入21世纪以来,随着5G技术和互联网技术的不断发展,数据的安全问题越来越严重,因此对敏感数据进行脱敏越来越受到众多单位的重视。而当数据脱敏之后,相关单位不能获得原始数据,对数据分析和依靠数据决策将产生重大影响,甚至会导致决策失误。
数据脱敏又被称为数据的去隐私化、数据变形,是指在保留数据原始特征的条件下,按照相关需求制定脱敏策略和任务,对敏感数据进行变换、修改,这样可以在较大程度上解决敏感数据在不同环境中使用的问题。因此,当数据进行脱敏之后,如何对敏感数据进行恢复成为了一个重点,实现的难点在于如何同时保障数据的完整及其可用性,其关键就是脱敏数据恢复的选择,但是现阶段而言更多的是一种基于经验而进行的敏感数据补全。
发明内容
本发明的目的是提供基于矩阵补全技术的敏感数据补全方法,对缺失的敏感数据进行补全操作,提高数据的完整性和准确性,并且提高了文本敏感数据补全的效率。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了基于矩阵补全技术的敏感数据补全方法,包括:
获得敏感数据缺失的文本数据;
对缺失敏感数据的数据提取文本特征,假设提取的文本特征中存在矩阵;
若矩阵是完整的,即可对矩阵进行分解;
若矩阵中含有敏感数据的缺失值,随机初始化分解的矩阵,与含有缺失值的矩阵计算损失误差,当损失误差最小时,采用近似的梯度下降法来求解,以对矩阵中缺失的敏感数据进行补全。
进一步地,若矩阵是完整的,即可对矩阵进行分解的方法包括:
如果存在一个矩阵X不含缺失的敏感数据,将矩阵X分解为两个矩阵U(大小m×k)、V(大小m×k),其中k<min{m,n},则
X=UV
其中,m为矩阵U的行数;k为矩阵U的列数;n为矩阵V的行数;k为矩阵V的列数;V
进一步地,若矩阵中含有敏感数据的缺失值,采用一种近似的梯度下降法对矩阵进行分解,以对矩阵中缺失的敏感数据进行补全的方法包括:
令
损失函数J为
其中,i,j分别表示矩阵X的行和列;x
随机初始化矩阵U,V,损失函数J可以得到一个误差,基于该误差计算梯度,通过以下梯度下降的公式更新矩阵U,V:
则它的梯度为:
其梯度下降更新公式为:
其中,α为一个超参数,可以通过实验来确认其较优值;x
由上式可知,只要计算出u
进一步地,加入正则项,此时损失函数J如下所示:
则上述梯度为:
根据上式,则矩阵U和V梯度下降更新公式为:
其中,α,β为超参数,e
计算出u
进一步地,加入偏置项,偏置项分为三种:
第一种是矩阵X整体的的偏置项,记为b,b=mean(X),可以用矩阵X中存在元素的均值来赋值;
第二种是样本的偏置项,记为b_u
第三种是特征的偏置项,记为b_v
其中,
则损失函数J中为:
同时令
对其求梯度,则梯度为:
梯度下降更新公式将更改为如下形式:
u
v
b_u
b_v
其中,α,β为超参数,e
计算出u
进一步地,采用TF-IDF方法对缺失敏感数据的数据提取文本特征。
本发明的有益效果如下:
通过矩阵补全技术,可以对矩阵中缺失的敏感数据进行有效补全,并提高了补全数据的有效性和真实性。并且实时性高,提高了敏感数据补全的准确性。
具体实施方式
本发明为解决敏感数据脱敏后的数据补全问题,提出了一种基于矩阵补全技术的敏感数据补全方法技术。该方法同时集成了矩阵分解思想、矩阵补全等功能,我们在缺失的敏感数据补全中的关键环节采用该方法,可辅助人工实现敏感数据的补全。通过采用以上方法,将敏感数据缺失的部分进行缺失补全,相较于传统数据的补全方法,本发明提供了新的敏感数据缺失补全的新思路,为敏感数据补全方法改进提供了新方法,大大提高了敏感数据补全的准确性、可用性和完整性,为敏感数据的缺失补全提供了新思路。
本发明对缺失的敏感数据进行补全操作,提高数据的完整性和准确性,并且提高了文本敏感数据补全的效率,提出了一种基于矩阵补全技术的敏感数据补全技术方法。
矩阵分解我们可以定义如下:如果存在一个矩阵X不含缺失的敏感数据,则可以将矩阵分解将矩阵X分解为两个矩阵U(大小m×k)、V(大小m×k),其中k<min{m,n},则有:
X=UV
其中,m为矩阵U的行数;k为矩阵U的列数;n为矩阵V的行数;k为矩阵V的列数;V
即在样本和特征之间存在着k个关系,每个关系的具体含义不得而知,但如果k≥min{m,n},那么意味着每个样本和特征之间可以构建一个的关系,而其它的样本或者特征可以和该关系基本无关,体现在矩阵U(或V)中就是某一列仅有一个元素不为0,这是不合理的。所以在上述方程中必有k<min{m,n}。当k越大,计算量也会越大。
更进一步,本发明其中基于矩阵分解思想的敏感数据补全方法详细过程可描述如下:
第一步:
获得敏感数据缺失的文本数据;
第二步:
我们利用TF-IDF方法对缺失敏感数据的数据提取文本特征F;
第三步:
假设我们提取的文本特征F中存在一个矩阵X,如果矩阵X是完整的,那么矩阵分解X=UV
这个时候我们令
我们的目标的是找到矩阵X的近似矩阵
损失函数J为
其中,i,j分别表示矩阵X的行和列,因为需要求解最小值,因此要求x
第四步:
我们随机初始化矩阵U,V,损失函数J就可以得到一个误差,基于该误差计算梯度,我们需要更新U,V,通过以下梯度下降的公式来实现。
则它的梯度为:
因此,其梯度下降更新公式为:
为了进一步对结果进行优化,我们进一步考虑以下步骤,加入正则项和偏置。
第五步:
加入正则项,保证矩阵U,V中元素不要太大,此时损失函数J如下所示:
则上述梯度为:
那么此时梯度下降更新公式为:
其中,α,β为超参数,e
第六步:
我们对它加入偏置项:偏置可以理解为每个样本都有其特性,每个特征都有其特点,故可以加入偏置项来控制。偏置项分为三种,第一种是矩阵X整体的的偏置项,记为b,那么b=mean(X),即可以用矩阵X中存在元素的均值来赋值;第二种是样本的偏置项,记为b_u
其中,
则损失函数J为:
我们令
则梯度为:
此时梯度下降更新公式为:
其中,α,β为超参数,e
下面结合实验对本发明作进一步详细说明。
本发明实现了一种基于矩阵补全方法的敏感数据补全技术,主要通过矩阵分解的方法来进行缺失数据的补全。
我们选用的实验数据在本节中,分别用带随机缺失元素的人工数据,本文又引入了相关干扰项。使用缺失数据的恢复精度为评价指标性能。
人工数据M按如下公式给出:
其中,公式中的
给出,参数r
由于在实际应用中,我们很难准确的估计我们补全矩阵的秩,进而算法对参数r的鲁棒性相当重要。因此,首先测试子矩阵的秩r对矩阵补全方法的影响。令σ=0.5并且让参数r从10以步长为10单调递增到300。然后用矩阵补全的方法恢复秩为r=30的数据矩阵。
通过实验,我们发现方法在r=30的时候能够取得最优的恢复结果。这说明,能否准确估计待恢复矩阵的秩对算法的恢复精度是至关重要的;
其次,我们测试噪声水平σ对实验结果的影响,然后令噪声水平σ从0.1以步长为0.1单调递增到0.9分别构造若干人工数据,最后用矩阵补全的方法对缺失数据进行补全。通过实验表明,噪声水平越高,其重建误差比越大,说明缺失数据越多,敏感数据补全难度越高。这一实验结果与我们所提的方法的理论分析是相一致的。
最后,我们对矩阵中随机抽取50%元素作为缺失元素,并构建8个矩阵含有随机缺失元素。其恢复精度如表所示。
表1矩阵补全方法在8个矩阵带50%随机缺失元素的图像上的恢复精度
从表1中可以看出,我们的矩阵方法在8个缺失矩阵中效果还不错,说明了我们提出的方法能够对矩阵中缺失的敏感数据进行补全,并且提高了补全后缺失数据的精度
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
机译: 图像补全通信方法,图像补全设备,图像补全通信服务方法及其装置
机译: 数据补全服务器,数据补全系统及数据补全方法
机译: 数据库补全系统,数据库补全方法,数据补全服务器及程序