法律状态公告日
法律状态信息
法律状态
2017-10-27
授权
授权
2015-02-04
实质审查的生效 IPC(主分类):G06K9/62 申请日:20140923
实质审查的生效
2015-01-07
公开
公开
技术领域
本发明涉及一种针对离网用户分析的面向后台多源数据的特征提取和特征选择方法。
背景技术
对于每户每日上网时间序列,目前没有很好的方法来表征用户上网时间的变化趋势特征。Lasso方法是一种稀疏特征选择的方法,当Lasso直接应用于具有组结构的模型中时,其倾向于选择出单个特征,破坏了特征的组结构。对于LR分类器来说,特征的微小变化也会对最终的预测结果造成很大的影响。
Group Lasso方法引入对罚函数的扩展,对组特征的选择进行研究。Filter方法是一种和学习机无关的特征选择方法,通过某种度量选出特征子集。一种常用的度量是Pearson相关系数,在该方法中,选取相关系数最大的n个特征作为特征子集。
发明内容
本发明所要解决的技术问题在于,针对离网用户分析的问题,面向后台的多源数据,提供一种可行性高的特征提取和特征选择方法。
为解决上述技术问题,本发明提供一种面向后台多源数据的特征提取和特征选择方法,包括如下步骤:
(1)在多个月份的后台数据上划分训练集和测试集;
(2)训练集上针对不同的源数据提取相应分组特征;
(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;
步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法。
步骤(3)中的Group Lasso方法的λ值,使用5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9这七组值并且使用Logistic Regression方法进行交叉验证。
所述的基于多尺度直方图统计的上网时间趋势特征提取方法,包括如下步骤:
(1)该时间序列并非传统意义上典型的时间序列,简单的距离度量和信号处理的方法并不适用。对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;
(2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;
(3)对这些分组进行统计,得出直方图特征;
(4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
所述的特征组选择方法,包括如下步骤:
(1)使用Group Lasso方法,对λ值进行调整,分别取(5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9)7组值,在训练集上分别对离网和停机用户标签进行学习;
Group Lasso方法可以形式化为式子(1):
>
其中
(3)针对不同的λ值所对应的x,如果某个组所对应的x都为0,则不选择该组,如有有不为0的,则选择该组;
(3)在训练集上,根据针对不同的λ值选出的用户组,用LR的学习方法,该结果和C45决策树结果类似,采用了十折交叉验证,选出相应的组特征。
本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。
附图说明
图1是本发明的离网用户分析框架图。
图2是本发明的训练集和测试集划分示意图。
图3是本发明的用户上网时间序列示意图。
图4是本发明的上网时间差值的分类示意图。
图5是本发明的上网时间变化趋势直方图的示意图。
具体实施方式
如图1所示,对于后台多源数据,针对不同的源数据采用特定的特征提取方法,对于提取的多源数据特征,采用Group Lasso方法进行组特征选择,进一步在选择出的组特征上建立机器学习模型预测离网用户。
如图2所示,为针对2013年5月到2014年2月的数据进行训练集和测试集的划分。
如图3所示,为50个用户在5月份每日上网时间折线图。用户上下线的数据量很大,包含的信息很多。
如图4、图5所示,本发明所提出的基于多尺度直方图统计的上网时间趋势特征抽取方法,包括如下步骤:
(1)该时间序列并非传统意义上典型的时间序列,简单的距离度量和信号处理的方法并不适用。对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;
(2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;
(3)对这些分组进行统计,得出直方图特征;
(4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
本发明的组特征的选择的方法包括如下内容:
后台多源数据项的说明见表1,针对这些多源的后台数据,提取的相应特征组编号见表2,可以发现这些特征具有组结构。即对于同一组特征,它们在语义上更加相似并且在数值上相关,在训练过程中,同一组的特征表征能力也相似。
表1 多源数据项概念定义
表2 特征组的描述
Group Lasso方法可以形式化为式子(1):
>
其中
(1)使用Group Lasso方法,对λ值进行调整,分别取(5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9)7组值,在训练集上分别对离网和停机用户标签进行学习。
对停机用户λ取值为5*10-5的各组的x进行观察,如表3,可以发现组内参数值的差异很小,说明同组特征的表征能力是相似的。表中加粗了参数中的部分绝对值相似的值。每组参数可能存在超过一组的相似参数值,以第0组为例,其中部分参数集中在0.0020左右,而另一部分集中在0.0005左右。对于停机用户,在不同的参数中得到的实验结果见表4、5。由于采用的Group Lasso方法对组内特征没有稀疏约束,所以每个组内的x多数不为0。可以发现,其中λ值越大,稀疏约束的权值越大,得到的x越稀疏。
(2)针对不同的λ值所对应的x,如果某个组所对应的x都为0,则不选择该组,如有有不为0的,则选择该组。
(3)在训练集上,根据针对不同的λ值选出的用户组,用LR的学习方法,该结果和C45决策树结果类似,采用了十折交叉验证,选出相应的组特征。
表3 各组x值
表4 结果对比1
表5 结果对比2
对于基于多尺度直方图统计的上网时间趋势特征抽取方法,该高层特征表征了用户上网时间的变化趋势,与用户离网情况的相关系数的均值是0.312,而用户原始的每天的上网时间和用户离网情况的相关系数的均值为2.62*10-3,而用户每日上网时间差值和用户离网情况的相关系数为1.03*10-2,可见直方图特征具有与用户离网情况更大的相关性。而对于一些传统的时间序列特征提取方法,我们在特征空间中用KNN的方法进行对比,K值取为3,对时间序列的欧氏距离的度量,预测准确率为0.0450,小波变换方法为0.0447,而本发明的直方图方法为0.1026,可见在直方图特征空间中,对于离网情况,样本用户可以获得更好的可分性。综上,本发明的基于多尺度直方图统计的上网时间趋势特征抽取方法是正确和有效的。
对于特征选择,对比基于皮尔森相关系数的Filter方法,该方法采用0.1为阈值,在离网和停机问题上分别筛选了69和74维特征。对于离网用户分析,由于样本具有不平衡性:离网用户只占1/40,所以将非离网用户随机分成n组,使其数量和离网用户数量相当,然后和离网用户合并求得相关系数,最终对相关系数进行加权平均。在C45算法离网用户预测中,Group Lasso方法预测的Precision值比其他方法高40个百分点,在停机用户预测中,平均高出10个百分点。LR方法在Group Lasso上的预测性能也普遍比其他特征要好,见表4。
将Lasso方法和Group Lasso方法的结果进行对比,对于Lasso方法的不同参数值,选取最好的参数结果。Group Lasso特征上的结果比Lasso单独提取的特征的预测性能平均高出10个百分点。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。
机译: 图像特征提取设备,图像特征提取方法,图像特征提取程序,记录介质存储图像特征提取程序,配有图像特征提取设备的图像相似性计算设备,图像相似性计算和方法,图像相似性计算和方法计算程序
机译: 行为特征提取设备,行为特征提取系统,行为特征提取方法和行为特征提取程序
机译: 行为特征提取装置和行为特征提取系统,行为特征提取方法以及行为特征提取程序