公开/公告号CN105069483A
专利类型发明专利
公开/公告日2015-11-18
原文格式PDF
申请/专利权人 中国地质大学(武汉);
申请/专利号CN201510521056.6
发明设计人 颜雪松;
申请日2015-08-21
分类号G06K9/62;
代理机构北京华沛德权律师事务所;
代理人房德权
地址 430000 湖北省武汉市洪山区鲁磨路388号地质资源环境工业技术研究院
入库时间 2023-12-18 12:16:22
法律状态公告日
法律状态信息
法律状态
2020-08-07
未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20190101 终止日期:20190821 申请日:20150821
专利权的终止
2019-01-01
授权
授权
2015-12-16
实质审查的生效 IPC(主分类):G06K9/62 申请日:20150821
实质审查的生效
2015-11-18
公开
公开
技术领域
本申请涉及多标签分类技术领域,尤其涉及一种对分类数据集进行测试的方法。
背景技术
多标签学习源自于文本分类问题,如每个文件可能会属于几个预定义的主题:卫生和政府。但是现在,该类问题也非常广泛的存在于现实生活的应用中:在视频搜索领域,每个音频剪辑可以划分到不同的情感标签,例如“欢快”和“愉悦”;在基因功能学中,基因可能对应到多个功能标签,例如“身材高大”和“皮肤白皙”;在图像归属领域,一副图像可能同时属于几个场景标签,例如“大树”和“高楼”。凡此种种,多标签分类问题在越来越多的实际应用程序中得到广泛应用,对其进行更深入研究将会给我们的日常生活带来更大的益处。在机器学习和数据挖掘领域,分类成为了一个研究最多的任务。这个任务主要包括根据所给数据集的特点,构造一个分类器,然后利用所构造的分类器对未知类标签的对象实例赋予类标签的过程。
作为一种具有监督和指导功能的学习方法,朴素贝叶斯分类器(NaiveBayesClassifier,NBC)凭借其简单、高效的优点,成为了众多分类学习方法中的佼佼者。朴素贝叶斯(
发明内容
本发明了提供了一种对分类数据集进行测试的方法,以解决现有技术中分类精度不高的技术问题。
为解决上述技术问题,本发明提供了一种对分类数据集进行测试的方法,所述方法包括:
S1,获得所述分类数据集;
S2,判断所述分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式对所述分类数据集进行标准化;
S3,标准化之后,将所述分类数据集分成训练集和测试集;
S4,根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;
S5,利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;
S6,基于所述最佳标签选择策略,对所述测试集进行分类测试。
优选的,所述根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略,具体包括:
获得先验概率:
获得朴素贝叶斯最大化后验概率:
获得标签相似度Sim(ci,cj),Sim(ci,cj)表示类标签ci与类标签cj的相关性;
基于所述标签相似度、所述先验概率、所述后验概率,获得所述多标签选择策略。
优选的,所述获得标签相似度Sim(ci,cj),具体为:
获得
获得>α表示相似因子。
优选的,所述多标签选择策略具体包括:
若Sim(ci,cj)<β,其中,β表示两个不同的类标签的相关程度阈值,所述多标签选择策略如下:
当
当
优选的,所述多标签选择策略具体包括:
若Sim(ci,cj)≥β,所述多标签选择策略如下:
如果>并且>所述测试实例既属于类标签ci又属于类标签cj;
如果>并且>所述测试实例既不属于类标签ci又不属于类标签cj;
如果
如果
优选的,所述第一标签最终选择策略具体包括:
如果>并且>所述测试实例既属于标签ci,也属于标签cj;
如果>并且>所述测试实例属于标签ci,但是不属于标签cj。
优选的,所述第二标签最终选择策略具体包括:
如果>但是>所述测试实例既不属于类标签ci,也不属于类标签cj。
优选的,所述利用文化算法优化所述多标签选择策略,获得最佳标签选择策略,具体包括:
利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价;
对α、β、γ这3个权值进行学习,并对所述训练集进行训练,得到α、β、γ各自的最优权值;
将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。
优选的,所述最佳标签选择策略,具体包括:
若>所述测试实例属于类标签ci,也属于类标签cj;其中,r为0-1之间的数值。
优选的,所述最佳标签选择策略,具体包括:
若>具有如下情况:
若>并且>,那么所述测试实例属于类标签ci,不属于类标签cj;
若>并且>那么所述测试实例不属于类标签ci,属于类标签cj;
若>并且>那么测试实例属于类标签ci,属于类标签cj。
通过本发明的一个或者多个技术方案,本发明具有以下有益效果或者优点:
一种对分类数据集进行测试的方法,在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;标准化之后,将所述分类数据集分成训练集和测试集;根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;基于所述最佳标签选择策略,对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证,可以提高分类的准确度。
附图说明
图1为本发明实施例中一种对分类数据集进行测试的方法的实施过程图;
图2A-图2B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果;
图3A-图3B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果。
具体实施方式
本发明的核心点在于,针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证。
为了使本申请所属技术领域中的技术人员更清楚地理解本申请,下面结合附图,通过具体实施例对本申请技术方案作详细描述。
具体请参看图1,描述了一种对分类数据集进行测试的方法的实施过程图,该方法包括:
S1,获得分类数据集。
S2,判断分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式对分类数据集进行标准化。
具体来说,由于数据集某些属性之间的数据差异较大,会影响属性对预测结果的准确性,因此研究合适的数据集标准化处理策略,减小数据间差异较大时对数据集分类准确度的预测误差是很有必要的。本发明对数据集的标准化处理采用的是统计学中的“对变量标准化”方法,使用数据的绝对标准差的方式进行标准化。
S3,标准化之后,将分类数据集分成训练集和测试集。
具体来说,可以采用分层随机取样的方法,对分类数据集进行预处理操作。随机取读入的分类数据集的70%进入到训练集,剩余30%进入到测试集。然后计算出训练集中实例的先验概率和后验概率。
先验概率是指根据以往经验和分析得到的概率。后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。
先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的。后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料。
S4,根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用多标签选择策略对测试集进行种群初始化,然后进行评价。
具体来说,基于标签相似度的朴素贝叶斯多标签选择策略的具体过程包括:
首先,获得先验概率:
获得朴素贝叶斯最大化后验概率:
获得标签相似度Sim(ci,cj);Sim(ci,cj)表示类标签ci与类标签cj的相关性。
标签相似度主要用来表示两个类标签(ci和cj)的相似程度。
其计算过程如下:先获得
获得>α表示相似因子。
基于标签相似度、先验概率、后验概率,获得多标签选择策略。
具体来说,多标签选择策略包含以下内容:
根据两个类标签的标签相似度的取值与β的比较结果的不同,将基于标签相似度的朴素贝叶斯多标签选择策略分成两种情况:标签相似度Sim(ci,cj)<β和标签相似度Sim(ci,cj)≥β。其中,β是一个主观的确定因子,表示两个不同类标签的相关程度阈值,
(1)如果Sim(ci,cj)<β,那么说明类标签C1与C2的关联性很弱,则根据简单朴素贝叶斯多标签分类规则,只有当
(2)如果Sim(ci,cj)≥β,那么说明类标签C1与C2的关联性很强,此时又要分为三种情形去判断,具体介绍如下:
a.如果>并且>则说明测试实例对于两个类标签的选择计算概率与标签相似度相呼应,此时根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测,该测试实例既属于类标签ci又属于类标签cj。
b.如果>并且>同情形a,测试实例对于两个类标签计算概率结果选择与标签相似度的计算结果相呼应,此时也根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测,该测试实例既不属于类标签ci又不属于类标签cj。
c.如果>并且>此时,测试实例对于两个类标签所属关系的概率计算结果与两个标签的标签相似度计算结果相冲突,此时需要将标签相似度的值,应用到简单朴素贝叶斯多标签分类的方法中,综合Sim(ci,cj),>与>3个结果值,制定第一标签最终选择策略,具体如下:
如果标签相似度>并且>则说明计算出的>的差值本就不大,可能这个测试实例就在该类标签cj的边界部分,因此,根据标签相似度Sim(ci,cj)与与标签cj相关性比较强的标签ci的所属关系,判定该测试实例既属于标签ci,也属于标签cj。
如果标签相似度>但是>则说明计算出的>的差值本就不大,可能这个测试实例就在该类标签ci的边界部分,因此,根据标签相似度Sim(ci,cj)与与标签ci相关性比较强的标签cj的所属关系,判定该测试实例既不属于类标签ci,也不属于类标签cj。
如果标签相似度>并且>则说明计算出的>的差值,
如果
第二标签最终选择策略具体包括:
如果>但是>测试实例既不属于类标签ci,也不属于类标签cj。
基于标签相似度的多标签选择策略伪代码:
在获得多标签分类策略之后,可以利用多标签分类策略对测试集进行种群初始化,种群初始化原本是利用随机函数产生随机的一组值。而在本发明中,利用了多标签分类策略对测试集进行了种群划分。
在种群初始化之后,还会对测试集中的各个实例进行评价:具体来说,是利用适应函数对种群中的每一个个体进行评价计算。
适应函数的设计,具体为:假设Y为数据标记集合,通过0/1的方式对数据集进行标记,最后每个实例的标记集合是0/1的向量集合。其中0表示该标记不属于该实例,1表示该标记属于该实例。例如一实例的标记向量为(1,1,0,1,0),其预测标记向量为(1,0,1,1,0),则该实例的预测准确度为3/5。设测试集实例数为N,Yi为第i个实例的实际标记向量集,Zi为第i个实例的预测标记向量集,则适应度函数值公式为:
S5,利用文化算法优化多标签选择策略,获得最佳标签选择策略。
为了能够找到最优的协调比例,可以利用文化算法对三个差值
具体来说,利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价。
为了使得三个变量在同一数量级,需要先对两个概率差进行数量级修正,修正方法如下:即为找出所有类标签之间差值绝对值的最大值max
>
本发明选择多标签分类中的分类精度作为评判标准。由于多标签数据集包含的类标签很多,学习系统几乎不能与实际标记集合完全吻合,而且差距还会很大,这样会导致评估标准取值大大降低,不利于分析。因此采用0/1的二类分类标记方式对类标记进行向量标记,即若该标记属于该示例就记为1,否则为0,预测时只要预测的标记向量与实际类标记向量在某一位上相等,就记为预测准确,准确度值就加1。将所得的准确度进行整体平均后,作为本次优化的适应度函数值,对优化结果进行判断。适应函数的设计在上述已经描述,此处使用的适应函数和上面使用的适应函数类似,在此不再赘述。
对α,β,γ这3个权值进行学习,并对所述训练集进行训练,得到α,β,γ各自的最优权值。在本发明实施例中,α表示相似因子,若取值0.5,则
将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。
最佳标签选择策略包括以下内容:
若>测试实例属于类标签ci,也属于类标签cj;其中,α为标签相似度的权重值,β为先验概率的权重值;r为后验概率的权重值。
若>具有如下情况:
若>并且>那么测试实例属于类标签ci,不属于类标签cj;
若>并且>那么测试实例不属于类标签ci,属于类标签cj;
若
基于文化算法与标签相似度的最佳标签选择策略实际上也是在训练集中训练获得的。其具体选择方式如下所示:
>
实例X属于标签ci与cj;
>
>
实例X属于标签ci,不属于标签cj;
>
实例X不属于标签ci,属于标签cj;
>
实例X属于标签ci与cj;
Else
实例X不属于标签ci与cj
Else
实例X不属于标签ci与cj
EndIf
进一步的,基于文化算法与标签相似的的标签选择策略伪代码为:
S6,基于最佳标签选择策略,对测试集进行分类测试。
下面使用具体的实施例进行说明,并对比其他的分类方式进行评价。
1,获得相关测试所用的数据集,本发明以数据集emotions进行说明,该数据集是关于音乐曲目的分类问题,训练集样本数为415,测试集样本数为178,属性为数值型,共72个,类标签个数为6。
2,判断数据集是否需要标准化,若需要则采用本发明提到的标准化处理策略对数据集进行处理,否则直接进行试验测试。在测试时,先将分类数据集划分为训练集和测试集。
3,采用本发明提出的基于标签相似度的多标签选择策略,应用于朴素贝叶斯多标签分类器中,对测试集数据进行测试,保存预测结果与程序运行时间,用以试验对比。
4,基于文化算法的各参数值,初始化训练集的种群空间和信仰空间,采用本发明设计的适应度函数对训练集中的个体进行评价。
5,利用文化算法对3个权值进行学习,对训练集进行训练,优化得到最优权值,代入到本发明所提出的基于文化算法与标签相似度的最优标签选择策略中,对测试集数据进行预测,保存预测结果与程序运行时间,用以试验比对。
6,采用朴素贝叶斯多标签分类算法对数据集进行分类预测,保存实验结果与程序运行时间,用以实验对比。
7,对实验结果进行对比统计,以表格、图片及文字的方式对分类结果进行统计说明。
结果:
表1-1~1-2表示基于高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法的分类结果。实验结果取3个算法独立运行10次结果的最大值(MAX),最小值(MIN)与平均值(AVE)。表中加粗部分为较优结果。
表1-1NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果
表1-2NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果
(图2A、图2B)和(图3A、图3B)分别表示以高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法,各自独立运行10次的运行结果,其中横轴表示运行次数,纵轴表示算法在对应算法计算所得分类精度。具体请参看图2A-图2B,是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(高斯分布与柯西分布)。图3A-图3B是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(num=10与num=20)。
在实际应用中,还可以使用本发明的方法对分类数据集进行预测。
通过本发明的一个或者多个实施例,本发明具有以下有益效果或者优点:
本发明实施例中提供了一种对分类数据集进行测试的方法,在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;标准化之后,将所述分类数据集分成训练集和测试集;根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;基于所述最佳标签选择策略,对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证,可以提高分类的准确度。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
机译: 对分子量约为20,000的人类生长激素具有特异性反应的单克隆抗体,能够产生该单克隆抗体的细胞系以及使用该单克隆抗体对分子量约为20,000的人类生长激素进行免疫测定
机译: 对分子量约为20,000的人类生长激素具有特异性反应的单克隆抗体,能够产生该单克隆抗体的细胞系以及使用该单克隆抗体对分子量约为20,000的人类生长激素进行免疫测定
机译: 使用连续优化对分类数据集进行排序的系统和方法