首页> 中国专利> 一种对分类数据集进行测试的方法

一种对分类数据集进行测试的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种对分类数据集进行测试的方法，在获得分类数据集后，若需要对其进行标准化处理，则使用绝对标准差的方式对分类数据集进行标准化；标准化之后，将分类数据集分成训练集和测试集；根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用多标签选择策略对测试集进行种群初始化、评价；利用文化算法优化多标签选择策略，获得最佳标签选择策略；基于最佳标签选择策略，对测试集进行分类测试。本发明提出标签相似度表示标签之间的依赖关系，应用到标签最终选择策略中，即：设计提出基于标签相似度的朴素贝叶斯多标签选择策略，并使用文化算法对其进行优化，并用于多个多标签数据集中进行测试验证，可以提高分类的准确度。

著录项

公开/公告号CN105069483A

专利类型发明专利
公开/公告日2015-11-18

原文格式PDF
申请/专利权人中国地质大学(武汉);
展开▼

申请/专利号CN201510521056.6
发明设计人颜雪松;
展开▼

申请日2015-08-21
分类号G06K9/62;
代理机构北京华沛德权律师事务所;
代理人房德权
地址 430000 湖北省武汉市洪山区鲁磨路388号地质资源环境工业技术研究院
入库时间 2023-12-18 12:16:22

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-07

未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20190101 终止日期:20190821 申请日:20150821

专利权的终止
2019-01-01

授权

授权
2015-12-16

实质审查的生效 IPC(主分类):G06K9/62 申请日:20150821

实质审查的生效
2015-11-18

公开

公开

说明书

技术领域

本申请涉及多标签分类技术领域，尤其涉及一种对分类数据集进行测试的方法。

背景技术

多标签学习源自于文本分类问题，如每个文件可能会属于几个预定义的主题：卫生和政府。但是现在，该类问题也非常广泛的存在于现实生活的应用中：在视频搜索领域，每个音频剪辑可以划分到不同的情感标签，例如“欢快”和“愉悦”；在基因功能学中，基因可能对应到多个功能标签，例如“身材高大”和“皮肤白皙”；在图像归属领域，一副图像可能同时属于几个场景标签，例如“大树”和“高楼”。凡此种种，多标签分类问题在越来越多的实际应用程序中得到广泛应用，对其进行更深入研究将会给我们的日常生活带来更大的益处。在机器学习和数据挖掘领域，分类成为了一个研究最多的任务。这个任务主要包括根据所给数据集的特点，构造一个分类器，然后利用所构造的分类器对未知类标签的对象实例赋予类标签的过程。

作为一种具有监督和指导功能的学习方法，朴素贝叶斯分类器(NaiveBayesClassifier，NBC)凭借其简单、高效的优点，成为了众多分类学习方法中的佼佼者。朴素贝叶斯(Bayes，NB)技术，是基于所谓的贝叶斯定理，而且即使针对于高维问题也具有适用性。虽然其原理很简单，但朴素贝叶斯通常表现了很好的分类效果。但是，朴素贝叶斯分类器是基于一个简单但是却不现实的假设，就是“假定属性间的相互独立性”，因此其分类精度不高。

发明内容

本发明了提供了一种对分类数据集进行测试的方法，以解决现有技术中分类精度不高的技术问题。

为解决上述技术问题，本发明提供了一种对分类数据集进行测试的方法，所述方法包括：

S1，获得所述分类数据集；

S2，判断所述分类数据集是否需要标准化，若需要标准化，使用绝对标准差的方式对所述分类数据集进行标准化；

S3，标准化之后，将所述分类数据集分成训练集和测试集；

S4，根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用所述多标签选择策略对所述测试集进行种群初始化，然后进行评价；

S5，利用文化算法优化所述多标签选择策略，获得最佳标签选择策略；

S6，基于所述最佳标签选择策略，对所述测试集进行分类测试。

优选的，所述根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略，具体包括：

获得先验概率：其中，X表示所述测试集中的实例，表示通过朴素贝叶斯算法计算出的实例X属于标签c_i的概率；表示通过朴素贝叶斯算法计算出的实例X不属于标签c_i的概率；

获得朴素贝叶斯最大化后验概率：其中，表示通过朴素贝叶斯算法计算出的实例X属于标签c_j的概率；表示通过朴素贝叶斯算法计算出的实例X不属于标签c_j的概率；

获得标签相似度Sim(c_i,c_j)，Sim(c_i,c_j)表示类标签c_i与类标签c_j的相关性；

基于所述标签相似度、所述先验概率、所述后验概率，获得所述多标签选择策略。

优选的，所述获得标签相似度Sim(c_i,c_j)，具体为：

获得其中，Dis(c_i,c_j)表示所述训练集的类标签集合中，不同类标签c_i与c_j的平均距离，n表示训练集维度，k表示所述训练集中的第k个实例，表示所述训练集中的第k个实例类标签c_i的取值，表示所述训练集中的第k个实例类标签c_j的取值，i≠j,1≤i≤m,1≤j≤m，m为类标签集合的维度；

获得 $> S i m (c_{i}, c_{j}) = \frac{α}{D i s (c_{i}, c_{j}) + α},$ >α表示相似因子。

优选的，所述多标签选择策略具体包括：

若Sim(c_i,c_j)<β，其中，β表示两个不同的类标签的相关程度阈值，所述多标签选择策略如下：

当时，表示测试实例属于类标签c_i，否则，所述测试实例不属于类标签c_i；其中，所述测试实例是属于所述测试集中的实例；

当时，表示所述测试实例属于类标签c_j，否则，所述测试实例不属于类标签c_j。

优选的，所述多标签选择策略具体包括：

若Sim(c_i,c_j)≥β，所述多标签选择策略如下：

如果 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) > 0$ >并且 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X) > 0,$ >所述测试实例既属于类标签c_i又属于类标签c_j；

如果 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) \leq 0$ >并且 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X) \leq 0,$ >所述测试实例既不属于类标签c_i又不属于类标签c_j；

如果并且综合Sim(c_i,c_j)，与3个结果值，制定第一标签最终选择策略；

如果并且综合Sim(c_i,c_j)，与3个结果值，制定第二标签最终选择策略。

优选的，所述第一标签最终选择策略具体包括：

如果 $> S i m (c_{i}, c_{j}) > P (c_{i}^{1} | X)_P (c_{i}^{0} | X),$ >并且 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) > P (c_{j}^{1} | X)_P (c_{j}^{0} | X),$ >所述测试实例既属于标签c_i，也属于标签c_j；

如果 $> S i m (c_{i}, c_{j}) 并且 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) > P (c_{j}^{1} | X)_P (c_{j}^{0} | X),$ >所述测试实例属于标签c_i，但是不属于标签c_j。

优选的，所述第二标签最终选择策略具体包括：

如果 $> S i m (c_{i}, c_{j}) > P (c_{j}^{0} | X)_P (c_{j}^{1} | X),$ >但是 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) 所述测试实例既不属于类标签c_i，也不属于类标签c_j。

优选的，所述利用文化算法优化所述多标签选择策略，获得最佳标签选择策略，具体包括：

利用文化算法初始化所述训练集，并对所述训练集中的实例进行评价；

对α、β、γ这3个权值进行学习，并对所述训练集进行训练，得到α、β、γ各自的最优权值；

将所述最优权值运用到所述多标签选择策略中，获得所述最佳标签选择策略。

优选的，所述最佳标签选择策略，具体包括：

若 $> α \cdot S i m (C_{i}, C_{j}) + β \cdot (Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X)) + γ \cdot (Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X)) > 1;$ >所述测试实例属于类标签c_i，也属于类标签c_j；其中，r为0-1之间的数值。

优选的，所述最佳标签选择策略，具体包括：

若 $> 0 < α \cdot S i m (C_{i}, C_{j}) + β \cdot (Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X)) + γ \cdot (Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X)) < 1,$ >具有如下情况：

若 $> Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X) > 0,$ >并且 $> Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X) \leq 0$ >，那么所述测试实例属于类标签c_i，不属于类标签c_j；

若 $> Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X) \leq 0,$ >并且 $> Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X) > 0,$ >那么所述测试实例不属于类标签c_i，属于类标签c_j；

若 $> Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X) > 0,$ >并且 $> Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X) > 0,$ >那么测试实例属于类标签c_i，属于类标签c_j。

通过本发明的一个或者多个技术方案，本发明具有以下有益效果或者优点：

一种对分类数据集进行测试的方法，在获得分类数据集之后，若需要对其进行标准化处理，则使用绝对标准差的方式对所述分类数据集进行标准化；标准化之后，将所述分类数据集分成训练集和测试集；根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用所述多标签选择策略对所述测试集进行种群初始化，然后进行评价；利用文化算法优化所述多标签选择策略，获得最佳标签选择策略；基于所述最佳标签选择策略，对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正，提出标签相似度表示标签之间的依赖关系，应用到标签最终选择策略中，即：设计提出基于标签相似度的朴素贝叶斯多标签选择策略，并使用文化算法对其进行优化，然后用于多个多标签数据集中进行测试验证，可以提高分类的准确度。

附图说明

图1为本发明实施例中一种对分类数据集进行测试的方法的实施过程图；

图2A-图2B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果；

图3A-图3B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果。

具体实施方式

本发明的核心点在于，针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正，提出标签相似度表示标签之间的依赖关系，应用到标签最终选择策略中，即：设计提出基于标签相似度的朴素贝叶斯多标签选择策略，并使用文化算法对其进行优化，然后用于多个多标签数据集中进行测试验证。

为了使本申请所属技术领域中的技术人员更清楚地理解本申请，下面结合附图，通过具体实施例对本申请技术方案作详细描述。

具体请参看图1，描述了一种对分类数据集进行测试的方法的实施过程图，该方法包括：

S1，获得分类数据集。

S2，判断分类数据集是否需要标准化，若需要标准化，使用绝对标准差的方式对分类数据集进行标准化。

具体来说，由于数据集某些属性之间的数据差异较大，会影响属性对预测结果的准确性，因此研究合适的数据集标准化处理策略，减小数据间差异较大时对数据集分类准确度的预测误差是很有必要的。本发明对数据集的标准化处理采用的是统计学中的“对变量标准化”方法，使用数据的绝对标准差的方式进行标准化。

S3，标准化之后，将分类数据集分成训练集和测试集。

具体来说，可以采用分层随机取样的方法，对分类数据集进行预处理操作。随机取读入的分类数据集的70％进入到训练集，剩余30％进入到测试集。然后计算出训练集中实例的先验概率和后验概率。

先验概率是指根据以往经验和分析得到的概率。后验概率是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。

先验概率和后验概率的区别：先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的。后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料。

S4，根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用多标签选择策略对测试集进行种群初始化，然后进行评价。

具体来说，基于标签相似度的朴素贝叶斯多标签选择策略的具体过程包括：

首先，获得先验概率：其中，X表示所述测试集中的实例，表示通过朴素贝叶斯算法计算出的实例X属于标签c_i的概率；表示通过朴素贝叶斯算法计算出的实例X不属于标签c_i的概率。

获得朴素贝叶斯最大化后验概率：其中，表示通过朴素贝叶斯算法计算出的实例X属于标签c_j的概率；表示通过朴素贝叶斯算法计算出的实例X不属于标签c_j的概率。

获得标签相似度Sim(c_i,c_j)；Sim(c_i,c_j)表示类标签c_i与类标签c_j的相关性。

标签相似度主要用来表示两个类标签(c_i和c_j)的相似程度。

其计算过程如下：先获得其中，Dis(c_i,c_j)表示所述训练集的类标签集合中，不同类标签c_i与c_j的平均距离，n表示训练集维度，k表示所述训练集中的第k个实例，表示所述训练集中的第k个实例类标签c_i的取值，表示所述训练集中的第k个实例类标签c_j的取值，i≠j,1≤i≤m,1≤j≤m，m为类标签集合的维度；

获得 $> S i m (c_{i}, c_{j}) = \frac{α}{D i s (c_{i}, c_{j}) + α},$ >α表示相似因子。

基于标签相似度、先验概率、后验概率，获得多标签选择策略。

具体来说，多标签选择策略包含以下内容：

根据两个类标签的标签相似度的取值与β的比较结果的不同，将基于标签相似度的朴素贝叶斯多标签选择策略分成两种情况：标签相似度Sim(c_i,c_j)<β和标签相似度Sim(c_i,c_j)≥β。其中，β是一个主观的确定因子，表示两个不同类标签的相关程度阈值，

(1)如果Sim(c_i,c_j)<β，那么说明类标签C₁与C₂的关联性很弱，则根据简单朴素贝叶斯多标签分类规则，只有当时，该测试实例属于类标签c_i，否则，该测试实例不属于类标签c_i；同样只有当时，该测试实例属于类标签c_j，否则，该测试实例不属于类标签c_j。

(2)如果Sim(c_i,c_j)≥β，那么说明类标签C₁与C₂的关联性很强，此时又要分为三种情形去判断，具体介绍如下：

a.如果 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) > 0$ >并且 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X) > 0,$ >则说明测试实例对于两个类标签的选择计算概率与标签相似度相呼应，此时根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测，该测试实例既属于类标签c_i又属于类标签c_j。

b.如果 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) \leq 0$ >并且 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X) \leq 0,$ >同情形a，测试实例对于两个类标签计算概率结果选择与标签相似度的计算结果相呼应，此时也根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测，该测试实例既不属于类标签c_i又不属于类标签c_j。

c.如果 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) > 0$ >并且 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X) \leq 0,$ >此时，测试实例对于两个类标签所属关系的概率计算结果与两个标签的标签相似度计算结果相冲突，此时需要将标签相似度的值，应用到简单朴素贝叶斯多标签分类的方法中，综合Sim(c_i,c_j)， $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X),$ >与 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X)$ >3个结果值，制定第一标签最终选择策略，具体如下：

如果标签相似度 $> S i m (c_{i} c_{j}, > P (c_{i}^{1} | X)_P (c_{i}^{0} | X),$ >并且 $> P (_{i}^{1} c |_P (c_{i}^{0} | X) > P (c_{j}^{1} | X)_P (c_{j}^{0} | X),$ >则说明计算出的 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X)$ >的差值本就不大，可能这个测试实例就在该类标签c_j的边界部分，因此，根据标签相似度Sim(c_i,c_j)与与标签c_j相关性比较强的标签c_i的所属关系，判定该测试实例既属于标签c_i，也属于标签c_j。

如果标签相似度 $> S i m (c_{i}, c_{j}) > P (c_{j}^{0} | X)_P (c_{j}^{1} | X),$ >但是 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) 则说明计算出的 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X)$ >的差值本就不大，可能这个测试实例就在该类标签c_i的边界部分，因此，根据标签相似度Sim(c_i,c_j)与与标签c_i相关性比较强的标签c_j的所属关系，判定该测试实例既不属于类标签c_i，也不属于类标签c_j。

如果标签相似度 $> S i m (c_{i}, c_{j}) 并且 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) > P (c_{j}^{1} | X)_P (c_{j}^{0} | X),$ >则说明计算出的 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X)$ >的差值，的差值都很大，虽然标签相似度在阈值范围内，但是其比最小的差值都小，加之阈值本就带有主观性，不能作为太严格的评判标准，因此，此时可以将标签c_i与标签c_j视为弱关联，依照简单朴素贝叶斯多标签分类准则进行处理，判定该测试实例属于标签c_i，但是不属于标签c_j。

如果并且综合Sim(c_i,c_j)， $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X),$ >与 $> P (c_{j}^{1} | X)_P (c_{j}^{0} | X)$ >3个结果值，制定第二标签最终选择策略。

第二标签最终选择策略具体包括：

如果 $> S i m (c_{i}, c_{j}) > P (c_{j}^{0} | X)_P (c_{j}^{1} | X),$ >但是 $> P (c_{i}^{1} | X)_P (c_{i}^{0} | X) 测试实例既不属于类标签c_i，也不属于类标签c_j。

基于标签相似度的多标签选择策略伪代码：

在获得多标签分类策略之后，可以利用多标签分类策略对测试集进行种群初始化，种群初始化原本是利用随机函数产生随机的一组值。而在本发明中，利用了多标签分类策略对测试集进行了种群划分。

在种群初始化之后，还会对测试集中的各个实例进行评价：具体来说，是利用适应函数对种群中的每一个个体进行评价计算。

适应函数的设计，具体为：假设Y为数据标记集合，通过0/1的方式对数据集进行标记，最后每个实例的标记集合是0/1的向量集合。其中0表示该标记不属于该实例，1表示该标记属于该实例。例如一实例的标记向量为(1，1，0，1，0)，其预测标记向量为(1，0，1，1，0)，则该实例的预测准确度为3/5。设测试集实例数为N，Y_i为第i个实例的实际标记向量集，Z_i为第i个实例的预测标记向量集，则适应度函数值公式为：

S5，利用文化算法优化多标签选择策略，获得最佳标签选择策略。

为了能够找到最优的协调比例，可以利用文化算法对三个差值进行加权(α，β，γ)计算，提出基于文化算法与标签相似度的最优标签选择策略，并将其应用于测试实例的类标签测试中。

具体来说，利用文化算法初始化所述训练集，并对所述训练集中的实例进行评价。

为了使得三个变量在同一数量级，需要先对两个概率差进行数量级修正，修正方法如下：即为找出所有类标签之间差值绝对值的最大值max(其中i＝1,2,...,m，m表示类标签的维度)，然后计算实例所有类标签的概率差值与所有类标签的最大差值绝对值max的比值，作为类标签C_j修正后的概率差值，对于所有类标签C_j，修正公式如下：

$> Q (c_{j}^{1} | X) - Q (c_{j}^{0} | X) = \frac{P (c_{j}^{1} | X) - P (c_{j}^{0} | X)}{m a x (| P (c_{i}^{1} | X) - P (c_{i}^{0} | X) |)}$ >

本发明选择多标签分类中的分类精度作为评判标准。由于多标签数据集包含的类标签很多，学习系统几乎不能与实际标记集合完全吻合，而且差距还会很大，这样会导致评估标准取值大大降低，不利于分析。因此采用0/1的二类分类标记方式对类标记进行向量标记，即若该标记属于该示例就记为1，否则为0，预测时只要预测的标记向量与实际类标记向量在某一位上相等，就记为预测准确，准确度值就加1。将所得的准确度进行整体平均后，作为本次优化的适应度函数值，对优化结果进行判断。适应函数的设计在上述已经描述，此处使用的适应函数和上面使用的适应函数类似，在此不再赘述。

对α，β，γ这3个权值进行学习，并对所述训练集进行训练，得到α，β，γ各自的最优权值。在本发明实施例中，α表示相似因子，若取值0.5，则的取值范围为[1/3，1]。β是一个主观的确定因子，表示两个不同的类标签的相关程度阈值，此处可取值为(1+1/3)÷2＝2/3。而γ的取值可为是通过文化算法优化得到的，取值在0-1之间。

将所述最优权值运用到所述多标签选择策略中，获得所述最佳标签选择策略。

最佳标签选择策略包括以下内容：

若 $> α \cdot S i m (C_{i}, C_{j}) + β \cdot (Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X)) + γ \cdot (Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X)) > 1;$ >测试实例属于类标签c_i，也属于类标签c_j；其中，α为标签相似度的权重值，β为先验概率的权重值；r为后验概率的权重值。

若 $> 0 < α \cdot S i m (C_{i}, C_{j}) + β \cdot (Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X)) + γ \cdot (Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X)) < 1,$ >具有如下情况：

若 $> Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X) > 0,$ >并且 $> Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X) \leq 0;$ >那么测试实例属于类标签c_i，不属于类标签c_j；

若 $> Q (C_{i}^{1} | X) - Q (C_{i}^{0} | X) \leq 0,$ >并且 $> Q (C_{j}^{1} | X) - Q (C_{j}^{0} | X) > 0;$ >那么测试实例不属于类标签c_i，属于类标签c_j；

若并且那么测试实例属于类标签c_i，属于类标签c_j。

基于文化算法与标签相似度的最佳标签选择策略实际上也是在训练集中训练获得的。其具体选择方式如下所示：

$> I f >α\cdotSim(c_{i}, c_{j})+β\cdot(Q (c_{i}^{1} | X)-Q(c_{i}^{0} | X))+γ\cdot(Q (c_{j}^{1} | X)-Q(c_{j}^{0} | X))>1>then>实例X属于标签c i 与c j ；> E l s e >if>0<α\cdotSim(c_{i}, c_{j})+β\cdot(Q (c_{i}^{1} | X)-Q(c_{i}^{0} | X))+γ\cdot(Q (c_{j}^{1} | X)-Q(c_{j}^{0} | X))<1>then>> I f >Q(c_{i}^{1} | X)-Q(c_{i}^{0} | X)>0>andQ(c_{j}^{1} | X)-Q(c_{j}^{0} | X)<0>then>实例X属于标签c i ，不属于标签c j ；> E l s e >if>Q(c_{i}^{1} | X)-Q(c_{i}^{0} | X)<0>andQ(c_{j}^{1} | X)-Q(c_{j}^{0} | X)>0>then>实例X不属于标签c i ，属于标签c j ；> E l s e >if>Q(c_{i}^{1} | X)-Q(c_{i}^{0} | X)>0>andQ(c_{j}^{1} | X)-Q(c_{j}^{0} | X)>0>then>实例X属于标签c i 与c j ；Else实例X不属于标签c i 与c jElse实例X不属于标签c i 与c jEndIf进一步的，基于文化算法与标签相似的的标签选择策略伪代码为：S6，基于最佳标签选择策略，对测试集进行分类测试。下面使用具体的实施例进行说明，并对比其他的分类方式进行评价。1，获得相关测试所用的数据集，本发明以数据集emotions进行说明，该数据集是关于音乐曲目的分类问题，训练集样本数为415，测试集样本数为178，属性为数值型，共72个，类标签个数为6。2，判断数据集是否需要标准化，若需要则采用本发明提到的标准化处理策略对数据集进行处理，否则直接进行试验测试。在测试时，先将分类数据集划分为训练集和测试集。3，采用本发明提出的基于标签相似度的多标签选择策略，应用于朴素贝叶斯多标签分类器中，对测试集数据进行测试，保存预测结果与程序运行时间，用以试验对比。4，基于文化算法的各参数值，初始化训练集的种群空间和信仰空间，采用本发明设计的适应度函数对训练集中的个体进行评价。5，利用文化算法对3个权值进行学习，对训练集进行训练，优化得到最优权值，代入到本发明所提出的基于文化算法与标签相似度的最优标签选择策略中，对测试集数据进行预测，保存预测结果与程序运行时间，用以试验比对。6，采用朴素贝叶斯多标签分类算法对数据集进行分类预测，保存实验结果与程序运行时间，用以实验对比。7，对实验结果进行对比统计，以表格、图片及文字的方式对分类结果进行统计说明。结果：表1-1～1-2表示基于高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法的分类结果。实验结果取3个算法独立运行10次结果的最大值(MAX)，最小值(MIN)与平均值(AVE)。表中加粗部分为较优结果。表1-1NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果表1-2NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(图2A、图2B)和(图3A、图3B)分别表示以高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法，各自独立运行10次的运行结果，其中横轴表示运行次数，纵轴表示算法在对应算法计算所得分类精度。具体请参看图2A-图2B，是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(高斯分布与柯西分布)。图3A-图3B是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(num＝10与num＝20)。在实际应用中，还可以使用本发明的方法对分类数据集进行预测。通过本发明的一个或者多个实施例，本发明具有以下有益效果或者优点：本发明实施例中提供了一种对分类数据集进行测试的方法，在获得分类数据集之后，若需要对其进行标准化处理，则使用绝对标准差的方式对所述分类数据集进行标准化；标准化之后，将所述分类数据集分成训练集和测试集；根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用所述多标签选择策略对所述测试集进行种群初始化，然后进行评价；利用文化算法优化所述多标签选择策略，获得最佳标签选择策略；基于所述最佳标签选择策略，对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正，提出标签相似度表示标签之间的依赖关系，应用到标签最终选择策略中，即：设计提出基于标签相似度的朴素贝叶斯多标签选择策略，并使用文化算法对其进行优化，然后用于多个多标签数据集中进行测试验证，可以提高分类的准确度。尽管已描述了本申请的优选实施例，但本领域内的普通技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。去获取专利，查看全文>相似文献专利中文文献外文文献 1. 一种对分类数据集进行测试的方法 [P] . 中国专利：
CN105095494B . 2019.03.26 2. 一种对分类数据集进行测试的方法 [P] . 中国专利：
CN105069483A . 2015-11-18 3. A monoclonal antibody specifically reactive to a human growth hormone with a molecular weight of about 20,000, cell line capable of producing the monoclonal antibody and an immunoassay of a human growth hormone having a molecular weight of about 20,000 using the monoclonal antibody [P] . AU2491697A . 1998-01-22 机译：对分子量约为20,000的人类生长激素具有特异性反应的单克隆抗体，能够产生该单克隆抗体的细胞系以及使用该单克隆抗体对分子量约为20,000的人类生长激素进行免疫测定 4. A monoclonal antibody specifically reactive to a human growth hormone with a molecular weight of about 20,000, cell line capable of producing the monoclonal antibody and an immunoassay of a human growth hormone having a molecular weight of about 20,000 using the monoclonal antibody [P] . AU690273B2 . 1998-04-23 机译：对分子量约为20,000的人类生长激素具有特异性反应的单克隆抗体，能够产生该单克隆抗体的细胞系以及使用该单克隆抗体对分子量约为20,000的人类生长激素进行免疫测定 5. System and methods for using continuous optimization for ordering categorical data sets [P] . 美国专利：

US6615211B2 . 2003-09-02 机译：使用连续优化对分类数据集进行排序的系统和方法 1. 是否所有提供6类布线产品的布线厂商们都需要专用的6类测试软件及专用的适配器？这些进行6类测试的专用适配器以及专用软件是由测试仪厂商统一提供,还是由布线厂商自己制造并提供？混用6类线可以测试吗？ [J] . . 中国安防产品信息 . 2005,第05X期 2. 一种基于数据服务超链进行情景数据集成的方法 [J] . 王桂玲,张峰,韩燕波 . 电信科学 . 2014,第002期 3. 一种进行磺酰脲类和三嘧啶磺酰胺类除草制剂测试与残留研究的生物测定法 [J] . Stor.P,朱文达 . 湖北植保 . 1998,第001期 4. 超高相对分子质量聚乙烯的相对分子质量及其分布的测试方法 [J] . 王新威,沈贤婷,郭宁 . 中国塑料 . 2010,第001期 5. 内蒙古北山哈珠地区晚古生代花岗岩类年代学与地球化学测试数据集 [J] . 任邦方,段连峰,李敏 . 中国地质 . 2020,第S01期 6. 利用弯曲强度测试装置进行泡沫衬垫弹性模量测试的一种方法 [C] . 张德强 . 2008年中国工程塑料复合材料技术研讨会 . 2008 7. 存储系统中测试数据集的构建方法研究 [A] . 何双宁 . 2013 1. Benchmarking human epithelial type 2 interphase cells classification methods on a very large dataset [J] . Hobson Peter, Lovell Brian C., Percannella Gennaro, Artificial intelligence in medicine
. 2015,第3期机译：在非常大的数据集上对人类上皮2型间期细胞分类方法进行基准测试 2. K-Neighbor over-sampling with cleaning data: a new approach to improve classification performance in data sets with class imbalance [J] . Budi Santoso, Hari Wijayanto, Khairil Anwar Notodiputro, Applied mathematical sciences
. 2018,第9a12期机译：使用清洗数据进行K邻域过度采样：一种新方法，可在具有类不平衡的数据集中提高分类性能 3. A structured approach to predictive modeling of a two-class problem using multidimensional data sets [J] . SprattH., JuH., BrasierA.R. Methods: A Companion to Methods in Enzymology
. 2013,第1期机译：一种使用多维数据集对两类问题进行预测建模的结构化方法 4. A first approach towards the usage of classifiers' performance to create fuzzy measures for ensembles of classifiers: a case study on highly imbalanced datasets [C] . M. Uriz, D. Paternain, H. Bustince, IEEE International Conference on Fuzzy Systems
. 2018 机译：用于对分类器集合创建模糊措施的第一种方法：对高度不平衡数据集的案例研究 5. Clustering of test cubes: A procedure for the efficient encoding of complete test sets based on the intelligent reseeding of LFSRs. [D] . Alleyne, Ronald Marc. 1994 机译：测试多维数据集的群集：一种基于LFSR的智能播种对完整测试集进行有效编码的过程。 6. An adaptable method using human mixed tissue ratiometric controls for benchmarking performance on gene expression microarrays in clinical laboratories [O] . P Scott Pine, Barry A Rosenzweig, Karol L Thompson 2011 机译：一种使用人类混合组织比例控制的适应性方法用于在临床实验室中对基因表达微阵列的性能进行基准测试 7. Decision-making is the process of analyzing information about a problem situation and comparing it to a specific conclusion in order to solve a specific problematic (Yıkılmaz, 2001; Miller and Byrnes, 2001). Decision-making styles are a mechanism that is influenced by the internal and external conditions that determine the direction of the decisions of the individual, the content of the decision-making process, and the outcome of the decision-making process (Payne, Bettman and Johson, 1993; Bavol’ár and Orosová, 2015). ACT is a contemporary member of the Cognitive Behavioral Therapy family. ACT (Acceptance and commitment therapy) has both similar and different directions with Behavioral Therapies and Cognitive Therapies (Herbet and Forman, 2011; Hayes, 2004). KKT responds to classical behavioral treatments using both existential and cognitive approaches in the analysis of behavior. KKT is a science wing that tries to solve human problems with a wider perspective aimed at solving problematic human behaviors (Plumb, Stewart, Dahl and Lundgren, 2009). It is seen that there is very little research about the new approach of ACT approach when the aiming country of our country is screened and it is thought that our country will contribute to the field of psychological counseling with the work done. In the scope of the research, experimental and control groups and preliminary test, post-test and follow-up measurements of 2x3 experimental design were used. The study's study group consists of a total of 24 (12 experimental and 12 control groups) university students studying in different departments and levels, continuing their education in the academic year of 2015-2016 in Ağrı province and İbrahim Chechen University in 2015-2016 academic year. The average age of participants in the experiment and control group is 20. There were 12 participants in the experimental group, 7 female and 5 male, and 12 participants, 7 female and 5 male in the control group. Personal Information Form and Decision Making Style Scale prepared by the researcher were used in the research. In order to decide on the tests to be used in the course of analyzing the data, the scores of the participant's Decision Styles Scale pre-test, which are placed primarily in the experimental and control groups, it was analyzed whether the basic expectations of parametric tests were answered. As a result of the analysis made, the scores, skewness and kurtosis coefficients obtained from the Decision Making Styles Scale were given to the experimental and control groups. It was determined that the distribution was normal in the result of Shapiro-Wilk test, in which the skewness and kurtosis coefficients of each sub-scale were ranked between -1 and +1. Participants in the experimental and control groups; homogeneity test results for decision-style pre-test measurements indicate that the data are homogeneous. According to the results of the Mauchly Globalness Test, it has been determined that working supports the hypothesis. It was determined that there was no significant difference between the pre-test scores obtained from dependent decision-making style of experiment and control groups, but the test group showed lower mean scores at the significant level within the scores of post-test and follow-up tests. Therefore, it can be said that the ACT-oriented psychoeducation program applied to the experimental group reduces the dependent decision-making style scores from the decision style sub-dimensions and the psychoeducation program has a lasting effect. It was determined that there was no significant difference between pre-test, post-test and follow-up scores obtained from the Spontaneous-Instant Decision Style of experiment and control groups. Thus, it can be said that this situation does not cause a significant difference in the Spontaneous-Decision-Making Style scores from the decision style sub-dimensions of the ACT-oriented psychoeducation program applied to the experimental group. The ACT -oriented psychoeducation program had a decline in the intuitive decision-making styles of the individuals, but this decrease did not create significant differences. Thus, it can be said that this situation does not make a meaningful difference in the intuitive decision style scores from the decision style sub-dimensions of the KKT oriented psychoeducation program applied to the experimental group. The pre-test scores obtained from the rational decision-making style of the experimental and control groups showed that there was a difference between the post-test and the follow-up scores, but this difference was not significant. As a result of the analysis, it was determined that the test group had higher levels of rational decision style than the pre - test scores in the post test and follow - up scores, whereas the post test and follow - up test scores in the control group rational decision style showed a decrease compared to the pre - test scores. the pre - test scores. Decision-making Styles Scale Avoidant Decision Making As a result of the analysis of the mean scores of the subscale scores of pre-test, post-test and follow-up measures, the group effect was found to be insignificant. It was determined that the experimental and control groups differed significantly from the pre-test scores obtained from the avoidant decision-making style but did not show any significant change within the scores of the post-test and follow-up tests. [O] . mustafa ercengiz, ali haydar şar 2018 机译：决策是分析有关问题情况的信息并将其与特定结论进行比较的过程，以解决特定的问题（Yıkılmaz，2001; Miller和Byrnes，2001）。决策风格是一种机制，受到内部和外部条件的影响，确定个人决定的方向，决策过程的内容以及决策过程的结果（PAYNE，BETTMAN和BEDNE） Johson，1993;Bavol'ár和奥萨洛瓦，2015）。法案是认知行为治疗家庭的当代成员。行为（验收和承诺治疗）具有与行为疗法和认知疗法的类似和不同方向（Herbet和Forman，2011; Hayes，2004）。 KKT在分析行为中使用存在性和认知方法来响应古典行为治疗方法。 KKT是一个科学翼，试图解决人类问题，旨在解决有问题的人类行为（铅垂，斯图尔特，Dahl和Lundgren，2009）。有人认为，当我们国家的瞄准国家进行筛选时，有关行动方法的新方法几乎没有研究，并且认为我们的国家将为完成工作做出贡献的心理咨询领域。在研究的范围内，使用实验和对照组和初步测试，使用后测试和后续测量的2x3实验设计。该研究的研究小组包括共24名（12个实验和12个对照组）大学学生在不同的部门和水平上学习，在2015-2016学术上继续进行2015-2016的学术年度2015-2016学年年。实验和对照组参与者的平均年龄是20.实验组中有12名参与者，7名女性和5名男性，12名参与者，7名女性和5名男性。研究人员准备的个人信息表格和决策制定风格规模在研究中使用。为了决定在分析数据的过程中使用的测试，参与者的决策风格刻度预测的分数主要在实验和对照组中进行，分析了参数的基本期望吗？测试得到了回答。由于对实验和对照组给出了从决策曲调标度获得的分数，偏移和峰度分子系数。确定该分布是正常的在成熟的-WILK试验结果中，其中每亚级的偏差和刚度系数在-1到+1之间排名。实验和对照组的参与者;决策式预测测量的同质性测试结果表明数据是均匀的。根据毛毛环保试验的结果，已确定工作支持假设。据确定，从依赖决策风格的实验和对照组获得的预测分数之间没有显着差异，但测试组在测试后的分数内显示出较低的平均分数和后续的分数 - 测试。因此，可以说，应用于实验组的面向活动的心理教育程序减少了决策风格子维度的依赖决策风格分数，并且心理教育程序具有持久的效果。据确定，从实验和对照组自发决策风格获得的预测试，测试后和后续评分之间没有显着差异。因此，可以说这种情况不会导致从应用于实验组的活动导向的心理教育程序的决策风格分数的自发决策风格分数显着差异。行为的心理教育计划在个人直观的决策风格下降，但这种减少并没有产生显着的差异。因此，可以说，这种情况不会在从应用于实验组的KKT导向的心理教育程序的决策风格分数中产生有意义的决策风格分数。从实验和对照组的理性决策风格获得的预测分数显示后检验后和随访评分之间存在差异，但这种差异并不重要。由于分析，确定测试组的理性决策风格较高，而不是后测试和后续分数的预测分数，而对照组合理决策风格的后测试和后续测试分数显示出与预测试分数相比的减少。预测分数。决策款式扩展避免决策由于分析了预测试，测试后和后续措施的班次评分的平均分数，发现群体效应是微不足道的。确定实验和对照组从避免决策风格获得的预测评分中显着不同，但在测试后和后续测试的分数内没有显示出任何重大变化。 8. Benchmarking a computational fluid dynamics model of separated flow in a thin rectangular channel for use in predictive design analysis [R] . Stovall, T. K. , Crabtree, A. , Felde, D. 1995 机译：在薄矩形通道中对分离流的计算流体动力学模型进行基准测试，以用于预测设计分析获取专利意见反馈回到顶部回到首页关于掌桥资源导航新手指南常见问题网站地图版权声明客服邮箱：kefu@zhangqiaokeyan.com 京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有客服微信服务号$