首页> 中国专利> 基于去冗余互信息特征选择的文本分类系统及方法

基于去冗余互信息特征选择的文本分类系统及方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种基于去冗余互信息特征选择的文本分类系统及方法，包括：数据预处理模块，对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵；特征选择模块，对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集；分类模块，根据所述更新后的目标特征子集，生成新的训练集和测试集，并根据所述更新后的目标特征子集生成新的训练集及测试集，并进行分类，得到分类准确度。本发明更加有效的去除冗余。

著录项

公开/公告号CN112364629A

专利类型发明专利
公开/公告日2021-02-12

原文格式PDF
申请/专利权人苏州大学;
展开▼

申请/专利号CN202011363953.6
发明设计人张莉;王家琪;王邦军;屈蕴茜;
展开▼

申请日2020-11-27
分类号G06F40/216(20200101);G06F40/166(20200101);G06K9/62(20060101);
代理机构32257 苏州市中南伟业知识产权代理事务所(普通合伙);
代理人张荣
地址 215000 江苏省苏州市吴中区石湖西路188号
入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及文本分类的技术领域，尤其是指一种基于去冗余互信息特征选择的文本分类系统及方法。

背景技术

文本作为当今互联网时代信息的主要载体，可以承载各类领域的信息，如新闻报道、商品评论、博客文章等，对文本信息的处理在大数据分析中占据重要地位。作为文本处理的一种技术，文本分类在情感分析、舆情分类、垃圾邮件检测以及各种现实领域都有着很重要的作用。基于机器学习方法的文本分类通常使用词袋模型(bag-of-words)来将文本数据转换为特征矩阵的形式，这样表示出的文本数据具有很高的维度。为了避免维数灾难问题并获得好的分类性能，对之进行特征选择是非常必要的。

特征选择的主要任务是从原有特征集中选取在后续分类任务中表现最好的特征子集，文本特征选择常用的方法有基于词频的方法和基于互信息的方法。基于互信息的方法是通过计算特征词与类别的互信息来判断相关性，从而进行特征选择。文本特征矩阵通常维度较高，每个特征与其余特征之间的冗余度也相应较高。但是，基于互信息的方法并没有在特征选择中考虑去除特征子集间的冗余性，因此在冗余条件下该方法的性能较差。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中系统复杂，且性能差的问题，从而提供一种系统简单，且性能好的基于去冗余互信息特征选择的文本分类系统及方法。

为解决上述技术问题，本发明的一种基于去冗余互信息特征选择的文本分类系统，包括：数据预处理模块，对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵；特征选择模块，对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集；分类模块，根据所述更新后的目标特征子集，生成新的训练集和测试集，并对更新后的训练集和测试集进行分类，得到分类准确度。

在本发明的一个实施例中，对输入的多条文本数据进行预处理的方法为：先对文本数据去除标点和停用词，进行词干提取，删除文档频率过低和过高的词语；对处理后的文本数据进行词语统计，得到词语特征空间；将输入的文本数据映射到所述词语特征空间中，形成文本特征矩阵和类别向量。

在本发明的一个实施例中，计算其评分值的方法为：在选择第一个特征时，

在本发明的一个实施例中，选取得分最大的特征时，所述特征t

在本发明的一个实施例中，从所述待选择的特征集合中删除得分最大的特征后，当已选目标特征子集S内的特征数小于需要选择的特征数sn，或待选择的特征集合F不为空时，对每一个特征t

在本发明的一个实施例中，分类别计算其与所述目标特征子集S的冗余度DC的方法为：

在本发明的一个实施例中，计算判别函数的方法为：DMI(t

在本发明的一个实施例中，判别函数最大的特征t

在本发明的一个实施例中，根据所述更新后的目标特征子集对所述文本特征矩阵进行分类的方法为：根据所述更新后的目标特征子集，生成新的训练集和测试集，并使用K近邻算法对所述训练集和测试集进行分类。

本发明还提供了一种基于去冗余互信息特征选择的文本分类方法，包括如下步骤：步骤S1：对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵和类别向量；步骤S2：对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集；步骤S3：根据所述更新后的目标特征子集，生成新的训练集和测试集，并对更新后的训练集和测试集进行分类，得到分类准确度。本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于去冗余互信息特征选择的文本分类系统及方法，包括：对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵，有利于将文本转换程数据形式，进行分析和处理；对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，从而有利于进行标记，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集，从而有利于得到对分类有用的数据；根据所述更新后的目标特征子集，生成新的训练集和测试集，并对更新后的训练集和测试集进行分类，得到分类准确度，整个过程不但系统简单，且可以更加有效地去除冗余，性能更好。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明基于去冗余互信息特征选择的文本分类系统流程图；

图2是本发明准确度的对比示意图；

图3是本发明分类准确度对比曲线示意图。

具体实施方式

实施例一

如图1所示，本实施例提供一种基于去冗余互信息特征选择的文本分类系统，数据预处理模块10，对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵；特征选择模块20，对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集；分类模块30，根据所述更新后的目标特征子集，生成新的训练集和测试集，并对更新后的训练集和测试集进行分类，得到分类准确度。

本实施例所述基于去冗余互信息特征选择的文本分类系统，数据预处理模块10，对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵，有利于将文本转换程数据形式，进行分析和处理；特征选择模块20，对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，从而有利于进行标记，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集，从而有利于得到对分类有用的数据；分类模块30，根据所述更新后的目标特征子集，生成新的训练集和测试集，并对更新后的训练集和测试集进行分类，得到分类准确度，整个过程不但系统简单，且可以更加有效地去除冗余，性能更好。

所述数据预处理模块10中，对输入的多条文本数据进行预处理的方法为：先对文本数据进行预处理；对处理后的文本数据进行词语统计，得到词语特征空间；将输入的文本数据映射到所述词语特征空间中，形成文本特征矩阵和类别向量。具体地，去除文本数据中的标点和停用词，提取词干，按比例去除出现概率过低和过高的词语；然后，对处理后的文本数据进行词语统计，得到词语特征空间；最后，将输入的文本数据映射到词语特征空间中，从而形成文本特征矩阵和类别向量。

所述特征选择模块20中，计算其评分值的方法为：在选择第一个特征时，

选取得分最大的特征时，所述特征t

从所述待选择的特征集合中删除得分最大的特征后，当已选目标特征子集内的特征数小于需要选择的特征数sn，或待选择的特征集合F不为空时，对每一个特征t

分类别计算其与所述目标特征子集S的冗余度DC的方法为：

计算判别函数的方法为：DMI(t

判别函数最大的特征t

所述分类模块30中，根据所述更新后的目标特征子集对所述文本特征矩阵进行分类的方法为：根据所述更新后的目标特征子集，生成新的训练集和测试集，并使用K近邻算法对所述训练集和测试集进行分类。本发明在Reuters-21578数据集上进行了测试，该数据集是路透社收集的新闻数据，目前被广泛应用于文本分类中。Reuters-21578原始数据集有135个类别的21578篇文章，一篇文章最多属于14个类别。为了方便计算，本发明的实施过程选取部分数据进行训练，选择了Cardoso-Cachopo整理的R8数据子集，该数据集采用ModApte划分出训练集和测试集，共包含8个类别的7674条数据。

具体实现步骤如下：

在所述数据预处理模块10中，输入R8数据集的7674条文本数据，首先去除这些文本数据中的标点和停用词，按比例去除出现概率过低和过高的词语，以及进行词干提取；然后，对处理后的文本数据进行词语统计，得到词语特征空间；最后，将输入的文本数据映射到词语特征空间中，从而形成文本特征矩阵和类别向量。因此，经过所述数据预处理模块10后，得到n个样本以及f个特征的文本特征矩阵

在所述特征选择模块20中，初始化目标特征子集

对每一个特征t

其中c

选取互信息值最大的特征t

将特征t

更新待选择的特征集合F，从待选择的特征集合F中删除特征t

当已选特征子集S内特征数小于sn，或待选特征集合F不为空，重复以下操作：

a：对每个t

其中p(t

b：分别对F内特征对应的MI和DC进行归一化；

c：计算判别函数作为得分：

DMI(t

其中λ为调节MI和DC在特征选择中重要程度的参数；在本例中，λ取为0.5。

d：选取使判别函数最大的特征t

然后将t

e：更新待选择的特征集合F，从待选择的特征集合F中删除特征t

其中a-e为一轮循环，本轮循环结束后看是否满足已选特征子集内特征数小于sn，或待选特征集合F不为空的条件，如果满足，则继续下一轮循环，如果不满足就结束循环。

所述分类模块30中，根据特征选择模块20得到的更新后的目标特征子集S，生成新的训练集和测试集，并使用K近邻算法对更新后的训练集和测试集进行分类，得到分类准确度。在本实例中，分别选取特征数为10、20、50、100、200、500、1000、1500和3000，K近邻分类器中K值设置为10。本申请将互信息作为对比实验，不同特征数下与本发明的对比结果如图2所示。本发明与互信息相比，不同特征维度下的分类效果均有一定提升，在选取更多的特征数时去冗余效果更为显著，有更高的分类准确度。

由附图2可知，使用KNN分类器时，在特征数取100之后分类器的准确度开始下降。为了进一步分析特征选择的效果，特征数分别取为(10∶10∶200)，生成新的训练集和测试集进行分类，分类准确度对比曲线如图3所示。其中，本发明在特征数为110时准确率达到最高为92.33％，MI在特征数为50时准确度达到最高，为89.95％。由此得知，本发明在特征数较多的情况下，可以更加有效的去除冗余。

实施例二

基于同一发明构思，本实施例提供了一种基于去冗余互信息特征选择的文本分类方法，其解决问题的原理与所述基于去冗余互信息特征选择的文本分类系统类似，重复之处不再赘述。

本实施例提供一种基于去冗余互信息特征选择的文本分类方法，包括：

步骤S1：对输入的多条文本数据进行预处理，得到多个特征的文本特征矩阵和类别向量；

步骤S2：对目标特征子集和待选择的特征集合进行初始化，设置需要选择的特征数，对每一个特征，计算其评分，选取得分最大的特征，添加到目标特征子集，从所述待选择的特征集合中删除得分最大的特征，得到更新后的目标特征子集；

步骤S3：根据所述更新后的目标特征子集，生成新的训练集和测试集，并对更新后的训练集和测试集进行分类，得到分类准确度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于去冗余互信息特征选择的文本分类系统及方法 [P] . 中国专利： CN112364629A . 2021-02-12
2. 基于类感知特征选择框架的文本分类方法和系统 [P] . 中国专利： CN110147810B . 2020.05.19
3. METHOD FOR EFFICIENT BAYESIAN MODEL AVERAGING OF BAYESIAN NETWORK CLASSIFIERS OVER MULTIPLE NODE-ORDERS VIA FEATURE SELECTION BASED ON NORMALIZED MUTUAL INFORMATION [P] . 韩国专利： KR20090048767A . 2009-05-15

机译：基于归一化互信息的特征选择的多节点阶贝叶斯网络分类器有效贝叶斯模型平均的方法
4. Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof [P] . 美国专利： US2018357531A1 . 2018-12-13

机译：类矢量的文本分类与特征选择方法及其系统
5. A METHOD FOR TEXT CLASSIFICATION AND FEATURE SELECTION USING CLASS VECTORS AND THE SYSTEM THEREOF [P] . 世界知识产权组织专利： WO2017090051A1 . 2017-06-01

机译：利用类矢量进行文本分类和特征选择的方法及其系统