公开/公告号CN103902570A
专利类型发明专利
公开/公告日2014-07-02
原文格式PDF
申请/专利权人 腾讯科技(深圳)有限公司;
申请/专利号CN201210578378.0
申请日2012-12-27
分类号G06F17/30(20060101);
代理机构44202 广州三环专利代理有限公司;
代理人郝传鑫;熊永强
地址 518057 广东省深圳市福田区振兴路赛格科技园2栋东403室
入库时间 2023-12-17 00:01:10
法律状态公告日
法律状态信息
法律状态
2018-11-09
授权
授权
2016-01-20
实质审查的生效 IPC(主分类):G06F17/30 申请日:20121227
实质审查的生效
2014-07-02
公开
公开
技术领域
本发明涉及文本分类领域,尤其涉及一种文本分类特征提取方法、分类方 法及装置。
背景技术
随着互联网技术的迅速发展,网络文本的数量呈现爆炸性的增长,如何有 效的管理这些文本是当前的热点问题,文本分类作为管理海量数据的关键技术, 已得到广泛的应用。
目前采用的基于统计的文本分类方法通过学习已分类的文本,能较好的对 新的实例文本进行分类。其中,在对新的实例进行分类的过程中,需要先对实 例文本进行分词处理,得到包括若干词语的词语集合,再基于词语集合中的所 有词语进行文本分类处理,完成对该实例文本的分类。发明人在实施现有技术 时发现,采用上述方式的分类方法在实例文本内容比较多,分词得到的词语的 数量比较高的情况下,分类运算性能比较差。
发明内容
本发明实施例所要解决的技术问题在于,提供一种文本分类特征提取方法、 分类方法及装置,可提高了分类的性能。
为了解决上述技术问题,本发明实施例提供了一种文本分类特征提取方法, 其特征在于,包括:
获取训练集文本的特征词集合;
根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长 度,确定各特征词的特征评分值;
记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本 特征集合。
其中,所述获取训练集文本的特征词集合包括:
对训练集文本进行分词处理,得到所述训练集文本的词语集合;
删除所述词语集合中的停用词,得到特征词集合,所述词语集合中的停用 词包括语气助词和/或人称代词。
其中,所述删除所述词语集合中的停用词,得到特征词集合,包括:
将所述词语集合中各个分词与预设的停用词库中的预置停用词进行比较;
根据比较结果将词语集合中与预置停用词相同的分词删除,得到特征词集 合。
其中,所述根据特征词集合中各特征词与预置文本类别的相关度以及特征 词的词长度,确定各特征词的特征评分值,包括:
确定特征词集合中各特征词与预置的每一个文本类别的相关度;
根据各特征词的词长度确定各特征词的长度权重值;
根据各特征词的相关度和长度权重值,确定各特征词的特征评分值。
其中,所述根据各特征词的相关度和长度权重值,确定各特征词的特征评 分值,包括:
根据特征词的相关度,确定特征词在各对应文本类别上的类别区分能力;
确定特征词在预置的所有文本类别上的类别区分能力之和;
根据类别区分能力之和与长度权重值,确定各特征词的特征评分值。
其中,所述确定特征词集合中各特征词与预置文本类别的相关度中,确定 相关度的计算公式包括:
其中,Rjk表示特征词tk与文本类别Cj的相关度,{i:tk∈dj,dj∈Cj}|表示文本 类别Cj中出现特征词tk的文档数,|Cj|表示文本类别Cj的文档总数。
其中,所述根据各特征词的词长度确定各特征词的长度权重值中,确定长 度权重值的计算公式包括:
weight(len(tk))=log(e+len(tk));
其中,e为预设的自然数值,len(tk)为特征词tk的长度值。
其中,所述根据各特征词的相关度,确定各特征词在相应文本类别上的类 别区分能力中,确定类别区分能力的计算公式包括:
Diffjk=min(|Rjk-Rik|),i≠j;
其中,Diffjk表示特征词tk在文本类别Cj上的类别区分能力的值,Rjk表示特 征词tk与文本类别Cj的相关度,Rik表示特征词tk与文本类别Ci的相关度;
所述确定特征词在预置的所有文本类别上的类别区分能力之和中,确定所 述类别区分能力之和的计算公式包括:
其中,Diffk为特征词tk在预置的所有文本类别上的类别区分能力之和;
所述根据类别区分能力之和与长度权重值,确定各特征词的特征评分值中, 确定特征评分值的计算公式包括:
f(tk)=Diffk×weight(len(tk));
其中,f(tk)为特征词tk的特征评分值。
相应地,本发明实施例还提供了一种文本分类方法,包括:
分别获取训练集内各文本的特征词集合,并将其合并去重形成训练集的特 征词集合;
根据训练集的特征词集合中每一个特征词与预置的文本类别的相关度以及 词长度,确定每一个特征词的特征评分值;
记录特征评分值高于预设分数阈值的特征词,得到所述训练集的文本特征 集合;
根据训练集的文本特征集合,获取测试集各文本的特征词集合;
根据训练集的文本特征集合和所述测试集内各文本的特征词集合进行文本 向量化操作,得到训练集内各文本的文本向量和测试集内各文本的文本向量, 形成训练集的文本向量集合和测试集的文本向量集合;
根据训练集的文本向量集合生成文本分类模型,并根据所述生成的文本分 类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中 各个文本的类别。
其中,所述根据训练集的文本特征集合和所述测试集内各文本的特征词集 合进行文本向量化操作,得到训练集内各文本的文本向量和测试集内各文本的 文本向量,形成训练集的文本向量集合和测试集的文本向量集合,包括:
对所述训练集的文本特征集合和所述测试集内各文本的特征词集合中的每 一个特征词分配索引;
根据训练集的文本特征集合确定所述训练集内各文本的文本特征集合中的 每一个特征词的权重,并确定测试集中各文本的特征词集合中的每一个特征词 的权重,其中,所述确定权重的算法包括:词频-逆文档频率TF-IDF加权算法;
根据每一个特征词的索引和权重生成向量,分别得到训练集和测试集中各 文本的文本向量,得到训练集和测试集的文本向量集合。
其中,所述根据训练集的文本向量集合生成文本分类模型,并根据所述生 成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获 得测试集中各个文本的类别,包括:
对所述训练集的文本向量集合中每一个文本向量执行归一化处理,以将每 一个文本向量中的每一个特征项的权重投射到预设的数值范围内;
根据归一化处理后训练集的文本向量集合和预置的分类模型,生成文本分 类模型,所述预置的分类模型包括支持向量机SVM分类模型;
根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向 量进行分类,获得测试集中各个文本的类别。
其中,所述根据训练集的文本向量集合生成文本分类模型,并根据所述生 成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获 得测试集中各个文本的类别,包括:
根据训练集的文本向量集合和预置的分类模型,生成文本分类模型,所述 预置的分类模型包括朴素贝叶斯分类模型;
根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向 量进行分类,获得测试集中各个文本的类别。
相应地,本发明实施例还提供了一种文本分类特征提取装置,包括:
获取模块,用于获取训练集文本的特征词集合;
确定模块,用于根据特征词集合中各特征词与预置的文本类别的相关度以 及特征词的词长度,确定各特征词的特征评分值;
记录模块,用于记录特征评分值高于预设分数阈值的特征词,得到所述训 练集文本的文本特征集合。
其中,所述获取模块包括:
分词单元,用于对训练集文本进行分词处理,得到所述训练集文本的词语 集合;
删除单元,用于删除所述词语集合中的停用词,得到特征词集合,所述词 语集合中的停用词包括语气助词和/或人称代词。
其中,所述删除单元包括:
比较子单元,用于将所述词语集合中各个分词与预设的停用词库中的预置 停用词进行比较;
删除子单元,用于根据比较结果将词语集合中与预置停用词相同的分词删 除,得到特征词集合。
其中,所述确定模块包括:
第一确定单元,用于确定特征词集合中各特征词与预置的每一个文本类别 的相关度;
第二确定单元,用于根据各特征词的词长度确定各特征词的长度权重值;
第三确定单元,用于根据各特征词的相关度和长度权重值,确定各特征词 的特征评分值。
其中,所述第三确定单元,具体用于根据特征词的相关度,确定特征词在 各对应文本类别上的类别区分能力,并确定特征词在预置的所有文本类别上的 类别区分能力之和,并根据类别区分能力之和与长度权重值,确定各特征词的 特征评分值。
相应地,本发明实施例还提供了一种文本分类装置,包括:
特征提取模块,用于分别获取训练集内各文本的特征词集合,并将其合并 去重形成训练集的特征词集合,根据训练集的特征词集合中每一个特征词与预 置的文本类别的相关度以及词长度,确定每一个特征词的特征评分值,记录特 征评分值高于预设分数阈值的特征词,得到所述训练集的文本特征集合;
获取模块,用于根据训练集的文本特征集合,获取测试集各文本的特征词 集合;
向量确定模块,用于根据训练集的文本特征集合和所述测试集内各文本的 特征词集合进行文本向量化操作,得到训练集内各文本的文本向量和测试集内 各文本的文本向量,形成训练集的文本向量集合和测试集的文本向量集合;
分类模块,用于根据训练集的文本向量集合生成文本分类模型,并根据所 述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分 类,获得测试集中各个文本的类别。
其中,所述向量确定模块包括:
索引分配单元,用于对所述训练集的文本特征集合和所述测试集内各文本 的特征词集合中的每一个特征词分配索引;
权重确定单元,根据训练集的文本特征集合确定所述训练集内各文本的文 本特征集合中的每一个特征词的权重,并确定测试集中各文本的特征词集合中 的每一个特征词的权重,其中,所述确定权重的算法包括:词频-逆文档频率 TF-IDF加权算法;
向量确定单元,用于根据每一个特征词的索引和权重生成向量,分别得到 训练集和测试集中各文本的文本向量,得到训练集和测试集的文本向量集合。
其中,所述分类模块包括:
模型生成单元,用于对所述训练集的文本向量集合中每一个文本向量执行 归一化处理,以将每一个文本向量中的每一个特征项的权重投射到预设的数值 范围内;根据归一化处理后训练集的文本向量集合和预置的分类模型,生成文 本分类模型,所述预置的分类模型包括支持向量机SVM分类模型;
第一分类单元,用于根据所述生成的文本分类模型对所述测试集的文本向 量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
其中,所述分类模块包括:
第二分类单元,用于根据训练集的文本向量集合和预置的分类模型,生成 文本分类模型,所述预置的分类模型包括朴素贝叶斯分类模型,根据所述生成 的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得 测试集中各个文本的类别。
实施本发明实施例,具有如下有益效果:
本发明实施例在分词得到词语集合后,还需要根据词语集合中各个特征词 与文本类别的相关度以及特征词的长度对词语集合进行特征提取,可以在得到 能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在 对文本进行分类时,减小分类运行时间,减小分类处理的时间和空间开销,节 省分类成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种文本分类特征提取方法的流程示意图;
图2是本发明实施例的另一种文本分类特征提取方法的流程示意图;
图3是本发明实施例的特征评分值的其中一种具体确定方法的流程示意图;
图4是本发明实施例的一种文本分类方法的流程示意图;
图5是本发明实施例的一种文本分类特征提取装置的结构示意图;
图6是图5中的获取模块的其中一种具体结果示意图;
图7是图5中的确定模块的其中一种具体结构组成示意图;
图8本发明实施例的一种文本分类装置的结构示意图;
图9是图8中的向量确定模块的其中一种具体结果示意图;
图10是图8中的分类模块的其中一种具体结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例的一种文本分类特征提取方法的流程示意图; 本发明实施例的所述方法可应用于各类文本应用服务器中,所涉及的训练集为 预先设置的一个包括多个文本称之为训练集文本的集合,该训练集内文本的文 本类型为已知类型,对所述训练集中文本进行本发明实施例的特征提取,以便 于根据提取结果生成相应的分类模型对未知的测试集的文本进行分类。具体的, 本发明实施例的所述方法包括:
S101:获取训练集文本的特征词集合。
所述特征词集合中包括能够较好地反映所述训练集文本所要表达的含义的 字或词语,具体的,在本发明实施例中,所述获取训练集文本的特征词集合可 以包括:对训练集文本进行分词处理,得到所述训练集文本的词语集合;删除 所述词语集合中的停用词,得到特征词集合,所述词语集合中的停用词包括语 气助词和/或人称代词。
其中,所述训练集文本为已经被标注类别的文本,用于对一些未知类别的 测试集文本作为参考进行分类,其具体可以是一些已经知道类别的微博内容文 本、新闻稿件文本、论文文本等,分词处理即是将所述训练集文本中各个句子 分解为字或词语,将文本转换为字、词的集合。分词过程可采用现有的分词方 式进行,在此不赘述。
删除停用词包括删除标点符号以及一些无特殊意义的语气组词、人称代词 等,这些停用词在任何文本中都可能出现,因此其对文本的代表能力比较弱, 不能反映文档的主题,需要删除。
S102:根据特征词集合中各特征词与预置文本类别的相关度以及特征词的 词长度,确定各特征词的特征评分值。
特征词与文本类别的相关度可以根据预置的文本类别下已知的所有文本中 出现所述特征词的文档数与该分类文档总数的比值得出。
同时,一般情况下,词的长度越短,其所表达的信息也越少,单个字所表 达的信息更少,因此,词的长度越长,就更能反映出文本类别,因此,可以引 入词长对特征词进行特征评分。
由于词长和相关度已经得出,即可采用相应的词长度作为权重值,与相关 度进行求积计算的方式得到特征评分值。不同特征词的相关度以及词长并不相 同,其得到的特征评分值也会有大有小,以便于下述的S103删除掉分值较小的 特征词,保留特征评分值较大的特征词,得到文本特征集合。
S103:记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本 的文本特征集合。
确定得出各特征词的特征评分值后,将特征词集合中特征评分值小于预设 分数阈值的特征词删除,剩下的特征词即组成训练集文本的文本特征集合。
本发明实施例在分词得到词语集合后,还需要根据词语集合中各个特征词 与文本类别的相关度以及特征词的长度对词语集合进行特征提取,可以在得到 能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在 对文本进行分类时,减小分类运行时间,减小分类处理的时间和空间开销,节 省分类成本。
再请参见图2,是本发明实施例的另一种文本分类特征提取方法的流程示意 图;本发明实施例的所述方法同样可以应用于各类文本应用服务器中,以便于 文本应用服务器根据本文本分类特征提取方法提取特征后生成分类模型,完成 对未知文本类型的测试集文本的分类,具体的,本发明实施例的所述方法包括:
S201:对训练集文本进行分词处理,得到所述训练集文本的词语集合。
S202:删除所述词语集合中的停用词,得到特征词集合,所述词语集合中 的停用词包括语气助词和/或人称代词。
删除停用词包括删除标点符号以及一些无特殊意义的语气组词、人称代词 等,这些停用词在任何文本中都可能出现,因此其对文本的代表能力比较弱, 不能反映文档的主题,需要删除。
在本发明实施例中,所述S202具体可以包括:将所述词语集合中各个分词 与预设的停用词库中的预置停用词进行比较;根据比较结果将词语集合中与预 置停用词相同的分词删除,得到特征词集合。
所述停用词库中包括的停用词是由用户预先录入的,其中包括各类助词、 人称代词等不包含特殊意义的词。文本服务器等设备通过逐一比较的方式删除 训练集文本的词语集合中的相应词语,得到特征词集合,即第一特征词集合。
S203:确定特征词集合中各特征词与预置的每一个文本类别的相关度。
特征词与文本类别的相关度可以根据所述文本类别下已知的所有文本中出 现所述特征词的文档数与文档总数的比值得出。
在本发明实施例中,具体的确定相关度的计算公式可以为:
其中,Rjk表示特征词tk与文本类别Cj的相关度,{i:tk∈dj,dj∈Cj}|表示文本 类别Cj中出现特征词tk的文档数,|Cj|表示文本类别Cj的文档总数。
S204:根据各特征词的词长度确定各特征词的长度权重值。
一般情况下,词的长度越短,其所表达的信息也越少,单个字所表达的信 息更少,因此,词的长度越长,就更能反映出文本类别,因此,可以引入词长 对特征词进行特征评分。
在本发明实施例中,具体的确定长度权重值的计算公式可以为:
weight(len(tk))=log(e+len(tk));
其中,e为预设的自然数值,len(tk)为特征词tk的长度值。其中的e为用户根 据分类经验获得的数值。
S205:根据各特征词的相关度和长度权重值,确定各特征词的特征评分值。
由于词长和相关度已经得出,即可采用相应的例如将词长度作为权重值, 与相关度进行求积计算的方式得到特征评分值。不同特征词的相关度以及词长 并不相同,其得到的特征评分值也会有大有小,以便于删除掉较小的特征词, 保留特征评分值较大的特征词,得到文本特征集合,即第二特征词集合。
S206:记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本 的文本特征集合。
在确定得出个特征词的特征评分值后,将特征词集合中特征评分值小于预 设分数阈值的特征词删除,剩下的特征词即组成训练集文本的文本特征集合。
进一步具体的,再请参见图3,是本发明实施例的特征评分值的其中一种具 体确定方法的流程示意图;在本发明实施例中,所述特征评分值的具体确定方 法包括:
S301:根据特征词的相关度,确定特征词在各对应文本类别上的类别区分 能力。
本实施例中的确定类别区分能力的计算公式包括:
Diffjk=min(|Rjk-Rik|),i≠j;
其中,Diffjk表示特征词tk在文本类别Cj上的类别区分能力的值,Rjk表示特 征词tk与文本类别Cj的相关度,Rik表示特征词tk与文本类别Ci的相关度。
所述的类别区分能力值用于表征特征词在某个类别上与在其他类别上的代 表能力的差异,差异越大就表明特征词能够将该类与其他类区分开的能力越大。
S302:确定特征词在预置的所有文本类别上的类别区分能力之和。
本实施例中的确定所述类别区分能力之和的计算公式包括:
其中,Diffk为特征词tk在预置的所有文本类别上的类别区分能力之和。
S303:根据类别区分能力之和与长度权重值,确定各特征词的特征评分值。
本实施例中的确定特征评分值的计算公式包括:
f(tk)=Diffk×weight(len(tk));
其中,f(tk)为特征词tk的特征评分值。
本发明实施例在分词得到词语集合后,还需要根据词语集合中各个特征词 与文本类别的相关度以及特征词的长度对词语集合进行特征提取,可以在得到 能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在 对文本进行分类时,减小分类运行时间,减小分类处理的时间和空间开销,节 省分类成本。
并且根据相关度确定出特征词在各个类别上的类别区分能力,再根据类别 区分能力之和与长度权重值来进行特征词的特征评分值确定以及筛选,能够更 为准确地提取得到训练集文本中表征目标文本类别信息的特征词,进一步地保 证了特征词提取的准确性。
下面对本发明实施例的文本分类方法进行详细说明。
请参见图4,是本发明实施例的一种文本分类方法的流程示意图;本发明实 施例的所述方法首先通过上述的文本分类特征提取方法提取出目标文本的特征 词,然后再根据特征词进行分类,其中所涉及的训练集为预先设置的一个包括 多个文本称之为训练集文本的集合,该训练集内文本的文本类型为已知类型, 对所述训练集中文本进行本发明实施例的特征提取,以便于根据提取结果生成 相应的分类模型对未知的测试集的文本进行分类。其具体包括:
S401:分别获取训练集内各文本的特征词集合,并将其合并去重形成训练 集的特征词集合;
所述训练集中包括多个文本,这些文本为已经被标注类别的文本,用于对 一些未知类别的测试集文本作为参考进行分类,在分别得到训练集内每一个文 本的特征词集合中,对每一个文本的特征词集合进行处理,去除重复的词仅保 留其中一个,形成整个训练集的特征词集合。
所述S401中得到每一个训练集中文本的特征词集合具体包括:对训练集文 本进行分词处理,得到所述训练集文本的词语集合;删除所述词语集合中的停 用词,得到特征词集合,所述词语集合中的停用词包括语气助词和/或人称代词。 对训练集内的每一个文本进行特征词提取以获取训练集的文本特征集合。
S402:根据训练集的特征词集合中每一个特征词与预置的文本类别的相关 度以及词长度,确定每一个特征词的特征评分值。
S403:记录特征评分值高于预设分数阈值的特征词,得到所述训练集的文 本特征集合。
本发明实施例的确定特征词的特征评分值以及最后获取到训练集的文本特 征集合所使用的具体计算公式和方式可采用上述图2以及图3对应的文本分类 特征提取方法实施例中的具体提取方式以及公式进行,在此不赘述。
S404:根据训练集的文本特征集合,获取测试集各文本的特征词集合;
所述S404中对测试集各文本进行处理也可具体包括:对测试集文本进行分 词处理,得到所述测试集文本的词语集合;删除所述词语集合中的停用词,并 根据训练集的文本特征集合中的特征词,得到特征词集合,所述词语集合中的 停用词包括语气助词和/或人称代词,即删除测试集文本的词语集合中的语气组 词、人称代词、以及在训练集的文本特征集合中不存在的词。测试集中包括一 个或者多个需要确定其类别的文本称之为测试集文本,其可以包括未知文本类 别的微博内容、新闻稿件、论文文本等。
S405:根据训练集的文本特征集合和所述测试集内各文本的特征词集合进 行文本向量化操作,得到训练集内各文本的文本向量和测试集内各文本的文本 向量,形成训练集的文本向量集合和测试集的文本向量集合。
向量集合是将训练集内各文本的文本特征集合或者测试集文本的特征词集 合中的每一个特征表示成对应的向量的集合。本实施例中,所述S405具体可以 包括:对所述训练集的文本特征集合和所述测试集内各文本的特征词集合中的 每一个特征词分配索引;根据训练集的文本特征集合确定所述训练集内各文本 的文本特征集合中的每一个特征词的权重,并确定测试集中各文本的特征词集 合中的每一个特征词的权重,其中,所述确定权重的算法包括:词频-逆文档频 率TF-IDF加权算法;根据每一个特征词的索引和权重生成向量,分别得到训练 集和测试集中各文本的文本向量,得到训练集和测试集的文本向量集合。
具体的,分配训练集的文本特征集合中每一个特征词的索引值是针对训练 集内每一个文本进行的分配,以得到对应于训练集内各文本的分配了索引值的 文本分类特征,其中,每一个分配了索引值的文本分类特征中,对于其对应的 文本中不存在的特征词,为其分配的索引值为0,而对于存在的特征词,则分配 的索引值为1。然后采用TF-IDF加权算法等确定所述训练集内各文本的分配了 索引值的文本特征集合中的每一个特征词的权重,得到训练集中各文本的文本 向量。测试集则可以直接对测试集内每一个文本分配索引值后采用TF-IDF加权 算法确定文本中每一个特征词的权重,以便于最终确定得到测试集的每一个文 本的文本向量。
当然,在所述S405中,对相应的集合进行文本向量化操作也可以直接采用 现有技术实现。
S406:根据训练集的文本向量集合生成文本分类模型,并根据所述生成的 文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测 试集中各个文本的类别。
所述S406中根据训练集内各文本的向量集合生成文本分类模型具体可以包 括:对所述训练集的文本向量集合中每一个文本向量执行归一化处理,以将每 一个文本向量中的每一个特征项的权重投射到预设的数值范围内;根据归一化 处理后训练集的文本向量集合和预置的分类模型,生成文本分类模型,所述预 置的分类模型包括支持向量机SVM分类模型;根据所述生成的文本分类模型对 所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本 的类别。或者包括:根据训练集的文本向量集合和预置的分类模型,生成文本 分类模型,所述预置的分类模型包括朴素贝叶斯分类模型;根据所述生成的文 本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试 集中各个文本的类别。
由于该文本分类模型是由一个或者多个不同类型的文本生成的,因此,通 过该生成的文本分类模型可以对未知类别的文本的分类,通过文本分类模型即 可确定出所述测试集文本的文本类别。
本发明实施例在分词得到词语集合后,还需要根据词语集合中各个特征词 与文本类别的相关度以及特征词的长度对词语集合进行特征提取,可以在得到 能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在 对文本进行分类时,减小分类运行时间,减小分类处理的时间和空间开销,节 省分类成本。
下面对本发明实施例的文本分类特征提取装置进行详细说明。
请参见图5,是本发明实施例的一种文本分类特征提取装置的结构示意图; 本发明实施例所述的文本提取装置可以设置在文本服务器等设备中,所涉及的 训练集为预先设置的一个包括多个文本称之为训练集文本的集合,该训练集内 文本的文本类型为已知类型,对所述训练集中文本进行本发明实施例的特征提 取,以便于根据提取结果生成相应的分类模型对未知的测试集的文本进行分类。 本发明实施例的所述装置可以包括:
获取模块11,用于获取训练集文本的特征词集合;
所述特征词集合中包括能够较好地反映所述训练集文本所要表达的含义的 字或词语,具体的,在本发明实施例中,所述获取训练集文本的特征词集合可 以包括:对训练集文本进行分词处理,得到所述训练集文本的词语集合;删除 所述词语集合中的停用词,得到特征词集合,所述词语集合中的停用词包括语 气助词和/或人称代词。
确定模块12,用于根据特征词集合中各特征词与预置的文本类别的相关度 以及词长度,确定各特征词的特征评分值。
记录模块13,用于记录特征评分值高于预设分数阈值的特征词,得到所述 训练集文本的文本特征集合。
特征词与文本类别的相关度可以根据预置的文本类别下已知的所有文本中 出现所述特征词的文档数与该分类文档总数的比值得出。
同时,一般情况下,词的长度越短,其所表达的信息也越少,单个字所表 达的信息更少,因此,词的长度越长,就更能反映出文本类别,因此,可以引 入词长对特征词进行特征评分。
由于词长和相关度已经得出,即可采用相应的词长度作为权重值,与相关 度进行求积的方式得到特征评分值。不同特征词的相关度以及词长并不相同, 其得到的特征评分值也会有大有小,以便于所述记录模块13删除掉分值较小的 特征词保留特征评分值较大的特征词,得到文本特征集合。
所述记录模块13在所述确定模块12确定得出个特征词的特征评分值后, 将特征词集合中特征评分值小于预设分数阈值的特征词删除,剩下的特征词即 组成目标文本的文本特征集合。
进一步的,请参见图6,是图5中的获取模块的其中一种具体结果示意图, 所述获取模块11具体可以包括以下单元实现:
分词单元111,用于对训练集文本进行分词处理,得到所述训练集文本的词 语集合。
删除单元112,用于删除所述词语集合中的停用词,得到特征词集合,所述 词语集合中的停用词包括语气助词和/或人称代词。
所述训练集文本为已经被标注类别的文本,其具体可以是一些已经知道类 别的微博内容文本、新闻稿件文本、论文文本等,分词处理即是将所述训练集 文本中各个句子分解为字或词语,将文本转换为字、词的集合。分词过程可采 用现有的分词方式进行,在此不赘述。
删除停用词包括删除标点符号以及一些无特殊意义的语气组词、人称代词 等,这些停用词在任何文本中都可能出现,因此其对文本的代表能力比较弱, 不能反映文档的主题,需要删除。
进一步具体的,所述删除单元112还可以包括以下子单元:
比较子单元1121,用于将所述词语集合中各个分词与预设的停用词库中的 预置停用词进行比较。
删除子单元1122,用于根据比较结果将词语集合中与预置停用词相同的分 词删除,得到特征词集合。
所述停用词库中包括的停用词是由用户预先录入的,其中包括各类助词、 人称代词等不包含特殊意义的词。文本服务器等设备通过逐一比较的方式删除 目标文本的词语集合中的相应词语,得到特征词集合,即第一特征词集合。
进一步的,再请参见图7,是图5中的确定模块的其中一种具体结构组成示 意图,所述确定模块13具体可以包括以下单元:
第一确定单元131,用于确定特征词集合中各特征词与预置的每一个文本类 别的相关度。
第二确定单元132,用于根据各特征词的词长度确定各特征词的长度权重 值。
第三确定单元133,用于根据各特征词的相关度和长度权重值,确定各特征 词的特征评分值。
所述第一确定单元131确定特征词与文本类别的相关度可以根据所述文本 类别下已知的所有文本中出现所述特征词的文档数与文档总数的比值得出。
在本发明实施例中,具体的确定相关度的计算公式可以为:
其中,Rjk表示特征词tk与文本类别Cj的相关度,{i:tk∈dj,dj∈Cj}|表示文本 类别Cj中出现特征词tk的文档数,|Cj|表示文本类别Cj的文档总数。
对于所述第二确定单元132,在一般情况下,词的长度越短,其所表达的信 息也越少,单个字所表达的信息更少,因此,词的长度越长,就更能反映出文 本类别,因此,可以引入词长对特征词进行特征评分。
在本发明实施例中,具体的确定长度权重值的计算公式可以为:
weight(len(tk))=log(e+len(tk));
其中,e为预设的自然数值,为用户根据分类经验获得的数值,len(tk)为特 征词tk的长度值。
由于词长和相关度已经得出,所述第三确定单元133即可采用相应的例如 将词长度作为权重值,与相关度进行求积的方式得到特征评分值。不同特征词 的相关度以及词长并不相同,其得到的特征评分值也会有大有小,根据特征评 分值可以删除掉较小的特征词,保留特征评分值较大的特征词,得到文本特征 集合,即第二特征词集合。
具体的,在本发明实施例中,所述第三确定单元133确定特征评分者具体 可根据以下公式完成确定。
首先,根据特征词的相关度,确定特征词在各对应文本类别上的类别区分 能力。本实施例中的确定类别区分能力的计算公式包括:
Diffjk=min(|Rjk-Rik|),i≠j;
其中,Diffjk表示特征词tk在文本类别Cj上的类别区分能力的值,Rjk表示特 征词tk与文本类别Cj的相关度,Rik表示特征词tk与文本类别Ci的相关度。
所述的类别区分能力值用于表征特征词在某个类别上与在其他类别上的代 表能力的差异,差异越大就表明特征词能够将该类与其他类区分开的能力越大。
其次,确定特征词在预置的所有文本类别上的类别区分能力之和。本实施 例中的确定所述类别区分能力之和的计算公式包括:
其中,Diffk为特征词tk在预置的所有文本类别上的类别区分能力之和。
最后,根据类别区分能力之和与长度权重值,确定各特征词的特征评分值。 本实施例中的确定特征评分值的计算公式包括:
f(tk)=Diffk×weight(len(tk));
其中,f(tk)为特征词tk的特征评分值。
本发明实施例在分词得到词语集合后,还需要根据词语集合中各个特征词 与文本类别的相关度以及特征词的长度对词语集合进行特征提取,可以在得到 能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在 对文本进行分类时,减小分类运行时间,减小分类处理的时间和空间开销,节 省分类成本。
并且根据相关度确定出特征词在各个类别上的类别区分能力,再根据类别 区分能力之和与长度权重值来进行特征词的特征评分值确定以及筛选,能够更 为准确地提取得到训练集文本中表征目标文本类别信息的特征词,进一步地保 证了特征词提取的准确性。
再请参见图8,是本发明实施例的一种文本分类装置的结构示意图。本发明 实施例所述的文本提取装置可以设置在文本服务器等设备中,以便于根据本文 本分类特征提取方法提取到某一目标文本的特征后完成对该目标文本的分类, 具体的,本发明实施例的所述装置可以包括:特征提取模块21,获取模块22, 向量确定模块23以及分类模块24。
所述特征提取模块21,用于分别获取训练集内各文本的特征词集合,并将 其合并去重形成训练集的特征词集合,根据训练集的特征词集合中每一个特征 词与预置的文本类别的相关度以及词长度,确定每一个特征词的特征评分值, 记录特征评分值高于预设分数阈值的特征词,得到所述训练集的文本特征集合。
具体的,所述的特征提取模块21可以具体包括上述文本分类特征提取装置 实施例中的获取模块11获取训练集内各文本的特征词集合,然后合并后去除重 复词,再通过确定模块12以及记录模块13进行确定以及记录处理,完成训练 集中各文本的文本特征集合的获取。
所述获取模块22,用于根据训练集的文本特征集合,获取测试集各文本的 特征词集合。
所述获取模块22得到测试集各文本的特征词集合具体可以是通过:对测试 集文本进行分词处理,得到所述测试集文本的词语集合;删除所述词语集合中 的停用词,并根据训练集的文本特征集合中的特征词,得到特征词集合,所述 词语集合中的停用词包括语气助词和/或人称代词,即删除测试集文本的词语集 合中的语气组词、人称代词、以及在训练集的文本特征集合中不存在的词。测 试集中包括一个或者多个需要确定其类别的文本称之为测试集文本,其可以包 括未知文本类别的微博内容、新闻稿件、论文文本等。
所述向量确定模块23,用于根据训练集的文本特征集合和所述测试集内各 文本的特征词集合进行文本向量化操作,得到训练集内各文本的文本向量和测 试集内各文本的文本向量,形成训练集的文本向量集合和测试集的文本向量集 合;
分类模块24,用于根据训练集的文本向量集合生成文本分类模型,并根据 所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分 类,获得测试集中各个文本的类别。
具体的,请参见图9,是图8中的向量确定模块的其中一种具体结果示意图。 所述向量确定模块23可以采用现有技术中的向量化操作完成文本分类特征向量 化,其具体可以包括:
索引分配单元231,用于对所述训练集的文本特征集合和所述测试集内各文 本的特征词集合中的每一个特征词分配索引;
权重确定单元232,用于根据训练集的文本特征集合确定所述训练集内各文 本的文本特征集合中的每一个特征词的权重,并确定测试集中各文本的特征词 集合中的每一个特征词的权重,其中,所述确定权重的算法包括:词频-逆文档 频率TF-IDF加权算法;
向量确定单元233,用于根据每一个特征词的索引和权重生成向量,分别得 到训练集和测试集中各文本的文本向量,得到训练集和测试集的文本向量集合。
进一步的,请参见图10,是图8中的分类模块的其中一种具体结构示意图, 所述分类模块24则可以包括:
模型生成单元241,用于对所述训练集的文本向量集合中每一个文本向量执 行归一化处理,以将每一个文本向量中的每一个特征项的权重投射到预设的数 值范围内;根据归一化处理后训练集的文本向量集合和预置的分类模型,生成 文本分类模型,所述预置的分类模型包括支持向量机SVM分类模型;
第一分类单元242,用于根据所述生成的文本分类模型对所述测试集的文本 向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
进一步的,所述分类模块24还可以包括:
第二分类单元233,用于根据训练集的文本向量集合和预置的分类模型,生 成文本分类模型,所述预置的分类模型包括朴素贝叶斯分类模型,根据所述生 成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获 得测试集中各个文本的类别。
所述分类模块24可以同时包括上述模型生成单元241、第一分类单元242 以及第二分类单元243,以便于可以根据需要基于SVM分类模型或者基于朴素 贝叶斯模型进行目标文本的分类操作。当然也可仅包括上述模型生成单元241、 第一分类单元242或者第二分类单元243,以仅基于SVM分类模型或者基于朴 素贝叶斯模型进行目标文本的分类操作。
本发明实施例在分词得到词语集合后,还需要根据词语集合中各个特征词 与文本类别的相关度以及特征词的长度对词语集合进行特征提取,可以在得到 能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在 对文本进行分类时,减小分类运行时间,减小分类处理的时间和空间开销,节 省分类成本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之 权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
机译: 特征提取方法,对象分类方法,对象识别方法,特征提取装置,对象分类装置,对象识别装置,特征提取/对象分类/对象识别程序以及记录该程序的记录介质
机译: 特征量提取方法,对象分类方法,对象识别方法,特征量提取装置,对象分类系统,对象判定单元,特征提取和对象分类及对象确定程序以及记录该程序的记录介质
机译: 特征定量提取方法,主题分类方法和主题区分方法,特征定量提取设备,主题分类装置和主题区分设备,记录特征定量提取主题分类的记录介质以及主题区分程序和所述程序