首页> 中国专利> 一种混合傅里叶核函数支持向量机文本分类方法

一种混合傅里叶核函数支持向量机文本分类方法

摘要

本发明提出了一种混合傅里叶核函数支持向量机文本分类方法。所述方法根据支持向量机中各种核函数不同的学习、泛化能力,进而通过线性加权混合多项式与傅里叶核函数,组成新的混合傅里叶核函数;由于核函数的学习能力以及泛化能力很大程度上影响支持向量机分类效果,因此把多项式核函数与傅里叶核函数相结合。本发明方法继承了傅里叶核函数的高学习能力与多项式核函数的泛化能力,提高了支持向量机分类器的性能;并且与单核中的多项式核函数、高斯核函数、傅里叶核函数以及混合核函数中的多项式与高斯核组合核函数比较,混合傅里叶核函数具有更好的泛化、学习能力,文本分类效果最佳。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-07

    授权

    授权

  • 2020-02-18

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20180227

    著录事项变更

  • 2019-06-18

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20180227

    著录事项变更

  • 2018-10-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20180227

    实质审查的生效

  • 2018-09-14

    公开

    公开

说明书

技术领域

本发明主要应用在机器学习中的自然语言处理方面,尤其是涉及到一种混合傅里叶核函数支持向量机文本分类方法。

背景技术

随着大数据时代的来临,自然语言处理、图像处理等有关数据处理方面都有了快速的发展。由于文本信息高维度的特征,如何在这些复杂的高维度特征中找到特有的规律,以便日后能为人们更好的服务,这是统计学习理论的重要研究方向。支持向量机(SupportVectorMachines,SVM)是1995年由Vapnik等人提出的一种基于统计学习理论的机器学习方法。SVM通过依靠多种核函数解决了非线性问题。

目前SVM在非线性的文本分类问题上也得到了广泛的研究。文章[刘高辉,杨星.一种混合核函数的支持向量机[J].微型机与应用,2017,36(11):19-22.]中提到多项式核函数优秀的泛化能力非常适合文本分类问题。对于学习能力较强的核函数加入多项式核函数往往能提高分类的效果。文章[刘志康.一种改进的混合核函数支持向量机文本分类方法[J].工业控制计算机.2016,29(6):113-117]中提出了多项式核函数与条件正定核组成的混合核函数。文章[J.A.K.Suykens,J.Vandewalle,Least squares support vectormachine classifiers,Neural Processing Letters 9(3),293(1999).]提出了最小二乘支持向量机来解决非线性问题,但是精确度并不是很高。文献[张勇.支持向量机中傅里叶核的性能分析[D].华东师范大学.2008.]在一维傅里叶核基础上研究了N维傅里叶核,但通过实验分析表明在文本分类问题上,N维与一维傅里叶核函数分类效果近似。本文首先说明了支持向量机得基本理论,并分析比较了传统的核函数以及傅里叶核在文本分类上的优缺点。通过比较分析核函数表现出的不同的分类效果、学习能力、泛化能力等,提出了一种混合傅里叶核函数支持向量机模型文本分类方法。

发明内容

本发明所要解决的技术问题是为了提高支持向量机在文本分类中效果,提出了一种混合傅里叶核函数支持向量机文本分类方法。本发明的方法主要是在一维傅里叶核函数上加入多项式核函数组成新的混合傅里叶核函数,混合傅里叶核函数继承了傅里叶核函数的学习能力以及多项式核函数的泛化能力,从而构成新的支持向量机模型,提高了文本分类的效果。

为解决上述技术问题,本发明所采用的技术方案是:

一种混合傅里叶核函数支持向量机文本分类方法,包含如下步骤:

步骤A,训练支持向量机,以得到αi和b,根据优化问题中常用的拉格朗日乘法以及KKT条件,将求解表达式分别与等式约束条件以及不等式约束条件结合,简化支持向量机求解过程,求解转化为:

约束条件:其中C表示松弛变量;

式中,表示支持向量最大间隔等价转换结果;

表示求表达式最小值;

表示求表达式最大值;

表示对表达式求和;

xi,xj∈{x1,x2,...,xn}表示第i,j个训练集文档向量化值,其中,n表示训练集文档数量,1≤i,j≤n;

yi,yj∈{y1,y2,...,yn}表示第i,j个训练集文档所属的类别,取值1或-1;

αij∈α={α12,...,αn}表示xi,xj对应的拉格朗日乘子;

表示法向量;

wT表示w转置;

||w||2表示w欧几里得范数的平方;

b表示超平面在坐标轴上的截距;

K(xi,xj)表示核函数;

步骤B,构造混合傅里叶核函数,以引入支持向量机中,混合傅里叶核函数为:

式中,0≤u≤1;

Kpoly=(xi×xj+c)d表示多项式核函数,其中c取值为1,d取值2或3;

表示傅里叶核函数,其中cos(xi-xj)表示xi-xj的余弦值,0<q<1;

步骤C,将混合傅里叶核函数引入支持向量机:

步骤D,文档向量化:

式中,λkj表示文档de中特征词tk的权值,作为向量化结果

tk∈{t1,t2,...,tm}表示特征词tk,其中m表示总文档中特征词总数量,1≤i≤m;

de∈{d1,d2,...,dN}表示总文档中第e个文档,1≤e≤N;

tf(tk,de)表示特征词tk在文档de中出现的次数;

Nk表示包含特征词tk文档数量;

N表示总文档数;

β是经验值,取值为0.1;

步骤E,总文档通过交叉验证方法选取训练集和测试集,最终决策函数:

式中,f(x's)表示支持向量机模型分类结果;

xs'∈{x1',x'2,...,x'z}表示向量化后第s个测试集文档,其中z表示测试集文档数量1≤s≤z;

K(x's,xi)表示提出的混合傅里叶核函数;

αi和b表示训练支持向量机得到的参数;

sgn(·)表示符号函数;

本发明的有益效果是:本发明使用新的混合傅里叶核函数支持向量机模型,从而提高了文本分类的效果。所述的方法:根据支持向量机中各种核函数不同的学习、泛化能力,进而通过线性加权混合多项式与傅里叶核函数,组成新的混合傅里叶核函数。由于核函数的学习能力以及泛化能力很大程度上影响支持向量机分类效果,因此把多项式核函数与傅里叶核函数相结合,本发明继承了傅里叶核函数的高学习能力与多项式核函数的泛化能力,提高了支持向量机分类器的性能;并且与单核中的多项式核函数、高斯核函数、傅里叶核函数以及混合核函数中的多项式与高斯核组合核函数比较,混合傅里叶核函数具有更好的泛化、学习能力,文本分类效果最佳。

附图说明:

图1为传统的多项式核函数与高斯核函数的线性加权组合核函数在二维空间中的样例图。

图2为本发明混合傅里叶混合核函数二维空间样例图。

具体实施方式

下面结合附图与仿真结果,对本发明提出的一种混合傅里叶核函数支持向量机文本分类方法进行详细说明:

一种混合傅里叶核函数支持向量机文本分类方法,其实施过程如下:

训练支持向量机,以得到αi和b,根据优化问题中常用的拉格朗日乘法以及KKT条件,将求解表达式分别与等式约束条件以及不等式约束条件结合,简化支持向量机求解过程,求解转化为:

约束条件:其中C表示松弛变量;

式中,表示支持向量最大间隔等价转换结果;

表示求表达式最小值;

表示求表达式最大值;

表示对表达式求和;

xi,xj∈{x1,x2,...,xn}表示第i,j个训练集文档向量化值,其中,n表示训练集文档数量,1≤i,j≤n;

yi,yj∈{y1,y2,...,yn}表示第i,j个训练集文档所属的类别,取值1或-1;

αij∈α={α12,...,αn}表示xi,xj对应的拉格朗日乘子;

表示法向量;

wT表示w转置;

||w||2表示w欧几里得范数的平方;

b表示超平面在坐标轴上的截距;

K(xi,xj)表示核函数;

构造混合傅里叶核函数,以引入支持向量机中,混合傅里叶核函数为:

式中,0≤u≤1;

Kpoly=(xi×xj+c)d表示多项式核函数,其中c取值为1,d取值2或3;

表示傅里叶核函数,其中cos(xi-xj)表示xi-xj的余弦值,0<q<1;

将混合傅里叶核函数引入支持向量机:

文档向量化:

式中,λkj表示文档de中特征词tk的权值,作为向量化结果

tk∈{t1,t2,...,tm}表示特征词tk,其中m表示总文档中特征词总数量,1≤i≤m;

de∈{d1,d2,...,dN}表示总文档中第e个文档,1≤e≤N;

tf(tk,de)表示特征词tk在文档de中出现的次数;

Nk表示包含特征词tk文档数量;

N表示总文档数;

β是经验值,取值为0.1;

总文档通过交叉验证方法选取训练集和测试集,最终决策函数:

式中,f(x's)表示支持向量机模型分类结果;

xs'∈{x1',x'2,...,x'z}表示向量化后第s个测试集文档,其中z表示测试集文档数量1≤s≤z;

K(x's,xi)表示提出的混合傅里叶核函数;

αi和b表示训练支持向量机得到的参数;

sgn(·)表示符号函数。

图1所示多项式与高斯核函数混合核函数,在测试点的值与高斯核函数一致,说明混合核函数在学习能力上未发生大的改变,但在远离测试点处的值都得到增长,说明多项式与高斯核函数混合核函数提高了泛化能力。图中d,gamma分别表示多项式核函数中指数参数以及高斯核函数参数。

图2中参数u表示公式3中线性加权系数u。傅里叶核函数参数q取值为0.5,与一维傅里叶核函数相比,混合傅里叶核函数在测试点的值与一维傅里叶核函数近似,说明混合傅里叶核函数继承了一维傅里叶核函数的学习能力;在远离测试点的值要高于一维傅里叶核函数,说明混合傅里叶核函数泛化能力要高于传统一维傅里叶核函数。对比多项式与高斯核函数混合核函数,混合傅里叶核函数在测试点的值以及其他点处的值都要高于多项式与高斯核函数的混合核函数,说明混合傅里叶核函数无论在学习能力还是泛化能力上都要高于多项式与高斯核函数混合核函数。

文档通过词频方法进行特征维度的选取,特征数量选择500到3000以及5000、7000、9000维。将这些特征传输到不同的核函数组成的支持向量机模型中,对比不同核函数支持向量机模型结果的查准率、召回率以及F1值。对比结果显示,随着维度的增加,各个核函数三个指标都有2%~4%左右的增长,对比其他单核函数,一维傅里叶核函数三个指标均高出2%~3%,混合傅里叶函数相比一维傅里叶核函数提升2%~3%,相比多项式与高斯核函数提升1.5%~2%。

综上所述,本发明提出的混合傅里叶核函数支持向量机模型在学习能力以及泛化能力要优于其他核函数,在数据集以及特征数量等各参数同等情况下,分类性能要优于传统的核函数。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号