首页> 中国专利> 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法

一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法

摘要

本发明提出了一种基于上下文的抽象样本信息检索系统。该系统中抽象样本特征化表示方法利用Word2vector提取词义特征,获得抽象词的词向量;而后,对抽象词的词向量进行“最优适应度划分”的聚类,并根据聚类结果将抽象词替代表示为聚类质心;最后,根据质心及其所代表的抽象词的词频,构成词向量聚类质心频率模型(ST‑IDF),用于特征化表示抽象样本。本发明降低了聚类及适应度计算的执行次数,提高了抽象样本相似性分析的性能,提升了样本分类准确率。

著录项

  • 公开/公告号CN106095791A

    专利类型发明专利

  • 公开/公告日2016-11-09

    原文格式PDF

  • 申请/专利权人 长源动力(山东)智能科技有限公司;

    申请/专利号CN201610369833.4

  • 发明设计人 吴琳;韩广;袁鑫攀;李亚楠;

    申请日2016-05-29

  • 分类号G06F17/30;G06K9/62;

  • 代理机构长沙市护航专利代理事务所(特殊普通合伙);

  • 代理人杨水根

  • 地址 250300 山东省济南市长清区崮云湖街道办事处丹凤小区南区1区1号楼

  • 入库时间 2023-06-19 00:49:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-09

    授权

    授权

  • 2019-07-19

    专利申请权的转移 IPC(主分类):G06F16/332 登记生效日:20190628 变更前: 变更后: 申请日:20160529

    专利申请权、专利权的转移

  • 2016-12-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160529

    实质审查的生效

  • 2016-11-09

    公开

    公开

说明书

技术领域

本发明涉及数据链报文、半结构化文本或普通文本的信息检索领域,特别涉及基于词向量(Word2vector)的样本相似性分析及分类。

背景技术

抽象词是指信息检索样本中无法被语言直接解读的特殊词语,即,无已知语言规则(词义、语法、语序)可直接地识别其实际语义。大量的抽象词不同程度地存在于信息检索的样本中,例如军用数据链报文(Link-16、Link-22)、用于数据交换的半结构化文本(XML)或普通文本。同时,存在大量的数据链报文、半结构化文本或普通文本完全采用抽象词记录信息。针对该情况,我们将信息检索任务中此类报文或文本称为抽象样本。

目前,针对信息检索任务中的抽象样本,在无法直接识别其抽象词语义的情况下,多采用基于词语统计的样本特征化表示方法。现行的基于词语统计的特征化表示方法无法有效地提取其词语语义(词义)特征,例如TF-IDF(TermFrequency-Inverse DocumentFrequency)模型与BOW(Bag of words)模型。

Word2vector是一种依据上下文关系的词语语义(词义)特征提取方法,最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时,针对在不同文档中的每个词语,Word2vector可依据其上下文关系有效地提取其语义(即词义特征),并以词向量的形式给出。必须注意的是,Word2vector的词义特征提取机制使得不同文档中相同的词所对应的词向量并不相同。所以,导致难以根据Word2vector的词向量形成信息检索样本的特征化表示,特别是难以形成VSM(向量空间模型)形式的样本特征化表示。

目前,抽象样本征化表示需要采用Word2vector作为基于上下文的词义特征提取方法,并使自身适用于现行的基于样本特征向量的信息检索算法。但是,尚未出现受明确认可的方法能够根据Word2vector词义特征提取形成VSM形式的抽象样本特征化表示。

因此急需提出一种基于上下文的抽象样本信息检索系统及相应的抽象样本特征化表示方法,解决上述问题。

发明内容

在信息检索应用领域中,本发明提供了一种基于上下文的抽象样本信息检索系统,并详阐述了其特征化表示方法。本发明的目的在于,克服现有技术中难以根据Word2vector的词向量形成样本的特征化表示的情况,解决抽象样本特征化表示中词义特征提取的问题。

一种基于上下文的抽象样本信息检索系统,包括分词功能模块、词义特征提取模块、抽象词特 征替代表示模块、ST-IDF模块和分类模块,所述抽象样本信息检索系统的抽象样本特征化表示方法包括以下步骤:

步骤1、利用分词功能模块对样本进行抽象词的分词:当样本是数据链报文时,可根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,可根据空格及特定分词规则划分每个抽象词。

步骤2、利用词义特征提取模块提取抽象词的词语语义特征:针对由步骤1得到的抽象词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并以词向量形式表示。

步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示:首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现对抽象词词向量的“最优适应度划分”的聚类。其中,词向量聚类划分的质心称为S(表示为词向量空间中的向量),S的数量k即是聚类划分个数,所有样本中抽象词的数量为N,已知的样本分类数量为C,f(k)为体现聚类效果适应度的函数,

>f(k)=αβ,NkN×C,>

α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值,令正整数k∈[N,N×C];当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分数量K=k,质心S的数量最终确定为K。然后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S,或称为用质心S代表其聚类划分内的抽象词,即将抽象词的特征近似认同为所属聚类划分的质心。

步骤4、利用ST-IDF模块输出抽象样本特征化表示:首先,统计每个抽象词在一个样本中出现的频率,根据步骤3给出的替代表示关系,将质心S所代表的抽象词在该样本中的出现频率计为质心S的频率;并统计词向量聚类质心的逆向文件频率;而后,参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF,ST-IDF模型属于VSM形式,用于特征化表示一个抽象样本。

步骤5、相似度计算,实现抽象样本的相似性分析:根据步骤4所提供的特征化表示,计算两个抽象样本间的相似度,并据此进行信息检索领域中样本分类算法的执行。

步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定:根据相似度,采用NWKNN算法对抽象样本进行类别判定。

本发明的有益效果如下:

本发明提出了一种基于上下文的信息检索系统及其抽象样本特征化表示方法,它包括两个方面的改进:(1)提出了最优聚类效果适应度划分算法,并根据在最优聚类效果适应度下的词向量聚类,进行了抽象词特征替代表示;(2)提出了用于抽象样本特征化表示的词向量聚类质心频率模型——ST-IDF。

本发明首先利用Word2vector提取词义特征,获得样本中所有抽象词的词向量;而后,提出了最优聚类效果适应度划分算法,并根据最优聚类效果适应度对抽象词的词向量进行K-means聚类,并根据聚类结果将抽象词替代表示为其词向量所属聚类划分的质心(记为S);最后,将质心所代表的抽象词在样本中的出现频率计为质心S的频率,并构成词向量聚类质心频率模型——ST-IDF,用于特征化表示抽象样本。与传统的基于词语统计的样本特征化表示方法相比,ST-IDF模型包含抽象词的词义特征,且属于VSM(向量空间模型)形式,可适用于现行的基于特征向量的信息检索算法(如分类、回归、聚类)。

从实证的角度,采用信息检索领域经典样本分类算法NWKNN,在公用数据集Reuter-21758、Wikipedia XML之上,将ST-IDF模型与TF-IDF模型进行对比实验,实验结果客观地展示了本发明所述方法的明显优势,提高了抽象样本相似度计算的准确性,提升了抽象样本分类准确度,并有效拓展了信息检索领域中向量空间模型的构建方法。

附图说明

图1为本发明所述抽象样本信息检索系统的数据与模块图。

图2为本发明所述信息检索方法的流程图。

图3为Word2vector方法基本原理示意图。

图4为聚类效果适应度函数图。

图5为词向量空间中根据聚类的替代表示关系示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示,其中内容为本发明一种基于上下文的抽象样本信息检索系统,包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块。

所述抽象样本信息检索系统的抽象样本特征化表示方法包括以下步骤:

步骤1:利用分词功能模块对样本进行抽象词的分词。当样本完全采用抽象词记录信息时,无法根据字典或词库进行样本中抽象词的分词。所以,本步骤仅将抽象词视为ASCII字符的字符串。当样本是数据链报文时,根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,根据空格及特定分词规则划分每个抽象词。将抽象词的分词记为wordi,t,词语wordi,t表示第i个样本中的第t种抽象词的分词,有i={1,2,…,|D|},|D|为数据集中D的样本数,t={1,2,…,n},n为抽象词种类数,所有样本中抽象词wordi,t的数量为N。

步骤2:利用词义特征提取模块,提取抽象词的词语语义特征。针对由步骤1得到的抽象词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并以词向量形式表示。本步骤运用Word2vec工具,可获得抽象词的词向量。

Word2vec是Word2vector方法的模型实现,可基于词语的上下文关系,快速有效地训练并生成词向量。它包含了两种训练模型,CBOW与Skip_gram。作为用于训练生成词向量的软件工具,Word2vec中训练模型的基础是神经网络语言模型NNLM,其基本原理如图2所示。

根据由步骤1得到的抽象词,NNLM可计算某一个上下文的下一个词语为wordi,t的概率,即p(wordi,t=t|context),词向量是其训练的副产物。NNLM根据数据集D生成一个对应的词汇表V。V中的每一个词语都对应着一个标记wordi,t。为了确定神经网络的参数,需要通过数据集来构建训练样本并作为神经网络的输入。NNLM词语上下文样本的构建过程为:对于D中的任意一个词wordi,t,获取其上下文context(wordi,t)(例如前n-1个词),从而得到一个元组(context(wordi,t),wordi,t)。以该元组作为神经网络的输入进行训练。NNLM的输入层和传统的神经网络模型有所不同,输入的每一个节点单元不再是一个标量值,而是一个向量,向量的每一个值为变量,训练过程中要对其进行更新,这个向量就是词向量。由图2可知,对于每一个词wordi,t,NNLM都将其映射成一个向量wi,t,即为词向量。

运用Word2vec工具获得的词向量wi,t具体表示第i个样本中的第t种抽象词分词的词义特征,有i={1,2,…,|D|},|D|为样本数,所有样本中抽象词的词向量wi,t的数量为N。

步骤3:利用抽象词特征替代表示模块,用词向量聚类质心代表其聚类划分内的抽象词。首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现对抽象词词向量的“最优适应度划分”的聚类。词向量的K-means聚类中,采用两词向量夹角的余弦值计算二者间的距离。

根据步骤2所得,所有样本中抽象词的词向量wi,t的数量为N,词向量wi,t具体表示第i个样本中的第t种抽象词分词的词义特征。已知的样本分类数量为C,而样本数量为M。本步骤中,将词向量聚类划分的质心称为S(表示为词向量空间中的向量),S的数量k即是聚类划分个数。

为体现词向量空间中的K-means聚类效果,本发明给出聚类划分数量适应性的计算。为表示聚类划分数量适应性,令f(k)为体现聚类效果适应度的函数,

>f(k)=αβ,NkN×C,>

α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值,具体地有:

>α=1kΣcos(S,S),>

>β=1kΣb=1kcos(wi,t,wi,t),>

其中,S与S′为不同聚类划分的质心向量,wi,t与w′i,t是类属于第b个聚类划分中的不同抽象词分词的词向量。

设聚类划分个数k∈[N,N×C],且为正整数,当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分数量K=k,f(K)是聚类效果适应度的最大值。经计算可知,函数f(k)在N到K的区间是单调递增的,在K到N×C的区间是单调递减的,函数f(k)的图像如图3所示。

所以,当f(k)=max(f(k))时,K=k,f(K)是聚类效果适应度函数的极值,即最优聚类效果适应度,K-means聚类质心S的数量最终确定为K。在确定max(f(k))、K与f(K)的过程中,为减少K-means聚类及f(k)计算的执行次数,本发明提出最优聚类效果适应度划分算法,算法中每进行一次f(k)计算则需预先执行一次质心数量为k的K-means聚类,具体如下:

最优聚类效果适应度划分算法

最优聚类效果适应度划分算法分析:根据算法的递归运算特点,其时间复杂度为Ο(log2[(N×C-N)/4],所以本步骤中实际执行的K-means聚类次数与f(k)计算次数小于等于log2[(N×C-N)/4]次;而当不采用最优聚类效果适应度划分算法时,有k={N,N+1,N+1,…,N×C},确定max(f(k))、K与f(K)的过程中所需执行的K-means聚类与f(k)计算的平均次数为(N×C-N)/2。所以,本步骤中的最优聚类效果适应度划分算法降低了聚类及适应度计算的执行次数。

最后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S。具体地,当f(k)=max(f(k))时,最优聚类效果适应度下的聚类划分数量K=k,将任意抽象词wi,t替代表示为其词向量所属聚类划分的质心S,即将抽象词的特征近似认同为所属聚类划分的质心。在任意局部词向量空间中,用质心S代表其聚类划分内的抽象词,其对应关系如图4所示。具体替代表示关系如下式所述:

其中,第b个聚类质心Sb所代表的抽象词wordi,t构成一个抽象词集合,wi,t是抽象词wordi,t的词向量,Wb是类属于质心Sb所在聚类划分的词向量所对应的抽象词的集合。

步骤4:利用ST-IDF模块,输出抽象样本特征化表示。首先,统计每个抽象词在一个样本中出现的频率,根据步骤3给出的质心S与抽象词的替代表示关系,将第b个质心Sb所代表的抽象词在该样本中的出现频率计为质心Sb的频率;并统计词向量聚类质心Sb的逆向文件频率,有b={1,2,…,K}。而后,参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF,具体构成方式将进一步详细阐述。

TF-IDF模型中,样本doci的特征化表示由特征向量di实现,

di=(di(1),di(2),……,di(n))

向量di中第t维元素di(t)计算方式如下:

di(t)=TF(wordt,doci)·IDF(wordt),

TF(wordt,doci)是词语wordt在样本doci中的频率,有其计算方式

>TF(wordt,doci)=count(wordt)Σj=1ncount(wordj),>

中分子是该词语在样本中的出现次数,而分母则是在文件中所有词语的出现次数之和,

IDF(wordt)为词语wordt的逆向文件频率,有其计算方式

>IDF(wordt)=|D||{doci|wordtdoci}|,>

其中,D为样本doci的构成数据集,|D|为数据集D中样本的总数,|{doci|wordt∈doci}|为包含词语wordt的样本数量。

参照TF-IDF模型,ST-IDF模型具体构成如下:

SF(Sb,doci)是词向量聚类质心Sb在抽象样本doci中的频率,有其计算方式

>SF(Sb,doci)=Σwi,tWbTF(wi,t),>

其中,Wb是类属于质心Sb所在聚类划分的词向量所对应的抽象词的集合,TF(wi,t)表示抽象词wi,t在抽象样本doci中出现的频率,SF(Sb,doci)仅累计抽象样本doci中由质心Sb所代表的抽象词的频率。

IDF(Sb)为词向量聚类质心Sb的逆向文件频率,有其计算方式

>IDF(Sb)=|D||{doci|wi,twi,tWbdoci}|,>

其中,D为抽象样本doci的构成数据集,|D|为数据集D中样本的总数,为包含由质心Sb所代表的抽象词的样本的数量。

ST-IDF模型中,抽象样本doci的特征化表示由特征向量实现,

>d·i=(d·i(1),d·i(2),......,d·i(K)),>

向量中第b维元素计算方式如下:

>d·i(b)=SF(Sb,doci)·IDF(Sb).>

本步骤所提出的ST-IDF模型属于VSM(向量空间模型)形式,用于特征化表示一个抽象样本。

步骤5:相似度计算,实现抽象样本的相似性分析。根据步骤4所提供的特征化表示,计算两个抽象样本间的相似度;并据此进行信息检索领域中样本分类算法的执行。

一种基于上下文的信息检索抽象样本特征化表示方法采用步骤4所提出的ST-IDF模型进行抽象样本特征化表示。任意两抽象样本doci与doci′间相似性由相似度函数Sim(doci,doci′)表示,其具体计算方式如下:

>Sim(doci,doci)=cos(d·i,d·i),>

为ST-IDF向量空间中特征向量间夹角的余弦值。

步骤6:利用分类模块,对特征化表示后的抽象样本进行类别判定。根据相似度,采用NWKNN算法对抽象样本进行类别判定。

根据相似度函数Sim(doci,doci′),采用信息检索领域中的经典样本分类算法——NWKNN执行抽象样本分类。NWKNN是权重邻居KNN算法,用于不均衡分类样本集的样本分类判别,其公式如下:

>score(doc,ci)=Weighti(ΣdocjKNN(d)Sim(doc,docj)δ(docj,ci)),>

其中,函数score(doc,ci)计算得出将文档doc归于分类ci的评估值;函数Sim(doc,docj)表示样本doc与已知类别样本docj的相似度,采用向量余弦距离计算;Weighti为分类权重设定值,赋值为3.5;函数δ(docj,ci)表示样本docj是否属于类别ci,若样本docj属于类别ci,则该函数取值为1,否则,该函数取值为0。

样本分类的性能评估采用F1-measure标准。该标准结合召回率Recall和准确率Precision的评估度量F1如下:

>F1=2×Recall×Precision(Recall+Precision)>

运用F1-measure标准,可观察到一个样本分类系统针对数据集的分类效果。为便于比较,将总结抽象样本分类结果的宏观F1度量值Macro-F1,同时,可以得到抽象样本分类结果的Average precision。

以维基百科XML数据Wikipedia XML为数据交换半结构化文本的数据集,以路透社文档集Reuter-21578为普通文本的数据集,采用NWKNN算法进行抽象样本分类实验,并采用F1-measure标准进行样本分类的效果评估,本发明提出的SF-IDF向量与现有技术中TF-IDF向量的分类效果对比见表1、表2:

表1Wikipedia XML数据集上TF-IDF向量与SF-IDF向量的分类效果比较

表2Reuter-21578数据集上TF-IDF向量与SF-IDF向量的分类效果比较

根据表1、表2所述,可见本发明提出的SF-IDF向量的分类效果明显优于现有技术中TF-IDF向量,尤其是在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%,在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%。实验结果显示,针对抽象样本相似性分类的信 息检索任务,本发明所提出的ST-IDF模型相较TF-IDF模型拥有更优良的F1-measure评估结果,证明本发明所提供的特征化表示方法具备抽象样本词义特征提取的优势。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号