法律状态公告日
法律状态信息
法律状态
2020-01-10
授权
授权
2017-06-16
实质审查的生效 IPC(主分类):G06F17/30 申请日:20161202
实质审查的生效
2017-05-24
公开
公开
技术领域
本发明属于语义向量空间模型语义核方法技术领域,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。
背景技术
大数据时代给我们带来大量的非结构化的文本资源,聚类作为一种无监督的机器学习方法是实现文本资源挖掘的主要手段之一。文本聚类不同于一般的数据聚类,其先要将文本信息进行数据化结构表示。文本表示的基本模型是向量空间模型(VSM),它将每篇文档映射成文本空间中的一个高维稀疏的向量,因此在进行文本聚类时文本之间语义的相似度计算问题便可以转化为向量空间中的向量的计算,即:通过计算向量之间的相似性来度量文本间的相似性进而实现文本聚类。然而,由于VSM忽视了词与词之间的语义关系,导致文本相似性的计算不准确。广义向量空间模型(GVSM)的提出挖掘了词与词之间的共现信息,提高了文本相似度计算的准确性,但是仍不能改变文本表示向量中语义信息提取不充分的问题。因此,此后的研究主要是基于VSM或GVSM模型,通过本体或语料库等背景知识来构建语义向量空间模型(SVSM)实现文献相似性的计算。然而,通用的本体建设成本较高,且领域知识尚不完善。
语义核作为核函数的一种其概念最早由Siolas G提出,并将其作为支持向量机方法中的基础核用于文本挖掘。一直以来语义核函数的研究主要分为两类:一类的研究主要是通过WordNet、Wikipedia和HowNet等大型的本体作为知识背景来抽取特征词与特征词之间的语义关系实现语义核函数的构建,然而,本体知识构建复杂度大且领域知识尚不完善;另一类研究则是基于统计学方法,通过挖掘特征词之间的潜在概念来构建语义核,现有的应用于文本资源聚类的语义核函数的研究中大都基于基本向量空间模型和广义向量空间模型构建,语义信息提取不够充分,聚类效果较差。
发明内容
本发明主要针对目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题,提供一种文本资源主题聚类共现潜在语义向量空间模型语义核方法。
本发明为解决上述问题而采取的技术方案为:
文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:
第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1,al2,...,alm)T∈Rm,l=1,2,…,n.
其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj(j=1,2,…,m)为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时,alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m;
第四步:共现潜在语义向量空间模型的构建:
(1)计算共现强度矩阵
关键词之间的共现矩阵C=ATA=(cij)m×m,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;
然后计算共现强度矩阵B,
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;
(2)共现信息的提取
记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称
(3)共现潜在语义向量空间模型(CLSVSM)
其中:
基于CLSVSM的新的“篇-词”矩阵为:
第五步:语义核函数的构建
(1)对新的“篇-词”矩阵的转置进行奇异值分解
根据奇异值分解理论,经matlab软件运算,得到QT的分解式:
其中QT是维数为m×n的新的“词-篇”矩阵;U、V称为奇异矩阵,是维数分别为m和n的方阵,且都是正交矩阵,即UUT=I,VVT=I;
(2)特征提取、降维
选取前k个最大的特征值,k的大小取决于特征值的累计贡献率要求,当可取特征值累计贡献率不小于90%,则k为
同时选取相应的奇异矩阵U和V的前k列,对奇异矩阵实现降维处理,分别记为Uk和Vk,然后得到一个QT矩阵的k阶近似,即XkT=UkΣkVkT;
(3)基于CLSVSM的语义核
k(dl,ds)=(UkTφ(dl))T(UkTφ(ds))=φT(dl)UkUkTφ(ds),l,s=1,…,n
该语义核函数得到相一致的核矩阵为:
基于CLSVSM的语义核简记为CLSVSM_K;
第六步:文献聚类
对文献进行语义核函数表示,核矩阵作为文献之间的相似性矩阵,选取聚类算法进行文献主题聚类。
本发明采用上述技术方案,以往研究中语义核函数相比提取了更为丰富的语义信息且避免了尚不完善且建设成本较高的本体等背景知识,聚类效果提高20%以上,在抽取语义信息时不仅实现了文本特征词之间同义信息的合并而且降低了特征词空间的维度。
具体实施方式
实施例1
第一步:数据预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系。
数据来源于CNKI,根据其分类,分别从信息科学下的“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科各选300篇文献作为分析的文献,除去没有关键词的文献4篇,最终获得的文献总数为896篇,其中“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇,并获取不同的关键词2509个。即:文献数n=896,关键词数m=2509,下表为截取的前20篇文献及其对应的全部关键词。表1中LM为文献类别,ID为文献编号,k1-k10为文献相应关键词。
表1:文献与相应关键词列表(部分)
第二步:构建关键词空间并对所提取的关键词进行词频统计,并按词频降序排列。表2为我们实验结果中的前20个关键词及相应的词频:
表2:关键词频次统计(部分)
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1,al2,...,al,2509)T∈R2509,l=1,2,…,896
其中:dl是896篇文献中第l篇文献在欧式空间R2509中的表示向量,因为有2509个关键词所以欧式空间为R2509,alj(j=1,2,…,2509)为第j个关键词在第l篇文献中的权重,l为文献序号,T表示转置运算,当第j个关键词是文献dl的关键词时alj等于1,否则为0,文献集的“篇-词”矩阵为A=(alj)896×2509。表3为矩阵A在实验中的前20行和前15列在Excel中的数据呈现,该实验中矩阵A的维数为896×2509。表3中第1行记录了2509个关键词;第1列记录了类别信息;第2列记录了文献的ID;第1行第1列位置的897指使用该Excel表格897行。
表3:基于VSM的“词-篇”矩阵A(部分)
第四步:共现潜在语义向量空间模型的构建:
(1)计算共现强度矩阵
关键词之间的共现矩阵C=ATA=(cij)2509×2509,表4为矩阵C在实验中的部分结果呈现,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次,即对角线上的值。表中第1行和第1列为关键词。
表4:关键词共现矩阵C(部分)
然后计算共现强度矩阵B,
其中,c11,c22,…,c2509,2509分别为第1个,第2个,……,第2509个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1.下表为截取的实验中共现矩阵B的部分实验结果。表中第1行和第1列为关键词。
表5:共现强度矩阵B(部分)
(2)共现信息的提取
对“词-篇”矩阵A中alj=0的部分进行共现信息补充,即:对表3中的值为0的部分进行共现信息补充。具体做法如下:记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称
表6:共现信息补充矩阵(部分)
(3)共现潜在语义向量空间模型(CLSVSM)
其中:
基于CLSVSM的新的“篇-词”矩阵在实验中的结果如下表所示,这里我们只截取了前20行和前15列,表中第1列记录了文献类别信息,第2列记录了文献的ID,第1行记录了2509个关键词:
表7:CLSVSM得到的新的“篇-词”矩阵Q(部分)
第五步:语义核函数的构建
(4)对表7对应的“篇-词”矩阵Q的转置QT进行奇异值分解
根据奇异值分解理论,经matlab软件运算,得到QT的分解式:
对QT进行奇异值分解后对应的奇异矩阵U和V如表8和表9所示,矩阵Σ的值如表10的所示。表8第1行和第1列为关键词;表9第1行和第1列为文献的ID,表10的第1行为文献的ID,第1列为关键词。同时求得矩阵QT的秩r=896。
表8:奇异矩阵U(部分)
表9:奇异矩阵V(部分)
表10:矩阵∑(部分)
计算∑∑T求得矩阵Λ,实验结果的前20行和前15列如表11所示,Λ的是维数为2509×2509的方阵。
表11:矩阵Λ(部分)
(5)特征提取、降维
选取前k个最大的特征值。k的大小取决于特征值的累计贡献率要求。这里,取特征值累计贡献率不小于90%,通过MATLAB计算求得特征值的总和为7.5457e+03,即
即:
所以我们选取矩阵Λ的前247个特征值,同时选取相应的奇异矩阵U和V的前247列,对奇异矩阵实现降维处理,分别记为U247。同理可求得,当特征值累计贡献率不小于95%和98%时,k的取值分别为356和468。
(6)基于CLSVSM的语义核
k(dl,ds)=(U247Tφ(dl))T(U247Tφ(ds))=φT(dl)U247U247Tφ(ds),l,s=1,2,…,896
该语义核函数得到相一致的核矩阵为:
基于CLSVSM的语义核简记为CLSVSM_K。
实验中得到的核矩阵
表12:核矩阵
第六步:文献聚类
对文献进行语义核函数表示,核矩阵作为文献之间的相似性矩阵,选取聚类算法进行文献聚类。本试验中我们采用k-means聚类算法。实验比较结果如表13和表14:
实验时首先将共现潜在语义向量空间模型与基本的向量空间模型进行比较实验方案见
实验中分别比较了几种聚类方案下聚类结果,共进行了22次实验。实验结果见表13。
表13:CLSVSM与VSM的实验结果比较
实验结果显示,CLSVSM结果远优于VSM。且当选择方案D-I2时实验CLSVSM的结果最优。
之后将共现潜在语义向量空间模型语义核与共现潜在语义向量空间模型线性核和共现潜在语义向量空间模型进行比较,语义核构建时参数k的选取分别保证前k个特征值的和占特征值总和的90%、95%和98%,构建的语义核函数下表中分别简称为90%CLSVSM_K、95%CLSVSM_K和98%CLSVSM_K,我们选取最优的方案D-I2,每一种模型都进行50次的实验,通过多次实验求得的熵值、纯度和F值三个指标的均值来对聚类的结果进行评价,分析比较结果如表14。
表14:不同方法的聚类比较
上表中的↓表示实验结果越小越好;相反,↑则表示实验结果越大越好。表中我们将实验的最优结果用星号※标出。纯度和F值越大表示聚类的效果越好;相反,熵值越小越好。
两组实验结果表明,共现潜在语义向量空间模型与以往的模型相比大大题高了聚类精度,基于其构建的语义核在提高聚类进度的同时明显的对特征词空间进行了降维处理,降低了聚类算法在时间和空间上的复杂度。据此说明,该方法在文本聚类中的应用提取更为丰富的语义信息,同时降低了特征词空间的维度。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 基于局部句法关系和语义共现词典的语义标注装置
机译: 基于局部句法关系和语义共现词典的语义标注装置