首页> 中国专利> 一种基于多特征融合的短文本相似度计算方法

一种基于多特征融合的短文本相似度计算方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于多特征融合的短文本相似度计算方法，该方法包括以下步骤：首先，设计HTI方法提取短文本的词频特征，其次，利用已有的word2vec的Skip_gram训练模型提取短文本的语法特征，然后，设计HSBM模型在语义维度上对词频和语法特征进行有机融合，最后，设计MFSM模型计算将融合结果向量化，并计算短文本之间的相似度。本发明从多个维度提取短文本的特征，因此能有效地提高短文本相似度计算精度。

著录项

公开/公告号CN107273913A

专利类型发明专利
公开/公告日2017-10-20

原文格式PDF
申请/专利权人武汉理工大学;
展开▼

申请/专利号CN201710328364.6
发明设计人高曙;周润;王讷;龚磊;
展开▼

申请日2017-05-11
分类号G06K9/62(20060101);G06F17/27(20060101);
代理机构42102 湖北武汉永嘉专利代理有限公司;
代理人李丹
地址 430070 湖北省武汉市洪山区珞狮路122号
入库时间 2023-06-19 03:37:16

法律信息

法律状态公告日

法律状态信息

法律状态
2022-04-26

未缴年费专利权终止 IPC(主分类):G06K 9/62 专利号:ZL2017103283646 申请日:20170511 授权公告日:20200421

专利权的终止
2020-04-21

授权

授权
2017-11-17

实质审查的生效 IPC(主分类):G06K9/62 申请日:20170511

实质审查的生效
2017-10-20

公开

公开

说明书

技术领域

本发明涉及自然语言处理技术，尤其涉及一种基于多特征融合的短文本相似度计算方法。

背景技术

空间向量模型(VSM)将短文本中的特征词项转化成能被计算机识别的数字形式，并且在一定程度上反映出特征词项在短文本中的重要程度。

基于词频的特征提取是指在原始的词项集合中，根据特定的特征评估函数计算挑选出最能反映短文本特征的特征词项集合的过程。词频-逆向文档频率(TF-IDF)和互信息(MI)是比较常用的两种词频特征提取方法。信息熵(IE)的概念来源于统计热力学，用于度量体系的混乱程度，它本身并不直接用于文本的特征提取，但是经常融入到其它短文本词频特征提取方法中。

基于语法的特征提取既可以利用语言模型直接从词语上下文环境考察，从而提取短文本的语法性特征；也可以利用神经网络对短文本中给定上下文条件下后续词语的分布建模，即利用深度学习方法提取短文本的语法性特征。 word2vec的Skip_gram训练模型是神经网络语言模型(NNLM)的一个实现，它省略了NNLM的非线性隐藏层，以牺牲训练精度的方法快速提高词语的预测过程，并通过增加训练语料的方式弥补训练精度，从而使得训练模型能够有效且快速地生成词向量。Skip_gram训练模型通过当前词预测其上下文生成的概率，得到不同概率的特征词，从而保留了特征词之间的语法关系。

词对主题模型(BTM)是比较常用的一种短文本语义特征提取模型，它是一元混合模型和主题模型的完美结合：首先，为了解决数据稀疏问题，BTM结合一元混合模型的优点：所有短文本共享一个主题分布；然后，为了消除每个短文本只有一个主题的弊端，BTM在整个语料库上的共现词对上建模；最后，将短文本映射到相应的语义空间(或主题空间)，从而对短文本语义进行分析和判断。如果用数学语言描述，主题表示特征词集合中特征词的条件概率分布，特征词的条件概率值大小反映它与主题之间的关系密切程度。

短文本相似度计算可以定义为：对于给定的短文本集合，在研究短文本结构的基础上，提取多种短文本特征(比如词频、语法、语义特征)并量化，从而用数据反映短文本之间的相同点及不同点，相同点越多，相似程度越高，反之，相似程度越低。JS距离以一种常用的短文本相似度计算方法，适用于短文本特征以概率形式呈现的情况，可以反映同样的概率空间中两个概率分布的差异情况，它基于KL距离，并改进KL距离的结果不满足非负性、对称性等缺点。

短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点，它是NLP中一个重要任务，既可以当成一个单独的任务，又可以作为其它NLP 应用的基础。迄今为止，在短文本相似度计算领域，学者们大多偏向于提取词频或语义的单一维度特征，很少有对跨维度的短文本特征进行提取并融合，因此，得到的特征是片面的、不完全的，利用这些特征得到的相似度精度也不会太高。此外，在词频维度特征组合方面，目前的研究大多以特征池或二维特征空间的方式进行组合，缺乏深层次的整合；在语义维度特征提取方面，目前的研究方向通常直接在原始短文本集合上应用BTM，即直接利用原始短文本集合丰富的词对信息进行特征提取，这样可能会放大噪音特征产生的不利影响。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于多特征融合的短文本相似度计算方法。

本发明解决其技术问题所采用的技术方案是：一种基于多特征融合的短文本相似度计算方法，包括：

(1)获取待计算短文本集合D中的文本数量|M|以及主题数量|K|，通过词频、语法和语义的三维特征提取和融合过程(即过程(A))得到短文本-主题矩阵S；

1.1)对短文本集合D进行短文本词频特征提取；

1.2)对短文本集合D进行短文本语法特征提取；

1.3)短文本语义融合：

首先，获取词频和语法特征融合的权重矩阵W′；然后，在由W′中三元元素<特征项t，短文本d，融合权重w′>组成的共现二元对上利用BTM建模；最后，通过计算得到短文本的主题分布概率，即得到短文本的语义融合结果短文本-主题矩阵S；

(2)按公式(10)将短文本-主题矩阵S转化为短文本向量集合Z，初始化相似度计算结果矩阵Y；

(3)不重复选取集合Z中的短文本向量d₁，如果集合Z中没有可选取的短文本，转到步骤(6)；

(4)不重复选取集合Z中的短文本向量d₂，如果集合Z中没有可选取的短文本，转到步骤(3)；

(5)计算短文本d₁和d₂之间的相似度，将结果记录到相似度结果矩阵Y>

(6)得到短文本相似度结果矩阵Y。

按上述方案，所述步骤1.1)中设短文本集合D中的文本数量为|M|，词典中不重复特征项数量为|N|，采用HTI方法计算权值矩阵，具体步骤如下：

1.1.1)：初始化特征项索引i和短文本索引j的值为0，初始化权值矩阵W 为零矩阵；

1.1.2)：统计计算特征项t_i在短文本d_j中出现的频率并赋值给TF(t_i,d_j)；

1.1.3)：计算特征项局部因子，采用的计算公式为：

localT(t_i,d_j)＝log(TF(t_i,d_j)+β)>

其中，TF(t_i,d_j)表示特征项t_i在短文本d_j中出现的频率，β为常数因子(一般取经验值1)。

1.1.4)：计算特征项t_i和短文本d_j的相关性因子，采用的计算公式为：

其中，P(t_i,d_j)表示特征项t_i和短文本d_j同时出现的概率，P(t_i)表示特征项t_i在短文本集中出现的概率，P(d_j)表示短文本d_j在短文本集中出现的概率。

1.1.5)：计算特征项全局因子，采用的计算公式为：

其中，n是短文本的总数量，C(t_i,d_j)表示特征项t_i和短文本d_j的相关性因子，α是常数因子(一般取经验值1)。

1.1.6)：计算特征项-短文本对(t_i,d_j)的HTI值，并赋值给W_ij，HTI权值计算公式：

HTI(t_i,d_j)＝localT(t_i,d_j)×globalT(t_i,d_j)>

其中localT(t_i,d_j)表示特征项局部因子，globalT(t_i,d_j)表示特征项全局因子；

1.1.7)：对于每一个特征项-短文本对(t_i,d_j)，重复1.1.2)至1.1.6)的操作，得到短文本集合D的HTI权值矩阵W。

按上述方案，所述步骤1.2)中短文本语法特征提取是利用word2vec的 Skip_gram模型训练短文本集合D得到词向量集合X：

X＝(x₁,x₂,...,x_i)>

其中，x_i表示特征项t_i的词向量。

按上述方案，所述步骤1.3)中短文本语义融合的具体步骤如下：

1.3.1)：根据步骤1.2)获得的词向量集合X的每一个词向量x_i，计算词向量归一化因子：

其中，m表示预定的词向量的维数，k表示词向量x_i第k维的值。

1.3.2)：对于HTI权值矩阵W中的每一个三元元素<特征项t，文本d，HTI 权重w>，计算权重归一化因子：

其中，HTI(t_i,d_j)表示短文本d_j中特征词项t_i的HTI权重w。

1.3.3)：利用词向量归一化因子和权重归一化因子计算融合权重，并用融合权重替换矩阵W中每一个三元元素的HTI权重w，得到新的词频和语法融合权重矩阵W′。融合权重计算公式：

NL(t_i,d_j)＝F(t_i,d_j)×G(i)>

1.3.4)：在融合权重矩阵W′上利用BTM生成语料库B(或称共现二元对集合B)

1.3.5)：为集合B中的每个共现二元对b＝(c_i,c_j)随机初始化主题，初始化迭代次数i＝0；

1.3.6)：对集合B中的每个共现二元对b＝(c_i,c_j)计算状态转移概率：

1.3.7)：重复执行步骤1.3.6)，同时更新状态转移概率公式(9)中的频数n_s、和直至达到迭代次数上限；

1.3.8)：利用BTM计算整个短文本集的主题分布θ_s和特定主题下的三元元素>c|s，从而得到每个短文本的主题概率分布，即获得短文本-主题矩阵S。

按上述方案，所述步骤2)中短文本向量的计算如下：

短文本集合D经过HSBM模型后，得到短文本-主题分布矩阵S，S中的每一个元素都是一个条件概率，对矩阵S中的每一列，将其转化为短文本的向量形式：

d_i＝(P(s₁|d_i),P(s₂|d_i),P(s₃|d_i),...,P(s_|K||d_i))>

其中，P(s_i|d_i)表示短文本d_i被分配到主题s_i下的条件概率值，|K|表示主题的数量；

基于公式(10)，将短文本-主题分布矩阵S转化为短文本向量集合Z。

按上述方案，所述步骤6)中计算短文本d₁和d₂之间的相似度采用以下公式：

KL距离和JS距离的计算公式为：

其中，d₁、d₂为短文本的概率分布向量，d₁(k)、d₂(k)分别表示概率分布向量>1、d₂中第k个的概率。

本发明产生的有益效果是：

(1)本方法在剖析TF-IDF、互信息两种词频特征提取方法的基础上，结合信息熵的概念，对其进行有效融合，提出短文本词频特征提取方法HTI，实现词频维度多种特征的深层次整合。

(2)本方法基于BTM构建短文本的语义特征提取模型HSBM，不再直接对短文本语料库中的词对生成过程建模，而是先获取短文本-特征词融合权重矩阵W′，然后在由W′中三元元素<特征项t，文本d，融合权重w′>组成的共现二元对上建模，一定程度上去除了噪音特征带来的不利影响。

(3)本方法从词频、语法、语义多个维度提取特征，有效地提高短文本相似度计算精度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的HSBM的模型结构图；

图2是本发明实施例的MFSM的模型结构图；

图3是本发明实施例的基于多特征融合的短文本相似度计算方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是HSBM(HTI-Skip_gram-BTM fusion Model)的模型结构图，其中，参数说明如下：

过程(I)中，圆角矩形(例如“HTI”)表示特征提取方法或模型，六边形表示短文本集合；圆圈表示权重矩阵：W是通过HTI方法得到的HTI权重矩阵，X是通过Skip_gram训练模型得到的特征词向量集合，W′是HTI权重矩阵W和特征词向量集合X进行归一化操作(NL)得到的短文本-特征词融合权重矩阵；|M|代表短文本集合中的总文本数量，|N|代表特征词项的数量。

过程(II)中透明圆圈(例如“θ”)表示隐含参数，阴影圆圈(例如“c_i”)>的超参，s是潜在主题分布，c是融合权重矩阵W′中的三元元素<特征项t，文本d，融合权重w′>，(c_i,c_j)是三元元素c组成的共现二元对；|K|表示主题数量，|B|表示共现二元对的数量。

如图3所示，本发明方法的基本步骤如下：

假如短文本集合D中的文本数量为|M|，主题数量为|K|

(1)通过词频、语法和语义的三维特征提取和融合过程(即过程(A))得到短文本-主题矩阵S；

(2)按公式(10)将短文本-主题矩阵S转化为短文本向量集合Z，初始化相似度计算结果矩阵Y；

(3)不重复选取集合Z中的短文本向量d₁，如果集合Z中没有可选取的短文本，转到步骤(6)；

(4)不重复选取集合Z中的短文本向量d₂，如果集合Z中没有可选取的短文本，转到步骤(3)；

(5)按公式(11)和公式(12)计算短文本d₁和d₂之间的相似度，将结果记录到相似度结果矩阵Y中，转到步骤(4)；

(6)得到短文本相似度结果矩阵Y。

词频、语法和语义的三维特征提取和融合过程

词频、语法和语义的三维特征提取和融合过程主要利用本专利设计的HSBM 模型实现，它的基本步骤是：首先从词频和语法两个维度分别提取出短文本特征，然后在语义维度进行有机融合。因此，实施过程分为三个阶段：短文本词频特征提取阶段；短文本语法特征提取阶段；短文本语义融合阶段。下面会对这三个阶段分别进行介绍。

短文本词频特征提取阶段

短文本词频特征提取阶段主要利用本专利设计的HTI(Hybrid TF-IDF)方法实现，该方法利用MI以及IE的概念对TF-IDF进行改进，保留TF对短文本特征提取的重要作用，同时优化IDF的结构，使其更加准确地反映特征词在所有短文本中的分布情况以及重要程度，从而更有效地调整特征词的权值，提高相似度计算的精度。

假如短文本集合D中的文本数量为|M|，词典中不重复特征项数量为|N|， HTI方法计算权值矩阵的基本步骤：

第一步：初始化特征项索引i和短文本索引j的值为0，初始化权值矩阵W 为零矩阵；

第二步：统计计算特征项t_i在短文本d_j中出现的频率并赋值给TF(t_i,d_j)；

第三步：计算特征项局部因子，它的计算公式为：

localT(t_i,d_j)＝log(TF(t_i,d_j)+β)>

其中，TF(t_i,d_j)表示特征项t_i在短文本d_j中出现的频率，β为常数因子(一般取经验值1)。

第四步：计算特征项t_i和短文本d_j的相关性因子，它的计算公式为：

其中，P(t_i,d_j)表示特征项t_i和短文本d_j同时出现的概率，P(t_i)表示特征项t_i在短文本集中出现的概率，P(d_j)表示短文本d_j在短文本集中出现的概率。

第五步：计算特征项全局因子，它的计算公式为：

其中，n是短文本的总数量，C(t_i,d_j)表示特征项t_i和短文本d_j的相关性因子，α是常数因子(一般取经验值1)。

第六步：计算特征项-短文本对(t_i,d_j)的HTI值，并赋值给W_ij，HTI权值计算公式：

HTI(t_i,d_j)＝localT(t_i,d_j)×globalT(t_i,d_j)>

其中localT(t_i,d_j)表示特征项局部因子，globalT(t_i,d_j)表示特征项全局因子。

第七步：对于每一个特征项-短文本对(t_i,d_j)，重复步骤二～六的操作，得到短文本集合D的HTI权值矩阵W。

短文本语法特征提取阶段

短文本语法特征提取阶段主要利用word2vec的Skip_gram模型训练短文本集合D得到词向量集合X：

X＝(x₁,x₂,...,x_i)>

其中，x_i表示特征项t_i的词向量。

短文本语义融合阶段

在HSBM模型中，短文本语义融合阶段的实施是：首先，获取词频和语法特征融合的权重矩阵W′；然后，在由W′中三元元素<特征项t，短文本d，融合权重w′>组成的共现二元对上利用BTM建模；最后，通过计算得到短文本的主题分布概率，即得到短文本的语义融合结果。该阶段的具体步骤(图1中过程 (I)包含步骤一～三，过程(II)包含步骤四～八)：

第一步：对于式(5)中词向量集合X的每一个词向量x_i，计算词向量归一化因子：

其中，m表示预定的词向量的维数，k表示词向量x_i第k维的值。

第二步：对于HTI权值矩阵W中的每一个每一个三元元素<特征项t，文本 d，HTI权重w>，计算权重归一化因子：

其中，HTI(t_i,d_j)表示短文本d_j中特征词项t_i的HTI权重w。

第三步：利用词向量归一化因子和权重归一化因子计算融合权重，并用融合权重替换矩阵W中每一个三元元素的HTI权重w，得到新的词频和语法融合权重矩阵W′。融合权重计算公式：

NL(t_i,d_j)＝F(t_i,d_j)×G(i)>

第四步：在融合权重矩阵W′上利用BTM生成语料库B(或称共现二元对集合B)

第五步：为集合B中的每个共现二元对b＝(c_i,c_j)随机初始化主题，初始化迭代次数i＝0；

第六步：对集合B中的每个共现二元对b＝(c_i,c_j)计算状态转移概率：

第七步：重复执行步骤六，同时更新状态转移概率公式(9)中的频数n_s、和直至达到迭代次数上限；

第八步：利用BTM计算整个短文本集的主题分布θ_s和特定主题下的三元元素>c|s，从而每个短文本的主题概率分布，即获得短文本-主题矩阵S。

基于多特征融合的短文本相似度计算方法的实现

基于多特征融合的短文本相似度计算方法的基本思想是：首先分别从词频、语法和语义维度提取出短文本特征，然后对其进行有机融合，并将融合结果量化，从而计算短文本之间的相似度。该方法主要利用本专利设计的MFSM模型实现，如图2所示，图2是MFSM(Multi-Feature based Similarity-calculation Model)的模型结构图，其中，S是短文本集合通过HSBM模型得到的短文本-主题分布矩阵，Z是短文本向量集合，Y是短文本相似度结果矩阵，|M|代表短文本集合中的文本数量，|K|代表主题数量，JS表示对短文本向量集合Z进行处理的相似度计算方法(即JS距离)。方法的具体实现主要分为3个过程：(A)词频、语法和语义的三维特征提取和融合；(B)短文本向量的计算；(C)短文本相似度的计算。其中，过程(A)在前文中已实现。下面先对过程(B)和过程(C)进行介绍，然后阐述本方法的基本步骤。

短文本向量的计算

短文本集合D经过HSBM模型后，得到短文本-主题分布矩阵S，S中的每一个元素都是一个条件概率，对矩阵S中的每一列，将其转化为短文本的向量形式：

d_i＝(P(s₁|d_i),P(s₂|d_i),P(s₃|d_i),...,P(s_|K||d_i))>

其中，P(s_i|d_i)表示短文本d_i被分配到主题s_i下的条件概率值，|K|表示主题的数量。

显然，短文本已经映射到相应的语义空间(即主题空间)。基于公式(10)，将短文本-主题分布矩阵S转化为短文本向量集合Z(即图2中过程(B))，可作为过程(C)中短文本相似度计算的输入。

短文本相似度的计算

由于短文本向量集合Z中的每一个短文本向量都以概率的形式呈现，因此，本方法利用JS距离计算短文本之间的相似度，它基于KL距离，并改进KL距离的结果不满足非负性、对称性等缺点。KL距离和JS距离的计算公式为：

其中，d₁、d₂为短文本的概率分布向量，d₁(k)、d₂(k)分别表示概率分布向量>1、d₂中第k个的概率。

目前，短文本相似度计算所利用的短文本特征的维度比较单一，大多偏向于提取词频或语义的单一维度特征，很少有对跨维度的短文本特征进行提取并融合，因此，得到的特征是片面的、不完全的，利用这些特征得到的相似度精度也不会太高。本专利提出一种基于多特征融合的短文本相似度计算方法，首先，设计HTI方法提取短文本的词频特征，其次，利用已有的word2vec的 Skip_gram训练模型提取短文本的语法特征，然后，设计HSBM模型在语义维度上对词频和语法特征进行有机融合，最后，设计MFSM模型计算将融合结果向量化，并计算短文本之间的相似度。本专利从多个维度提取短文本的特征，因此能有效地提高短文本相似度计算精度。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多特征融合的短文本相似度计算方法 [P] . 中国专利： CN107273913B . 2020.04.21
2. 一种基于词向量的短文本语义相似度计算方法 [P] . 中国专利： CN109190117A . 2019-01-11
3. Similarity calculation device for calculating a correlation-based similarity of image recognition apparatus, a similarity calculation method, the recognition method, the verification program and a recording medium recording it [P] . 日本专利： JP4468756B2 . 2010-05-26

机译：用于计算图像识别装置的基于相关度的相似度的相似度计算装置，相似度计算方法，识别方法，验证程序以及记录该相似度的记录介质
4. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
5. Similarity Caculating Method, Contents Providing Method based on the Similarity and the Method for Extracting Users who Have Similar Interests [P] . 韩国专利： KR101494215B1 . 2015-03-04

机译：相似度计算方法，基于相似度的内容提供方法以及具有相似兴趣的用户的提取方法