首页> 中国专利> 一种基于深度语义特征学习的短文本聚类方法

一种基于深度语义特征学习的短文本聚类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于深度语义特征学习的短文本聚类方法，包括：通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示，并对得到的低维实值向量进行二值化，做为卷积神经网络结构的监督信息进行误差反向传播训练模型；采用外部大规模语料无监督训练词向量，并对文本中每个词按词序进行向量化表示，做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征；得到深度语义特征表示后，采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识，设计简单且可学习深度的语义特征，并且，学习到的语义特征具有无偏性，可更有效地达到较好的聚类性能。

著录项

公开/公告号CN104915386A

专利类型发明专利
公开/公告日2015-09-16

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN201510270028.1
发明设计人徐博;许家铭;郝红卫;田冠华;王方圆;
展开▼

申请日2015-05-25
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人宋焰琴
地址 100190 北京市海淀区中关村东路95号
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2018-04-27

授权

授权
2015-10-14

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150525

实质审查的生效
2015-09-16

公开

公开

说明书

技术领域

本发明涉及文本特征向量化表示领域，特别是涉及一种基于深度语义特征学习的短文本聚类方法。

背景技术

随着社交媒体的广泛流行，短文本聚类日益成为一项重要的任务，它的主要挑战在于文本表示的稀疏性。为了克服这个困难，一些研究者尝试通过维基百科或本体库对短文本数据进行丰富和扩展。可是这些方法需要大量的自然语言处理知识，并且仍然采用高维的特征表示，很容易浪费存储和计算时间。另外一些研究者尝试开发复杂的模型用于聚类短文本数据。但是如何设计一个有效的模型是一个开放性的问题，并且之前大多数方法都是基于词袋特征的潜层模型。

随着深度神经网络的兴起，一些研究者尝试采用深度学习方法学习特征。如Hinton等人利用深度自编码模型(DAE)从原始特征数据中学习文本表示。近几年，词向量化表示方法大大改善了神经网络模型的性能，如递归神经网络(RecNN)和循环神经网络(RNN)。然而，递归神经网络需要构建额外的句法树并具有较高的复杂度，且循环神经网络的文本语义表示更偏重于最后一个词的表示信息。近日，卷积神经网络已经在很多自然语言处理领域取得多项突破性进展。但目前大多数工作都致力于利用卷积神经网络做有监督任务学习，如主题分类、关系分类等。本发明方法则着重于挖掘卷积神经网络在无监督学习任务的潜力，如文本聚类工作。

发明内容

本发明的主要目的在于提供一种基于深度语义特征学习的短文本聚类方法，从而能够将海量语义相似的短文本进行快速和准确地聚类。

为了实现上述目的，根据本发明的一方面，本发明提供了一种基于深度语义特征学习的短文本聚类方法，包括以下步骤：

选取训练文本，通过特征降维方法在局部信息保存约束下对所述训练文本的原始特征进行降维，并对低维实值向量进行二值化；

从所述训练文本中获取词特征，根据所述词特征通过查表分别获取所述词特征对应的词向量，以此作为卷积神经网络的输入特征学习深度语义表示特征；

所述卷积神经网络的输出节点通过多个逻辑斯特回归拟合降维得到二值码；

通过所述卷积神经网络输出的二值特征与所述原始特征降维后二值化特征的拟合残差进行误差反向传播训练所述卷积神经网络模型；

利用所述更新后的卷积神经网络模型对所述训练文本进行深度语义特征映射，然后利用K均值聚类算法得到所述短文本的聚类结果。

其中，所述选取训练文本，通过特征降维方法在局部信息保存约束下对所述训练文本的原始特征进行降维，并对低维实值向量进行二值化的步骤包括：

选取训练文本；

根据所述训练文本构造相似度矩阵；

通过所述相似度矩阵获取拉普拉斯特征向量；

通过所述拉普拉斯特征向量获取中值向量；

通过所述中值向量对所述拉普拉斯特征向量进行二值化，从而生成低维二值码。

其中，所述根据所述训练文本构造相似度矩阵的步骤包括：

根据下式计算所述相似度矩阵：

其中，S_ij为所述相似度矩阵，σ为局部缩放因子，NN_k(x)为所述训练文本x的k近邻集合。

其中，所述从训练文本中获取词特征，根据所述词特征通过查表分别获取词特征对应的词向量，以此作为卷积神经网络的输入特征学习深度语义表示特征的步骤包括：

从训练文本中获取词特征；

根据所述词特征通过查表分别获取词特征对应的词向量；

将所述词向量进行一维卷积，获取卷积后的特征矩阵；

所述特征矩阵通过折叠操作和采样进行特征压缩；

从所述压缩后特征中动态选取K最大神经单元；

所述K最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征。

其中，所述折叠操作和采样操作分别为：

折叠操作：对卷积层相邻两行神经元特征按对应所在列进行简单求和，给定一个d_w行的卷积层，通过折叠操作可以得到d_w/2行特征；以及

采样操作：根据输入文本长度进行动态K最大神经单元采样。

所述从所述压缩后特征中动态选取K最大神经单元的步骤包括：

给定一个顶层采样的参数K_top，则第l层的采样参数K可根据如下公式计算得到：

其中，L是选用卷积神经网络的层数，为短文本的长度。

其中，所述K最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征的步骤包括：

根据下式计算所述训练文本的隐式语义特征：

$h = \tanh (\hat{h});$

其中，h为所述训练文本的隐式语义特征。

其中，所述通过所述卷积神经网络输出的二值特征与所述原始特征降维后二值化特征的拟合残差进行误差反向传播训练所述卷积神经网络模型的步骤包括：

将所述训练文本的隐式语义特征通过卷积神经网络模型的全连接输出到输出层；

在所述输出层特征上添加多个逻辑斯特回归进行特征变换，得到最终输出特征；

将所述低维二值码同所述最终输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数。

其中，所述将低维二值码同所述最终输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数的步骤中，所述卷积神经网络模型采用交叉熵作为优化目标函数，并利用基于梯度下降的Adagrad更新规则。

其中，所述训练文本来自两种公开短文本数据集：

SearchSnippets：该数据集搜集了网络检索引擎的结果片段，按照事先预定的领域范围检索词将检索结果划分为8个类别；

StackOverflow：该数据集包含了从2012年7月31日至2012年8月 14日的3百多万条问题，从其中20个不同类别标签下随机抽取了2万条文本。

由上述技术方案可知，本发明的方法采用外部大规模语料无监督训练词向量，并对文本中每个词按词序进行向量化表示，做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征。得到文本的深度语义特征表示之后，本发明采用传统的K均值算法对文本进行聚类，可以得到更好的聚类结果。

相比于基于知识库语义扩展的短文本聚类方法，本发明方法不需要额外的自然语言处理等专业知识。相比于基于复杂模型语义抽取的短文本聚类方法，本发明方法设计简单而且可学习深度的语义特征。而且与目前流型的基于语言模型的无监督深度学习模型不同，本发明方法学习到的语义特征具有无偏性，可更有效地达到较好的聚类性能。

附图说明

图1为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的流程图；

图2为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的框架示意图；

图3为在本发明一个实施例中采用的一种深度卷积神经网络的结构示意图；

图4为本发明一个实施例中基于深度特征表示的聚类的性能示意图；

图5为本发明另一个实施例中基于深度特征表示的聚类的性能示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的总体构思是，通过特征降维方法在局部信息保存约束下对原始特征进行降维，并对低维实值向量进行二值化，以此二值化特征做为卷积神经网络结构的监督信息进行误差反向传播训练模型。利用训练好的卷积神经网络结构对短文本集合进行特征映射，得到文本的深度语义特征表示之后利用K均值聚类方法进行短文本聚类。

下面结合附图对本发明实施例提供的基于深度语义特征学习的短文本聚类方法进行详细描述。

图1为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的流程图。

参照图1，在步骤S101，选取训练文本，通过特征降维方法在局部信息保存约束下对训练文本的原始特征进行降维，并对低维实值向量进行二值化生成低维二值码。

根据本发明的一个示例性实施例，所述将训练文本通过特征降维方法进行降维二值化生成低维二值码包括：

在步骤S1011，根据所述训练文本的原始特征构造相似度矩阵。

在步骤S1012，通过所述相似度矩阵获取拉普拉斯特征向量。

在步骤S1013，通过所述拉普拉斯特征向量获取中值向量。

在步骤S1014，通过所述中值向量对所述拉普拉斯特征向量进行二值化，从而生成所述低维二值码。

根据本发明的一个示例性实施例，所述根据所述训练文本构造相似度矩阵包括：

根据公式(1)计算相似度矩阵：

其中，S_ij为所述相似度矩阵，NN_k(x)为所述训练文本x的k近邻集合， σ为局部缩放因子(默认为1)。

这里，训练文本用x表示，相似度矩阵用S_ij表示，相似度度量方法包括夹角余弦、欧式距离、高斯核和线性核。例如可以是，但不限于通过高斯核来构建局部相似度矩阵。

在步骤S1012，通过所述相似度矩阵获取拉普拉斯特征向量，拉普拉斯特征向量用表示。

为得到文x_i本集合的低维二值码B，采用拉普拉斯特征映射优化目标函数如公式(2)所示：

$(\begin{matrix} \min_{B} Σ_{i, j = 1}^{n} S_{ij} {| b_{i} - b_{j} |}_{F}^{2} \\ s . t . B \in {- 1,1}^{n \times q}, B^{T} 1 = 0, B^{T} B = I \end{matrix}) - - - (2)$

其中，S_ij是由公式(1)构造的局部相似度矩阵，b_i是文本的低维二值码，||·||_F是F-范数。通过松弛二值码离散化的约束条件B∈{-1，1}^n×r，最优的r维实值向量可以通过求解拉普拉斯特征映射问题解决，在此不再赘述。

在步骤S1013，通过拉普拉斯特征向量获取中值向量，其中，中值向量表示为

在步骤S102，从所述训练文本中获取词特征，根据所述词特征通过查表分别获取词特征对应的词向量，以此作为卷积神经网络的输入特征学习深度语义表示特征；

这里，通过从词特征的分布式向量化表示中进行查表得到词向量。同时，词向量化在模型中做为参数进行更新。

根据本发明的一个示例性实施例，所述将所述词向量作为卷积神经网络的输入特征学习深度语义表示特征包括：

在步骤S1021，将所述词向量进行一维卷积，获取卷积后的特征矩阵。

在步骤S1022，所述特征矩阵通过折叠和采样操作进行特征压缩。所述两种操作方式如下：

折叠操作：对卷积层相邻两行神经元特征按对应所在列进行简单求和，则给定一个d_w行的卷积层，通过折叠操作可以得到d_w/2行特征；

采用操作：本发明采用一种根据输入文本长度的动态K最大神经单元采样方法。给定一个顶层采样的参数K_top，则第l层的采样参数K可根据如下公式计算得到：

其中，L是本发明选用的卷积神经网络的层数，为短文本的长度。

在步骤S1023，所述压缩后神经元特征根据正切激活函数得到所述训练文本的隐式语义特征。

在步骤S103，所述卷积神经网络的输出节点通过多个逻辑斯特回归拟合降维得到的二值码。

为了拟合二值码B，在输出层特征O上应用q个逻辑斯特回归：

$p_{i} = \frac{\exp (O_{i})}{1 + \exp (O_{i})} - - - (4)$

在步骤S104，将所述低维二值码进行训练得到更新的卷积神经网络模型。

根据本发明的一个示例性实施例，所述将所述低维二值码进行训练得到更新的卷积神经网络模型包括：

在步骤S1041，将训练文本的隐式语义特征输入所述卷积神经网络模型的输出层；

在步骤S1042，将所述低维二值码同输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数。

这里，在步骤S1041中，训练文本的深层语义特征用h表示，并进行线性变换，具体由公式(5)可知：

O＝Wh (5)

其中，为输出向量，为线性变换矩阵。

为进行二值化，得到哈希码，在输出层特征O使用q个逻辑斯特回归，具体如公式(4)所示。

这里，在步骤S1042中，模型采用交叉熵作为优化目标函数，并利用基于梯度下降的Adagrad更新规则。

在步骤S105，利用更新后卷积神经网络模型对训练文本进行深度语义特征映射，然后利用K均值算法得到短文本的最终聚类结果。

图2为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的框架示意图。

参照图2，基于深度语义特征学习的短文本聚类方法中深度特征学习包括两个阶段，第一阶段是特征降维二值化阶段；第二阶段是卷积神经网络模型训练及深度特征学习阶段。

第一阶段：通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示。并对得到的低维实值向量进行二值化。

第二阶段：所述降维后的二值向量作为卷积神经网络结构的监督信息进行误差反向传播训练模型；本方法采用外部大规模语料无监督训练词向量，并对文本中每个词按词序进行向量化表示，做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征。

得到文本的深度语义特征表示之后，本发明采用传统的K均值算法对短文本进行聚类。

为了准确评估本发明方法的聚类性能，本发明通过对比文本的聚类结果和类别标签得到两个性能指标：精度(ACC)和标准化互信息(NMI)。给一个样本x_i，分别标注它们的聚类标签为c_i，及类别标签为y_i。则精度的定义如下：

$ACC = \frac{Σ_{i = 1}^{n} δ (y_{i}, map (c_{i}))}{n} - - - (6)$

其中，n是所有的文本数，δ(x，y)是指示函数，当x＝y时指示函数为 1，当x≠y时指示函数为0。而map(c_i)是一个排列映射函数，借助于匈牙利算法可以将聚类标签c_i映射到对应的类别标签上。而类别标签集合Y和聚类集合之间的标准化互信息是另外一种比较流行的评测指标，定义如下：

其中，是Y和之间的互信息，而H(·)是熵信息。

本发明试验中采用两种公开短文本数据集：

SearchSnippets：该数据集搜集了网络检索引擎的结果片段，按照事先预定的领域范围检索词将检索结果划分为8个类别。

StackOverflow：该数据集包含了从2012年7月31日至2012年8月 14日的3百多万条问题。本发明进行的实验中从其中20个不同类别标签下随机抽取了2万条文本。

针对这些短文本数据集，本发明不做任何处理(包括去停用词和词干还原等操作)，数据集的统计信息如表1所示：

表1

数据集类别数样本数量长度(平均/最大) 词典维数 SearchSnippets 8 12340 17.88/38 30642 StackOverflow 20 20000 8.31/34 22956

本发明采用公开的word2vec工具在大规模语料库中无监督训练词向量。其中，应用于SearchSnippets数据集的词向量在Wikipedia语料中进行训练，而应用于StackOverflow数据集的词向量则在上面描述到的 StackOverflow全语料(包括所有问题标题和问题内容)上进行训练。无监督训练得到的词向量在两个数据集上的覆盖度统计信息如表2所示，其中未训练词在神经网络模型输入时则直接随机初始化。

具体参照如表2所示的GloVe和Senna词向量的覆盖度统计信息：

表2

数据集词覆盖度 Token覆盖度 SearchSnippets 23826(77％) 211575(95％) StackOverflow 19639(85％) 162998(97％)

本发明试验中采用以下对比聚类方法：

对比方法一：K均值聚类方法，该方法直接在原始特征上采用K均值方法，而原始特征分别采用词频(TF)和词频-反向文档频率(TF-IDF) 进行加权。

对比方法二：谱聚类方法，该方法采用拉普拉斯特征映射，并应用K 均值方法进行聚类。其中，特征向量的维数默认和聚类的数目相同，并且本发明对比试验中，在特征向量维数10∶10∶200范围内进行遍历以寻找最优聚类结果，得到SearchSnippets数据集的最优特征向量维数为20维，而StackOverflow的最优特征维数为70维。

对比方法三：均值词向量方法，在加权平均的词向量特征上采用K均值方法聚类，其中加权方式分别为TF和TF-IDF。

本发明试验中采用以下参数设置：

本发明的方法及对比方法二采用同样的相似度矩阵构造方法，且设置公式(1)中的近邻数为15。所采用的卷积神经网络模型，其中，顶层K_top最大采样中的参数设置为5，且第一层网络的卷积核数为12个而第二层的卷积核数为8个。两个卷积层都紧跟一个折叠操作。本发明同时固定词向量维度为48，则最终深层特征表示的特征被固定到480维。此外，本发明设定学习率为0.01，分批训练的文本数量为200。而输出层神经单元个数同对比方法二中得到的最优特征向量维数一致。本发明进行的试验中，所有聚类方法执行5次，且其中的K均值方法每次重复执行100次以减少初始的聚类中心对聚类结果性能的影响。最终的聚类试验结果如表3所示：

表3

表3为本发明方法、K均值聚类方法、谱聚类方法以及均值词向量方法在两个短文本数据集上聚类结果的ACC和NMI评测结果。试验结果表明，本发明方法的聚类性能显著优越于其他对比方法。且相对于均值词向量(TF)聚类方法，本发明方法在两个数据集上分别提升了2.33％/4.86％和14.23％/10.01％(ACC/NMI)。

同时，本发明进行的试验利用随机近邻映射方法将所有聚类方法中的特征表示降维到二维空间中进行可视化展示，如图4和图5所示(原图为彩色)。可以看到，基于本发明的方法学习到的深度特征表示得到的二维可视化结果具有更加明显的主题区分度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深度语义特征学习的短文本聚类方法 [P] . 中国专利： CN104915386B . 2018.04.27
2. 一种基于深度语义路径搜索的短文本聚类方法 [P] . 中国专利： CN107273426B . 2019.07.16
3. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
4. NEWS SENTENCE CLUSTERING METHOD BASED ON SEMANTIC SIMILARITY, DEVICE, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2019056692A1 . 2019-03-28

机译：基于语义相似度，设备和存储媒介的新闻句子聚类方法
5. METHOD OF CLUSTERING OF SEARCH RESULTS DEPENDING ON SEMANTICS [P] . 俄罗斯专利： RU2564629C1 . 2015-10-10

机译：基于语义的搜索结果的聚类方法