首页> 中国专利> 基于主成分聚类的文本信息挖掘方法及装置

基于主成分聚类的文本信息挖掘方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及文本信息处理领域，特别涉及一种基于主成分聚类的文本信息挖掘方法及装置，用以解决现有技术处理得到的信息有效性不高的问题。本发明实施例中，通过统计词语的之间的共现次数，以此得到每个词语与其它词语的链接总数，然后基于该链接总数来确定中心特征较强的词语，由此构建观测数据矩阵，在此基础上采用主成分聚类的方式对该矩阵进行处理，并将得到的聚类结果与对应的词语以及词频匹配，最终获得文本信息挖掘的结果。

著录项

公开/公告号CN104462607A

专利类型发明专利
公开/公告日2015-03-25

原文格式PDF
申请/专利权人余宇新;
展开▼

申请/专利号CN201410857134.5
发明设计人余宇新;
展开▼

申请日2014-12-30
分类号G06F17/30(20060101);
代理机构
代理人
地址 200433 上海市杨浦区国定路777号
入库时间 2023-12-18 08:05:40

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-09

专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190619 变更前: 变更后: 申请日:20141230

专利申请权、专利权的转移
2018-01-23

授权

授权
2015-04-22

实质审查的生效 IPC(主分类):G06F17/30 申请日:20141230

实质审查的生效
2015-03-25

公开

公开

说明书

技术领域

本发明涉及文本信息处理领域，特别涉及一种基于主成分聚类的文本信息挖掘方法及装置。

背景技术

随着互联网时代到来，消费者对产品和品牌的表达日益丰富，让市场研究越来越关注于挖掘消费者表达的市场价值，为此需要应用文本聚类算法的方法对消费者表达的信息进行挖掘。

目前的文本聚类算法都是以VSM(Vector Space Model，空间向量模型)为基础的。就目前的算法来看，现有的文本聚类算法由于无法有效的对文本信息聚类的类别数量进行有效控制，会出现过度分类的问题或者分类不足的问题。过度分类会导致信息过度复杂并由此造成无法进行解读，而分类不足则会导致对文本信息无从解读，从而无法有效的得出对文本的所表达的信息。

发明内容

本发明提供一种基于主成分聚类的文本信息挖掘方法及装置，用以解决现有技术处理得到的信息有效性不高的问题。

本发明实施例提供的一种基于主成分聚类的文本信息挖掘方法，包括以下步骤：

由语句集中提取词语，并统计所述词语的词频；

提取词频最大的n个词语，并统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数；

在所述n个词语中提取链接总数最多的q个词语，生成观测数据矩阵，其中所述链接总数为每个词语与其余词语的共现次数的总数，所述观测数据矩阵的矩阵元素为所述q个词语对应的共现次数，其中q≤n；

对观测数据矩阵进行主成分聚类分析，获得聚类结果；

将所述聚类结果与对应的词语以及词频匹配，获得文本信息挖掘的结果。

较佳地，提取词频最大的n个词语，并统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数，包括：

根据词频对所述词语进行排序，选取词频最大的n个词语；

统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数，构建n个词语的共现矩阵D，

其中，d_ij＝0(i＝j)，d_ij表示词语i和词语j的共现次数。

较佳地，在所述n个词语中提取链接总数最多的q个词语，生成观测数据矩阵，包括：

获取每个词语的链接总数；

根据所述链接总数确定第一阈值；

提取链接总数高于所述第一阈值的q个词语，生成观测数据矩阵。

较佳地，在将所述聚类结果与对应的词语以及词频匹配之后，还包括：

获取主成分的各个构成变量的相关系数；

选取相关系数高于第二阈值的所述主成分的构成变量，得到最终的文本信息挖掘的结果。

较佳地，在将所述聚类结果与对应的词语以及词频匹配之后，还包括：

若所述聚类结果的主成分仅有一个，则在所述词频最大的n个词语中选取至少一个词语，将选取的所述词语在共现次数统计中去除，重新提取链接总数最多的q个词语，生成观测数据矩阵。

本发明实施例还提供了一种基于主成分聚类的文本信息挖掘装置，包括：

样本提取模块，用于由所述语句集中提取词语，并统计所述词语的词频；

共现统计模块，用于提取词频最大的n个词语，并统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数；

数据处理模块，用于在所述n个词语中提取链接总数最多的q个词语，生成观测数据矩阵，其中所述链接总数为每个词语与其余词语的共现次数的总数，所述观测数据矩阵的矩阵元素为所述q个词语对应的共现次数，其中q≤n；

聚类分析模块，用于对观测数据矩阵进行主成分聚类分析，获得聚类结果；

匹配处理模块，将所述聚类结果与对应的词语以及词频匹配，获得文本信息挖掘的结果。

较佳地，所述共现统计模块，具体用于：

根据词频对所述词语进行排序，选取词频最大的n个词语；

统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数，构建n个词语的共现矩阵D，

其中，d_ij＝0(i＝j)，d_ij表示词语i和词语j的共现次数。

较佳地，所述数据处理模块，具体用于：

获取每个词语的链接总数；

根据所述链接总数确定第一阈值；

提取链接总数高于所述第一阈值的q个词语，生成观测数据矩阵。

较佳地，所述匹配处理模块，还用于：

在将所述聚类结果与对应的词语以及词频匹配之后，获取主成分的各个构成变量的相关系数；

选取相关系数高于第二阈值的所述主成分的构成变量，得到最终的文本信息挖掘的结果。

较佳地，所述匹配处理模块，还用于在将所述聚类结果与对应的词语以及词频匹配之后，确定所述聚类结果的主成分仅有一个；

所述共现统计模块，还用于在所述聚类结果的主成分仅有一个时，在所述词频最大的n个词语中选取至少一个词语，将选取的所述词语在共现次数统计中去除；

数据处理模块，还用于重新提取链接总数最多的q个词语，生成观测数据矩阵。

本发明实施例中，通过统计词语的之间的共现次数，以此得到每个词语与其它词语的链接总数，然后基于该链接总数来确定中心特征较强的词语，由此构建观测数据矩阵，在此基础上采用主成分聚类的方式对该矩阵进行处理，并将得到的聚类结果与对应的词语以及词频匹配，最终获得文本信息挖掘的结果。

附图说明

图1为本发明实施例提供的一种基于主成分聚类的文本信息挖掘方法的处理流程图；

图2为本发明实施例中生成观测数据矩阵的流程图；

图3为本发明实施例提供的一种基于主成分聚类的文本信息挖掘装置的结构示意图。

具体实施方式

本发明实施例中通过统计词语的之间的共现次数，以此得到每个词语与其它词语的链接总数，然后基于该链接总数来确定中心特征较强的词语，由此构建观测数据矩阵，在此基础上采用主成分聚类的方式对该矩阵进行处理，并将得到的聚类结果与对应的词语以及词频匹配，最终获得文本信息挖掘的结果。

下面结合说明书附图对本发明实施例作进一步详细描述。

如图1所示，一种基于主成分聚类的文本信息挖掘方法，包括以下步骤：

步骤101，由语句集中提取词语，并统计词语的词频。

该步骤中的语句集由文本数据中获取，文本数据包括但不限于微博数据、线上消费者评论数据或者消费者论坛上的数据等等，可以通过爬虫技术从互联网直接抓取，也可以由预设的数据库中进行提取。在获取到文本数据后，由于其内容复杂，需要对文本数据进行初步的清洗，清除与目标无关的一些文本数据，剩余的文本数据即可以用来构建语句集。

以某在线购物网站抓取的消费者评论数据为例，通过爬虫技术抓取这些数据后，首先需要根据预设的规则对其进行清洗。具体规则可以根据文本挖掘的目标来设定，例如根据目标设定几个关键字，对包含这几个的语句进行过滤，删除包含这些关键字的数据，或者也可以结合用户ID进行过滤，对同一用户作出的相同的消费者评论数据，仅保留其中一条。根据剩余文本数据构建的语句集可以采用如下形式：

$> A = (\begin{matrix} a_{1} \\ a_{2} \\ . \\ . \\ . \\ a_{n} \end{matrix})$ >

该语句集A中包含语句a₁，语句a₂，……，语句a_n。

在获得了语句集后，对语句集中的语句进行切分处理，得到切分后的词语。具体切分处理方式可以采用任意现有的切词算法，例如双向最大匹配算法等，此处不再赘述。在语句切分完成后，统计词语的词频，并由此建立如下形式的数据集：

该数据集B包含词语b₁，词语b₂，……，词语b_m，以及对应的词频p₁，词频p₂，……，词频p_m。

由于上述数据集B中的词语直接采用了切词后的所有词语，因此在这些词语中不可避免的会产生一些无意义或者与目标无关的词语。作为一种优选的方式，可以对数据集B中的词语进行进一步地清洗，从而简化后续的处理过程。在获得数据集B之后，还可以根据预设规则对数据集B的词语进行清洗，清除与目标无关的词语以及对应的词频，获得数据集该数据集C的结构与B一致，包含词语c₁，词语c₂，……，词语c_m′，以及对应的词频p₁，词频p₂，……，词频p_m′，m′≤m。

上述处理过程中的清洗规则同样可以采用文本数据清洗中的一些规则，例如设置关键字进行过滤等。

步骤102，提取词频最大的n个词语，并统计n个词语中每个词语在语句集的每个语句中与其余词语的共现次数。

词语的提取采用排序的方式，在采用上述方式获取清洗后的数据集C之后，按照词频大小的顺序对数据集C中的词语进行排序，从而选取词频最大的n个词语。共现次数是指某个词语与其余词语在语句中共同出现的次数，例如一个语句中同时包含了词语c₁和词语c₂，则记词语c₁与词语c₂的共现次数为1次。统计得到的所有词语的共现次数可以通过构建共现矩阵D来表示，该矩阵的形式如下：

其中，d_ij＝0(i＝j)，d_ij表示词语i和词语j的共现次数。

仍以某在线购物网站抓取的消费者评论数据为例，采用上述方式获得的n个词语中为正品、简约、购买、音效，而语句集A中包含下述评论语句“音效不错，是正品”、“外形简约，音效也不错，下次还会购买”、“音效好，使用起来很舒服，下次还会购买”。由此，可以根据统计结果得到如下的共现矩阵：

在实际处理过程中，由于作为初始样本的文本数据很大，此步骤中n的数量也会根据实际情况设置为一个较大的数据，例如选取1000个以上的词语，来生成共现矩阵，具体的数量可以根据文本信息挖掘的目标来设定。

步骤103，在n个词语中提取链接总数最多的q个词语，生成观测数据矩阵，其中链接总数为每个词语与其余词语的共现次数的总数，观测数据矩阵的矩阵元素为q个词语对应的共现次数，其中q≤n。

以上述词语为例，正品、简约、购买、音效的链接总数分别为1、2、3、4，其链接总数越高，则说明该词语对于其它词语的吸引力就越强，越能够反映所表达的信息。因此，选取链接总数多的词语来生成观测矩阵，作为主成分聚类分析的样本，以使聚类结果的有效性更高，更能反映文本信息所要表达的信息。

在实际处理过程中，步骤103的具体可以分为一下几步，如图2所示：

步骤301，获取每个词语的链接总数。在本实施例中，每个词语的链接总数即为该词语在共现矩阵中对应一行的各个共现次数相加的和。

由于实际处理过程中共现次数均通过矩阵集形式保存，因此后续处理过程中的相关数据可以与矩阵中词语的保存位置建立关联，以方便根据后续的处理结果调用矩阵中的数据。为此，可以在步骤301之前，将共现矩阵中的词语信息和词频信息进行分离，并对词语信息进行定位，即将某一词语与其在共现矩阵中的位置进行一个关联，使得在后续处理过程中，通过词语信息即可查找到其在共现矩阵中的位置。此外，为了方便进行数据处理，链接总数可以采用行式的形式保存。

步骤302，根据链接总数确定第一阈值。该第一阈值用于确定选取的q个词语，可以根据实际需求来进行确定。本实施例中，采用的第一阈值为所有词语的链接总数的标准差与均值之和。

步骤303，提取链接总数高于第一阈值的q个词语，生成观测数据矩阵。

由于已经获取到每个词语的链接总数以及第一阈值，可以将采用行式形式表示的词语链接总数数据由大到小进行排序，然后确定第一阈值在该序列中的位置。此时，序列中处于该第一阈值前面的数据即为选取的q个词语的链接总数。由此可以确定这q个词语的词语信息，进而确定其在共现矩阵中对应的信息，用以生成观测数据矩阵。

步骤104，对观测数据矩阵进行主成分聚类分析，获得聚类结果。

本发明实施例中，观测数据矩阵X的形式如下：

$> X = (\begin{matrix} x_{11} & x_{12} & . . . & x_{1 p} \\ x_{21} & x_{22} & . . . & x_{2 p} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ x_{q 1} & x_{q 2} & . . . & x_{qp} \end{matrix})$ >

假设本实施例中的根据步骤103确定的q个词语为前述的正品、简约、购买、音效四个词语，那么确定的观测数据矩阵X为：

$> X = (\begin{matrix} 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 1 \\ 0 & 1 & 0 & 2 \\ 1 & 1 & 2 & 0 \end{matrix})$ >

主成分聚类分析的具体过程如下：

(1)对观测数据矩阵进行标准化处理，得到标准化矩阵X^*：

该标准化矩阵中每个元素为根据以下公式得到：

$> x_{ij}^{*} = \frac{x_{ij} - {\overline{x}}_{j}}{\sqrt{var (x_{j})}}, (i = 1,2, . . ., q; j = 1,2, . . ., p)$ >

其中， $> {\overline{x}}_{j} = \frac{1}{q} Σ_{i = 1}^{q} x_{ij}, var (x_{j}) = \frac{1}{q - 1} Σ_{i = 1}^{q} {(x_{ij} - {\overline{x}}_{j})}^{2} .$ >

(2)根据标准化矩阵计算相关系数矩阵R。

$> R = (\begin{matrix} r_{11} & r_{12} & . . . & r_{1 p} \\ r_{21} & r_{22} & . . . & r_{2 p} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ r_{p 1} & r_{p 2} & . . . & r_{pp} \end{matrix})$ >

(3)采用雅可比方法计算上述相关系数矩阵R的特征值(λ₁,λ₂…λ_p)，以及每个特征值对应的特征向量a_i＝(a_i1,a_i2,…a_ip),i＝1,2…p。

(4)依据贡献率，选取k个的主成分。贡献率是指某个主成分的方差占全部方差的比重，实际也就是某个特征值占全部特征值合计的比重，根据以下公式计算：

本实施例中，主成分的累计贡献率达到85％以上，即作为选取的主成分，由此保证重新构造的k维变量能够包含原始的p维变量的绝大多数信息。

(5)计算选取的各个主成分的得分，获得聚类结果。本实施例中计算得到的主成分得分如下：

$> (\begin{matrix} F_{11} & F_{12} & . . . & F_{1 k} \\ F_{21} & F_{22} & . . . & F_{2 k} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ F_{q 1} & F_{q 2} & . . . & F_{qk} \end{matrix})$ >

步骤105，将聚类结果与对应的词语以及词频匹配，获得文本信息挖掘的结果。由于聚类结果中每一行的词语可以通过其词语信息进行定位，可以查找到每一行对应的词语名称以及词频信息。匹配得到的结果可以采用如下形式表示：

进一步地，在将聚类结果与对应的词语以及词频匹配之后，还可以继续对聚类结果进行选取，选取依据为主成分的各个构成变量的相关系数值。基于相关系数条件的设定，如可以设定某一值作为第二阈值，将主成分的各个构成变量的相关系数值逐个与第二阈值进行比较，得到最终的文本信息挖掘的结果。

此外，在将聚类结果与对应的词语以及词频匹配之后，若聚类结果的主成分仅有一个，则可能说明某些词语对于其它词的吸引力过强，可能影响到主成分聚类的结果。为了得到更加可靠的处理结果，可以进行去中心化操作，按照一定比例将某些词语从链接关系计算中去除，这一比例可以根据需求反复设定多次，得到不同的去中心化操作后的共现矩阵，以得到最优的处理结果。

在本实施例中，即在词频最大的n个词语中选取至少一个词语，将选取的词语在共现次数统计中去除。例如，在“正品、简约、购买、音效”四个词语中，将“购买”从链接关系计算中去除，即其它词语与“购买”共同出现时，不计入共现次数，由此得到的共现矩阵即为：

然后返回到步骤103，重新提取链接总数最多的q个词语，生成观测数据矩阵。

基于同一发明构思，本发明实施例中还提供了一种基于主成分聚类的文本信息挖掘装置，由于该装置解决问题的原理与本发明实施例中方法的实现相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，一种基于主成分聚类的文本信息挖掘装置，包括：

样本提取模块310，用于由语句集中提取词语，并统计词语的词频；

共现统计模块320，用于提取词频最大的n个词语，并统计n个词语中每个词语在语句集的每个语句中与其余词语的共现次数；

数据处理模块330，用于在n个词语中提取链接总数最多的q个词语，生成观测数据矩阵，其中链接总数为每个词语与其余词语的共现次数的总数，观测数据矩阵的矩阵元素为q个词语对应的共现次数，其中q≤n；

聚类分析模块340，用于对观测数据矩阵进行主成分聚类分析，获得聚类结果；

匹配处理模块350，将聚类结果与对应的词语以及词频匹配，获得文本信息挖掘的结果。

较佳地，样本提取模块由文本数据中获取获取语句集，具体为：

根据预设规则对文本数据进行清洗，清除与目标无关的文本数据，根据剩余的文本数据构建语句集 $> A = (\begin{matrix} a_{1} \\ a_{2} \\ . \\ . \\ . \\ a_{n} \end{matrix}),$ >其中语句集A中包含语句a₁，语句a₂，……，语句a_n。

较佳地，样本提取模块，具体用于：

对语句集中的语句进行切分处理，得到切分后的词语；

统计词语的词频，获得包含词语和词频的数据集其中数据集B包含词语b₁，词语b₂，……，词语b_m，以及对应的词频p₁，词频p₂，……，词频p_m。

较佳地，样本提取模块，还用于：

在获得包含词语和词频的数据集之后，根据预设规则对数据集B的词语进行清洗，清除与目标无关的词语以及对应的词频，获得数据集其中数据集C包含词语c₁，词语c₂，……，词语c_m′，以及对应的词频p₁，词频p₂，……，词频p_m′，m′≤m。

较佳地，共现统计模块，具体用于：

根据词频对词语进行排序，选取词频最大的n个词语；

统计n个词语中每个词语在语句集的每个语句中与其余词语的共现次数，构建n个词语的共现矩阵D，

其中，d_ij＝0(i＝j)，d_ij表示词语i和词语j的共现次数。

较佳地，数据处理模块，具体用于：

获取每个词语的链接总数；

根据链接总数确定第一阈值；

提取链接总数高于第一阈值的q个词语，生成观测数据矩阵。

较佳地，匹配处理模块，还用于：

在将聚类结果与对应的词语以及词频匹配之后，获取主成分的各个构成变量的相关系数；

选取相关系数高于第二阈值的主成分的构成变量，得到最终的文本信息挖掘的结果。

较佳地，匹配处理模块，还用于在将聚类结果与对应的词语以及词频匹配之后，确定聚类结果的主成分仅有一个；

共现统计模块，还用于在聚类结果的主成分仅有一个时，在词频最大的n个词语中选取至少一个词语，将选取的词语在共现次数统计中去除；

数据处理模块，还用于重新提取链接总数最多的q个词语，生成观测数据矩阵。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于主成分聚类的文本信息挖掘方法及装置 [P] . 中国专利： CN104462607B . 2018.01.23
2. 基于主成分聚类的文本信息挖掘方法及装置 [P] . 中国专利： CN104462607A . 2015-03-25
3. Agent-based method for distributed clustering of textual information [P] . 美国专利： US7805446B2 . 2010-09-28

机译：基于主体的文本信息分布式聚类方法
4. AN AGENT-BASED METHOD FOR DISTRIBUTED CLUSTERING OF TEXTUAL INFORMATION [P] . 世界知识产权组织专利： WO2006044070A2 . 2006-04-27

机译：基于Agent的文本信息分布式聚类方法。
5. AN AGENT-BASED METHOD FOR DISTRIBUTED CLUSTERING OF TEXTUAL INFORMATION [P] . 世界知识产权组织专利： WO2006044070A3 . 2006-07-20

机译：基于Agent的文本信息分布式聚类方法。