首页> 中国专利> 一种基于义原扩展的短文本分类预处理方法、系统及装置

一种基于义原扩展的短文本分类预处理方法、系统及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于义原扩展的短文本分类预处理方法、系统及装置，方法包括：对需要分类的短文本进行初步处理，得到原始词向量；对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合；对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出语义相似度最大的那组扩展词向量作为特定词向量；将原始词向量与特定词向量组进行加权处理，得出待分类词向量。本发明有效解决了原文信息量不足的缺点，而且由于采用了义原扩展方式，这样同时也避免了后期分类算法选择的局限性，同时也能较好的对于新出现的词具有较好的识别作用，为后续分类算法的泛化性能提升提供帮助，大大提高了后续分类的准确率。

著录项

公开/公告号CN109885680A

专利类型发明专利
公开/公告日2019-06-14

原文格式PDF
申请/专利权人仲恺农业工程学院;
展开▼

申请/专利号CN201910060245.6
发明设计人郑建华;刘双印;朱蓉;贺超波;徐龙琴;张世龙;冯大春;
展开▼

申请日2019-01-22
分类号
代理机构广州嘉权专利商标事务所有限公司;
代理人薛建强
地址 510225 广东省广州市海珠区东沙街24号仲恺农业工程学院科技处
入库时间 2024-02-19 11:14:07

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-19

授权

授权
2019-07-09

实质审查的生效 IPC(主分类):G06F16/35 申请日:20190122

实质审查的生效
2019-06-14

公开

公开

说明书

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于义原扩展的短文本分类预处理方法、系统及装置。

背景技术

文本分类是当前遇到的非常泛的应用场景，比如需要把一个新闻分类为体育、政治等，或者需要把一本小说分类科幻、言情、武侠等，目前针对文本分类的方法主要有基于传统特征工程+机器学习算法，或者直接使用深度学习算法。但是在文本分类领域中，长文本提供了大量的信息，而短文本提供的信息非常有限，因此针对长文本比较容易提取其特征信息，而短文本则较难。

针对短文本分类，现有的方法侧重于研究采用什么样的分类算法去提高分类准确性，比如卷积神经网络、多模型融合、SVM、随机森林。但是实际上短文本分类的难点是由于文本过短，其包含的信息量太少，导致输入给各种分类算法的特征太少，从而导致分类的准确性较低。

发明内容

为了解决上述技术问题，本发明的目的就是提供一种能提高准确率的基于义原扩展的短文本分类预处理方法、系统及装置。

本发明所采取的技术方案是：

一种基于义原扩展的短文本分类预处理方法，包括以下步骤：

对需要分类的短文本进行初步处理，得到原始词向量；

对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合；

对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出语义相似度最大的那组扩展词向量作为特定词向量；

将原始词向量与特定词向量组进行加权处理，得出待分类词向量；

将待分类词向量输入至分类器中进行文本分类。

作为所述的一种基于义原扩展的短文本分类预处理方法的进一步改进，所述的对需要分类的短文本进行初步处理，得到原始词向量，这一步骤具体包括：

对需要分类的短文本进行分词处理，得到分词结果；

对分词结果进行停用词删除处理，得到原始词向量。

作为所述的一种基于义原扩展的短文本分类预处理方法的进一步改进，所述的对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合，这一步骤具体包括：

对原始词向量中的每个词进行义原扩展处理，得出每个词对应的义原集合；

根据预设的方式从每个词对应的义原集合中抽取义原，构成扩展词向量；

根据得到的扩展词向量，形成候选扩展词向量集合。

作为所述的一种基于义原扩展的短文本分类预处理方法的进一步改进，所述的对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量，这一步骤具体包括：

将候选扩展词向量集合中的扩展词向量进行向量化表征，得到扩展词向量对应的词向量表征集；

根据扩展词向量对应的词向量表征集，计算任意两个词向量表征的语义相似度；

根据任意两个词向量表征的语义相似度，计算扩展词向量对应词向量表征集的平均语义相似度；

根据每个扩展词向量对应词向量表征集的平均相似度，筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。

本发明所采用的另一个技术方案是：

一种基于义原扩展的短文本分类预处理系统，包括：

初步处理单元，用于对需要分类的短文本进行初步处理，得到原始词向量；

义原扩展单元，用于对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合；

筛选单元，用于对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出语义相似度最大的那组扩展词向量作为特定词向量；

加权处理单元，用于将原始词向量与特定词向量组进行加权处理，得出待分类词向量；

输入单元，用于将待分类词向量输入至分类器中进行文本分类。

作为所述的一种基于义原扩展的短文本分类预处理系统的进一步改进，所述的初步处理单元具体包括：

分词处理单元，用于对需要分类的短文本进行分词处理，得到分词结果；

停用词处理单元，用于对分词结果进行停用词删除处理，得到原始词向量。

作为所述的一种基于义原扩展的短文本分类预处理系统的进一步改进，所述的义原扩展单元具体包括：

扩展单元，用于对原始词向量中的每个词进行义原扩展处理，得出每个词对应的义原集合；

抽取单元，用于根据预设的方式从每个词对应的义原集合中抽取义原，构成扩展词向量；

集合形成单元，用于根据得到的扩展词向量，形成候选扩展词向量集合。

作为所述的一种基于义原扩展的短文本分类预处理系统的进一步改进，所述的筛选单元具体包括：

向量化处理单元，用于将候选扩展词向量集合中的扩展词向量进行向量化表征，得到扩展词向量对应的词向量表征集；

语义相似度计算单元，用于根据扩展词向量对应的词向量表征集，计算任意两个词向量表征的语义相似度；

平均计算单元，用于根据任意两个词向量表征的语义相似度，计算扩展词向量对应词向量表征集的平均语义相似度；

词向量筛选单元，用于根据每个扩展词向量对应词向量表征集的平均相似度，筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。

本发明所采用的再一个技术方案是：

一种基于义原扩展的短文本分类预处理装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，所述程序使得所述处理器执行所述的基于义原扩展的短文本分类预处理方法。

本发明的有益效果是：

本发明一种基于义原扩展的短文本分类预处理方法、系统及装置通过义原扩展处理、语义相似度计算和加权处理后得到待分类词向量代替原来的短文本参与到分类算法，这样解决了原文信息量不足的缺点，而且由于采用了义原扩展方式，这样同时也避免了后期分类算法选择的局限性，同时也能较好的对于新出现的词具有较好的识别作用，为后续分类算法的泛化性能提升提供帮助，大大提高了后续分类的准确率。

附图说明

图1是本发明一种基于义原扩展的短文本分类预处理方法的步骤流程图；

图2是本发明一种基于义原扩展的短文本分类预处理系统的模块方框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参考图1，本发明一种基于义原扩展的短文本分类预处理方法，包括以下步骤：

S1、对需要分类的短文本进行初步处理，得到原始词向量；

S2、对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合；

S3、对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出语义相似度最大的那组扩展词向量作为特定词向量；

S4、将原始词向量与特定词向量组进行加权处理，得出待分类词向量；

S5、将待分类词向量输入至分类器中进行文本分类。

本实施例中，假设对于短文本T_i，选择了两组扩展词向量p，q，分别为这样我们就可以用三者的链接组成新的文本即待分类词向量来代替原来的短文本，投入到分类算法中去。

不过为了强化原始短文本T_i的特征，本发明提出对原始短文本T_i采用加权的方式，即新替代文本为：其中w＞1

对所有的短文本都执行以上S1-S4过程，形成新替代文本数据集，然后再新替代文本数据集利用现有的各种文本分类算法即可得到各短文本的分类情况。

进一步作为优选的实施方式，所述的对需要分类的短文本进行初步处理，得到原始词向量，这一步骤具体包括：

S11、对需要分类的短文本进行分词处理，得到分词结果；

S12、对分词结果进行停用词删除处理，得到原始词向量。

本实施例中，可对每一条短文本采用任何一种分词工具(比如jieba等)进行分词，然后对短文本里面的类似于″的″、″地″、″得″之类的预设的停用词进行删除处理，然后得到以下原始词向量：

式中T_i表示第i个短文本词向量，表示该文本中的第一个词，表示该短文本中的第C_i个词，C_i也表示该短文本中一个分出的词个数。

进一步作为优选的实施方式，所述的对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合，这一步骤具体包括：

S21、对原始词向量中的每个词进行义原扩展处理，得出每个词对应的义原集合；

其中，每个短文本的原始词向量中的每个词及对应以上中的概念，因此本发明将基于知网的每个概念的义原实现对短文本的表达扩展。

设每个短文本i中的第j个词为该词对应在知网的概念语义表达中存在义原集合其中表示义原集合中第1个义原，而该词总共有CS_i个义原。

类似的短文本i的其他词语也可以构造出相应的义原集合，

故对于每个短文本原词词向量T_i可以得到一个义原集合序列

S22、根据预设的方式从每个词对应的义原集合中抽取义原，构成扩展词向量；

本实施例预设的构造一组扩展词向量的方法是：分别从原始词向量T_i对应的义原集合序列T_Sem_i的每一个义原集合项抽取出一个或者两个义原，组合构成一个扩展词向量，比如抽取每个义原集合的第一项组成一个扩展词向量，表示如下：

对于一个原始词向量T_i将存在这样的扩展词向量，形成一组扩展词向量，即

S23、根据得到的扩展词向量，形成候选扩展词向量集合。

进一步作为优选的实施方式，所述的对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量，这一步骤具体包括：

S31、将候选扩展词向量集合中的扩展词向量进行向量化表征，得到扩展词向量对应的词向量表征集；

本发明实施例中采用word2vec技术，并利用维基百科或者搜狗语料库作为训练语料库，将一个扩展词向量中的每一个义原词语表达成向量形式，该向量可以设定为50，100，300等不同维数的向量，向量中的每一个值都是浮点类型的数值，这样就完成了每个词的向量化表征。

比如中的表征为表征为

即得到候选扩展词向量对应的word2vec向量表征集

S32、根据扩展词向量对应的词向量表征集，计算任意两个词向量表征的语义相似度；

本发明方法不限该相似度计算方法，本实施例中仅仅以余弦相似度计算为例。设A，B两个向量，则A，B两个向量的余弦相似度计算公式为：

本发明采用相似度计算方法(诸如上述余弦相似度计算公式，)计算任意两个词向量表征的语义相似度：

S33、根据任意两个词向量表征的语义相似度，计算扩展词向量对应词向量表征集的平均语义相似度；

每一个word2vec向量表征集中这样的相似度一共有个，故可以计算向量表征集的平均相似度为：

这是短文T_i的第一个扩展词向量的平均相似度，类似的可以计算短文本T_i的其他扩展词向量的平均相似度，得到一个短文本T_i的扩展词向量的平均相似度向量，如下所示：

根据余弦相似度的意义，给出的相似性范围从-1到1：-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

S34、根据每个扩展词向量对应词向量表征集的平均相似度，筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。

本发明将对sim(Vⁱ)进行筛选操作，选择值最大的一项，其值最大，表明其所对应的扩展词向量的语义关联关系越紧密，越有可能是一个可以替换原短文本的扩展向量。当然本发明也建议选择最大的两项所应用的扩展词向量。

参考图2，本发明一种基于义原扩展的短文本分类预处理系统，包括：

初步处理单元，用于对需要分类的短文本进行初步处理，得到原始词向量；

义原扩展单元，用于对原始词向量中的每个词进行义原扩展处理，得出扩展词向量，进而形成候选扩展词向量集合；

筛选单元，用于对候选扩展词向量集合中的扩展词向量进行语义相似度计算，筛选得出语义相似度最大的那组扩展词向量作为特定词向量；

加权处理单元，用于将原始词向量与特定词向量组进行加权处理，得出待分类词向量；

输入单元，用于将待分类词向量输入至分类器中进行文本分类。

进一步作为优选的实施方式，所述的初步处理单元具体包括：

分词处理单元，用于对需要分类的短文本进行分词处理，得到分词结果；

停用词处理单元，用于对分词结果进行停用词删除处理，得到原始词向量。

进一步作为优选的实施方式，所述的义原扩展单元具体包括：

扩展单元，用于对原始词向量中的每个词进行义原扩展处理，得出每个词对应的义原集合；

抽取单元，用于根据预设的方式从每个词对应的义原集合中抽取义原，构成扩展词向量；

集合形成单元，用于根据得到的扩展词向量，形成候选扩展词向量集合。

进一步作为优选的实施方式，所述的筛选单元具体包括：

向量化处理单元，用于将候选扩展词向量集合中的扩展词向量进行向量化表征，得到扩展词向量对应的词向量表征集；

语义相似度计算单元，用于根据扩展词向量对应的词向量表征集，计算任意两个词向量表征的语义相似度；

平均计算单元，用于根据任意两个词向量表征的语义相似度，计算扩展词向量对应词向量表征集的平均语义相似度；

词向量筛选单元，用于根据每个扩展词向量对应词向量表征集的平均相似度，筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。

本发明还包括一种基于义原扩展的短文本分类预处理装置，其具体包括：

存储器，用于存放程序；

处理器，用于执行所述程序，所述程序使得所述处理器执行所述的基于义原扩展的短文本分类预处理方法。

从上述内容可知，本发明实现了对短文本信息的扩充，有利于后期文本分类算法的应用，能有效提供分类准确率。相比已有的本身数据集的有词汇进行扩展，传统方法设计的扩展方式容易使得后期选择的分类算法具有局限性或者难以对测试集中新出现的词具有较好的识别效果。而本发明提出了以外部相关联的义原词来扩展短文本中每一个词，最终形成了一个替换的文本，而替换文本的长度可以灵活控制，这样这的好处是对后期选择何种算没有限制，而且该扩展方法适用于训练集数据也是用于测试集数据，并且对于在未来检测中新出现的词具有较好的识别效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于义原扩展的短文本分类预处理方法、系统及装置 [P] . 中国专利： CN109885680B . 2020.05.19
2. 一种基于义原扩展的短文本分类预处理方法、系统及装置 [P] . 中国专利： CN109885680A . 2019-06-14
3. (54) Title: A CONTENT BASED APPROACH TO EXTENDING THE FORM AND FUNCTION OF A BUSINESS INTELLI¬GENCE SYSTEM (57) Abstract: A business intelligence (BI) system includes the ability to extend its functionality outside of the project life cycle by means of specific content. Complex multidimensional queries are interpreted as trees of atomic sub-expressions that are com¬bined in a parse-tree-like structure to form the overall query. Each sub tree is valid in isolation when provided with the proper context. Any sub tree can be an expression template, stored as application content, which at generation time uses simple text sub¬stitution with instance specific parameters to produce multidimensional expression syntax. The system includes a sophisticated type system and semantic layer that hides the user from the complexities inherent in working with OLAP databases. A business in¬telligence expert can provide type and semantic cues for each expression template, held as content. [P] . IN2012CN02100A . 2012-11-02

机译：（54）标题：一种扩展商务智能系统的形式和功能的基于内容的方法（57）摘要：商务智能（BI）系统具有通过以下方式将其功能扩展到项目生命周期之外的能力：具体内容。复杂的多维查询被解释为原子子表达式的树，这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板，该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层，使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
4. METHOD FOR PRETREATING BINDING MATERIAL FOR SINTERING, APPARATUS FOR PRETREATING BINDING MATERIAL FOR SINTERING, AND METHOD FOR MANUFACTURING SINTERED ORE [P] . 韩国专利： KR20200015042A . 2020-02-12

机译：一种用于烧结的粘结材料的预处理方法，一种用于烧结的粘结材料的预处理装置以及一种烧结矿的制造方法
5. METHOD AND DEVICE FOR SELECTING A PREPROCESSING MODE FOR CO-TREATMENT AND TRANSMISSION BASED ON RESTRICTIVE FEEDBACK IN A MOBILE COMMUNICATION SYSTEM CAPABLE OF INCREASING THE TRANSMISSION CAPACITY OF THE ENTIRE SYSTEM BY SELECTING AN EFFICIENT PREPROCESSING MODE [P] . 韩国专利： KR20120097028A . 2012-09-03

机译：在移动通信系统中基于受限反馈选择协同处理和传输的预处理模式的方法和装置，能够通过选择有效的预处理模式来提高整个系统的传输能力