法律状态公告日
法律状态信息
法律状态
2020-05-19
授权
授权
2019-07-09
实质审查的生效 IPC(主分类):G06F16/35 申请日:20190122
实质审查的生效
2019-06-14
公开
公开
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于义原扩展的短文本分类预处理方法、系统及装置。
背景技术
文本分类是当前遇到的非常泛的应用场景,比如需要把一个新闻分类为体育、政治等,或者需要把一本小说分类科幻、言情、武侠等,目前针对文本分类的方法主要有基于传统特征工程+机器学习算法,或者直接使用深度学习算法。但是在文本分类领域中,长文本提供了大量的信息,而短文本提供的信息非常有限,因此针对长文本比较容易提取其特征信息,而短文本则较难。
针对短文本分类,现有的方法侧重于研究采用什么样的分类算法去提高分类准确性,比如卷积神经网络、多模型融合、SVM、随机森林。但是实际上短文本分类的难点是由于文本过短,其包含的信息量太少,导致输入给各种分类算法的特征太少,从而导致分类的准确性较低。
发明内容
为了解决上述技术问题,本发明的目的就是提供一种能提高准确率的基于义原扩展的短文本分类预处理方法、系统及装置。
本发明所采取的技术方案是:
一种基于义原扩展的短文本分类预处理方法,包括以下步骤:
对需要分类的短文本进行初步处理,得到原始词向量;
对原始词向量中的每个词进行义原扩展处理,得出扩展词向量,进而形成候选扩展词向量集合;
对候选扩展词向量集合中的扩展词向量进行语义相似度计算,筛选得出语义相似度最大的那组扩展词向量作为特定词向量;
将原始词向量与特定词向量组进行加权处理,得出待分类词向量;
将待分类词向量输入至分类器中进行文本分类。
作为所述的一种基于义原扩展的短文本分类预处理方法的进一步改进,所述的对需要分类的短文本进行初步处理,得到原始词向量,这一步骤具体包括:
对需要分类的短文本进行分词处理,得到分词结果;
对分词结果进行停用词删除处理,得到原始词向量。
作为所述的一种基于义原扩展的短文本分类预处理方法的进一步改进,所述的对原始词向量中的每个词进行义原扩展处理,得出扩展词向量,进而形成候选扩展词向量集合,这一步骤具体包括:
对原始词向量中的每个词进行义原扩展处理,得出每个词对应的义原集合;
根据预设的方式从每个词对应的义原集合中抽取义原,构成扩展词向量;
根据得到的扩展词向量,形成候选扩展词向量集合。
作为所述的一种基于义原扩展的短文本分类预处理方法的进一步改进,所述的对候选扩展词向量集合中的扩展词向量进行语义相似度计算,筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量,这一步骤具体包括:
将候选扩展词向量集合中的扩展词向量进行向量化表征,得到扩展词向量对应的词向量表征集;
根据扩展词向量对应的词向量表征集,计算任意两个词向量表征的语义相似度;
根据任意两个词向量表征的语义相似度,计算扩展词向量对应词向量表征集的平均语义相似度;
根据每个扩展词向量对应词向量表征集的平均相似度,筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。
本发明所采用的另一个技术方案是:
一种基于义原扩展的短文本分类预处理系统,包括:
初步处理单元,用于对需要分类的短文本进行初步处理,得到原始词向量;
义原扩展单元,用于对原始词向量中的每个词进行义原扩展处理,得出扩展词向量,进而形成候选扩展词向量集合;
筛选单元,用于对候选扩展词向量集合中的扩展词向量进行语义相似度计算,筛选得出语义相似度最大的那组扩展词向量作为特定词向量;
加权处理单元,用于将原始词向量与特定词向量组进行加权处理,得出待分类词向量;
输入单元,用于将待分类词向量输入至分类器中进行文本分类。
作为所述的一种基于义原扩展的短文本分类预处理系统的进一步改进,所述的初步处理单元具体包括:
分词处理单元,用于对需要分类的短文本进行分词处理,得到分词结果;
停用词处理单元,用于对分词结果进行停用词删除处理,得到原始词向量。
作为所述的一种基于义原扩展的短文本分类预处理系统的进一步改进,所述的义原扩展单元具体包括:
扩展单元,用于对原始词向量中的每个词进行义原扩展处理,得出每个词对应的义原集合;
抽取单元,用于根据预设的方式从每个词对应的义原集合中抽取义原,构成扩展词向量;
集合形成单元,用于根据得到的扩展词向量,形成候选扩展词向量集合。
作为所述的一种基于义原扩展的短文本分类预处理系统的进一步改进,所述的筛选单元具体包括:
向量化处理单元,用于将候选扩展词向量集合中的扩展词向量进行向量化表征,得到扩展词向量对应的词向量表征集;
语义相似度计算单元,用于根据扩展词向量对应的词向量表征集,计算任意两个词向量表征的语义相似度;
平均计算单元,用于根据任意两个词向量表征的语义相似度,计算扩展词向量对应词向量表征集的平均语义相似度;
词向量筛选单元,用于根据每个扩展词向量对应词向量表征集的平均相似度,筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。
本发明所采用的再一个技术方案是:
一种基于义原扩展的短文本分类预处理装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于义原扩展的短文本分类预处理方法。
本发明的有益效果是:
本发明一种基于义原扩展的短文本分类预处理方法、系统及装置通过义原扩展处理、语义相似度计算和加权处理后得到待分类词向量代替原来的短文本参与到分类算法,这样解决了原文信息量不足的缺点,而且由于采用了义原扩展方式,这样同时也避免了后期分类算法选择的局限性,同时也能较好的对于新出现的词具有较好的识别作用,为后续分类算法的泛化性能提升提供帮助,大大提高了后续分类的准确率。
附图说明
图1是本发明一种基于义原扩展的短文本分类预处理方法的步骤流程图;
图2是本发明一种基于义原扩展的短文本分类预处理系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种基于义原扩展的短文本分类预处理方法,包括以下步骤:
S1、对需要分类的短文本进行初步处理,得到原始词向量;
S2、对原始词向量中的每个词进行义原扩展处理,得出扩展词向量,进而形成候选扩展词向量集合;
S3、对候选扩展词向量集合中的扩展词向量进行语义相似度计算,筛选得出语义相似度最大的那组扩展词向量作为特定词向量;
S4、将原始词向量与特定词向量组进行加权处理,得出待分类词向量;
S5、将待分类词向量输入至分类器中进行文本分类。
本实施例中,假设对于短文本Ti,选择了两组扩展词向量p,q,分别为
不过为了强化原始短文本Ti的特征,本发明提出对原始短文本Ti采用加权的方式,即新替代文本为:
对所有的短文本都执行以上S1-S4过程,形成新替代文本数据集,然后再新替代文本数据集利用现有的各种文本分类算法即可得到各短文本的分类情况。
进一步作为优选的实施方式,所述的对需要分类的短文本进行初步处理,得到原始词向量,这一步骤具体包括:
S11、对需要分类的短文本进行分词处理,得到分词结果;
S12、对分词结果进行停用词删除处理,得到原始词向量。
本实施例中,可对每一条短文本采用任何一种分词工具(比如jieba等)进行分词,然后对短文本里面的类似于″的″、″地″、″得″之类的预设的停用词进行删除处理,然后得到以下原始词向量:
式中Ti表示第i个短文本词向量,
进一步作为优选的实施方式,所述的对原始词向量中的每个词进行义原扩展处理,得出扩展词向量,进而形成候选扩展词向量集合,这一步骤具体包括:
S21、对原始词向量中的每个词进行义原扩展处理,得出每个词对应的义原集合;
其中,每个短文本的原始词向量
设每个短文本i中的第j个词为
类似的短文本i的其他词语
故对于每个短文本原词词向量Ti可以得到一个义原集合序列
S22、根据预设的方式从每个词对应的义原集合中抽取义原,构成扩展词向量;
本实施例预设的构造一组扩展词向量的方法是:分别从原始词向量Ti对应的义原集合序列T_Semi的每一个义原集合项
对于一个原始词向量Ti将存在
S23、根据得到的扩展词向量,形成候选扩展词向量集合。
进一步作为优选的实施方式,所述的对候选扩展词向量集合中的扩展词向量进行语义相似度计算,筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量,这一步骤具体包括:
S31、将候选扩展词向量集合中的扩展词向量进行向量化表征,得到扩展词向量对应的词向量表征集;
本发明实施例中采用word2vec技术,并利用维基百科或者搜狗语料库作为训练语料库,将一个扩展词向量
比如
即得到候选扩展词向量对应的word2vec向量表征集
S32、根据扩展词向量对应的词向量表征集,计算任意两个词向量表征的语义相似度;
本发明方法不限该相似度计算方法,本实施例中仅仅以余弦相似度计算为例。设A,B两个向量,则A,B两个向量的余弦相似度计算公式为:
本发明采用相似度计算方法(诸如上述余弦相似度计算公式,)计算任意两个词向量表征的语义相似度:
S33、根据任意两个词向量表征的语义相似度,计算扩展词向量对应词向量表征集的平均语义相似度;
每一个word2vec向量表征集
这是短文Ti的第一个扩展词向量的平均相似度,类似的可以计算短文本Ti的其他扩展词向量的平均相似度,得到一个短文本Ti的扩展词向量的平均相似度向量,如下所示:
根据余弦相似度的意义,给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
S34、根据每个扩展词向量对应词向量表征集的平均相似度,筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。
本发明将对sim(Vi)进行筛选操作,选择
参考图2,本发明一种基于义原扩展的短文本分类预处理系统,包括:
初步处理单元,用于对需要分类的短文本进行初步处理,得到原始词向量;
义原扩展单元,用于对原始词向量中的每个词进行义原扩展处理,得出扩展词向量,进而形成候选扩展词向量集合;
筛选单元,用于对候选扩展词向量集合中的扩展词向量进行语义相似度计算,筛选得出语义相似度最大的那组扩展词向量作为特定词向量;
加权处理单元,用于将原始词向量与特定词向量组进行加权处理,得出待分类词向量;
输入单元,用于将待分类词向量输入至分类器中进行文本分类。
进一步作为优选的实施方式,所述的初步处理单元具体包括:
分词处理单元,用于对需要分类的短文本进行分词处理,得到分词结果;
停用词处理单元,用于对分词结果进行停用词删除处理,得到原始词向量。
进一步作为优选的实施方式,所述的义原扩展单元具体包括:
扩展单元,用于对原始词向量中的每个词进行义原扩展处理,得出每个词对应的义原集合;
抽取单元,用于根据预设的方式从每个词对应的义原集合中抽取义原,构成扩展词向量;
集合形成单元,用于根据得到的扩展词向量,形成候选扩展词向量集合。
进一步作为优选的实施方式,所述的筛选单元具体包括:
向量化处理单元,用于将候选扩展词向量集合中的扩展词向量进行向量化表征,得到扩展词向量对应的词向量表征集;
语义相似度计算单元,用于根据扩展词向量对应的词向量表征集,计算任意两个词向量表征的语义相似度;
平均计算单元,用于根据任意两个词向量表征的语义相似度,计算扩展词向量对应词向量表征集的平均语义相似度;
词向量筛选单元,用于根据每个扩展词向量对应词向量表征集的平均相似度,筛选得出平均语义相似度最大的那组扩展词向量作为特定词向量。
本发明还包括一种基于义原扩展的短文本分类预处理装置,其具体包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于义原扩展的短文本分类预处理方法。
从上述内容可知,本发明实现了对短文本信息的扩充,有利于后期文本分类算法的应用,能有效提供分类准确率。相比已有的本身数据集的有词汇进行扩展,传统方法设计的扩展方式容易使得后期选择的分类算法具有局限性或者难以对测试集中新出现的词具有较好的识别效果。而本发明提出了以外部相关联的义原词来扩展短文本中每一个词,最终形成了一个替换的文本,而替换文本的长度可以灵活控制,这样这的好处是对后期选择何种算没有限制,而且该扩展方法适用于训练集数据也是用于测试集数据,并且对于在未来检测中新出现的词具有较好的识别效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 一种用于烧结的粘结材料的预处理方法,一种用于烧结的粘结材料的预处理装置以及一种烧结矿的制造方法
机译: 在移动通信系统中基于受限反馈选择协同处理和传输的预处理模式的方法和装置,能够通过选择有效的预处理模式来提高整个系统的传输能力