首页> 中国专利> 基于主题词特征扩展的中文新闻标题分类方法

基于主题词特征扩展的中文新闻标题分类方法

摘要

本发明提供一种基于主题词特征扩展的中文新闻标题分类方法。该方法包括:步骤1:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;步骤2:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;步骤3:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;步骤4:利用卷积神经网络对所述特征向量进行特征提取并分类。

著录项

  • 公开/公告号CN114969324A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 河南大学;

    申请/专利号CN202210394208.0

  • 申请日2022-04-15

  • 分类号G06F16/35(2019.01);G06F16/33(2019.01);G06F40/216(2020.01);G06F40/284(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构郑州大通专利商标代理有限公司 41111;

  • 代理人刘莹莹

  • 地址 475001 河南省开封市顺河区明伦街85号

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2022103942080 申请日:20220415

    实质审查的生效

说明书

技术领域

本发明涉及文本分类技术领域,尤其涉及一种基于主题词特征扩展的中文新闻标题分类方法。

背景技术

随着5G时代的到来,互联网技术的飞速发展给人们带来便利的同时也带来了诸多挑战。人们每天接触到的短文本数据如搜索片段、微博、新闻标题等,都包含了大量有价值的信息,然而现有短文本分类方法大多只关注微博等几十词的文本,而很少考虑新闻标题等词量更少的少词短文本数据。新闻标题分类主要是依据标题语义对其所属领域进行判断并分类。由于新闻标题是建立在弱相关词语上的强迫性语义表述的短句,常规的短文本分类方法并不能有效进行分类,同时高质量的标题分类对新闻内容类别划分有着高效的促进作用,并有效节省计算开销,其主要应用方向包括领域机器翻译及虚假信息检测等。

截至目前,虽然有很多机器学习算法及深度神经网络方法在进行短文本分类时表现良好,但这些分类方法在领域标题分类时表现不佳。这是由于新闻标题一般含有的文本较少特征相对稀疏,并且词语间关联程度不高,从而影响分类精度,因此以往的短文本分类方法很难有效对其进行处理。此外,由于新闻标题词语间的弱关联性导致缺乏词的共现信息,严重阻碍了文档主题分布的生成,因此传统的主题建模方法在领域标题主题建模领域无法取得满意的效果。

发明内容

为了解决由于新闻标题的强领域性及有限的文本长度导致的特征稀疏性,现有的常规短文本分类方法很难在新闻标题领域分类中取得良好的效果的问题,本发明提供一种基于主题词特征扩展的中文新闻标题分类方法。

本发明提供一种基于主题词特征扩展的中文新闻标题分类方法,包括:

步骤1:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;

步骤2:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;

步骤3:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;

步骤4:利用卷积神经网络对所述特征向量进行特征提取并分类。

进一步地,步骤2中,所述计算每个单词的权重,具体包括:计算每个单词的类别区分程度和词性权重。

进一步地,根据公式(1)计算每个单词的类别区分程度IDF:

其中,P

进一步地,所述计算每个单词的词性权重,具体包括:

针对名词和/或动词,对应的词性权重为α;针对形容词和/或副词,对应的词性权重为β;除名词、动词、形容词和副词之外的其他词性单词,对应的词性权重为γ;其中,1>α>β>γ>0。

进一步地,步骤2中,所述基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重,具体包括:

获取中文新闻标题数据集,所述数据集中包括多个中文新闻标题;

计算每个中文新闻标题的文本向量,并比较任意两个所述文本向量之间的相似度,将相似度值大于预设阈值的中文新闻标题进行聚合得到长伪文本;

利用所述长伪文本构成训练集以训练LDA模型;

利用训练好的LDA模型得到所述待分类中文新闻标题的主题-词矩阵;

对所述主题-词矩阵进行向量化表示,并计算每个主题下任意两个单词之间的相似度并作为两个单词之间词关系的权重;

针对每个主题,过滤掉权重值较低的词关系,并将其余的单词进行两两连接以形成一条边;

针对每个主题,采用TextRank算法进行迭代,提取得到每个主题下的关键词;

基于每个主题下的关键词,计算每个主题对应的主题向量权重。

进一步地,所述相似度的计算公式如公式(3)所示:

其中,S

进一步地,采用公式(5)计算每个主题对应的主题向量权重P

其中,C

进一步地,步骤4具体包括:

步骤4.1:使用一个卷积层对所述特征向量进行卷积操作;所述卷积层具有一维卷积核和多通道;

步骤4.2:在步骤4.1输出的每个特征图上进行随时间推移的最大池化操作,得到每个特征图的最大值,然后将最大值连接到步骤4.1中的特征向量中;

步骤4.3:将步骤4.2得到的特征向量馈送到全连接层进行分类,并使用softmax输出分类结果;其中,所述全连接层使用dropout策略防止过拟合现象。

进一步地,所述分词算法至少包括jieba分词算法、PKU分词算法和THU分词算法。

本发明的有益效果:

本发明首先使用复合分词方法来降低预处理过程中错误分词的概率;其次提出了一种主题词语义扩展方法,该方法通过新的加权方式对预处理结果进行加权处理,并使用新的主题构建模型动态构建新闻标题的相关主题,对其进行主题词特征扩展;最后利用卷积神经网络对新闻标题进行特征提取并分类,并利用准确率和召回率对分类结果进行评价。实验结果证明,本发明方法能有效提高中文新闻标题的分类性能。

附图说明

图1为本发明实施例提供的基于主题词特征扩展的中文新闻标题分类方法的流程示意图之一;

图2为本发明实施例提供的基于主题词特征扩展的中文新闻标题分类方法的流程示意图之二;

图3为本发明实施例提供的新的主题模型构建方式的流程示意图;

图4为本发明实施例提供的向量拼接示意图;

图5为本发明实施例提供的使用卷积神经网络进行特征提取并分类的示意图;

图6为本发明实施例提供的不同分词方法的精确度及F1比较结果图;

图7为本发明实施例提供的不同Epoch下各模型精确度对比结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

结合图1和图2所示,本发明实施例提供一种基于主题词特征扩展的中文新闻标题分类方法,包括以下步骤:

S101:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;

具体地,中文短文本分类通常使用单词序列来获得潜在词义从而得到更好的分类结果。然而由于不同的分词方法通常采用不同的分割粒度从而导致分词结果的不同,同时汉语分词通常无法避免地存在着错误、歧义或不一致等问题,因此基于词的模型往往会遇到由分词引起的一些潜在问题,从而影响最终分词结果。

例如句子“南京市长江大桥”可分为“南京市长/江/大桥”或“南京市/长江大桥”,前者是对人物的描述,而后者则侧重于建筑,从根本上已经发生了语义的转变。

考虑到上述情况,本步骤采用复合分词算法对待分类中文新闻标题进行分词,该复合分词算法基于投票法的前提,在预处理部分将目前使用率最高的jieba、PKU、THU三种分词方法进行合并,对每一个文本文件,并不直接对低频分词结果进行丢弃处理,而是将三种分词结果进行合并保存在同一个文件内进行后续处理。

S102:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;

具体地,本步骤主要从两方面实现了关键词特征扩展。其中,一方面是对分词结果进行加权处理,从词语层面进行关键词特征扩展;另一方面是基于分词结果构建主题模型,对主题词进行扩展,从而从句子层面进行关键词特征扩展。

关于对分词结果进行加权处理这一方面:在现有的许多研究中,术语频率-逆文档频率(TF-IDF)经常被作为文本分类的术语权重,在传统任务中取得了较好的效果,但传统的IDF结构可能会忽略文档的类别信息,并不能有效反映单词的重要性及类别区分能力,从而无法实现正确的权重调整功能。基于此,为了能够更好地从词语层面进行关键词特征扩展,除了可以采用现有的加权方式得到待分类中文新闻标题的加权后标题向量之外,本发明实施例还提出了一种新的加权方式(称为TIF-POS权重算法),具体为:计算每个单词的类别区分程度和词性权重,从而将所述类别区分程度和词性权重进行综合后作为单词的权重。例如将类别区分程度和词性权重相乘之后的权重值作为单词的权重。

该加权方式能更好地学习单词语义信息,在保留TF-IDF突出重要词、抑制次要词的基础上,以类别界限来划分词语对分类的贡献度,以此来度量给定文档集合中某个术语的类别区分程度。

例如在教育类别中,“分数线”、“报考”等词通常会多次出现,同时在其他类别中出现概率则非常低,这些出现在某一种类别的概率远远大于其他类别的词语,可以有效地捕获领域知识并进行区分,因此该类词语可以作为很好的类别鉴别词,被赋予更高的权重。

作为一种可实施方式,使用公式(1)计算每个单词的类别区分程度IDF:

此外,在现实生活中,不同词性的词语对语意表达的贡献是不同的,在一些文本中非名词和动词的出现频率可能更高,但这些词对主题识别能力较低,同时又会增加短文本的噪声。同时,考虑到现有技术中的研究方法经常忽略的新闻标题稀疏性的特点,词性过滤并没有体现到词性特征对特征选择的重要性,反而可能会对分类结果造成一定的负面影响。因此,本步骤的加权方式还引入了词性权重,即引入词性特征时针对不同词性的词语赋予不同的权重,从而更好地体现出其对语义表达的贡献度。

考虑到名词与动词对句子语义表达最为重要,其次是形容词与副词,作为一种可实施方式,词性权重采用公式(2)所示进行人为设置,其中h表示不同词性的权重:

具体地,针对名词和/或动词,对应的词性权重为α;针对形容词和/或副词,对应的词性权重为β;除名词、动词、形容词和副词之外的其他词性单词,对应的词性权重为γ;其中,1>α>β>γ>0。

关于基于分词结果构建主题模型这一方面:现有的主题建模方法在自然语言处理的多个领域取得了很大的成功,然而对于短文本来说,有限的句子长度并不能提供足够的信息来帮助模型发现语义及句法带来的潜在信息,由此严重影响文档主题分布的生产,导致生成主题精度较低,从而影响短文本分类精度。基于此,为了能够更好地从句子层面进行关键词特征扩展,除了可以采用现有的主题建模方式得到待分类中文新闻标题的主题向量之外,本发明实施例还提出了一种新的主题模型构建方式(称为TR-LDA模型),如图3所示,具体为:

步骤A1:获取中文新闻标题数据集,所述数据集中包括多个中文新闻标题;

步骤A2:计算每个中文新闻标题的文本向量,并比较任意两个所述文本向量之间的相似度,将相似度值大于预设阈值的中文新闻标题进行聚合得到长伪文本;

步骤A3:利用所述长伪文本构成训练集以训练LDA模型;

具体地,发明人发现仅根据单条文本本身直接对新闻标题进行主题建模的结果并不够准确,同时相似的文档在句法结构和语义信息上都具有相似的模式。基于此,本发明实施例为了更好地实现主题建模,在训练LDA模型之前,先通过步骤A1至步骤A3构建好了训练集,即:通过词向量对每一个新闻标题计算其文本向量,然后计算两个新闻标题对应的两个文本向量W

作为一种可实施方式,本发明实施例中,在计算两个文本向量W

步骤A4:利用训练好的LDA模型得到所述待分类中文新闻标题的主题-词矩阵;

步骤A5:对所述主题-词矩阵进行向量化表示,并计算每个主题下任意两个单词之间的相似度并作为两个单词之间词关系的权重;

具体地,利用Word2Vec模型对所述长伪文本构成的训练集进行学习,得到所述长伪文本的词向量包,然后根据该词向量包对所述主题-词矩阵进行向量化表示。

作为一种可实施方式,在计算两个单词之间的相似度时,仍采用上述相似度计算公式,只需将文本向量W

步骤A6:针对每个主题,过滤掉权重值较低的词关系,并将其余的单词进行两两连接以形成一条边;

步骤A7:针对每个主题,采用TextRank算法进行迭代,提取得到每个主题下的关键词;

具体地,TextRank算法如公式(4)所示:

其中,WS(V

步骤A8:基于每个主题下的关键词,计算每个主题对应的主题向量权重。

本发明实施例中,具体采用公式(5)计算每个主题对应的主题向量权重P

其中,C

S103:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;

具体地,将相似度最大的主题向量与新闻标题向量进行连接生成相特征向量的过程如图4所示。

S104:利用卷积神经网络对所述特征向量进行特征提取并分类。

具体地,在进行向量连接之后,本实施例使用经典的卷积神经网络模型进行特征提取并分类,如图5所示,具体包括以下步骤:

步骤B1:使用一个卷积层对所述特征向量进行卷积操作;所述卷积层具有一维卷积核和多通道;

步骤B2:在步骤B1输出的每个特征图上进行随时间推移的最大池化操作,得到每个特征图的最大值,然后将最大值连接到步骤B1中的特征向量中;

步骤B3:将步骤B2得到的特征向量馈送到全连接层进行分类,并使用softmax输出分类结果;其中,所述全连接层使用dropout策略防止过拟合现象,同时还对权重向量的l2范数进行了约束。

本发明实施例提出的基于主题词特征扩展的中文新闻标题分类方法,充分利用现有数据,以类别为基准考虑文本所携带的特征信息,并对主题建模生成的结果进行严格筛选来保证扩展主题词的准确性。首先,提出将使用率最高的三种分词方法(jieba、PKU、THU)复合使用,并将分词结果进行合并来减少汉语分词的错误及不一致等问题;然后提出侧重于类间数据及不同词性携带文本特征的差异性的TIF-POS权重算法,以此对分词结果进行加权处理;此外,还提出TR-LDA模型将预处理后的相似短文本合并成长伪文本进行主题建模,对生成主题词进行相似度排序调整后得到扩展主题。最后计算经TIF-POS算法加权后的短文本向量与经TR-LDA模型计算出的主题向量间的余弦相似度,将结果最高的进行特征扩展生成相应向量矩阵后作为卷积神经网络的输入进行softmax分类。

为了验证本发明方法的有效性,本发明还提供有下述实验数据。

数据集:实验数据来源于搜狗实验室提供的新闻语料库,发明人共抽取200000篇新闻标题,分为财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐十大类,每个领域有20000篇,文本长度在20到30之间。按照8:1:1的比例,将数据分为训练集、验证集和测试集。训练集、验证集和测试集不会相互重叠。对于分类结果,使用准确度(ACC)和F1分数作为评估指标。其中准确度是正确分类结果的百分比,F1匹配分数是精确性和召回率的调和平均值。

实验参数:基于Gibbs抽样方法对LDA主题模型进行训练,参数设置如下:主题K设置为10,超参数a=0.01,b=0.01,关键词个数num=20;使用Word2Vec工具中的Skip-gram模型对数据集上的字向量进行训练;使用CNN对特征扩展后文本进行分类,参数设置如下:卷积核的大小为2xdim、3xdim、4xdim,卷积核的数量为256个,批处理大小为128个,学习率为0.001,为了防止出现过拟合现象,在训练过程中dropout设置为0.5。

实验环境:操作系统:Ubuntu Linux release 16.04.7LTS;CPU:Intel(R)Xeon(R)Silver CPU@2.20GHz;GPU:Quadro P4000;软件版本:Python 3.7;Pytorch 1.1.0;Numpy1.16.2;SciPy 1.3.1;Networkx 2.4;Scikit-learn 0.21.3。

实验结果:首先对比了分词方法的不同对分类结果产生的影响,所使用的四种分词方法包括JIEBA分词方法、北大PKU分词方法、清华THU分词方法以及本发明提出的HEU分词方法。HEU分词方法将前三种分词方法叠加使用之后可以降低文本的稀疏性,同时减少了因为分词错误而导致的歧义现象。如图6所示,从分类精确度和F1值两个方面,可以发现融合后的方法优于单一使用的分词方法,因此在后续实验中使用HEU分词方法作为实验分词方法。

接着将本发明模型与两种类型的基线进行比较:没有预先训练的基本深度神经网络模型和在大规模语料库上预先训练的深度神经模型。其中基本深度神经网络模型主要包括TextCNN、TextRNN、TextRNN_Att、TextRCNN、FastText、DPCNN、Transformer。其中TextCNN中的多个卷积是为了提取多种特征,而最大池化将提取到最重要的信息保留;TextRNN中的LSTM能更好的捕捉长距离语义关系,但是由于其递归结构不能并行计算因而速度较慢。TextRNN_Att中的attention机制计算过程,其实就是对LSTM每刻的隐层进行加权平均;TextRCNN中使用的并非常规RNN,同时双向LSTM每一时刻的隐层值都可以表示当前词的前向和后向语义信息,将隐藏值与嵌入值拼接来表示一个词后用最大池化层来筛选出有用的特征信息;DPCNN的区域嵌入是将TextCNN去掉池化层后将卷积层叠加,相当于在N-Gram上再做N-Gram,越往后的层每个位置融合的信息越多,最后一层提取的就是整个序列的语义信息。对于预训练模型,我们使用了模型改进前的常规LDA及TF-IDF预先训练来作为对比实验。

对于不同epoch下分类精确度的对比结果如图7所示。其中图的横坐标为不同模型训练epoch的个数,纵坐标为模型的准确性。根据结果显示,本发明方法的精确度高于其他任一模型结果,同时也在第六个epoch开始最早达到最优结果并趋于稳定。由此可以看出,本发明的中文新闻标题分类方法在精确性及稳定性方面都优于其他分类方法

所有模型实验结果的精确度及F1值如表1所示。从第一部分的结果中可以发现,本发明模型在该数据集上的性能优于七种基本深度神经网络模型。此外,七种基本深度神经网络中FastText效果表现最好,由于FastText可以自己训练词向量因此在没有预训练的情况下优于其他方法,在保持训练速度和测试速度的情况下提高精度,而现在使用率较高的Transformer却表现最差。从第二部分可以发现,常规的TF-IDF及LDA预先训练后的结果都比无预训练的结果要差,这是因为常规的方法并没有针对于短文本的稀疏性及简短性等特点,因而造成了关键信息的丢失或错配现象,导致结果不够理想。这也说明将强化术语词概念及更加贴合的主题有利于短文本的分类结果。结果表明,基于主题词特征扩展的方法是提升新闻标题领域分类精确度的有效途径。

表1不同分类方法的准确性和F1比较

针对传统新闻标题分类方法由于其文本长度较短且词语间关联度低强等而导致分类效果不佳的问题,本文提出了一种基于关键词特征扩展的中文新闻标题分类方法。为了提高关键词的质量,在文本预处理过程中,使用HEU分词方法来减少分词过程中可能出现的错误、歧义及不一致问题;同时,针对不同领域知识强化新闻标题中术语词的概念,并根据语义相似度选取更贴合的主题词进行扩展,从而引入高质量扩展词。实验结果表明,该方法在中文新闻标题分类任务中是可行的,分类效果显著提高。该方法在进行关键词扩展时,由于涉及大量词向量距离计算,导致研究时间增加。在后续的研究中将考虑时间复杂度问题,提高新闻标题的分类效率。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号