技术领域
本发明属于自然语言处理领域,尤其涉及到一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法。
背景技术
文本分类是自然语言处理的一个热门问题。随着我国经济的持续发展,信息成爆发式增长,由于新闻文本的多样性和复杂性,而且新闻文本的内容交叉、内容相近、类别间相似度较高,以及界限不明确,因此快速对海量的新闻文本进行分类有着重要的意义。
近年来,中文文本分类问题研究得到飞速发展,Zhou等将卷积神经网络与长短期记忆网络结合,提出C-LSTM(A C-LSTM Neural Network for Text Classification)文本分类算法,C-LSTM使用卷积神经网络抽取高级的短语表示,然后输入到长短期记忆网络获得句子表示,C-LSTM可以捕获短语的局部特征,句子的语义信息。Lai等将卷积神经网络与循环神经网络结合提出TextRCNN(Recurrent Convolutional Neural Networks for TextClassification)文本分类模型,TextRCNN在C-LSTM上更进一步,利用双向长短记忆网络获得上下文的信息,将双向长短记忆网络获得的隐层输出和词向量拼接,将拼接后的向量非线性映射到低维,向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量。
而基于长文本的经典算法有TextCNN(Convolutional Neural Networks forSentence Classification)、TextRNN(Recurrent Neural Network for TextClassification with Multi-Task Learning)等,这些算法针对文本分类的高维数据、文本语序和减少时间等方面进行优化,因为卷积神经网络可以抽取局部的空间或短时间的结构关系,对于句子模型,卷积神经网络对于抽取句子中不同位置的n元特征具有很好的能力,并且可以通过池化操作学习获得短范围和长范围的关系,但卷积神经网络对于序列数据抽取特征能力差,而循环神经网络却比较好,但是无法抽取局部的空间特征或短时间的结构关系。
目前,传统的深度学习模型对于新闻文本的分类的准确率仍达不到较高精度,对文本分类中的语义理解不充分,并且难以获取新闻长文本深层特征。为了解决上述的不足,我们提出了一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法。
发明内容
该方法通过加载预训练语言模型参数,在TextRCNN文本分类模型上利用卷积神经网络模型可以识别文本分类的文本模型,例如识别关键短语,利用循环神经网络文本分类模型将文本视为一系列单词,旨在捕获文本单词的依存关系和文本结构,将上述模型融合,既提取了文本的局部特征,又对文本上下文相关的句子语义特征进行了分析,补充文本局部和整体的交互信息,使得文本模型分类准确率得到了相当的提升,所述模型步骤如下。
步骤S1:数据预处理,对爬取的新闻文本进行清洗,数据按照标签+标题、标签+内容的形式进行存储,并将数据集按照训练集80%,验证集10%,测试集10%的比例来划分。
步骤S2:加载方法所需的词汇表、预训练模型的参数及BERT(Pre-training ofDeep Bidirectional Transformers for Language Understanding)预训练模型。
步骤S3:使用新闻标题训练集训练基于BERT的新闻文本分类模型,使用新闻长文本内容训练集训练基于BERT和TextRCNN的新闻文本分类模型。
步骤S4:利用测试集对训练好的基于预训练的新闻文本分类模型进行验证,计算基于预训练的新闻文本分类模型的准确率、召回率和F1值。
附图说明
图1为本发明流程图。
图2 在自己的新闻文本数据集上同一标题模型的基础上,与其他内容模型的比较图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
本发明实施例的前提是数据集是作者收集到的新闻文本数据集。
图1为本发明实施例提供基于预训练的文本分类模型流程示意图。如图1所示,本实施例主要包含以下步骤:
步骤S1:数据预处理
对爬取的新闻文本进行清洗,仅保留新闻内容文本长度超过200字的新闻,该数据集包括九万条新闻样本,共分为九类,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类数据。数据按照标签+标题、标签+内容的形式进行存储,并将数据集按照训练集80%,验证集10%,测试集10%的比例来划分;
步骤S2:加载方法所需的词汇表、预训练模型的参数及BERT预训练模型
预训练模型为BERT模型,该网络模型的输入为新闻文本的新闻标题和新闻长文本内容,并对标题和内容进行mask和截断操作,输出的是标题的词向量和内容的词向量。
步骤S3:使用新闻标题训练集训练基于BERT的新闻文本分类模型,使用新闻长文本内容训练集训练基于BERT和TextRCNN的新闻文本分类模型;
与BERT相连接的是双向长短时记忆神经网络,在双向长短时记忆神经网络模型中,输入为内容的词向量,经过网络模型的处理,得到基于上下文的特征词向量,再将初始的词向量和训练后的基于上下文的特征词向量拼接,用relu函数激活后,接着使用卷积神经网络的最大池化操作,得到局部特征词向量,利用sequence序列函数对数据的维度进行压缩,化为一维向量后,传入全连接层后得到内容的向量表示。标题的词向量传入全连接层后得到标题的向量表示,并且标题和内容的向量表示维度相同,与分类标签的个数一致。将标题和内容得到的结果拼接,并通过SoftMax函数,得到最终的表示。
步骤S4:利用测试集对训练好的基于预训练的新闻文本分类模型进行验证,计算基于预训练的新闻文本分类模型的准确率、召回率和F1值;
以上实施例仅用于说明本发明而非对其进行限制,有关领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
例1本发明在自己收集的新闻文本数据集上的实验结果
该数据集由九万条新闻长文本构成,分为财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类,每类新闻内容长度均大于200字,这些数据分别爬取自粉丝网、闽南网、游戏大观、上方网等网站,用于新闻文本分类问题。
选取准确率、召回率、F1等性能指标作为评价标准,其计算公式如下:
其中,TP为将正确类预测为正确类的个数,TN为正确识别不属于该类的样本总数,FP为误分类到该类的样本总数,FN属于此类但被划分到其他类的样本总数。
表1 实验中内容模型(BERT_RCNN)各部分参数
表2 实验中标题模型各部分参数
例1将本发明模型应用到数据集上进行测试验证,并选用准确率、召回率和F1指标作为评价指标,同时与3个经典的基于预训练的文本分类方法进行对比。3个对比方法分别是BERT(标题)+BERT(内容)、BERT(标题)+BERT_CNN(内容)、BERT(标题)+BERT_RNN(内容)。现有的对比文本分类方法均运行在各自最优的参数下,实验对比结果如表3所示。
表3 实验对比结果
从表2的实验结果可以得到,所对比的BERT(标题)+BERT(内容)方法,其准确率为94.13%、召回率为94.25%、F1值为94.14%。所对比的BERT(标题)+BERT_CNN(内容)方法,其准确率为93.64% 、召回率为93.80%、F1值为93.69%,表明BERT_CNN方法只提取到了新闻文本数据中的局部语义特征,对文本序列数据抽取特征能力差。所对比的BERT(标题)+BERT_RNN(内容)方法,其准确率为91.84% 、召回率为92.07%、F1值为91.82%,表明LSTM对于无法抽取局部的空间特征或短时间的结构关系。本发明所使用的BERT(标题)+BERT_RCNN(内容)方法的准确率、召回率、F1值分别为94.76%、94.86%、94.76%。实验结果表明BERT_RCNN既提取了文本的局部特征,又对文本上下文相关的句子语义特征进行了分析,补充文本局部和整体的交互信息,使得文本模型分类准确率得到一定的提升。
机译: 用于移动通信系统的新闻标题显示方法,涉及以二进制形式编码的方式提供图像格式,其中语音输出机制将语义内容作为语音输出与面部图片同步
机译: NewsoCon:基于上下文的新闻标题构建工具
机译: -基于频率的混合深度学习方法设备和计算机可读介质,以及基于频率的混合深度学习方法的电缆驱动并联机器人的驱动控制