首页> 中国专利> 基于案件要素异构图的舆情新闻抽取式摘要方法

基于案件要素异构图的舆情新闻抽取式摘要方法

摘要

本发明基于案件要素异构图的舆情新闻抽取式摘要方法,属于自然语言处理领域。本发明包括:构建案件舆情新闻数据集;首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。本发明采用异构图表示不同节点的方式,通过对句子节点与案件要素节点之间的关联性,采用图注意力机制和更新主任务模型和辅助模型的参数。本发明通过融合案件要素进行有效筛选包含较多关键词的句子,实现了舆情摘要的抽取式工作,从获取的案件舆情数据中抽取出摘要,为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

著录项

  • 公开/公告号CN113076483A

    专利类型发明专利

  • 公开/公告日2021-07-06

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202110458891.5

  • 申请日2021-04-27

  • 分类号G06F16/9535(20190101);G06F16/951(20190101);G06F16/34(20190101);G06F40/211(20200101);G06N3/04(20060101);

  • 代理机构53204 昆明人从众知识产权代理有限公司;

  • 代理人何娇

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 11:44:10

说明书

技术领域

本发明涉及基于案件要素异构图的舆情新闻抽取式摘要方法,属于自然语言处理领域。

背景技术

案件舆情摘要可以看做一个面向特定领域的摘要,目前针对该任务主要有抽取式和生成式两类方法。其中抽取式摘要直接从原文中抽取重要的句子作为摘要句,因为句子来自于原文,流畅度和忠实度较好,在实际场景下取得了很好的效果。

传统的抽取式摘要方法包括基于主题模型的方法,基于图排序的方法。(1)基于主题模型的方法是通过狄利克雷分布(LDA)模型得到文本主题,然后采用不同的算法计算句子和主题的相似度来得到摘要句,例如Liu将LDA建立的主题分成重要和非重要两类,并使用词频、位置等统计特征和LDA特征一起计算句子权重。Wu提出一种方法考虑时间演化的基础上同时考虑主题的演化,最后将标题作为摘要输出。(2)基于图排序的方法是将句子作为顶点,句子之间的相似度作为边的权重,根据顶点的权重的分数来确定关键句,例如Mihalcea等通过TextRank图排序算法抽取文本中重要度较高的句子形成摘要。另一类抽取式摘要方法主要是基于深度神经网络,其基本思想是把抽取式摘要任务看作句子分类任务,通过给每个句子打标签确定某一句子是否属于摘要,其核心在于如何更好的生成句子的表征。Nallapati等首次提出将抽取式摘要看作序列分类问题,构建SummaRuNNer文本分类模型,采用GRU作为基本序列分类器的基本模块,结合词和句子两层编码特征来判断句子是否是摘要句。Fattah等采用人工设计的统计特征训练分类器对文本中的句子依据重要程度进行分类。zhang提出抽取的句子标签作为隐藏变量的抽取式摘要模型,将句子和原始摘要进行对比来对句子进行分类。

在案件舆情摘要领域韩等人提出一种案件要素增强的案件舆情文本摘要方法,通过对案件要素进行独立编码,然后基于注意力机制融入到词和句子的编码层中,取得了很好的效果。基于图结构的方法能够更直接的表达不同节点之间的关联关系,近年来在文本分类、阅读理解、文本摘要等任务上取得了很好的效果。如Linmei等针对短文本分类任务,提出一种主题-实体异构神经图,通过融入额外的主题、实体信息捕捉文本与这些信息之间丰富的关系信息,取得了很好的效果。Tu等针对阅读理解任务,引入了异构图网络,将文档、实体和候选对象一起编码,实现跨文档的多跳阅读理解任务。

在文本摘要任务方面,Tan提出一种基于句子注意力机制的摘要方法,引入基于序列到序列框架的图注意力机制对句子进行编码,基于分层解码参考机制,提高了摘要质量。Feng针对对话摘要任务,提出一种新颖的多对话摘要任务来演示大规模常识知识,以及如何促进对话理解的摘要生成任务。与本发明比较相近的是Wang等人的工作,他们提出一种基于异构图神经网络的抽取式摘要方法,通过构建词、句子不同粒度的异构图,基于异构图注意力网络对其进行编码,生成句子表示。

发明内容

本发明提供基于案件要素异构图的舆情新闻抽取式摘要方法,通过基于图注意力机制融入案件要素的方法,有效筛选包含案件要素的句子,提升抽取式摘要任务的性能。

本发明的技术方案是:基于案件要素异构图的舆情新闻抽取式摘要方法,所述方法首先构建案件舆情新闻数据集;通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系;最后对句子进行分类,生成摘要。

作为本发明的进一步方案,所述构建案件舆情新闻数据集包括:

通过爬虫技术爬取基于百度百科案件舆情文本;

首先构造一个包含案件名称的案件库,根据案件名称在百度百科词条中去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要;把网页第二条描述案件相关的内容定义为案件要素,其数量平均为5个,经过筛选与预处理形成json格式文件,通过人工对数据集进行清洗、标注得到案件舆情新闻数据集。

作为本发明的进一步方案,所述通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图包括:

通过词嵌入和位置嵌入分别对案件舆情新闻正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数。

作为本发明的进一步方案,所述构建案件舆情新闻数据集的具体步骤如下:

Step1.1、通过爬虫技术爬取案件舆情新闻文本,共爬取14214篇文档,每一篇爬取的文档包含着摘要、案件要素以及对于案件描述的正文;

Step1.2、对案件舆情新闻数据集中的正文及案件要素进行过滤筛选,过滤筛选的方式如下所示:(1)去除文本内容中的多余符号、超链接和特殊字符;(2)去除正文中相同的案件要素信息;

Step1.3、采用人工标注,获得案件舆情数据集;首先对正文中的每一句话打上标签,1为候选摘要,0则不是候选摘要。

作为本发明的进一步方案,所述通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图的具体步骤如下:

Step2.1、使用卷积神经网络CNN得到词局部特征,同时用双向长短期记忆网络BiLSTM获得句子全局特征,最后拼接词局部特征和句子全局特征,得到句子特征表示;

Step2.2、案件要素的编码,采用Word2Vec编码模块对案件要素特征、词特征进行编码,得到案件要素特征表示、词特征表示;

Step2.3、引入在句子中的词来连接句子,计算TF-IDF值作为案件要素节点与句子节点之间的边权重,同理计算词节点与句子节点之间的TF-IDF值作为它们之间边的权重;利用得到的句子特征表示、案件要素特征表示、词特征表示、案件要素节点与句子节点之间的边权重、词节点与句子节点之间的边权重来构建异构图;

Step2.4、在构建异构图中,已经对案件要素节点与句子节点之间边的权重通过TF-IDF初始化得到,通过注意力层更新权重值,得到权重值高的句子,通过词节点再建立句子间的联系,得到句子间的权重,最后通过两个注意力拼接就得到文档中的与案件相关的句子排序。

作为本发明的进一步方案,所述Step2.1的具体步骤如下:

Step2.1.1、在句子编码层,首先将句子分词获得词级信息进行词嵌入表示,转换成句子向量,作为输入;

编码器读取输入序列D={s

l

其中b是一个偏置项,g是一个非线性的激活函数,w是卷积运算中的滤波器,能提取卷积窗口内的连续词之间的特征;获得词局部特征,便于与词节点和案件要素节点建立联系,局部特征也便于增强句子节点间的联系;

Step2.1.2、句子全局特征用g

其中,

式(4)中n表示正文中句子的数目,d

作为本发明的进一步方案,所述Step2.2的具体步骤如下:

Step2.2.1、在异构图中节点包含句子节点集合S、词节点集合W、案件要素节点集合C;句子节点集合S={s

Step2.2.2、在案件要素编码中,将文档中的案件要素使用Word2Vec得到每一个案件要素节点矩阵表示:

其中p表示案件要素的总数,d

同理将文档中的每一个句子通过分词后使用Word2Vec得到每一个词的矩阵表示可得到词节点矩阵表示:

其中m表示句子经过分词后词的总数,d

作为本发明的进一步方案,所述Step2.3包括:

引入在句子中的词来连接句子,计算TF-IDF值作为案件要素节点与句子节点之间的边权重c

作为本发明的进一步方案,所述Step2.4的具体步骤如下:

z

式(7)其中W

式(8)是通过式(7)得到的z

式(9)是把i节点相连的案件要素节点c的表征表示h

引入多头注意力机制后,句子节点与案件要素节点通过注意力计算权重;

式(10)中K是引入的多头注意力机制的数目,||表示多个头注意力的拼接,

首先计算每一层单头消息传递得到的向量,然后每一个注意力都学习到特征,最后把多个特征拼接在一起,u

再计算句子节点与词节点之间的注意力权重,通过多头注意力后,得到基于词节点的注意力权重:

式(11)中u

u

u

此外,还添加了一个残差连接,以避免多次迭代后梯度消失;因此,最终输出节点i的特征表示为:

h′

式(13)中u

作为本发明的进一步方案,所述对句子进行分类,生成摘要具体包括:

经过GAT输出的对于句子节点i融合了要素节点信息后学到的特征h′

y

式(14)中y

输入文档样本D={s

S是训练集中所有句子集合,y

最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为5e-4,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解5e-4。

本发明的有益效果是:

(1)针对案件舆情中文抽取式摘要,如何既考虑案件舆情中文正文与案件要素之间的差别,又考虑它们之间的联系,同时如何过滤和选择案件要素中关键的特征提高摘要抽取准确率。提出一种图注意力机制实现句子与案件要素的融合,设计了一个融合案件要素异构图模型来促进对摘要的生成,引入案件要素作为辅助任务改善其预测性能。

(2)提出的模型通过图注意力机制来过滤和选择句子特征流来对句子节点进行有效的筛选,从而提升模型的预测效果。

(3)在图注意力机制的编码器结构中使用多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征,具有很好的并行性;

(4)本发明采用异构图表示不同节点的方式,通过对句子节点与案件要素节点之间的关联性,采用图注意力机制和更新主任务模型和辅助模型的参数。本发明通过融合案件要素进行有效筛选包含较多关键词的句子,实现了舆情摘要的抽取式工作,从获取的案件舆情数据中抽取出摘要,为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

附图说明

图1是本发明提出的融合案件要素的舆情新闻抽取式摘要方法的具体结构示意图。

具体实施方式

实施例1:如图1所示,基于融合案件要素的舆情新闻抽取式摘要方法,所述方法的具体步骤如下:

Step1、首先构建案件舆情新闻数据集;

Step1.1、通过爬虫技术爬取案件舆情新闻文本,共爬取14214篇文档,每一篇爬取的文档包含着摘要、案件要素以及对于案件描述的正文;

Step1.2、对案件舆情新闻数据集中的正文及案件要素进行过滤筛选,过滤筛选的方式如下所示:(1)去除文本内容中的多余符号、超链接和特殊字符;(2)去除正文中相同的案件要素信息;

Step1.3、采用人工标注,获得案件舆情数据集;首先对正文中的每一句话打上标签,1为候选摘要,0则不是候选摘要。实验数据规模如表1所示:

表1数据集统计

作为本发明的进一步方案,所述构建案件舆情新闻数据集包括:

通过爬虫技术爬取基于百度百科案件舆情文本;

首先构造一个包含案件名称的案件库,根据案件名称在百度百科词条中去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要;把网页第二条描述案件相关的内容定义为案件要素,其数量平均为5个,经过筛选与预处理形成json格式文件,通过人工对数据集进行清洗、标注得到案件舆情新闻数据集。

Step2、通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系;

作为本发明的进一步方案,所述通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图包括:

通过词嵌入和位置嵌入分别对案件舆情新闻正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数。

作为本发明的进一步方案,所述通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图的具体步骤如下:

Step2.1、为了更好的获得句子之间的关联关系,使用卷积神经网络CNN得到词局部特征,同时用双向长短期记忆网络BiLSTM获得句子全局特征,最后拼接词局部特征和句子全局特征,得到句子特征表示;

作为本发明的进一步方案,所述Step2.1的具体步骤如下:

Step2.1.1、在句子编码层,首先将句子分词获得词级信息进行词嵌入表示,转换成句子向量,作为输入;

编码器读取输入序列D={s

l

其中b是一个偏置项,g是一个非线性的激活函数,w是卷积运算中的滤波器,能提取卷积窗口内的连续词之间的特征;获得词局部特征,便于与词节点和案件要素节点建立联系,局部特征也便于增强句子节点间的联系;

Step2.1.2、句子全局特征用g

其中,

式(4)中n表示正文中句子的数目,d

Step2.2、案件要素的编码,采用Word2Vec编码模块对案件要素特征、词特征进行编码,得到案件要素特征表示、词特征表示;

作为本发明的进一步方案,所述Step2.2的具体步骤如下:

Step2.2.1、在异构图中节点包含句子节点集合S、词节点集合W、案件要素节点集合C;句子节点集合S={s

Step2.2.2、在案件要素编码中,将文档中的案件要素使用Word2Vec得到每一个案件要素节点矩阵表示:

其中p表示案件要素的总数,d

同理将文档中的每一个句子通过分词后使用Word2Vec得到每一个词的矩阵表示可得到词节点矩阵表示:

其中m表示句子经过分词后词的总数,d

Step2.3、在句子节点特征提取之后,为了增强句子之间的联系性,引入在句子中的词来连接句子,计算TF-IDF值作为案件要素节点与句子节点之间的边权重,同理计算词节点与句子节点之间的TF-IDF值作为它们之间边的权重;利用得到的句子特征表示、案件要素特征表示、词特征表示、案件要素节点与句子节点之间的边权重、词节点与句子节点之间的边权重来构建异构图;

作为本发明的进一步方案,所述Step2.3包括:

引入在句子中的词来连接句子,计算TF-IDF值作为案件要素节点与句子节点之间的边权重c

Step2.4、案件要素是根据案件舆情与中文所陈述的事件而产生的,案件舆情摘要是指从与司法案件相关的网络舆情信息中抽取与案件相关的句子作为摘要。为了根据特定任务选择有价值和合适的特征,本发明在共享层之后设计了一个融合案件要素的图注意力模块。在构建异构图中,已经对案件要素节点与句子节点之间边的权重通过TF-IDF初始化得到,通过注意力层更新权重值,得到权重值高的句子,通过词节点再建立句子间的联系,得到句子间的权重,最后通过两个注意力拼接就得到文档中的与案件相关的句子排序。

作为本发明的进一步方案,所述Step2.4的具体步骤如下:

z

式(7)其中W

式(8)是通过式(7)得到的z

式(9)是把i节点相连的案件要素节点c的表征表示h

引入多头注意力机制后,句子节点与案件要素节点通过注意力计算权重;

式(10)中K是引入的多头注意力机制的数目,||表示多个头注意力的拼接,

首先计算每一层单头消息传递得到的向量,然后每一个注意力都学习到特征,最后把多个特征拼接在一起,u

再计算句子节点与词节点之间的注意力权重,通过多头注意力后,得到基于词节点的注意力权重:

式(11)中u

u

u

此外,还添加了一个残差连接,以避免多次迭代后梯度消失;因此,最终输出节点i的特征表示为:

h′

式(13)中u

Step3、最后对句子进行分类,生成摘要。所述对句子进行分类,生成摘要具体包括:

经过GAT输出的对于句子节点i融合了要素节点信息后学到的特征h

y

式(14)中y

输入文档样本D={s

S是训练集中所有句子集合,y

最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为5e-4,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解5e-4。

为了说明本发明的效果,设置了3组对比实验。第一组实验验证抽取式摘要性能的提升,第二组实验验证不同案件要素抽取方法的实验,第三组实验验证不同融入案件要素方法对比。本发明采用自动摘要任务中常用的一种内部评价指标ROUGE(recall-orientedunderstudy for gisting evaluation)值作为模型的评价指标,分别用Rouge-1(RG-1)、Rouge-2(RG-2)和Rouge-L(RG-L)的F1值计算摘要生成结果,Rouge值越高说明效果越好。

(1)抽取式摘要性能提升验证

本节选择了4个模型作为基准模型,在案件舆情摘要数据集上进行实验,所有基准模型的训练集、测试集和验证集划分与本发明相同,其基准模型包括分别为:LEAD-3,MMR,TextRank,SuMMaRuNNer。

基于位置信息的方法:LEAD-3是一种依靠句子在文章中的位置来抽取摘要的方法,一般来说,文章的重要信息易出现在文章开头的部分,抽取文章前三句作为摘要。

基于统计的方法:TextRank是一种基于图的摘要提取算法,将句子视为节点,通过计算图中每个节点的得分,来选择得分最高的几个句子作为摘要。

基于排序的方法:MMR(Maximal Marginal Relevance)最大边界相关算法,是用来计算查询文本与被搜索文档之间的相似度,然后对文档进行排序,最后选取句子的算法。

基于神经网络的方法:SummaRuNNer是基于序列分类器的循环神经网络对句子分类训练模型,采用两层双向GRU(Gate Recurrent Unit)和RNN(Recurrent NeuralNetwork)来编码。

本发明方法:“句子+词+GAT”表示未融入案件要素的异构图注意力方法,基于图注意力来编码实现中文单文档抽取式摘要的,本发明模型表示“句子+词+(案件要素+GAT)”,在前者基础上融入了案件要素图注意力。结果如表2所示

表2基准模型实验对比实验(%)

根据上表的实验结果可以看出:(1)基于位置信息的方法:实验结果较差,因为在案件舆情文本中,前几句话中不全是对案件的描述,而是描述文本的发布来源、时间等与案件无关信息,这样的句子不能表达文本主题,抽取文档中的前一句或者前三句话不能作为摘要;(2)基于统计的方法:本发明模型与TextRank模型相比,RG-1和RG-2值有3.19和3.06的提升,可能是因为本发明的模型融入案件要素抽取更加重要的句子,这些句子与主题语义相关,而TextRank的方法没有考虑文本之间的语义问题,生成的摘要不能包含文章的主题信息;(3)基于排序的方法:本发明模型与MMR模型相比,RG-1和RG-2值有2.87和3.62的提升,可能的原因是本发明模型引入基于案件要素异构图能很好的表征句子之间的关联关系,这种方法要比仅考虑句子相似度的MMR方法更全面的捕捉到文档中的句子信息,有利于生成结构清晰、语义完整的摘要;(4)基于神经网络的方法:本发明模型与SuMMaRuNNer相比,RG-1和RG-2分别提升了6.26和1.8,并未在本数据集上取得很好的效果,结果表明本发明提出将案件要素作为外部知识融入的异构图摘要模型可以较好的提高模型的摘要性能,抽取出的摘要能贴近案件舆情文本主题,相关性更高;(5)本发明方法:来验证本发明模型中融入案件要素的有效性,本发明模型与“句子+词+GAT”模型相比,RG-1和RG-2提升1.35和1.68个百分点,说明在案件舆情领域,基于图注意力机制融入案件要素构建异构图的方法是有效的,能够很好地表征文档跨句子之间的关联关系,对于抽取出更贴近文档主题的句子有着重要指导作用。

(2)不同案件要素抽取方法的对比

本实验主要是验证不同方法获取案件要素对于摘要生成的影响,分别用TF-IDF和TextRank两种算法抽取关键词充当案件要素,融入到本发明模型中生成摘要,结果如表3所示:

表3不同案件要素抽取方法的对比分析(%)

从上表实验结果可以看出,本发明模型与TF-IDF和TextRank相比,在RG-1值上分别有0.57和0.66的提升,结果说明:(1)本发明数据集中案件要素能全面地概括文档的主题信息,包含的案件信息更全面。(2)在句子抽取层中使用案件要素信息对句子信息进行处理,抽取包含更多案件要素的句子,得到更加接近案件主题的摘要。(3)证明在本数据集上基于案件要素、词和句子构建异构图,利用图注意力融入案件要素的模型的有效性。

(3)不同融入案件要素方法对比

本实验与韩等人提出的基于案件要素指导的涉案舆情新闻文本模型进行对比,韩等人模型分别在词、句子编码层都融入案件要素注意力机制。把本发明数据集放在韩等人模型上进行对比实验,来验证本发明引入异构图构建节点与边之间关系的有效性。GRU表示不引入任何案件要素和关键词信息的注意力机制实验,GRU

表4不同融入案件要素的方法对比实验分析(%)

从上表可以看出,本发明模型与GRU和GRU

本发明针对案件舆情抽取式摘要,在基于图注意力融入案件要素的模型框架下,提出融入案件要素异构图的抽取式摘要方法。通过图注意力机制关注包含关键词的句子,对句子分类,从而提高了抽取式文本摘要的质量。在案件舆情摘要数据集上的实验结果表明该方法能够有效的改善引入外部知识特定领域案件摘要的性能。融入案件要素的图注意力机制能很好的表征句子之间的关联关系,对于摘要句的提取有很好的指导作用,本发明模型和基准模型相比取得了一定的进步。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号