首页> 中国专利> 一种结合用户评论的司法舆情文本摘要方法

一种结合用户评论的司法舆情文本摘要方法

摘要

本发明涉及结合用户评论的司法舆情文本摘要方法。本发明首先利用基于双向长短期记忆网络的新闻正文编码器和用户评论编码器,分别对新闻正文和用户评论进行建模;然后构造双路选择门控去噪网络,对评论中的噪声信息进行去除,抽取评论中包含的案件要素;构造基于双向注意力机制的融合模块,对新闻评论和新闻正文进行融合,生成融合用户评论的上下文向量;最后利用基于单向长短期记忆网络的解码器逐词生成摘要。本发明能生成质量更高的文本摘要,为开展司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

著录项

  • 公开/公告号CN112364225A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202011061155.8

  • 申请日2020-09-30

  • 分类号G06F16/951(20190101);G06F16/9535(20190101);G06F40/216(20200101);G06F40/284(20200101);G06F40/289(20200101);G06N3/04(20060101);

  • 代理机构53204 昆明人从众知识产权代理有限公司;

  • 代理人何娇

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 09:52:39

说明书

技术领域

本发明涉及一种结合用户评论的司法舆情文本摘要方法,属于自然语言处理技术领域。

背景技术

如何及时有效的引导和处置司法舆情,消除负面影响对于社会稳定至关重要。文本摘要任务能够为长的司法舆情新闻文档生成简短的、流畅的、阅读性好的文本摘要,有利于理解司法舆情新闻,为快速有效的舆情处置提供技术支撑。

发明内容

本发明提供了一种结合用户评论的司法舆情文本摘要方法,以用于解决传统序列到序列模型无法获得对新闻摘要至关重要的案件要素信息,生成摘要效果不理想的问题。

本发明的技术方案是:一种结合用户评论的司法舆情文本摘要方法,所述方法包括:

Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;

Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;

Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;

Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。

作为本发明的进一步方案,所述Step1中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:

从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。

作为本发明的进一步方案,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:

A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;

B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;

C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。

作为本发明的进一步方案,所述步骤C的具体步骤:

C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;

C2、过滤新闻评论少于5条的数据;

C3、正文和标题中所有数字以#替代;

C4、过滤正文和标题中的特殊字符;

C5、利用jieba对新闻正文和标题进行分词;

C6、构造词汇表;

C7、划分训练集、开发集和测试集。

作为本发明的进一步方案,所述步骤Step1的具体步骤为:

Step1.1、新闻正文编码器对输入的新闻文本序列

其中,BI-LSTM

Step1.2、用户评论编码器对输入的评论序列

作为本发明的进一步方案,所述步骤Step1.2的具体步骤:

Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γ

Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;

其中,BI-LSTM

Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γ

作为本发明的进一步方案,所述步骤Step2的具体步骤:

Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:

其中

Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:

其中

Step2.3、对Step2.1得到的

其中μ

其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;

Step2.4、利用Step2.3得到的权重和Step1得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:

其中⊙表示按照元素相乘;

Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列

作为本发明的进一步方案,所述步骤Step3的具体步骤:

Step3.1利用Step1得到的编码后的新闻正文隐状态序列

其中W

Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:

α

其中softmax为归一化函数,S

Step3.3通过下式计算得到新闻正文到评论的注意力向量;

其中α

Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:

β=softmax(max-pooling

其中max-pooling

Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:

其中β

Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量

其中W

Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:

其中BI-LSTM

作为本发明的进一步方案,所述步骤Step4的具体步骤:

Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量y

s

其中LSTM为用于解码的单向长短期记忆网络;

Step4.2、根据注意力机制计算s

Step4.3、根据下式,利用注意力向量c

o

其中W

Step4.4、根据Step4.3计算得到的解码向量o

P

其中softmax为归一化函数,W

Step4.5根据步骤Step4.4得到的P

y

其中argmax为最大位置函数。

本发明的有益效果是:本发明首先构造司法舆情文本摘要数据集,并对数据集进行清洗和去噪;然后利用双向长短期记忆网络分别对新闻正文和新闻评论进行建模;通过双路选择门控去噪网络去除评论中含有的噪声,生成去噪用户评论隐状态序列;利用双向注意力机制联合建模新闻正文和新闻评论,得到融合用户评论的上下文向量;最后利用单向长短期记忆网络,依据上下文向量进行解码,最后输出相应摘要,本发明生成的文本摘要质量更高,为开展司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

附图说明

图1为本发明中的总的流程图;

图2为本发明中司法舆情摘要数据集构建流程图;

图3为本发明中双路选择门控网络结构示意图;

图4为本发明中双向注意力模块结构示意图。

具体实施方式

实施例1:如图1-4所示,一种结合用户评论的司法舆情文本摘要方法,所述方法包括:

Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;

其中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:

从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。

具体的,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:

A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;

B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;

C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。

所述步骤C的具体步骤:

C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;

C2、过滤新闻评论少于5条的数据;

C3、正文和标题中所有数字以#替代;

C4、过滤正文和标题中的特殊字符;

C5、利用jieba对新闻正文和标题进行分词;

C6、构造词汇表;

C7、划分训练集、开发集和测试集。

所述步骤Step1的具体步骤为:

Step1.1、新闻正文编码器对输入的新闻文本序列

其中,BI-LSTM

Step1.2、用户评论编码器对输入的评论序列

所述步骤Step1.2的具体步骤:

Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γ

Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;

其中,BI-LSTM

Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γ

样例数据如表1所示。

表1为样例数据

处理后的训练集、开发集和测试集的统计信息如表2所示。本发明在训练集上训练模型,利用开发集调整模型超参数,最后在测试表上验证模型的有效性。

表2数据集统计信息

Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;

所述步骤Step2的具体步骤:

Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:

其中

Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:

其中

Step2.3、对Step2.1得到的

其中μ

其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;

Step2.4、利用Step2.3得到的权重和Step1.2.3得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:

其中⊙表示按照元素相乘;

Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列

Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;

所述步骤Step3的具体步骤:

Step3.1利用Step1.1得到的编码后的新闻正文隐状态序列

其中W

Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:

α

其中softmax为归一化函数,S

Step3.3通过下式计算得到新闻正文到评论的注意力向量;

其中α

Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:

β=softmax(max-pooling

其中max-pooling

Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1.1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:

其中β

Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量

其中W

Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:

其中BI-LSTM

Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。所述步骤Step4的具体步骤:

Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量y

s

其中LSTM为用于解码的单向长短期记忆网络;

Step4.2、根据注意力机制计算s

Step4.3、根据下式,利用注意力向量c

o

其中W

Step4.4、根据Step4.3计算得到的解码向量o

P

其中softmax为归一化函数,W

Step4.5根据步骤Step4.4得到的P

y

其中argmax为最大位置函数。

为了说明本发明的在司法舆情文本摘要任务上的有效性,采用基线系统和本发明产生的摘要进行对比,表3展示了模型带来的摘要质量提升;表4为不同基线系统的模型评价结果。

表3不同模型的摘要结果

表4不同模型的性能对比

从以上结果可以看出,本发明提出的方法,通过挖掘用户评论中的案件要素信息,并通过扩展序列到序列模型,通过降噪模块和双向注意力模块生成更好的上下文向量,从而提高司法舆情文本摘要任务的摘要质量,帮助模型捕获原文中重要的案件要素。与不同的模型相比同样表明,通过联合建模用户评论,能够大幅度提升模型的性能。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号