公开/公告号CN112364225A
专利类型发明专利
公开/公告日2021-02-12
原文格式PDF
申请/专利权人 昆明理工大学;
申请/专利号CN202011061155.8
申请日2020-09-30
分类号G06F16/951(20190101);G06F16/9535(20190101);G06F40/216(20200101);G06F40/284(20200101);G06F40/289(20200101);G06N3/04(20060101);
代理机构53204 昆明人从众知识产权代理有限公司;
代理人何娇
地址 650093 云南省昆明市五华区学府路253号
入库时间 2023-06-19 09:52:39
技术领域
本发明涉及一种结合用户评论的司法舆情文本摘要方法,属于自然语言处理技术领域。
背景技术
如何及时有效的引导和处置司法舆情,消除负面影响对于社会稳定至关重要。文本摘要任务能够为长的司法舆情新闻文档生成简短的、流畅的、阅读性好的文本摘要,有利于理解司法舆情新闻,为快速有效的舆情处置提供技术支撑。
发明内容
本发明提供了一种结合用户评论的司法舆情文本摘要方法,以用于解决传统序列到序列模型无法获得对新闻摘要至关重要的案件要素信息,生成摘要效果不理想的问题。
本发明的技术方案是:一种结合用户评论的司法舆情文本摘要方法,所述方法包括:
Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;
Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;
Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;
Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。
作为本发明的进一步方案,所述Step1中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:
从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。
作为本发明的进一步方案,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:
A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;
B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;
C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。
作为本发明的进一步方案,所述步骤C的具体步骤:
C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;
C2、过滤新闻评论少于5条的数据;
C3、正文和标题中所有数字以#替代;
C4、过滤正文和标题中的特殊字符;
C5、利用jieba对新闻正文和标题进行分词;
C6、构造词汇表;
C7、划分训练集、开发集和测试集。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、新闻正文编码器对输入的新闻文本序列
其中,BI-LSTM
Step1.2、用户评论编码器对输入的评论序列
作为本发明的进一步方案,所述步骤Step1.2的具体步骤:
Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γ
Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;
其中,BI-LSTM
Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γ
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:
其中
Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:
其中
Step2.3、对Step2.1得到的
其中μ
其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;
Step2.4、利用Step2.3得到的权重和Step1得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:
其中⊙表示按照元素相乘;
Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列
作为本发明的进一步方案,所述步骤Step3的具体步骤:
Step3.1利用Step1得到的编码后的新闻正文隐状态序列
其中W
Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:
α
其中softmax为归一化函数,S
Step3.3通过下式计算得到新闻正文到评论的注意力向量;
其中α
Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:
β=softmax(max-pooling
其中max-pooling
Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:
其中β
Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量
其中W
Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:
其中BI-LSTM
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量y
s
其中LSTM为用于解码的单向长短期记忆网络;
Step4.2、根据注意力机制计算s
Step4.3、根据下式,利用注意力向量c
o
其中W
Step4.4、根据Step4.3计算得到的解码向量o
P
其中softmax为归一化函数,W
Step4.5根据步骤Step4.4得到的P
y
其中argmax为最大位置函数。
本发明的有益效果是:本发明首先构造司法舆情文本摘要数据集,并对数据集进行清洗和去噪;然后利用双向长短期记忆网络分别对新闻正文和新闻评论进行建模;通过双路选择门控去噪网络去除评论中含有的噪声,生成去噪用户评论隐状态序列;利用双向注意力机制联合建模新闻正文和新闻评论,得到融合用户评论的上下文向量;最后利用单向长短期记忆网络,依据上下文向量进行解码,最后输出相应摘要,本发明生成的文本摘要质量更高,为开展司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中司法舆情摘要数据集构建流程图;
图3为本发明中双路选择门控网络结构示意图;
图4为本发明中双向注意力模块结构示意图。
具体实施方式
实施例1:如图1-4所示,一种结合用户评论的司法舆情文本摘要方法,所述方法包括:
Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;
其中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:
从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。
具体的,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:
A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;
B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;
C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。
所述步骤C的具体步骤:
C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;
C2、过滤新闻评论少于5条的数据;
C3、正文和标题中所有数字以#替代;
C4、过滤正文和标题中的特殊字符;
C5、利用jieba对新闻正文和标题进行分词;
C6、构造词汇表;
C7、划分训练集、开发集和测试集。
所述步骤Step1的具体步骤为:
Step1.1、新闻正文编码器对输入的新闻文本序列
其中,BI-LSTM
Step1.2、用户评论编码器对输入的评论序列
所述步骤Step1.2的具体步骤:
Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γ
Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;
其中,BI-LSTM
Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γ
样例数据如表1所示。
表1为样例数据
处理后的训练集、开发集和测试集的统计信息如表2所示。本发明在训练集上训练模型,利用开发集调整模型超参数,最后在测试表上验证模型的有效性。
表2数据集统计信息
Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;
所述步骤Step2的具体步骤:
Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:
其中
Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:
其中
Step2.3、对Step2.1得到的
其中μ
其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;
Step2.4、利用Step2.3得到的权重和Step1.2.3得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:
其中⊙表示按照元素相乘;
Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列
Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;
所述步骤Step3的具体步骤:
Step3.1利用Step1.1得到的编码后的新闻正文隐状态序列
其中W
Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:
α
其中softmax为归一化函数,S
Step3.3通过下式计算得到新闻正文到评论的注意力向量;
其中α
Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:
β=softmax(max-pooling
其中max-pooling
Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1.1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:
其中β
Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量
其中W
Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:
其中BI-LSTM
Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。所述步骤Step4的具体步骤:
Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量y
s
其中LSTM为用于解码的单向长短期记忆网络;
Step4.2、根据注意力机制计算s
Step4.3、根据下式,利用注意力向量c
o
其中W
Step4.4、根据Step4.3计算得到的解码向量o
P
其中softmax为归一化函数,W
Step4.5根据步骤Step4.4得到的P
y
其中argmax为最大位置函数。
为了说明本发明的在司法舆情文本摘要任务上的有效性,采用基线系统和本发明产生的摘要进行对比,表3展示了模型带来的摘要质量提升;表4为不同基线系统的模型评价结果。
表3不同模型的摘要结果
表4不同模型的性能对比
从以上结果可以看出,本发明提出的方法,通过挖掘用户评论中的案件要素信息,并通过扩展序列到序列模型,通过降噪模块和双向注意力模块生成更好的上下文向量,从而提高司法舆情文本摘要任务的摘要质量,帮助模型捕获原文中重要的案件要素。与不同的模型相比同样表明,通过联合建模用户评论,能够大幅度提升模型的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
机译: (54)标题:改进了多特异性受体的纯化(57)摘要:公开了一种制备富含结合剂的受体(典型地分子印迹聚合物,MIP)的组合物的方法,其中所述受体各自特异性结合至少两个通过使一定数量的受体与该试剂进行亲和纯化的第一步,使该试剂上的多个离散位点结合,其中该试剂上的一个结合位点不可与该受体结合,然后使纯化的受体经受与该试剂进行亲和纯化的至少一个进一步的步骤,其中该试剂上的第二结合位点不可接近。还公开了一种用于治疗,改善或预防选自以下的疾病的方法:苯酮尿症(PKU,福林氏病),高苯丙氨酸血症(HPA),阿尔普通尿症(黑尿病),酪氨酸血症,高酪氨酸血症,重症肌无力,组织蛋白血症,尿尿酸尿症,枫糖浆尿病(
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: (54)标题:用于HIV疫苗组合物或作为诊断手段的HIV相关肽的组合或融合(57)摘要:公开了一种用于治疗HIV相关疾病的方法,该方法包括将gpl20的C5结构域和gp120之间的复合物作为靶向。另一方面是gp41或gp120的C2域。可以通过施用能够与该复合物直接相互作用并使其稳定的化合物(例如抗体)或通过用C5和gp41 / C2衍生的材料免疫以诱导结合并稳定该复合物的抗体来稳定该复合物。