基于预训练语言模型与图卷积神经网络的文档级因果关系抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的迅速发展，在网络世界每天都会产生海量的数据，人们希望从海量数据中发掘有用信息。在海量信息中，文本数据占据重要地位，对文本数据进行关系抽取是研究文本数据的重要手段。因果关系是关系抽取中的重要研究方向，它在医学，经济学，问答系统以及舆情监测等多个领域发挥着至关重要的作用，科学研究中大部分问题的本质，都是探求事物之间的因果关系，2021年诺贝尔经济学奖授予了在经济领域进行因果推断研究的学者。　　近年来，强势崛起的深度学习模型深刻影响了自然语言处理的研究方式。关系抽取作为自然语言处理的重要分支，其研究进程同样发生了改变。基于深度学习的方法和模型需要大规模的预训练语料才能支持模型的训练和优化，因此海量的文本数据非常贴合深度学习模型特点。因果关系抽取对于挖掘文本信息有着非常重要的作用，因果关系可以帮助计算机达到或超越人类理解语言和文字的认知水平。目前因果关系抽取领域的主流方法仍然是序列标注，其主要优势在于将抽象的自然语言理解问题转化为数学上可解的概率预测问题，但是目前序列标注下的因果关系抽取数据集非常有限。现有的因果关系抽取的主要研究对象为单一句子内的因果关系，抽取目标为句内表达因果关系的单词或短语，但仅通过孤立的单词或短语无法完整表述一个因果关系，这样容易造成因果信息缺失；当前研究对于抽取跨句因果关系缺乏应有的关注。因果关系抽取中，词向量由大规模预训练模型生成（例如BERT模型），BERT模型只关注句子的局部上下文信息，忽略了文档中的全局信息，文档中的全局信息可能对于关系抽取起到较大的作用。　　针对以上问题，本文通过引入子句的概念，通过抽取因果关系子句，来获取一个尽量完整的因果关系表达。通过图神经网络与大规模预训练模型结合，使得模型能够同时捕获到文本的全局信息和局部上下文信息，将因果关系子句抽取出来。本文的主要贡献如下：（1）在因果关系抽取中，本文改变抽取粒度，将抽取对象由单词扩展为子句，抽取出原因子句和结果子句，使得因果关系的表达更加完整。（2）在算法模型上，我们扩展了图卷积神经网络，引入面向子句的图卷积神经网络（CGCN）。将大规模预训练模型和面向子句的图卷积神经网络结合，应用在因果关系抽取任务中，取得了很好的实验效果。（3）在实验数据方面在现有微博数据集的基础上，进行扩展和修正，完善数据集。

著录项

作者
李岳泽;
展开▼
作者单位

吉林大学;

展开▼
授予单位吉林大学;
学科计算机软件与理论
授予学位硕士
导师姓名左万利;
年度 2022
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
自然语言处理,深度学习,因果关系抽取,图卷积神经网络;

相似文献

中文文献
外文文献
专利

1. 基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取 [J] . 于韬 ,尼玛次仁 ,拥措 . 中文信息学报 . 2022,第10期
2. 基于预训练语言模型及交互注意力的平行句对抽取方法 [J] . 张乐乐 ,郭军军 ,王繁 . 通信技术 . 2022,第4期
3. 基于预训练语言模型的商品属性抽取 [J] . 张世奇 ,马进 ,周夏冰 . 中文信息学报 . 2022,第1期
4. 融合预训练语言模型和标签依赖知识的关系抽取方法 [J] . 赵超 ,谢松县 ,曾道建 . 中文信息学报 . 2022,第1期
5. 结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法 [J] . 潘列 ,曾诚 ,张海丰 . 计算机应用 . 2022,第4期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型与图卷积神经网络的文档级因果关系抽取 [A] . 李岳泽 . 2022

基于预训练语言模型与图卷积神经网络的文档级因果关系抽取

目录

摘要

著录项

相似文献

相关主题

期刊订阅