首页> 中国专利> 一种基于图神经网络的语篇成分识别方法

一种基于图神经网络的语篇成分识别方法

摘要

本发明公开了一种基于图神经网络的语篇成分识别方法,目的是提高语篇成分识别的准确率和Macro‑F1值。技术方案是先构建结合图神经网络的语篇成分识别系统;准备训练语篇成分识别系统所需的中文议论文数据集。采用多轮循环的方式对语篇成分识别系统进行训练获取最优的网络结构权重参数,将训练得到的权重参数加载到语篇成分识别系统,得到训练后的语篇成分识别系统。训练后的语篇成分识别系统对用户输入的文章进行预处理,并进行语篇成分识别,得到文章的识别结果。本发明实现了利用图神经网络技术提高语篇成分识别效果的目的,相比现有语篇成分识别方法,本发明Acc和Macro‑F1值都有提升。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-18

    授权

    发明专利权授予

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022102157365 申请日:20220307

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及语篇成分识别领域,特指一种基于图神经网络的语篇成分识别方 法。

背景技术

自然语言处理,简称为NLP(Natural Language Processing),可以分为 两个部分进行理解:“自然语言”和“自然语言处理”。自然语言是一种区别于 计算机语言的语言,这是人类区别于其他生物最本质的特征,因为在所有的生物 当中,只有人类才具有语言能力。自然语言记录着人类发展历程中的信息交流, 一句简单的“你好”,无论是汉语、英语或者其他语言,还是文字或是语音形式, 都属于自然语言的一部分。自然语言处理,通俗来说是一种利用人类交流使用的 自然语言与机器进行交互通讯的技术。通过对自然语言形式输入的数据进行处理, 并使用人类定义的算法进行加工或者运算,来模拟人类对自然语言的理解。本质 上就是对文字,词语,句子,语篇等不同层次的信息进行处理与分析,得到需要 的特征信息并生成有意义的结果。

自然语言处理是一门融合了计算机科学、数学和语言学于一体的科学,随着 近年来人工智能技术的飞速发展,以及大数据的广泛的可用性,推动了自然语言 处理技术的飞速发展,在实体识别、知识图谱、文本分类、舆情监测等多个方面 有着深入的研究。

论据挖掘,英文名称Argument Mining,也是自然语言处理中的一个领域, 旨在自动地识别文本中的论辩结构。理解论辩结构不仅可以确定人们的立场,还 可以确定他们为什么持有自己的观点,这为信息检索、自动论文评分、金融市场 预测和法律决策支持等领域提供了很多有价值的见解。目前论据挖掘通常包括以 下四个子任务:(1)论据成分分割,它将议论文句子与非议论文句子分开;(2) 论据组件类型分类,即确定论据组件(用于将含议论性质的句子进行分类,也就 是判断含议论性质的句子归属哪个类型,例如,引言、主要观点、结论等类别); (3)论据关系识别,用于判断论据之间,也就是议论文句子之间是否存在一定 的关系(例如,因果关系);(4)论据关系类型分类,即确定论据关系的类型 (例如,原因和结果)。语篇成分识别任务则涵盖论据挖掘中的第二个子任务, 并且会增加一个额外的“其他”类别(用于划分非议论性质的句子),因为即使 是一篇合格的议论文中也不是每个句子都含有议论性质的话语。语篇成分识别旨 在识别语篇要素,确定它们的功能(也就是判断议论文中的每个句子属于议论成 分中的哪个类别,或者属于“其他”类别),便于后续对议论文结构进行更加清 晰地分析,可以为自动论文评分、议论文篇章分析等多个领域产生有益的帮助。

目前用于衡量语篇成分识别的标准主要是两个:Acc(准确率)和Macro-F1 (宏观F1数值)。准确率Acc表示的是预测为正的样本中有多少是真正的正样 本,可以作为多分类问题的一个评价标准;Macro-F1则是一种适用于多分类问 题下的评价标准,不受数据不平衡影响,它是在准确率和召回率(recall,表示 样本中的正例有多少被预测为正确)基础上进行构建的。Macro-F1的定义如下: Macro-F1分数=召回率×准确率×2/(召回率+准确率),之后将每个类别的 Maceo-F1分数加和除以类别总数,获得最终的Maceo-F1得分。

语篇成分识别最早由人工进行,但是它要求操作者必须对当前类别的数据 (例如,学生议论文,法律判决卷宗、政府报告等等)有相当熟练且清晰的认知, 才能保证当前类别数据下分类的准确性与有效性,这是一个相当耗时的过程。并 且,一旦数据的类别发生改变或更换,就需要重头对新的数据类别进行研究与学 习,会增加额外的时间成本。同时,随着大数据的发展与互联网的普及,需要进 行语篇成分识别的内容也越来越多,篇幅越来越长,人工的速度过于缓慢,无法 满足现有的速度与效率要求。因此需要跳出人工的过程,将语篇成分识别任务与 人工智能技术结合起来。

用于语篇成分识别的方法也是逐步迭代与递进的过程。从早期的基于分类的 方法,将语篇成分识别任务视为一个分类问题;到之后基于序列标记的方法,使 用条件随机场或递归神经网络来归纳上下文信息,例如HBiLSTM网络,使用两个 BiLSTM层来编码单词和句子,从而用于语篇成分识别;然后是使用特征的方法, 通过分析句法、词汇和语义关系,来构建新的人为特征,辅助用于语篇成分识别; 近年来随着新的训练模型BERT的出现(见文献“Devlin J,Chang M W,Lee K, et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].2018”,Devlin J,ChangM W,Lee K等人的论文:BERT, 基于深度双向Transformer预训练进行自然语言理解),基于Bert模型进行微 调,来训练句子分类器用于语篇成分识别。随着方法的不断创新与递进,语篇成 分识别的准确率与效果也在不断提升。

目前最好的语篇成分识别方法是利用神经网络和深度学习的语篇成分识别 方法,先提取每个词的特征矩阵,通过平均池化(取每个矩阵块(例如2x2)的元 素平均值,作为下一层元素值的输入,并且在反向传播时,下一层的每一元素的 loss值要除以矩阵块的大小(例如2x2=4),再分配到矩阵块的每个元素上)来获 得每句话的特征表示。接着为每句话添加位置特征信息,将添加了位置信息的句 子特征与未添加位置信息的句子特征分别添加自注意力和自适应池化,获得两种 不同的文章特征表示。将添加了位置信息的句子特征与这两种文章特征表示拼接 到一起,进行句子类型的预测。基于神经网络和深度学习的语篇成分识别方法的 缺陷在于仅考虑了单个句子的特征信息来识别语篇元素,忽略了每个句子表达的 含义不应该只取决于句子本身,还取决于句子的上下文语境信息,从而导致Acc 和Macro-F1数值不足够高(Acc为0.681,Macro-F1为0.657),不能放心地应 用在对语篇成分识别准确率要求较高的法律判决记录文本和金融营销策划文本 等方面。因此,如何增强句子间的关系与关联性,通过上下文信息更加清楚地来 辅助句子核心意思的表达,提升Acc和Macro-F1的效果,是一个很有价值且重 要的研究点。

一种有效解决句子之间上下文信息交互不足的方法是图神经网络(GNN, GraphNeural Network),它是一种基于图结构的广义神经网络,可以处理非结 构化的数据,通过在整张图上传递、转换和聚合节点特征信息,获得更好的特征 表示。目前还没有公开文献涉及将GNN应用于语篇成分识别的方法。

将图神经网络应用于语篇成分识别时如何构建图结构是一个难点。将一篇文 章中的每个句子作为一个节点,如果构建全连接图(在一个图中,任意两个顶点 之间有路径相连),那么添加GNN的语篇成分识别系统的训练耗时就会大大增加, 并且存在加深GNN的层数后,语篇成分识别效果下降的问题,因为无论特征矩阵 的初始状态如何(随机产生),多次卷积后,同一联通分量内所有节点的特征会 趋于一致,从而导致添加GNN的语篇成分识别系统的识别效果下降。另一个难点 是如何选择图神经网络,图神经网络又划分为四大类别,分别是:图卷积网络 (GCN)、图注意力网络(GAT)、图生成网络(GGN)和图时空网络(GSN), 不同的图神经网络也会带来不同的训练耗时和效果,并且需要对不同的参数选择进行衡量。最后一个难点,在语篇成分识别系统的什么位置添加图神经网络结构, 可以选择在单词、句子等多个位置对不同的成分进行聚合,不同的位置会对模型 产生不同的效果。

因此,如何充分利用文章的上下文信息来增强每个句子特征表示,提高语篇 成分识别的准确率,提出一种基于图神经网络的语篇成分识别方法,提升语篇成 分识别的Acc和Macro-F1数值,是本领域研究人员正在研究的热点问题。

发明内容

本发明要解决的技术问题是针对现有利用神经网络和深度学习的语篇成分 识别方法识别出来的Acc和Macro-F1数值低,提出一种基于图神经网络的语篇 成分识别方法。本发明基于现有的深度学习模型框架,利用图神经网络GNN,使 得添加了GNN的语篇成分识别系统的识别效果相比于背景技术所述的深度学习 框架,语篇成分识别的Acc和Macro-F1均有提升。

为解决上述技术问题,本发明技术方案是:构建结合图神经网络的语篇成分 识别系统。该系统由特征提取模块,位置编码模块,语篇自注意力模块,特征拼 接模块构成。准备语篇成分识别系统所需的中文数据集,将数据集按照大约 8:1:1的比例划分为训练集、验证集和测试集。同时,经过查询各种文献资料, 将议论文数据集中的句子类别大致分为七类,分别是:导言,主题,主要观点, 证据,结论,阐述和其他。

首先采用训练集对语篇成分识别系统进行训练,在训练的每一轮训练迭代中, 特征提取模块接收输入的训练集数据文本,利用图神经网络方法生成每个句子的 特征表示,分别输入到位置编码模块和语篇自注意力模块。位置编码模块在特征 提取模块所产生的句子特征表示上额外增添每个句子在文章中的位置信息,分别 发送到语篇自注意力模块和特征拼接模块。语篇自注意力模块接收来自特征提取 模块和位置编码模块的两个特征输入,分别通过句间自注意力和自适应池化步骤 来获得两个不同的文章特征表示,将这两者输入到特征拼接模块。特征拼接模块 将来自位置编码模块的添加了位置信息的句子特征表示和来自语篇自注意力模 块的两个不同的文章特征表示拼接到一起,通过一层MLP(多层感知机,用于解 决神经网络中的分类问题,将矩阵的维度降低到分类范围中的类别个数)将特征 矩阵的维度降低到议论文句子的类别个数7,接着通过softmax函数(一种归一 化函数,使得每个元素的范围都在(0,1)之间。例如输入向量[1,2,3,4],经过 softmax函数后,输出向量变为[0.1,0.2,0.3,0.4]),将数值最大的所属类别作 为当前句子的预测类别。之后将句子的预测类别与实际类别之间的差距作为loss 值,不断进行模型的训练与参数的更新。同时,在模型训练的过程中,使用验证 集对模型不断进行验证,将性能优异的模型保存下来。最后,使用测试集作为用 户输入的语篇对先前保存下来的模型进行测试,记录模型的效果。

本发明包括以下具体步骤:

第一步:构建语篇成分识别系统。该系统由特征提取模块,位置编码模块, 语篇自注意力模块,特征拼接模块构成。

特征提取模块与位置编码模块和语篇自注意力模块相连,功能是提取句子特 征,它是一个深度前馈神经网络,由表示层、序列编码层和一个图神经网络层构 成。特征提取模块将输入的文章中的单词特征信息进行汇总,获得每个句子的特 征表示,利用图神经网络对每个句子特征信息进行更新,得到每个句子的特征表 示,将每个句子的特征表示发送给位置编码模块和语篇自注意力模块。

表示层使用预训练的词向量new_embeddings2.txt(来自网站时

序列编码层使用一个单层的模型BiLSTM(见文献“Huang Z,Wei X,Kai Y.Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science,2015.”,Huang Z,Wei X,Kai Y等人的论文:用于序列标记的双向LSTM-CRF 模型)对从表示层收到的句子向量进行建模,得到建模后的句子向量序列,将句 子向量序列发送给图神经网络层。序列编码层的BiLSTM分为两个并行的分支结 构,分别为正向模型

图神经网络层使用图神经网络(见文献“Scarselli F,Gori M,Tsoi A C, etal.The graph neural network model[J].IEEE transactions on neural networks,2008.”Scarselli F,Gori M,Tsoi A C等人的论文:图神经网络 模型)将从序列编码层收到的句子向量序列作为节点(一篇文章中的一句话当作 一个节点)的初始特征向量,对一篇文章中的所有句子构建全连接图或者局部连 通图(以每个句子为中心位置,分别朝前和朝后选择与之相邻的M个句子进行连 接),每对节点之间的连接边的权重通过两个节点的初始特征向量的相似度来确 定。通过每个节点与自己相连节点进行特征信息的交互与传播,获得每个句子的 特征向量表示(称为句子特征向量),将句子特征向量发送给位置编码模块和语 篇自注意力模块。

位置编码模块是一个循环神经网络,与特征提取模块、语篇自注意力模块和 特征拼接模块相连,从特征提取模块接收句子特征向量,为每个句子特征向量添 加维度为16的全局相对位置信息(假设当前句子是整篇文章中的第m句话,整 篇文章中一共有E句话,则全局相对位置信息为

语篇自注意力模块是一个前向神经网络,与特征提取模块、位置编码模块、 特征拼接模块相连,从特征提取模块接收未添加位置信息的句子特征向量,从位 置编码模块接收添加了位置信息的句子特征向量,对这两种特征向量进行相同的 处理。语篇自注意力模块由一层句子间的自注意力层和一层自适应池化层构成。 自注意力层(见文献“VaswaniA,Shazeer N,Parmar N,et al.Attention is all you need[C].Advances in neuralinformation processing systems,2017.” Vaswani A,Shazeer N,Parmar N等人的论文:注意力就是你所需要的)通过 将不同位置的句子特征信息联合起来建模,得到每个句子的注意力向量,注意力 向量越大代表句子在文章中的重要性越高。由于不同文章的句子数量不相同,为 了获得固定长度的语篇特征向量,因此需要采用自适应池化层(见文献“He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networksfor visual recognition[J].IEEE transactions on pattern analysis and machineintelligence,2015.”He K,Zhang X,Ren S等人的论文:用 于视觉识别的深度卷积网络中的空间金字塔池化)对从自注意力层接收的句子注 意力向量进行处理,统一向量维度大小。提取出不同尺度的输出特征可以提高深 度网络的识别准确率,因此对句子注意力向量分别提取输出维度为1,2,4,8的向 量,将这些向量拼接成维度为15的语篇特征向量。将输入中含位置信息的句子 特征向量得到的结果称为添加了位置信息的语篇特征向量,输入中不含位置信息 的句子特征向量得到的结果称为未添加位置信息的语篇特征向量,将这两种语篇 特征向量发送给特征拼接模块。

特征拼接模块是一个简单的前向网络,与位置编码模块、语篇自注意力模块 相连,从位置编码模块接收添加了位置信息的句子特征向量,从语篇自注意力模 块接收添加了位置信息的语篇特征向量和未添加位置信息的语篇特征向量,将这 三种特征向量进行拼接,得到最终的特征向量。接着通过多层感知机(用于解决 神经网络中的分类问题,将矩阵的维度降低到分类范围中的类别个数),将最终 特征向量的维度降低到议论文句子的类别个数大小7,然后通过softmax函数(一 种归一化函数,使得每个元素的范围都在[0,1]之间,并且所有元素的和为1)(见 文献“Bishop,Christopher M.Pattern Recognition andMachine Learning, 2006”Bishop,Christopher M的著作:模式识别和机器学习)将输出的数值限 制在[0,1]之间,将数值最大的所属类别作为当前句子的预测类别。

特征提取模块中的深度前馈神经网络,位置编码模块中的循环神经网络,语 篇自注意力模块中的前向神经网络,特征拼接模块中的简单前向网络一起构成语 篇成分识别模型,是语篇成分识别系统中的网络结构。该网络结构统称为 discource_block。

第二步:准备中文形式的议论文数据集(见文献“Song W,Song Z,Fu R,etal.Discourse Self-Attention for Discourse Element Identification inArgumentative Student Essays[C].Proceedings of the 2020Conference onEmpirical Methods in Natural Language Processing(EMNLP),2020.”Song W,Song Z,Fu R等人的论文:议论文中语篇成分识别的话语自注意力),共1230 篇中文形式高中生撰写的议论文文章,涵盖不同的主题。这些文章是从 LeleKetang(

第三步:使用随机梯度下降方法(SGD)对第一步语篇成分识别系统的网络 结构进行训练,得到特征提取模块,位置编码模块、语篇自注意力模块和特征拼 接模块中的网络的最佳权重参数。

方法是:

3.1初始化权重参数,将discource_block中的权重参数集合

3.2设置网络训练参数,设定学习率(learning_rate)为0.2,批处理尺寸 (batch_size)为50,隐藏层维度(hidden_dim)为128,句子维度(sent_dim) 为128,训练迭代阈值数K为700,随机失活(dropout)为0.1,这样可以获得 最好的语篇成分识别结果。

3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1 (表示当前批次是当前epoch内的第num_batch个批次),定义训练集T中的文章 数目为num

3.4训练语篇成分识别系统,方法是将应用当前discource_block权重参数的 语篇成分识别系统进行语篇成分识别得到的句子类别与实际类别之间的差距作 为loss值,不断最小化loss值并更新discource_block的权重参数,直到满足迭代 阈值数K,或者出现训练终止条件(learning_rate<0.0001或者loss<0.5),终 止训练。每次训练的一个迭代结束后,使用验证集数据对当前discource_block权 重参数下语篇成分识别系统进行测试,保存在验证集上效果优异的 discource_block的参数权重。具体方法如下:

3.4.1特征提取模块的表示层从训练集T中取出第num_batch批共batch_size 数量的文章。

3.4.2记第num_batch批文章中第essay篇文章为E。

3.4.3特征提取模块采用深度网络句子特征提取方法对E进行句子级别的特 征提取:表示层对E进行句子向量的初始化表示,得到向量形式的数据

(其中

3.4.3.1一句话由很多单词构成,为了统一所有句子的长度,便于统一训练, 限制E中每个句子的长度标准为M(M为正整数,优选为40),超出长度标准的句 子截断成标准长度,剩余内容丢弃,不足标准长度的句子用空白的单词进行补齐 (因为是空白单词,不需要含有任何特征信息,所以用[0]([0]表示矩阵里面的 数字是0)来表示空白的信息,同时要保证词向量的维度不发生改变,因此用[0]* vec

同时,为了保证每个batch_size中的任一文章E具有相同的句子数目,需要记 录第num_batch个batch_size中最长文章的句子个数,记为N

3.4.3.2将补齐后的文章E中N

3.4.3.2.1初始化变量m为1;

3.4.3.2.2从文章E中取出第m个句子,计算第m个句子的临时特征s

3.4.3.2.3通过tanh激活函数对第m个句子的临时特征s

3.4.3.2.4令m=m+1,若m≤N

3.4.3.3汇总文章E中N

3.4.3.4序列编码层的

3.4.3.5图神经网络层从序列编码层接收更新了句子初始特征矩阵的句子向 量序列

若文章的段落之间表达的意思相近,用户就需要聚合更多的全文句子特征来 辅助进行句子类型的识别,并且在有充足的时间进行训练(即对训练时间没有要 求)的基础上,则转3.4.3.6构建全连接图;若文章的段落之间表达的意思相距 较大,用户就需要聚合相近句子的特征,避免距离太远的句子表意差距较大而影 响当前句子类型的识别,并且想要加快模型训练速度(即对训练时间有要求)的 话,则转3.4.3.7构建局部连通图。

3.4.3.6图神经网络层构建全连接图,方法是:将第二节点集合为V

3.4.3.7图神经网络层构建部分连通图,方法是:与滑动窗口(Sliding Window)的使用方法相类似,以第二节点集合为V

3.4.3.8根据构建好的图结构,图神经网络层采用图神经网络技术中的图卷积 神经网络(GCN),将传统的卷积操作应用在图节点数据的特征传播与更新上, 每个节点通过集成自己和相连邻居的特征来更新自身的节点特征表示,得到每个 句子节点的特征向量

3.4.4位置编码模块采用融合句子位置信息方法对特征提取模块得到的句子 特征向量添加每个句子的位置信息并融合,方法是:

3.4.4.1为了进一步增加语篇成分识别的准确率,位置编码模块先对N

3.4.4.1.1首先提取文章E中每个句子的位置信息并加入到句子的特征表示中,方法是:

3.4.4.1.1.1初始化变量m为1;

3.4.4.1.1.2从文章E中取出第m个句子,位置编码模块一共使用三种位置信息:全局位置(描述句子在文章中的位置)、段落位置(描述句子所在的段落在文章 中的位置)和局部位置(描述句子在该段落中的位置)。将文章E中第m个句子的 三种位置信息分别表示为

3.4.4.1.1.3令m=m+1,若m≤N

3.4.4.1.2汇总文章E中每个句子的特征表示,得到文章E下N

3.4.4.2与特征提取模块中的序列编码层相同,位置编码模块通过一层 BiLSTM层对句子特征表示再次编码,将N

3.4.5语篇自注意力模块从特征提取模块接收未添加位置信息的句子特征向 量

3.4.5.1语篇自注意力模块采用注意力加池化语篇特征提取方法对

3.4.5.1.1自注意力层将未添加位置信息的句子特征向量中不同位置的句子 特征信息联合起来,捕获句子之间的关联性,使用

3.4.5.1.2自适应池化层从自注意力层接收注意力向量a

3.4.5.1.3自适应池化层将

3.4.5.2语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方 法对添加并融合了句子位置信息的句子特征向量

3.4.6特征拼接模块采用特征拼接预测方法对特征向量进行拼接,并进行语 篇成分类型的识别,方法是:

3.4.6.1特征拼接模块从位置编码模块接收添加了位置信息的句子特征向量

(其中

3.4.6.2特征拼接模块将最终特征向量通过一个MLP(多层感知机)把输出的 维度降低到议论文句子的类别个数大小7;

3.4.6.3特征拼接模块使用softmax函数(一种归一化函数,使得每个元素的 范围都介于[0,1]之间,并且所有元素的和为1)将输出的数值大小限制在[0,1]之 间,将softmax函数的输出结果标记为

3.4.7计算文章E中N

3.4.8使用随机梯度下降(SGD)优化算法(见文献“Robbins H,Monro S.AStochastic Approximation Method[J].Annals of Mathematical Statistics,1951.”Robbins H,Monro S的论文:一种随机近似法)对

3.4.9令essay=essay+1,若essay≤batch_size,转3.4.2继续第essay篇 文章的训练,若essay>batch_size,转3.4.10;

3.4.10汇总batch_size篇文章的误差值,即

3.4.11令num_batch=num_batch+1,若num_batch≤max_batch,重新 赋值essay=1,转3.4.1继续第num_batch个批次文章的训练,若 num_batch>max_batch,转3.4.12;

3.4.12汇总当前epoch下各个批次损失值,求和之后取平均值得到该epoch的 误差值Losscur,

3.4.13令num

3.4.14令epoch=epoch+1。如果epoch>迭代阈值数K(K=700)或者 满足训练终止条件(learning_rate<0.0001或者Loss

3.4.15对当前训练中的discource_block的网络结构权重参数进行语篇成分 识别效果的验证,方法是:

3.4.15.1初始化验证集D中文本数据计数参数num

3.4.15.2从验证集D中提取一篇新的文章EE(不可重复提取相同文章),记录 文章EE中每个句子的实际类别

3.4.15.3特征提取模块采用3.4.3所述的深度网络句子特征提取方法对EE进 行句子级别的特征提取,得到句子特征向量G

3.4.15.4位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征 向量G

3.4.15.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对GD进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量

3.4.15.6语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对PD进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量

3.4.15.7特征拼接模块采用3.4.6所述的特征拼接预测方法对PD,

3.4.15.8令num

3.4.15.9汇总验证集D所有文章的识别结果,计算句子类型预测结果与实际 类型之间的准确率Acc,Acc=num_correct

第四步:将经过训练并保存的discource_block的权重参数加载到语篇成分 识别系统discource_block的网络结构中,得到训练后的语篇成分识别系统。

第五步,训练后的语篇成分识别系统对用户输入的文章进行预处理,并进行 语篇成分识别,方法是:

5.1训练后的语篇成分识别系统接收用户输入的文章E

5.2特征提取模块采用3.4.3所述的深度网络句子特征提取方法对E

5.3位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征向量 G

5.4语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法 对G

5.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法 对P

5.6特征拼接模块采用3.4.6所述的特征拼接预测方法对P

本发明与现有技术相比,具有以下技术效果:

对于背景技术的第一个难点,本发明第三步中特征提取模块的图神经网络层 考虑采用局部连通图(在一个图中,并非任意两个节点之间有路径相连,至少存 在一对节点之间没有路径连接)的方式进行改善,以每个句子为中心位置,分别 朝前和朝后选择与之相邻的window_size个句子来连接,window_size范围在 {1,2,3}之间,既能够满足每个句子获取足够的上下文语境信息,也可以加快添加 GNN的语篇成分识别模型的训练速度,并且能够很大程度缓解因为GNN层数加深 而导致的模型性能下降问题。

对于背景技术的第二个难点,图注意力网络中的每一个节点都对与之相连的 节点训练相应的注意力作为连接边的权重,但是一个节点可能会有多个相连的节 点,这样定义的连接边的权重不能够很好地反应两个节点特征之间的相似性,不 能够获取更加准确的上下文特征信息,因此本发明在特征提取模块的图神经网络 层中着重采用图卷积网络来进行节点之间特征的交互。

对于背景技术的第三个难点,本发明选择在通过特征提取的序列编码层已经 完整获得每句话特征表示之后,再添加图神经网络层,之后再添加位置编码模块。 因为若是将图神经网络层前置,放在表示层和序列编码层之间,那么此时序列编 码层聚合的每句话的特征表示,不能很好地获得每句话的上下文特征信息;若是 将图神经网络层后置,在位置编码模块之后再添加图神经网络层,此时由于图神 经网络层中节点信息的交互,每个节点(每句话)的位置信息就会受到相邻句子 位置信息的影响,导致性能下降。因此本发明选择将图神经网络层放在序列编码 层之后,位置编码模块之前。

1.本发明将图神经网络技术与相结合构建了一个完整的语篇成分识别系统, 融合了特征提取模块,位置编码模块,语篇注意力模块和特征拼接模块。在保证 句子特征信息充分性的基础之上,使用图神经网络技术,进一步加强每个句子与 上下文信息的深层交互与传递,与现有最好的语篇成分识别方法相比,能够提升 语篇成分的识别的效果(Macro-F1和Acc数值)。

2.本发明使用了两种图结构的构图方法。全连接图方法可以广泛获取全文信 息,部分连通图使用的滑动窗口法则可以明确上下文信息的具体交互位置,为句 子带来更加准确的特征信息,并且相比于全连接图需要每对节点间都要连接,部 分连通图可以大大减少图中节点的连接边数,从而加快了训练的速度。无论采用 这两种构图方式的哪一种,语篇成分识别的Acc和Macro-F1数值都有提升。

附图说明

图1为本发明第一步构建的语篇成分识别系统逻辑结构图;

图2为本发明总体流程图。

具体实施方式

如图2所示,本发明包括以下步骤:

第一步:构建语篇成分识别系统。该系统如图1所示,由特征提取模块,位 置编码模块,语篇自注意力模块,特征拼接模块构成。

特征提取模块与位置编码模块和语篇自注意力模块相连,功能是提取句子特 征,它是一个深度前馈神经网络,由表示层、序列编码层和一个图神经网络层构 成。特征提取模块将输入的文章中的单词特征信息进行汇总,获得每个句子的特 征表示,利用图神经网络对每个句子特征信息进行更新,得到每个句子的特征表 示,将每个句子的特征表示发送给位置编码模块和语篇自注意力模块。

表示层使用预训练的词向量new_embeddings2.txt作为初始化的单词表示。 将每句话中所有的单词表示加和求平均值,并使用tanh激活函数来获得每句话 的初始向量表示,初始向量表示称为句子向量,将句子向量发送给序列编码层。

序列编码层使用一个单层的模型BiLSTM对从表示层收到的句子向量进行建 模,得到建模后的句子向量序列,将句子向量序列发送给图神经网络层。序列编 码层的BiLSTM分为两个并行的分支结构,分别为正向模型

图神经网络层使用图神经网络将从序列编码层收到的句子向量序列作为节 点(一篇文章中的一句话当作一个节点)的初始特征向量,对一篇文章中的所有 句子构建全连接图或者局部连通图(以每个句子为中心位置,分别朝前和朝后选 择与之相邻的M个句子进行连接),每对节点之间的连接边的权重通过两个节点 的初始特征向量的相似度来确定。通过每个节点与自己相连节点进行特征信息的 交互与传播,获得每个句子的特征向量表示(称为句子特征向量),将句子特征 向量发送给位置编码模块和语篇自注意力模块。

位置编码模块是一个循环神经网络,与特征提取模块、语篇自注意力模块和 特征拼接模块相连,从特征提取模块接收句子特征向量,为每个句子特征向量添 加维度为16的全局相对位置信息(假设当前句子是整篇文章中的第m句话,整 篇文章中一共有E句话,则全局相对位置信息为

语篇自注意力模块是一个前向神经网络,与特征提取模块、位置编码模块、 特征拼接模块相连,从特征提取模块接收未添加位置信息的句子特征向量,从位 置编码模块接收添加了位置信息的句子特征向量,对这两种特征向量进行相同的 处理。语篇自注意力模块由一层句子间的自注意力层和一层自适应池化层构成。 自注意力层通过将不同位置的句子特征信息联合起来建模,得到每个句子的注意 力向量,注意力向量越大代表句子在文章中的重要性越高。由于不同文章的句子 数量不相同,为了获得固定长度的语篇特征向量,因此需要采用自适应池化层对 从自注意力层接收的句子注意力向量进行处理,统一向量维度大小。提取出不同 尺度的输出特征可以提高深度网络的识别准确率,因此对句子注意力向量分别提 取输出维度为1,2,4,8的向量,将这些向量拼接成维度为15的语篇特征向量。 将输入中含位置信息的句子特征向量得到的结果称为添加了位置信息的语篇特 征向量,输入中不含位置信息的句子特征向量得到的结果称为未添加位置信息的 语篇特征向量,将这两种语篇特征向量发送给特征拼接模块。

特征拼接模块是一个简单的前向网络,与位置编码模块、语篇自注意力模块 相连,从位置编码模块接收添加了位置信息的句子特征向量,从语篇自注意力模 块接收添加了位置信息的语篇特征向量和未添加位置信息的语篇特征向量,将这 三种特征向量进行拼接,得到最终的特征向量。接着通过多层感知机(用于解决 神经网络中的分类问题,将矩阵的维度降低到分类范围中的类别个数),将最终 特征向量的维度降低到议论文句子的类别个数大小7,然后通过softmax函数(一 种归一化函数,使得每个元素的范围都在[0,1]之间,并且所有元素的和为1)将 输出的数值限制在[0,1]之间,将数值最大的所属类别作为当前句子的预测类别。

特征提取模块中的深度前馈神经网络,位置编码模块中的循环神经网络,语 篇自注意力模块中的前向神经网络,特征拼接模块中的简单前向网络一起构成语 篇成分识别模型,是语篇成分识别系统中的网络结构。该网络结构统称为 discource_block。

第二步准备中文形式的议论文数据集,共1230篇中文形式高中生撰写的议 论文文章,涵盖不同的主题。这些文章是从LeleKetang网站上收集的,总计约 有33000个句子,按照大约8∶1∶1的比例分为训练集T、验证集D与测试集S三部 分。对于议论文数据集中的句子类别主要分为以下七类:导言(在发表声明之前 介绍背景或吸引读者的注意)、主题(表达作者关于论文主题的中心主张)、主要 观点(确立与主题相关的基本观点或内容)、证据(提供用于支持主要观点和主 体的示例或其他证据)、阐述(细化元素进一步解释主要观点或提供理由,但不 包含示例或其他证据)、结论(中心论点的延伸,总结全文,并呼应文章论点) 和其他(与上述类别均不匹配的要素)。

第三步:使用随机梯度下降方法(SGD)对第一步语篇成分识别系统的网络 结构进行训练,得到特征提取模块,位置编码模块、语篇自注意力模块和特征拼 接模块中的网络的最佳权重参数。

方法是:

3.1初始化权重参数,将discource_block中的权重参数集合

3.2设置网络训练参数,设定学习率(learning_rate)为0.2,批处理尺寸(batch_size)为50,隐藏层维度(hidden_dim)为128,句子维度(sent_dim) 为128,训练迭代阈值数K为700,随机失活(dropout)为0.1,这样可以获得 最好的语篇成分识别结果。

3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1 (表示当前批次是当前epoch内的第num_batch个批次),定义训练集T中的文章 数目为num

3.4训练语篇成分识别系统,方法是将应用当前discource_block权重参数的 语篇成分识别系统进行语篇成分识别得到的句子类别与实际类别之间的差距作 为loss值,不断最小化loss值并更新discource_block的权重参数,直到满足迭代 阈值数K,或者出现训练终止条件(learning_rate<0.0001或者loss<0.5),终 止训练。每次训练的一个迭代结束后,使用验证集数据对当前discource_block权 重参数下语篇成分识别系统进行测试,保存在验证集上效果优异的 discource_block的参数权重。具体方法如下:

3.4.1特征提取模块的表示层从训练集T中取出第num_batch批共batch_size 数量的文章。

3.4.2记第num_batch批文章中第essay篇文章为E。

3.4.3特征提取模块采用深度网络句子特征提取方法对E进行句子级别的特 征提取:表示层对E进行句子向量的初始化表示,得到向量形式的数据

3.4.3.1一句话由很多单词构成,为了统一所有句子的长度,便于统一训练, 限制E中每个句子的长度标准为M(M为正整数,优选为40),超出长度标准的句 子截断成标准长度,剩余内容丢弃,不足标准长度的句子用空白的单词进行补齐 (因为是空白单词,不需要含有任何特征信息,所以用[0]([0]表示矩阵里面的 数字是0)来表示空白的信息,同时要保证词向量的维度不发生改变,因此用[0]* vec

同时,为了保证每个batch_size中的任一文章E具有相同的句子数目,需要记 录第num_batch个batch_size中最长文章的句子个数,记为N

3.4.3.2将补齐后的文章E中N

3.4.3.2.1初始化变量m为1;

3.4.3.2.2从文章E中取出第m个句子,计算第m个句子的临时特征s

3.4.3.2.3通过tanh激活函数对第m个句子的临时特征s

3.4.3.2.4令m=m+1,若m≤N

3.4.3.3汇总文章E中N

3.4.3.4序列编码层的

3.4.3.5图神经网络层从序列编码层接收更新了句子初始特征矩阵的句子向 量序列

若文章的段落之间表达的意思相近,用户就需要聚合更多的全文句子特征来 辅助进行句子类型的识别,并且在有充足的时间进行训练(即对训练时间没有要 求)的基础上,则转3.4.3.6构建全连接图;若文章的段落之间表达的意思相距 较大,用户就需要聚合相近句子的特征,避免距离太远的句子表意差距较大而影 响当前句子类型的识别,并且想要加快模型训练速度(即对训练时间有要求)的 话,则转3.4.3.7构建局部连通图。

3.4.3.6图神经网络层构建全连接图,方法是:将第二节点集合为V

3.4.3.7图神经网络层构建部分连通图,方法是:与滑动窗口(Sliding Window)的使用方法相类似,以第二节点集合为V

3.4.3.8根据构建好的图结构,图神经网络层采用图神经网络技术中的图卷积 神经网络(GCN),将传统的卷积操作应用在图节点数据的特征传播与更新上, 每个节点通过集成自己和相连邻居的特征来更新自身的节点特征表示,得到每个 句子节点的特征向量

3.4.4位置编码模块采用融合句子位置信息方法对特征提取模块得到的句子 特征向量添加每个句子的位置信息并融合,方法是:

3.4.4.1为了进一步增加语篇成分识别的准确率,位置编码模块先对N

3.4.4.1.1首先提取文章E中每个句子的位置信息并加入到句子的特征表示中,方法是:

3.4.4.1.1.1初始化变量m为1;

3.4.4.1.1.2从文章E中取出第m个句子,位置编码模块一共使用三种位置信息:全局位置(描述句子在文章中的位置)、段落位置(描述句子所在的段落在文章 中的位置)和局部位置(描述句子在该段落中的位置)(以一篇包含了七个句子 和四个段落的文章为例,全局位置记为[1,2,3,4,5,6,7],段落位置记为 [1,2,2,3,3,3,4],局部位置记为[1,1,2,1,2,3,1])。将文章E中第m个句子的三种位置 信息分别表示为

3.4.4.1.1.3令m=m+1,若m≤N

3.4.4.1.2汇总文章E中每个句子的特征表示,得到文章E下N

3.4.4.2与特征提取模块中的序列编码层相同,位置编码模块通过一层 BiLSTM层对句子特征表示再次编码,将N

3.4.5语篇自注意力模块从特征提取模块接收未添加位置信息的句子特征向 重

3.4.5.1语篇自注意力模块采用注意力加池化语篇特征提取方法对

3.4.5.1.1自注意力层将未添加位置信息的句子特征向量中不同位置的句子 特征信息联合起来,捕获句子之间的关联性,使用

K是键向量,K=Q;d

3.4.5.1.2自适应池化层从自注意力层接收注意力向量a

3.4.5.1.3自适应池化层将

3.4.5.2语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方 法对添加并融合了句子位置信息的句子特征向量

3.4.6特征拼接模块采用特征拼接预测方法对特征向量进行拼接,并进行语 篇成分类型的识别,方法是:

3.4.6.1特征拼接模块从位置编码模块接收添加了位置信息的句子特征向量

3.4.6.2特征拼接模块将最终特征向量通过一个MLP(多层感知机)把输出的 维度降低到议论文句子的类别个数大小7;

3.4.6.3特征拼接模块使用softmax函数(一种归一化函数,使得每个元素的 范围都介于[0,1]之间,并且所有元素的和为1)将输出的数值大小限制在[0,1]之 间,将softmax函数的输出结果标记为

3.4.7计算文章E中N

3.4.8使用随机梯度下降(SGD)优化算法(见文献“Robbins H,Monro S.AStochastic Approximation Method[J].Annals of Mathematical Statistics,1951.”Robbins H,Monro S的论文:一种随机近似法)对

3.4.9令essay=essay+1,若essay≤batch_size,转3.4.2继续第essay篇 文章的训练,若essay>batch_size,转3.4.10;

3.4.10汇总batch_size篇文章的误差值,即

3.4.11令num_batch=num_batch+1,若num_batch≤max_batch,重新 赋值essay=1,转3.4.1继续第num_batch个批次文章的训练,若 num_batch>max_batch,转3.4.12;

3.4.12汇总当前epoch下各个批次损失值,求和之后取平均值得到该epoch的 误差值Loss

3.4.13令num

3.4.14令epoch=epoch+1。如果epoch>迭代阈值数K(K=700)或者 满足训练终止条件(learning_rate<0.0001或者Loss

3.4.15对当前训练中的discource_block的网络结构权重参数进行语篇成分 识别效果的验证,方法是:

3.4.15.1初始化验证集D中文本数据计数参数num

3.4.15.2从验证集D中提取一篇新的文章EE(不可重复提取相同文章),记录 文章EE中每个句子的实际类别

3.4.15.3特征提取模块采用3.4.3所述的深度网络句子特征提取方法对EE进 行句子级别的特征提取,得到句子特征向量G

3.4.15.4位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征 向量G

3.4.15.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对GD进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量

3.4.15.6语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对P

3.4.15.7特征拼接模块采用3.4.6所述的特征拼接预测方法对PD,

3.4.15.8令num

3.4.15.9汇总验证集D所有文章的识别结果,计算句子类型预测结果与实际 类型之间的准确率Acc,Acc=num_correct

第四步:对先前经过训练并保存的discource_block的网络结构权重参数, 进行语篇成分识别效果的测试,方法是:

4.1使用经过训练并保存的discource_block网络结构与权重参数,初始化测 试集S中文本数据计数参数num

4.2从测试集S中提取一篇新的文章EEE(不可重复提取相同文章);

4.3特征提取模块采用3.4.1所述的深度网络句子特征提取方法对EE进行句 子级别的特征提取,得到句子特征向量G

4.4位置编码模块采用3.4.2所述的融合句子位置信息方法对句子特征向量 G

4.5语篇自注意力模块采用3.4.3.1所述的注意力加池化语篇特征提取方法对 G

4.6篇自注意力模块采用3.4.3.1所述的注意力加池化语篇特征提取方法对P

4.7特征拼接模块采用3.4.4所述的特征拼接预测方法对R

4.8令num

4.9汇总测试集S所有文章的识别结果,得到语篇成分识别的Macro-F1和Acc。

选取来自中文议论文数据集中测试集S的118篇文章(第二步中说大约按照 8∶1∶1的比例进行数据集的划分,因此测试集选取118-125篇文章皆可),共3173 句话作为最终的测试集数据,对本发明进行了语篇成分识别的Acc和Macro-F1 数值测试,实验的系统环境为乌班图20.04版本(即Ubuntu 20.04,Linux系统 的一个版本),搭载英特尔i9-10900K系列的中央处理器,处理频率为3.70GHz, 另外配有一块英伟达TITAN RTX图像处理器,核心频率为1770MHz,显存容量为 24GB。实验时,3.2步的学习率为0.2,批处理尺寸batch_size为50,隐藏层维 度hidden_dim为128,句子维度sent_dim为128,训练迭代阈值数K为700。

在本实验环境下,表1表现出本发明在采用背景技术所述的图神经网络技术 下的语篇成分识别方法相比于其他方法时识别效果的优越性。表2表现出了采用 本发明进行语篇成分识别时,不同的参数选择模型所能达到的最优Acc和 Macro-F1数值。参数选择包括:不同GNN的层数、不同GNN的构图方式、不同 的GNN聚合方式,不同的边权重定义方式和不同尺寸大小的window_size(滑动 窗口大小)。

表1

表2

本发明针对的场景是一种中文议论文性质下的语篇成分识别方法,希望利用 图神经网络技术,进一步增强每个句子对自身语篇上下文信息的利用,使其对多 种参数选择得到的模型的Acc和Macro-F1数值都有提升。

实验表明,本发明对常用的不同参数设置的GNN都有一定的提升效果。综合 表1和表2所示,可以发现三点:

1、在全连接图的构图模式下(见表2),随着GNN层数的增加,聚合方式LSTM 还能保持较好的性能提升程度,无论边权重的计算方式是通过余弦相似度或者是 欧氏距离的情况下;聚合方式Pool的提升虽然还有,但是幅度明显降低。

2、在构图模式为部分连通图,且GNN层数为1的情况下(见表2),无论滑 动窗口window_size大小是1、2或者是3,都有明显的效果提升。并且总体来 看,部分连通图构图模式下的语篇成分识别效果比全连接图构图模式下的效果要 好。

3、与目前已有的语篇成分识别模型的效果进行对比(见表1),本发明无论 是在准确率Acc上,还是Macro-F1数值上,都超过以往所有模型的最佳数值, 即使与目前最好的模型进行比较,本发明实现的语篇成分识别系统可以在Acc 和Macro-F1数值上同时分别提升一个百分点左右。

随着神经网络的出现,众多模型的效果都有了质的飞跃,到达了一定的顶峰, 模型效果的提升幅度也逐渐变得缓慢,往往一个有效的改进即使只能对模型的效 果提升零点几个百分点,也会得到学术界的认可。本发明的改进虽然没有目前最 好的模型相比于之前其他模型的提升幅度,但是仍然可以在目前最好模型的基础 上,两个效果衡量指标数值均有一个百分点的提升,证明了本发明的先进性。

本发明提升的幅度一个百分点看似很小,但是在目前大数据横行的时代,一 项任务的数据量非常大的时候,一个百分点所带来的效果的改善也是非常可观的。

因此本发明实现了利用图神经网络技术提高语篇成分识别的效果。

以上对本发明所提供的一种基于图神经网络的语篇成分识别方法进行了详 细介绍。本文对本发明的原理及实施方式进行了阐述,以上说明用于帮助理解本 发明的核心思想。应当指出,对于本技术领域的普通研究人员来说,在不脱离本 发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落 入本发明权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号