首页> 中国专利> 一种基于深度学习和规则结合的议论文结构分析方法

一种基于深度学习和规则结合的议论文结构分析方法

摘要

本发明公开了一种基于深度学习和规则结合的议论文结构分析方法,所述方法包括以下步骤:S1、输入作文题目和正文,使用议论文结构标签组分析系统;S2、对议论文正文分句,并保留句子的段落信息;S3、对正文所有句子进行分类,获得句子在全文中的作用;S4、识别及调整结构标签,获得议论文结构分析的结果。本发明针对当前缺少完整的议论文结构体系的现状,设计了一套完整的议论文结构体系,并利用深度学习和规则结合的方法,可以自动对议论文结构进行分析,无需人工处理,大大加快了议论文结构分析的速度,节省了人力成本。

著录项

  • 公开/公告号CN112214988A

    专利类型发明专利

  • 公开/公告日2021-01-12

    原文格式PDF

  • 申请/专利权人 哈尔滨福涛科技有限责任公司;

    申请/专利号CN202011098179.0

  • 申请日2020-10-14

  • 分类号G06F40/205(20200101);G06F40/289(20200101);G06N3/04(20060101);

  • 代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人刘景祥

  • 地址 150086 黑龙江省哈尔滨市南岗区学府路251号哈尔滨职业技术学院大学生创新创业园发展有限公司217室

  • 入库时间 2023-06-19 09:32:16

说明书

技术领域

本发明涉及一种基于深度学习和规则结合的议论文结构分析方法,属于作文分析技术领域。

背景技术

作文结构分析是对段落、句子等作文组成部分进行其在全文结构或内容上的作用进行分析,获得彼此间内在联系的过程。目前的自然语言处理领域中没有专门的议论文结构分析任务,但议论文的结构分析与篇章分析有着很大相似之处。篇章分析需要利用上下文信息,根据目的将篇章分为细粒度级别不同的篇章单元,篇章结构则通过对篇章单元以及篇章单元之间的关系进行表示。篇章结构理论大体上可以分为篇章修辞结构体系和篇章话题结构体系,前者主要体现了篇章的连贯性,它认为篇章是由某种篇章基本构成单元通过递归组合,形成不同的层次,并通过层次之间的关系形成一种修辞上的层次化结构;而后者主要体现了篇章的衔接性,认为一篇文章有一个主话题,其由多个次级话题组成,同时,次级话题又可以由更下一级的话题组成,是一种话题关系上的层次化结构。

目前在自然语言处理领域以及语言学领域中,议论文结构分析相关研究存在着以下不足:

1.由于语文水平不同,人工分析难以使用统一的角度及标准对议论文进行结构分析;

2.目前缺少对议论文的段落、句子等组成部分在全文中作用的分析,缺少相应的结构体系;

3.由于缺少议论文结构体系,目前的自动作文分析系统无法对议论文结构进行细致分析。

发明内容

本发明的目的是提出一种基于深度学习和规则结合的议论文结构分析方法,以解决现有技术存在的问题。

一种基于深度学习和规则结合的议论文结构分析方法,所述方法包括以下步骤:

S1、输入作文题目和正文,使用议论文结构标签组分析系统;

S2、对议论文正文分句,并保留句子的段落信息;

S3、对正文所有句子进行分类,获得句子在全文中的作用;

S4、识别及调整结构标签,获得议论文结构分析的结果。

进一步的,在S2中,对议论文正文分句时,具体的,根据换行符或预先设计的分割符对段落进行分割,在获得句子时,根据常用的句尾标点符号对句子进行分割,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,将该标点符号后的引号划分到该句中。

进一步的,在S2中,保留句子的段落信息时,具体的,将全文分句结果储存为一个list,list的第i个元素为第i段的句子集合。

进一步的,在S1中,结构标签组包括13个标签,具体为:总起全文、承上启下、总结全文、提出中心论点、提出分论点、举例论证、名人名言、深入分析、联系现实、现身说法、表达观点、讲述事件和从现实出发,

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出提出中心论点的语句时,添加“提出中心论点”结构标签;

当识别出从几个不同的侧面提出分论点的语句时,添加“提出分论点”结构标签;

当识别出举例论证相关内容的语句时,添加“举例论证”结构标签;

当识别出带有名人名言的语句时,添加“名人名言”结构标签;

当识别出道理论证相关部分,以及对论点加以分析以说服读者的语句时,添加“深入分析”结构标签;

当识别出非典故的事例、或作者身边发生的事、或最近几年的新闻时,添加“联系现实”结构标签;

当识别出作者自身发生的事时,添加“现身说法”结构标签;

当识别出非中心论点和分论点的普通表达观点的语句时,添加“表达观点”结构标签;

当识别出在首段对作文题目中材料进行介绍及分析的语句时,添加“讲述事件”标签;

当识别出从身边的新闻或身边事件讲述自己所感所想、以新闻或事件内容开头的语句时,添加“从现实出发”标签。

进一步的,在S3中,具体的,将句子级结构标签识别转为11分类模型,在输入时需要将所有句子都输入,通过Embedding层利用深度学习模型将字符串句子映射为句向量,在获得所有句子Embedding结果后,将它们一同输入到BiLSTM层中,以获得每个句子经过BiLSTM后得到的向量,所述经过BiLSTM后得到的向量经过全连接网络变为一个1*11的向量,再经过Softmax获得多分类结果。

进一步的,在S4中,具体包括以下步骤:

S41、当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签;然后进一步处理及识别结构标签以获得最终的以段落为单位的议论文结构分析结果;

S42、对于在全文中未识别出“提出中心论点”的情况,从第一段、第二段、最后一段选取所有句子,利用LDA模型向量化后,计算其与整篇文章LDA表示向量的余弦相似度,数值最高者判定为中心论点,则数值最高者所在段添加“提出中心论点”标签;

S43、对首段添加“总起全文”标签、对最后一段添加“总结全文”标签、对非首尾段且未分析出结构标签的段落添加“承上启下”标签以表示相应段落在全文中的作用,得到最终的议论文结构分析结果。

本发明的主要优点是:本发明的一种基于深度学习和规则结合的议论文结构分析方法,针对当前缺少完整的议论文结构体系的现状,设计了一套完整的议论文结构体系,并利用深度学习和规则结合的方法,可以自动对议论文结构进行分析,无需人工处理,大大加快了议论文结构分析的速度,节省了人力成本。

附图说明

图1是深度学习11分类模型;

图2是示例议论文结构分析结果图;

图3是本发明的一种基于深度学习和规则结合的议论文结构分析方法的处理流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于深度学习和规则结合的议论文结构分析方法,所述方法包括以下步骤:

S1、输入作文题目和正文,使用议论文结构标签组分析系统;

S2、对议论文正文分句,并保留句子的段落信息;

S3、对正文所有句子进行分类,获得句子在全文中的作用;

S4、识别及调整结构标签,获得议论文结构分析的结果。

进一步的,在S2中,对议论文正文分句时,具体的,根据换行符或预先设计的分割符对段落进行分割,在获得句子时,根据常用的句尾标点符号对句子进行分割,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,将该标点符号后的引号划分到该句中。

进一步的,在S2中,保留句子的段落信息时,具体的,将全文分句结果储存为一个list,list的第i个元素为第i段的句子集合。

进一步的,在S1中,结构标签组包括13个标签,具体为:总起全文、承上启下、总结全文、提出中心论点、提出分论点、举例论证、名人名言、深入分析、联系现实、现身说法、表达观点、讲述事件和从现实出发,

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出提出中心论点的语句时,添加“提出中心论点”结构标签;

当识别出从几个不同的侧面提出分论点的语句时,添加“提出分论点”结构标签;

当识别出举例论证相关内容的语句时,添加“举例论证”结构标签;

当识别出带有名人名言的语句时,添加“名人名言”结构标签;

当识别出道理论证相关部分,以及对论点加以分析以说服读者的语句时,添加“深入分析”结构标签;

当识别出非典故的事例、或作者身边发生的事、或最近几年的新闻时,添加“联系现实”结构标签;

当识别出作者自身发生的事时,添加“现身说法”结构标签;

当识别出非中心论点和分论点的普通表达观点的语句时,添加“表达观点”结构标签;

当识别出在首段对作文题目中材料进行介绍及分析的语句时,添加“讲述事件”标签;

当识别出从身边的新闻或身边事件讲述自己所感所想、以新闻或事件内容开头的语句时,添加“从现实出发”标签。

进一步的,在S3中,具体的,将句子级结构标签识别转为11分类模型,在输入时需要将所有句子都输入,通过Embedding层利用深度学习模型将字符串句子映射为句向量,在获得所有句子Embedding结果后,将它们一同输入到BiLSTM层中,以获得每个句子经过BiLSTM后得到的向量,所述经过BiLSTM后得到的向量经过全连接网络变为一个1*11的向量,再经过Softmax获得多分类结果。

进一步的,在S4中,具体包括以下步骤:

S41、当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签;然后进一步处理及识别结构标签以获得最终的以段落为单位的议论文结构分析结果;

S42、对于在全文中未识别出“提出中心论点”的情况,从第一段、第二段、最后一段选取所有句子,利用LDA模型向量化后,计算其与整篇文章LDA表示向量的余弦相似度,数值最高者判定为中心论点,则数值最高者所在段添加“提出中心论点”标签;

S43、对首段添加“总起全文”标签、对最后一段添加“总结全文”标签、对非首尾段且未分析出结构标签的段落添加“承上启下”标签以表示相应段落在全文中的作用,得到最终的议论文结构分析结果。

下面为本发明的一个实施例:

(1)对于议论文而言,设计包含13个标签的结构标签组。

其中,“总起全文”、“承上启下”、“总结全文”表示首段、中间段以及尾段在全文结构上的作用。

“提出中心论点”和“提出分论点”标签分别对应议论文中提出中心论点的语句以及从几个不同的侧面提出分论点的语句。在论证过程中,会使用不同的论证方法,结构标签组中“举例论证”和“名人名言”分别对应议论文中举例论证相关内容以及引入名人名言的相关内容。“深入分析”对应议论文中道理论证相关部分,以及对论点加以分析以说服读者的内容。同时,在论证过程中,使用的事例可能不是典故,而是作者身边发生的事,或者最近几年的新闻等等,此类事例其实就是在议论文写作过程中常见的“联系现实”方法。而在举例时用到自身发生的事,则为“现身说法”,分别设计对应标签予以表示。

同时,论证过程中还会对自己的观点进行表达,但是这个观点并不是中心论点,也不是分论点。分论点与普通表达观点的最大区别在于,分论点在格式上往往有一定的规律性,而普通表达观点则没有这样的特点。同时,分论点往往会在其后用事例加以论证,而普通的表达观点则可能只是表达之后,加以一定分析就结束了。引入“表达观点”标签对相应内容进行表示。

“讲述事件”、“从现实出发”两个标签则是针对作文开头部分的结构。在针对考试的写作中(尤其是高考),往往是根据材料进行作文,因此在教学中往往会要求学生在首段对材料进行分析,在分析的基础上得出中心论点,针对这样的情况,设计了“讲述事件”标签。而还有一些议论文是从身边的新闻或身边事件讲述自己所感所想,以新闻或事件内容开头,针对这样的情况,设计了“从现实出发”标签加以对应。

(2)对议论文正文分句,保留句子的所属段落信息

由于后续使用的深度学习模型是以句子为单位进行识别,而最终的呈现方法可以选择以段落为单位进行呈现,因此需要对全文进行分句的同时保留段落信息,即该句属于哪个段落。分割段落时,主要根据换行符或预先设计的分割符对段落进行分割。在获得句子时,根据常用的句尾标点符号(如句号)对句子进行分割。同时,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,在分句时,将该标点符号后的引号划分到该句中。保留所属段落信息时,只需要将全文分句结果储存为一个list,list的第i个元素为第i段的句子集合即可。

(3)对正文所有句子进行分类,获得句子在全文中的作用

对于议论文的结构标签而言,句子级结构标签识别即为对作文中的某个句子x判断其在全文中的作用,因此可以看作是一个标准的多分类问题。

参照图1所示,句子级的结构标签有“提出中心论点”、“举例论证”、“提出分论点”、“深入分析”、“联系现实”、“现身说法”、“讲述事件”、“从现实出发”、“名人名言”、“表达观点”十类,除此之外,一个句子也可以并不起到上述作用,因此可以将句子级结构标签识别转为11分类问题。

其中,Embedding层利用深度学习模型将字符串句子映射为句向量。假设句向量维度为k,对于输入的一个句子,Embedding层将其映射为1*k的向量。在Embedding层,可以使用预先训练好的模型作为静态的特征提取器,即在训练过程中固定不变;也可以是动态的,即在训练中对预训练模型的参数进行微调,或者直接在模型整体训练过程中获得Embedding层。

由于模型采用BiLSTM为主要组成部分,利用上下文内容对句子进行分类,因此在输入时需要将所有句子都输入。在获得所有句子Embedding结果后,将它们一同输入到BiLSTM层中,以获得每个句子经过BiLSTM后得到的向量。该向量经过Fully connectedlayers(全连接网络)变为一个1*11的向量,再经过Softmax获得多分类结果。

(4)进一步识别及调整结构标签,获得议论文结构分析的结果

当获得各句、各段落的结构标签后,此时,需要进一步处理及识别议论文结构标签以获得最终的以段落为单位的议论文结构分析结果(即议论文结构标签识别结果)。

首先以段落为单位对结果取并集,除去同一段落内的重复标签。除此之外,针对11分类的结果,利用规则加以约束:对于“讲述事件”、“从现实出发”两个标签结果,根据其特点,其必须自首段连续出现,如果出现中断,则将后面的相应标签移除。

同时,对于在全文中未识别出“提出中心论点”的情况,从第一段、第二段、最后一段选取所有句子,利用LDA(Latent Dirichlet Allocation,隐迪利克雷分布)模型向量化后,计算其与整篇文章LDA表示向量的余弦相似度,数值最高者判定为中心论点,该段添加“提出中心论点”标签。

对首段添加“总起全文”标签、对最后一段添加“总结全文”标签、对非首尾段且未分析出结构标签的段落添加“承上启下”标签以表示相应段落在全文中的作用,得到最终的议论文结构分析结果(参照图2所示)。

一种分析议论文结构的实施例的处理流程如图3所示。对于给定作文,获得其题目和正文,并对正文进行分句,接下来利用深度学习模型逐句进行句子级结构标签的识别。

当在以段落为单位进行结构分析时,所有段落都进行上述处理后,对各段标记的结构标签去重,并对结构标签进行进一步的识别及调整,得到最终的议论文全文结构标签组分析结果,即议论文的结构分析结果。

本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号