首页> 中国专利> 一种基于深度学习和规则结合的记叙文结构分析方法

一种基于深度学习和规则结合的记叙文结构分析方法

摘要

本发明公开了一种基于深度学习和规则结合的记叙文结构分析方法,属于作文分析技术领域。S1、根据作文类型选择结构标签组分析系统,将记叙文分段,各段分句;S2、对各段中各句进行句子级结构标签识别,获得其在全文中的作用;S3、对部分段落级结构标签进行逐段识别,获得其在全文中的作用;S4、对需要其他段落相关信息的结构标签进行识别并对已有结构标签进行调整,获得记叙文结构分析的结果。本发明根据不同的描写对象,将记叙文分为写景、写人、叙事、状物四类,设计了一套完整的记叙文结构体系,并利用深度学习和规则结合的方法,可以自动对记叙文结构进行分析,无需人工处理,大大加快了记叙文结构分析的速度,节省了人力成本。

著录项

  • 公开/公告号CN112214992A

    专利类型发明专利

  • 公开/公告日2021-01-12

    原文格式PDF

  • 申请/专利权人 哈尔滨福涛科技有限责任公司;

    申请/专利号CN202011097820.9

  • 申请日2020-10-14

  • 分类号G06F40/216(20200101);G06F40/211(20200101);

  • 代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人刘景祥

  • 地址 150086 黑龙江省哈尔滨市南岗区学府路251号哈尔滨职业技术学院大学生创新创业园发展有限公司217室

  • 入库时间 2023-06-19 09:32:16

说明书

技术领域

本发明涉及一种基于深度学习和规则结合的记叙文结构分析方法,属于作文分析技术领域。

背景技术

作文结构分析是对段落、句子等作文组成部分进行其在全文结构或内容上的作用进行分析,获得彼此间内在联系的过程。目前的自然语言处理领域中没有专门的记叙文结构分析任务,但记叙文的结构分析与篇章分析有着很大相似之处。篇章分析需要利用上下文信息,根据目的将篇章分为细粒度级别不同的篇章单元,篇章结构则通过对篇章单元以及篇章单元之间的关系进行表示。篇章结构理论大体上可以分为篇章修辞结构体系和篇章话题结构体系,前者主要体现了篇章的连贯性,它认为篇章是由某种篇章基本构成单元通过递归组合,形成不同的层次,并通过层次之间的关系形成一种修辞上的层次化结构;而后者主要体现了篇章的衔接性,认为一篇文章有一个主话题,其由多个次级话题组成,同时,次级话题又可以由更下一级的话题组成,是一种话题关系上的层次化结构。

目前在自然语言处理领域以及语言学领域中,记叙文结构分析相关研究存在着以下不足:

1.由于语文水平不同,人工分析难以使用统一的角度及标准对记叙文进行结构分析;

2.目前缺少对记叙文的段落、句子等组成部分在全文中作用的分析,缺少相应的结构体系;

3.由于缺少记叙文结构体系,目前的自动作文分析系统无法对记叙文结构进行细致分析。

发明内容

本发明的目的是提出一种基于深度学习和规则结合的记叙文结构分析方法,以解决现有技术存在的问题。

一种基于深度学习和规则结合的记叙文结构分析方法,所述方法包括以下步骤:

S1、根据作文类型选择结构标签组分析系统,将记叙文分段,各段分句;

S2、对各段中各句进行句子级结构标签识别,获得其在全文中的作用;

S3、对部分段落级结构标签进行逐段识别,获得其在全文中的作用;

S4、对需要其他段落相关信息的结构标签进行识别并对已有结构标签进行调整,获得记叙文结构分析的结果。

进一步的,在S1之前,还包括S0:输入作文类型、题目和正文。

进一步的,所述作文类型包括:写景、写人、叙事和状物。

进一步的,在S2中,具体的,采用二分类方法进行逐句识别:Embedding层利用深度学习模型将字符串句子映射为句向量,所得句向量经过Fully connected layers全连接网络变为一个1*2的向量,该向量经过Softmax获得二分类结果,获得各句结构标签。

进一步的,在S1中,当作文类型为写景作文时,结构标签组包括16个标签,具体为:总起全文、承上启下、总结全文、抒发感想、描写人们活动、移步换景、以空间顺序描写、传说典故、描写春/夏/秋/冬天时的景色、描写早上/上午/中午/傍晚/夜晚时的景色、描写植物、描写景物、描写建筑、语言描写、动作描写和心理描写。

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签;

当识别出景物描写时,添加“描写景物”结构标签;

当识别出按四季顺序描写景物时,添加“描写春/夏/秋/冬天时的景色”结构标签;

当识别出按一天中的时间顺序描写景物时,添加“描写早上/上午/中午/傍晚/夜晚时的景色”结构标签;

当识别出描写的景物为建筑时,添加“描写建筑”结构标签;

当识别出描写的景物为植物时,添加“描写植物”结构标签;

当识别出传说典故描写时,添加“传说典故”结构标签;

当识别出“移步换景”的写作手法时,添加“移步换景”结构标签;

当识别出根据空间顺序对景物进行介绍的写作手法时,添加“以空间顺序描写”结构标签;

当识别出整段对人的行为进行描写时,添加“描写人们活动”结构标签

当识别出人的动作描写时,添加“动作描写”结构标签;

当识别出人的语言描写时,填加“语言描写”结构标签;

当识别出人的心理描写时,添加“心理描写”结构标签。

进一步的,在S1中,当作文类型为写人作文时,结构标签组包括11个标签组,具体为:总起全文、承上启下、总结全文、抒发感想、外貌描写、动作描写、心理描写、语言描写、环境描写、介绍人物特点和讲述发生的事。

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签;

当识别出人的外貌、动作、心理和语言描写时,分别添加“外貌描写”、“动作描写”、“心理描写”和“语言描写”结构标签;

当识别出人物的特点描写时,添加“介绍人物特点”结构标签;

当识别出回忆及发生过的事件描写时,添加“讲述发生的事”结构标签;

当识别出环境描写时,添加“环境描写”结构标签。

进一步的,在S1中,当作文类型为叙事作文时,结构标签组包括15个标签,具体为:总起全文、承上启下、总结全文、抒发感想、介绍时间、介绍地点、介绍人物、事件的起因、事件的经过、事件的结果、介绍环境、外貌描写、语言描写、动作描写和心理描写。

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签组;

当识别出时间、地点、人物、起因、经过、结果描写时,分别添加“介绍时间”、“介绍地点”、“介绍人物”、“事件的起因”、“事件的经过”、“事件的结果”六个结构标签;

当识别出环境描写时,添加“介绍环境”结构标签;

当识别出人的外貌、动作、心理和语言描写时,分别添加“外貌描写”、“动作描写”、“心理描写”和“语言描写”结构标签。

进一步的,在S1中,当作文类型为状物作文时,结构标签组包括18个标签组,具体为:总起全文、承上启下、总结全文、抒发感想、描述动物外形、描述植物外形、描述物品外形、动作描写、介绍动物特点、介绍植物特点、介绍物品特点、介绍功能、食物做法、食物味道、讲述发生的事、传说典故、语言描写、心理描写。

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签;

当识别出动物外形描写时,添加“描述动物外形”结构标签;

当识别出植物外形描写时,添加“描述植物外形”结构标签;

当识别出物品外形描写时,添加“描述物品外形”结构标签;

当识别出动物特点描写时,添加“介绍动物特点”结构标签;

当识别出植物特点描写时,添加“介绍植物特点”结构标签;

当识别出物品特点描写时,添加“介绍物品特点”结构标签;

当识别出表现动物、植物或物品特点的事例、或者作者和它一起做过的事情的描写时,添加“讲述发生的事”结构标签;

当识别出传说典故介绍时,添加“传说典故”结构标签;

当识别出介绍物品功能语句时,添加“介绍功能”结构标签;

当识别出食物的味道或食物的做法介绍语句时,分别添加“食物味道”、“食物做法”两个结构标签;

当识别出的动作描写时,添加“动作描写”结构标签;

当识别出人的心理、语言描写时,分别添加“心理描写”、“语言描写”两个标签。

进一步的,在S3中,具体的,采用二分类方法进行逐段识别,获得各段结构标签。

进一步的,在S4中,具体的,当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签,进一步处理及识别结构标签以获得最终的以段落为单位的记叙文结构分析结果。

本发明的主要优点是:本发明的一种基于深度学习和规则结合的记叙文结构分析方法,针对当前缺少完整的记叙文结构体系的现状,根据不同的描写对象,将记叙文分为写景、写人、叙事、状物四类,设计了一套完整的记叙文结构体系,并利用深度学习和规则结合的方法,可以自动对记叙文结构进行分析,无需人工处理,大大加快了记叙文结构分析的速度,节省了人力成本。

附图说明

图1是深度学习二分类模型;

图2是包含位置信息的深度学习二分类模型;

图3是写景作文结构分析结果示例;

图4是写人作文结构分析结果示例;

图5是叙事作文结构分析结果示例;

图6是状物作文结构分析结果示例;

图7是记叙文结构分析流程示例;

图8是各结构标签组分析系统内部流程。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参照图7所示,一种基于深度学习和规则结合的记叙文结构分析方法,所述方法包括以下步骤:

S1、根据作文类型选择结构标签组分析系统,将记叙文分段,各段分句;

S2、对各段中各句进行句子级结构标签识别,获得其在全文中的作用;

S3、对部分段落级结构标签进行逐段识别,获得其在全文中的作用;

S4、对需要其他段落相关信息的结构标签进行识别并对已有结构标签进行调整,获得记叙文结构分析的结果。

进一步的,在S1之前,还包括S0:输入作文类型、题目和正文。

进一步的,所述作文类型包括:写景、写人、叙事和状物。

进一步的,在S2中,具体的,采用二分类方法进行逐句识别:Embedding层利用深度学习模型将字符串句子映射为句向量,所得句向量经过Fully connected layers全连接网络变为一个1*2的向量,该向量经过Softmax获得二分类结果,获得各句结构标签。

进一步的,在S3中,具体的,采用二分类方法进行逐段识别,获得各段结构标签。

进一步的,在S4中,具体的,当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签,进一步处理及识别结构标签以获得最终的以段落为单位的记叙文结构分析结果。

具体的,参照图8所示,根据输入的题目和正文,首先对正文进行分段。接下来,逐段进行如下操作:首先对段落分句,然后对段落内句子逐句进行该结构标签组分析系统的句子级结构标签的识别。在处理完所有句子后,对段落整体进行判断,识别该结构标签组分析系统中的部分段落级结构标签。

当在以段落为单位进行结构分析时,所有段落都进行上述处理后,对各段标记的句子级及段落级结构标签去重,进行剩余需要其他段落信息的该结构标签组分析系统中的结构标签识别及对所有结构标签的调整,获得作文在相应结构标签组分析系统下的全文结构标签组分析结果,即记叙文的结构分析结果。

进一步的,在S1中,当作文类型为写景作文时,结构标签组包括16个标签,具体为:总起全文、承上启下、总结全文、抒发感想、描写人们活动、移步换景、以空间顺序描写、传说典故、描写春/夏/秋/冬天时的景色、描写早上/上午/中午/傍晚/夜晚时的景色、描写植物、描写景物、描写建筑、语言描写、动作描写和心理描写,

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签;

当识别出景物描写时,添加“描写景物”结构标签;

当识别出按四季顺序描写景物时,添加“描写春/夏/秋/冬天时的景色”结构标签;

当识别出按一天中的时间顺序描写景物时,添加“描写早上/上午/中午/傍晚/夜晚时的景色”结构标签;

当识别出描写的景物为建筑时,添加“描写建筑”结构标签;

当识别出描写的景物为植物时,添加“描写植物”结构标签;

当识别出传说典故描写时,添加“传说典故”结构标签;

当识别出“移步换景”的写作手法时,添加“移步换景”结构标签;

当识别出根据空间顺序对景物进行介绍的写作手法时,添加“以空间顺序描写”结构标签;

当识别出整段对人的行为进行描写时,添加“描写人们活动”结构标签;

当识别出人的动作描写时,添加“动作描写”结构标签;

当识别出人的语言描写时,填加“语言描写”结构标签;

当识别出人的心理描写时,添加“心理描写”结构标签。

进一步的,在S1中,当作文类型为写人作文时,结构标签组包括11个标签组,具体为:总起全文、承上启下、总结全文、抒发感想、外貌描写、动作描写、心理描写、语言描写、环境描写、介绍人物特点和讲述发生的事,

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签;

当识别出人的外貌、动作、心理和语言描写时,分别添加“外貌描写”、“动作描写”、“心理描写”和“语言描写”结构标签;

当识别出人物的特点描写时,添加“介绍人物特点”结构标签;

当识别出回忆及发生过的事件描写时,添加“讲述发生的事”结构标签;

当识别出环境描写时,添加“环境描写”结构标签。

进一步的,在S1中,当作文类型为叙事作文时,结构标签组包括15个标签,具体为:总起全文、承上启下、总结全文、抒发感想、介绍时间、介绍地点、介绍人物、事件的起因、事件的经过、事件的结果、介绍环境、外貌描写、语言描写、动作描写和心理描写,

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签组;

当识别出时间、地点、人物、起因、经过、结果描写时,分别添加“介绍时间”、“介绍地点”、“介绍人物”、“事件的起因”、“事件的经过”、“事件的结果”六个结构标签;

当识别出环境描写时,添加“介绍环境”结构标签;

当识别出人的外貌、动作、心理和语言描写时,分别添加“外貌描写”、“动作描写”、“心理描写”和“语言描写”结构标签。

进一步的,在S1中,当作文类型为状物作文时,结构标签组包括18个标签组,具体为:总起全文、承上启下、总结全文、抒发感想、描述动物外形、描述植物外形、描述物品外形、动作描写、介绍动物特点、介绍植物特点、介绍物品特点、介绍功能、食物做法、食物味道、讲述发生的事、传说典故、语言描写、心理描写,

其中,当识别出首段、无标签的中间段以及尾段时,分别添加“总起全文”、“承上启下”、“总结全文”三个结构标签;

当识别出抒情语句时,添加“抒发感想”结构标签;

当识别出动物外形描写时,添加“描述动物外形”结构标签;

当识别出植物外形描写时,添加“描述植物外形”结构标签;

当识别出物品外形描写时,添加“描述物品外形”结构标签;

当识别出动物特点描写时,添加“介绍动物特点”结构标签;

当识别出植物特点描写时,添加“介绍植物特点”结构标签;

当识别出物品特点描写时,添加“介绍物品特点”结构标签;

当识别出表现动物、植物或物品特点的事例、或者作者和它一起做过的事情的描写时,添加“讲述发生的事”结构标签;

当识别出传说典故介绍时,添加“传说典故”结构标签;

当识别出介绍物品功能语句时,添加“介绍功能”结构标签;

当识别出食物的味道或食物的做法介绍语句时,分别添加“食物味道”、“食物做法”两个结构标签;

当识别出的动作描写时,添加“动作描写”结构标签;

当识别出人的心理、语言描写时,分别添加“心理描写”、“语言描写”两个标签。

进一步的,在S3中,具体的,采用二分类方法进行逐段识别,获得各段结构标签。

进一步的,在S4中,具体的,当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签,进一步处理及识别结构标签以获得最终的以段落为单位的记叙文结构分析结果。

下面为本发明的四个实施例:

本发明提出了一套根据段落及句子在全文中作用而设计的完整记叙文结构体系。根据描写对象不同,该体系可以进一步分为四部分:写景作文结构体系、写人作文结构体系、叙事作文结构体系、状物作文结构体系。在本专利中,分别被称为写景作文结构标签组、写人作文结构标签组、叙事作文结构标签组、状物作文结构标签组,并分别提出了针对上述四种作文进行自动结构分析的方法。

实施例一、写景作文结构分析

写景作文结构标签组如下:

总起全文、承上启下、总结全文、抒发感想(抒情)、描写人们活动、移步换景、以空间顺序描写、传说典故、描写春/夏/秋/冬天时的景色、描写早上/上午/中午/傍晚/夜晚时的景色、描写植物、描写景物(环境描写)、描写建筑、语言描写、动作描写、心理描写。

写景作文结构分析方法如下:

1.将写景作文分段、各段分句;

2.对各段中各句进行句子级结构标签识别,获得其在全文中的作用;

3.对部分段落级结构标签进行逐段识别,获得其在全文中的作用;

4.对需要其他段落相关信息的结构标签进行识别并对已有结构标签进行调整,获得写景作文结构分析的结果。

(1)写景作文结构标签组设计

对于写景作文而言,设计包含16个标签的结构标签组。

其中,“总起全文”、“承上启下”、“总结全文”表示首段、中间段以及尾段在全文结构上的作用,“抒发感想”(抒情)表示作文中的抒情部分。

写景作文最突出的特点是有大量对景物的描写句,因此添加“描写景物”(环境描写)标签,它是写景作文中最主要的描写内容。同时,在对景物进行介绍时,常常会相邻几段内每一段介绍一个时段的景色(段落可能不连续),时段可能按照四季顺序,也可能按照一天中的时间顺序。针对这样的情况,设计了“描写春/夏/秋/冬天时的景色”、“描写早上/上午/中午/傍晚/夜晚时的景色”两个标签。其中,季节包含春夏秋冬,时间段包含早上、上午、中午、傍晚、夜晚。前者不仅仅表示依照时序描写的情况,也表示整篇文章都对单独一个季节的景色进行描写的情况。而对后者而言,同一个时段存在多种表示方式,在这里只是用最具代表性的说法进行表示。“描写建筑”、“描写植物”标签表示描写对象为建筑以及植物的情况。在介绍景物时,有时会提到相关的传说典故,引入“传说典故”标签。有时会介绍民俗,例如秋天收获时人们的行为、过节时人们舞龙等等,引入“描写人们活动”标签对其进行表示。在描写景色过程中,作者可能用到“移步换景”的方法对景物进行描写,“以空间顺序描写”针对作文中根据空间顺序对景物介绍的部分。

同时,由于写景作文始终是从人的角度出发,因此添加了“动作描写”、“心理描写”、“语言描写”标签表示作文中的相应描写内容。

(2)将写景作文分段、各段分句

由于结构分析的细粒度不同,在对作文进行结构分析时,需要根据结构标签的特点将正文分割为正文所有段落的集合及正文所有句子的集合。分割段落时,主要根据换行符或预先设计的分割符对段落进行分割。在获得句子时,根据常用的句尾标点符号(如句号)对句子进行分割。同时,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,在分句时,将该标点符号后的引号划分到该句中。

(3)对各段中各句进行句子级结构标签识别,获得其在全文中的作用

对于某个结构标签而言,句子级结构标签识别即为对作文中的某个句子x判断其在全文中作用是否为y,因此可以看作是一个标准的二分类问题。

对“描写植物”、“描写景物”(环境描写)、“描写建筑”、“抒发感想”(抒情)、“动作描写”、“心理描写”标签,使用如图1所示结构的深度模型进行二分类识别。

参照图1所示,其中,Embedding层利用深度学习模型将字符串句子映射为句向量。假设句向量维度为k,对于输入的一个句子,Embedding层将其映射为1*k的向量。在Embedding层,可以使用预先训练好的模型作为静态的特征提取器,即在训练过程中固定不变;也可以是动态的,即在训练中对预训练模型的参数进行微调,或者直接在模型整体训练过程中获得Embedding层。

在获得Embedding层输出后,所得向量经过Fully connected layers(全连接网络)变为一个1*2的向量,该向量经过Softmax获得二分类结果。

“语言描写”采取使用规则识别的方法。在识别时,如果句子中存在左引号和右引号,并且引号之间存在标点符号,在以“,”“。”分割后,获得的子句数量不为偶数或者为偶数但是字符串长度彼此不等,则将其识别为语言描写。

(4)对部分段落级结构标签进行逐段识别,获得其在全文中的作用

与第3步相似,“描写人们活动”同样采用深度学习模型二分类方法进行识别,区别在于输入文本为段落而非句子。同时,如果将图1中Embedding层作为静态的特征提取器,可以进一步添加LDA(Latent DirichletAllocation,隐迪利克雷分布)等特征以对较长的段落文本进行更好的表示。

“移步换景”、“以空间顺序描写”、“传说典故”标签,采取规则方法对整个段落进行识别。

识别“移步换景”标签时,首先将段落中句子以逗号等标点符号划分为子句,在每个子句中利用正则表达式对“…往…走”、“…沿着…”等句式进行匹配,如果可以匹配,认为该段中使用了“移步换景”的手法。

在识别“以空间顺序描写”时,首先采用相同方法将段落中的句子划分为子句,然后对子句进行分词及词性标注。在排除“西瓜”等干扰词后,根据“东”“西”“南”“北”等关键词、句子中被标注为方位词的个数进行判断,如果数目大于阈值,则认为该段落对景物依照方位进行介绍,标记“以空间顺序描写”。

“传说典故”识别方法如下。首先遍历段落的每个句子,如果“传说:”出现在了句子中,以“传说:”对句子进行分割,如果在句子后半段跟有超过一定阈值的字数,则认为其对传说典故进行了介绍;如果“相传”在句子内且“口口相传”、“薪火相传”等干扰词不在句子内,或“传说”在句子内,同样对句子进行分割后,如果分割后某个非第一部分的长度超过了某个阈值,则同样判定该段对传说典故进行了介绍。如果“传说”出现在句末,则对下一句进行判断:如果有“从前”、“以前”、“据说”等关键字,认为该段介绍了传说典故。

(5)对需要其他段落相关信息的结构标签进行识别并对已有结构标签进行调整,获得写景作文结构分析的结果

当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签。此时,需要进一步处理及识别结构标签以获得最终的以段落为单位的写景作文结构分析结果(即写景作文结构标签识别结果)。

首先对“描写春/夏/秋/冬天时的景色”进行识别。

当对连续几段介绍不同季节时的景色进行识别时,只需要从含有“春”字的段落开始,对连续段落依次判断字数是否超过阈值,并且在段落中是否分别出现“春”、“夏”、“秋”、“冬”即可。但是有的写景作文在介绍时,不会按照该次序进行介绍,可能对次序进行调换或者缺少某个季节的景色介绍,也可能不同季节的景色介绍不会连续出现的情况。同时,诸如“迎春花”这样的词汇会对识别结果造成一定程度上的干扰,这样的词称作干扰词。针对这种情况,对每一段进行如下判断:如果该段的字数超过了阈值,获得该段的所有“春夏秋冬”字样的个数(雪算作冬),并且如果干扰词出现在段落中,需要减去干扰词的个数,该段落最后获得字数最多者认定为该段落描写的季节;如果在所有段落中,有至少三个段落描写了不同的季节,则对该三个段落添加“描写春/夏/秋/冬天时的景色”标签(此时添加具体季节标签),并移除“描写景色”标签。

在对全篇只描写一个季节景色的标签进行识别时,对相应季节是否在题目中出现进行判断:如果在排除干扰词后,题目中只出现一个季节,在全文标签分析完毕后,将每个段落中“描写景色”标签替换为描写该季节景色标签。

“描写早上/上午/中午/傍晚/夜晚时的景色”识别方法与连续识别“描写春/夏/秋/冬天时的景色”相似,同样考虑到次序调换、段落不连续、缺少某个时段的景物描写情况,并且移除该段“描写景色”标签。除此之外,由于一天的同一个时间段可以有多种不同的表达方法,因此对每个时间获得同义词组,同义词组中的时间视作同一个时间进行处理。

在上述判断都进行完毕后,对首段添加“总起全文”标签,对最后一段添加“总结全文”标签,对非首尾段且未分析出结构标签的段落添加“承上启下”标签,参照图3所示,得到最终的写景作文结构分析结果。

实施例二、写人作文结构分析

写人作文结构标签组如下:

总起全文、承上启下、总结全文、抒发感想(抒情)、外貌描写、语言描写、动作描写、心理描写、讲述发生的事、环境描写、介绍人物特点。

写人作文结构分析方法如下:

1.将写人作文分段、各段分句;

2.对各段中各句进行句子级结构标签识别,获得其在全文中的作用;

3.对部分段落级结构标签进行逐段识别,获得其在全文中的作用;

4.进一步识别及调整结构标签,获得写人作文结构分析的结果。

(1)写人作文结构标签组设计

对于写人作文而言,设计包含11个标签的结构标签组。

其中,“总起全文”、“承上启下”、“总结全文”表示首段、中间段以及尾段在全文结构上的作用,“抒发感想”(抒情)表示作文中的抒情部分。

在写人作文中,常常会使用多种描写手法,因此设计“外貌描写”、“动作描写”、“心理描写”、“语言描写”结构标签分别对运用相应描写手法的文章部分进行识别。同时,写人作文也会出现对环境的描写,在这里设计为“环境描写”结构标签。在写人作文中,常常会对人物特点进行介绍,如“他是一个助人为乐的人”,在结构标签组中用“介绍人物特点”加以识别。此外,在写人作文中,常常会对回忆以及发生过的事件(如可以表现人物特点的事例)进行介绍,在结构标签组中用“讲述发生的事”来对此类内容进行表示。

(2)将写人作文分段、各段分句

由于结构分析的细粒度不同,在对写人作文进行结构分析时,需要根据结构标签的特点将正文分割为正文所有段落的集合及正文所有句子的集合。分割段落时,主要根据换行符或预先设计的分割符对段落进行分割。在获得句子时,根据常用的句尾标点符号(如句号)对句子进行分割。同时,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,在分句时,将该标点符号后的引号划分到该句中。

(3)对各段中各句进行句子级结构标签识别,获得其在全文中的作用

对于某个结构标签而言,句子级结构标签识别即为对写人作文中的某个句子x判断其在全文中作用是否为y,因此可以看作是一个标准的二分类问题。

对“抒发感想”(抒情)、“外貌描写”、“动作描写”、“心理描写”、“环境描写”标签,使用如图1所示结构的深度模型进行二分类识别。

其中,Embedding层利用深度学习模型将字符串句子映射为句向量。假设句向量维度为k,对于输入的一个句子,Embedding层将其映射为1*k的向量。在Embedding层,可以使用预先训练好的模型作为静态的特征提取器,即在训练过程中固定不变;也可以是动态的,即在训练中对预训练模型的参数进行微调,或者直接在模型整体训练过程中获得Embedding层。

在获得Embedding层输出后,所得向量经过Fully connected layers(全连接网络)变为一个1*2的向量,该向量经过Softmax获得二分类结果。

“语言描写”采取使用规则识别的方法。在识别时,如果句子中存在左引号和右引号,并且引号之间存在标点符号,在以“,”“。”分割后,获得的子句数量不为偶数或者为偶数但是字符串长度彼此不等,则将其识别为语言描写。

对“介绍人物特点”标签采取规则和深度学习相结合的方法进行识别,其采用的深度学习模型与图1相同。其识别方法如下:

(a)收集在作文中常见的对人称呼,称为人物词汇;

(b)收集常见的形容人性格以及品质的词语,称为特点词汇;

(c)收集在介绍人物特点时常见且与人物称呼共同出现时特征性很强的词汇、词组,称为强词汇;

(d)对于输入的句子,使用如下规则进行判断:将句子按照逗号等标点符号分割为子句,对于每个子句,首先利用规则进行判断:如果子句中识别出人名或人物词汇,此时如果强词汇也出现在该子句中,则认为其为“介绍人物特点”;如果句子字数小于阈值,特点词汇出现在有人物词汇或人名的子句中,则认为其为“介绍人物特点”;如果句子字数小于阈值,“喜欢”“爱”出现在有人物词汇或识别出人名的子句中,且“喜欢”“爱”后面跟的词语不为人、不存在“父爱”“母爱”,则认为其为“介绍人物特点”。

(e)对于规则认为其不是“介绍人物特点”的,使用深度学习模型进行识别。

(4)对部分段落级结构标签进行逐段识别,获得其在全文中的作用

“讲述发生的事”利用规则方法逐段进行识别。其识别规则为:当段落字数大于某个阈值时,首先对段落进行分句处理,然后获得所有句子的子句,如果“有一次”、“有一天”以及其他在写人作文中常见的表示事件时间的方法在子句中出现,则认为该段在讲述事例。

(5)进一步识别及调整结构标签,获得写人作文结构分析的结果

当获得各句、各段落的结构标签后,此时,需要进一步处理及识别结构标签以获得最终的以段落为单位的写人作文结构分析结果(即写人作文结构标签识别结果)。首先以段落为单位对结果取并集,除去同一段落内的重复标签。对首段添加“总起全文”标签,对最后一段添加“总结全文”标签,对非首尾段且未分析出结构标签的段落添加“承上启下”标签,参照图4所示,得到最终的写人作文结构分析结果。

实施例三、叙事作文结构分析

叙事作文结构标签组如下:

总起全文、承上启下、总结全文、抒发感想(抒情)、外貌描写、语言描写、动作描写、心理描写、介绍时间、介绍地点、介绍人物、事件的起因、事件的经过、事件的结果、介绍环境(环境描写)。

叙事作文结构分析方法如下:

1.将叙事作文分段、各段分句;

2.对各段中各句进行句子级结构标签识别,获得其在全文中的作用;

3.对段落级结构标签进行逐段识别;

4.调整结构标签,获得叙事作文结构分析的结果。

(1)叙事作文结构标签组设计

对于叙事作文而言,设计包含15个标签的结构标签组。

其中,“总起全文”、“承上启下”、“总结全文”表示首段、中间段以及尾段在全文结构上的作用,“抒发感想”(抒情)表示作文中的抒情部分。

叙事作文含有六要素:时间、地点、人物、起因、经过、结果,在结构标签组时,设计对应的6个标签“介绍时间”、“介绍地点”、“介绍人物”、“事件的起因”、“事件的经过”、“事件的结果”表示叙事作文中的相应内容。同时,在叙事作文中可能会进行环境描写,起到渲染氛围等作用,结构标签组中加入“介绍环境”(环境描写)表示相应部分。

除此之外,由于叙事作文大多从人或事物拟人后的角度对事件进行介绍,因此使用“外貌描写”、“语言描写”、“动作描写”、“心理描写”表示写人作文中相应的描写内容。

(2)将叙事作文分段、各段分句

由于结构分析的细粒度不同,在对作文进行结构分析时,需要根据结构标签的特点将正文分割为正文所有段落的集合及正文所有句子的集合。分割段落时,主要根据换行符或预先设计的分割符对段落进行分割。在获得句子时,根据常用的句尾标点符号(如句号)对句子进行分割。同时,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,在分句时,将该标点符号后的引号划分到该句中。

(3)对各段中各句进行句子级结构标签识别,获得其在全文中的作用

对于某个结构标签而言,句子级结构标签识别即为对作文中的某个句子x判断其在全文中作用是否为y,因此可以看作是一个标准的二分类问题。

对“抒发感想”(抒情)、“外貌描写”、“动作描写”、“心理描写”、“介绍环境”(环境描写)标签,使用如图1所示结构的深度模型进行二分类识别。

其中,Embedding层利用深度学习模型将字符串句子映射为句向量。假设句向量维度为k,对于输入的一个句子,Embedding层将其映射为1*k的向量。在Embedding层,可以使用预先训练好的模型作为静态的特征提取器,即在训练过程中固定不变;也可以是动态的,即在训练中对预训练模型的参数进行微调,或者直接在模型整体训练过程中获得Embedding层。

在获得Embedding层输出后,所得向量经过Fully connected layers(全连接网络)变为一个1*2的向量,该向量经过Softmax获得二分类结果。

识别“事件的起因”、“事件的结果”标签时,有两种方案。

方案一:采取与图1相同结构的深度学习模型进行二分类识别。

方案二:采取图2结构的深度学习模型进行二分类识别。与图1结构不同之处在于,图2所示结构在Embedding层考虑到了句子在全文中的位置信息。此时的位置信息可以使用深度学习模型进行学习动态获得,也可以使用预先设计的计算方法进行计算获得。

一种静态的获得句子位置信息的方法如下。

为句子Embedding向量添加两维,第一维的值为句子算在段落序号(从1开始)与文章总段落数之比,第二维的值为句子在段落中位置(即句子序号,从1开始)与该段句子总数之比。

“介绍人物”采取深度学习和规则结合的方法进行识别,有两种实现方案。

方案一:对识别出“事件的起因”句及其在段落中的前一句、后一句(如果存在的话)进行判断,如果有表示称对人呼的词出现在句子中或句子识别出人名相关的命名实体,则认为该句“介绍人物”结构标签识别成功。

方案二:可使用构造的“外貌描写”以及与图1相同结构的“介绍人物特点”(对应内容为对人物特点介绍的部分,如“他是一个善良的人”)深度学习模型,二者只要有一个识别成功,则识别“介绍人物”成功。

除此之外,识别“介绍人物特点”时,还可以使用深度学习结合规则的方法进行识别。其采用的深度学习模型与图1相同,识别方法如下:

(a)收集在作文中常见的对人称呼,称为人物词汇;

(b)收集常见的形容人性格以及品质的词语,称为特点词汇;

(c)收集在介绍人物特点时常见且与人物称呼共同出现时特征性很强的词汇、词组,称为强词汇;

(d)对于输入的句子,使用如下规则进行判断:将句子按照逗号等标点符号分割为子句,对于每个子句,首先利用规则进行判断:如果子句中识别出人名或人物词汇,此时如果强词汇也出现在该子句中,则认为其为“介绍人物特点”;如果句子字数小于阈值,特点词汇出现在有人物词汇或人名的子句中,则认为其为“介绍人物特点”;如果句子字数小于阈值,“喜欢”“爱”出现在有人物词汇或识别出人名的子句中,且“喜欢”“爱”后面跟的词语不为人、不存在“父爱”“母爱”,则认为其为“介绍人物特点”。

(e)对于规则认为其不是“介绍人物特点”的,使用深度学习模型进行识别。

“语言描写”采取使用规则识别的方法。在识别时,如果句子中存在左引号和右引号,并且引号之间存在标点符号,在以“,”“。”分割后,获得的子句数量不为偶数或者为偶数但是字符串长度彼此不等,则将其识别为语言描写。

(4)对段落级结构标签进行逐段识别

在本阶段识别“介绍时间”时,仅对识别出“事件的起因”段落进行识别。对段落的第一句至表示事件起因的句子进行判断:如果表示时间的词汇出现在句子中或进行命名实体识别时识别出与时间相关的实体,则认为“介绍时间”标签识别成功。

在本阶段识别“介绍地点”时,仅对识别出“事件的起因”段落进行识别。

对段落中表示事件起因的句子及事件起因句下一句(如果存在的话)进行地名关键词及地名相关命名实体识别,如果地名关键词出现在句子中或者地名相关命名实体识别成功,则认为“介绍地点”识别成功。

(5)调整结构标签,获得叙事作文结构分析的结果

在获得各句子级、段落级结构标签识别结果后,需要进一步处理及识别结构标签以获得最终的以段落为单位的叙事作文结构分析结果(即叙事作文结构标签识别结果)。

对于获得的所有“事件的起因”标签而言,仅保留第一个;对于获得的所有“事件的结果”标签而言,仅保留最后一个。二者之间的部分即为“事件的经过”。

同时,对“介绍时间”和“介绍地点”标签也需要进行调整。对于每段而言,只有保留了结构标签“事件的起因”的段落依旧保留“介绍时间”、“介绍地点”标签,其他段落都将识别出的二者移除。当标记了“事件的起因”段落中没有标记“介绍时间”时,对其前一段的最后一句话(如果存在)使用(4)中识别“介绍时间”的方法进行识别。相似地,当标记了“事件的起因”段落中没有标记“介绍地点”时,对其后一段的第一句话(如果存在)使用(4)中识别“介绍地点”的方法进行识别,获得结果。

当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签。对首段添加“总起全文”标签,对最后一段添加“总结全文”标签,对非首尾段且未分析出结构标签的段落添加“承上启下”标签,参照图5所示,得到最终的叙事作文结构分析结果。

实施例四、状物作文结构分析

状物作文结构标签组如下:

总起全文、承上启下、总结全文、抒发感想(抒情)、描述动物外形、描述植物外形、描述物品外形、动作描写、介绍动物特点、介绍植物特点、介绍物品特点、介绍功能、食物做法、食物味道、讲述发生的事、传说典故、语言描写、心理描写。

状物作文结构分析方法如下:

1.将状物作文分段、各段分句;

2.对各段中各句进行句子级结构标签识别,获得其在全文中的作用;

3.对部分段落级结构标签进行逐段识别,获得其在全文中的作用;

4.进一步识别及调整结构标签,获得状物作文结构分析的结果。

(1)状物作文结构标签组设计

对于状物作文而言,设计包含18个标签的结构标签组。

其中,“总起全文”、“承上启下”、“总结全文”表示首段、中间段以及尾段在全文结构上的作用,“抒发感想”(抒情)表示作文中的抒情部分。

在状物作文中,根据描写对象的不同又可以分为动物状物作文、植物状物作文、物品状物作文。也因此,状物作文中的外貌描写可以进一步细分为对植物的外貌描写、对动物的外貌描写、对物品的外貌描写。为了更加贴合状物作文的特点,在这里以“描述外形”作为标签对应状物作文中外貌描写相应内容。同样的,状物作文中对特点的介绍也可以分为对动物、植物、物品的特点介绍,分别具备不同的特征,在结构标签组中使用不同的“介绍特点”标签分别对应。

此外,状物作文中常常会对回忆以及发生过的事件(如可以表现动物、植物特点的事例,或者作者和它一起做过的事情)进行介绍,在结构标签组中用“讲述发生的事”来对此类内容进行表示。在介绍物品时,有时会提到相关的传说典故,引入“传说典故”标签。“介绍功能”对应介绍物品功能的语句。而食物作为一类特殊的物品,对其添加了专门的标签“食物味道”和“食物做法”识别相应内容。“动作描写”作为一种在状物作文中常见的描写手法,引入结构标签组以表示相应内容。

同时,由于部分状物作文会从人的角度出发,因此添加了“心理描写”、“语言描写”标签表示作文中的相应描写内容。

(2)将状物作文分段、各段分句

由于结构分析的细粒度不同,在对作文进行结构分析时,需要根据结构标签的特点将正文分割为正文所有段落的集合及正文所有句子的集合。分割段落时,主要根据换行符或预先设计的分割符对段落进行分割。在获得句子时,根据常用的句尾标点符号(如句号)对句子进行分割。同时,在分句时如果出现常见句尾标点符号出现在单引号或双引号前的情况,在分句时,将该标点符号后的引号划分到该句中。

(3)对各段中各句进行句子级结构标签识别,获得其在全文中的作用

对于某个结构标签而言,句子级结构标签识别即为对作文中的某个句子x判断其在全文中作用是否为y,因此可以看作是一个标准的二分类问题。

对“抒发感想”(抒情)、“描述动物外形”、“描述植物外形”、“描述物品外形”、“介绍动物特点”、“介绍植物特点”、“介绍物品特点”、“食物味道”、“介绍功能”、“动作描写”、“食物做法”、“心理描写”标签,使用如图1所示结构的深度模型进行二分类识别。

其中,Embedding层利用深度学习模型将字符串句子映射为句向量。假设句向量维度为k,对于输入的一个句子,Embedding层将其映射为1*k的向量。在Embedding层,可以使用预先训练好的模型作为静态的特征提取器,即在训练过程中固定不变;也可以是动态的,即在训练中对预训练模型的参数进行微调,或者直接在模型整体训练过程中获得Embedding层。

在获得Embedding层输出后,所得向量经过Fully connected layers(全连接网络)变为一个1*2的向量,该向量经过Softmax获得二分类结果。

“语言描写”采取使用规则识别的方法。在识别时,如果句子中存在左引号和右引号,并且引号之间存在标点符号,在以“,”“。”分割后,获得的子句数量不为偶数或者为偶数但是字符串长度彼此不等,则将其识别为语言描写。

(4)对部分段落级结构标签进行逐段识别,获得其在全文中的作用

“讲述发生的事”利用规则方法逐段进行识别。其识别规则为:当段落字数大于某个阈值时,首先对段落进行分句处理,然后获得所有句子的子句,如果“有一次”、“有一天”以及其他在作文中常见的表示事件时间的方法在子句中出现,则认为该段在讲述事例。

“传说典故”识别方法如下。首先遍历段落的每个句子,如果“传说:”出现在了句子中,以“传说:”对句子进行分割,如果在句子后半段跟有超过一定阈值的字数,则认为其对传说典故进行了介绍;如果“相传”在句子内且“口口相传”、“薪火相传”等干扰词不在句子内,或“传说”在句子内,同样对句子进行分割后,如果分割后某个非第一部分的长度超过了某个阈值,则同样判定该段对传说典故进行了介绍。如果“传说”出现在句末,则对下一句进行判断:如果有“从前”、“以前”、“据说”等关键字,认为该段介绍了传说典故。

(5)进一步识别及调整结构标签,获得状物作文结构分析的结果

此时,需要进一步处理及识别结构标签以获得最终的以段落为单位的状物作文结构分析结果(即状物作文结构标签识别结果)。当获得各句、各段落的结构标签后,以段落为单位对结果取并集,除去同一段落内的重复标签。同时,当识别出动物、植物、物品中至少一种的“描述外形”,且不需要进行细致区分时,可以认为它们都是“描述外形”,进行重复去除。“介绍特点”同理,可以进行同样处理。对首段添加“总起全文”标签,对最后一段添加“总结全文”标签,对非首尾段且未分析出结构标签的段落添加“承上启下”标签,参照图6所示,得到最终的状物作文结构分析结果。

本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号