公开/公告号CN114896391A
专利类型发明专利
公开/公告日2022-08-12
原文格式PDF
申请/专利权人 广州大学;
申请/专利号CN202210384743.8
申请日2022-04-13
分类号G06F16/35(2019.01);G06F40/211(2020.01);G06F16/215(2019.01);G06K9/62(2022.01);
代理机构广州高炬知识产权代理有限公司 44376;
代理人孙明科
地址 510006 广东省广州市大学城外环西路230号
入库时间 2023-06-19 16:22:17
法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2022103847438 申请日:20220413
实质审查的生效
技术领域
本发明涉及深度学习技术领域,具体涉及一种基于任务提示的小样本句型分类方法、系统、设备及介质。
背景技术
在过去几年中,由于深度学习以及数据量的不断扩大,使得自然语言处理成为了领域研究热点。文本分类作为自然语言处理中最基本、最必要的任务。它是用计算机对文本数据集按照一定的分类体系或标准进行自动分类标记。大部分模型通过一个已标注的训练文档集合,找到文档特征和文档类别之间的关系。然后利用这种学习得到的关系模型对新的文档中的文本进行类别判断。
作为一种较为基础的信息检索和挖掘技术,在许多方面都起着至关重要的作用。文本分类领域从基于知识的方法逐渐转变为基于统计和机器学习的方法。虽然一些层出不穷的机器学习模型反复刷新了大多数多分类任务的衡量指标,但是仍旧不能说明文本分类模型能否像人类一样去理解语义去对文本进行分类。随着对抗、噪声的出现,其分类结果的置信度很低。在文本分类任务中的句型分类任务是一个多分类的任务,在分类时也面临着与其他文本分类任务相同的挑战和难点。句型分类是一个中文多分类问题,属于SST-4(四分类)任务。
深度学习迅速发展,从模型效果来说,模型在中文分类任务中表现很好。但是在句型分类任务上还是用两年前甚至三年前的模型方法,效果与近年来提出的方法模型相差很大。从模型的对抗性来说,在小样本情况下,可以采用对抗训练去进一步提升方法模型在句型分类任务中的鲁棒性。从数据方面来说,因为目前的中文数据集本来就少,针对分类问题下的具体任务学者们所使用的数据集更是寥寥数个,所以也给研究带来了很大的困难。
因此,如何提供一种分类效果好的基于任务提示的小样本句型分类方法,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供了基于任务提示的小样本句型分类方法、系统、设备及介质,旨在解决现有技术针对小样本句型进行分类效果不佳的问题。
第一方面,本发明提供一种基于任务提示的小样本句型分类方法,其包括如下步骤:
对数据集进行分类,对分类后的数据集进行收集、清洗和标注,形成句型数据集;
在现有模型的基础上,对模型进行修改,得到修改后的模型;
利用句型数据集对修改后的模型进行训练,得到训练后的模型;
对训练后的模型进行效果验证,并将效果最好的模型作为最终模型,利用最终模型对输入的小样本句型进行分类。
第二方面,本发明提供一种实施上述分类方法的基于任务提示的小样本句型分类系统,其包括相互连接并通讯的如下模块::
构建数据集模块,用于对分类后的数据集进行收集、清洗和标注,形成句型数据集;
模型修改模块,用于在现有模型的基础上,对模型进行修改,得到修改后的模型;
模型训练模块,用于利用句型数据集对修改后的模型进行训练,得到训练后的模型;
效果比对模块,用于对训练后的模型进行效果验证,并将效果最好的模型作为最终模型,利用最终模型对输入的小样本句型进行分类。
第三方面,本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时,实现如第一方面中任一项所述的基于任务提示的小样本句型分类方法。
第四方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如第一方面中任一项所述的基于任务提示的小样本句型分类方法。
本发明提出的基于任务提示的小样本句型分类方法、系统、设备及介质,其有益效果包括:
1、使用了最新的深度学习方法,利用改进的PET模型BEK-PET来对方法在中文句型分类中进行评价,找出最优方法,分类效果更好。
2、本发明构建了中文句型数据集,提高了中文数据集的丰富度,以便于后来的研究。
附图说明
为了更清楚的说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见的,下面的描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于任务提示的小样本句型分类方法流程示意图;
图2为本发明实施例提供的一种模型框架结构及流程示意图;
图3为本发明实施例提供的修改后的模型训练的参数设置图;
图4为本发明实施例提供的D
图5为本发明实施例提供的D
图6为本发明实施例提供的D
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
参见图1实施例所示基于任务提示的小样本句型分类方法流程图,包括:
S101、对数据集进行分类,对分类后的数据集进行收集、清洗和标注,形成句型数据集;
在一实施例中,对数据集进行分类,包括:
根据数据集的类型,将数据集划分为陈述句、疑问句、感叹句和祈使句。
由于目前尚未有公开的关于中文句型的分类数据集,所以本发明先确定了规则并选取了各类数据集中的数据条目,比如这些数据不能太长,否则会被截断等等。
在一实施例中,对分类后的数据集进行收集,具体包括:
在疑问句式中,选用QA问答的数据集,分别在保险知道、电信知道等等数据集中共选择了1000条数据。在SMP2020微博情绪分类测评的数据集中,选择了2900句数据。在现代汉语语料库中提取祈使句。以上数据集中,共提取5000条数据。
在一实施例中,对分类后的数据集进行清洗,具体包括:
对分类后的数据集使用Python语言进行清洗,去除数据中的enjoy表情、纯数字、乱码等等。然后将其中部分数据进行截断,确保句子不会太长,产生同一句中有多种类型。将处理过后的数据集按标注方便的顺序放入Excel表格,并制作问卷等待标注。
在一实施例中,对分类后的数据集进行标注,具体包括:
在进行数据标注的过程中,将这类问卷分给进行数据标注的人员来做。在SMP2020微博情绪分类测评的数据集中分别标记了1974条陈述句、210条疑问句、673条感叹句、43句祈使句。在现代汉语语料库中,利用关键词和人工判别的方式提取祈使句,共提取679句。
在一实施例中,形成句型数据集,还包括:
在形成句型数据集的过程中,使用了Python将数据库中的内容和标签提取出,将数据的格式转换为json格式,以便后续模型训练过程中提取数据的特征。
本发明构建了中文句型数据集,提高了中文数据集的丰富度,以便于后来的研究。
S102、在现有模型的基础上,对模型进行修改,得到修改后的模型;
参见图2实施例所示的一种模型框架图;
在PET(Pattern Exploiting Training,模板挖掘训练)的基础上,加入微调模型M
(1)使用有标签的数据集D
(2)提取训练集中打乱后的2000条去掉标签的数据,设为未标注数据集Unlabel数据集D
(3)根据数据集设计人工模板,选择较为通用的模板来执行PET(PatternExploiting Training,模式挖掘训练)模型中的Prompt方法,比如:“句型:[Mask],text_a、text_b”等;
(4)将句型数据集打乱后按3:2的比例分割为训练集和测试集,其中训练集按不同比例分割为使用Prompt方法对预训练语言模型进行微调的数据集D
(5)利用第(4)步中训练好的预训练语言模型重新标注数据,提取多个模型标注数据的多份logits值;
(6)更改PET模型融合多个预训练语言模型标记软标签数据集的步骤,按照权重融合第(5)步中标注出的多份logits值和第(2)步中的logits-M
(7)使用软标签数据集直接微调下游预训练语言模型分类器C,其中预训练语言模型选择和M
S103、对修改后的模型进行训练,得到训练后的模型;
模型训练步骤的关键是对于实验的设置,PET融合和区别Fine-Tuning的知识通过结果可以展现出来。目前融合Fine-Tuning的方法主要有三种:
(1)D
目的:寻找在相同数据集下的最适合融合的数据集大小,证明PET和Fine-Tuning能够学习不同的知识。
实验方法:设置多组数据,假设Fine-Tuning使用数据集为D
(2)D
目的:寻找在不等量且成倍数的数据集下的最适合融合的数据集大小,证明PET和Fine-Tuning能够学习不同的知识。
实验方法:控制倍数,设置倍数t为D
(3)D
目的:寻找在不等量且成倍数的数据集下的最适合融合的数据集大小,证明PET和Fine-Tuning能够学习不同的知识。
实验方法:控制倍数,设置倍数t为D
在进行实验设置后,本实验选择Roberta-large模型作为PET模型中微调的预训练语言模型,其中PET模型参数中adam_epsilon表示Adam优化器;gradient_accumulation_steps表示在PET中执行向后/更新传递之前要累积的更新步骤数;learning_rate表示学习率,本实验中通过在{1e-5,2e-5,3e-5,5e-5}中进行实验,发现学习率为1e-5时效果最佳;max_seq_length表示序列最大长度,本实验序列最大长度为256,过长则自动截断;max_steps表示总训练最大步数;weight_decay表示权重衰减参数,其中,参数的设置如图3所示。
S104、对训练后的模型进行效果验证,并将效果最好的模型作为最终模型,利用最终模型对输入的小样本句型进行分类。
参见图4实施例所示的D
在控制等量且数据集相同的情况下,Fine-Tuning的预训练语言模型比PET的效果更好一点,所以可以说Fine-Tuning的预训练语言比PET能够学习到更多的知识。在BEK-PET中,将两者融合起来,在控制等量且数据集相同的情况下,BEK-PET的模型能够比PET效果更好,甚至在D
参见图5实施例所示的D
在控制不等量且数据集满足D
参见图6实施例所示的D
在控制不等量且数据集满足D
本发明使用了最新的深度学习方法,利用改进的PET模型BEK-PET来对方法在中文句型分类中进行评价,找出最优方法,分类效果更好。
在一实施例中,本发明还提供了一种实施前述分类方法的基于任务提示的小样本句型分类系统,其包括相互连接并通讯的如下模块:
构建的数据集模块,用于对数据集进行分类,对分类后的数据集进行收集、清洗和标注,形成最终数据集;
模型修改模块,用于在现有模型的基础上,对模型进行修改,得到修改后的模型;
模型训练模块,用于对修改后的模型进行训练,得到训练后的模型;
效果比对模块,用于对训练后的模型进行效果验证,并将效果最好的模型作为最终模型,利用最终模型对输入的小样本句型进行分类。
在一实施例中,本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时,实现如第一方面中任一项所述的基于任务提示的小样本句型分类方法、系统、设备及介质。
在一实施例中,本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如第一方面中任一项所述的基于任务提示的小样本句型分类方法、系统、设备及介质。
本发明重点是使用新的深度学习方法,利用改进的PET模型BEK-PET来对方法在中文句型分类中进行评价,找出最优方法,提升了分类模型的鲁棒性。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
机译: 基于声音的自动任务分类方法,自动呼叫分类方法和自动任务分类系统
机译: 一种基于语音的任务自动分类,这种方法的自动分类和任务自动化分类系统
机译: 基于形态分析的韩国句型自动分类方法及系统