公开/公告号CN115630140A
专利类型发明专利
公开/公告日2023-01-20
原文格式PDF
申请/专利权人 云南师范大学;
申请/专利号CN202211364247.2
申请日2022-11-02
分类号G06F16/33(2019.01);G06F40/126(2020.01);G06F40/253(2020.01);G06F40/30(2020.01);G06N3/0442(2023.01);G06N3/08(2023.01);
代理机构昆明明润知识产权代理事务所(普通合伙) 53215;
代理人王鹏飞
地址 650504 云南省昆明市呈贡区聚贤街768号
入库时间 2023-06-19 18:22:39
法律状态公告日
法律状态信息
法律状态
2023-02-14
实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022113642472 申请日:20221102
实质审查的生效
2023-01-20
公开
发明专利申请公布
技术领域
本发明涉及一种基于文本特征融合的英语阅读材料难度判断的方法,属于自然语言处理技术领域。
背景技术
英语作为被广泛学习的第二语言,阅读又作为英语学习中重要的组成部分,如何对英语阅读材料的难度进行准确的判断,使具有不同英语水平的人可以接受适合其自身英语水平的教育,进一步促进个性化学习显得尤为重要。
20世纪初期出现了有关测定英语阅读材料难易程度的研究,直到现在针对英语阅读材料难度判断的研究都是国内外相关研究者所关注的核心问题。因此,众多研究者针对影响英语阅读材料难易程度的因素进行了大量研究,总结出很多影响因素,产生了很多计算英语阅读材料难易程度的公式,这些公式长久以来,一直在帮助人们选择合适的英文文本。但是随着信息化的不断发展,所产生的文本愈发复杂,而通过制定规则的方法通常较为简单,不具备良好的泛化能力,因此无法取得良好的效果。
随着语言模型的不断发展,2018年10月谷歌提出了BERT(Bidirectional EncoderRepresentation from Transformers)模型,使得自然语言处理领域的发展进入了新的阶段。BERT是一种预训练的语言模型,它不像传统的语言模型一样只采用单向的语言模型或者是将两个单向语言模型进行浅层拼接的方式进行训练,而是采用MLM(masked languagemodel)对双向的Transformers进行与训练,生成深层的双向语言表征,并在11种不同的自然语言处理(Natural Language Processing,NLP)测试中表现优异。许多学者结合BERT进行自然语言处理领域中的其他任务都取得了较好的效果,这种将已经训练好的模型迁移到新的模型中进行训练的方式叫做迁移学习(Transfer learning)。考虑到大部分的任务具有一定的相关性,所以将已经学习到的参数通过某种方式传递给新模型,可以大大加快模型的效率。Fine-tuning作为迁移学习的其中一种方法,通过冻结预训练模型中的卷积层,训练其他的卷积层和全连接层,可以进一步提高模型的学习时间、降低了模型训练的成本。
发明内容
本发明要解决的技术问题是提供一种基于文本特征融合的英语阅读材料难度判断的方法,用于提高英语阅读材料难度判断的准确率和效率。
本发明通过总结语言学家在影响英语阅读材料难度因素的观点,并考虑到预训练语言模型在自然语言处理任务中的优势,提出了一种基于文本特征融合的英语阅读材料难度判断的方法,将多种文本特征进行融合,利用深度学习技术对英语阅读材料进行难度判断。
本发明的技术方案是:一种基于文本特征融合的英语阅读材料难度判断的方法,首先针对英语阅读材料数据集,对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量;然后对输入的文本进行词性标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量;对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层,最后经过sigmoid层输出得到一个0到1的数值表示难度。
所述英语阅读难度的判断具体步骤如下:
Step1:使用预训练语言模型提取文本的语义特征。
首先针对英语阅读材料数据集(使用Newsela数据集及自行采集的数据集进行实验),对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量。
具体过程为首先提取句子中的词、句位置以及词位置等信息进行One-hot编码,输入预训练语言模型,获取语义特征向量,本发明的预训练模型选择Bert模型。
Step2:语法信息特征提取。
对文本进行词性标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量。
Step3:统计信息特征提取。
对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层,最后经过sigmoid层输出得到一个0到1的数值表示难度。
Step4:难度预测。
经过sigmoid层输出得到一个0到1的数值表示难度。
所述Step1具体为:
Step1.1:假设当前输入的英文文本为S
Bert模型通常在句首添加[CLS]用以表示一个段落的开始,在两个句子的中间添加[SEP]用于分隔句子。
转化后的句子为S
Step1.2:将S
S
若S
S
Step1.3:对S
其中,
Step1.4:对S
S
其中,E
Step1.5:对S
S
其中,E
Step1.6:将S
Step1.7:选取句向量有多种方案,如:1)取X
所述Step2具体为:
Step2.1:对于输入的文本S
S
Step2.2:对S
S
其中,[SPACE]表示[CLS]和[SEP],[PRP]表示代词,[VBP]表示动词,[NNP]表示名词,[RB]表示程度副词,[JJ]表示形容词。
Step2.3:对S
其中,D
Step2.4:将E
Step2中,主要计算句子的语法特征,语法与词汇是英文文本难度区分的关键,因此需考虑语法的复杂性。本发明将句子的词性序列作为输入,使用LSTM学习序列的特征,从而实现语法的向量化表示并输入神经网络进行后续步骤的计算。在现有的方法中,语法信息主要通过统计关键词个数,统计关键词共现的方法得出,这种方法并不能完全表示该序列信息,因此该发明中使用LSTM可以更好地学习到语法特征。
所述Step3具体为:
由于影响英语阅读材料难度程度的因素除了语义和语法之外,还需考虑句子长度、介词数量、平均单词长度等作为影响因素,则将这些因素进行统计并编码后输入模型。加入上述信息后,模型训练时收敛更快,同时使得模型的鲁棒性进一步提升。
具体步骤如下:
Step3.1:对句子长度进行统计并进行嵌入操作:对于句子S
其中,L表示该向量为句子长度的嵌入,n代表单词数量,D代表嵌入维度。
Step3.2:对介词数量进行统计并进行嵌入操作:对于句子S
其中,P代表该向量为介词数量的嵌入,*代表具体数量,D代表嵌入维度。
Step3.3:对平均单词长度进行统计并进行嵌入操:对于句子S
其中,A代表该向量为平均单词长度的嵌入,*代表具体数量,D代表嵌入维度。
Step3.4:将
其中,
所述Step4具体为:
Step4.1:将语义特征X
Step4.2:计算损失:
其中,y
Step4.3:使用Adam对损失进行优化,目的是使损失达到最小,当损失达到最小时,模型到达最好效果。
该部分将上述三种特征进行拼接后输入神经网络,使用sigmoid函数将输出限制在[0,1]之间,从而实现难易判断。
本发明的有益效果是:本发明在进行英文文本难易判断时,将文本的语义信息,语法信息,统计信息等特征综合考虑,与传统方法相比,本发明考虑了英文文本语义信息的重要性,使用LSTM学习文本的语法信息,同时使将传统的统计信息也输入神经网络进行计算。从而得到比传统方法效果更佳、鲁棒性更强的难易判断模型。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于文本特征融合的英语阅读材料难度判断的方法,首先针对英语阅读材料数据集,对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量;然后对英文文本进行词性标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量;对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层,最后经过sigmoid层输出得到一个0到1的数值表示难度。
假设现有英语阅读材料的集合A,集合中有N条英文阅读材料的数据,则A={S
Step1:本发明的预训练模型选择Bert模型,预训练语言模型部分主要用于学习文本的语义信息,输入预训练语言模型需要三种特征,分别是每个词的特征、句位置特征以及词位置特征,将三种特征进行提取。
Step2:语法特征提取。
Step3:统计信息特征提取。
Step4:难度预测。
所述Step1具体为:
Step1.1:假设当前输入的英文文本为S
Bert模型通常在句首添加[CLS]用以表示一个段落的开始,在两个句子的中间添加[SEP]用于分隔句子。
转化后的句子为S
Step1.2:将S
若S
Step1.3:对S
其中
Step1.4:对S
S
其中E
Step1.5:对S
S
其中E
Step1.6:将S
Step1.7:选取句向量有多种方案,如:1)取X
所述Step2具体为:
Step2.1:对于输入的文本S
S
Step2.2:对S
S
其中,[SPACE]表示[CLS]和[SEP],[PRP]表示代词,[VBP]表示动词,[NNP]表示名词,[RB]表示程度副词,[JJ]表示形容词。
Step2.3:对S
其中,D
Step2.4:将E
所述Step3具体为:
由于影响英语阅读材料难度程度的因素除了语义和语法之外,还需考虑句子长度、介词数量、平均单词长度等作为影响因素,则将这些因素进行统计并编码后输入模型,具体步骤如下:
Step3.1:对句子长度进行统计并进行嵌入操作:对于句子S
其中,L表示该向量为句子长度的嵌入,n代表单词数量,D代表嵌入维度。
Step3.2:对介词数量进行统计并进行嵌入操作:对于句子S
其中,P代表该向量为介词数量的嵌入,*代表具体数量,D代表嵌入维度。
Step3.3:对平均单词长度进行统计并进行嵌入操:对于句子S
其中,A代表该向量为平均单词长度的嵌入,*代表具体数量,D代表嵌入维度。
Step3.4:将
其中,
所述Step4具体为:
Step4.1:将语义特征X
Step4.2:计算损失:
其中,y
Step4.3:使用Adam对损失进行优化,目的是使损失达到最小,当损失达到最小时,模型到达最好效果。
本实施例选取两个带有难易程度标记的英语阅读材料数据集CEFR和Newsela,以及一个本发明手工构建的数据集CEED。其中,CEFR和CEED为公开的分级英语阅读文本数据集,Newsela数据集为非公开的分级英语阅读文本数据集(可以在Newsela网站进行申请)。对三个数据集进行基本数据统计,统计结果如表1所示。其中Num表示数据集中所含文本的数量,Class表示等级类别数量。
表1数据集基本信息
(1)CEFR由1493个英文文本组成,这些文本按照欧洲共同参考框架(CEFR)级别A1,A2,B1,B2,C1,C2进行难度标注,难度从A1到C2依次递增。数据集中的英文文本取自在线免费资源,包括英国文化协会、ESLFast和CNN每日邮报数据集。英文文本的内容包含对话、描述、短篇故事、报纸故事和其他文章。
(2)CEED从中考、高考、四级、六级、专四、专八等英语考试的469篇阅读真题中收集而成,难度分类如下:中考难度记为Z,高考难度记为G,四级难度记为S,六级难度记为L,专四难度记为E,专八难度记为B。难度从中考到专八依次递增。
(3)Newsela由10722个英文文本组成,按照美国K12教育的标准进行难度划分用数字2到12对每个英文文本进行难度标注,难度从2到12依次递增。
本发明将数据集中的英文文本进行整理,整理过程如下:第一步,将每篇英文文本按段落进行读取;第二步,标注每个段落对应的难度等级;第三步,给每个段落打上难度标签,第四步,计算每个段落所包含的单词数、介词数、平均单词程度,最终整理成csv文件。整理后的数据集分别所含的段落数如下:CEFR中包含12096个段落,Newsela中包含227971个段落,CEED中包含3381个段落。
为在后续实验中更好的获取难度系数,对提取好的段落添加对应的难易标签。在CEFR数据集中,将A1、A2、B1、B2的难度标签设为0,C1、C2的难度标签设为1。在Newsela数据集中,将等级大于等于6的难度标签设为1,小于6的难度标签设为0。在CEED数据集中,因为分类存在相似性,本发明将数据集分为三个子集,将中考和高考的数据分为一个子集,简称CEED-EE;将四级和六级的数据分为一个子集,简称CEED-CET;将专四和专八的数据分为一个子集,简称CEED-TEM。其中将中考、四级、专四的难度标签设为0,高考、六级、专八的难度标签设为1。整理后的各数据集中所含的正负样本数量如表2所示。
表2:正负样本数量
本发明选取了近几年经典的面向Fill-mask任务的预训练语言模型,例如Bert,Bart,xlnet,roberta,xlm-roberta,进行测试,并与CNN、LSTM、BiLSTM进行对比。在参数设置上,使用pytorch 1.10版本,使用NVIDIA GeForce RTX 2080Ti GPU。预训练模型均从Huggingface获取。超参数的选取如下:Batchsize取{16,32,64},学习率取{1e-3,1e-4,1e-5},词嵌入维度取768。将不同的模型在不同的数据集上进行实验,实验结果如下:
表3:在CEFR和Newsela中不同模型的实验结果
从表3可以看出,在两个数据集中,本发明的方法(当使用BERT作为预训练语言模型时)在三个指标AUC,ACC,RMSE和两个数据集中结果都是最优的。在CEFR数据集中,在AUC、ACC、RMS指标上,本发明的方法都高于第二名,在AUC上提高了5.81%,ACC提高了7.02%,RMSE下降了5.14%。在Newsela数据集中,在AUC、ACC、RMS指标上,本发明的方法也都高于第二名,在AUC上提高了1.63%,ACC提高了1.04%,RMSE降低了1.15%。当数据集较小时(CEFR数据集),预训练语言模型仅需要较少的数据便可以表现的更好。
表4:在CEFR和Newsela中不同预训练语言模型的结果
如表4所示,本发明比较了不同预训练语言模型的效果,这些预训练语言模型分别针对不同的任务改进和增强了BERT。从结果来看,BERT模型在CEFR数据集中能够取得最优的结果,在AUC、ACC、RMS指标上,BERT模型均高于第二名,在AUC上提高了0.35%,ACC提高了0.24%,RMSE降低了0.92%。XLNet模型可以在Newsela数据集上取得最优的结果,与BERT相比,在AUC上提高了0.37%,ACC上提高了0.58%,RMSE上降低了0.60%。然而,这些预训练模型的整体差距并不大,但结果都优于CNN和LSTM。
表5:在CEED中不同模型的实验结果
从表5可以看出,在两个数据集中,本发明的方法(当使用BERT作为预训练语言模型时)在三个指标AUC,ACC,RMSE和三个个数据集中结果都是最优的。在CEED-EE数据集中,在AUC、ACC、RMS指标上,本发明的方法都高于第二名,在AUC上提高了8.20%,ACC提高了4.71%,RMSE下降了7.05%。在CEED-CET数据集中,在AUC、ACC、RMS指标上,本发明的方法也都高于第二名,在AUC上提高了5.32%,ACC提高了3.77%,RMSE降低了1.95%。在CEED-TEM数据集上,在AUC、ACC指标上相较于第二名分别提高了9.09%和12.5%,在REMSE指标上下降了8.51%。
表6:在CEED中不同预训练语言模型的结果
如表6所示,本发明在CEED数据集中也比较了不同预训练语言模型的效果。从总体来看,RoBERTa在CEED的三个子集中均能取得较好的结果。在CEED-EE数据集中与BERT相比,在AUC上提高了5.06%,ACC提高了8.49%,RMSE降低了13.1%。在CEED-CET数据集中与BERT相比,在AUC上提高了3.99%,ACC提高了11.32%,RMSE降低了11.20%。在CEED-TEM数据集中与BERT相比,在AUC上提高了3.17%,ACC提高了3.12%,RMSE降低了4.35%。从整体上来看,这些预训练语言模型在三个指标上均优于CNN和LSTM。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
机译: 教给患有阅读障碍和其他神经功能障碍的个人的阅读和数学技能的方法和装置,包括磷酸,形状数学,概念验证词,互联网参考表,英语,英语,英语,英语,英语,英语,英语,英语,英语,英语和英语
机译: 代码映射是指在纸上以视觉方式“映射”音素(英语语音)的技术,其中字母或字母字符串代表每个单独的音素。文本使用两种颜色显示此“代码映射”技术,第三种用于分割元音二合字母。这些显示了“阅读器”,语音在解码时会发生变化。众所周知,诵读困难的学习者很难以这种方式对单词进行口头分割,因为他们通常音素意识较差。因此,使用这种技术键入或书写文本是非常有益的。
机译: 精确的阅读判断装置,精确的阅读判断方法和精确的阅读判断程序