公开/公告号CN113011154A
专利类型发明专利
公开/公告日2021-06-22
原文格式PDF
申请/专利号CN202110279211.3
申请日2021-03-16
分类号G06F40/194(20200101);G06F16/33(20190101);G06F16/338(20190101);G06F40/263(20200101);G06F40/268(20200101);G06F40/216(20200101);G06F40/284(20200101);G06F40/30(20200101);G06F16/35(20190101);G06N3/04(20060101);G06Q50/20(20120101);
代理机构44245 广州市华学知识产权代理有限公司;
代理人冯炳辉
地址 510640 广东省广州市天河区五山路381号
入库时间 2023-06-19 11:32:36
技术领域
本发明涉及学生作业查重的技术领域,尤其是指一种基于深度学习的作业查重方法。
背景技术
在高校的在线辅助教学中,电子文档成为了学生作业提交的主要形式之一。随着人们对学术道德的重视,如何协助教师找出学生提交的作业中抄袭内容,成为一个研究的热点。
目前抄袭检测系统有很多,例如国内的中国知网(CNKI)学术不端文献检测系统,国外的Turnitin、PlagScan、Dupli Checker等系统。这些系统能够协助教师找出学生提交作业中抄袭的部分,但是由于这些系统以互联网作为抄袭源,所以很难发现学生本地作业之间存在的抄袭关系。目前人们研究和投入使用的抄袭检测方法有很多,最流行的是基于词法的抄袭检测方法。基于词法的抄袭检测方法主要考虑文本中的词汇特征,例如早期投入使用较多的基于指纹特征提取的方法。基于指纹特征提取的方法将文档表示为一个指纹序列,根据指纹序列来计算文档之间的相似度。基于词法的抄袭检测方法适合用于简单的复制粘贴,但当抄袭者对文本有释义替换等躲避检测的行为时,这类方法效果不显著。也有研究者使用基于语法的抄袭检测方法(例如词性标注)、基于语义的抄袭方法(例如显示语义分析、潜在语义分析)和基于机器学习的抄袭检测方法(例如支持向量机、线性回归模型)等。
随着深度学习在计算机领域的广泛应用,许多研究者使用深度学习来实现抄袭检测,并且取得一些较好的成果。抄袭检测技术的重点之一是文本相似度计算,在文本相似度计算中利用深度学习技术可以很好的发现文本释义替换、同义词替换等情况,所以在抄袭检测任务中,利用深度学习相关技术,可以不仅可以发现字面抄袭,也能发现语义抄袭。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习的作业查重方法,可以准确找出作业语义相似的文本内容,解决许多抄袭检测方法抗干扰效果差的问题。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的作业查重方法,包括以下步骤:
1)获取学生课程作业数据及作业模板文件;
2)判断作业模板格式,对获取到的作业进行切题处理,判断作业中的题目是主观题还是客观题;
3)对切题后的作业中的主观题答案进行文本预处理;
4)计算学生作业之间的相似度;
5)分析相似度计算结果,将相似度高的学生作业聚一类,生成相似度报告;
6)对相似作业之间的相似内容进行标记,完成作业查重。
在步骤1)中,所述学生课程作业数据是指从在线学习平台的课程中获取的学生作业;所述作业模板文件是指在线学习平台上,担任课程的教师或者助教在课程中提交的作业作答格式的文件。
在步骤2)中,判断作业模板格式,对获取到的作业进行切题处理,判断作业中的题目是主观题还是客观题,具体情况如下:
判断作业模板格式:系统中为教师提供多种作业模板格式,利用正则表达式判断获取到的作业模板属于哪一种模板格式;
对获取到的作业进行切题处理:判断作业模板格式后,利用该模板格式对应的正则表达式对学生作业进行切题,并且返回作业切题结果;
判断作业中的题目是主观题还是客观题:根据学生答案内容进行主观题和客观题的判断,判断规则为:a、如果答案前面存在“答:”,则代表该题为主观题;b、答案内容长度小于20的题目为客观题;c、利用以上条件都无法判断的题目均为主观题。
在步骤3)中,对切题后的作业中的主观题答案进行文本预处理,具体情况如下:
a、中英文判断:利用词性分析器对文本进行切词并且判断每个词的词性,统计中文词的数量和英文词的数量,对答案内容进行中英文所占比例计算,取比例大的作为作业所属的语言;
b、根据不同的语言进行不同的预处理流程:中文预处理流程为:句子切分、切词和去停用词,英文预处理流程为:句子切分、切词、词还原、大小写统一和去符号。
在步骤4)中,计算每一份作业与其它作业之间的相似度,作业集合为A(A
4.1)句子筛选:丢弃句子里词数量小于3和句子词数量大于20的句子以及和其它重复的句子,再对每个句子进行标记,表示句子来源于哪个作业文本;
4.2)句子预匹配:利用一种基于字符串快速匹配的方法,筛选出两份作业中可能相似的句子对,筛选的步骤是:
4.2.1)以句子中的单个词作为键值,将含有相同键值的句子匹配到一个簇里;对于句子S
4.2.2)给定阈值,输出每个阈值里相似度大于阈值的句子对;集合U(w
4.3)调用卷积神经网络模型对大于阈值的句子进行语义相似匹配;对于相似度大于阈值的句子对P
4.3.1)利用训练好的word2vec模型,将句子对P
4.3.2)将词嵌入矩阵作为卷积神经网络模型的输入,卷积神经网络模型由两层卷积层、一层最大池化层和三层全连接层组成,利用语义相似数据集训练得到;利用神经网络得出句子对之间的语义相似度,返回相似度大于阈值的句子对;
4.3.3)统计相似句子对中来自于作业A
s
业A
在步骤5)中,对于作业对(A
在步骤6)中,在找出作业中与另一份作业中相似的句子集合后,在作业中定位到这些句子,并且利用pdf高亮工具对这些句子进行高亮标记。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法基于深度学习(即卷积神经网络模型),解决了重干扰情况不能找出相似内容的问题,将本发明提出的方法应用到现有的抄袭检测系统中,能有效提高教师对学生作业查重效率。
2、利用句子筛选和快速匹配方法,筛选掉过长过短的句子,快速匹配可能相似的句子对,解决了抄袭检测时间过长的问题。
附图说明
图1为本发明逻辑流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于深度学习的作业查重方法,包括以下步骤:
1)获取学生课程作业数据及作业模板文件,并且读取文件内容;其中,学生课程作业数据是指从在线学习平台的课程中获取的学生作业;作业模板文件是指在线学习平台上,担任课程的教师或者助教在课程中提交的作业作答格式的文件。
2)判断作业模板格式,对获取到的作业进行切题处理,判断作业中的题目是主观题还是客观题,具体情况如下:
判断作业模板格式:系统中为教师提供多种作业模板格式,利用正则表达式判断获取到的作业模板属于哪一种模板格式;
对获取到的作业进行切题处理:判断作业模板格式后,利用该模板格式对应的正则表达式对学生作业进行切题,并且返回作业切题结果;
判断作业中的题目是主观题还是客观题:根据学生答案内容进行主观题和客观题的判断,判断规则为:a、如果答案前面存在“答:”,则代表该题为主观题;b、答案内容长度小于20的题目为客观题;c、利用以上条件都无法判断的题目均为主观题。
3)对切题后的作业中的主观题答案进行文本预处理,具体情况如下:
a、中英文判断:利用词性分析器对文本进行切词并且判断每个词的词性,统计中文词的数量和英文词的数量,对答案内容进行中英文所占比例计算,取比例大的作为作业所属的语言;
b、根据不同的语言进行不同的预处理流程:中文预处理流程为:句子切分、切词、去停用词等,英文预处理流程为:句子切分、切词、词还原、大小写统一、去符号等。
4)计算学生作业之间的相似度:计算每一份作业与其它作业之间的相似度,作业集合为A(A
4.1)句子筛选:丢弃过短(句子里词数量小于3)和过长(句子词数量大于20)的句子以及和其它重复的句子,再对每个句子进行标记,表示句子来源于哪个作业文本;
4.2)句子预匹配:利用一种基于字符串快速匹配的方法,筛选出两份作业中可能相似的句子对,筛选的步骤是:
4.2.1)以句子中的单个词作为键值,将含有相同键值的句子匹配到一个簇里;对于句子S
4.2.2)给定阈值,输出每个阈值里相似度大于阈值的句子对;集合U(w
4.3)调用卷积神经网络模型对大于阈值的句子进行语义相似匹配;对于相似度大于阈值的句子对P
4.3.1)利用训练好的word2vec模型,将句子对P
4.3.2)将词嵌入矩阵作为卷积神经网络模型的输入,卷积神经网络模型由两层卷积层、一层最大池化层和三层全连接层组成,利用语义相似数据集训练得到;利用神经网络得出句子对之间的语义相似度,返回相似度大于阈值的句子对;
4.3.3)统计相似句子对中来自于作业A
5)分析相似度计算结果,将相似度高的学生作业聚一类,生成相似度报告,具体操作是:对于作业对(A
6)对相似作业之间的相似内容进行标记,完成作业查重,具体操作是:在找出作业中与另一份作业中相似的句子集合后,在作业中定位到这些句子,并且利用pdf高亮工具对这些句子进行高亮标记,方便教师查看相似内容情况。
根据学生作业间的相似度计算结果,教师可以看到哪些作业间存在抄袭嫌疑,根据相似文本标记结果,可以看到哪些文本相似。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 组合物,基于所述组合物的干重,其包含10至70重量%的一种或多种水硬性粘合剂和20至85重量%的一种或多种填料,硬化产品,组合物的用途和0的用途。基于水硬性粘结剂的量,以重量计,一种或多种填料中的至少一种萜类醇为05至5%(重量)
机译: 基于作业能力管理课程的装置和方法,该竞争力与基于本体和深度学习的社会需求相对应
机译: 基于作业能力管理课程的装置和方法,该竞争力与基于本体和深度学习的社会需求相对应