公开/公告号CN112287925A
专利类型发明专利
公开/公告日2021-01-29
原文格式PDF
申请/专利权人 南京数件技术研究院有限公司;
申请/专利号CN202011119677.9
发明设计人 张振;
申请日2020-10-19
分类号G06K9/22(20060101);G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06F40/289(20200101);
代理机构32431 南京司南专利代理事务所(普通合伙);
代理人于淼
地址 210000 江苏省南京市栖霞区仙林街道元化路8号南大科学园51幢6层
入库时间 2023-06-19 09:43:16
技术领域
本发明涉及一种基于实时轨迹采集的数学判题引擎技术领域,尤其涉及一种基于实时轨迹采集的数学判题系统。
背景技术
随着大数据、“互联网+”、人工智能等技术的成熟发展以及有关教育信息化等相关政策的密集出台,掀起了教育信息化热潮;越来越多的互联网教育产品利用计算机技术实现线上训练及判题操作;据市场调查,市面上现存有95%的线上教育产品判题操作仅支持客观题(包含选择题、填空题、判断题)阅卷,主观题因其多种解法并存、符号文字参杂、公式分布广泛、文本长短不一,尤其是数学科目公式表达多样化造成智能判题困难。
市面上现存一种教学过程中学生答题信息实时采集、高效智能批改系统,系统内置高效智能批改模块能对客观题自动批改,并把批改结果传送至教师客户端;但是对于主观题,系统只能进行预处理,大部分的主观题还是只能发送给教师客户端,由教师批改;在中小学阶段教学中,主观题在平时训练及考试内容中占比接近50%,因此现存技术并未从根本上解决教师用户过于繁重的作业批改负担;
此外另有一种对主观题批改的解决方案是用高速扫描仪扫描学生的试卷、作业,再用光学字符识别软件(OCR软件)把答案数字化、字符化,然后运用人工智能或手工批改,常用于考试试卷批改过程中,但这种方法缺乏实时性。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于实时轨迹采集的数学判题系统。
为了实现上述目的,本发明采用了如下技术方案:
一种基于实时轨迹采集的数学判题系统,包括实时书写轨迹采集解决方案、轨迹识别模型建立解决方案、特殊字符轨迹-文本转换解决方案、线性化规则制定、基于双向长短时记忆神经网络(Bi-LSTM)算法的搭建及改进和相似度线性融合解决方案。
优选地,所述实时书写轨迹采集解决方案通过在印刷了技术点阵图案的纸张上进行书写,数码笔前端的高速摄像头随时捕捉笔尖的运动轨迹,同时压力传感器将压力数据传回数据处理器,最终将信息通过蓝牙向外传输。这些信息包括页码、位置、笔迹坐标、运动轨迹、笔尖压力、运笔时间等信息。
优选地,所述轨迹识别模型建立解决方案通过人工智能机器学习对坐标数据进行训练、识别,并在训练过程中建立文字关系以及语料库,利用机器学习算法建立轨迹模型。
优选地,所述特殊字符轨迹-文本转换解决方案通过已建立的轨迹模型与语料库进行模糊匹配将轨迹以更高的精确度转化成文本。
优选地,所述线性化规则制定为了方便后续的文本处理,对于学生答案和教师答案都需要制定规则,去掉其二维的特性,使其线性化又保证没有歧义,线性化规则中,对于数学符号,尽量使用文字表示,同时结合Latex的某些规则建立系统专属的线性化规则表。
优选地,所述多种解法选择方案采用一元文法(uni-gram)+分词方法将学生答案和不同标准答案的关键短语做模糊匹配,选择匹配最佳的解法作为该学生答案唯一的参考答案。
优选地,所述基于双向长短时记忆神经网络(Bi-LSTM)算法的搭建及改进是由前向LSTM与后向LSTM组合而成,在自然语言处理任务中都常被用来建模上下文信息;
将人工评分标准中的关键短语与Bi-LSTM(双向长短时记忆神经网络方法)相结合来计算学生答案和教师答案之间的相似度,既考虑了人工阅卷的标准,又利用深度学习来捕获隐含的语义信息,通过Bi-LSTM对文本进行字符级编码,设计目标函数,完成题目(主观题)的自动阅卷。
优选地,所述相似度线性融合解决方案在评分过程实际上是对考生答案和教师答案进行相似度计算的过程;将人工评分标准中的关键短语与Bi-LSTM(双向长短时记忆神经网络方法)相似度进行加权融合算出最终评分。
相比现有技术,本发明的有益效果为:
1、本发明利用计算机技术实现主客观题自动阅卷,可以辅助教师快速而客观地给出得分,从而提高教学效率。并且对于大批量考试阅卷工作而言,该方法已经大大减少了人工的工作量,因此在辅助人工阅卷上具有较好的应用价值。
2、本发明将实时点阵轨迹采集与自动智能判题策略相结合,不仅能轻松解决客观题判题,而且将通过结合多策略相似度方案达到主观题智能判题,对于使用用户(各中小学教师)而言,解决了以往教学过程中诸多不便之处:减轻教师繁琐重复的批改作业流程,以中小学学校教学为例,据调查,中小学学生作业、考试过程中主观题占比达到50%左右,应用本发明后,教师可从重复的批改作业流程中解脱出来。
附图说明
图1为本发明提出的一种基于实时轨迹采集的数学判题系统中基于双向长短时记忆神经网络算法的搭建及改进流程原理示意图;
图2为本发明提出的一种基于实时轨迹采集的数学判题系统中不乏线性化规则图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
一种基于实时轨迹采集的数学判题系统,包括实时书写轨迹采集解决方案、轨迹识别模型建立解决方案、特殊字符轨迹-文本转换解决方案、线性化规则制定、基于双向长短时记忆神经网络(Bi-LSTM)算法的搭建及改进和相似度线性融合解决方案。
所述实时书写轨迹采集解决方案通过在印刷了技术点阵图案的纸张上进行书写,数码笔前端的高速摄像头随时捕捉笔尖的运动轨迹,同时压力传感器将压力数据传回数据处理器,最终将信息通过蓝牙向外传输。这些信息包括页码、位置、笔迹坐标、运动轨迹、笔尖压力、运笔时间等信息。
所述轨迹识别模型建立解决方案通过人工智能机器学习对坐标数据进行训练、识别,并在训练过程中建立文字关系以及语料库,利用机器学习算法建立轨迹模型。
所述特殊字符轨迹-文本转换解决方案通过已建立的轨迹模型与语料库进行模糊匹配将轨迹以更高的精确度转化成文本。
所述线性化规则制定为了方便后续的文本处理,对于学生答案和教师答案都需要制定规则,去掉其二维的特性,使其线性化又保证没有歧义,线性化规则中,对于数学符号,尽量使用文字表示,同时结合Latex的某些规则建立系统专属的线性化规则表。
所述多种解法选择方案采用一元文法(uni-gram)+分词方法将学生答案和不同标准答案的关键短语做模糊匹配,选择匹配最佳的解法作为该学生答案唯一的参考答案。
所述基于双向长短时记忆神经网络(Bi-LSTM)算法的搭建及改进是由Bi-LSTM是由前向LSTM与后向LSTM组合而成,在自然语言处理任务中都常被用来建模上下文信息;
将人工评分标准中的关键短语与Bi-LSTM(双向长短时记忆神经网络方法)相结合来计算学生答案和教师答案之间的相似度,既考虑了人工阅卷的标准,又利用深度学习来捕获隐含的语义信息,通过Bi-LSTM对文本进行字符级编码,设计目标函数,完成题目(主观题)的自动阅卷。
所述相似度线性融合解决方案在评分过程实际上是对考生答案和教师答案进行相似度计算的过程;将人工评分标准中的关键短语与Bi-LSTM(双向长短时记忆神经网络方法)相似度进行加权融合算出最终评分。
本发明中的具体方法实施例:
1、实时书写轨迹采集
点阵笔在学生使用过程中记录点阵坐标信息及书写时间,将轨迹坐标以及书写时间这些信息回传至服务器,系统依据坐标以及书写时间复原出笔迹,上传至作业本系统,系统依靠人工智能机器学习,建立轨迹识别模型,目的是能更为准确的识别书写轨迹并转为文本。
2、多策略自动智能判题
本发明将人工评分标准中的关键短语与Bi-LSTM(双向长短时记忆神经网络方法)相结合来计算学生答案和教师答案之间的相似度,既考虑了人工阅卷的标准,又利用深度学习来捕获隐含的语义信息,通过Bi-LSTM对文本进行字符级编码,设计目标函数,完成题目(主观题)的自动阅卷。
2.1自动智能判题主要思路
数学主观题的自动阅卷可以归结为标准答案和考生答案语义相似度计算问题。如果考生答案文本和试题标准答案文本语义对等,则相似度为1;如果考生答案和试题标准答案语义上毫不相干,则相似度为0;通常考生的答案和试题标准答案语义相似度介于0和1之间,两者之间相似度越高,则考生得分越高。对于具体的题目而言,若题目总分为10分,通过进行相似度计算,得到0.7,则该学生答案判定为7分。
2.2判题前定义-线性化规则制定
为了方便后续的文本处理,对于学生答案和教师答案都需要制定规则,去掉其二维的特性,使其线性化又保证没有歧义。线性化规则中,对于数学符号,尽量使用文字表示,同时了结合Latex的某些规则。图1列出了部分线性化规则。例如,按照线性化规则,原格式为“四棱锥M-ECDF的体积”
2.3关键短语相似度判题方法
2.3.1人工评分关键短语
数学主观题进行评分之前,通常需要教师给出标准答案,每道题会有多种解题思路,每种解题思路有多个得分点,每一个得分点由于语言表达的多样性可能会有多种不同的表示。针对某一特定题目,将每个标准答案的编号分别记为a1,a2,…at。对于某一标准答案at,存在多个得分步骤,每个得分步骤分别记为at-1,at-2,…at-n。针对每个得分步骤的重要程度给出其相应的分值比重,所有得分步骤的分值比重和应小于或等于100%。每一得分步骤at-n,提取出多个关键短语,每个关键短语的编号分别为at-n.1,at-n.2,…at-n.m(m>=1)。对于关键短语at-n.m,采用其等价陈述来扩展其多样表达,用at-n.m-1,at-n.m-2,…at-n.m-s(s>=1)形式编号。
2.3.2多种解法选择方案
针对一题多解问题,在进行主观题评分之前,必须为该题目的不同学生的答案选择对应的参考答案,目的是为每个学生答案确定出唯一的参考答案。
在此处笔者利用每个标准答案的关键短语作为不同解法的特征,采用一元文法(uni-gram)+分词方法将学生答案和不同标准答案的关键短语做模糊匹配,选择匹配最佳的解法作为该学生答案唯一的参考答案。
例如标准答案有两个,这两个标准答案的关键短语如下:
解法1:角BAC等于角DCE、AC垂直于DE…
解法2:AC平行于FG、DE垂直于FG…
学生答案:由于AC平行GF,DE又垂直于GF,故AC垂直于DE得证对两个解法的关键短语以及学生答案分别进行单字符分词和普通分词,再进行模糊匹配,则解法1匹配成功的元素有“于、A、C、AC、D、E、DE”,解法2匹配成功的元素有“A、C、AC、平行、平、行、F、G、D、E、DE、垂直于、垂、直、于”,解法2的匹配率大于解法1,故该学生答案选择解法2作为唯一标准答案。
2.3.3相似度计算
利用关键短语可以计算相似度,将考生答案和教师答案中的关键短语分别进行匹配计算得分,作为最终评分结果。其评分公式为:
2.4双向长短时记忆神经网络判题方法-Bi-LSTM
利用LSTM可以计算相似度。针对数学主观题自动阅卷,本发明设计出Bi-LSTM模型,如图1所示,分别采用双向LSTM对学生答案和参考答案分别编码,编码完成后,采用一元文法(uni-gram)+分词方法匹配得出的最佳解法选定的唯一参考答案组成一对训练语料,用得分率作为相似度,通过字符级的双向LSTM训练相似度函数。得分率的计算公式为:
2.5多策略融合的相似度计算
评分过程实际上是对考生答案和教师答案进行相似度计算的过程。
将以上两种相似度加权融合做线性融合。线性融合的计算公式为:最终得分=(w1*关键短语相似度+w2*Bi-LSTM相似度)*该题目满分;其中,w1和w2为每个相似度的权重。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 基于耳机形状的声音采集装置的基于大数据的实时噪声图提供系统
机译: 基于云平台的多源数据采集系统和实时分析系统
机译: 基于实时表采集时间数据动态设置空气系统压力的系统和方法