首页> 中国专利> 一种在线课程知识树的生成关联方法

一种在线课程知识树的生成关联方法

摘要

本发明公开了一种在线课程知识树的生成关联方法,包括:基于对PPT样式的图片和/或文字和/或符号的识别,训练OCR模型和YOLO目标检测模型;基于对在线课程的大纲的爬取,获取在线课程的知识树主分支;基于OCR模型和在线课程的视频,捕捉并处理所述视频中的PPT画面,获取所述PPT画面的OCR结果;基于预设规则从所述OCR结果中抽取知识点;层级化知识点,并获取所述知识点在所述视频中的起止时间;合并所述知识点至所述知识树主分支,生成所述在线课程知识树;基于所述OCR模型和/或ASR模型,获取所述在线课程的视频的字幕信息和/或语音信息,将所述知识点与所述在线课程的试题进行关联。本发明可以精确实现在线课程知识点树的生成、知识点和试题的自动关联。

著录项

  • 公开/公告号CN112231522A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利权人 北京奥鹏远程教育中心有限公司;

    申请/专利号CN202011018522.6

  • 发明设计人 陈浩;赵翌臣;赵玉成;肖富贵;

    申请日2020-09-24

  • 分类号G06F16/901(20190101);G06K9/34(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11578 北京集智东方知识产权代理有限公司;

  • 代理人陈亚斌;关兆辉

  • 地址 100081 北京市海淀区西三环北路甲2号院中关村国防科技园2号楼13层

  • 入库时间 2023-06-19 09:33:52

说明书

技术领域

本发明涉及文字识别领域,特别是一种在线课程知识树的生成关联方法。

背景技术

东北石油大学李菲在《大数据环境下课程知识点抽取与组织方法研究》中提出了一种从课程中抽取知识点并识别知识点之间关系的方法。《基于语义关联规则的试题知识点标注及试题推荐_魏伟》一文中介绍了一种关联试题和知识点的算法,其方法为利用已标注的试题数据生成有效规则,然后利用生成的规则对待标注试题进行(多)知识点标注。有效规则生成过程主要包括4个阶段,分别是试题文本预处理、多重知识点分割、频繁项集挖掘以及有效规则挖掘。知识点标注主要包括3个步骤,分别是特征抽取、文本语义相似性计算以及运用标注模型进行标注。

但是,《大数据环境下课程知识点抽取与组织方法研究》中,该方法依赖人工的规则抽取知识点,基于统计的思想识别知识点间的关系,所以错误率较高,而且在不同学科上的应用中会抽出更多的非知识点,通用性不高。一旦知识点间的关系识别错误生成知识树后,人工修正的代价很高。该方法的操作对象是课程的PPT素材,不能应用于视频素材,也不能确定知识点对应到视频的起始位置。而在线教育中最容易获得的课程资源为课件视频,其画面和语音包含了更为丰富的信息。该方法没有解决知识点和试题关联的问题。而知识点和试题的关联是后续很多应用(如基于错题的推荐)的重要前提条件。该方法生成的知识树较多且有错误,人工参与修正也比较困难,以至于无法完整的表示整门课的知识结构。《基于语义关联规则的试题知识点标注及试题推荐_魏伟》中,没有解决课程知识点生成的问题,在线课程往往没有已标注的试题数据,也就无法生成有效的规则;即使使用人工进行标注,一方面会带来人力成本的增加,另一方面,该算法的平均准确率在作者实验的历史课程中也仅达到72.5%,准确率较低。

发明内容

本发明实施例的目的在于,提供了一种在线课程知识树的生成关联方法,可以精确实现在线课程知识点树的生成、知识点和试题的自动关联。

为达到上述目的,一方面,本发明实施例提供了一种在线课程知识树的生成关联方法,包括:

基于对PPT样式的图片和/或文字和/或符号的识别,训练OCR模型和YOLO目标检测模型;

基于对在线课程的大纲的爬取,获取所述在线课程的知识树主分支;

基于所述OCR模型和所述在线课程的视频,捕捉并处理所述视频中的PPT画面,获取所述PPT画面的OCR结果;

基于预设规则从所述OCR结果中抽取知识点;

层级化所述知识点,并获取所述知识点在所述视频中的起止时间;

合并所述知识点至所述知识树主分支,生成所述在线课程知识树;

基于所述OCR模型和/或ASR模型,获取所述在线课程的视频的字幕信息和/或语音信息,将所述知识点与所述在线课程的试题进行关联。

由以上本发明实施例提供的技术方案可见,本发明可以精确实现在线课程知识点树的生成、知识点和试题的自动关联。

附图说明

图1为本发明一些实施例的在线课程知识树的生成关联方法的流程图。

图2为本发明一些实施例的在线课程知识树的生成关联方法的细化流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

如图1所示,本发明一些实施例中提供了一种在线课程知识树的生成关联方法,该方法包括以下步骤:

S102、基于对PPT样式的图片和/或文字和/或符号的识别,训练OCR模型和YOLO目标检测模型;基于对在线课程的大纲的爬取,获取在线课程的知识树主分支;

S104、基于OCR模型和在线课程的视频,捕捉并处理视频中的PPT画面,获取PPT画面的OCR结果;

S106、基于预设规则从OCR结果中抽取知识点,层级化知识点,并获取知识点在视频中的起止时间;合并知识点至知识树主分支,生成在线课程知识树;

S108、基于OCR模型和/或ASR模型,获取在线课程的视频的字幕信息和/或语音信息,将知识点与在线课程的试题进行关联。

在本发明一些实施例中,基于对PPT样式的图片和/或文字和/或符号的识别,训练OCR模型和YOLO目标检测模型,具体为;选择OCR模型,OCR模型包括clovaai文字识别模型;基于程序批量化生成的训练数据,训练选择的OCR模型,生成OCR模型的中文语料;增加YOLO目标检测模型对特殊符号的识别,特殊符号包括wingdings符号。

在本发明一些实施例中,clovaai文字识别模型的识别步骤,具体为,基于图像进行卷积,提取特征;基于LSTM处理特征;前向传播并产生预测文字。需要指出的是,在基于图像进行卷积之前,还可先对变形的文字进行校正。

在本发明一些实施例中,增加YOLO目标检测模型对特殊符号的识别,具体为,建立特殊符号检测与识别的YOLO目标检测模型,基于包含抗锯齿与换色算法的图像合成算法,批量生成特殊符号的训练数据。

在本发明一些实施例中,抗锯齿与换色算法,具体为,定义图像红绿蓝三通道分别为C

在本发明一些实施例中,增加YOLO目标检测模型对特殊符号的识别,具体还包括,定位特殊符号的位置;估算特殊符号的尺寸,具体为,基于识别文本内容的文本检测框,向左扩展出文本的高度的2倍的检测框体区域;定位特殊符号的位置;识别定位的特殊符号的图像类别;计算特殊符号的面积,将检测框体区域内存在的特殊符号与文本内容合并,并将特殊符号的检测框体区域与文本检测框合并。

在本发明一些实施例中,基于对在线课程的大纲的爬取,获取在线课程的知识树主分支,具体为,基于视频从上至下的顺序,对视频使用“000”到“999”进行命名;设置叶子节点,叶子节点代表视频;设置非叶子节点,非叶子节点代表高层级知识点;关联非叶子节点代表的高层级知识点和叶子节点代表的视频。

在本发明一些实施例中,基于OCR模型和在线课程的视频,捕捉并处理视频中的PPT画面,具体包括,设置OCR模型在在线课程的视频中的识别区域;基于预定时间间隔对识别区域进行识别;基于识别的文字的大小和/或文字的模糊程度和/或文字行置信度均值和/或文本检测框的个数,区分近景和远景,筛除远景,选取近景。

在本发明一些实施例中,基于OCR模型和在线课程的视频,捕捉并处理视频中的PPT画面,具体还包括,对识别的文本进行预处理,具体为,当识别的文本为纯中文句子,则去除纯中文句子中的空格,并使用全角字符替换为半角字符;基于杰卡德相似度与最长公共子序列算法,对前后页进行去重,并获取PPT画面在视频中的开始时间和结束时间;判定识别的两个相邻的文本是否需要合并。

在本发明一些实施例中,判定识别的两个相邻的文本是否需要合并,具体为,判断后一个文本是否以特殊符号开头;如果后一个文本是以特殊符号开头,则不合并识别的两个相邻的文本;如果后一个文本不是以特殊符号开头,基于自然语言处理工具包HANLP依存句法分析的词性分析来判断,如果前一个文本的结尾和后一个文本的开头存在连接词,则合并识别的两个相邻的文本;如果前一个文本的结尾和后一个文本的开头不存在连接词,基于BERT语言模型做NSP任务的预测,具体为,使用BERT模型接收两个相邻的文本,输出认定两个相邻的文本应该为一个连续文本的概率,如果概率大于第二预设阈值,则合并两个相邻的文本。

在本发明一些实施例中,基于预设规则从OCR结果中抽取知识点,层级化知识点,并获取知识点在视频中的起止时间,具体为,预览在线课程中知识点的组织形式,确定在线课程的知识点模式的集合;基于知识点模式的集合,抽取知识点;基于前后顺序和模式异同对PPT画面的知识点直接进行层级化,并获取获取知识点在视频中的起止时间。

在本发明一些实施例中,合并知识点至知识树主分支,生成在线课程知识树,具体为,

基于视频的ID,将知识点合并到知识树主分支上的叶子节点所对应的视频上,生成在线课程知识点的内容树。首先以在线课程的目录作为知识树的初始主分支,遍历每一页PPT画面识别出来的知识子树,使用算法迭代地将知识子树与初始主分支进行合并;

算法为,以不严格字符串匹配算法判断知识子树的根节点是否出现在知识树的初始主分支,如果出现则进行合并;如果没有出现,则判断知识子树的根节点与初始主分支某个节点是否具有相同的模式,当知识子树的根节点与初始主分支某个节点具有相同的模式,则将知识子树与该节点并列地挂载到同一个父节点上;当知识子树与初始主分支某个节点不具有相同的模式,按照时间信息直接将知识子树与该节点并列地挂载到初始主分支上。

在本发明一些实施例中,基于OCR模型和/或ASR模型,获取在线课程的视频的字幕信息和/或语音信息,将知识点与在线课程的试题进行关联,具体为,

当视频中有字幕信息时,优先基于OCR模型获取字幕信息和字幕信息的起止时间;当视频中没有字幕信息时,调用ASR模型获取语音信息和语音信息的起止时间;基于PPT画面在视频中的起止时间、字幕信息的起止时间、语音信息的起止时间,锚定在线课程中针对PPT画面所讲解的字幕信息和/或语音信息;使用TF-IDF编码技术对试题和PPT画面对应的文本内容进行相似度计算,具体为,将试题题干、正确答案、PPT画面的文本内容进行TF-IDF编码,基于余弦相似度的计算公式相似度,获取与试题最接近的PPT画面,并基于PPT画面获取知识点列表;将试题与知识点列表中每个知识点的名称进行TF-IDF编码,计算余弦相似度,获得相关性排序;基于相关性,将试题关联到一个或者多个最相关的知识点上。

结合图2描述与本发明的细化步骤如下:

本发明是一个利用人工智能系列技术(OCR:图像文字识别,CV:目标检测,NLP:自然语言处理,ASR:语音识别)针对在线课程进行处理,利用课程视频和大纲来自动抽取课程知识点树,同时将课程知识点和视频起始时间、终止时间,以及知识点和试题进行自动关联的技术。

本发明的步骤概括如下:

1、训练适用于类PPT样式的图片文字和符号识别的人工智能OCR模型;

2、对在线课程的大纲进行爬取,以大纲(章、节)作为该门课程的内容主分支(即知识点树主分支);

3、从视频中采样捕捉PPT画面,自动进行画面相似度比较、合并和OCR;

4、基于规则从OCR结果中抽取知识点,生成每页内部的知识点之间整体部分关系,并自动生成知识点在视频中的起止时间。此外,可引入少量人工交互来修正OCR的错误。

5、将OCR抽取出来的每页知识点树合并到大纲抽取的知识点树主分支上,形成课程内容知识树。

6、利用区域OCR获得视频字幕信息(如视频无字幕则利用视频语音的ASR结果)。通过利用字幕信息、知识点名称和试题题干+正确答案三方面的信息将知识点与课程的试题进行关联。

关于OCR模型,选型过程中,本发明可以使用的clovaai组织的开源的文字检测、识别算法。该算法主要分为四个步骤:对变形的文字进行校正;对图像进行卷积提取特征;使用双向LSTM处理特征;前向传播,产生预测的文字。

在本发明中,由于待识别的图像为课件,属于非常规范的光学字符,所以可以移除掉对变形文字进行校正的步骤,以减少误识别的风险并可以提升OCR的速度。

关于OCR模型的中文语料生成,考虑到clovaai仅公开了一个纯英文与符号的识别模型,然而本发明的任务是识别课件图片里面的文字,所以需要构建适应于本发明场景OCR算法的数据集。根据构建深度学习模型的经验,该OCR模型为监督式模型,所以能批量化的产生多种多样的训练数据尤为关键。训练数据越多越能模拟出现实世界的真实的数据分布,模型的泛化能力越强。因此,本发明的在产生训练数据时,在背景图片方面,我们使用了近万张PPT背景图片和近百万张随机生成的背景图片,并对其进行拉伸、剪切、变色、滤波模糊等随机性操作以达到数据增强的效果;在字体生成方面,使用了近百种字体,并对文字进行加粗、加下划线和变斜等随机性操作。

关于YOLO目标检测模型对wingdings等特殊符号的检测识别与尺寸估算,大部分在线课程的视频内容为PPT或者PDF展示,展示中会大量使用wingdings符号,讲义中与wingdings符号相连的文本经常是某页PPT的纲领性质的内容,很大概率为一个知识点,或是课程内容知识树中重要的连接节点。所以对wingdings符号的识别尤为重要。同时发现,OCR程序对“一、”的识别也非常差,下图为初始的OCR模型对某一页PPT的识别结果,可以看出,该模型没有识别出“一、”以及三个wingdings符号,因此,将“一、”也当做特殊符号与wingdings符号一并加强识别的效果。

训练YOLO目标检测模型对wingdings符号识别的步骤如下:将所有wingdings特殊符号都当做一类图片,同时再加入“一、”和背景类,一共62类图像,使用这62类数据,建立一个YOLO目标检测模型。由于wingdings符号是无法以文本的方式存储于txt文件,所以这对大规模生成训练数据造成了干扰。所以本发明使用了图像的合成技术来大规模生产训练数据。该图像合成算法的难点在于,如何将wingdings符号的图片完美地移植到一张背景图片上,并且需要支持对wingdings符号变色和抗锯齿的功能。

wingdings符号换色与换背景的算法描述如下:

首先定义图像红绿蓝三通道分别为C

关于对特殊符号的位置进行识别,根据先验知识,特殊符号往往出现在文字行的左边,这只是一个粗略的位置,具体的位置仍是不确定的,但是对特殊符号的精确检测对于分析PPT的缩进信息进而抽取知识点的整体部分关系具有很大意义。因此,本发明提出一种针对该场景的小范围内检测特殊符号的算法,对每一个文字检测框向左扩展2倍字高的距离的框体,使用YOLO目标检测模型识别特殊符号并计算框体的面积,将特殊符号的编码与文本行内容合并,将框体与文本框合并。综上,使用特殊符号的分类模型便可对特殊符号定位和识别,与后面的文字相连接,就解决了初始OCR存在的问题。

关于对课程大纲的爬取,在爬取视频大纲的过程中,根据视频从上至下的顺序对视频使用“000”到“999”命名,由于大纲是具有层级结构的,即一种树状结构,叶子节点可以代表视频,非叶子节点可以代表较高层级的知识点。因此,可以将非叶子节点关联到其后代节点对应的视频。

关于PPT画面的捕捉,在对视频进行OCR之前,需要人工确定OCR识别视频的位置,识别更小的图片可以提高OCR识别的识别效率,并排除无关信息的干扰。该配置和技术还可以用来单独识别视频中的字幕信息。每间隔2秒对视频的指定区域进行OCR识别,过滤掉置信度很小的行,过滤为空的行。在视频中,可能存在PPT被缩小置为远景的情况,该情况在课程中会频繁出现,这对于文字的识别造成的很大的干扰,因此能够区分远近景的PPT对于精准识别文字具有重要的意义。针对该问题,本发明中提出了一种区分PPT远近景的算法。

根据对已有的OCR模型的现有研究,我们得知,文字越小越模糊,识别的置信度就越低。而远景图片就具备文字小以及文字模糊的特点,因此每页图片中所有文字行的置信度均值便可以作为区分远近景的依据之一。另外,远景图片中往往文字会被教师遮挡,这就会造成文字行的断裂,文字检测框的个数就会大幅增加,因此,文字检测框的个数也可以作为区分远近景的依据。

关于OCR文本预处理,如果句子为纯中文句子,则去除句子中的空格,使用全角字符替换为半角字符。使用杰卡德相似度与最长公共子序列算法对前后页去重,并获得每页PPT在视频的讲授过程中开始时间和结束时间。知识点由于文字过多,所以会有换行的现象发生,在OCR的过程中会把该图识别为两句话,因此,一个能判断两个句子是否应连成一个句子的方法尤为重要。

在本发明中,预测OCR的两句话是否应该为合并的算法是创新点之一,其内部主要有三个步骤:第一步:判断第二个句子是否以特殊符号开头,如果是,则两句话不能合并;如果否,进入第二步判断。第二步:使用自然语言处理工具包HANLP依存句法分析的词性分析来判断,如果第一个句子的结尾和第二个句子的开头存在连词连接,则合并;否则进入第三步。第三步:使用BERT语言模型做NSP任务的预测,BERT模型接收两个句子,输出认定这两个句子应该为一个连续句子的概率,如果概率大于一定阈值则合并;否则不合并。

关于知识点的抽取,基于规则抽取知识点,在设定规则之前,需要预先预览一下课程中知识点的组织形式,经过更多页的观察,便可确定下当前课程的知识点模式的集合。设置这种模式会使得抽取知识点更有针对性,并且所需人工的成本很低。

关于知识点的层级化,在某页PPT中,可能存在第1行的模式与第2~4行的模式不同,第2~4行的模式相同。基于这种前后顺序和模式异同针对每页PPT对知识点直接进行层级化,这个层级化的操作可以更好的展示出知识点之间的层次关系,也可以减少后续人工修正的成本。

关于人工修正,人工修正的过程主要修正两类错误:第一类是OCR识别的错误,比如,OCR模型可能会将“马克思”错误地识别为“马克恩”。第二类是课件中目录页过多引起的知识点重复。

关于知识点与大纲的合并,运行脚本自动将OCR抽取出来的知识点合并到大纲上,形成课程内容知识树。知识点文件比大纲包含更细粒度的知识点以及时间信息,可以根据视频的ID,将知识点合并到大纲上对应的视频上,便形成了该门在线课程知识点的内容树。

关于知识点与试题的关联,在线课程往往都配有相关的练习题,本发明可以将每个试题精准关联到对应的知识点,该任务具有非常广阔的应用场景,比如“知识点的专项练习”、“错题推荐”、“自动问答”以及“相关试题推荐”等等。知识点和试题关联的算法是本发明的创新点之一。具体的算法为:1、使用语音转文字技术或字幕OCR技术获取课程的音频文字信息,具体为,当视频中有字幕信息时,优先获取OCR文字结果。当视频中没有字幕信息时,可以调用科大讯飞云服务的语音识别功能获得语音识别的结果。2、根据每页PPT在视频中的起止时间,锚定课程中针对该页PPT所讲解的内容,根据PPT画面所在视频,及其该画面在视频中的起始时间和终止时间,找到字幕OCR结果或音频ASR结果中的一段话。这些话即是老师在课堂上讲解的这页PPT的详细内容。3、使用TF-IDF编码技术对试题(题干+正确答案)和每页ppt画面对应的文本内容进行相似度计算,具体为,将试题题干和正确答案,以及每页PPT的讲解内容进行TF-IDF编码。其中TF是词频(Term Frequency)为该文档(试题或者ppt对应内容)中每个单词出现频次。IDF(逆文本频率指数(Inverse Document Frequency)为该单词在公共语料(我们使用百度百科作为公共语料)出现的频次信息。使用余弦相似度的计算公式相似度,召回和该试题内容最接近的PPT画面,获取基于该画面得到的知识点列表。4、使用TF-IDF编码技术对试题(题干+正确答案)和每个知识点进行相似度计算,具体为,将试题题干和正确答案,以及上一步中获得的知识点列表中每个知识点的名称进行TF-IDF编码。计算余弦相似度,获得相关性排序。5、基于不同的业务规则,将试题关联到一个或者多个最相关的知识点上。

综上,本发明具有以下优点:1、定制化训练的OCR模型可以精确检测和识别PPT课件中的文字和wingdings特殊符号,具有广泛的应用前景。2、区域可配置的OCR技术可以自动生成视频嵌入式字幕对应的文字。3、换行合并算法与OCR算法的结合,可以使得OCR的文本不再是一行行生硬的文字,可以让传统的OCR程序更加智能。4、大纲和视频共同抽取知识树,既可以保证课程的层次结构,又可以精确关联到知识点的在视频中的时间信息。5、使用知识点锚定教师所讲述的内容,然后再与试题匹配,可以突破知识点本身与试题匹配的准确率瓶颈。

虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。本发明是参照根据本发明实施例的方法的流程图和/或方框图来描述的。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法或者设备中还存在另外的相同要素。

本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于实施例,所以描述的比较简单,相关之处参见实施例的部分说明即可。以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号