公开/公告号CN112989073A
专利类型发明专利
公开/公告日2021-06-18
原文格式PDF
申请/专利权人 读书郎教育科技有限公司;
申请/专利号CN202110264610.2
申请日2021-03-11
分类号G06F16/432(20190101);G06K9/62(20060101);G09B5/04(20060101);G09B5/06(20060101);
代理机构44436 广州德伟专利代理事务所(普通合伙);
代理人黄浩威;何文颖
地址 528400 广东省中山市五桂山镇长命水工业园
入库时间 2023-06-19 11:29:13
技术领域
本发明涉及辅助教学技术领域,具体涉及一种课本扫读及查询匹配的方法。
背景技术
传统的纸质课本阅读比较舒适,使用也比较方便,但内容不够丰富,孩子兴趣不大。为使孩子阅读过程中能和课本有更多的交互,目前在市面上让文字课本进行任意发声的产品主要有点读笔和点读机,能够极大地丰富课本交互,激发孩子的学习兴趣,是比较广泛使用的一种教育电子产品。
点读笔一般做法是通过扫描特制课本上的内容识别码进行相应信息的查询进行发音。这就局限于只能在特制的课本才能使用,而多数的教科书是不具备这种条件的。而且,由于没有统一规范,普遍来说这种内容识别码的识别方式也不同,所以只能课本和点读笔配套使用,更加缩减了点读笔使用场景。例如,CN210573935U公开了一种含扫码识别器的云端音视频播放系统,能够通过扫描课本上的扫描码定位到相应的音频位置,但是其能够扫读的只有印有对应扫描码的特定书籍,使用受限。
点读机是一种把课本放在点读机上,通过配套的笔在书本上进行点击,根据按压产生的坐标进行查询发声。点读机一般体积比较大,不易携带。而且操作也比较麻烦,需要精确的选择到相应课本的相应页码,并且需要平稳的放好书本才能进行识别发声,这无疑给用户操作带来了较多的麻烦。
发明内容
针对现有技术的不足,本发明旨在提供一种课本扫读及查询匹配的方法。
为了实现上述目的,本发明采用如下技术方案:
一种课本扫读及查询匹配的方法,具体过程如下:
S1、在扫描笔内预存一个或多个课本的全文文本内容;
S2、用户从预存的课本中选定目标课本,利用扫描笔扫描得到待读区域内容的图像,扫描笔对图像进行OCR文字识别处理后获得识别文本,并对识别文本进行预处理;
S3、将经过预处理的识别文本和目标课本的全文文本内容进行查询匹配,获得相似度大于或等于预设阈值的预选文本内容集合,如果预选文本内容集合不为空,跳转至步骤S4;
S4、从预选文本内容集合中选定相似度最大的文本内容为目标内容,扫描笔播放目标内容音频,供用户跟读。
进一步地,步骤S2中,对识别文本进行预处理的过程包括文字清洗,仅保留中文、英文和数字。
更进一步地,步骤S2中,用户选择目标课本后,扫描笔记录该目标课本的全文文本内容为全文内容集合,并对全文内容集合进行预处理,所述预处理包括文字清洗,仅保留中文、英文和数字;步骤S3中将经过预处理的识别文本和经过预处理的全文内容集合进行查询匹配。
进一步地,步骤S4中,如果预选文本内容集合中相似度最大的文本内容的文本内容不唯一,按照在课本中出现的位置,选取最先出现的相似度最大的文本内容作为目标内容。
进一步地,步骤S3中,如果预选文本内容集合为空,通过扫描笔的显示屏向用户发出提示。
进一步地,上述方法还包括有步骤S5:
使用扫描笔再次扫描时,首先判断本次扫描距离上一次扫描的时长是否小于或等于设定的时长,如果不是,返回步骤S2;如果是,将本次的识别文本进行预处理后与上一次扫描的预选文本内容集合进行查询匹配,获得新的相似度大于或等于预设阈值的预选文本内容集合,并在新的预选文本内容集合中选定相似度最大的文本内容作为目标内容,然后播放目标内容音频,供用户跟读。
更进一步地,在步骤S5中,如果新的预选文本内容集合为空,则返回至步骤S3。
更进一步地,步骤S5中,如果新的预选文本内容集合中相似度最大的文本内容不唯一,按照在课本出现的位置先判断所有相似度最大的文本内容在上一次扫描的目标内容的前面还是后面;如果有位于上一次扫描的目标内容后面的相似度最大的文本内容,则选择在上一次扫描的目标内容后面最先出现的相似度最大的文本内容作为本次扫描的目标内容,否则选择出现在上一次扫描的目标内容前面并距离其最近的相似度最大的文本内容作为本次扫描的目标内容。
本发明的有益效果在于:本发明方法可以对任意课本进行扫读,适用范围广,而且只要选定目标课本后,就可以在课本任意地方进行扫读,不需要再格外设置页码等参数。本发明方法大大提高了用户使用的便捷性。
具体实施方式
以下将对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种课本扫读及查询匹配的方法,具体过程如下:
S1、在扫描笔内预存一个或多个课本的全文文本内容;
S2、用户从预存的课本中选定目标课本,利用扫描笔扫描得到待读区域内容的图像,扫描笔对图像进行OCR文字识别处理后获得识别文本,并对识别文本进行预处理;
S3、将经过预处理的识别文本和目标课本的全文文本内容进行查询匹配,获得相似度大于或等于预设阈值的预选文本内容集合,如果预选文本内容集合不为空,跳转至步骤S4;
S4、从预选文本内容集合中选定相似度最大的文本内容为目标内容,扫描笔播放目标内容音频,供用户跟读。
需要说明的是,扫描笔能够将用户连续扫描获得的帧图像,使用帧拼接技术把图像拼成一条完整的扫描图,通过OCR文字识别处理识别出扫描图区域内的文字信息,获得识别文本。
进一步地,步骤S2中,对识别文本进行预处理的过程包括文字清洗,仅保留中文、英文和数字。
需要说明的是,本实施例的方法采用的是全书查询匹配的方法,待用户选择了目标课本后,不需要再进一步选择页码,而是可以对课本任意扫读,不受书页的限制,用户只需专注于扫描,极大地简化了用户操作。
进一步地,本实施例中,步骤S2中,用户选择目标课本后,扫描笔记录该目标课本的全文文本内容为全文内容集合,并对全文内容集合进行预处理,所述预处理包括文字清洗,仅保留中文、英文和数字;步骤S3中将经过预处理的识别文本和经过预处理的全文内容集合进行查询匹配。
进一步地,在本实施例中,步骤S4中,如果预选文本内容集合中相似度最大的文本内容的文本内容不唯一,按照在课本中出现的位置,选取最先出现的相似度最大的文本内容作为目标内容。
进一步地,本实施例中,步骤S3中,如果预选文本内容集合为空,通过扫描笔的显示屏向用户发出提示。
需要说明的是,上述方法还包括有步骤S5:
使用扫描笔再次扫描时,首先判断本次扫描距离上一次扫描的时长是否小于或等于设定的时长,如果不是,返回步骤S2;如果是,将本次的识别文本进行预处理后与上一次扫描的预选文本内容集合进行查询匹配,获得新的相似度大于或等于预设阈值的预选文本内容集合,并在新的预选文本内容集合中选定相似度最大的文本内容作为目标内容,然后播放目标内容音频,供用户跟读。
更进一步地,在步骤S5中,如果新的预选文本内容集合为空,则返回至步骤S3。
更进一步地,步骤S5中,如果新的预选文本内容集合中相似度最大的文本内容不唯一,按照在课本出现的位置先判断所有相似度最大的文本内容在上一次扫描的目标内容的前面还是后面;如果有位于上一次扫描的目标内容后面的相似度最大的文本内容,则选择在上一次扫描的目标内容后面最先出现的相似度最大的文本内容作为本次扫描的目标内容,否则选择出现在上一次扫描的目标内容前面并距离其最近的相似度最大的文本内容作为本次扫描的目标内容。
需要说明的是,本实施例中,相似度具体为识别文本和待匹配内容(全文内容集合或上一次扫描的预选文本内容集合)的最长公共子序列串的长度占识别文本长度的百分比。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
机译: 一种将有序结果集呈现给概率查询的方法以及计算机执行的概率查询匹配功能
机译: 通过根据各种逻辑进行查询来输出匹配查询结果的查询匹配方法和系统
机译: 通过根据各种逻辑进行查询来输出匹配查询结果的查询匹配方法和系统