首页> 中国专利> word文档题目及内容自动识别切分与结构化转化导入系统

word文档题目及内容自动识别切分与结构化转化导入系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了word文档题目及内容自动识别切分与结构化转化导入系统，属于图像处理领域，系统包括文本获取模块、文字处理模块、图像处理模块和导入模块；文本获取模块用于获取输入文本；文字处理模块用于从输入文本中识别出字符并进行分类，将字符分类的结果发送给导入模块；图像处理模块用于从输入文本中识别并截取出图像后送给导入模块；导入模块用于将字符分类的结果以及截取出的图像导入到后端。本发明能够高质、高效地从纸质教辅材料中获取文字和图像内容，并转化为电子文件，以便于终端教学系统使用。

著录项

公开/公告号CN113139516A

专利类型发明专利
公开/公告日2021-07-20

原文格式PDF
申请/专利权人宁波思骏科技有限公司;
展开▼

申请/专利号CN202110528516.3
发明设计人段一舟;任红宝;
展开▼

申请日2021-05-14
分类号G06K9/00(20060101);G06K9/34(20060101);G06K9/62(20060101);
代理机构11947 北京盛凡佳华专利代理事务所(普通合伙);
代理人孙瑞峰
地址 315000 浙江省宁波市高新区创苑路750号002幢302室
入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及图像处理技术领域，特别涉及word文档题目及内容自动识别切分与结构化转化导入系统。

背景技术

现有的终端教学系统在依托于安全护眼的墨水屏显示技术，在主要应用的学科已初步达到在不增加学生用眼负担并保留学生一切学习习惯的前提下完成零打扰的日常学情数据精确、实时、全面采集，从而实现对于传统纸质课业的完整替代。

终端教学系统能够在日常教学流程中落地、得到重度使用，其承载的题目内容资源质量是必不可少的关键要素。由于在校教学大部分时间处于学习期，日常教学的课业练习环节所最需要的是与学校统一采购的成册成套的纸质书籍教辅相匹配的电子习题库，从而任课老师能够无负担地采用与教学进度完全同步的节奏，通过信息化手段布置课业练习。

然而目前的终端教学系统中的题库几乎全是试题和真题题库，这种题库出于题量大、找题困难、内容质量与教学匹配度不佳等各方面原因，导致高频使用的选题成本极高，几乎只适用于低频次的考试测验或者期中期末阶段性复习练习，因而对于日常教学没有实质性的价值，完全无法满足常态化的应用需求。

因此，如何提供一种高效内容生产工具，使其能够将纸质教辅材料中的习题内容高质、高效转化为电子件，是现有终端教学系统能否在日常使用中提高频率和最终效果的关键性因素。

发明内容

针对现有技术存在的终端教学系统无法高质、高效地从纸质教辅材料中获取习题内容的问题，本发明的目的在于提供word文档题目及内容自动识别切分与结构化转化导入系统。

为实现上述目的，本发明的技术方案为：

一种word文档题目及内容自动识别切分与结构化转化导入系统，所述系统包括文本获取模块、文字处理模块、图像处理模块和导入模块；其中，

所述文本获取模块用于获取输入文本；

所述文字处理模块用于从所述输入文本中识别出字符，并对所述识别出的字符进行分类后，将字符分类的结果发送给所述导入模块；

所述图像处理模块用于从所述输入文本中识别出图像，并将所述识别出的图像从所述输入文本中截取出来后送给所述导入模块；

所述导入模块用于将所述字符分类的结果以及所述图像处理模块从所述输入文本中截取出的图像导入到后端。

优选的，所述文字处理模块从所述输入文本中识别出字符，并对所述识别出的字符进行分类的步骤包括：

S1、对所述输入文本进行行列分割，获得孤立字符的最小内切矩形，并为每个最小内切矩形建立唯一坐标；

S2、识别最小内切矩形中的所述孤立字符；

S3、对所述孤立字符进行归一化处理；

S4、将归一化处理结果发送给预设的分类模型进行分类处理。

优选的，所述导入模块将所述字符的分类结果导入后端的步骤包括：将每个字符的分类结果及其唯一坐标进行关联后导入到后端，以便于后端根据每个字符的分类结果及其唯一坐标将每个字符按照与其在所述输入文本中相同的排列顺序呈现在word文档中。

优选的，所述图像处理模块从输入文本中识别出图像的步骤包括：

S11、对所述输入文本进行分割，获得一个或者多个第一目标区域；

S12、检测所述第一目标区域内是否含有预设的字符，如是则标记为疑似图像区域进入步骤S13；

S13、判断所述疑似图像区域是否含有非预设的字符，是则将所述疑似图像区域丢弃，否则确定所述疑似图像区域为图像区域并进入步骤S14；

S14、对所述图像区域进行长度和宽度方向的扩展，获取像素连续的待截取图像；

S15、将所述待截取图像从所述输入文本中截出，并记录截出图像的尺寸和坐标。

优选的，所述导入模块将所述图像处理模块从所述输入文本中截取出的图像导入到后端的步骤包括：将截出图像以及其尺寸和坐标进行关联后导入到后端，以便于后端根据截出图像以及其尺寸和坐标将截出图像按照与其在所述输入文本中相同的位置呈现在word文档中。

采用上述技术方案，由于将文字处理模块和图像处理模块的设置，使得文字的切分识别和图像识别截取能够通过两个模块分别进行，从而分别配置程序方案，保证高质、高效地对纸质教辅材料进行文字内容和图像内容的分别提取，再通过导入模块合并导入到需求内容的后端即可。

附图说明

图1为本发明的结构示意图；

图2为本发明中文字处理模块从输入文本中识别出字符并对识别出的字符进行分类的流程图；

图3为本发明中图像处理模块从输入文本中识别出图像并将识别出的图像从输入文本中截取出来的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示对本发明结构的说明，仅是为了便于描述本发明的简便，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

对于本技术方案中的“第一”和“第二”，仅为对相同或相似结构，或者起相似功能的对应结构的称谓区分，不是对这些结构重要性的排列，也没有排序、或比较大小、或其他含义。

另外，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，连接可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个结构内部的连通。对于本领域的普通技术人员而言，可以根据本发明的总体思路，联系本方案上下文具体情况理解上述术语在本发明中的具体含义。

一种word文档题目及内容自动识别切分与结构化转化导入系统，如图1所示，该系统包括文本获取模块、文字处理模块、图像处理模块和导入模块；其中，

文本获取模块用于获取输入文本，通常是通过接收摄像机或者照相机或者扫描仪等设备发送的图像数据，该图像数据反映了纸质教辅材料的图像信息。

文字处理模块用于从输入文本中识别出字符，并对识别出的字符进行分类后，将字符分类的结果发送给导入模块。

图像处理模块用于从输入文本中识别出图像，并将识别出的图像从输入文本中截取出来后送给导入模块，其中识别出的图像指的是非字符类的图画内容。

导入模块用于将由文字处理模块获得的字符分类的结果以及由图像处理模块从输入文本中截取出的图像导入到后端，以便于后端根据接收到的字符分类的结果以及图像制作出电子文档，例如word文档。

其中，如图2所示，文字处理模块从输入文本中识别出字符，并对识别出的字符进行分类的步骤包括：

S1、对输入文本进行行列分割，获得孤立字符的最小内切矩形，并为每个最小内切矩形建立唯一坐标；

S2、识别最小内切矩形中的孤立字符；

S3、对孤立字符进行归一化处理；

S4、将归一化处理结果发送给预设的分类模型进行分类处理，获得字符分类的结果。

而导入模块将字符的分类结果导入后端的步骤则包括：将每个字符的分类结果及其唯一坐标进行关联后导入到后端，以便于后端根据每个字符的分类结果及其唯一坐标将每个字符按照与其在输入文本中相同的排列顺序呈现在word文档中，从而完成字符的电子化处理。

其中，如图3所示，所述图像处理模块从输入文本中识别出图像，并将识别出的图像从输入文本中截取出来的步骤包括：

S11、对输入文本进行分割，获得一个或者多个第一目标区域；

S12、检测第一目标区域内是否含有预设的字符，如是则标记为疑似图像区域进入步骤S13，其中预设的字符可以是“图-x”、“图x”、“图表x”、“图表-x”等类似字符串；

S13、判断疑似图像区域是否含有非预设的字符，是则将疑似图像区域丢弃，否则确定疑似图像区域为图像区域并进入步骤S14，其中非预设的字符为不属于预设字符的字符；

S14、对图像区域进行长度和宽度方向的扩展，获取像素连续的待截取图像；该过程中，根据像素的灰度值变化落差，确定像素连续的待截取图像，即，相邻像素灰度值落差在一定的阈值范围内的，将相邻的像素都认为是属于待截取图像，否则可以确定出待截取图像的边缘；

S15、将待截取图像从输入文本中截出，并记录截出图像的尺寸和坐标。

而导入模块将由图像处理模块从输入文本中截取出的图像导入到后端的步骤包括：将截出图像以及其尺寸和坐标进行关联后导入到后端，以便于后端根据截出图像以及其尺寸和坐标将截出图像按照与其在输入文本中相同的位置呈现在word文档。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. word文档题目及内容自动识别切分与结构化转化导入系统 [P] . 中国专利： CN113139516A . 2021-07-20
2. 手机端分模块显示word文档内容的方法及系统 [P] . 中国专利： CN105975446A . 2016-09-28
3. Method and apparatus to import unstructured content into a content management system [P] . 美国专利： US2011173153A1 . 2011-07-14

机译：将非结构化内容导入内容管理系统的方法和装置
4. Automated identification and marking of new and changed content in a structured document [P] . 美国专利： US7487190B2 . 2009-02-03

机译：在结构化文档中自动识别和标记新内容和更改内容
5. Automated identification and marking of new and changed content in a structured document [P] . 美国专利： US2006047682A1 . 2006-03-02

机译：在结构化文档中自动识别和标记新内容和更改内容