首页> 中国专利> 一种保持版式的将图片转换为可编辑文本的方法及装置

一种保持版式的将图片转换为可编辑文本的方法及装置

摘要

本申请公开了一种保持版式的将图片转换为可编辑文本的方法,包括如下步骤。步骤S10:将图片转换为第一json数据。步骤S20:将第一json数据转换为可编辑的图形界面;其中,第一json数据中的纯文本、纯图片、纯表格、混合类型的数据分别转换为可编辑的图形界面上的纯文字的富文本对象、图片、表格、组合框。步骤S30:将编辑后的图形界面转换为第二json数据;其中,编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格、组合框分别转换生成相应的纯文本、纯图片、纯表格、混合类型的对应于第二json数据对象的模型,全部模型组合形成第二json数据。步骤S40:将第二json数据转换为可编辑的文本。上述方法在进行图片转换为可编辑文本的同时实现了版式不变。

著录项

说明书

技术领域

本申请涉及一种将图片转换为可编辑文本的方法。

背景技术

现有的将图片转换为可编辑文本的方法一般是通过OCR(Optical CharacterRecognition,光学字符识别)技术提取图片里的文字,从图片里提取出来的文本是没有排版的,因此转换后的文本不能与原图片保持相同的版式。

发明内容

本申请所要解决的技术问题是提出一种将图片转换为可编辑文本的方法,转换后的可编辑文本与原图片保持相同的版式。为此,本申请还提出一种将图片转换为可编辑文本的装置。

为解决上述技术问题,本申请提出的保持版式的将图片转换为可编辑文本的方法包括如下步骤。步骤S10:将图片转换为第一json数据;第一json数据中的数据类型包括纯文本、纯图片、纯表格、混合的任一种或多种。步骤S20:将第一json数据转换为可编辑的图形界面;其中,第一json数据中的纯文本、纯图片、纯表格、混合类型的数据分别转换为可编辑的图形界面上的纯文字的富文本对象、图片、表格、组合框;所述组合框中有多个纯文字、纯图片和/或纯表格的富文本对象。步骤S30:将编辑后的图形界面转换为第二json数据;其中,编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格、组合框分别转换生成相应的纯文本、纯图片、纯表格、混合类型的对应于第二json数据对象的模型,全部对应于第二json数据对象的模型组合形成第二json数据。步骤S40:将第二json数据转换为可编辑的文本。上述方法在将图片转换为可编辑文本的同时保持了版式不变。

进一步地,所述步骤S10中,混合类型的数据中的数据子类型包括纯文本、纯图片、纯表格的任一种或多种。第一json数据中的混合类型的数据在步骤S20输出的可编辑的图形界面上转换后能实现跨富文本段落的编辑操作。

进一步地,所述步骤S20中,对于第一json数据中的纯文本类型的数据,在可编辑的图形界面上以段落为单位创建对应内容的纯文字的富文本对象。

进一步地,所述步骤S20中,对于第一json数据中的纯图片类型的数据,在可编辑的图形界面上生成相应内容的图片。需要特别注意,虽然也有纯图片的富文本对象,但是这里在可编辑的图形界面上生成的是图片,而不是纯图片的富文本对象。

进一步地,所述步骤S20中,对于第一json数据中的纯表格类型的数据,在可编辑的图形界面上先创建一个空白的视图,然后在空白的视图上根据第一json数据中的纯表格绘制相应内容的表格;所绘制表格的每一个单元格对应于第一json数据中的纯表格类型数据里的每一个单元格对象,多个单元格组成一个完整的表格。需要特别注意,虽然也有纯表格的富文本对象,但是这里在可编辑的图形界面上绘制的是表格,而不是纯表格的富文本对象。

进一步地,所述步骤S20中,对于第一json数据中的混合类型的数据,在可编辑的图形界面上先创建一个组合框,然后在组合框内根据混合类型的数据的子类型是纯文本、纯图片、纯表格生成相应内容的富文本对象;子类型是纯文本的混合类型的数据还在组合框内以段落为单位生成富文本段落;所有富文本对象都属于某一个富文本段落;每个富文本段落的垂直位置根据第一json数据中的混合类型的数据中的段落间隔字段设置段落间距来决定;每个富文本段落的左右位置根据第一json数据中的混合类型的数据中的段落缩进字段决定。这里需要特别注意,在可编辑的图形界面上的组合框中,子类型是纯文本、纯图片、纯表格的第一json数据中的混合类型的数据分别生成的是纯文字的富文本对象、纯图片的富文本对象、纯表格的富文本对象。

进一步地,所述步骤S30中,所述编辑后的图形界面与步骤S20输出的可编辑的图形界面相同或不同。这表明步骤S20输出的可编辑的图形界面可由用户进行修改,也可由用户不进行修改。

进一步地,所述步骤S30中,对于编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格,分别生成相应的纯文本、纯图片、纯表格类型的对应于第二json数据对象的模型。

进一步地,所述步骤S30中,对于编辑后的图形界面中的组合框,遍历组合框中的每一个富文本对象,将每一个富文本对象按照它的类型是文本、图片或表格分别生成相应内容的纯文本、纯图片、纯表格子类型的对应于第二json数据子对象的子模型;一个组合框内的全部富文本对象对应生成的全部对应于第二json数据子对象的子模型组合形成对应于混合类型的第二json数据对象的模型。

本申请还提出了一种保持版式的将图片转换为可编辑文本的装置,包括第一转换单元、第二转换单元、第三转换单元和第四转换单元。所述第一转换单元用来将图片转换为第一json数据;第一json数据中的数据类型包括纯文本、纯图片、纯表格、混合的任一种或多种。所述第二转换单元用来将第一json数据转换为可编辑的图形界面;其中,第一json数据中的纯文本、纯图片、纯表格、混合类型的数据分别转换为可编辑的图形界面上的纯文字的富文本对象、图片、表格、组合框;所述组合框中有多个纯文字、纯图片和/或纯表格的富文本对象。所述第三转换单元用来将编辑后的图形界面转换为第二json数据;其中,编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格、组合框分别转换生成相应的纯文本、纯图片、纯表格、混合类型的对应于第二json数据对象的模型,全部对应于第二json数据对象的模型组合形成第二json数据。所述第四转换单元用来将第二json数据转换为可编辑的文本。上述装置在将图片转换为可编辑文本的同时保持了版式不变。

本申请取得的技术效果是使得从图片转换而来的可编辑文本与原图片保持相同版式,即原图片上的文字、表格、图片等元素的位置和大小在转换后的可编辑文本中依然保持不变。

附图说明

图1是本申请提出的保持版式的将图片转换为可编辑文本的方法的流程示意图。

图2是本申请提出的保持版式的将图片转换为可编辑文本的装置的结构示意图。

图3是一幅包含文本、图片、表格的图片的示意图。

图4是由图3转换得到的可编辑文本的示意图。

图中附图标记说明:10为第一转换单元、20为第二转换单元、30为第三转换单元、40为第四转换单元。

具体实施方式

请参阅图1,本申请提出的保持版式的将图片转换为可编辑文本的方法包括如下步骤。

步骤S10:将图片转换为json数据,称为第一json数据。这是一种现有技术,在此不做赘述。第一json数据中包含最多4种数据类型,分别是纯文本、纯图片、纯表格、混合。混合类型是指纯文本、纯图片、纯表格的任意组合。混合类型的数据中包含最多3种数据子类型,分别是纯文本、纯图片、纯表格。

步骤S20:将第一json数据转换为可编辑的图形界面。所述可编辑的图形界面提供给用户,可供用户检查或修改编辑。其中,第一json数据中的纯文本、纯图片、纯表格类型的数据分别转换为可编辑的图形界面上的纯文字的富文本对象、图片、表格。富文本对象包括纯文字(文本)、纯图片、纯表格等类型,这里只用到纯文字类型的富文本对象。第一json数据中的混合类型的数据转换为可编辑的图形界面上的组合框,所述组合框中有多个纯文字、纯图片和/或纯表格的富文本对象;这里用到了三种类型的富文本对象。

对于第一json数据中的纯文本,在可编辑的图形界面上以段落为单位创建对应内容的纯文字的富文本对象。富文本对象的属性比如坐标、字号等就是根据第一json数据中的纯文本的段落而设置。每个富文本对象在可编辑的图形界面上呈现出来的是一个矩形框。

对于第一json数据中的纯图片,在可编辑的图形界面上生成相应的图片,而不是生成纯图片的富文本对象。所生成图片的坐标就是根据第一json数据中的纯图片而设置。每个生成的图片在可编辑的图形界面上呈现出来的是一个矩形框。

对于第一json数据中的纯表格,在可编辑的图形界面上先创建一个空白的视图,然后在空白的视图上根据第一json数据中的纯表格绘制相应的表格。所绘制表格的每一个单元格对应于第一json数据中的纯表格类型数据里的每一个单元格对象,多个单元格组成一个完整的表格。需注意这里不是生成纯表格的富文本对象。每个绘制的表格在可编辑的图形界面上呈现出来的是一个矩形框。

对于第一json数据中的混合类型的数据,在可编辑的图形界面上先创建一个大的矩形框,称为组合框。然后在组合框内根据混合类型的数据的子类型是纯文本、纯图片、纯表格生成相应内容的富文本对象。对于子类型是纯文本的混合类型的数据,在组合框内以段落为单位生成富文本段落,富文本段落中不同属性(字体、颜色、大小等)的部分分别作为不同的纯文字的富文本对象。对于子类型是纯图片的混合类型的数据,在组合框内生成纯图片的富文本对象,并且该纯图片的富文本对象属于某一个富文本段落。对于子类型是纯表格的混合类型的数据,在组合框内生成纯表格的富文本对象,并且该纯表格的富文本对象属于某一个富文本段落。每个富文本段落的垂直位置根据第一json数据中的混合类型的数据中的段落间隔(paragraph_gap)字段设置段落间距来决定。每个富文本段落的左右位置根据第一json数据中的混合类型的数据中的段落缩进字段(例如左缩进indent_left、右缩进indent_right)决定。每个混合类型的数据在可编辑的图形界面上呈现出来的是一个组合框,组合框内的每个富文本对象分别是纯文本、纯图片、纯表格的类型之一。当用户在组合框内编辑时,就可以对组合框内的所有富文本对象全选,还能实现富文本段落合并、富文本段落拆分、换行时所有文字自动跟着往下移动等跨富文本段落的编辑操作。

步骤S30:将编辑后的图形界面转换为json数据,称为第二json数据。其中,编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格、组合框分别转换生成相应内容的纯文本、纯图片、纯表格、混合类型的对应于第二json数据对象的模型,全部对应于第二json数据对象的模型组合形成第二json数据。所述编辑后的图形界面可以与步骤S20输出的可编辑的图形界面相同或不同。

对于编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格,分别生成相应的纯文本、纯图片、纯表格类型的对应于第二json数据对象的模型。

对于编辑后的图形界面中的组合框,遍历组合框中的每一个富文本对象,将每一个富文本对象按照它的类型是纯文字、纯图片或纯表格分别生成相应的纯文本、纯图片、纯表格子类型的对应于第二json数据子对象的子模型。每个对应于第二json数据子对象的子模型的值由富文本对象的当前属性值决定。一个组合框内的全部富文本对象对应生成的全部对应于第二json数据子对象的子模型组合形成混合类型的对应于第二json数据对象的模型。

步骤S40:将第二json数据转换为可编辑的文本,例如word格式的文件。这是一种现有技术,在此不做赘述。

请参阅图2,本申请提出的保持版式的将图片转换为可编辑文本的装置包括第一转换单元10、第二转换单元20、第三转换单元30和第四转换单元40。

所述第一转换单元10用来将图片转换为json数据,称为第一json数据。第一json数据中包含最多4种数据类型,分别是纯文本、纯图片、纯表格、混合。

所述第二转换单元20用来将第一json数据转换为可编辑的图形界面。其中,第一json数据中的纯文本、纯图片、纯表格类型的数据分别转换为可编辑的图形界面上的纯文字的富文本对象、图片、表格,第一json数据中的混合类型的数据转换为可编辑的图形界面上的组合框,所述组合框中有多个纯文字、纯图片和/或纯表格的富文本对象。

所述第三转换单元30用来将编辑后的图形界面转换为json数据,称为第二json数据。其中,编辑后的图形界面中的每一个纯文字的富文本对象、图片、表格、组合框分别转换生成相应的纯文本、纯图片、纯表格、混合类型的对应于第二json数据对象的模型,全部对应于第二json数据对象的模型组合形成第二json数据。

所述第四转换单元40用来将第二json数据转换为可编辑的文本。

请参阅图3和图4,本申请可将图3所示的包含文本、图片、表格的图片转换为图4所示的可编辑文本,并且转换后的可编辑文本的版式(图4)与原图片的版式(图3)保持一致,这特别适合对转换效果进行检查,并进行后续的文字处理等操作。转换过程中,混合类型的第一json数据可在步骤S20所输出的可编辑的图形界面上进行跨富文本段落的编辑操作,突破了现有技术的限制。

以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号