公开/公告号CN112287652A
专利类型发明专利
公开/公告日2021-01-29
原文格式PDF
申请/专利权人 南京易杰智信息科技有限公司;
申请/专利号CN202011493135.8
申请日2020-12-17
分类号G06F40/186(20200101);G06F40/137(20200101);G06F40/40(20200101);G06K9/00(20060101);
代理机构32319 江苏舜点律师事务所;
代理人杜东辉
地址 210000 江苏省南京市江宁区紫金研创中心2号楼203室
入库时间 2023-06-19 09:44:49
技术领域
本发明属于智能翻译技术领域,具体涉及一种带格式图文的翻译方法、系统及装置。
背景技术
现有的翻译软件仅能实现翻译文本语句的功能,对于图文类文件而言,目前的翻译软件无法从图片中提取原文,并且翻译完之后无法自动生成有格式的译文。因此需要用户自己提取原文,然后将原文翻译成译文,最后再将译文手动填入译文模板中并编辑文档格式,如此一来就会严重影响工作效率。
发明内容
本发明所要解决的技术问题是:提供一种带格式图文的翻译方法、系统及装置,能够大幅减少用户侧的翻译工作量,以及编辑译文文件格式的时间。
本发明是这样实现的:一种带格式图文的翻译方法,包括如下过程:
获取带格式的图文文件;
识别所述图文文件中的文字及语种类型并将所述文字还原为原文;
识别所述图文文件的格式类型并根据所述格式类型确定相匹配的译文模板;
根据所述语种类型对所述原文进行翻译得到译文;
将所述译文填入选定的译文模板中得到译文终稿。
进一步地,所述识别所述图文文件中的文字并将其还原为原文的步骤包括如下过程:
对所述图文文件进行OCR文字识别,识别出文字及其语种类型;
提取识别出来的文字;
对提取出来的文字进行语句及段落划分得到原文。
进一步地,所述对提取出来的文字进行语句及段落划分得到原文的步骤的具体过程为:
提取出来的文字按照从上至下、从左往右的顺序形成语句和段落。
进一步地,还包括如下过程:
对所述原文进行修正并将修正结果作为待翻译的原文。
进一步地,所述识别所述图文文件的格式类型并根据所述格式类型确定相匹配的译文模板的步骤包括如下过程:
识别所述图文文件的格式类型;
根据所述格式类型在模板库中选择最新的模板;
识别所述最新的模板对应的译文文件格式并将其作为该图文文件的译稿模板。
进一步地,还包括如下过程:
对所述译文进行校对并将校对结果作为待填入译文模板的译文。
基于同样地发明构思,本发明还提供了一种带格式图文的翻译系统,包括:
获取模块,用于获取带格式的图文文件;
原文生成模块,用于识别所述图文文件中的文字及语种类型并将所述文字还原为原文;
模板生成模块,用于识别所述图文文件的格式类型并根据所述格式类型确定相匹配的译文模板;
翻译模块,用于根据所述语种类型对所述原文进行翻译得到译文;
译文生成模块,用于将所述译文填入选定的译文模板中得到译文终稿。
进一步地,所述原文生成模块包括:
文字识别子模块,用于对所述图文文件进行OCR文字识别,识别出文字及其语种类型;
文字提取子模块,用于提取识别出来的文字;
原文生成子模块,用于对提取出来的文字进行语句及段落划分得到原文。
进一步地,还包括:
原文修正模块,用于对所述原文进行修正并将修正结果作为所述翻译模块的输入数据。
进一步地,所述模板生成模块包括:
格式识别子模块,用于识别所述图文文件的格式类型;
模板选择子模块,用于根据所述格式类型在模板库中选择最新的模板;
模板生成子模块,用于识别所述最新的模板对应的译文文件格式并将其作为该图文文件的译稿模板。
进一步地,还包括:
译文校对模块,用于对所述译文进行校对并将校对结果作为所述译文生成模块的输入数据。
基于同样地发明构思,本发明还提供了一种带格式图文的翻译装置,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明带来的有益效果是:能够大幅减少用户侧的翻译工作量,以及编辑译文文件格式的时间,如此一来,用户只需关注翻译的结果而无需投入过多的精力和时间,简化了用户侧编辑文件格式的流程,并且提高了翻译质量。
附图说明
图1为本发明中实施例一的方法流程图;
图2为图1所示实施例一中步骤S02的子流程图;
图3为图1所示实施例一中步骤S04的子流程图;
图4为本发明中实施例二的方法流程图;
图5为图4所示实施例二中步骤S02的子流程图;
图6为图4所示实施例二中步骤S03的子流程图;
图7为本发明中系统的组成框图;
图8为图5所示系统中原文生成模块的组成框图;
图9为图5所示系统中模板生成模块的组成框图;
图10为本发明的装置结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
如图1至3所示,一种带格式图文的翻译方法,包括如下过程:
S01、获取带格式的图文文件。
、识别图文文件中的文字及语种类型并将文字还原为原文。
具体地,如图2所示,步骤S02还包括如下过程:
S021、对图文文件进行OCR文字识别,识别出文字及其语种类型,同时记录文字及其语种类型。
S022、提取识别出来的文字。
S023、对提取出来的文字进行语句及段落划分得到原文。具体地,划分过程为:提取出来的文字按照从上至下、从左往右的顺序形成语句和段落。
、对原文进行修正并将修正结果作为待翻译的原文。该步骤具体过程为:将OCR识别结果展示给用户,用户可以进行调整,完善原文的语句及段落划分,且对识别出错的文字进行修正,修正完后,用户进行提交形成最终待翻译的原文。
、识别图文文件的格式类型并根据格式类型确定相匹配的译文模板。
具体地,如图3所示,步骤S04还包括如下过程:
S041、识别图文文件的格式类型。
S042、根据格式类型在模板库中选择最新的模板。
S043、识别最新的模板对应的译文文件格式并将其作为该图文文件的译稿模板。
、根据语种类型对原文进行翻译得到译文。该步骤中,翻译过程由翻译软件完成,其属于现有技术,故不作赘述。
、对译文进行校对并将校对结果作为待填入译文模板的译文。该步骤具体过程为:将原文的语句及译文的语句进行一一对应并且进行段落对齐,同时对译文进行校对和修正,由用户进行上述调整后保存提交。
、将译文填入选定的译文模板中得到译文终稿。填模板结束后,自动生成译文文件,用于展示给用户,用户可以对译文文件的格式进行最后的校对,校对后提交即可生成译文终稿。
需要说明的是,步骤S02至步骤S05还可以以其它顺序进行,但要确保实施例一中步骤S03的输入数据来自步骤S02的输出结果,同样地,步骤S05的输入数据来自步骤S03的输出结果。
实施例二
如图4至6所示,一种带格式图文的翻译方法,包括如下过程:
S01、获取带格式的图文文件。
、识别图文文件的格式类型并根据格式类型确定相匹配的译文模板。
具体地,如图5所示,步骤S02还包括如下过程:
S021、识别图文文件的格式类型。
S022、根据格式类型在模板库中选择最新的模板。
S023、识别最新的模板对应的译文文件格式并将其作为该图文文件的译稿模板。
、识别图文文件中的文字及语种类型并将文字还原为原文。
具体地,如图6所示,步骤S03还包括如下过程:
S031、对图文文件进行OCR文字识别,识别出文字及其语种类型。
S032、提取识别出来的文字。
S033、对提取出来的文字进行语句及段落划分得到原文。具体地,划分过程为:提取出来的文字按照从上至下、从左往右的顺序形成语句和段落。
、对原文进行修正并将修正结果作为待翻译的原文。该步骤具体过程为:将OCR识别结果展示给用户,用户可以进行调整,完善原文的语句及段落划分,且对识别出错的文字进行修正,修正完后,用户进行提交形成最终待翻译的原文。
、根据语种类型对原文进行翻译得到译文。该步骤中,翻译过程由翻译软件完成,其属于现有技术,故不作赘述。
、对译文进行校对并将校对结果作为待填入译文模板的译文。该步骤具体过程为:将原文的语句及译文的语句进行一一对应并且进行段落对齐,同时对译文进行校对和修正,由用户进行上述调整后保存提交。
、将译文填入选定的译文模板中得到译文终稿。填模板结束后,自动生成译文文件,用于展示给用户,用户可以对译文文件的格式进行最后的校对,校对后提交即可生成译文终稿。
如图7所示,基于同样地发明构思,本发明还提供了一种带格式图文的翻译系统,包括获取模块1、原文生成模块2、原文修正模块3、模板生成模块6、翻译模块4、译文校对模块5和译文生成模块7。
其中,获取模块1用于获取带格式的图文文件;原文生成模块2用于识别图文文件中的文字及语种类型并将文字还原为原文;原文修正模块3用于对原文进行修正并将修正结果作为翻译模块4的输入数据;模板生成模块6用于识别图文文件的格式类型并根据格式类型确定相匹配的译文模板;翻译模块4用于根据语种类型对原文进行翻译得到译文;译文校对模块5用于对译文进行校对并将校对结果作为译文生成模块7的输入数据。译文生成模块7用于将译文填入选定的译文模板中得到译文终稿。
作为优选例,如图8所示,原文生成模块2包括文字识别子模块21、文字提取子模块22和原文生成子模块23。
其中,文字识别子模块21用于对图文文件进行OCR文字识别,识别出文字及其语种类型;文字提取子模块22用于提取识别出来的文字;原文生成子模块23用于对提取出来的文字进行语句及段落划分得到原文。
作为优选例,如图9所示,模板生成模块6包括格式识别子模块61、模板选择子模块62和模板生成子模块63。
其中,格式识别子模块61用于识别图文文件的格式类型;模板选择子模块62用于根据格式类型在模板库中选择最新的模板;模板生成子模块63用于识别最新的模板对应的译文文件格式并将其作为该图文文件的译稿模板。
如图10所示,基于同样地发明构思,本发明还提供了一种带格式图文的翻译装置,包括存储器100和处理器200,存储器100存储有计算机程序,处理器200执行计算机程序时实现实施例一和实施例二中方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
机译: 由交互式文字处理器在第二可编辑文档格式中转换第一绘图文档格式的方法是可行的,交互式或stapeltextverarbeitungs系统是可行的。
机译: 打印设置装置,计算机可读记录介质和图像形成系统,用于生成以包括在多种数据格式中的一种数据格式描述的打印设置信息,并将打印作业提交至能够基于打印设置执行打印作业的图像形成装置以多种数据格式描述的信息
机译: 用于飞机的飞行控制系统,具有配备有控制器的匹配装置,该控制器包括用于将设定值即数字设定值的一种格式转换为另一设定点即模拟设定值的另一种格式的转换单元。