公开/公告号CN106557569A
专利类型发明专利
公开/公告日2017-04-05
原文格式PDF
申请/专利权人 用友网络科技股份有限公司;
申请/专利号CN201611033501.5
申请日2016-11-14
分类号G06F17/30;
代理机构北京友联知识产权代理事务所(普通合伙);
代理人尚志峰
地址 100094 北京市海淀区北清路68号
入库时间 2023-06-19 01:53:56
法律状态公告日
法律状态信息
法律状态
2020-07-03
授权
授权
2017-05-03
实质审查的生效 IPC(主分类):G06F17/30 申请日:20161114
实质审查的生效
2017-04-05
公开
公开
技术领域
本发明涉及业务数据处理技术领域,具体而言,涉及一种基于元模型的非结构化文档的导入方法和一种基于元模型的非结构化文档的导入装置。
背景技术
对于现在的大型企业,特别是专注于ERP(Enterprise Resource Planning,企业资源计划)行业的企业来说,每天都会有成千上万张的业务单据被录入到企业管理的业务系统中,单据量越大,对业务人员的压力也就越大,因为这些数据都是要实时录入并被使用的。但是,在业务单据复杂多样、且量比较大的情况下,每种业务单据的录入信息都不一样,这就给录单人员造成很大的压力。
因此,如何快速、高效地将数据导入到业务系统中成为亟待解决的技术问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,可以快速、高效地将数据导入到业务系统中,从而减少录单人员的工作压力。
有鉴于此,本发明的第一方面提出了一种基于元模型的非结构化文档的导入方法,包括:构建元模型;根据所述元模型,将来自于至少一种业务单据的多个列元数据组合成非结构化文档;接收用户的输入指令,向所述非结构化文档中输入数据;若接收到向所述非结构化文档中输入完数据的信号,则根据所述元模型将所述非结构化文档中的数据转换成结构化数据;将所述结构化数据导入到业务系统中。
在该技术方案中,通过构建元模型,以根据该元模型将多个列元数据组合成非结构化文档,就可以向非结构化文档中批量录入待导入到业务系统的数据,在数据录入完成之后,根据元模型将非结构化文档转换成结构化文档来导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。本方案特别是对于待录入到业务系统的数据量非常大的情况,可以大大提高数据录入的效率。另外,本方案可以针对不同类型的业务单据,构建出不同的元模型,从而满足录入多种类型的业务单据的需求。
在上述技术方案中,优选地,所述根据所述元模型将所述非结构化文档中的数据转换成结构化数据的步骤,具体包括:根据所述元模型解析所述非结构化文档,以将所述非结构化文档解析成表元数据;将解析得到的所述表元数据作为所述结构化数据。
在该技术方案中,通过将非结构化文档解析成表元数据,从而转换成结构化文档,以将该结构化文档导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。
在上述任一技术方案中,优选地,所述构建元模型的步骤,还包括:为所述元模型的至少一个列中的每个列设置值域范围;以及在将所述非结构化文档解析成所述表元数据之后,还包括:获取所述表元数据中的所有列元数据,并获取所述元模型的对应所述所有列元数据中的每个列元数据的所述值域范围;根据对应所述每个列元数据的所述值域范围,对所述每个列元数据进行数据校验;根据校验结果,确定是否将所述结构化数据导入到所述业务系统中。
在该技术方案中,在构建元模型时为元模型中的每列设置值域范围,以在录入完数据后,根据该值域范围对表元数据中的每个列元数据进行数据校验,从而实现对录入的数据的自动检查,提高了向业务系统中导入的数据的准确性。
在上述任一技术方案中,优选地,还包括:在对所述所有列元数据中的任一列元数据校验失败时,提示用户所述任一列元数据输入错误。
在该技术方案中,通过提示用于校验失败的列元数据输入错误,以使用户重新输入正确的数据,从而保证了录入到业务系统中数据的准确性。
在上述任一技术方案中,优选地,所述元模型包括表头和表体,以及所述元模型的属性包括以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
在该技术方案中,由于业务单据中包括有表头和表体,所以元模型是基于业务单据的模式,元模型也包括有表头和表体。元模型的最小单位是列,因此,元模型的属性包括但不限于以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
本发明的第二方面提出了一种基于元模型的非结构化文档的导入装置,包括:构建单元,用于构建元模型;组合单元,用于根据所述元模型,将来自于至少一种业务单据的多个列元数据组合成非结构化文档;输入单元,用于接收用户的输入指令,向所述非结构化文档中输入数据;转换单元,用于若接收到向所述非结构化文档中输入完数据的信号,则根据所述元模型将所述非结构化文档中的数据转换成结构化数据;导入单元,用于将所述结构化数据导入到业务系统中。
在该技术方案中,通过构建元模型,以根据该元模型将多个列元数据组合成非结构化文档,就可以向非结构化文档中批量录入待导入到业务系统的数据,在数据录入完成之后,根据元模型将非结构化文档转换成结构化文档来导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。本方案特别是对于待录入到业务系统的数据量非常大的情况,可以大大提高数据录入的效率。另外,本方案可以针对不同类型的业务单据,构建出不同的元模型,从而满足录入多种类型的业务单据的需求。
在上述任一技术方案中,优选地,所述转换单元包括:解析子单元,用于根据所述元模型解析所述非结构化文档,以将所述非结构化文档解析成表元数据;确定子单元,用于将解析得到的所述表元数据作为所述结构化数据。
在该技术方案中,通过将非结构化文档解析成表元数据,从而转换成结构化文档,以将该结构化文档导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。
在上述技术方案中,优选地,所述构建单元还用于,为所述元模型的至少一个列中的每个列设置值域范围;以及还包括:获取单元,用于获取所述表元数据中的所有列元数据,并获取所述元模型的对应所述所有列元数据中的每个列元数据的所述值域范围;校验单元,用于根据对应所述每个列元数据的所述值域范围,对所述每个列元数据进行数据校验;确定单元,用于根据校验结果,确定是否将所述结构化数据导入到所述业务系统中。
在该技术方案中,在构建元模型时为元模型中的每列设置值域范围,以在录入完数据后,根据该值域范围对表元数据中的每个列元数据进行数据校验,从而实现对录入的数据的自动检查,提高了向业务系统中导入的数据的准确性。
在上述任一技术方案中,优选地,还包括:提示单元,用于在对所述所有列元数据中的任一列元数据校验失败时,提示用户所述任一列元数据输入错误。
在该技术方案中,通过提示用于校验失败的列元数据输入错误,以使用户重新输入正确的数据,从而保证了录入到业务系统中数据的准确性。
在上述任一技术方案中,优选地,所述元模型包括表头和表体,以及所述元模型的属性包括以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
在该技术方案中,由于业务单据中包括有表头和表体,所以元模型是基于业务单据的模式,元模型也包括有表头和表体。元模型的最小单位是列,因此,元模型的属性包括但不限于以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
通过本发明的技术方案,可以快速、高效地将数据导入到业务系统中,从而减少录单人员的工作压力。
附图说明
图1示出了根据本发明的一个实施例的基于元模型的非结构化文档的导入方法的流程示意图;
图2示出了根据本发明的另一个实施例的基于元模型的非结构化文档的导入方法的流程示意图;
图3示出了本发明的实施例的表元数据和列元数据之间的关系示意图;
图4示出了根据本发明的一个实施例的基于元模型的非结构化文档的导入装置的结构示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的基于元模型的非结构化文档的导入方法的流程示意图。
如图1所示,根据本发明的一个实施例的基于元模型的非结构化文档的导入方法,包括:
步骤102,构建元模型。
步骤104,根据所述元模型,将来自于至少一种业务单据的多个列元数据组合成非结构化文档。
例如有三个列元数据,其中两个列元数据来自于货物运输单据,另一个列元数据来自于货物保价单据。或者三个列元数据均来自于货物运输单据。
步骤106,接收用户的输入指令,向所述非结构化文档中输入数据。
步骤108,若接收到向所述非结构化文档中输入完数据的信号,则根据所述元模型将所述非结构化文档中的数据转换成结构化数据。
步骤110,将所述结构化数据导入到业务系统中。
在该技术方案中,通过构建元模型,以根据该元模型将多个列元数据组合成非结构化文档,就可以向非结构化文档中批量录入待导入到业务系统的数据,在数据录入完成之后,根据元模型将非结构化文档转换成结构化文档来导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。本方案特别是对于待录入到业务系统的数据量非常大的情况,可以大大提高数据录入的效率。另外,本方案可以针对不同类型的业务单据,构建出不同的元模型,从而满足录入多种类型的业务单据的需求。
在上述技术方案中,优选地,步骤104具体包括:根据所述元模型解析所述非结构化文档,以将所述非结构化文档解析成表元数据;将解析得到的所述表元数据作为所述结构化数据。
在该技术方案中,通过将非结构化文档解析成表元数据,从而转换成结构化文档,以将该结构化文档导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。
在上述任一技术方案中,优选地,步骤102还包括:为所述元模型的至少一个列中的每个列设置值域范围;以及在将所述非结构化文档解析成所述表元数据之后,还包括:获取所述表元数据中的所有列元数据,并获取所述元模型的对应所述所有列元数据中的每个列元数据的所述值域范围;根据对应所述每个列元数据的所述值域范围,对所述每个列元数据进行数据校验;根据校验结果,确定是否将所述结构化数据导入到所述业务系统中。
在该技术方案中,在构建元模型时为元模型中的每列设置值域范围,以在录入完数据后,根据该值域范围对表元数据中的每个列元数据进行数据校验,从而实现对录入的数据的自动检查,提高了向业务系统中导入的数据的准确性。
例如,设置元模型中的性别这一列的值域范围为:男和女。当表元数据中的性别这一列的列元数据出现了数字或者符号,可以确定用户输入的数据是错误的,则不将结构化数据导入到业务系统中。再例如,设置元模型中的数据这一列的值域范围为:大于或等于0。当表元数据中的数据这一列的列元数据出现了负数,可以确定用户输入的数据是错误的,则不将结构化数据导入到业务系统中。
在上述任一技术方案中,优选地,还包括:在对所述所有列元数据中的任一列元数据校验失败时,提示用户所述任一列元数据输入错误。
在该技术方案中,通过提示用于校验失败的列元数据输入错误,以使用户重新输入正确的数据,从而保证了录入到业务系统中数据的准确性。
在上述任一技术方案中,优选地,所述元模型包括表头和表体,以及所述元模型的属性包括以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
在该技术方案中,由于业务单据中包括有表头和表体,所以元模型是基于业务单据的模式,元模型也包括有表头和表体。元模型的最小单位是列,每一列也是一个元模型。元模型的属性包括但不限于以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
图2示出了根据本发明的另一个实施例的基于元模型的非结构化文档的导入方法的流程示意图。
如图2所示,根据本发明的另一个实施例的基于元模型的非结构化文档的导入方法,包括:
步骤202,构建元模型。
元模型包括表头和表体,表头是由多个单个表头的列组合而成,表体是由多个单个表体的列组合而成,表头和表体组合成一张完整表的元模型。
步骤204,根据元模型,将来自于至少一种业务单据的多个列元数据组合成非结构化文档。
在现有技术中,不同类型的业务单据需要完全不同的代码支撑。比如对于普通的货物运输单据,以excel为例,需要通过代码把这张货物运输单据一列一列的绘制出来,如果此时出现另一张货物报价单据,必须要重新用代码支撑。而在本方案中,通过元模型就实现了代码复用,避免了使用不同的代码来支撑不同类型的业务单据。
如图3所示,非结构化文档实质上是表元数据,表元数据由列元数据组成。列元数据存储了列名称、列层次、列主题、列数据类型、列值域等等的属性信息。通过值域初始器把表元数据的每一列输入的值域都初始化。
步骤206,接收用户的输入指令,向非结构化文档中输入数据。
步骤208,在向非结构化文档中输入完数据时,解析非结构化文档得到表元数据,并解析表元数据的每一列,得到所有列元数据。
步骤210,判断每列元数据是否在值域范围内,若表元数据的任一列元数据不在值域范围内,则说明用户输入的数据错误,执行步骤206,以使用户重新输入数据,若表元数据的每一列元数据均在值域范围内,则执行步骤212。
步骤212,将表元数据翻译成业务系统数据。
步骤214,判断是否通过业务校验,若通过业务校验,则执行步骤216,若未通过业务校验,说明用户输入的数据错误,执行步骤206。
步骤216,将业务系统数据导入到业务系统中。
图4示出了根据本发明的一个实施例的基于元模型的非结构化文档的导入装置的结构示意图。
如图4所示,根据本发明的一个实施例的基于元模型的非结构化文档的导入装置400,包括:构建单元402、组合单元404、输入单元406、转换单元408和导入单元410。
构建单元402,用于构建元模型;组合单元404,用于根据所述元模型,将来自于至少一种业务单据的多个列元数据组合成非结构化文档;输入单元406,用于接收用户的输入指令,向所述非结构化文档中输入数据;转换单元408,用于若接收到向所述非结构化文档中输入完数据的信号,则根据所述元模型将所述非结构化文档中的数据转换成结构化数据;导入单元410,用于将所述结构化数据导入到业务系统中。
在该技术方案中,通过构建元模型,以根据该元模型将多个列元数据组合成非结构化文档,就可以向非结构化文档中批量录入待导入到业务系统的数据,在数据录入完成之后,根据元模型将非结构化文档转换成结构化文档来导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。本方案特别是对于待录入到业务系统的数据量非常大的情况,可以大大提高数据录入的效率。另外,本方案可以针对不同类型的业务单据,构建出不同的元模型,从而满足录入多种类型的业务单据的需求。
在上述任一技术方案中,优选地,所述转换单元408包括:解析子单元4082,用于根据所述元模型解析所述非结构化文档,以将所述非结构化文档解析成表元数据;确定子单元4084,用于将解析得到的所述表元数据作为所述结构化数据。
在该技术方案中,通过将非结构化文档解析成表元数据,从而转换成结构化文档,以将该结构化文档导入到业务系统中,从而实现了快速、高效地将数据导入到业务系统中,进而减少录单人员的工作压力。
在上述技术方案中,优选地,所述构建单元402还用于,为所述元模型的至少一个列中的每个列设置值域范围;以及基于元模型的非结构化文档的导入装置400还包括:获取单元412,用于获取所述表元数据中的所有列元数据,并获取所述元模型的对应所述所有列元数据中的每个列元数据的所述值域范围;校验单元414,用于根据对应所述每个列元数据的所述值域范围,对所述每个列元数据进行数据校验;确定单元416,用于根据校验结果,确定是否将所述结构化数据导入到所述业务系统中。
在该技术方案中,在构建元模型时为元模型中的每列设置值域范围,以在录入完数据后,根据该值域范围对表元数据中的每个列元数据进行数据校验,从而实现对录入的数据的自动检查,提高了向业务系统中导入的数据的准确性。
例如,设置元模型中的性别这一列的值域范围为:男和女。当表元数据中的性别这一列的列元数据出现了数字或者符号,可以确定用户输入的数据是错误的,则不将结构化数据导入到业务系统中。再例如,设置元模型中的数据这一列的值域范围为:大于或等于0。当表元数据中的数据这一列的列元数据出现了负数,可以确定用户输入的数据是错误的,则不将结构化数据导入到业务系统中。
在上述任一技术方案中,优选地,基于元模型的非结构化文档的导入装置400还包括:提示单元418,用于在对所述所有列元数据中的任一列元数据校验失败时,提示用户所述任一列元数据输入错误。
在该技术方案中,通过提示用于校验失败的列元数据输入错误,以使用户重新输入正确的数据,从而保证了录入到业务系统中数据的准确性。
在上述任一技术方案中,优选地,所述元模型包括表头和表体,以及所述元模型的属性包括以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
在该技术方案中,由于业务单据中包括有表头和表体,所以元模型是基于业务单据的模式,元模型也包括有表头和表体。元模型的最小单位是列,因此,元模型的属性包括但不限于以下之一或多种的组合:列名称、列对应的数据类型、列对应的数据是否可空。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,可以快速、高效地将数据导入到业务系统中,从而减少录单人员的工作压力。
在本发明中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”表示两个或两个以上。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 文档数据导入方法和装置,文档数据导出方法和装置,以及存储介质
机译: 分子导入装置,分子导入装置的辅助工具及分子导入方法
机译: 生物物质导入装置,生物物质导入方法及生物物质导入磁性载体