首页> 中国专利> 一种自动取录电子文档中指定内容的方法

一种自动取录电子文档中指定内容的方法

摘要

本发明公开了一种自动取录电子文档中指定内容的方法,通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;然后在预设的文件集路径中查找与文档名识别符相符的待取录文档;通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;再通过预设的制表分隔符对入库文档进行模式化,形成统一的模式化文档;按格式特征分别选取若干模式化文档,仅保留内容相同的内容,分别生成若干模板文档;再按各模板为取录内容命名,并预设取录内容的所在位置;最后遍历选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;并记录已取录的内容。本发明解决了文档内容取录的难题,具有可移植性和通用性。

著录项

  • 公开/公告号CN103177064A

    专利类型发明专利

  • 公开/公告日2013-06-26

    原文格式PDF

  • 申请/专利权人 师建中;

    申请/专利号CN201210517787.X

  • 发明设计人 师建中;郝华杰;

    申请日2012-12-05

  • 分类号G06F17/30(20060101);

  • 代理机构44100 广州新诺专利商标事务所有限公司;

  • 代理人王玺建

  • 地址 510180 广东省广州市越秀区玉华北约34号401房

  • 入库时间 2024-02-19 19:20:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-22

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20161005 终止日期:20181205 申请日:20121205

    专利权的终止

  • 2016-10-05

    授权

    授权

  • 2016-09-28

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20121205

    著录事项变更

  • 2013-07-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121205

    实质审查的生效

  • 2013-06-26

    公开

    公开

说明书

技术领域

本发明涉及计算机信息技术领域,特别涉及一种利用计算机辅助设计技术实现自动取录电子文档中指定内容的方法。

背景技术

现代信息工程(特别是标准化、实时监控、物联网等业务)的应用,产生了大量以计算机电子文档(以下简称文档)样式存在的分析、检验及测量结果报告,这些文档由各种仪器设备或人工填写而产生,在实际工作中,需要对此类文档进行实时识别、取录其中的指定数据、文字或内容。因而,近年来人们利用快速发展的计算机软、硬件技术,通过大量设计建造实验室信息管理系统(NIMS),工业生产数控系统(DCS),乃至各种商业、政务、资讯服务类信息系统,期望在海量的、烦琐的文档内容取录技术中实现自动化、实时化。

然而,计算机提供的信息处理功能,还不能像经过专业训练的人一样,通过对文档的文字阅读和分隔样式认定,识别出所需内容的所在位置;除非未来的计算机能够像人脑般基于语言、图案而不是仅基于符号进行信息处理。因而,计算机只能针对特定样式(格式)的文档,通过设定一系列用以区分位置,并从指定的位置提取其中的数据、文字和内容,形成可用于计算机程序的建模,通过计算机程序实现自动取录。

在现有技术开发的系统中,通常设计开发的过程如下:

(1)按应用需求,收集所有要求自动取录其中内容的文档的样板,确定其查找路径、目录、文档名称,以及使其能够被唯一选定的若干特征;

(2)针对每一种文档样板,按其所属专业,确定需要从中读取的各内容的命名,用以判断内容所在位置的特征,以及适用该文档类型的提取技术手段;

(3)按照上述过程产生的文档内容取录作业清单,分析总结出一整套既定建模,进而设计伺服性特定业务软件;为每一种文档样板,编写专用程序部份;自动、实时地遵循其建模,识别、提取新生成(或未处理)的文档,并按其所在位置识别和内容命名编制,完成数据、文字取录;

(4)通过实际应用现场试验运行,逐渐修正、完善建模编制,并调整、改编相应的程序部份。

显然,由于现有系统是基于既定建模设计的,也就难免出现以下技术缺陷或不足:

(1)现有技术要求编程人员,能够通过文档内容使用方的专业人员的讲解和操作示范,透彻地认知所需处理的每一种文档样板,针对各种取录内容的识别特征形成其既定建模。这种方式的结果和应用成效,都受限于编程人员对被处理文档内容的掌握水平和对相关专业的理解程度,难以统一标准。

(2)如果某个既定建模的编制发生改变,或者需要增加新的文档内容取录作业,都需要由原班编程人员进行程序扩容、升级。这不仅造成了工程建设的工耗、时耗增加,而且带来升级停止后无法继续适用的风险。

(3)现代化的信息管理与服务系统,在文档内容取录作业方面的多样性、多变性和不可预定性,使现有技术开发的程序难以形成通用产品,即使在同一系统上也很难持续与其业务发展相适应,结果导致需要重复、反复投资建设。

(4)现有技术未发挥计算机人工智能、计算机辅助设计等方面的优势,欠缺前瞻性和推动性,使工程投入与应用功能之间的性价比欠佳。

(5)电子文档所属专业的技术人员所拥有的,且不断增长的专业知识和经验,难以在现有技术建造的信息系统的持续运行中得到及时利用,对专业人员业务水平提升反而产生局限性等负面作用。

发明内容

针对现有技术中存在的技术缺陷,为了突破现有的文档内容取录方法不能适用于现代化信息系统,特别是其作业需求具有多样性、多变性及不可预定性的难题,本发明的目的在于提供一种自动取录电子文档中指定内容的方法。

本发明所采用的技术方案:一种自动取录电子文档中指定内容的方法,包括以下步骤:

(1)通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;

(2)在预设的文件集路径中查找与文档名识别符相符的待取录文档;

(3)文档入库,通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;

(4)文档模式化,通过预设的制表分隔符对入库文档进行模式化,形成统一为表格的模式化文档;

(5)按格式特征分别选取若干模式化文档,仅保留内容相同的各位置内容,分别生成若干模板文档;

(6)按各模板为取录内容命名,并预设取录内容的所在位置;

(7)遍历(逐一地)选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;

(8)记录已取录的内容。

上述步骤(1)中的文档名识别符为文档名中存在的各段固定不变的文字。

上述步骤(3)中所查询待取录文档的属性为文档创建时间和修改时间,并按照该文档的最新修改时间定义入库文档。

上述步骤(4)中所形成的模式化文档为电子表格文档。

上述步骤(5)中所选模式化文档的数量至少为两篇。所述步骤(5)在生成模板文档之后,进一步为该模版文档命名;在同一任务中生成的多个模板文档定义为一个模板集;并保存到设定模板集

上述步骤(6)中取录内容的所在位置采用行、列表示。

本发明利用计算机辅助技术实现了对电子文档中指定内容的自动取录,采用自行动态建模的方法,从而摆脱了现有技术的阻碍。具体而言,本发明具有以下优点:

(1)解决了现代信息系统的文档内容取录作业多样性、多变性及不可预定性的难题;

(2)改变将既定建模固化为计算机程序的简单做法,转而由用户随时根据作业需求,发挥自身专业知识、经验优势,在计算机辅助技术的支持下实现自行动态建模;

(3)使文档内容取录的计算机程序工具化,且具有可移植性和通用性;

(4)通过该方法可以将被取录文档按预设定的制表符模式化为同一书写样式的表格文档,以引用多个模式化文档的内容生成模板(相当于未填写的“空白表”),将模式化文档与模板进行同位印对(在相同的位置印证对照)以确定取录的数据、文字和内容等。

附图说明

图1是本发明的流程示意图;

图2是本发明所述取录电子文档中指定内容的计算机程序图;

图3是本发明的操作界面示意图。其中,图中各构件的编号、名称及作用如下:

1——任务列选、输入框;

2——任务添加按键;

3——任务删除按键;

4——仪器设备列选、输入框;

5——仪器设备添加按键;

6——仪器设备删除按键;

7——文档路径列选、输入框;

8——文档路径添加按键;

9——文档路径删除按键;

10——文档名称识别符列选、输入框;

11——文档名称识别符添加按键;

12——文档名称识别符删除按键;

13——制表分隔符列选、输入框;

14——制表分隔符添加按键;

15——制表分隔符删除按键;

16——模板集列选、输入框;

17——模板集添加按键;

18——模板集删除按键;

19——模板列选、输入框;

20——模板添加按键;

21——模板删除按键;

22——取录内容命名列选、输入框;

23——取录内容命名添加按键;

24——取录内容命名删除按键;

25——取录内容所在行输入框;

26——取录内容所在列输入框;

27——已完成取录模式化文档列表;

28——已取录内容命名列表;

29——取录得,数据、文字显示;

30——取录自,行显示;

31——取录自,列显示;

32——退回重新取录按键;

33——等待取录模式化文档列表;

34——生成模板用模式化文档列表

35——添加选定文档按键;

36——取消选定文档按键;

37——停止/进行自动取录按键;

38——人工取录按键。

具体实施方式

本发明建立的技术方法是基于对以下事实与规律的认知:

记载数据、文字内容的文档,无论采用何种属于在用人类文化的书写样式,即使原来不是表格书写样式,也都可以用设定的字符作为制表分隔符,产生其表格书写样式的文档,且被填充分格的数量,取决于原文档中出现该制表分隔符的数量,且所填充产生的表格记载内容与原文档完全相同;本发明称此为模式化文档。

由仪器设备重复执行同一作业任务所提交的(还有虽需人工填写,但遵从规定书写样式提交的)任意多个文档,在采用同一制表符产生的各模式化文档之间,如果仅保留在所有参比表格中均具有相同(固定)内容的分格的内容,将得到一个“空白表”——其“控白”程度取决于参比模式化文档数量与涉及日期时间跨度;如果以这个“空白表”为模板,则,可依据与模板不为空分格印对全部符合,确定来自同一提交链路,并以同一制表分隔符产生的模式化文档为适用本模板(如模板全部分格为空则自然适用),进而可按照预定的,从属于本模板的取录内容定位编制,从被印对的模式化文档中获得所需数据、文字。

可使用已有的,需要从中取录数据、文字的文档,进行全自建模,获得取录操作从属关系编制,特别是等同于未填写的“空白表”样式的模板。其所需软件的设计开发,仅需解决简约的计算机辅助设计支持,与自动按从属关系编制执行取录作业。

从复杂、困难程度比较,能够满足实验室信息管理系统(NIMS)中文档数据自动取录需求的技术手段与方案,无疑最为优越、通用,且容易推广引用到其他门类信息系统。

因而,此间以应用于实验室信息管理系统(NIMS))的技术实施例,描述本发明的技术手段与运作机制。

如图1、2所示,本发明所述自动取录电子文档中指定内容的方法的工作流程和原理如下:

(1)通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;

(2)在预设的文件集路径中查找与文档名识别符相符的待取录文档;

(3)文档入库,通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;

(4)文档模式化,通过预设的制表分隔符对入库文档进行模式化,形成统一为表格的模式化文档;

(5)按格式特征分别选取若干模式化文档,仅保留内容相同的各位置内容,分别生成若干模板文档;

(6)按各模板为取录内容命名,并预设取录内容的所在位置;

(7)遍历选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;

(8)记录已取录的内容。

如图3所示,本发明所述自动取录电子文档中指定内容的操作流程如下(以下描述中的标号名称详见附图说明):

在1选定或输入自设的,提交文档的各作业任务的名称;并可使用2、3进行添加、删除。

在1有选定时,则,可在4选定或输入其下各仪器设备;并可使用5、6进行添加、删除。

在1、4有选定时,则,可在7选定或输入其下(文档)各查找路径;并可使用8、9进行添加、删除。

在1、4、7有选定时,则,可在10选定或输入其下各文档名识别符;并可使用11、12进行添加、删除;此名称识别符的表达样式为:<符号1><符号2>......<符号n>——其中:符号所包含字符必须是操作系统规定的文档名合法字符,以“<”、“>”区分各符号,符号取自文档名称的各固定不变部份,并以各符号均能在文档名中按先后、不重迭印对识别为属取文档;如符号为空,则属取文档为路径下所有文档。

遵循操作1、2、3、4、5、6、7、8、9、10、11、12所生成的文档查找、提取编制,按照从属关系链与作业记录,自动识别出所需取录文档,以其最后修改日期时间加入原名作为入库名,存放到特定路径,并作记录。

在1、4、7、10有选定时,则,可在13选定或输入其下各制表分隔符;并可使用14、15进行添加、删除;其中:对于表格文档,则以此声明类型。

遵循操作1、2、3、4、5、6、7、8、9、10、11、12、13、14、15所生成的模式化文档制表编制,按照从属关系链与作业记录,自动用对应的入库文档生成对应的各模式化文档,存放到特定路径,并作记录;此模式化即:按制表分隔符或其声明涵义等,将文档书写样式统一模式化为表格书写样式,并最终据此进行建立模板及文档内容取录。

在1、4、7、10、13有选定时,则,可在16选定或输入其下各模板集;并可使用17、18进行添加、删除。

在1、4、7、10、13、16有选定时,则,可在19选定其下各模板;并可使用21进行删除;使用20添加模板过程如下:

当27或33中有模式化文档被选定,则,可使用35添加到34,可使用36从34中清除;添加模板时,先为模板建立一个与模式化文档相同的表格且所有分格默认为空,扫描34中各模式化文档的适当范围(例如第1到500行,每行第1到100列)的所有分格,如果某个不为空的分格的内容在34中各模式化文档中均相同,则引用为模板中同位分格的内容——因此34中模式化文档的数量与涉及日期时间跨度宜大,完成后,保存新建模板到特定路径,并作记录。

在1、4、7、10、13、16、19有选定时,则,可在22选定或输入其下各取录内容命名,以及在25输入取录内容按模板及模式化文档定位的所在行,在26输入取录内容按模板及模式化文档定位的所在列;并可使用23、24进行添加、删除。

遵循上述操作各构件所生成的文档内容取录编制,按照从属关系链与作业记录,自动将等待取录的模式化文档与对应的模板印对,如果模板中有不为空的分格,则仅当这些分格与被印对模式化文档的同位分格均内容相同,才判断为印对成功;如果模板全部分格为空,则直接判断为印对成功;一旦印对成功,则按该模板其下各取录内容命名及所在行、所在列,从被印对模式化文档中提取数据、文字,并做记录。

在1、4、7、10有选定时,则,按照从属关系链与作业记录,将其下各已完成取录的模式化文档列于27,将其下各等待取录模式化文档列于33。

在1、4、7、10、27有选定时,则,按照从属关系链与作业记录,将其下各已取录内容命名列于28。

在1、4、7、10、27有选定时,则,操作32,可将被选定模式化文档退回到等待取录,并作记录。

在1、4、7、10、27、28有选定时,则,按照从属关系链与作业记录,将取录得的数据、文字显示在29,取自行显示在30,取自列显示在31;可由此察看、判断建模是否正确。

操作37,可停止或进行自动取录,在停止时,便于根据文档处理成功率与取录出错状况,重新增删修改、调整建模的编制,达到完善。

操作38,可针对33中选定的模式化文档,引导到人工取录操作流程,按照从属关系链与作业记录,提示完成所有取录内容命名项的数据、文字输入,并作记录,取消等待。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号