首页> 中国专利> 一种基于XML的古籍结构化整理方法

一种基于XML的古籍结构化整理方法

摘要

本发明公开了一种基于XML的古籍结构化整理方法,包括以下步骤:A、将多本古籍分页扫描,图片上的各个段落制成对应条目;B、依据古籍整理任务的目录结构制定多个结构化检索词;C、将各个条目分别放入其满足的结构化检索词对应的目标条目集合中;D、将目标条目集合中的各个条目按照成书年代排序并存储为XML文件,XML文件和其对应的图片集合形成目标数据资源;E、对目标条目集合中的各个条目进行纬目分类和自动排序,相同纬目下的条目依据成书年代排序;F、编者根据古籍整理的任务内容对XML文件中的条目进行编辑整理,最后导出至出版系统排版印刷成书。本发明实现了古籍文献整理、撰写与出版的一体化过程,大大提高了古籍整理工作效率。

著录项

  • 公开/公告号CN106202468A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 河南大学;

    申请/专利号CN201610563832.3

  • 申请日2016-07-18

  • 分类号G06F17/30;

  • 代理机构郑州联科专利事务所(普通合伙);

  • 代理人刘建芳

  • 地址 475001 河南省开封市明伦街85号

  • 入库时间 2023-06-19 01:07:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-16

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160718

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本发明涉及古籍文献整理技术领域,尤其涉及一种基于XML的古籍结构化整理方法。

背景技术

当前的古籍整理大多采用传统方式进行,即通过人工收集图书、摘抄、编辑整理,最后交给出版社进行出版,不仅需要耗费大量人力和财力,而且工作周期过长,效率较低;少数互联网平台提供了古文信息的检索服务,但仅能给出检索信息在古籍图书中的具体位置,或导出不超过规定数目的信息。因此,现有技术中没有对古籍图书的录入、检索和编辑提供系统化的整理方法,无法实现古籍文献的快速整理和出版。

发明内容

本发明的目的在于提供一种基于XML的古籍结构化整理方法,能够对纸质形式的古籍图书进行结构化的条目整理,并输出符合古籍整理任务目标内容的XML文件至现有的出版系统,实现古籍文献整理、撰写与出版的一体化过程。

为实现上述目的,本发明采用的技术方案是:

一种基于XML的古籍结构化整理方法,包括以下步骤:

A、将多本古籍分页扫描成图片,并给同一古籍中的每张图片分配唯一的编码,将每张图片上的各个段落制成对应的条目,条目内容包括对应段落所属古籍的书名、作者、成书年代和版本号,以及对应段落的文字内容、段落起始图片页码和段落结束图片页码,将属于同一古籍的所有条目制成一个XML文件,并把所有古籍对应的XML文件依次导入关系型数据库文件表中,形成全库数据资源,然后进入步骤B;

B、确定古籍整理任务的目录结构,依据目录结构中每条路径包含的各级标题分别制定多个检索条件,在每个检索条件前面添加对应路径包含的各级标题,形成结构化检索词,对于每一个结构化检索词均对应定义一个目标条目集合,各个目标条目集合中的初始元素个数均为0,将各个结构化检索词进行整合,制成基于XML格式的结构化检索词表,然后进入步骤C;

C、将全库数据资源中的XML文件包含的所有条目取出放入待检条目集合,依次将待检条目集合中的每个元素作为当前条目,分别判断当前条目的文字内容是否满足结构化检索词表中的各个检索条件,若当前条目满足一个或多个检索条件,则将当前条目分别放入其满足的检索条件所属的结构化检索词对应的目标条目集合中,然后进入步骤D;

D、针对各个目标条目集合,分别将同一目标条目集合中的各个条目所属古籍的成书年代换算为公元纪年的数字年代,然后将各个条目按其所属古籍成书的数字年代从小到大依次排列,将经过条目排序的各个目标条目集合存储为一个XML文件,XML文件中的每个条目作为一个信息节点,包含条目对应的结构化检索词信息,根据各个条目在其所属古籍中的段落起始图片页码和段落结束图片页码,从步骤A扫描的图片中选出各个条目对应的古籍图片形成目标图片集合,将XML文件和目标图片集合整合为目标数据资源,然后进入步骤E;

E、在图文对照的环境下,依次对XML文件中的每个目标条目集合作如下处理:按照古籍整理的纬目分类标准对各个条目手动添加纬目类型,然后对于每种纬目类型均对应定义一个纬目类型条目集合,将属于同一纬目类型的所有条目放入对应的纬目类型条目集合中,并将同一纬目类型条目集合中的所有条目按其所属古籍成书的数字年代从小到大依次排列,最后按照古籍整理的纬目类型的排列顺序对目标条目集合中的各个纬目类型条目集合进行排序,然后进入步骤F;

F、在图文对照的环境下,根据编者对古籍整理任务的目标内容的理解,对XML文件中过长的条目进行拆分,将拆分后的条目移动到相应的纬目类型条目集合中,对不再需要的条目进行删减,对排序错乱的条目重新排序,最后导出XML文件至出版系统排版印刷成书。

所述的步骤A中,将每张图片上的各个段落制成对应的条目时,若图片上的文字内容没有分段,则将整张图片制成一个条目;若一个段落中含有对应的插图,则在该段对应的条目中保留插图的链接。

所述的步骤B中,每个检索条件包括一个或者多个检索词,当检索条件包括多个检索词时,各个检索词由逻辑词and和/或or和/或not连接。

所述的步骤E中,若同一纬目类型条目集合中有多个条目所属古籍成书的数字年代相同,则对各个条目按其所属古籍的作者姓名进行字典排序,若多个条目所属古籍的作者相同,则对各个条目按其所属古籍的起始图片页码从小到大依次排序,若多个条目所属古籍的起始图片页码相同,则判断各个条目的文字内容是否相同,若存在文字内容相同的条目则保留一条其他删除,若不存在文字内容相同的条目则按照当前顺序排列。

所述步骤A中的XML文件包含对应古籍目录结构中的书名、卷名和篇名信息。

所述的步骤C中,根据XML文件包含的对应古籍目录结构中的书名、卷名和篇名信息,从全库数据资源中选出与古籍整理任务的目标内容相关的XML文件,将选出的XML文件包含的所有条目取出放入待检条目集合。

本发明通过对纸质形式的古籍图书进行扫描,并按段进行条目划分,获得基于XML格式的全库数据资源;本发明依据制定的结构化检索词表进行条目检索,获得符合古籍整理任务目标内容的条目集合,对检索得到的XML文件对照图片编辑整理后,可直接输出到出版系统进行出版,不仅极大地方便了古籍图书的整理、撰写与出版,而且减少了古籍整理需要投入的人力、物力和财力,大大提高了工作效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

如图1所示,本发明所述的基于XML的古籍结构化整理方法,包括以下步骤:

A、将多本古籍分页扫描成图片,并给同一古籍中的每张图片分配唯一的编码,将每张图片上的各个段落制成对应的条目,条目内容包括对应段落所属古籍的书名、作者、成书年代和版本号,以及对应段落的文字内容、段落起始图片页码和段落结束图片页码,将属于同一古籍的所有条目制成一个XML文件,并把所有古籍对应的XML文件依次导入关系型数据库文件表中,形成全库数据资源,然后进入步骤B。

本发明在将每张图片上的各个段落制成对应的条目时,以一个自然段作为一条,若图片上的文字内容没有分段,则将整张图片制成一个条目,若一个段落中含有对应的插图,则在该段对应的条目中保留插图的链接。本发明在制作各本古籍对应的XML文件时,将古籍目录结构中的书名、卷名和篇名信息对应添加在XML文件中,便于步骤C中选择与古籍整理任务的目标内容相关的XML文件,缩小检索范围,提高工作效率。

B、确定古籍整理任务的目录结构,依据目录结构中每条路径包含的各级标题分别制定多个检索条件,在每个检索条件前面添加对应路径上的各级标题,形成结构化检索词,对于每一个结构化检索词均对应定义一个目标条目集合,各个目标条目集合中的初始元素个数均为0,将各个结构化检索词进行整合,制成基于XML格式的结构化检索词表,然后进入步骤C。

本发明古籍整理任务的目录结构包括多级节点,各级节点从上到下依次对应书名、一级标题、二级标题等,节点信息可根据古籍整理任务的具体内容自主设置,节点级数可根据需要扩展或删减。本发明依据目录结构中的各条路径制定的检索条件包括一个或者多个检索词,当检索条件包含一个检索词时,可直接进行检索;当检索条件包括多个检索词时,各个检索词由逻辑词and和/或or和/或not连接,可使步骤C中的目标条目查找和匹配更加精确。

C、将全库数据资源中的XML文件包含的所有条目取出放入待检条目集合,依次将待检条目集合中的每个元素作为当前条目,分别判断当前条目的文字内容是否满足结构化检索词表中的各个检索条件,若当前条目满足一个或多个检索条件,则将当前条目分别放入其满足的检索条件所属的结构化检索词对应的目标条目集合中,然后进入步骤D。

为使目标条目的查找、定位更有目的性和针对性,本发明首先根据全库数据资源中的XML文件包含的对应古籍目录结构中的书名、卷名和篇名信息,选出与古籍整理任务的目标内容相关的XML文件,然后将选出的XML文件包含的所有条目取出放入待检条目集合进行条目检索,有效避免了无关内容的筛选过程,提高了检索效率。

D、针对各个目标条目集合,分别将同一目标条目集合中的各个条目所属古籍的成书年代换算为公元纪年的数字年代,然后将各个条目按其所属古籍成书的数字年代从小到大依次排列,将经过条目排序的各个目标条目集合存储为一个XML文件,XML文件中的每个条目作为一个信息节点,包含条目对应的结构化检索词信息,根据各个条目在其所属古籍中的段落起始图片页码和段落结束图片页码,从步骤A扫描的图片中选出各个条目对应的古籍图片形成目标图片集合,将XML文件和目标图片集合整合为目标数据资源,然后进入步骤E。

为方便编者进行古籍整理,本发明在整合目标数据资源时就对各个目标条目集合中的所有条目按其所属古籍成书的数字年代进行初次排序,有利于编者加深理解整理对象的历史情况,使古籍整理更有时间特性和针对性。

E、在图文对照的环境下,依次对XML文件中的每个目标条目集合作如下处理:按照古籍整理的纬目分类标准对各个条目手动添加纬目类型,然后对于每种纬目类型均对应定义一个纬目类型条目集合,将属于同一纬目类型的所有条目放入对应的纬目类型条目集合中,并将同一纬目类型条目集合中的所有条目按其所属古籍成书的数字年代从小到大依次排列,最后按照古籍整理的纬目类型的排列顺序对目标条目集合中的各个纬目类型条目集合进行排序,然后进入步骤F。

纬目是古籍整理学术界公认的内容分类规范,包括题解、论说、综述、传记、纪事、著录、艺文、杂录和图表,上述顺序即为各类纬目的默认排列顺序。本发明首先将同一目标条目集合中的各个条目按其所属古籍成书的数字年代从小到大依次排列,然后根据各个条目的文字内容,按照古籍整理的纬目分类标准对各个条目手动添加纬目类型,将属于同一纬目类型的所有条目放入对应的纬目类型条目集合中,而对于同一纬目类型条目集合中的各个条目,则按其所属古籍成书的数字年代从小到大依次排列。若同一纬目类型条目集合中有多个条目所属古籍成书的数字年代相同,则对各个条目按其所属古籍的作者姓名进行字典排序,若多个条目所属古籍的作者相同,则对各个条目按其所属古籍的起始图片页码从小到大依次排序,若多个条目所属古籍的起始图片页码相同,则判断各个条目的文字内容是否相同,若存在文字内容相同的条目则保留一条其他删除,若不存在文字内容相同的条目则按照当前顺序排列,最后按照古籍整理的纬目类型的排列顺序对目标条目集合中的各个纬目类型条目集合进行排序。

F、在图文对照的环境下,根据编者对古籍整理任务的目标内容的理解,对XML文件中过长的条目进行拆分,将拆分后的条目移动到相应的纬目类型条目集合中,对不再需要的条目进行删减,对排序错乱的条目重新排序,最后导出XML文件至出版系统排版印刷成书。

本发明通过制定结构化检索词表,从大量数据资源中快速获取符合古籍整理任务目标内容的目标条目集合,对由目标条目集合构成的XML文件对照图片编辑整理后,即可直接输出到出版系统进行出版,实现了古籍文献整理、撰写与出版的一体化过程,大大提高了古籍整理工作效率。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号