首页> 中国专利> 同步提取中英文目录的方法及系统

同步提取中英文目录的方法及系统

摘要

本发明涉及一种同步提取中英文目录的方法。在该方法中,导入描述特定出版物结构的结构化数据的文档,同时对结构化数据进行转化,以生成结构化排版数据;从结构化排版数据中提取结构标签,将结构标签与目录级别相对应;从与各目录级别相对应的结构标签中提取出结构标签的数据内容,并且按照目录的层次关系对数据内容进行组织,从而显示出中英文目录的内容。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-25

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2013103621856 申请日:20130819 授权公告日:20181016

    专利权的终止

  • 2022-09-27

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2013103621856 登记生效日:20220915 变更事项:专利权人 变更前权利人:北大方正集团有限公司 变更后权利人:新方正控股发展有限责任公司 变更事项:地址 变更前权利人:100871 北京市海淀区成府路298号中关村方正大厦5层 变更后权利人:519031 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007 变更事项:专利权人 变更前权利人:北大方正信息产业集团有限公司 北京北大方正电子有限公司 变更后权利人:北京北大方正电子有限公司

    专利申请权、专利权的转移

  • 2018-10-16

    授权

    授权

  • 2015-04-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130819

    实质审查的生效

  • 2015-03-18

    公开

    公开

说明书

技术领域

本发明涉及计算机数据处理领域,具体地涉及一种在排版过程中 同步提取中英文目录的方法及系统。

背景技术

目前的排版系统,大多只能单独地提取中文目录或英文目录,或 者在提取出中文目录数据后,再通过修改为英文目录的设置提取出英 文目录。这样虽然两个中文和英文的目录数据都产生了,但是会导致 前面提取的中文的目录数据与排版数据发生脱节,后续需要更新中文 目录的目录数据时,就只能手工修改数据。

发明内容

针对现有技术中存在的缺陷,本发明的目的在于提供一种同步提 取中英文目录的方法及系统,该方法和系统能够在提取目录时,克服 现有目录提取方法和系统中的局限,可以高效地同步提取中英文目 录,并且中文和英文的目录数据都可以与排版数据关联更新。

根据本发明的一个方面,提供了一种同步提取中英文目录的方 法,该方法包括:

1)导入描述特定出版物结构的结构化数据的文档,同时对结 构化数据进行转化,以生成结构化排版数据;

2)从结构化排版数据中提取结构标签,将结构标签与目录级 别相对应;

3)从与各目录级别相对应的结构标签中提取出结构标签的 数据内容,并且按照目录的层次关系对数据内容进行组织,从而显示 出中英文目录的内容。

该方法还包括:根据特定出版物的结构,按照特定的结构化规则 来形成结构化数据的文档。

该方法还包括:在形成结构化数据的文档之后,可以利用Schema 或DTD对结构化数据进行规范性验证。

该方法还包括:通过维护结构标签与目录级别的对应关系,在标 签的数据内容变化时,可以同步对中英文目录的内容进行更新。

其中,在步骤2)中,可以将结构标签与段落样式相对应,从而 设置段落样式与目录级别的对应关系。

其中,对结构化数据进行转化时,对结构化数据的文档中的关键 元素数据进行转化,已形成对版面排版结果进行描述的结构化排版数 据。

根据本发明的第二方面,提供了一种同步提取中英文目录的系统, 该系统包括:

结构化数据输入与转化单元,将描述特定出版物结构的结构化数 据的文档导入排版软件中,同时对结构化数据进行转化,以生成结构 化排版数据;

对应关系设置单元,从结构化排版数据中提取结构标签,将结构 标签与目录级别相对应;

数据输出单元,从与各目录级别相对应的结构标签中提取出结构 标签的数据内容,并且按照目录的层次关系对数据内容进行组织,从 而显示出中英文目录的内容。

该系统还包括:结构化数据形成单元,根据特定出版物的结构, 按照特定的结构化规则来形成结构化数据的文档。

该系统还包括:规范性验证单元,在形成结构化数据的文档之后, 可以利用Schema或DTD对结构化数据进行规范性验证。

该系统还包括:更新单元,通过维护结构标签与目录级别的对应 关系,在标签的数据内容变化时,可以同步对中英文目录的内容进行 更新。

其中,对应关系设置单元可以将结构标签与段落样式相对应,从 而设置段落样式与目录级别的对应关系。

其中,结构化数据输入与转化单元对结构化数据进行转化时,对 结构化数据的文档中的关键元素数据进行转化,已形成对版面排版结 果进行描述的结构化排版数据。

本发明的效果在于:从结构化的标签数据入手,有效地解决了排 版文件版面中同时需要制作中、英文目录的问题。系统输出的目录具 有数据关联性,可保障后续内容的同步更新。本发明可以广泛适用于 目录编排的要求,特别适用于科技期刊、中英文对照图书等出版物的 排版过程。

附图说明

图1是根据本发明实施方式的同步提取中英文目录的方法的流程 图;

图2是结构化文档所含标签的示意图;

图3是标签与目录级别对应关系的示意图;

图4是生成的中英文目录的示意图;

图5是目录数据更新示意图;以及

图6是根据本发明实施方式的同步提取中英文目录的系统的流程 图。

具体实施方式

下面结合附图对根据本发明实施方式的生成字形字库的方法和 系统进行详细描述。

参照图1,示出了根据本发明的实施方式的同步提取中英文目录 的方法。

在步骤101中,形成结构化数据文档。结构化数据的文档可以是 符合某种规范的文档。可以根据与特定出版物结构相关的特定结构化 规则来形成符合规范的结构化数据文档。

在本发明的一个实施方式中,在必要时,可以对结构化数据进行 规范性验证,例如通过Schema或DTD等。

在步骤102中,将描述特定出版物结构的结构化数据的文档导入 到排版软件中,导入的同时对数据进行转化,形成结构化排版数据;

在对结构化数据进行转化以生成结构化排版数据时,可以对文档 中的关键元素数据进行转化,例如对文字、图片、表格、公式、版面 布局等数据进行转化。从而形成对版面排版结果进行描述的排版文 档。并且转化后的数据中要保持关键元素数据的结构化特征。

在步骤103中,在排版软件中以排版版面的形式展现结构化数据 结果。

在步骤104中,从结构化排版数据中提取结构标签,并且将这些 结构标签与目录级别相对应,从而形成结构化标签与目录级别的对应 表。在形成对应表时,可以将需要在目录中体现的标签相对自由地与 目录级别发生关联。其中,在图2中示意性地示出了结构化数据中可 以办好的结构标签。

此外,在本发明的另一个实施方式中,为了便于使用者操作,可 以将标签与段落样式相对应,使用段落样式的方式来体现标签。这样, 就可以变化为设置段落样式与目录级别之间的对应关系。

在步骤105中,从各个目录级别对应的标签中提取标签的数据内 容。按照目录的层次关系对数据内容进行组织,以在版面中显示出中 英文目录的内容。在图3中示意性地示出了结构标签与目录级别的对 应关系。

在本发明的又一个实施方式中,可以依次按照目录的级别从对应 的标签中提取出标签的数据内容,然后对数据内容进行层次上的组 织。最终可以例如以文字块的方式在版面上显示中英文目录的内容。 例如,中英文目录分别为一个独立的文字块。图4中示意性地示出了 中英文目录。

由于建立了目录级别与结构化标签的对应关系,因此标签与目录 级别之间的对应关系被自动维护。在步骤206中,判断标签内容是否 发生变化。当标签内容发生变化时,对中英文目录的内容进行更新。 在图5中示意性地示出了更新后的中英文目录数据。

本领域的技术人员应当理解,在实现根据本发明第一实施方式的 中英文目录的同步显示时,可以省略上述步骤中的一个或多个。

在根据本发明的实施方式的同步提取中英文目录的方法中,可以 同步生成中英文目录,并且同时保持两个目录的目录数据与排版数据 的关联性,可以同步更新来保持数据的一致性。

参照图6,示出了根据本发明的实施方式的同步提取中英文目录 的系统。

结构化数据形成单元601形成结构化数据文档。结构化数据的文 档可以是符合某种规范的文档。可以根据与特定出版物结构相关的特 定结构化规则来形成符合规范的结构化数据文档。

在必要时,可以使用规范性验证单元602对结构化数据进行规范 性验证,例如通过Schema或DTD等。

通过结构化数据输入和转化单元603将描述特定出版物结构的结 构化数据的文档导入到排版软件中,导入的同时对数据进行转化,形 成结构化排版数据。并且可以以排版结果的形式展现数据。

在对结构化数据进行转化以生成结构化排版数据时,可以对文档 中的关键元素数据进行转化,例如对文字、图片、表格、公式、版面 布局等数据进行转化。从而形成对版面排版结果进行描述的排版文 档。并且转化后的数据中要保持关键元素数据的结构化特征。

对应关系设置单元604从结构化排版数据中提取结构标签,并且 将这些结构标签与目录级别相对应,从而形成结构化标签与目录级别 的对应表。在形成对应表时,可以将需要在目录中体现的标签相对自 由地与目录级别发生关联。

此外,为了便于使用者操作,可以将标签与段落样式相对应,使 用段落样式的方式来体现标签。这样,就可以变化为设置段落样式与 目录级别之间的对应关系。

数据输出单元605从各个目录级别对应的标签中提取标签的数据 内容。按照目录的层次关系对数据内容进行组织,以在版面中显示出 中英文目录的内容。

根据本发明的优选实施方式,可以依次按照目录的级别从对应的 标签中提取出标签的数据内容,然后对数据内容进行层次上的组织。 最终可以例如以文字块的方式在版面上显示中英文目录的内容。例 如,中英文目录分别为一个独立的文字块。。

由于建立了目录级别与结构化标签的对应关系,因此标签与目录 级别之间的对应关系被自动维护。更新单元606判断标签内容是否发 生变化。当标签内容发生变化时,对中英文目录的内容进行更新。

本领域的技术人员应当理解,在实现根据本发明第一实施方式的 中英文目录的同步显示时,可以省略上述单元中的一个或多个。

应当理解,本文以上实施方式仅仅是示例性的,而非在于限制本发明 的范围。对于本领域的技术人员而言,在不脱离本发明的精神和食指的情 况下,可以做出各种变型和改进,但是这些变型和改进也应视为落入本发 明的保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号