首页> 中国专利> 古籍汉字繁简转换方法和装置

古籍汉字繁简转换方法和装置

摘要

本发明公开了一种古籍汉字繁简转换方法和装置,其中所述古籍汉字繁简转换方法,包括:确定古籍汉字繁简转换数据库;获取待转换数据,基于古籍汉字繁简转换数据库并按照基于规则的转换方法确定转换结果和转换标签;以及,输出转换结果和转换标签。本发明通过结合待转换的繁体字符串上下文确定转换结果,提高了转换结果的准确性。

著录项

  • 公开/公告号CN112270201A

    专利类型发明专利

  • 公开/公告日2021-01-26

    原文格式PDF

  • 申请/专利权人 古联(北京)数字传媒科技有限公司;

    申请/专利号CN202011257485.4

  • 发明设计人 程瑞雪;

    申请日2020-11-12

  • 分类号G06F40/58(20200101);

  • 代理机构11527 北京悦成知识产权代理事务所(普通合伙);

  • 代理人樊耀峰

  • 地址 100071 北京市丰台区西三环南路14号院首科大厦A座22层

  • 入库时间 2023-06-19 09:41:38

说明书

技术领域

本发明涉及汉字繁简转换领域,特别涉及古籍汉字繁简转换方法和装置。

背景技术

中华民族文化源远流长,在漫长的历史时期中,产生了大量古籍。古籍一般以繁体字书写,在当代重新出版时需要转换为中国大陆通行的简体字版本。目前虽然市面上已经有不少汉字繁简转换系统或软件,但这些系统还不能满足古籍出版的应用需求。现有的古籍汉字繁简转换方法仅对汉字逐个进行转换存在转换不准确的情况;而且转换之后的古籍文本还需要人工校对,但现有的简繁转换方法并未提供人工校对的辅助信息,需要校对转换后文本中的每个字,工作量大,对编辑人员的专业知识要求高。

CN108108337A公开了一种简繁互转方法及装置。该方法包括:接收用户输入的命令;根据所述文字的第一字形,确定所述文字的第一编码;根据所述文字的第一编码查询字库,获得所述文字的第二编码;根据所述文字的第二编码显示所述文字的第二字形。其中,第一字形是简体字形,第二字形是繁体字形,或者第一字形为繁体字形,第二字形为简体字形。该专利文献一般用于排版软件或者在线网页中。

CN1349184A公开了一种中文繁体字与简体字的即时互换系统。包含有一辨读机制,用来判别为繁体字或简体字;一繁体字码运算机制,利用一位置函数来计算出一个繁体字的索引值;一繁体字字型图挡库;一简体字码运算机制,利用一位置函数来计算出一个繁体字在字型图库档的索引值;一简体字字型图挡库,用来储存简体字的字型图档;以及一互换字型索引互换机制。该专利文献主要用于网站资讯产品中繁简互换。

因此,需要提供一种改进的古籍汉字繁简转换方法。

发明内容

本发明公开的示例性实施例的目的在于克服现有技术中的上述的和/或其他的问题。

本发明公开的示例性实施例的目的在于克服现有技术中的上述的和/或其他的问题。

因此,根据本发明公开的一个方面,提供了一种古籍汉字繁简转换方法,包括:

确定古籍汉字繁简转换数据库;

获取待转换数据,基于古籍汉字繁简转换数据库并按照基于规则的转换方法确定转换结果和转换标签;以及,

输出转换结果和转换标签。

根据本发明的古籍汉字繁简转换方法,优选地,所述确定古籍汉字繁简转换数据库包括:

将汉字CJK基本集、CJK A字符集和从中华经典古籍库中提出来的字符确定为古籍汉字繁简转换数据库。

根据本发明的古籍汉字繁简转换方法,优选地,所述获取待转换数据,基于古籍汉字繁简转换数据库并按照基于规则的转换方法确定转换结果和转换标签包括:

获取待转换的纯文本格式的繁体字符串,并以JSON格式封装;

基于古籍汉字繁简转换数据库查找确定转换结果和转换标签,当待转换的繁体字符串中的繁体字符在古籍汉字繁简转换数据库中对应多个简体字时,按照双数组字典树查找方法以及选自基于词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果和转换标签。

根据本发明的古籍汉字繁简转换方法,优选地,所述输出转换结果和转换标签包括:

将转换结果以JSON格式封装,显示转换结果和转换标签。

根据本发明公开的另一个方面,提供了一种古籍标点填充装置,包括:

古籍汉字繁简转换数据库确定单元,用于确定古籍汉字繁简转换数据库;

转换结果和转换标签确定单元,用于获取待转换数据,基于古籍汉字繁简转换数据库并按照基于规则的转换方法确定转换结果和转换标签;以及,

转换结果和转换标签输出单元,用于输出转换结果和转换标签。

根据本发明的古籍标点填充装置,优选地,所述确定古籍汉字繁简转换数据库包括:

将汉字CJK基本集、CJK A字符集和从中华经典古籍库中提出来的字符确定为古籍汉字繁简转换数据库。

根据本发明的古籍标点填充装置,优选地,转换结果和转换标签确定单元包括:

待转换数据获取单元,用于获取待转换的纯文本格式的繁体字符串,并以JSON格式封装;

转换确定单元,用于基于古籍汉字繁简转换数据库查找确定转换结果和转换标签,当待转换的繁体字符串中的繁体字在古籍汉字繁简转换数据库中对应多个简体字时,按照双数组字典树查找方法以及基于词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果和转换标签。

根据本发明的古籍汉字繁简转换装置,优选地,所述转换结果以JSON格式封装。

根据本发明公开的再一方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述古籍汉字繁简转换方法的步骤。

根据本发明公开的另一方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述汉字繁简转换方法的步骤。

本发明通过结合待转换的繁体字符串上下文确定转换结果,提高了转换结果的准确性,并根据确定的转换标签进行人工核对,而不需要对全部的转换结果进行人工核对,提供了人工核对的辅助信息,降低了人工核对的工作量。进一步地,当待转换的繁体字符串中的繁体字在古籍汉字繁简转换数据库中对应多个简体字时,按照双数组字典树查找方法并基于词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果和转换标签。

附图说明

通过结合附图对于本发明公开的示例性实施例进行描述,可以更好地理解本发明,在附图中:

图1所示的是根据本发明公开实施例的计算设备的示意性结构框图;

图2所示的是根据本发明公开实施例的古籍汉字繁简转换方法示意性流程图;

图3所示的是根据本发明公开实施例的古籍汉字繁简转换装置示意图。

具体实施方式

以下将描述本发明的具体实施方式,需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本发明公开的内容相关的本领域的普通技术人员而言,在本发明揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本发明的内容不充分。

除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示方法中的步骤。

图2示出了根据本申请一实施例的古籍汉字繁简转换方法的示意性流程图,包括步骤201至步骤203。

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

步骤201:确定古籍汉字繁简转换数据库。

在本申请实施例中,将汉字CJK基本集、CJK A字符集和从中华经典古籍库中提出来的字符确定为古籍汉字繁简转换数据库,数据库中数据表示了汉字繁简对应关系,数据库以Excel文件形式存储。

步骤202:获取待转换数据,基于古籍汉字繁简转换数据库并按照基于规则的转换方法确定转换结果和转换标签。

在本申请实施例中,获取待转换的纯文本格式的繁体字符串,并以JSON格式封装。

在本申请实施例中,基于古籍汉字繁简转换数据库查找确定转换结果和转换标签。对于待转换的繁体字符串,逐字符从古籍汉字繁简转换数据库中查找确定转换结果。当所述繁体的字符在所述古籍汉字繁简转换数据库无对应的简体字,所述的字符本身即为最终转换结果,确定第一转换标签;当所述繁体的字符在所述古籍汉字繁简转换数据库对应的简体字与所述字符相同时,所述的字符本身即为最终转换结果,确定第二转换标签;当所述繁体的字符在所述古籍汉字繁简转换数据库有唯一对应的简体字,所述的简体字即为最终转换结果,确定第三转换标签。

在本申请实施例中,当待转换的繁体字符串中的繁体字在古籍汉字繁简转换数据库中对应多个简体字时,按照双数组字典树查找方法以及选自基于词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果和转换标签。

在本申请实施例中,当所述繁体的字符有多个对应简体字,但在特定的词语中仅有唯一的简体字,这样通过词语消歧,将所述的简体字确定为最终的转换结果,并确定第四转换标签。例如,繁体字符串包含繁体字符“著”,所述的“著”可以对应简体字为“著”或“着”,但是当所述的繁体字符串可以逐字转换后包含词语“著作”时,则所述的“著”确定的转换结果为“著”,并确定为第四转换标签。

在本申请实施例中,当所述繁体的字符有多个对应简体字,但除特定词语外,对应缺省的简体字,这样通过缺省目标转换,将所述的简体字确定为最终的转换结果,并确定第五转换标签。例如,繁体字符“於”,对应简体目标字有“於”“于”。而繁体源字“於”只有在“於乎、於菟、於戲、於戱、於戯”等特定词中,能够转换为相对应的唯一简体字“於”,在其余词语中,转换为“于”,则当所述的繁体字符串逐字转换不包含“於乎、於菟、於戲、於戱、於戯”时,则将“于”确定为最终转换结果,并确定第五转换类型。

在本申请实施例中,当所述繁体的字符有多个对应简体字,但在特定的词语中仅有唯一的简体目标字,根据等价字同行词关系,这样根据同形词转换将所述的简体目标字确定为最终的转换结果,并确定第六转换标签。例如,对待转换字符串中的“著錄”一词所在的规则,根据等价字关系“錄=彔録录”进行扩展之后,将转换字符串中的“著錄”转换为“著录”,并确定第六转换类型。

这样,当待转换的繁体字符串中的繁体字在古籍汉字繁简转换数据库中对应多个简体字时,通过词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果,结合待转换的繁体字符串上下文提高了转换结果的准确性。

在本申请实施例中,在当待转换的繁体字符串中的繁体字在古籍汉字繁简转换数据库中对应多个简体字时,需要对所述字符串进行词语切分,以实现通过词语消歧转换、缺省目标转换和同形词中的一种方法确定转换结果。可以使用双数组字典树对词语进行切分,所述的双数组字典树可以基于python实现。双数组字典树,可以快速实现对所述待转换字符串的切分,而且克服了Trie树浪费空间的不足。

步骤203:输出转换结果和转换标签。

在本申请实施例中,将转换结果以JSON格式封装,显示转换结果和转换标签。基于词语消歧的转换一般情况下也是正确的,但不保证个别时候会转错,需要进行人工核对。基于缺省目标转换是对一对多字使用一个缺省的目标字,需要进行人工核对。同形词转换用于在词语层面仍然不能确认应该选择哪个目标字,需要进行人工核对。因此,仅当显示的转换标签为第四转换标签、第五转换标签或第六转换标签时,才进行人工核对即可,这样就为人工核对提供了辅助信息,而不需要对全部的转换结果进行人工核对,降低了人工核对的工作量。

与上述方法相对应,本说明书还提供了古籍标点填充装置实施例,图3所示的是根据本发明公开实施例的古籍汉字繁简转换装置示意图。如图3所示,古籍汉字繁简转换装置包括:

古籍汉字繁简转换数据库确定单元301,用于确定古籍汉字繁简转换数据库;

转换结果和转换标签确定单元302,用于获取待转换数据,基于古籍汉字繁简转换数据库并按照基于规则的转换方法确定转换结果和转换标签;以及,

转换结果和转换标签输出单元303,用于输出转换结果和转换标签。

在某些实施方案中,确定古籍汉字繁简转换数据库包括:

将汉字CJK基本集、CJK A字符集和从中华经典古籍库中提出来的字符确定为古籍汉字繁简转换数据库。

在某些实施方案中,转换结果和转换标签确定单元303包括:

待转换数据获取单元,用于获取待转换的纯文本格式的繁体字符串,并以JSON格式封装;

转换确定单元,用于基于古籍汉字繁简转换数据库查找确定转换结果和转换标签,当待转换的繁体字符串中的繁体字符在古籍汉字繁简转换数据库中对应多个简体字时,按照双数组字典树查找方法以及选自基于词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果和转换标签。

在某些实施方案中,转换结果以JSON格式封装。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述古籍汉字繁简转换方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的古籍汉字繁简转换方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述古籍汉字繁简转换方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

综上所述,根据示例性实施例,当待转换的繁体字符串中的繁体字在古籍汉字繁简转换数据库中对应多个简体字时,按照双数组字典树查找方法基于词语消歧转换、缺省目标转换和同形词转换中的一种方法确定转换结果和转换标签。结合待转换的繁体字符串上下文确定转换结果提高了转换结果的准确性,并根据确定的转换标签进行人工核对,而不需要对全部的转换结果进行人工核对,提供了人工核对的辅助信息,降低了人工核对的工作量。

需要指出的是,在本发明公开的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式,并不构成对本发明公开保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明公开保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号