首页> 中国专利> 古籍标点填充方法和装置

古籍标点填充方法和装置

摘要

本发明公开了一种古籍标点填充方法和装置,所述古籍标点填充方法包括:对原始语料进行数据清洗,确定神经网络的训练语料;所述原始语料包括已出版古籍的电子版文档;确定神经网络的结构;以及,基于训练语料对神经网络进行训练,确定神经网络的参数;以及,基于确定的神经网络的结构和参数获取古籍标点填充结果。本发明能够对古籍进行自动标点填充,提高古籍整理的效率。

著录项

  • 公开/公告号CN112199927A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 古联(北京)数字传媒科技有限公司;

    申请/专利号CN202011118951.0

  • 发明设计人 程瑞雪;

    申请日2020-10-19

  • 分类号G06F40/166(20200101);G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11527 北京悦成知识产权代理事务所(普通合伙);

  • 代理人樊耀峰

  • 地址 100071 北京市丰台区西三环南路14号院首科大厦A座22层

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本发明涉及机器学习领域,特别涉及一种古籍标点填充方法和装置。

背景技术

标点符号是人们理解文献作品的重要工具。然而很多古籍文献原本并没有标点符号,这就可能会使读者在阅读过程中无法真正理解古籍文献的真正表达。为方便人们对古籍文献的理解和学习,开始出现人工对古籍文献加注标点符号,即对无标点符号的古籍文献进行现代标点符号填充。但古籍数量庞大,人工加注费时费力;且参与古籍加注人员的标点加注能力与标点加注质量参差不齐,可能会出现标注质量不高的情况,这些都直接影响到古籍整理工作,也会影响后人对古代文化及文献的理解与传承。

目前为止,人们对于语音识别结果的标点符号的添加进行了一定的研究,但未有关于对古籍进行标点填充的报道。

CN110688822A公开了一种标点符号的添加方法及设备、介质。所述方法包括:获取待添加标点符号的文本;将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标号符号;其中,所述标点符号标注模型包括预训练的语言子模型,所述语言子模型为具有时间序列的神经网络模型。该专利文献适用于语音识别结果的标点符号的添加,不涉及古籍的标点符号的添加。

CN107767870A公开了一种标点符号的添加方法、装置和计算机设备。包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率;根据概率最高的添加结果在所述汉字后添加标点符号。该专利文献适用于语音信息识别结果的标点符号的添加,不涉及古籍的标点符号的添加。

CN110674629A公开了一种标点符号标注模型及其训练方法、设备、存储介质。该方法包括:获取包含标点符号的第一训练语料;将第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,其中,标点符号标注模型包括预训练的语言子模型,第三训练语料包括无标点文本集合和标签序列集合。该专利文献也是适用于语音信息识别结果的标点符号的标注。

因此,需要提供一种自动的、准确性高的古籍标点填充方法。

发明内容

本发明公开的示例性实施例的目的在于克服现有技术中的上述的和/或其他的问题。

因此,根据本发明公开的一个方面,提供了一种古籍标点填充方法,包括:

对原始语料进行数据清洗,确定神经网络的训练语料;所述原始语料包括已出版古籍的电子版文档;

确定神经网络的结构;以及,

基于训练语料对神经网络进行训练,确定神经网络的参数;以及,

基于确定的神经网络的结构和参数获取古籍标点填充结果。

根据本发明的古籍标点填充方法,优选地,对原始语料进行数据清洗,确定神经网络的训练语料包括:

清除原始语料中无具体含义的特殊字符,将原始语料中的非常见字由字符串表示转换为汉字表示,去掉原始语料中包含句号或逗号少于设定数量的文本,确定神经网络的训练语料。

根据本发明的古籍标点填充方法,优选地,确定神经网络的结构包括:

确定神经网络模型为Bi-LSTM,使用平方根函数调整神经网络的各层输出;以及,

设定神经网络的残差网络。

根据本发明的古籍标点填充方法,优选地,基于训练语料对神经网络进行训练,确定神经网络的参数包括:

将训练语料映射为设定长度的字向量;

将字向量输入到神经网络,得到第一输出结果;以及,

将第一输出结果的维度调整到设定维度,得到第二输出结果;以及,

将第二输出结果作为softmax函数输入,将softmax函数输出概率最大的标点确定为训练结果;

基于训练结果确定损失函数数值,基于损失函数数值确定神经网络的参数。

根据本发明公开的另一个方面,提供了一种古籍标点填充装置,包括:

训练语料确定单元,用于对原始语料进行数据清洗,确定神经网络的训练语料;

神经网络结构确定单元,用于确定神经网络的结构;以及,

神经网络训练单元,基于训练语料对神经网络进行训练,确定神经网络的参数;以及,

填充结果获取单元,基于确定的神经网络的结构和参数获取古籍标点填充结果。

根据本发明的古籍标点填充装置,优选地,训练语料确定单元包括:

特殊字符清除单元,用于清除原始语料中无具体含义的特殊字符;

汉字转换单元,用于将原始语料中的非常见字由字符串表示转换为汉字表示;

无效文本去除单元,用于去掉原始语料中包含句号或逗号少于设定数量的文本。

根据本发明的古籍标点填充装置,优选地,神经网络结构确定单元包括:

神经网络模型确定单元,用于确定神经网络模型为Bi-LSTM,使用平方根函数调整神经网络的各层输出;

残差网络设定单元,用于设定神经网络的残差网络。

根据本发明的古籍标点填充装置,优选地,神经网络训练单元包括:

字向量设定单元,用于将训练语料映射为设定长度的字向量;

第一输出结果获取单元,用于将字向量输入到神经网络,得到第一输出结果;以及,

第二输出结果获取单元,用于将第一输出结果的维度调整到设定维度,得到第二输出结果;以及,

训练结果确定单元,用于将第二输出结果作为softmax函数输入,将softmax函数输出概率最大的标点确定为训练结果。

根据本发明公开的再一方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述古籍标点填充方法的步骤。

根据本发明公开的又一方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述古籍标点填充方法的步骤。

本发明基于fairseq框架采用神经网络通过人工智能的方式对古籍进行自动标点填充,节省人工填充古籍标点符号的人力物力,提高古籍整理的效率以及准确率。

附图说明

通过结合附图对于本发明公开的示例性实施例进行描述,可以更好地理解本发明,在附图中:

图1为本发明的一种计算设备的示意性结构框图;

图2为本发明的一种古籍标点填充方法示意性流程图;

图3为本发明的一种古籍标点填充装置示意图。

具体实施方式

以下将描述本发明的具体实施方式,需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本公开公开的内容相关的本领域的普通技术人员而言,在本公开揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本公开的内容不充分。

除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本公开所属技术领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。

古籍是指未采用现代印刷技术印制的书籍。古籍传统的分类法采用经、史、子、集四部分类,四部下再细分为四十四类。对于古籍进行标点标注与现有技术中所述的语音信息识别结果的文本的标点符号的标注不同。这是因为,古籍不但没有标点符号,还需要考虑古籍中的大部分字并不是常用的简体字,比如,非常见字

本发明经过研究和实验发现,可以利用出版古籍的数字版(电子版)作为训练数据,使用深度学习fairseq模型进行训练,进而采用神经网络通过人工智能的方式对古籍进行自动标点填充,并提高标点填充的准确性。

图1示出了本发明的一种计算设备的示意性结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络160的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备的结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示方法中的步骤。

图2是示出了本发明的一种古籍标点填充方法的示意性流程图,包括步骤201至步骤204。

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

步骤201:对原始语料进行数据清洗,确定神经网络的训练语料。

在某些实施方案中,对原始语料进行数据清洗,清除原始语料中无具体含义的特殊字符。

所述原始语料包括已出版古籍的电子版文档。即原始语料涉及已出版的经史子集四部类的电子版文档。

清除如“◆”此类无具体含义的无用的特殊字符,以减少确定的训练语料对神经网络模型的干扰。

将原始语料中的非常见字由字符串表示转换为汉字表示。例如,已出版古籍的电子版文档中,

去掉原始语料中包含句号或逗号少于设定数量的文本。例如,将已出版古籍的电子版XML文档中文本前100行句话中的逗号或句号少于5个的去除。

这样,就确定了神经网络的训练语料。

步骤202:确定神经网络的结构。

在某些实施方案中,根据古籍标注为序列标注的实质,确定神经网络模型为Bi-LSTM模型。Bi-LSTM模型是基于Fairseq框架实现的。LSTM模型为Long Short Term Memory(长短期记忆网络)的简称。LSTM解决输入文字序列中长期依赖的问题。Bi-LSTM是每层网络由两个不共享参数的LSTM组成,一个处理正向序列一个处理反向序列,再将两次得到的LSTM结果进行拼接作为最终输出。输入和输出的序列等长,输出结果中概率最大的标点确定为标注结果。

在本发明中,可以设定神经网路的层数为6层。并且,使用平方根函数调整神经网络的各层输出,神经网络每层的输出结果进行归一化处理,来抵消方差的变化,减少前层的影响。

以及,设定神经网络的残差网络,即将神经网络每层的输入输出进行跳层连接,以防止神经网络出现的梯度消失或爆炸等问题,增强泛化能力。

这样就确定了神经网络的结构。

步骤203:基于训练语料对神经网络进行训练,确定神经网络的参数。

在某些实施方案中,将训练语料映射为设定长度的字向量,也就是将训练语料中的句子中的每个字映射为设定长度的字向量。所述的设定长度可以是512。将字向量输入到神经网络,得到第一输出结果,即将所述的字向量输入到所述的已确定结构的神经网络,这样神经网络的输出确定为第一输出结果。以及,将第一输出结果的维度调整到设定维度,得到第二输出结果。例如,将第一输出结果的维度调整到标点词表的维度。比如,标点词表的维度可以是7,所述的标点词表包含古籍标注对应的标点符号:问号、叹号、句号、冒号、分号、逗号和顿号。这样就可以方便的将第二输出结果映射到标点词表各要素上。以及,将第二输出结果作为softmax函数输入,这样,就可以将第二输出结果每个位置的所有标点出现的概率,将各位置中概率最大对应的标点,也就是softmax函数输出概率最大的标点确定为训练结果。通过调整神经网络的学习率及丢弃值训练神经网络,基于训练结果确定损失函数数值,当损失函数数值满足设定要求时,也就确定神经网络的参数。

在某些实施方案中,在确定了神经网络的结构和神经网络的参数后,从已出版古籍的电子版文档中去除训练语料后,可以按照训练语料的获取方法,确定测试语料,并且使用测试语料对神经网络进行测试,并根据测试的准确率和召回率确定F1值,例如,根据本实施方式确定的F1值可以达到0.76。

步骤204:基于确定的神经网络的结构和参数获取古籍标点填充结果。

在本发明实施例中,在确定了神经网络的结构和神经网络的参数后,将待标注的古籍电子版输入到神经网络后,这样神经网络的输出确定为第一输出结果;将第一输出结果的维度调整到设定维度7,得到第二输出结果;将第二输出结果作为softmax函数输入,这样,就可以得出第二输出结果每个位置的所有标点出现的概率,将各位置中概率最大对应的标点,也就是softmax函数输出概率最大的标点确定为古籍标点填充结果。这样,就可以自动的获取了古籍标点填充结果,代替了人工标点填充。

与上述方法相对应,本说明书还提供了古籍标点填充装置实施例,图3示出了本发明的一种古籍标点填充装置示意图。如图3所示,该古籍标点填充装置300包括:

训练语料确定单元301,用于对原始语料进行数据清洗,确定神经网络的训练语料;

神经网络结构确定单元302,用于确定神经网络的结构;以及,

神经网络训练单元303,基于训练语料对神经网络进行训练,确定神经网络的参数;以及,

填充结果获取单元304,基于确定的神经网络的结构和参数获取古籍标点填充结果。

在某些实施方案中,训练语料确定单元301可以包括:

特殊字符清除单元,用于清除原始语料中无具体含义的特殊字符;

汉字转换单元,用于将原始语料中非常见字由字符串表示转换为汉字表示;

无效文本去除单元,用于去掉原始语料中包含句号或逗号少于设定数量的文本。

在某些实施方案中,神经网络结构确定单元302可以包括:

神经网络模型确定单元,用于确定神经网络模型为Bi-LSTM,使用平方根函数调整神经网络的各层输出;

残差网络设定单元,用于设定神经网络的残差网络。

在某些实施方案中,神经网络训练单元303可以包括:

字向量设定单元,用于将训练语料映射为设定长度的字向量;

第一输出结果获取单元,用于将字向量输入到神经网络,得到第一输出结果;以及,

第二输出结果获取单元,用于将第一输出结果维度调整到设定维度,得到第二输出结果;以及,

训练结果确定单元,用于将第二输出结果作为softmax函数输入,将softmax函数输出概率最大的标点确定为训练结果。

本发明还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述古籍标点填充方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的古籍标点填充方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述古籍标点填充方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

综上所述,根据示例性实施例,基于fairseq框架采用神经网络通过人工智能的方式对古籍进行自动标点填充,节省人工填充古籍标点符号的人力物力,提高古籍整理的效率。

需要指出的是,在本发明公开的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式,并不构成对本发明公开保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号