首页> 中国专利> 基于音节嵌入的藏汉人名音译方法

基于音节嵌入的藏汉人名音译方法

摘要

本发明公开一种基于音节嵌入的藏汉人名音译方法,利用藏语音节和汉语音节来训练音节成分袋BOC模型,分别得到藏语音节嵌入和汉语音节嵌入表示;根据音节的嵌入表示来实现从藏语人名到汉语人名的音译序列生成。本发明摒弃了传统音译过程中借助语音作为平行语料之间的相似度量,利用BOC模型得到的音节嵌入能够克服平行语料库规模小而导致某些字词缺失对音译系统的影响。本发明克服了传统方法对于缺失字词的音译的局限性,提高了音译结果中字词的多样性和扩展了可候选项,得到更好的音译结果。

著录项

  • 公开/公告号CN108197122A

    专利类型发明专利

  • 公开/公告日2018-06-22

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201810059615.X

  • 发明设计人 夏建华;张进兵;韩立新;

    申请日2018-01-22

  • 分类号

  • 代理机构南京纵横知识产权代理有限公司;

  • 代理人董建林

  • 地址 211100 江苏省南京市江宁开发区佛城西路8号

  • 入库时间 2023-06-19 05:41:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-30

    未缴年费专利权终止 IPC(主分类):G06F17/28 专利号:ZL201810059615X 申请日:20180122 授权公告日:20181123

    专利权的终止

  • 2018-11-23

    授权

    授权

  • 2018-07-17

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20180122

    实质审查的生效

  • 2018-06-22

    公开

    公开

说明书

技术领域

本发明涉及文字处理技术领域,尤其涉及一种基于音节嵌入的藏汉人名音译方法。

背景技术

把一种语言的文字序列转换成另一种语言对应的意义相同文字序列,是翻译的基本过程。这也是从事藏文古文献资料汉化工作者的基本任务,在这个活动过程中,翻译专家在翻译一些人名、地名等专有名词时,则不采用意译,而采用音译,也就是根据藏文人名、地名的字符发音转换成汉文中对应的发音相同或相似的字构成的人名、地名。然而,在人工翻译过程中,受人为翻译的因素影响,出现了许多藏汉音译的不规范形式,例如:1)汉语方言的差异导致汉语音译的差异:如不同的翻译人可以将地名音译为“僧达阿冬”、“申达阿洞”、“孙达阿东”等;2)藏语方言(藏语有三大方言:卫藏、康巴、安多)的差异性导致汉语音译的不同:比如地名曾被音译为“强巴”、“祥巴”、“向巴”等几种译法;3)由于藏文书面语与口语的语音偏差造成音译汉语语句的不同等。

计算机技术的发展,以及其与语言信息处理技术的结合所形成的机器音译,克服了前面讨论的人工音译的缺陷,比如,采用藏语官方版的拉萨藏语发音制作藏汉平行语料,那么在使用音译机器音译时,则不会出现康巴、安多两种方言对音译结果的干扰。目前存在的机器音译方法有许多,主要如下:

基于规则的方法,包括基于字形和基于语音的音译,前者通过字形匹配,后者采用平行语音语料匹配,解决了约定俗成的音译,如只可译为文成公主;

基于统计的方法和规则与统计相结合的方法,当某些约定俗成的音译出现两种和两种以上的译法,则可以依据统计权重来选择。

但是,以上这些方法都受限于人工标注语料的数据量有限和涉及领域少,比如,我们需要将地名:和人名:分别音译成汉文,但是平行语料中没有此词条,则可能导致基于规则和统计的方法也不能找到发音相似的音译:“僧达阿冬”、“森达顿木”、“申达阿洞”、“孙达阿东”和“索罗西”、“索洛溪”等,也就是以上这些方法在遇到了未在平行语料中出现的词条,就不能生成相应的音译汉文序列,这也是这些方法目前存在的不足和局限性。

发明内容

本发明的目的在于克服现有技术中的不足,提供一种基于音节嵌入的藏汉人名音译方法,克服了传统方法在音译结果中同音字可候选的局限性,提高了音译结果中字词的多样性和可选择性。

为达到上述目的,本发明所采用的技术方案是:基于音节嵌入的藏汉人名音译方法,该方法包括如下步骤:

对藏文、汉文分别进行音节化,得到藏文音节和汉文音节,利用藏文音节和汉文音节训练音节成分袋BOC模型,分别得到藏文音节嵌入表示和汉文音节嵌入表示;根据音节嵌入表示、利用最大熵音译模型实现从藏文人名到汉文人名的音译。

进一步的,音节化的具体方法如下:

将平行语料和非平行语料中的藏文和汉文分别进行音节化,包括音节划分和音节拆分;

藏文的音节化处理是指先将藏文语料按按音节划分,再进行音节的成分化处理;

汉文的音节化处理是先将汉字进行拼音化,再按音节划分和成分化处理为:声母、第一韵母、第二韵母和声调;

针对每个音节构建一个两层多叉树:根节点为音节,叶子节点为相同发音的汉字。

进一步的,汉字拼音化过程中,相同拼音但不同声调应当进行声调区分处理。

进一步的,所述成分化处理是指将音节拆分成七种成分:基字、元音、前加字、后加字、上加字、下加字、再后加字。

进一步的,音节嵌入表示的获取方法如下:

将藏文和汉文语料进行音节化后的音节和成分进行嵌入初始化,每个嵌入为400~600的维度,每个维度值取自区间[-1,1];

创建CEBOC网络,用于表示基于成分-整体的BOC网络,通过音节预测每个成分的概率;利用随机梯度上升算法学习参数,更新音节的成分嵌入;当CEBOC网络遍历完语料,得到藏文和汉文音节的所有成分的最终嵌入;

创建ECBOC网络,用于表示基于整体-成分的BOC网络,通过成分预测音节的概率;利用随机梯度上升算法学习参数,更新音节的嵌入;当ECBOC网络遍历完语料,得到藏文和汉文音节的所有音节的最终嵌入。

进一步的,创建CEBOC网络的具体方法如下:

输入层,利用一个可变大小的滑动窗口读取一个音节和音节成分的嵌入,公式如下:

unita=componentb(syllable),

式中,unita表示滑动窗口的第a个单元,componentb表示一个音节syllable的第b个成分,每次滑动以一个音节为单位;

投影层为输入层的嵌入均值,公式如下:

式中,N表示当前窗口的大小;

输出层只有一个输出单元,利用Noise-Contrastive Estimation算法建立对数似然输出函数,公式如下:

L=∑s∈Dlog(σ(W·CEproj)∏u∈NCE(s)(1-σ(W·CEproj))),

式中,s表示音节;D表示语料库;表示激活函数;W表示CEproj的权重向量;NCE(s)表示当前音节被替换成其他音节构成的负样本集合;u表示负样本集合的一个元素。

进一步的,创建ECBOC网络的具体方法如下:

输入层,将滑动窗口的大小设置为1,每次读取一个音节,公式如下:

unit=syllablec

式中,syllablec表示语料中第c个音节;unit表示当前窗口的唯一单元;

投影层为输入层的嵌入均值,公式如下:

ECproj=unit,

输出层有k个输出单元,k为当前音节包含的成分数量,利用Noise-Contrastive Estimation算法建立对数似然输出函数,公式如下:

L′=∑s‘∈D’c∈comp(syllable)(σ(U·ECproj)∏u∈NCE(s′)(1-σ(U·ECproj))),

式中,s‘表示语料中的一个音节,D’表示语料库;comp(syllable)表示一个音节包含成分的集合;表示激活函数;U表示ECproj的权重向量;NCE(s′)表示当前成分被替换成其他成分的负样本集合,u表示负样本集合的一个元素。

进一步的,在得到音节嵌入表示后,利用藏文平行语料训练判别式最大熵音译模型,公式如下:

式中,ch表示音译的目标汉文;t表示待音译的藏文;λn为特征函数fn(ch,t)对应的特征权重;fn(ch,t)表示音译所需要的特征;Num表示当前音译所包含的特征数量;e′表示所有可能的输出音节;

利用L-BFGS求得最大熵音译模型的最优参数值。

进一步的,利用BOC模型遍历语料,采用随机梯度上升算法对BOC模型的进行参数优化,当基于成分-整体的BOC网络和基于整体-成分的BOC网络先后遍历完语料,得到所有音节和成分的嵌入表示。

进一步的,根据音节嵌入表示,利用最大熵音译模型实现从藏文人名到汉文人名的音译:

根据解码的两种情况得出目标汉字序列:

第一种情况,对于约定俗成的藏汉音译,采用基于词典的音译。

第二种情况,对于非约定俗成的音译,如果待音译的藏文人名中存在某些音节未出现在平行语料中,则根据藏文音节嵌入寻找平行语料中最相似的藏文音节,再依据最大熵音译模型计算候选音译汉语人名音节序列的概率,然后采用Beam search算法在解空间进行最优序列的搜索,生成目标汉文音节序列,再结合两层多叉树和叶子节点对应汉字在平行语料中的字频生成汉文人名。

与现有技术相比,本发明所达到的有益效果:

充分利用了音节嵌入表示,克服了传统音译方法对缺乏字的局限性,能够大幅度提升藏汉人名音译结果中字词的多样性和可选择性,有助于得到更好质量的音译结果。

附图说明

图1为本发明的流程图;

图2为图1中语料音节化的流程图;

图3为图1中音节嵌入化的流程图;

图4为图1中最大熵音译模型的流程图;

图5为图1中解码与序列生成的流程图。

具体实施方式

本发明公开一种基于音节嵌入的藏汉人名音译方法,利用藏语音节和汉语音节来训练音节成分袋模型BOC(Bag of Components)模型BOC模型,分别得到藏语音节嵌入和汉语音节嵌入表示;根据音节的嵌入表示来实现从藏语人名到汉语人名的音译序列生成。本发明摒弃了传统音译过程中借助语音作为平行语料之间的相似度量,克服了平行语料库小而导致某些字词缺失和音译系统性能不佳的缺点,利用BOC模型得到的音节嵌入的显著特点是相同发音的音节具有相同或者相近的嵌入表示。本发明克服了传统方法对于缺失字词的音译的局限性,提高了音译结果中字词的多样性和扩展了可候选项,得到更好的音译结果。

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

基于音节嵌入的藏汉人名音译方法,首先对藏语语料和汉语语料分别进行音节化处理,其次利用音节化的语料训练藏语和汉语的BOC网络,得到藏语和汉语的音节嵌入,然后,利用平行语料训练最大熵音译模型,最后实现藏语人名到汉语人名的音译。

如图1所示,为本发明的流程图,包括以下步骤:

步骤101:语料音节化

将平行语料和非平行语料中的藏文和汉文分别进行音节化,包括音节划分和音节拆分。

如图2所示,具体包括如下步骤:

步骤201:将平行语料和非平行语料中的藏文和汉文进行按音节划分;对于汉字先进行按字划分,再进行字的拼音化;由于藏文为拼音字,直接按音节划分。

步骤202:把语料中所有的音节进行成分化处理,就是把音节拆分成构成一个音节的基本组件。对于藏语音节的成分化处理,是将藏文音节拆分成基本成分:基字、元音、前加字、后加字、上加字、下加字、再后加字,比如:被音节化后为:其中第二个音节被成分化为:基字:元音:下加字:对于汉语拼音的成分化处理是将拼音成分化处理为:声母、第一韵母、第二韵母和声调;比如,良被音节化后为:liáng,成分化后为:声母:l,第一韵母:i,第二韵母:ang,声调:2。

步骤203:对于汉字构建两层多叉树,即树的根节点为拼音,叶子节点为相同拼音的所有汉字。

步骤102:音节嵌入化

从音节化的语料中,按音节读取音节和音节包含的每个成分,在读取过程中忽略重复读取的音节,再将每个音节和音节的成分进行嵌入初始化,每个嵌入为400-600的维度,每个维度值取自区间[-1,1];再构建两个三层的BOC网络:ECBOC)和CEBOC;先使用语料训练CEBOC,再训练ECBOC,得到语料所包含的所有音节的嵌入表示。

如图3所示,为音节化的具体流程,具体包括如下步骤:

步骤301:嵌入的初始化,将藏语和汉语语料进行音节化后的音节和成分进行嵌入初始化,每个嵌入为400-600的维度,每个维度值取自区间[-1,1]。

步骤302:利用一个可变大小的滑动窗口读取一个音节和音节成分的嵌入,公式如下:

unita=componentb(syllable),

式中,unita表示窗口的第a个单元,componentb表示一个音节syllable的第b个成分,每次滑动以一个音节为单位;

步骤303:创建CEBOC,由构成音节的各个成分预测音节的概率。先将滑动窗口读取的数据输入到CEBOC的输入层;投影层为输入层的嵌入均值,公式如下:

式中,N表示当前窗口的大小;利用NCE建立对数似然输出函数,公式如下:

L=∑s∈Dlog(σ(W·CEproj)∏u∈NCE(s)(1-σ(W·CEproj))),

式中,s表示音节;D表示语料库;表示激活函数;W表示CEproj的权重向量;NCE(s)表示当前音节被替换成其他音节构成的负样本集合;

利用随机梯度上升算法学习参数,更新音节的成分的嵌入;当CEBOC遍历完语料,得到藏语和汉语音节的所有成分的最终嵌入。

步骤304:创建ECBOC,由音节预测音节的各个成分的概率。首先把滑动窗口的大小设置为1,每次读取一个音节,也就是输入层的输入,公式如下:

unit=syllablec

式中,syllablec表示语料中第c个音节;unit表示当前窗口的唯一单元;

投影层为输入层的嵌入均值,公式如下:

ECproj=unit,

输出层有k个输出单元,k为当前音节包含的成分数量,利用NCE建立对数似然输出函数,公式如下:

L′=∑s‘∈D’c∈comp(syllable)(σ(U·ECproj)∏u∈NCE(s′)(1-σ(U·ECproj))),

式中,s‘表示语料中的一个音节,D’表示语料库;comp(syllable)表示一个音节包含成分的集合;表示激活函数;U表示ECproj的权重向量;NCE(s′)表示当前成分被替换成其他成分的负样本集合;

利用随机梯度上升算法学习参数,更新音节的嵌入。

步骤305:当ECBOC遍历完语料,得到藏语和汉语音节的所有音节的更新嵌入。

步骤103:最大熵音译模型

根据音节嵌入化的平行语料训练判别式最大熵音译模型。

如图4所示,最大熵音译模型的流程图,具体包括如下步骤:

步骤401:输入音节嵌入化平行语料;

步骤402:根据平行语料进行判别式最大熵音译模型的训练,公式如下:公式如下:

式中,ch表示音译目标汉语;t表示待音译藏文;λn为特征函数fn(ch,t)对应的特征权重;fn(ch,t)表示音译所需要的特征;Num表示当前音译所包含的特征数量;e′表示所有可能的输出音节;利用L-BFGS求得最大熵音译模型的最优参数值。

步骤104:解码与序列生成包括以下步骤:

根据最大熵音译模型得到候选音译序列的概率值,并搜索解空间,得到汉语音节序列,也就是拼音序列,在此基础上,结合两层多叉树和叶子节点在平行语料中的字频率生成汉语人名。

如图5所示,具体包括如下步骤

步骤501:根据解码的两种情况得出目标汉字序列:

第一种情况,对于约定俗成的藏汉音译,采用基于词典的音译,比如:只可译为文成公主。

第二情况,对于非约定俗成的音译,如果待音译的藏文人名中存在某些音节未出现在平行语料中,则根据藏文音节嵌入寻找平行语料中最相似的藏文音节,再依据最大熵音译模型计算候选音译汉语人名音节序列的概率,然后采用Beam search算法在解空间进行最优序列的搜索,生成目标汉文音节序列,再结合两层多叉树和叶子节点对应汉字在平行语料中的字频生成汉文人名。

步骤502:输出藏文人名对应的汉字人名序列。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号