首页> 中国专利> 西里尔蒙古文到传统蒙古文转换方法

西里尔蒙古文到传统蒙古文转换方法

摘要

本发明提供一种西里尔蒙古文到传统蒙古文转换方法,该方法包括以下步骤:首先,将西里尔蒙古文文本进行预处理,并将西里尔蒙古文划分为集内词和未登陆词;其次,将所述集内词采用基于规则转换方法进行转换,将所述未登陆词采用基于联合序列模型的转换方法进行转换;再次,将集内词和未登录词的转换结果合并在一起,然后对于西里尔蒙古文到传统蒙古文的一对多对应的单词将采用语言模型选择最后转换结果;最后完成转换。本发明可以将任意西里尔蒙古文文本转换成传统蒙古文文本,并且对未登录词和西里尔蒙古文到传统蒙古文的一对多对应单词可以进行高准确率的转换。

著录项

  • 公开/公告号CN103810161A

    专利类型发明专利

  • 公开/公告日2014-05-21

    原文格式PDF

  • 申请/专利权人 飞龙;

    申请/专利号CN201410058055.8

  • 申请日2014-02-21

  • 分类号G06F17/28(20060101);

  • 代理机构

  • 代理人

  • 地址 010021 内蒙古自治区呼和浩特市大学西路235号

  • 入库时间 2024-02-20 00:07:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-01-25

    授权

    授权

  • 2016-06-08

    专利申请权的转移 IPC(主分类):G06F17/28 登记生效日:20160518 变更前: 变更后: 申请日:20140221

    专利申请权、专利权的转移

  • 2014-07-23

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20140221

    实质审查的生效

  • 2014-05-21

    公开

    公开

说明书

技术领域

本发明涉及语言的转换方法,尤其涉及一种从西里尔蒙古文到传统蒙古 文转换方法。

背景技术

蒙古文是一个跨多国、多地区的语言,在世界上有广泛影响,使用者分 布在中国、蒙古国和俄罗斯联邦等国家,尤其是中国和蒙古国使用的蒙古语 言文字是“语同文不同”,即语言相同,文字不同。在中国使用的蒙古文叫 “传统蒙古文”,在蒙古国使用的蒙古文叫“西里尔蒙古文”。

随着中国和蒙古国两国之间的文化、教育和经济的交流与合作不断深入, 两国之间的文字转换工作也变的极其重要。西里尔蒙古文到传统蒙古文的转 换工作会给两国蒙古族同胞的交流带来更多的便利,并且对蒙古族的科学, 文化和教育发展同样具有重要的意义。

传统蒙古文和西里尔蒙古文之间有不可分割的联系,但二者之间有一定 的区别:

(1)传统蒙古文有35个字母,其中包含8个元音字母和27个辅音字母。 西里尔蒙古文也有35个字母,其中包含13个元音字母,20个辅音字母,硬 化字母和软化字母各一个。

(2)西里尔蒙古文字母区分大小写,而传统蒙古文字母不区分大小写。 西里尔蒙古文字母的大写用法跟英语相似。传统蒙古文字母不区分大小写, 并且每个字母在词中变化有很多,单词中字母在上、中、下位置不同将导致 写法也不相同。

(3)西里尔蒙古文和传统蒙古文书写方向不同。西里尔蒙古文采用的是 从左到右的书序,从上到下的行序,而传统蒙古文采用从上到下的书序,从 左到右的行序。

(4)西里尔蒙古文和传统蒙古文的书面语和口语的差别程度并不相同。 西里尔蒙古文中的书面语和口语基本保持一致,口语中怎么发音就基本上怎 么拼写,而传统蒙古文的书面语与口语不是一一对应的,书面语转口语时会 出现元音和辅音的脱落、增加和变换等现象。

现有的西里尔蒙古文到传统蒙古文的转换技术有基于词典的转换方法和 基于规则的转换方法。现有的基于词典的转换方法直接采用对照词典进行转 换。现有的基于规则的转换方法首先对输入的西里尔蒙古文单词在词干对照 词典中进行查找,若存在该词则转换为对应的传统蒙古文单词,转换完成, 若不存在该词则通过西里尔蒙古文的词缀切分规则进行词缀切分,如果切分 正确,则把切分后所得到的词干与词缀分别通过词干对照词典和词缀对照词 典进行查找对应的传统蒙古文词干和词缀,然后根据传统蒙古文的词缀合成 规则合成传统蒙古文单词,转换完成,如果切分失败则转换失败。

然而,传统蒙古文是通过词根缀接多个后缀的方式生成新词的,按照这 种生成方式,可以构成大规模的蒙古文单词,词典一般很难全部包含。基于规 则的方法很难归纳出所有的转换规则,而且相当一部分单词并不遵循转换规 则。并且,西里尔蒙古文中的部分单词会对应多个传统蒙古文单词,基于词 典和基于规则的方法无法解决对这类单词的转换。所以,基于词典和基于规 则的方法有较大的局限性,从而不能够解决西里尔蒙古文到传统蒙古文工作 中存在的一些关键问题,如西里尔蒙古文到传统蒙古文转换时的未登录词的 转换及一对多对应单词的转换等。

发明内容

本发明实施例的目的在于提供一种将西里尔蒙古文到传统蒙古文转换 方法,旨在解决西里尔蒙古文到传统蒙古文转换时的未登录词的转换及一对 多对应单词的转换等问题。

本发明实施例是这样实现的,一种将西里尔蒙古文到传统蒙古文转换方 法,该方法包括以下步骤:

一种西里尔蒙古文到传统蒙古文转换方法,包括以下步骤:

步骤一,将西里尔蒙古文进行预处理,并将西里尔蒙古文划分为集内词 和未登陆词;

步骤二,将所述集内词采用基于规则转换方法进行转换;

步骤三,将所述未登陆词采用基于联合序列模型的转换方法进行转换;

步骤四,将集内词和未登录词的转换结果合并在一起,然后对于西里尔 蒙古文到传统蒙古文一对多对应的单词将采用语言模型选择最后转换结果;

步骤五,完成转换。

进一步地,所述的一种西里尔蒙古文到传统蒙古文转换方法,在步骤一 中,所述预处理包括对西里尔蒙古文文本进行分句处理,数字和特殊符号等 非西里尔蒙古文字母的判断,西里尔蒙古文大写字母的转换,采用西里尔蒙 古文词干库和构形后缀库对西里尔蒙古文进行切分和判断,并将西里尔蒙古 文划分成集内词和未登录词。

进一步地,所述的一种西里尔蒙古文到传统蒙古文转换方法,在步骤三 中,采用基于联合序列模型的转换方法,该方法包括以下步骤:

步骤一,由一个或多个西里尔蒙古文和传统蒙古文对应的字母作为一个 联合多元,并采用EM(Expectation-Maximization Algorithm)算法对模型进行 估计;

步骤二,对模型进行平滑和裁剪处理;

步骤三,采用Viterbi算法进行解码。

本发明可以将任意西里尔蒙古文文本转换成传统蒙古文文本,并且对 未登录词和西里尔蒙古文到传统蒙古文的一对多对应单词可以进行高准 确率的转换。

附图说明

图1为本发明语言转化流程图;

图2为采用西里尔蒙古文到传统蒙古文转换当中的集内词转换示例图;

图3西里尔蒙古文到传统蒙古文转换示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中 的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的 实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实 施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。

图1为本发明语言转化流程图,如图1所示,本发明提供一种西里尔蒙 古文到传统蒙古文转换方法,包括以下步骤:

步骤一,将西里尔蒙古文进行预处理,包括对文本进行分句处理,数字 和特殊符号等非西里尔蒙古文字母的判断,西里尔蒙古文大写字母的转换, 采用西里尔蒙古文词干库和构形后缀库对西里尔蒙古文进行切分和判断,并 将西里尔蒙古文划分成集内词和未登录词。

步骤二,将所述集内词采用基于规则转换方法进行转换;

步骤三,将所述未登陆词采用基于联合序列模型的转换方法进行转换;

步骤四,将集内词和未登录词的转换结果合并在一起,然后对于西里尔 蒙古文到传统蒙古文一对多对应的单词将采用语言模型选择最后转换结果;

步骤五,完成转换。

其中,集内词采用基于规则的转换方法进行转换,附图2为西里尔蒙古 文到传统蒙古文转换当中的集内词转换示例图。该方法包括以下步骤:

步骤一,结合西里尔蒙古文和传统蒙古文元音和谐规律、元音生成和脱 落规律等蒙古文构词规则,设计西里尔蒙古文和传统蒙古文词干和构形后缀 连接规则库;

步骤二,对西里尔蒙古文集内词进行词干和构形后缀的切分;

步骤三,采用西里尔蒙古文和传统蒙古文对应的词干库和构形后缀库, 将西里尔蒙古文词干和后缀转换成传统蒙古文词干和后缀;

步骤四,利用规则库将传统蒙古文词干和后缀进行合并,构成传统蒙古 文单词。

对于采用基于规则无法转换的词,我们称之为未登录词。我们采用基于 联合序列模型的方法转换这些未登录词。联合序列模型的基本思想是输入和 输出序列共同可以生成包含输入和输出符号的联合单位的共同序列。简单情 况下,每个单位带有零或一个输入符号和零或一个输出符号。这相当于有限 状态转换器的传统定义。这种可以由多个输入和输出符号组成的单位称之为 联合多元(Joint Multigram)。本发明将西里尔蒙古文字母和传统蒙古文字母 序列分成相等的段数,这样的分组称为联合分割。联合分割中的对齐项是可 以交换使用的。我们将这特殊的对齐类型称为“m-to-n”对齐。对于一个给 定的西里尔蒙古文和传统蒙古文字母串对,分割联合多元的结果不是唯一的。 对于可能有歧义的m-to-n对齐,我们可以对输入的字母串进行自由的组合。 本发明的模型估计采用了EM算法,用EM算法训练模型时,很可能会出现 过拟合现象,并且在预测未出现的数据时效果不佳。同样,从训练样本中分 析得到的一些单调初始化的联合多元会达到某个概率聚集,而只有其中的小 部分将有助于“正确”的模型估计。这两个问题分别会通过裁剪和平滑进行 处理。解码算法采用了Viterbi算法。

基于联合序列模型的转换方法包括以下步骤:

步骤一,建立西里尔蒙古文和传统蒙古文对照单词训练库;

步骤二,由一个或多个西里尔蒙古文字母和传统蒙古文字母作为一个联 合多元,并采用EM算法对模型进行估计;

步骤三,对模型进行平滑和裁剪处理;

步骤四,采用Viterbi算法进行解码。

集内词和未登录词转换完后,对转换结果进行合并,并对于西里尔蒙古 文对应多个传统蒙古文的单词将采用语言模型进行最优转换结果的选择。例 如,西里尔蒙古文句子“танай амар тθвшинийг хамгаалхаар явсан юм.”转换 成传统蒙古文时,西里尔蒙古文单词“aMap”和“юM”对应多个传统蒙古文 单词,图3西里尔蒙古文到传统蒙古文转换示例图,如图3所示,转换后的 传统蒙古文采用了拉丁方式进行了转写。图中可看出西里尔蒙古文单词 “амар”可以转换成4个传统蒙古文,西里尔蒙古文单词“юM”可以转换成 2个传统蒙古文。粗线路径表示正确转换结果,正确结果为“ 对应的拉丁转写为“tan-v amvr tobsin-i  hamagalahv-bar yabvgsan yvm。”。

所述采用语言模型选择最优的传统蒙古文候选结果采用下式:

T'=argTQmax>(T)---(1)

其中,T’表示最优的转换结果,Q表示所有候选路径,T={t1t2...tm}表示所 有候选集合Q中的任意一个候选路径,P(T)表示选择候选路径T的概率。P(T) 可以表示为:

P(Ti)=P(t1)P(t2|t1)P(t3|t1t2)...P(tm|t1t2...tm-1)=Πj=1mP(tj|tj-11)---(2)

为了计算方便,可以假定任意一个词的出现概率只同它紧前面的N-1个 词有关(N<m),这时的模型就是典型的N元模型(N-gram),即

P(T1)=P(t1)P(t2|t1)P(t3|t1t2)...P(tm|tm-N+1tm-N+2...tm-1)=Πj=1mP(tj|tj-1j-N+1)---(3)

则词tj的条件概率的估计公式为:

P(tj|tj-N+1tj-N+2...tj-1)=count(tj-N+1tj-N+2...tj)count(tj-N+1tj-N+2...tj-1)---(4)

式中count(...)表示一个特定词序列在整个文本语料库中出现的累计次 数。

综上所述,针对西里尔蒙古文到传统蒙古文的转换工作中西里尔蒙古文 未登录词转换和西里尔蒙古文对应多个传统蒙古文的问题提出了基于规则和 统计相结合的转换方法。该方法有效的解决了未登录词和西里尔蒙古文对应 多个传统蒙古文单词的转换问题,并且实现了高效的西里尔蒙古文到传统蒙 古文的转换系统。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号