首页> 中国专利> 一种面向机器翻译的日语动词识别方法

一种面向机器翻译的日语动词识别方法

摘要

本发明公开了一种面向机器翻译的日语动词识别方法,属于自然语言处理领域。本发明通过分析日语动词的活用形规律,实现了一种基于规则和词典相结合的日语动词识别方法,可将文本中的动词完整地识别出来,并通过形态还原操作得到其基本型。本发明的日语动词识别方法利用一般的通用词典即可,具有较强的适用性和鲁棒性。该方法有效地提高了机器翻译中词法分析的准确性和双语词对齐效果,整体上提高了机器翻译的译文质量。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/28 变更前: 变更后: 申请日:20131113

    专利权人的姓名或者名称、地址的变更

  • 2017-05-10

    授权

    授权

  • 2014-05-07

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20131113

    实质审查的生效

  • 2014-04-09

    公开

    公开

说明书

技术领域

本发明属于自然语言处理领域,涉及一种日语动词的自动识别方法,具体涉及一种基于规则和词典相结合的面向机器翻译的日语动词识别方法。

背景技术

随着中日之间科技和文化交流的日益频繁,突破语言间的理解和转换障碍成为关键要素之一,及时准确地将日文信息翻译转换成可读可理解的汉语信息,不仅具有理论上的价值,更具有现实上的必要性和紧迫性。现有的统计机器翻译系统中,在对平行语料进行机器训练之前需要进行分词预处理操作,其质量好坏将直接影响翻译质量。由于日语动词存在大量活用形及词典收录不全等因素,基于词典的日语动词切分一直很难达到理想的效果。如何对动词进行正确的切分和识别,提高词对齐的效果,进而提升整体机器翻译质量,是目前亟待解决的问题之一。

日本的工藤拓在2006年开发了开源MeCab形态素解析工具,该形态素解析工具以词典为基准,可将词典收录的日语动词(基本形词条)正确地识别出,但是,在解析词典未收录的日语动词活用形词条时会将其切分为两个甚至多个词,然后对各个词进行词性标注。这种识别方法,未能将一个完整的动词切分出,如用于统计机器翻译中的分词预处理操作,会降低双语词对齐效果,不利于翻译模型概率的计算,影响翻译质量。

国内的金春实在中文核心期刊《微计算机信息》2006年第22卷第1-3期中的《基于词素的日文分词方法及其在O C R系统中的应用》一文中提出了一种基于词素的日文分词方法,其主要思想是根据日语动词特点和活用规律将动词拆分为词素和词尾两部分,分别存储在两部不同的词典内,再对日语动词进行识别。该方法的初衷是用于OCR识别,目的是提高OCR正确识别率,识别后不需要对其进行翻译或是其它处理,其不足之处在于也是未能将一个变形的词完整地切分出来,此外还需要分别对两部词典进行处理,提取词素信息既耗时又耗力。

发明内容

本方法主要根据日语句子中动词的出现位置和动词的结尾标志来查找候选动词,在找到候选动词之后对其进行还原,还原后再通过查词典的形式验证其正确与否。如果还原后的新词条信息在词典内查到有其对应的词条,则说明还原成功,进而会对该词进行词性标注;如果按还原规则还原后的新的词条信息未在词典内找到相同的词条,则对候选动词进行再次切分和还原处理,处理后,如果其仍未在词典内查到其对应的词条,则词条保持原样,不做处理。

日语动词特征:

日语动词主要出现在助词、组合助词以及连词之后,

日语动词结尾标志字符有限,

日语动词活用形存在一定的规律,

基于前述日语动词的特点,本发明提出了一种基于规则和词典相结合的日语动词识别方法。该方法包括以下步骤:

步骤A,检索并标注包含左邻接标志(字符或字符串)和结尾标志(字符)的特殊词汇,不参与后续的动词识别。

所述特殊词汇包括特殊动词和特殊非动词两类词,所述特殊动词是指包含该特殊日语动词的字符包含进行查找时的左邻接标志(字符或字符串)的词;所述特殊非动词是指包含动词结尾标志字符的非动词。

步骤B,在检索出特殊词汇之后,开始查找候选动词。

步骤C,对查找到的候选动词进行还原,并通过查词典的方式验证其是否正确。

步骤D,针对还原成功且在词典内查到相应词条的候选动词,对其进行词性标注。

其中,所述步骤B中进一步包括以下步骤:

步骤B1,检索出候选动词查找的左邻接标志(字符或字符串)。

所述候选动词查找左邻接标志(字符或字符串)包括:助词、组合助词、连词。

所述动词查找结尾标志(字符)包括:五段动词结尾标志、一段动词结尾标志、动词活用形结尾标志。

步骤B2,在左邻接标志(字符或字符串)后的相应范围内查找候选动词结尾标志(字符)。

步骤B3,将左邻接标志(字符或字符串)的下一个字符至候选动词结尾标志(字符)的部分切分出来作为待还原候选动词。

 综上,我们假设                                                 为输入的文本字符串,  为动词左邻接标志(字符或字符串)组成的集合, 为结尾标志字符组成的集合。则对于任意一个输入文本,其字符串中包含动词的可能情况均为如下形式:

在查找到左邻接标志  和结尾标志  后,将 的下一个字符至  的部分切分出来,作为待还原候选动词。

所述步骤C进一步包含以下步骤:

C1,针对查找到的候选动词采用字符串前向最大匹配算法,检索出待还原候选动词的后缀(P)。

C2,对检索出的候选动词的后缀(P),按其对应的还原规则进行还原处理。

C3,将还原后的词条信息与词典中的对应词条信息进行比对,验证识别的正确与否。

C4,对于还原后的词条信息未在词典内查找到对应词条信息时,我们会对候选动词进行二次切分和二次还原处理,此时,若能够还原成功且在词典内查到还原后的词条,说明还原成功,否则不再对其进行处理。

所述二次切分和二次还原处理是基于所查找到的待还原候选动词可能是两个词或是三个词组合的考虑,根据日语动词连用规律以及日语动词连用标志字符对其进行二次切分,将其切分为单个的词,然后再通过还原规则对其进行还原。

综上,我们的候选动词还原采用的核心算法是字符串前向最大匹配法,即当    且   时,则提取   并按其所对应的还原规则进行还原处理。再将还原后的词条信息与词典中的对应词条信息进行对比即可验证识别的正确与否。

本发明的有益效果是:以往的日语动词识别方法,都未能将动词的活用形词条作为一个完整的词切分出来,不利于统计机器翻译研究中的双语词对齐处理,影响了翻译质量。本发明采用的面向机器翻译的基于规则和词典相结合的日语动词识别方法,有效地将词典未收录日语动词活用形词条完整地的切分并识别出来,提高了统计机器翻译中分词预处理时的双语词对齐效果,并有利于基于统计的机器翻译质量的提升。

附图说明

图为本发明的核心处理流程图。

具体实施方式

以下结合日文动词识别的具体实施例,进一步详细说明本发明的方法。

实施例

本具体实施方式描述的是对日文专利文献中的所有动词进行识别,所涉及的日文动词活用形态包括:基本形、过去式、被动式、使动式、完成式等。

如图所示,本发明的日语动词识别方法包含以下几个步骤:

特殊词汇检索并标注

根据我们总结的特殊词汇库进行特殊词汇的检索和标注,不参与后续的日语动词识别。

现输入日文如下:

①認証スイッチがその項目とID(番号)によってそれぞれ制御を行う。

②気温が上がるのは、太陽の熱が地面を暖め、地面が空気を暖めるからである。   

检索结果如下:

①認証スイッチがその項目とID(番号)によってそれぞれ+++adv制御を行う。

②気温が上がる+++vことは、太陽の熱が地面を暖め、地面が空気を暖めるからである。  

    句①的“それぞれ”为一非动词,其因包含动词结尾标志字符“れ”,如果不事先将其检索出,会将其识别为动词,造成错误识别。句②中的“上がる”为一特殊动词,因其字符内包含动词查找左邻接标志“が”,如果不事先将其检索出,后续动词查找规则会把“上がる”切分为“上/が/る”三部分,造成错误识别,所以我们事先检索出这类特殊词汇并加以标注,不参与后续的动词识别。

候选动词查找

特殊词汇检索和标注结束之后,开始根据候选动词左邻接标志(字符或字符串)、结尾标志字符查找范围、结尾标志字符来查找候选动词。

现输入一句日文如下:

さらに、この箱状体は、その内側に下側から順次に設けられた

查找结果如下表所示:

表1 候选动词查找算法示例

日文字符(串)設けられた序号1611FIRST-CHAR  11

上述序号中16表示左邻接标志字符编号为16(在此实施例中代表“に”)的字符,11表示动词结尾标志字符编号为11(在此实施例中代表“た”)的字符,在进行查找时,首先查找到左邻接标志字符编号16的字符,然后在左邻接标志字符的(13,3)范围内查找结尾标志字符,找到结尾标志字符编号11的字符,所述(13,3)的范围为动词结尾标志字符可能出现的范围,即从左邻接标志字符开始,从左往右查找范围锁定在第3个到第13个字符的范围内,查找顺序则是从后向前,即从第13个字符开始向前查找直到第3个字符,查找到动词结尾标志编号为11(在此实施例中代表“た”)的字符之后,将左邻接标志字符或字符串之后的第一个字符即FIRST-CHAR至字符编号为11(在此实施例中代表“た”)的部分连接在一起,即为我们将要提取的待还原候选动词。 

候选动词查找规则如下:

1.を*->FIND(OR,(8,2),"り"|"き"|"ぎ"|"し"|"ち"|"ひ"|"び"|"み")

……

5.において*->FIND(OR,(6,16),"た"|"だ")

……

16 に* ->FIND(OR,(3,13),"た"|"だ")

……

候选动词还原

现输入日文如下:

①“さらに、この箱状体は、その内側に下側から順次に設けられた”,其中已查找出的待还原候选动词为“設けられた”。

表2 待还原候选动词还原算法示例

待还原候选动词还原处理过程还原后候选动词設けられたられた(P129)→る(I129)設ける

对于待还原候选动词“設けられた”我们通过现有算法之前向最大匹配法,查找出“設けられた”的后缀P129,即“られた”,然后再将“設けられた”按照第P129所在的第129条还原规则将“られた”还原为I129 即“る”,所述第129条规则为“*られた->INFLEX(-,る)”,即首先查找到待还原候选动动词的后缀,在上述“設けられた”一词中,查找出其后缀为“られた”,再将“られた”还原为“る”,进而得到新的词条信息“設ける”,最后通过查字典验证“設ける”这个词条是否存在,词典存在“設ける”这个词条,说明识别正确。

候选动词还原规则如下:

1*ぼう->INFLEX(-,ぶ)

……

129  *られた->INFLEX(-,る)

……

174.*われる->INFLEX(-,う)

……

上述实例描述了还原后的词条信息在词典内查到有一致词条的情况,如果还原后的词条未在词典内查到对应的词条,这时我们会对其进行再次切分和再次还原处理

现输入日文如下:

RAIDは、データをビット/バイト単位、あるいはブロック単位で複数の記録装置に分散して保存する+++V方法で、処理をオーバーラップすることによりパフォーマンスを高め、高速性を実現している。

根据上述候选动词查找规则查找到的待还原候选动词为“分散して保存する”该词通过上述还原规则还原后的新词条为“分散して保存”,但是,该词条在因为是两个动词的组合使用,所以无法在词典内查到该词条。针对这类词条,我们根据候选动词二次切分规则对其进行切分。

候选动词二次切分规则如下:

ん*->FIND(OR,(6,3),"て")

……

ん*->FIND(OR,(6,3),"い"|"き"|"ぎ"|"し"|"じ"|"ち"|"み"|"り"|"れ"|"え"|"じ"|"け"|げ"|"せ"|"ぜ"|"ね"|"べ"|"め"|"ば")

……

其中,上述规则从前往后具有优先级、“ん”代表所有的候选动词左邻接标志,“OR”代表outside和right ,意思为在“ん”的外部向右查找动词连用标志字符,我们根据“ん*->FIND(OR,(6,3),"て")”规则,在对应的(6,3)的范围内查找到该词条“分散して保存する”的连用标志“て”,继而将该词分为“分散して”和“保存する”两个词,再根据上述候选动词还原规则对其进行还原,还原后通过查词典验证其还原正确与否,如果能够还原成功且在词典内查到还原后的词条,说明还原成功,如果其仍未在词典内查到其对应的词条,则词条保持原样,不做处理。。

词性标注

若还原后的候选动词在词典内查到对应的词条,则根据其之前进行的还原规则以及词典收录情况对其进行词性标注。

本方法使用的词性标注符号如下:

表3  词性标注符号

词性副词形容词名词动词代词连词符号advadjnvproncol

本发明使用的动词活用形形态标记符号如下:

表4 日语动词活用形形态标注符号

形态符号形态符号基本形ori使动形cau否定式no被动形pas假定形if完成式over过去式past中止形teている形ing持续形conます形masu能动形can

此外,日语动词活用形形态还存在上述表中动词形态的组合情况,关于组合标记符号,不一一列举。

例如“さらに、この箱状体は、その内側に下側から順次に設けられた。”

其标注结果如下:

さらに、この箱状体は、その内側に下側から順次に設けられた+++V(paspast)。

通过以上方法,即使词典未收录日语动词的活用形词条,也可将一个完整的动词(动词基本形和活用形)切分并识别出来。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号