首页> 中国专利> 一种基于学术文献的中英双语词典构建方法

一种基于学术文献的中英双语词典构建方法

摘要

本发明公开了一种基于学术文献的中英双语词典构建方法,包括:收集学术文献中英文标题语料、中英文关键词语料及中文全文中的中英文注解语料,并对语料进行预处理;分别构建中英文标题翻译词库、中英文关键词翻译词库及中英文注解翻译词库;分别对中英文关键词翻译词库、中英文注解翻译词库进行优化;抽取优化后的中英文关键词翻译词库与中英文注解翻译词库中的中文词汇,并构建中文词表;对中英文标题翻译词库进行优化;将中文词表通过中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库进行翻译,构建中英文双语词典。本发明对中英双语词典的准确率有很大的提升,解决现有中英双语词典构建方法中同义词处理存在效果不佳的问题。

著录项

说明书

技术领域

本发明属于自然语言处理技术领域,尤其涉及一种基于学术文献的中英双语词典构建方法。

背景技术

双语词典的构建是机器翻译的基础,其准确率很大程度上影响机器翻译的结果。目前用于构建双语词典的方法主要有基于平行语料、基于可比语料、基于种子词典等方法。

基于可比语料构建双语词典方法主要是基于词频统计,提取各单语语种类型下文本语料的高频词,利用每一高频词及其对应的表示结果构建双语词典。或者基于TF-IDF统计出各单语特征词构建特征词对,筛选出相似度较高的特征词对,构建双语词典。可比语料易于获取但对齐性低,基于可比语料构建双语词典不仅难度大、准确率低并且对同义词处理效果不佳。基于种子词典构建双语词典受种子词典的规模和质量影响较大且耗费大量的人力和时间。

平行语料具有高质量的对齐信息,基于平行语料构建双语词典不仅准确率高而且易于实现。但平行语料资源稀缺,且较难构建。现有的平行语料大都是根据两种不同语言的句子相似度来进行构建,语料对齐性差,基于此平行语料构建的双语词典准确率低。学术文献是经过多次人工审核的语料库,能够提供高质量的平行语料资源。基于学术文献进行平行语料的提取,基于学术文献平行语料进行双语词典的构建及优化,能够有效提升双语词典准确率且能够有效解决现有词典存在同义词处理效果不佳的问题,对机器翻译研究具有十分重要的意义。

发明内容

为解决上述技术问题,本发明的目的是提供一种基于学术文献的中英双语词典构建方法,该方法用于解决现有中英文双语词典准确率低及存在同义词处理效果不佳的问题。

本发明的目的通过以下的技术方案来实现:

一种基于学术文献的中英双语词典构建方法,包括:

步骤A收集学术文献中英文标题语料、中英文关键词语料及中文全文中的中英文注解语料,并对语料进行预处理;

步骤B分别构建中英文标题翻译词库、中英文关键词翻译词库及中英文注解翻译词库;

步骤C分别对中英文关键词翻译词库、中英文注解翻译词库进行优化;

步骤D抽取优化后的中英文关键词翻译词库与中英文注解翻译词库中的中文词汇,并构建中文词表;

步骤E对中英文标题翻译词库进行优化;

步骤F将中文词表通过中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库进行翻译,构建中英文双语词典。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

本发明基于学术文献构建中英双语词典,保证了原始语料的对齐质量及准确率。构建了中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库,并对翻译词库进行优化,进一步提升了词典的准确率。从翻译词库中提取中文词表并对其进行三个翻译词库的翻译,将翻译结果进行整合去重构建中英双语词典,保留了双语词典的同义词。该问题的研究对机器翻译具有重要的意义。

附图说明

图1是基于学术文献的中英双语词典构建方法流程图;

图2是中英文关键词翻译词库构建及优化流程图;

图3是中英文注解翻译词库构建及优化流程图;

图4是中英文标题翻译词库构建及优化流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示,为基于学术文献的中英双语词典构建方法流程,包括以下步骤:

步骤A收集学术文献中英文标题语料、中英文关键词语料及中文全文中的中英文注解语料(如:人工智能(Artificial Intelligence,AI)),并对语料进行预处理;

步骤B分别构建中英文标题翻译词库、中英文关键词翻译词库及中英文注解翻译词库;

步骤C分别对中英文关键词翻译词库、中英文注解翻译词库进行优化;

步骤D抽取优化后的中英文关键词翻译词库与中英文注解翻译词库中的中文词汇,并构建中文词表;

步骤E对中英文标题翻译词库进行优化;

步骤F将中文词表通过中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库进行翻译,构建中英文双语词典。

上述步骤A具体包括以下步骤:

步骤A1提取学术文献的中英文标题、中英文关键词、中英文注解语料;其中对学术文献的中英文注解部分通过三种不同的自动抽取算法进行抽取分别标记为Chinese、NChinese、MChinese,以下简称为C、N、M;三种不同自动抽取算法数据结构举例如表1所示,部分无关列未予显示;

步骤A2对语料进行分词处理;对中文标题进行分词处理,将英文通过空格进行分词处理;

步骤A3过滤不合法语料:统计每篇文献中英文关键词个数,去除中英文关键词个数不一致的关键词语料。

表1

上述步骤B具体包括:

步骤B1中英文标题翻译词库构建:将中英文标题语料进行词对齐构建key-value词对,按照双语的对照关系构建中英文标题翻译词库;

步骤B2中英文关键词翻译词库构建:将中英文关键词语料按照顺序对齐法进行中英文关键词对齐构建key-value词对,计算词对相似度,将相似度高于k(k∈(0.5,1))的词对构建中英文关键词翻译词库;

步骤B3中英文注解翻译词库构建:对通过三种不同的自动抽取算法得到的中英文注解语料进行分析及清洗,将所有的词对进行汇总,构成一个中文词汇多个英文词汇的key-value词对,从而得到中英文注解翻译词库。

上述步骤B3中语料数据清洗规则为:

1)当三个翻译结果都一致时,以N作为中文翻译,组成词对。

2)当任意两个翻译结果一致时,以N或M作为中文翻译,组成词对。

3)当三个翻译结果都不同,但是N或M中包含英文原文和括号,将去掉英文和括号的结果作为中文翻译,组成词对。

4)当三个翻译结果都不同,且英文为全大写时,不组成词对。

5)当三个翻译结果都不同,但N或M是另外两个翻译结果的子集时,以子集作为中文翻译,组成词对。

6)当三个翻译结果都不同,且没有互相包含的关系时,进行相似度计算,对相似度降序排列,取相似度最高且大于n(n∈(0.5,1))的翻译结果组成词对。

上述步骤C具体包括以下步骤:

步骤C1中英文关键词翻译词库优化:将中英文关键词翻译词库存在的错误进行解析,根据不同错误类别采用不同方法进行优化,优化后中英文关键词翻译词库构建及优化流程如图2所示;

步骤C2中英文注解翻译词库优化:将中英文注解翻译词库对数据的清洗方法进行调整以提升翻译词库的准确率;优化后中英文注解翻译词库构建及优化流程图如图3所示。

上述步骤C1中针对中英文关键词对齐顺序错误,采用二次对齐的方法进行优化。将一篇文献中每一个中英文关键词组成词对,统计不同对齐顺序下词条在中英文关键词翻译词库中的词频,选取所有关键词词频总和最大的词对组合作为合理的对齐方案。基于词对组合总频率而非单词对频率有效地保留了同义词。

针对错别字或拼写错误,采用基于已有词表的过滤算法进行优化。当关键词存在错别字错误或拼写错误时,利用维基百科判断其是否在合集内,若不在合集中且词频又小于设定阈值,则将其从翻译词库中删除。

针对关键词中英文相关性弱,采用语言相似度模型的过滤算法进行词典修正。进行中英文关键词相似度计算,过滤掉中英文相关性弱的词对。

上述步骤C2中,数据清洗规则调整如下:

1)当三个翻译结果都不同,且英文为全大写时,进行相似度计算,取相似度最高的翻译结果;

2)当三个翻译结果都不同,但N或M是另一个翻译结果的父集时,以父集作为中文翻译,组成词对;

3)当三个翻译结果都不同,且没有互相包含的关系时,按相似度降序排列,取相似度最高且大于m(m∈(0.5,1))的翻译结果组成词对;

4)遍历key-value词典中的词对。如果中文不包含逗号,将英文翻译以分隔符进行分割,对分割结果进行遍历。排除长度小于3的分割结果;排除全数字的分割结果;若某一分割结果以数字结尾,将数字部分切除,如果非数字部分是其他分割结果的子集或者与其他分割结果相同,排除此分割结果;若某一分割结果包含空格,去除空格后为其他分割结果的子集或等于其他分割结果,排除此分割结果;

5)对key-value词对进行相似度计算,保留相似度最高的i(i≥5)个英文翻译。

上述步骤D具体包括:分别将优化后的中英文关键词翻译词库和中英文注解翻译词库的key值进行提取得到中文词汇,将提取的中文词汇进行整合去重,构建中文词表。

上述步骤E具体包括:对中文词表中的词汇进行遍历,在中英文标题翻译库中检索翻译结果。对所有翻译结果进行词频统计,过滤掉低词频词对。在此基础上,针对乱序问题进行处理,将小写一致但顺序不同的翻译结果认为是同一翻译结果进行整合,词频进行加和。进一步地,对包含关系进行处理,将具有包含关系的翻译结果频次相加并计算原始频次占比,最后综合相似度和频次及原始频次占比得到最终的翻译结果。将通过标题翻译库获得的词对进行汇总,构建中英文标题翻译库的key-value字典用于查询匹配。中英文标题翻译库构建及优化流程如图4所示。

上述步骤F具体包括:对中文词表中的中文词汇进行遍历,从中英文标题、中英文关键词、中英文注解三个翻译库的key-value中查找到对应的value,将这些翻译结果进行整合去重,构成中文词典的同义词对。录入数据库构建中英文双语词典。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号