首页> 中文学位 >面向机器翻译的中日句对齐和词对齐研究及实现
【6h】

面向机器翻译的中日句对齐和词对齐研究及实现

代理获取

目录

文摘

英文文摘

声明

第一章机器翻译及项目概述

1.1机器翻译概述

1.1.1采用直译方法的机器翻译

1.1.2基于转换的机器翻译

1.1.3基于中间语言的机器翻译

1.1.4基于知识的机器翻译

1.1.5基于实例的机器翻译

1.2项目概述

1.2.1项目系统总体设计

1.2.2句对齐和词对齐在项目中的意义和作用

第二章句对齐和词对齐概述

2.1句对齐概述

2.1.1基于统计的方法

2.1.2基于词汇的方法

2.1.3基于统计和词汇混合的方法

2.2词对齐概述

2.2.1基于词典的方法

2.2.2基于统计的方法

2.2.3基于字符的方法

2.3目前面临的问题

2.3.1句对齐问题

2.3.2词对齐问题

第三章句对齐和词对齐模型

3.1句对齐模型

3.1.1句对齐定义

3.1.2句对齐模型

3.2词对齐模型

3.2.1词对齐定义

3.2.2词对齐模型

第四章句对齐和词对齐系统的设计与实现

4.1句对齐系统的设计与实现

4.1.1句对齐系统总体结构

4.1.2句对齐系统详细设计

4.2词对齐系统的设计与实现

4.2.1系统总体结构

4.2.2词对齐系统详细设计

第五章实验

5.1句对齐实验

5.1.1句对齐实验设计

5.1.2句对齐实验结果及分析

5.2词对齐实验

5.2.1词对齐实验设计

5.1.2词对齐实验结果及分析

第六章结束语

参考文献

致谢

展开▼

摘要

在自然语言处理的诸多领域的研究中,双语语料的重要作用逐渐凸现出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。而文本对齐技术按粒度也可分为篇章级、段落级、句子级、短语级和单词级。 本文是以东北大学自然语言处理实验室与日本富士施乐公司合作的《面向奥运新闻的机器翻译系统》项目为背景。文中所提到的句对齐和词对齐属于机器翻译系统里“学习引擎”中的一部分。其中旬对齐主要为构建双语句对库提供已对齐的双语句对,并将对齐的双语句对作为词对齐的输入:而词对齐提供的词对齐信息则是构建词表层实例库和模板实例库的基础。针对中文和日文的特点,文中所提到的句对齐和词对齐分别在前人的基础上提出了一些新的处理技术,取得了一些研究成果,其中旬对齐包括: (1)对前人提出的基于统计和基于词典的方法做出了改进,使用了新的计算方法,使之更能够适应中文句和日文句的对齐。 (2)提出了基于字形进行句对齐的方法,并配合基于统计和基于词典的方法共同计算句子之间的对应权重。以及提出了使用双语句子中特征值进行对齐权重修正的方法。 (3)对于句对齐过程中句子的位置信息对句子对齐的影响,提出了相应的解决方法。 (4)提出了新的挑选对齐关系的方法。该方法采用分步匹配,利用特殊锚点进行匹配。 其中词对齐的研究成果包括: (1)由于中文和日文不属于同一语系,使用单一的方法不能进行很好的对齐。所以文中使用了多种方法融合的策略来进行词对齐,包括基于词典的方法、基于语料库的方法、基于读音的方法和基于词性的方法。 (2)针对中文和日文中的西方人名,提出了基于读音的对齐方法,使出现在句对中的西方人名可以准确的对齐。 (3)根据中文和日文词性体系芹异较大的特点,改进了利用词性进行对齐的方法。使用从语料库巾统计出的词性对应概率来作为对齐依据,而不是直接利用绝对匹配。 经过实验,句对齐存三类不同领域的测试语料中的准确率、召回率和F值平均分别达到了97.81%、96.81%和97.30%,其中对于较容易对齐的1-1类型的准确率达到了99.61%。而词对齐在词典和训练语料库有限的条件下,在测试中准确率、召回率和 F值比分别达到了67.97%、55.02%和60.81%。相信在这些资源的规模扩人后该方法的性能还会有所提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号