首页> 中文学位 >基于短语句法结构的树-串汉英对齐模板抽取研究
【6h】

基于短语句法结构的树-串汉英对齐模板抽取研究

代理获取

目录

文摘

英文文摘

第一章 引言

1.1 机器翻译方法

1.1.1 基于规则的方法

1.1.2 基于实例的方法

1.1.3 基于统计的机器翻译方法

1.1.4 基于模板的机器翻译方法

1.1.5 其它机器翻译方法

1.2 机器翻译模板

1.3 研究内容和本文安排

第二章 树—串对齐模板

2.1 句法结构

2.1.1 句法结构

2.1.2 句法分析

2.1.3 汉语句法结构特点

2.2 短语结构的树—串对齐

2.3 树—串对齐模板

第三章 模板抽取

3.1 三元组确定

3.2 偏差处理

3.3 对齐一致性检查

3.4 构造模板

3.5 概率估计

3.6 后处理

第四章 实验

4.1 实验流程

4.2 实验设置

4.2.1 数据预处理

4.2.2 工具

4.3 实验结果

4.4 实验分析

第五章 结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

翻译模板是机器翻译系统中的一种重要知识源,其质量和规模直接影响机器翻译系统的性能,如何高质量、高效率地从语料库中自动获取翻译模板已经成为当前研究的一个热点。
   本文首先提出了一种基于句法结构的树—串对齐模板(tree-to-stringalignmenttemplate,TAT)。该模板描述了源语言句法树和目标语言串之间的对齐关系。模板中引入了句法结构和大量的结构标记和变量,使得基于句法的模型能够处理非连续短语,并具有泛化能力。模板可根据解码器的不同而应用到基于句法统计的、基于实例的、基于规则的机器翻译系统中。
   在此基础上,本文提出了一种从未经标注的双语语料库和单语句法树库中自动获取该种模板的方法。该方法是一种半监督的、数据驱动方法。该方法综合利用两个方面的信息来抽取翻译模板。一方面是基于词对齐的结果,通过对句法树进行后序遍历,提取候选模板三元组信息,包括源语言句法子树、对应的目标语言串及其对齐信息;另一方面从源语言的单语句法树库语料中通过后序遍历抽取树结构一元组信息。实验结果表明,该方法可以得到比较令人满意的模板抽取性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号