首页> 中文学位 >基于语料库的无词典英汉名词对齐
【6h】

基于语料库的无词典英汉名词对齐

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 研究背景

1.2 研究意义

1.3 相关研究综述

1.3.1 语料库建设发展概况

1.3.2 双语语料库的对齐技术

1.4 平行语料库和短语对齐在机器翻译中的应用

1.4.1 机器翻译简史

1.4.2 机器翻译分类:

1.4.3 平行语料库及短语对齐在EBMT中的应用

1.4.4 本文结构

第2章 汉英双语语料库词汇对齐研究

2.1 引言

2.2 词汇对齐研究概述

2.2.1 词汇对齐的主要方法

2.2.2 英汉双语词汇对齐需要解决的关键问题

2.2.3 本章小结

第3章 无双语词典的英汉名词对齐方法

3.1 方法概述

3.2 词对齐的形式化定义

3.2.1 自然语言句子的形式化表示形式

3.2.2 词对齐的相关概念

3.3 词对齐的相关模型

3.3.1 最小求交模型

3.3.2 最小求差模型

3.3.3 混合模型

3.3.4 哑词表

3.3.5 双向模型

3.3.6 聚合模型

3.3.7 词形转换

3.4 分词应用

3.4.1 N-最短路径原理

3.4.2 N-最短路径分词方法

3.4.3 N-最短路径分词方法在名词对齐中的作用

3.4.4 本章小结

第4章 系统算法实现

4.1 词对齐总体实现

4.1.1 总体设计

4.1.2 总体数据结构

4.2 预处理

4.3 单向词对齐算法

4.4 本章小结

第5章 实验结果讨论分析

5.1 手动测试

5.2 自动测试

5.3 实验结论

5.4 本章小结

结论

参考文献

附录

攻读硕士学位期间所取得的研究成果

致谢

展开▼

摘要

随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消歧和跨语言信息检索也具有重要价值。
   在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。
   据统计有百分之五十的短语是现有词典资源上查不到的,其中大部分是名词短语,包括一些专业术语,这部分短语更新也较快,因此名词短语的双语对应显得更为重要。
   本文提出了一种在汉英双语语料库句子对齐的基础上,基于语料库的无双语词典的汉英名词短语划分和对应的方法。它把自然语言的句子形式化地表示为集合,通过集合的交运算和差运算实现单词对齐,同时还考虑了词序和重复词的影响。该模型不仅能对齐高频单词,而且能对齐低频单词,对未登录词和汉语分词错误具有兼容能力。该模型几乎不需要任何语言学知识和语言学资源,使语料库方法可独立应用。实验表明,同质语料规模越大,词对齐的正确率和召回率越高;分词效果越好,正确率和召回率越高。
   此外,由于分词效果会直接影响对齐效果,所以,本文也实现了一个N-最短路径分词方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号