首页> 中文学位 >汉日双语句子级对齐研究
【6h】

汉日双语句子级对齐研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 本文研究的背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 本文的工作和组织结构

1.2.1 本文的工作

1.2.2 本文的组织结构

第二章 相关工作

2.1 句对齐研究概述

2.1.1 句子对齐概念描述

2.1.2 句子对齐意义

2.2 句子对齐常用方法

2.2.1 基于长度的句子对齐方法

2.2.2 基于词汇信息的句子对齐方法

2.2.3 长度和词汇信息相结合的句子对齐方法

第三章 汉日双语句对齐任务

3.1 问题引出

3.2 双语句对齐的主要难点

3.3 句子对齐形式化定义

3.4 对齐的评价方法

3.5 汉日双语句对齐结构

第四章 汉日双语句对齐模型

4.1 文本预处理

4.2 基于组合线索的双语句子相似度计算

4.2.1 基于双语词典的相似度(SimDict)计算

4.2.2 基于字形的相似度(SimMorph)计算

4.2.3 基于句子长度的相似度(SimLength)计算

4.2.4 基于特殊字符的相似度(SValue)计算

4.3 基于核心扩展方阵的句子匹配

4.3.1 句对齐相似度矩阵和句对齐选择矩阵

4.3.2 句子匹配

4.3.3 多对齐惩罚因子

第五章 实验和分析

5.1 句对齐实验设计

5.2 实验结果和分析

5.2.1 对比实验一

5.2.2 对比实验二

5.2.3 对比实验三

第六章 结论和展望

6.1 本文的工作总结

6.2 今后的工作

参考文献

致谢

攻读硕士期间发表的论文

展开▼

摘要

随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编撰、词义消歧和跨语言信息检索也具有重要价值。
   在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。
   本文以东北大学自然语言处理实验室与日本富士施乐公司合作的《多层次文本对齐技术研究》项目为背景,探讨了如何从篇章级对齐的双语文本中自动获取句对齐资源。
   针对汉语和日语的特点,本文在前人的基础上提出了一种新的句对齐处理技术,即基于组合线索和核心扩展方阵匹配的中日句对齐方法。该方法利用字典、字形、长度和特殊字符相结合的组合线索来计算句子相似度,并利用核心扩展方阵匹配实现中日句对齐。该方法在一定程度上解决了传统的基于长度的方法的错误蔓延问题,而且充分挖掘了中日双语之间潜在的联系,增强了相似度计算的可信度。实验表明,在中日句对齐任务中该方法取得了比较满意的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号