首页> 中文学位 >汉英文本级句子对齐技术的研究
【6h】

汉英文本级句子对齐技术的研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 文本级句对齐介绍

1.2.1 对齐的形式化定义

1.2.2 对齐的问题描述

1.2.3 文本对齐策略

1.2.4 文本对齐评价方法

1.3 论文的组织结构

第2章 文本对齐预处理

2.1 双语文本处理

2.1.1 格式处理

2.1.2 段落、句子边界识别

2.2 分词

2.2.1 中文分词

2.2.2 英文词干提取

2.3 命名实体识别

2.3.1 时间、日期、数字识别

2.3.2 人名、地名、组织机构名识别

2.3.3 识别结果

2.4 本章小结

第3章 文本对齐方法

3.1 基于长度的对齐

3.1.1 对齐方法简介

3.1.2 模型表示

3.1.3 长度计算方法

3.1.4 对齐效果

3.2 基于词典的对齐

3.2.1 对齐方法简介

3.2.2 模型表示

3.2.3 词典权重计算方法

3.2.4 对齐效果

3.3 基于长度和词典结合的对齐

3.3.1 对齐方法简介

3.3.2 对齐模型表示

3.3.3 对齐效果

3.4 基于译文的对齐

3.4.1 对齐方法简介

3.4.2 模型表示

3.4.3 对齐效果

3.5 基于锚点的对齐

3.5.1 锚点的定义

3.5.2 常用锚点对齐

3.5.3 本文锚点对齐

3.6 对齐技术比较

3.7 本文对齐方法

3.8 本章小结

第4章 系统实现与实验结果分析

4.1 系统简介

4.1.1 系统结构

4.1.2 系统流程

4.2 对齐算法选取

4.3 文本对齐流程

4.4 实验与结果分析

4.4.1 数据选取与处理

4.2.2 锚点对齐实验分析

4.2.3 段落对齐实验分析

4.2.4 句对齐实验分析

4.5 本章小结

第5章 工作总结与展望

5.1 工作总结

5.2 未来工作展望

参考文献

致谢

硕士期间发表论文及科研项目

展开▼

摘要

双语语料库是存放两种语意对齐的语料资源和信息的仓库,是机器翻译和多语言处理的重要资源,被广泛的应用于机器翻译、机助人译、翻译知识的抽取、词义排歧、跨语言信息检索等领域。其中,对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。
  双语文本级句对齐包含了段落对齐和句子对齐,二者对齐原理类似。基于汉英双语的实际情况,本文主要从对齐的准确性和速度方面,在兼顾准确率和召回率的前提下,提高文本对齐的速度。
  首先,根据本文提出的锚点对齐算法,将文本划分为文本块。该方法利用文本中的命名实体如人名、地名、组织机构名和数字类、时间类、日期类等这些特殊信息,利用动态规划算法将文本划分为几个片段。实验证明,该锚点对齐算法在段落对齐和句对齐中准确率可以达到98%。
  然后,在文本段落对齐实验中,采用基于长度和均等权重的词典对齐结合的对齐方法,获得了良好的对齐效果,准确率达到93.4%。添加锚点对齐后的段落对齐,召回率增加了,对齐速度是以前的2.5倍。在文本句子对齐实验中,分别进行了直接句对齐和先段落对齐后句对齐的实验,实验结果表明含有段落信息的文本句对齐要比直接进行句对齐效果好。直接句子对齐不利用段落信息,其中基于长度和TF-IDF权重的词典对齐方法最好,准确率达到93.6%,添加锚点对齐后,准确率一致的情况下,召回率提高了0.5个百分点,运行速度提高了3.4倍。含段落信息的文本句对齐中,首先利用基于长度和词典结合的方法进行段落对齐,然后利用直接句子对齐的方法,准确率达到了92.8%,在整个对齐过程中,添加锚点对齐后,准确率一致的情况下,召回率提高了0.5个百分点。
  本文的主要工作分为两部分:一是提出基于锚点对齐方法,将待对齐的文本划分为小的片段,然后在片段内进行段落对齐或句子对齐,实验表明,该方法准确率达到98%。二是结合长度对齐方法和双语词典对齐方法的特点,将二者融合到文本级段落对齐和句子对齐中,总结出了适用于段落对齐和句子对齐的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号