首页> 中文学位 >面向含有专业未登录词英汉平行语料句对齐的研究
【6h】

面向含有专业未登录词英汉平行语料句对齐的研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 双语平行语料库获取的研究现状

1.2.2 专业性未登录词双语译文对齐的研究现状

1.3 本文研究的主要内容

第2章 英汉双语句对齐概述

2.1 英汉双语句对齐的形式化定义

2.2 英汉双语句对齐度的评价函数

2.3 英汉双语句对齐的主要研究方法

2.3.1 基于长度的句对齐方法

2.3.2 基于词典的句对齐方法

2.3.3 基于混合性句对齐方法

2.3.4 基于SVM句对齐方法

2.4 本章小结

第3章 基于段对齐双语语料库的建立

3.1 语料库简介

3.2 双语平行语料库获取的基本模型

3.3 网页数据来源

3.4 Web语料库的建设

3.4.1 网页获取技术

3.4.2 网页获取原理和实现

3.5 网络爬虫工具

3.5.1 Wget爬虫工具的优点

3.5.2 Wget使用的语法及基本参数

3.5.3 实验环境

3.5.4 设定下载目标

3.6 构建基于段对齐的双语语料库

3.7 实验结果

3.8 本章小结

第4章 英汉双语词典的获取

4.1 英汉双语词典介绍

4.2 英汉双语词典选择原则

4.3 对比双语词典

4.3.1 基本数据

4.3.2 词典数量

4.3.3 单词释义

4.3.4 内存消耗

4.4 词典数据

4.5 词典提取方法

4.6 实验结果

4.7 本章小结

第5章 含有专业未登录词的英汉双语句对齐

5.1 双语句对齐总体处理流程

5.2 基于长度的双语句对齐系统

5.2.1 提取词干

5.2.2 对段对齐的双语文本进行分句

5.2.3 句对齐情况分析

5.2.4 句对齐动态规划算法

5.3 实验准备工作

5.4 实验环境

5.4.1 计算机硬件配置

5.4.2 软件环境

5.5 GIZA++简介

5.5.1 GIZA++使用要点

5.5.2 GIZA++运行流程

5.6 评价指标

5.7 实验结果

5.8 本章小结

结论

参考文献

攻读硕士学位期间所发表的学术论文

致谢

附录1

附录2

展开▼

摘要

自然语言处理是计算机科学领域与人工智能领域中的一个重要的方向,它能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。机器学习是自然语言处理研究的一个分支,而此研究的前提是具有一个大规模的英汉语料库。由于含有未登录词的英汉双语句对齐语料库相对贫乏,导致了机器翻译的非专业性以及不平衡性,这就是本文所研究的问题所在。
   本文的目的是设计并实现一个基于长度的英汉双语句对齐的系统,这个系统能够将英汉双语段对齐的文本具体到句对齐。本文的研究内容主要分为以下几个部分:
   首先,设计双语句对齐的评价函数,并以此为基础设计基于长度的双语句对齐算法和最优句对序列搜索算法。本文中选定中国知网(CNKI)作为英汉双语候选网站,下载英汉双语网页,对所下载页面进行分析后,去除网页标签等非文本内容,并存储双语文本信息,从而建立了基于段对齐的英汉双语语料库,并保留网页中英汉双语关键词。
   其次,从星际译王此款软件中提取词典,将原来的词典格式进行分析,转换成自定义的词典格式,方便双语句对齐系统更好的使用,将上一步中提取的英汉双语关键字也一并放入词典中,这样有助于扩大词典的数量、增加词汇的专业性。
   最后,提取已建立语料中的英文单词的词干,简化英文单词处理复杂度,也减少单词词性转换带来的噪声,并且提高运行效率。实现了基于长度的双语句对齐系统。最后调整系统参数进行对比实验,检验系统性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号