声明
摘要
第1章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 双语平行语料库获取的研究现状
1.2.2 专业性未登录词双语译文对齐的研究现状
1.3 本文研究的主要内容
第2章 英汉双语句对齐概述
2.1 英汉双语句对齐的形式化定义
2.2 英汉双语句对齐度的评价函数
2.3 英汉双语句对齐的主要研究方法
2.3.1 基于长度的句对齐方法
2.3.2 基于词典的句对齐方法
2.3.3 基于混合性句对齐方法
2.3.4 基于SVM句对齐方法
2.4 本章小结
第3章 基于段对齐双语语料库的建立
3.1 语料库简介
3.2 双语平行语料库获取的基本模型
3.3 网页数据来源
3.4 Web语料库的建设
3.4.1 网页获取技术
3.4.2 网页获取原理和实现
3.5 网络爬虫工具
3.5.1 Wget爬虫工具的优点
3.5.2 Wget使用的语法及基本参数
3.5.3 实验环境
3.5.4 设定下载目标
3.6 构建基于段对齐的双语语料库
3.7 实验结果
3.8 本章小结
第4章 英汉双语词典的获取
4.1 英汉双语词典介绍
4.2 英汉双语词典选择原则
4.3 对比双语词典
4.3.1 基本数据
4.3.2 词典数量
4.3.3 单词释义
4.3.4 内存消耗
4.4 词典数据
4.5 词典提取方法
4.6 实验结果
4.7 本章小结
第5章 含有专业未登录词的英汉双语句对齐
5.1 双语句对齐总体处理流程
5.2 基于长度的双语句对齐系统
5.2.1 提取词干
5.2.2 对段对齐的双语文本进行分句
5.2.3 句对齐情况分析
5.2.4 句对齐动态规划算法
5.3 实验准备工作
5.4 实验环境
5.4.1 计算机硬件配置
5.4.2 软件环境
5.5 GIZA++简介
5.5.1 GIZA++使用要点
5.5.2 GIZA++运行流程
5.6 评价指标
5.7 实验结果
5.8 本章小结
结论
参考文献
攻读硕士学位期间所发表的学术论文
致谢
附录1
附录2