首页> 中文学位 >基于粒子群优化算法的汉英语句对齐研究
【6h】

基于粒子群优化算法的汉英语句对齐研究

代理获取

摘要

双语语料库的构建在自然语言处理、机器翻译、数据挖掘、词典编纂、多语言信息检索等领域具有重要的应用价值。当今互联网上存在大量双语互译文本,通过对互译文本的处理,建立实用的双语语料库成为一个至关重要的问题。对齐技术的实现是互译文本处理的关键,而汉英语句对齐的核心是寻找汉英语句中互为翻译的源文和译文语句。
   双语文本的对齐可分为篇章、段落、句子、短语、单词等粒度级别。其中语句粒度上的双语对齐意义重大。因为语句的粒度小于段落的粒度,因此语句的对齐能够给对齐的段落提供更详细的互译信息;同时,语句的对齐往往是进行下一步更细粒度(如短语、词汇)对齐的必要前提。
   汉语和英语是世界上最具代表性的两种语言,因此,汉英语句对齐具有十分重要的研究意义。进行汉英语句对齐的研究也是汉英双语语料库走向实际应用的必要步骤。本文在研究构建汉英语料库中所使用的基本语句对齐方法的基础上,提出一种将汉英语句对齐问题转化为在潜在解空间中寻找汉英语句对齐的适应度函数最优解的问题。本文主要工作包括:
   ①研究了汉英语句对齐的相关技术,汉英语句的预处理方法以及评价标准,分析了汉英语句对齐的难点,并针对性的提出一种基于CCA投影子空间进行优化求解的2步迭代模型,从而有效解决了汉英语句的自动对齐问题;
   ②鉴于汉英语句的特征空间的不一致性,引入典型相关分析,寻找汉英语句的典型公共子空间,从而将汉英语句对齐的问题形式化为基于粒子群优化算法在双语公共子空间中寻找汉英语句对齐适应度函数最优解的问题;
   ③考虑到基本粒子群优化算法在求解过程中容易出现早熟收敛、停滞等问题,改进了寻找适应度函数最优解的基本粒子群算法。通过k-means划分粒子群为多个子群,寻找子群的邻居以及邻居之间进行差异信息的交换,来寻找语句对齐适应度函数的最优解,从而避免汉英语句对齐过程中的早熟收敛问题。
   本文将求解汉英语句的对齐转化成基于粒子群优化算法寻找汉英语句对齐适应度函数最优解的问题。实验证明,基于粒子群优化算法的汉英语句对齐方法解决汉英语句的对齐问题是可行有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号