首页> 中文学位 >可比语料中命名实体翻译等价对抽取方法研究
【6h】

可比语料中命名实体翻译等价对抽取方法研究

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景

1.2研究意义

1.3研究现状

1.4本文的工作

2可比语料库命名实体翻译等价对抽取

2.1问题描述

2.2命名实体翻译等价对抽取系统

2.3难点分析

2.4相关模型

2.4.1统计机器翻译模型

2.4.2判别学习算法

2.4.3支持向量机模型

3基于多特征的命名实体等价对抽取

3.1命名实体抽取

3.1.1中文命名实体抽取

3.1.2英文命名实体抽取

3.2特征选取

3.2.1音译模型特征

3.2.2翻译模型特征

3.2.3拼音串匹配特征

3.2.4词长度特征

3.2.5词的同现频率特征

3.2.6匹配模型特征

3.3命名实体翻译等价对计算模型

4多特征的融合

4.1命名实体翻译等价对中判别学习定义

4.2基于MSR算法的多特征融合方法

4.2.1特征权重区间确定

4.2.2特征的选择

4.2.3基于MSR算法的权重计算方法

5命名实体翻译等价对的对齐

5.1阈值限定

5.2基于SVM对齐模型

5.2.1特征的选择

5.2.2模型的训练

5.2.3模型的测试

6实验与评估

6.1语料及评价方法

6.2实验

6.2.1各个特征作用

6.2.2多特征融合结果

6.2.3对齐模型结果

6.3实验总结

结 论

参考文献

攻读硕士学位期间发表学术论文情况

致 谢

展开▼

摘要

大规模的命名实体翻译等价对可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抽取命名实体翻译等价对的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。同平行语料库相比较,可比语料库的限制少、易于更新、并且容易获得。因此现在可比语料中知识的挖掘已成为研究的热点。
   本文提出一种在可比语料库中,基于多特征的中英命名实体翻译等价对抽取方法。具体而言,首先从中英可比语料库中分别抽取中文命名实体和英文命名实体,然后通过计算中英命名实体之间多个特征的特征值得到命名实体匹配对,最后使用基于多特征二值分类模型来判断命名实体匹配对是否为正确的命名实体翻译等价对。其中在得到命名实体匹配对时,本文使用了判别训练算法来进行多特征的融合。最终得到正确率较高的命名实体翻译等价对集合。
   本文设计和实现了基于上述方法的命名实体翻译等价对抽取系统,系统的输入是中英可比语料;输出是中英文的命名实体翻译等价对集合。系统分为4个模块:(1)中英文命名实体抽取模块;(2)多个特征的命名实体翻译等价对匹配模块;(3)多特征融合模块;(4)命名实体翻译等价对对齐模块。中英文命名实体抽取模块,分别使用中文命名实体抽取工具和英文命名实体抽取工具,从可比较语料中抽取中文命名实体和英文命名实体。多个特征的命名实体翻译等价对匹配模块,使用翻译模型特征、音译模型特征、匹配模型特征等六个特征计算得到文命名实体和英文命名实体的匹配对。多特征融合模块,使用判别训练算法最小样本风险(MSR)算法,计算各个特征的特征参数进行特征融合。命名实体翻译等价对对齐模块,将对齐问题转化为分类问题,采用支持向量机(SVM)分类模型,使用翻译模型、音译模型等特征,进行二值分类,从而判断出匹配对是否为命名实体翻译等价对。
   本文的主要贡献有:(1)提出了一套能从可比较语料库中抽取命名实体翻译等价对的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合多特征、特征融合、对齐模型等模块,该框架可以获得比同类方法更好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号