首页> 中文学位 >基于英汉平行语料库的命名实体对自动获取方法研究
【6h】

基于英汉平行语料库的命名实体对自动获取方法研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 论文的主要内容

1.4 论文的组织结构

2 理论与技术基础

2.1 命名实体的基本概念和翻译特点

2.1.1 人名

2.1.2 地名

2.1.3 组织机构名

2.1.4 人名、地名和组织结构名的相互关系

2.2 现有的双语命名实体识别方法

2.2.1 单语命名实体识别方法

2.2.2 双语命名实体识别方法

2.3 统计机器翻译

2.3.1 基本原理和特点

2.3.2 IBM统计翻译模型

2.3.3 解码算法

2.4 最大熵模型

2.4.1 相关理论介绍

2.4.2 最大熵模型原理

3 平行语料库中命名实体等价对的获取

3.1 问题描述

3.2 系统框架及分析

3.3 命名实体识别

3.3.1 中文命名实体识别

3.3.2 英文命名实体识别

3.4 特征选取

3.4.1 音译模型特征

3.4.2 翻译模型特征

3.4.3 同现频率特征

3.4.4 词长度特征

3.5 基于最大熵的对齐模型

4 实验及分析

4.1 实验设置

4.1.1 实验语料

4.1.2 基线系统

4.1.3 实验环境

4.1.4 评测方法

4.2 实验结果及分析

5 结论与展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

命名实体主要包括人名、地名和组织机构名,是标识某一特定实体的词或词组。而双语命名实体等价对是指来自两种不同语言的具有互译关系的命名实体对。现阶段全球化进程不断加快,不同国家不同语言间沟通交流的重要性和必要性日益凸显,在此社会背景下机器翻译等自然语言处理技术得到了迅速的发展。作为当前研究热点之一,命名实体的识别和翻译技术正广泛应用于自然语言处理的各项任务中,如机器翻译、信息检索、问答系统、文本分类及自动文摘等。
  本文主要针对英汉平行语料中命名实体等价对的自动获取方法进行研究,在学习前人工作的基础上,提出一种基于音译模型、翻译模型等特征的英汉命名实体等价对的抽取方法。首先从英汉平行语料中分别抽取英文和中文命名实体,形成多个候选命名实体等价对,然后计算得到每个候选等价对之间多个特征的特征值,最后利用命名实体等价对对齐模块,采用最大熵模型将候选命名实体等价对进行对齐,从而得到最终的命名实体等价对集合。实验结果表明,本文提出的方法能够有效地提高平行语料中双语命名实体等价对抽取的准确率和召回率。
  本文的主要贡献有:(1)提出一种从平行语料中抽取双语命名实体等价对的方法;(2)有效地利用了平行语料中命名实体等价对之间的特征:音译模型、翻译模型、同现频率及词长度特征;(3)基于上述特征利用最大熵模型对候选命名实体等价对进行对齐。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号