基于英汉平行语料库的命名实体对自动获取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

命名实体主要包括人名、地名和组织机构名，是标识某一特定实体的词或词组。而双语命名实体等价对是指来自两种不同语言的具有互译关系的命名实体对。现阶段全球化进程不断加快，不同国家不同语言间沟通交流的重要性和必要性日益凸显，在此社会背景下机器翻译等自然语言处理技术得到了迅速的发展。作为当前研究热点之一，命名实体的识别和翻译技术正广泛应用于自然语言处理的各项任务中，如机器翻译、信息检索、问答系统、文本分类及自动文摘等。
　　本文主要针对英汉平行语料中命名实体等价对的自动获取方法进行研究，在学习前人工作的基础上，提出一种基于音译模型、翻译模型等特征的英汉命名实体等价对的抽取方法。首先从英汉平行语料中分别抽取英文和中文命名实体，形成多个候选命名实体等价对，然后计算得到每个候选等价对之间多个特征的特征值，最后利用命名实体等价对对齐模块，采用最大熵模型将候选命名实体等价对进行对齐，从而得到最终的命名实体等价对集合。实验结果表明，本文提出的方法能够有效地提高平行语料中双语命名实体等价对抽取的准确率和召回率。
　　本文的主要贡献有:(1)提出一种从平行语料中抽取双语命名实体等价对的方法;(2)有效地利用了平行语料中命名实体等价对之间的特征:音译模型、翻译模型、同现频率及词长度特征;(3)基于上述特征利用最大熵模型对候选命名实体等价对进行对齐。

著录项

作者
张静;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机科学与技术
授予学位硕士
导师姓名徐金安;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类翻译机;
关键词
命名实体等价对; 平行语料库; 机器翻译; 最大熵模型; 自动获取;

相似文献

中文文献
外文文献
专利

1. 基于隶属度的命名实体自动获取研究 [J] . 邢富坤 . 计算机应用与软件 . 2012,第008期
2. 基于局部对抗训练的命名实体识别方法研究 [J] . 李静 ,程芃森 ,许丽丹 . 四川大学学报（自然科学版） . 2021,第002期
3. 基于不同模型的中文命名实体识别方法研究 [J] . 宫义山 ,段亚奇 . 信息通信 . 2021,第001期
4. 一种基于BiLSTM-CRF的命名实体识别方法研究 [J] . 赵理金 . 电脑与信息技术 . 2021,第002期
5. 基于上下文信息的中文命名实体消歧方法研究 [J] . 王旭阳 ,姜喜秋 . 计算机应用研究 . 2018,第004期
6. 基于维基百科的汉日双语命名实体翻译等价对自动获取方法 [C] . 茹旷 ,徐金安 . 第六届全国青年计算语言学会议 . 2012
7. 英汉命名实体翻译方法研究 [A] . 赵明明 . 2011

基于英汉平行语料库的命名实体对自动获取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅