英汉人名音译的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

人名音译指利用源语言及目标语言发音规则的异同将源语言形式人名翻译成目标语言形式，在机器翻译、双语语料库对齐等多语言处理任务中有重要作用。本文重点研究如何构建英文来源的英汉人名音译模型及人名来源识别模型。
　　针对英汉人名音译的特点及现有研究存在的问题，提出一种基于音节划分和短语表优化的人名音译方法。本文将人名音译转换为以音节为基本单位的翻译问题，将连续的音节组合看作短语，引入一种基于短语的统计机器翻译方法，实现英汉人名的音译。首先，针对现有音节划分方法存在的问题，提出一种改进的划分方法;其次，训练语料偏小导致短语表中存在杂质信息，提出去除低频词法、基于C-value的除杂法及基于粘结度的除杂法等三种方法优化短语表，实验表明，基于C-value的方法可有效去除短语表的杂质信息;之后，融入汉语人名中首尾字的位置特征，对生成的音译候选重新调整先后顺序，改善了音译候选汉字选取的不合理性;最后，提出在解码阶段引入两阶段音节划分方法，缓解了由于音节划分粒度过大导致在短语表中找不到翻译所引起的音译错误。实验结果表明，通过上述四方面的改进，其音译准确率由63.08％提高到67.62％。
　　不同来源的人名具有不同的发音规则体系，因此，在对人名进行来源识别后再进行音译，其效果会更加准确。本文提出基于发音规则与统计融合的两阶段方法解决人名来源识别问题。首先，利用汉语拼音规则、日语片假名发音规则将人名粗略分为四大类;然后，使用基于统计的方法——朴素贝叶斯分类方法实现最终的语言来源识别。选取基于字符的N-gram语言模型、基于发音单元的N-gram语言模型及基于发音单元的位置特征作为实验的特征，使用不同的特征组合分别进行人名来源识别实验。实验结果表明，给定英文形式人名，判断其来源是汉语、日语还是英语时，使用基于字符的四元模型、基于发音单元的二元模型及基于发音单元的位置特征三者融合后的方法，人名来源识别的效果最优，准确率达到98.39％。

著录项

作者
王丹丹;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机系统结构
授予学位硕士
导师姓名黄德根;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音信号处理;
关键词
人名音译; 音节划分; 短语表优化; 发音规则; 朴素贝叶斯; N-gram语言模型;

相似文献

中文文献
外文文献
专利

1. 基于音节划分及短语表优化的英汉人名音译研究 [J] . 王丹丹 ,黄德根 ,高扬 . 中文信息学报 . 2016,第003期
2. 基于多粒度的英汉人名音译 [J] . 于恒 ,涂兆鹏 ,刘群 . 中文信息学报 . 2013,第004期
3. 基于统计的改进音译单元的维文——汉文人名音译研究 [J] . 谭煜辉 . 福建电脑 . 2013,第008期
4. 汉—藏人名用字音译规则研究 [J] . 龙从军 ,豆格才让 ,刘汇丹 . 中文信息学报 . 2018,第003期
5. 基于心理美学的外国人名音译变异研究 [J] . 蔡晨 . 现代语文（学术综合） . 2017,第004期
6. 英汉人名音译方法研究 [C] . . 第四届全国学生计算语言学研讨会(SWCL-2008) . 2008
7. 英汉人名音译方法的研究与实现 [A] . 周美玲 . 2009

英汉人名音译的研究

摘要

著录项

相似文献

相关主题

期刊订阅