首页> 中文学位 >基于归纳学习法的日语假名和汉语实体对自动获取方法
【6h】

基于归纳学习法的日语假名和汉语实体对自动获取方法

代理获取

目录

声明

致谢

摘要

1.绪论

1.1.研究背景及意义

1.2.研究发展及现状

1.3.论文的主要内容

1.4.论文的组织结构

2.理论与技术基础

2.1.命名实体识别

2.2.命名实体翻译等价对的获取

2.3.统计机器翻译

2.4.归纳学习法

2.5.日语假名

2.6.罗马字

3.日语假名和汉语实体对的自动获取

3.1.从单语语料库中抽取命名实体

3.1.1 最大熵模型

3.1.2 条件随机场模型

3.1.3 汉语命名实体抽取

3.1.4 日语命名实体抽取

3.2.假名命名实体的标注方法

3.3.实例筛选

3.3.1 频数统计

3.3.2 编辑距离

3.3.3 余弦距离

3.4.归纳学习

3.5.规则校正

3.6.实体中汉字的处理

3.7.假名实体对的获取

4.实验及分析

4.1.基线系统

4.2.实验设置

4.2.1 实验语料

4.2.2 实验工具

4.2.3 参数设定

4.2.4 评价方法

4.3.实验结果

5.结论

参考文献

附录

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

命名实体的翻译等价对在跨语言信息处理中非常重要,其在机器翻译、自动文摘、跨语言信息检索和自动问答系统等都有着重要的应用。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表;对于日语纯假名的命名实体,通常采用统计翻译模型,此类方法受到平行语料库的质量和规模的限制,且精度低下。针对此问题,本文提出了一种基于归纳学习法的日语假名和汉语实体对的自动获取方法。该方法首先使用条件随机场模型,分别从日语和汉语语料库中抽取日语和汉语命名实体;并将其转换为罗马字序列和拼音序列,通过相似度计算进行实例筛选;然后,采用基于实例的归纳学习法自动获取命名实体的日汉音译规则库,并通过反馈学习来迭代重构音译规则库。使用音译规则库计算日汉命名实体之间的相似度,给定阈值判定命名实体翻译等价对。实验结果表明,提出方法简单高效,在实现系统高精度的同时,克服了传统方法对双语资源的依赖性。
  与传统方法相比,本研究内容的创新点体现在,提出了一种基于归纳学习法的日语假名和汉语实体对的自动获取方法。该方法突破了传统方法实验平行语料库或对比语料库的限制,可使用弱相关的双语语料来抽取假名和汉语实体对,减少了对语料资源的依赖度,可大大降低人工成本。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号