汉英文本级句子对齐技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

双语语料库是存放两种语意对齐的语料资源和信息的仓库，是机器翻译和多语言处理的重要资源，被广泛的应用于机器翻译、机助人译、翻译知识的抽取、词义排歧、跨语言信息检索等领域。其中，对齐技术是加工双语文本的核心，对齐效果的好坏直接影响了以后工作的进行。
　　双语文本级句对齐包含了段落对齐和句子对齐，二者对齐原理类似。基于汉英双语的实际情况，本文主要从对齐的准确性和速度方面，在兼顾准确率和召回率的前提下，提高文本对齐的速度。
　　首先，根据本文提出的锚点对齐算法，将文本划分为文本块。该方法利用文本中的命名实体如人名、地名、组织机构名和数字类、时间类、日期类等这些特殊信息，利用动态规划算法将文本划分为几个片段。实验证明，该锚点对齐算法在段落对齐和句对齐中准确率可以达到98％。
　　然后，在文本段落对齐实验中，采用基于长度和均等权重的词典对齐结合的对齐方法，获得了良好的对齐效果，准确率达到93.4％。添加锚点对齐后的段落对齐，召回率增加了，对齐速度是以前的2.5倍。在文本句子对齐实验中，分别进行了直接句对齐和先段落对齐后句对齐的实验，实验结果表明含有段落信息的文本句对齐要比直接进行句对齐效果好。直接句子对齐不利用段落信息，其中基于长度和TF-IDF权重的词典对齐方法最好，准确率达到93.6％，添加锚点对齐后，准确率一致的情况下，召回率提高了0.5个百分点，运行速度提高了3.4倍。含段落信息的文本句对齐中，首先利用基于长度和词典结合的方法进行段落对齐，然后利用直接句子对齐的方法，准确率达到了92.8％，在整个对齐过程中，添加锚点对齐后，准确率一致的情况下，召回率提高了0.5个百分点。
　　本文的主要工作分为两部分:一是提出基于锚点对齐方法，将待对齐的文本划分为小的片段，然后在片段内进行段落对齐或句子对齐，实验表明，该方法准确率达到98％。二是结合长度对齐方法和双语词典对齐方法的特点，将二者融合到文本级段落对齐和句子对齐中，总结出了适用于段落对齐和句子对齐的方法。

著录项

作者
孙坤杰;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名胡明涵;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
双语文本; 段落对齐; 句子对齐; 动态规划算法; 准确率; 召回率;

相似文献

中文文献
外文文献
专利

1. 汉英句子对齐长度计算方法的研究 [J] . 张霞 ,昝红英 ,张恩展 . 计算机工程与设计 . 2009,第018期
2. 基于统计的汉英句子对齐研究 [J] . 吕学强 ,李清隐 ,黄志丹 . 小型微型计算机系统 . 2004,第006期
3. 汉文-维吾尔文双语语料库中基于词典译文的句子对齐方法研究 [J] . 热西旦·塔依 ,吐尔根·依布拉音 . 新疆大学学报（自然科学版） . 2009,第003期
4. 汉英对比研究的又一座高峰——华东师范大学潘文国教授汉英对比思想研究 [J] . 冯智强 . 白城师范学院学报 . 2003,第003期
5. 汉维哈柯双语语料库加工系统句子对齐技术的研究 [J] . 谭勋 ,吐尔根·依布拉音 ,艾山·吾买尔 . 电脑知识与技术 . 2011,第028期
6. 大规模非限定领域汉英双语语料库建设及句子对齐研究 [C] . 刘非凡 ,赵军 ,徐波 . 全国第七届计算语言学联合学术会议 . 2003
7. 基于多模型的先秦典籍汉英平行语料句子对齐研究 [A] . 梁继文 . 2019

汉英文本级句子对齐技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅