面向含有专业未登录词英汉平行语料句对齐的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自然语言处理是计算机科学领域与人工智能领域中的一个重要的方向，它能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。机器学习是自然语言处理研究的一个分支，而此研究的前提是具有一个大规模的英汉语料库。由于含有未登录词的英汉双语句对齐语料库相对贫乏，导致了机器翻译的非专业性以及不平衡性，这就是本文所研究的问题所在。
　　本文的目的是设计并实现一个基于长度的英汉双语句对齐的系统，这个系统能够将英汉双语段对齐的文本具体到句对齐。本文的研究内容主要分为以下几个部分:
　　首先，设计双语句对齐的评价函数，并以此为基础设计基于长度的双语句对齐算法和最优句对序列搜索算法。本文中选定中国知网(CNKI)作为英汉双语候选网站，下载英汉双语网页，对所下载页面进行分析后，去除网页标签等非文本内容，并存储双语文本信息，从而建立了基于段对齐的英汉双语语料库，并保留网页中英汉双语关键词。
　　其次，从星际译王此款软件中提取词典，将原来的词典格式进行分析，转换成自定义的词典格式，方便双语句对齐系统更好的使用，将上一步中提取的英汉双语关键字也一并放入词典中，这样有助于扩大词典的数量、增加词汇的专业性。
　　最后，提取已建立语料中的英文单词的词干，简化英文单词处理复杂度，也减少单词词性转换带来的噪声，并且提高运行效率。实现了基于长度的双语句对齐系统。最后调整系统参数进行对比实验，检验系统性能。

著录项

作者
全丽丽;
展开▼
作者单位

哈尔滨理工大学;

展开▼
授予单位哈尔滨理工大学;
学科计算机应用技术
授予学位硕士
导师姓名丁华福;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;人工智能理论;文字信息处理;
关键词
自然语言处理; 英汉双语句; 对齐系统; 专业未登录词; 词干提取;

相似文献

中文文献
外文文献
专利

1. 基于成分共享的英汉小句对齐语料库标注体系研究 [J] . 葛诗利 ,宋柔 . 中文信息学报 . 2020,第006期
2. 利用Trados进行平行语料库的句对齐 [J] . 雷赛丹 . 中国科教创新导刊 . 2013,第035期
3. 利用Trados的WinAlign进行汉英平行语料库的句对齐 [J] . 刘克强 . 中国科教创新导刊 . 2010,第007期
4. 面向小词典的高效英汉双语语料对齐算法 [J] . 熊伟 ,陈蓉 ,刘佳 . 计算机工程 . 2007,第013期
5. 基于在线英汉平行语料库的DDL翻译教学——以英语被动句翻译教学为例 [J] . 巩雪先 . 西华大学学报（哲学社会科学版） . 2016,第005期
6. 基于成分共享的英汉小句对齐语料库标注体系研究 [C] . GE Shili ,葛诗利 ,SONG Rou . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 英汉平行语料库句子级对齐研究及其在机器翻译中的应用 [A] . 赵小曼 . 2010

面向含有专业未登录词英汉平行语料句对齐的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅