基于Web的大规模平行语料库构建方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

大规模平行语料库是机器翻译、跨语言信息检索等自然语言处理应用的重要资源。互联网上存在着海量的多语言平行资源，以往的一些研究都致力于从一些多语网站中获取平行（即互为翻译）的单语网页对，进而获取平行语料。虽然许多机构都已经展开建设双语平行语料库的工作，但现有语料库在数量、质量以及领域覆盖性等方面还不能满足处理真实文本的需要。目前，学者发现在Web上双语平行资源不仅存在于两个平行的单语网页对中，还存在于双语混合网页中，且存在于双语混合网页内部的平行资源翻译质量更高、数据规模更大、领域覆盖更广。本文的研究就是基于双语混合网页展开，致力于研究如何自动构建一个大规模双语平行语料库。取得的主要成果归纳如下：
　　（1）探索基于Web获取双语混合网页
　　互联网中索引了海量的网页，如何准确获取双语混合网页是个充满挑战的任务。以往的研究都是采用限定目标源的方法，即预先收集大量的源站点（比如英语学习网站、翻译网站等），然后递归下载所有内部网页作为候选双语混合网页。但是该方法中源站点的选择需要人工干预，且获取的网页数量有限。为了克服这些缺点，还有一些研究提出利用搜索引擎和启发式信息自动筛选得到候选源站点，但得到的候选资源良莠不齐，会下载到大量噪音网页。本文提出了一种借助搜索引擎和已获取的小规模平行语料来递归地发现并获取双语混合网页的方法，实验结果表明该方法能够快速地、准确地、持久地获取高质量的双语混合网页。
　　（2）改进了双语平行资源抽取、对齐技术
　　双语混合网页中不仅包含有用的双语平行资源，还包含一些噪音信息，如广告信息、导航信息等，而且平行资源的存在形式多种多样，这些都给平行资源的抽取工作带来困难；此外，平行资源中的词汇量也大大超出双语词典的范围，这又增加了平行资源对齐工作的难度。本文提出通过自动学习平行资源在网页中的存在形式的方法来抽取平行资源，并使用基于长度、双语词典、翻译模型等方法来提高平行语料库的质量。

著录项

作者
冯艳卉;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机软件与理论
授予学位硕士
导师姓名姚建民;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
Web技术; 信息挖掘; 平行语料库; 自动构建方法; 网页获取; 资源抽取;

相似文献

中文文献
外文文献
专利

1. 构建大规模的汉英双语平行语料库 [J] . 刘荣 . 科技创新与生产力 . 2006,第010期
2. 基于Web的汉日双语平行语料库系统的构建 [J] . 和凤珍 ,石宜金 . 牡丹江师范学院学报（自然科学版） . 2018,第001期
3. 基于茶叶跨境电子商务平台的商务英语平行语料库构建方法研究 [J] . 张迎 ,井媛 . 福建茶叶 . 2018,第004期
4. 基于Web的大规模语料库构建方法 [J] . 李培峰 ,朱巧明 ,钱培德 . 计算机工程 . 2008,第007期
5. 大规模英汉平行语料库的开发与实用性探讨 [J] . 赵巍 ,王雷 . 牡丹江师范学院学报（哲学社会科学版） . 2014,第004期
6. 构建大规模的汉英双语平行语料库 [C] . 柏晓静 ,常宝宝 ,詹卫东 . 2002年全国机器翻译研讨会 . 2002
7. 基于WEB的汉英平行语料库构建系统开发 [A] . 罗奋 . 2014

基于Web的大规模平行语料库构建方法研究

摘要

著录项

相似文献

相关主题

期刊订阅