首页> 中文学位 >英汉平行语料库自动构建系统的设计与实现
【6h】

英汉平行语料库自动构建系统的设计与实现

代理获取

目录

第一个书签之前

展开▼

摘要

随着自然语言处理领域各项研究的发展,语料库尤其是平行语料库作为一种支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。传统的平行语料库构建方法完全依靠人工挑选,既费时又费力。与此同时互联网上庞大的双语平行资源引起了学者的注意,利用互联网Web的双语平行资源自动构建平行语料库的工作逐渐展开。然而在海量的互联网资源中如何准确定位双语语料的位置并进行抽取以及如何高效利用获取到的平行语料等工作仍面临着诸多挑战。面向这些问题,本文的工作包括: (1)设计并实现了一种双语网站的发现方法,该方法利用双语网站的两种外部特征(锚文本特征,URL特征),制定了一个查询关键字词典,然后利用搜索引擎逐个搜索查询关键词词典里的关键词,最后通过解析搜索结果的网页URL来获取双语网站的URL。 (2)设计并实现了一种互译双语网页对的获取与验证方法,该方法首先利用双语网站内双语网页对的URL模式,使用深度优先搜索的方式获取该网站内所有符合URL模式的网页对。然后将网页对的特征(结构特征,内容特征)组成的特征向量输入到训练好的分类器对网页对的互译性进行验证。 (3)优化了双语网页对文本的句子抽取和对齐方法,该方法首先将网页对按DOM树结构对齐以后逐行抽取出网页对内的文本,再使用HTML内元素生成文本对齐的锚点,最后使用基于词汇信息的方法对锚点之间的文本进行句子对齐。 (4)开发完成了语料检索平台,该平台对获取到的双语平行语料,建立了中英双向的索引,并实现了检索服务。

著录项

  • 作者

    黄苏豪;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 龚俭,陈万江;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 英语;
  • 关键词

    英汉平行语料库; 自动; 构建系统;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号