首页> 外文学位 >Using Latent Information for Natural Language Processing Tasks.
【24h】

Using Latent Information for Natural Language Processing Tasks.

机译:将潜在信息用于自然语言处理任务。

获取原文
获取原文并翻译 | 示例

摘要

In a broad sense, latent information in natural language processing tasks refers to any information that is not plainly observable from raw data. Such latent information is found in abundance in many natural language processing tasks. Learning latent information itself could be the purpose of the task or it can be learned and utilized to improve relevant tasks. For example, in unsupervised learning of word alignment from parallel corpora, learning latent information is the task. Learning latent annotation for context free grammar falls into the latter category since latent annotation leads to better parsing accuracy. Depending on the availability of the data, latent information may be learned in a supervised manner or an unsupervised manner.;This dissertation presents three different types of latent information that are learned and used to improve various natural language processing tasks, mainly focusing on different stages of machine translation. First, we discuss unsupervised learning of tokenization from parallel corpora using alignment between a bilingual sentence pair as latent information. Second, we examine using empty categories to improve parsing and machine translation. In these tasks, empty categories are latent information that are learned from raw text and applied to the respective tasks. Finally, we look at learning latent annotation for synchronous context free grammar, which leads us to more accurate and faster string-to-tree machine translation.
机译:从广义上讲,自然语言处理任务中的潜在信息是指无法从原始数据中清楚地观察到的任何信息。在许多自然语言处理任务中都大量发现了这种潜在信息。学习潜在信息本身可能是任务的目的,或者可以被学习和利用它来改进相关任务。例如,在从平行语料库的无监督单词对齐学习中,学习潜在信息是任务。学习用于上下文无关文法的潜在注释属于后一类,因为潜在注释可导致更好的解析准确性。根据数据的可用性,可以通过监督或无监督的方式来学习潜在信息。本文提出了三种不同类型的潜在信息,这些信息可以用来改进各种自然语言处理任务,主要集中在不同的阶段机器翻译。首先,我们讨论使用双语句子对之间的对齐方式作为潜在信息,从并行语料库中无监督学习标记化。其次,我们研究使用空类别来改善解析和机器翻译。在这些任务中,空类别是从原始文本中学习并应用于相应任务的潜在信息。最后,我们着眼于学习用于同步上下文无关文法的潜在注释,这使我们能够更准确,更快地进行字符串到树的机器翻译。

著录项

  • 作者

    Chung, Tagyoung.;

  • 作者单位

    University of Rochester.;

  • 授予单位 University of Rochester.;
  • 学科 Computer Science.
  • 学位 Ph.D.
  • 年度 2013
  • 页码 97 p.
  • 总页数 97
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号