首页> 中文学位 >基于平行语料库的跨语言实体关系抽取研究
【6h】

基于平行语料库的跨语言实体关系抽取研究

代理获取

摘要

平行语料库不仅对跨语言关系抽取研究有着重要的意义,同时也为揭示自然语言处理任务在不同语言上的难度以及研究语言之间的互补性和冗余性提供了一个良好的数据平台。而传统的平行语料库仅在句子级对齐,限制了它在跨语言自然语言处理研究中的作用。鉴于此,本文进行了以下几个方面的研究工作:  (1)实例级中英文平行语料库的构建。基于OntoNotes中英文平行语料库,通过自动抽取、映射和人工标注相结合的方法,构建了一个面向信息抽取的实例级对齐的平行语料库。并在此基础上采用SVM方法进行中英文实体关系抽取,最后从句法结构和词汇级别上揭示中英文关系抽取的难度差异。  (2)基于双语协同训练的关系分类。基于已构建的平行语料库,采用协同训练的方法进行中英文关系分类。实验表明,双语协同训练的性能总是高于普通自举学习,并且具有较好的鲁棒性。  (3)基于双语主动学习的关系分类。采用主动学习的方法进行中英文关系分类研究,使用联合置信度来获取不确定性最高的实例。实验表明,在标注同样数量实例的基础上双语主动学习总能获得较好的性能。  本文的研究表明,与大多数的自然语言处理任务不同,在新闻领域上的中文关系抽取的性能优于英文关系抽取,其主要原因是在局部范围内中文比英文表达更简洁,语义更清晰。另外,由于中英文语言之间的冗余性和互补性,无论采用双语协同训练还是双语主动学习都能同时提高中英文关系抽取的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号