首页> 外文OA文献 >Compiling Bilingual Lexicon Entries From a Non-Parallel English-Chinese Corpus
【2h】

Compiling Bilingual Lexicon Entries From a Non-Parallel English-Chinese Corpus

机译:从非平行英汉语料库编译双语词典词条

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We propose a novel context heterogeneity similarity measure between words and their translations in helping to compile bilingual lexicon entries from a non-parallel English-Chinese corpus. Current algorithms for bilingual lexicon compilation rely on occurrence frequencies, length or positional statistics derived from parallel texts. There is little correlation between such statistics of a word and its translation in non-parallel corpora. On the other hand, we suggest that words with productive context in one language translate to words with productive context in another language, and words with rigid context translate into words with rigid context. Context heterogeneity measures how productive the context of a word is in a given domain, independent of its absolute occurrence frequency in the text. Based on this information, we derive statistics of bilingual word pairs from a non-parallel corpus. These statistics can be used to bootstrap a bilingual dictionary compilation algorithm.
机译:我们提出了一种新颖的语境异化相似度度量,以帮助从非平行的英汉语料库中汇编双语词典条目。当前的双语词典编译算法依赖于从平行文本中得出的出现频率,长度或位置统计信息。在非平行语料库中,单词的这种统计与其翻译之间几乎没有相关性。另一方面,我们建议将一种语言中具有生产性上下文的单词转换为另一种语言中具有生产性上下文的单词,而具有刚性上下文的单词则转换为具有刚性上下文的单词。上下文异质性度量了单词上下文在给定域中的生产率如何,与单词在文本中的绝对出现频率无关。基于此信息,我们从非并行语料库中导出了双语单词对的统计信息。这些统计信息可用于引导双语词典编译算法。

著录项

  • 作者

    Fung Pascale;

  • 作者单位
  • 年度 1995
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"English","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号