首页> 外文学位 >Acquisition automatique des termes: L'utilisation des pivots lexicaux specialises (French text).
【24h】

Acquisition automatique des termes: L'utilisation des pivots lexicaux specialises (French text).

机译:自动获取术语:使用专门的词汇表枢轴(法语文本)。

获取原文
获取原文并翻译 | 示例

摘要

The research undertaken for this thesis is part of knowledge acquisition from texts; it focuses more particularly on term acquisition. Our work led to the development of TermoStat, a piece of software dedicated to testing our methodology for automatic term acquisition in an industrial environment.; To carry out term recognition in English, TermoStat relies on statistical techniques to compare the lexicon of a technical corpus (analysis corpus) to one of a non-technical corpus (reference corpus). The object of this comparison is to establish a list of specialised lexical pivots (SLP). The SLPs correspond to the lexical items that have an abnormally high frequency in the analysis corpus as compared to the reference corpus.; SLPs are used as a starting point for the automatic acquisition of terms, which relies on the concept of term frontiers. Using specialised lexical pivots allows TermoStat to focus its analysis on parts of documents that have a particular behavior. This pinpointing of relevant information allows TermoStat to only look at the immediate context of SLPs.; In order to maximize the quality of the results, we put forward a weighting index to capture the terminological potential of candidate terms (CT). The index, called iTer, includes various contextual clues as observed in the corpus (frequency, length, etc.). The first half of the sorted list of CTs obtained from our analysis corpus with TermoStat had a precision of 86.8%.
机译:本论文的研究是文本知识获取的一部分。它更侧重于术语获取。我们的工作促成了TermoStat的开发,该软件专门用于测试我们在工业环境中自动获取术语的方法。为了用英语进行术语识别,TermoStat依靠统计技术将技术语料库(分析语料库)与非技术语料库(参考语料库)之一的词典进行比较。此比较的目的是建立专用词汇表(SLP)列表。 SLP对应于与参考语料库相比在分析语料库中具有异常高频率的词汇项目。 SLP用作自动获取术语的起点,该术语依赖于术语边界的概念。使用专门的词法枢纽,TermoStat可以将分析重点放在具有特定行为的文档部分上。通过对相关信息的精确定位,TermoStat只能查看SLP的即时上下文。为了最大程度地提高结果的质量,我们提出了一个加权指标来捕获候选术语(CT)的潜在术语。该索引称为 iTer ,包括在语料库中观察到的各种上下文线索(频率,长度等)。从我们的TermoStat分析语料库中获得的CT排序列表的上半部分,其准确性为86.8%。

著录项

  • 作者

    Drouin, Patrick.;

  • 作者单位

    Universite de Montreal (Canada).;

  • 授予单位 Universite de Montreal (Canada).;
  • 学科 Language Linguistics.; Computer Science.
  • 学位 Ph.D.
  • 年度 2002
  • 页码 289 p.
  • 总页数 289
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 语言学;自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号