首页> 外文学位 >Bayesian Text Segmentation for Terminology Extraction.
【24h】

Bayesian Text Segmentation for Terminology Extraction.

机译:用于术语提取的贝叶斯文本分割。

获取原文
获取原文并翻译 | 示例

摘要

Automatically extracting terminology and index terms from scientific literature is useful for a variety of digital library, indexing and search applications. This task is non-trivial, complicated by domain-specific terminology and a steady introduction of new terminology. Correctly identifying nested terminology is both interesting and challenging. Commonly-used approaches rely on the knowledge of document structure and supervised learning techniques to retrieve terminology. We present a new approach called Dirichlet Process Segmentation (DP-Segmentation) to identify key terms. This method is a Bayesian technique that is based on a probabilistic generative model for production of multi-word segments. DP-Segmentation outperforms previous methods for solving this problem of extracting nested multi-word terminology. In addition, the method has the advantage of being very robust. It is language independent, and does not require parsing or part of speech tagging. As such, DP-Segmentation has potential applications beyond extraction of index terms, such as segmenting Chinese text.
机译:从科学文献中自动提取术语和索引术语可用于各种数字图书馆,索引和搜索应用程序。这项任务非常艰巨,并伴随特定领域的术语并不断引入新的术语。正确识别嵌套术语既有趣又充满挑战。常用的方法依赖于文档结构的知识和监督学习技术来检索术语。我们提出了一种称为Dirichlet流程细分(DP-Segmentation)的新方法来识别关键术语。此方法是一种贝叶斯技术,该技术基于概率生成模型来生成多词段。 DP-Segmentation的性能优于以前的解决嵌套多字术语提取问题的方法。另外,该方法具有非常鲁棒的优点。它是独立于语言的,不需要解析或语音标记的一部分。因此,DP细分除了在提取诸如分类中文文本之类的索引词方面,还具有潜在的应用。

著录项

  • 作者

    Koilada, Nagendra.;

  • 作者单位

    University of California, Irvine.;

  • 授予单位 University of California, Irvine.;
  • 学科 Artificial Intelligence.;Computer Science.
  • 学位 M.S.
  • 年度 2012
  • 页码 68 p.
  • 总页数 68
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

  • 入库时间 2022-08-17 11:42:45

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号