首页> 中文学位 >文档的术语表自动构建方法研究
【6h】

文档的术语表自动构建方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

自动术语抽取是指从领域相关的文本中通过自动方法获得领域术语。长期以来术语抽取方法的研究一直是自然语言处理的重点研究课题之一。随着各行业大数据的迅猛发展,自动术语抽取方法为很多研究领域带来帮助,例如机器阅读、信息检索、计算机辅助翻译等等。 传统的自动术语抽取方法通常包括了基于词频和基于上下文语境等类型的方法,但现有的术语抽取方法通常忽略了术语的“关键词”特性,将术语抽取和关键词抽取视为两个独立的领域。此外,现有术语抽取方法并未有效地利用海量的领域相关文本。针对术语抽取方法中存在的问题,本文提出了一个自动术语抽取方法,该方法包括基于关键词抽取的术语评分方法和基于远监督的术语评分方法两个评分阶段,并实现了一个自动术语抽取系统。本文的具体工作包括: (1)提出了一个关键词抽取的术语抽取评分方法。该方法将文本构建为文本图,分析单词或词组之间的语义关系,通过迭代算法抽取文本中的关键词作为候选术语集。 (2)提出了基于远监督模型的术语抽取评分方法。该方法利用维基百科作为语料库,分析维基百科的超链接结构和锚文本,构建维基百科术语集,最终结合基于关键词的术语抽取评分方法提高了术语抽取的精确度和召回率。 (3)设计并实现了基于以上方法的自动术语抽取系统。该系统支持本地或用户上传的文本语料,自动抽取出文本中术语后将结果呈现给用户。 本文通过实验验证了术语抽取方法的有效性。本文提出的方法和实现的系统对于术语抽取的研究和实践具有重要意义。

著录项

  • 作者

    陈观喜;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 汪鹏,张祥,陈万江;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 劳动卫生;
  • 关键词

    文档; 术语表; 自动; 构建;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号