首页> 中文学位 >术语自动抽取技术研究
【6h】

术语自动抽取技术研究

代理获取

目录

术语自动抽取技术研究

RESEARCH ON THE TECHNOLOGY OF AUTOMATIC TERM EXTRACTION

摘 要

Abstract

目 录

第1章 绪论

1.1 课题背景及意义

1.2 术语相关概念

1.3 术语自动提取研究现状

1.4 本文的内容安排

第2章 单元度的计算

2.1 术语特征计算

2.2 内部结合紧密度的计算

2.3 边界自由度的计算

2.4 本研究中单元度的计算

2.5 本章小结

第3章 基于信息熵的术语抽取

3.1 基于信息熵的字串边界自由度的计算

3.2 算法描述

3.3 实验与结果分析

3.4 本章小结

第4章 基于似然比与C-value相结合的术语抽取

4.1 基于似然比的字串内部结合强度计算

4.2 似然比与C-value方法结合

4.3 算法描述

4.4 实验结果与分析

4.5 本章小结

第5章 术语自动抽取

5.1 实验资源

5.2 术语自动抽取系统

5.3 实验结果与数据分析

5.4 系统分析与讨论

5.5 本章小结

结 论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

随着互联网的飞速发展,术语在各个领域层出不穷。术语自动提取日益受到人们的关注,已经成为自然语言处理的一项重要任务,可以应用到本体构建、专业搜索、文本分类等各个领域。因此,术语抽取研究是信息处理领域的基础性课题。
  术语是为有效表达领域知识而产生的完整的语言单位,因此需要计算其单元度。本文重点研究了单元度的计算方法。计算词语的单元度有很多种统计模型,我们在分析各种模型优缺点的基础上,综合了几个模型的优点,提出一种新的术语抽取方法,实现优势互补,从而提高了准确率和召回率。
  本文的研究工作主要包括以下几个方面:
  第一,详细分析了术语在文本中的使用特点,并对已有的各种术语抽取方法及其各自的优缺点进行了分析和比较。
  第二,为了能有效抽取低频词汇,选用了似然比方法。但该方法抽取准确率偏低。为了解决这个问题,本文提出将似然比的抽取结果用C-value进行处理。两者相结合,在保证似然比方法高召回率的前提下,也提高了抽取的准确率。实验证明,这两种方法的结合是有效的。
  第三,在术语提取的特征运用上,既考虑了术语的内部结合紧密特性,又考虑了术语的边界自由特性,提出将改进似然比方法抽取结果与信息熵抽取结果求并集的策略。实验证明,在术语提取中集成多方面信息,可以取得更好的效果。
  第四,所用的方法完全基于统计,与语言无关,所以理论上可以对各种语言的语料进行抽取。实验语料为中英文混合语料,实验证明,该方法能有效处理中英文混合语料。
  本文设计并实现的术语自动抽取系统,只需给出领域语料,便可从给定的语料中抽取出尽可能多的专业术语。整个过程无需分词及词性标注,不局限于某一个领域,不需要语料库进行训练,简单实用。我们选取“百度百科”技术标签下大约11M的语料进行抽取,前4000个候选串的准确率约70.8%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号