术语自动抽取技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展，术语在各个领域层出不穷。术语自动提取日益受到人们的关注，已经成为自然语言处理的一项重要任务，可以应用到本体构建、专业搜索、文本分类等各个领域。因此，术语抽取研究是信息处理领域的基础性课题。
　　术语是为有效表达领域知识而产生的完整的语言单位，因此需要计算其单元度。本文重点研究了单元度的计算方法。计算词语的单元度有很多种统计模型，我们在分析各种模型优缺点的基础上，综合了几个模型的优点，提出一种新的术语抽取方法，实现优势互补，从而提高了准确率和召回率。
　　本文的研究工作主要包括以下几个方面：
　　第一，详细分析了术语在文本中的使用特点，并对已有的各种术语抽取方法及其各自的优缺点进行了分析和比较。
　　第二，为了能有效抽取低频词汇，选用了似然比方法。但该方法抽取准确率偏低。为了解决这个问题，本文提出将似然比的抽取结果用C-value进行处理。两者相结合，在保证似然比方法高召回率的前提下，也提高了抽取的准确率。实验证明，这两种方法的结合是有效的。
　　第三，在术语提取的特征运用上，既考虑了术语的内部结合紧密特性，又考虑了术语的边界自由特性，提出将改进似然比方法抽取结果与信息熵抽取结果求并集的策略。实验证明，在术语提取中集成多方面信息，可以取得更好的效果。
　　第四，所用的方法完全基于统计，与语言无关，所以理论上可以对各种语言的语料进行抽取。实验语料为中英文混合语料，实验证明，该方法能有效处理中英文混合语料。
　　本文设计并实现的术语自动抽取系统，只需给出领域语料，便可从给定的语料中抽取出尽可能多的专业术语。整个过程无需分词及词性标注，不局限于某一个领域，不需要语料库进行训练，简单实用。我们选取“百度百科”技术标签下大约11M的语料进行抽取，前4000个候选串的准确率约70.8％。

著录项

作者
张二艳;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名林磊;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
术语自动抽取技术; 单元度; 似然比方法; 信息熵; 领域语料库;

相似文献

中文文献
外文文献
专利

1. 采用CRF模型的哈萨克语信息技术术语自动抽取技术研究 [J] . 木合亚提·尼亚孜别克 ,古力沙吾利·塔里甫 ,达吾勒·阿布都哈依尔 . 西北师范大学学报（自然科学版） . 2016,第001期
2. 汉外术语及语义层次关系自动抽取技术研究 [J] . 曾文 ,桂婕 . 情报学报 . 2012,第012期
3. 面向军事领域的土耳其语术语自动抽取研究 [J] . 张贵林 ,易绵竹 ,李宏欣 . 中国科技术语 . 2022,第001期
4. 基于英汉平行语料库的术语组块自动抽取 [J] . 杨福义 . 中国科技术语 . 2018,第002期
5. 基于术语自动抽取的科技文献翻译辅助系统的设计 [J] . 黄政豪 ,崔荣一 . 延边大学学报（自然科学版） . 2017,第003期
6. 基于CBOW模型的领域术语自动抽取研究 [C] . Jiang Lin ,姜霖 ,唐振贵 . 第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛 . 2015
7. 术语自动抽取系统的设计及关键技术研究 [A] . 刘建舟 . 2004

术语自动抽取技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅