首页> 中文学位 >非结构化文本中领域术语获取方法的研究
【6h】

非结构化文本中领域术语获取方法的研究

代理获取

目录

文摘

英文文摘

声明

1 绪论

1.1研究背景与意义

1.2国内外研究现状综述

1.2.1领域术语自动获取的研究进展

1.2.2领域术语自动获取研究存在的主要问题

1.3论文的主要工作

1.4论文内容的组织

2领域术语自动获取的原理

2.1领域术语自动获取的理论背景

2.1.1领域术语定义和标注规范

2.1.2信息抽取概述

2.1.3领域术语获取问题的转化

2.2任务描述

2.3领域术语自动获取的框架结构和工作机理

2.4特征表示

2.4.1领域术语获取中的特征表示

2.4.2特征选择

2.5领域术语获取的性能评价

2.6本章小结

3基于分类的领域术语获取方法

3.1基于分类模型的领域术语获取方法及形式化

3.2领域术语获取中分类模型的基本原理

3.2.1支持向量机

3.2.2朴素贝叶斯

3.3分类模型在领域术语获取任务中的问题分析

3.3.1 Na(i)ve Bayes和SVM的特点比较

3.3.2分类模型在领域术语获取中的问题分析

3.4分类方法的领域术语特征表示策略

3.5本章小结

4基于序列数据标注的领域术语获取方法

4.1基于序列数据标注模型的领域术语获取方法及形式化

4.1.1问题转化

4.1.2形式化表示和序列数据标注模型的框架

4.2序列数据标注模型的基本原理

4.2.1最大熵马尔可夫模型(MEMM)

4.2.2条件随机场模型(CRF)

4.3序列数据标注模型在领域术语获取任务中的问题分析

4.3.1 MEMM和CRF的特点比较

4.3.2序列数据标注模型在领域术语自动抽取中的问题分析

4.4序列数据标注方法的领域术语特征表示策略

4.5本章小结

5基于Reranking的领域术语获取方法

5.1 Reranking方法介绍

5.1.1 Reranking定义和形式化表示

5.1.2 Reranking任务中的算法

5.2 Ranking SVM

5.3 Reranking方法在领域术语获取任务中的问题分析

5.4 Reraning方法的领域术语特征表示策略

5.5本章小结

6领域术语获取方法的实验及验证

6.1数据集准备及所需的工具

6.1.1实验数据集准备

6.1.2实验所需工具

6.2基于分类的领域术语获取实验

6.3基于序列数据标注的领域术语获取实验

6.4基于Reranking的领域术语获取实验

6.5实验结论

6.6本章小结

7结论与展望

7.1工作总结

7.2展望

致谢

参考文献

研究生期间所作工作

展开▼

摘要

随着领域新技术的飞速发展,大量数字化科技文献都以非结构化文本的形式与日俱增,如何有效地获取其中的领域术语,对于构建数字图书馆、领域本体、编撰领域词典等都具有重要的现实意义,因此成为人们关注的焦点。相比已有领域术语获取方法——词典方法、规则方法、简单统计量方法的种种不足,比如需要领域专家参与且费时费力,或者不能融合领域术语的各类特征等,本文借鉴了统计学习理论和信息抽取的相关研究采用了如下的方法:基于分类的方法、基于序列数据标注的方法、基于Reranking的方法进行领域术语自动获取的研究工作。 为此本文首先对领域术语获取进行了问题转化,从信息抽取的角度定义了术语获取工作的输入输出和任务描述,并以此为基础提出了基于统计学习理论的领域术语获取的工作机理和框架流程,同时阐明了其中文本预处理、特征表示策略、统计学习模型的选择和比较是领域术语获取工作的核心。 然后本文分别探讨了分类方法、序列数据标注方法、Reranking方法的工作机理和针对术语获取的问题分析;在术语的特征表示部分,分别提出了针对上述三种方法的特征表示策略,并通过实验说明了本文提出的方法相比Genia项目提供的baseline方法可以有效地提高领域术语自动获取的性能评测指标。另外,针对目前还没有使用Reranking进行术语获取研究的现状,本文借鉴了该思想方法并与序列标注模型相结合形成一个串行的处理流程,即在CRF模型的基础上,通过排序支持向量机对候选标记序列进行重排序,将最好的候选排序到最前面,从而获取领域术语。从实验结果可以看到在术语获取问题上,序列数据标注方法优于分类方法,而Reranking方法又在序列数据标注评测结果的基础上有了一定的提高。 虽然本文采用的三种统计学习方法相比Genia项目报告的baseline有显著的性能提升,但依然可以通过增加更丰富的特征和使用额外的资源库提高性能;另外针对本文目前所使用的Reranking方法,可以将代价敏感的排序损失函数引入到ranking SVM中,用于减少排序顶部位置上的错误率,从而更准确地获得文本中的领域术语。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号