首页> 中文学位 >航空领域术语定义抽取关键技术及其应用研究
【6h】

航空领域术语定义抽取关键技术及其应用研究

代理获取

目录

摘要

注释表

第一章 绪论

1.1 引言

1.2 术语定义抽取的国内外研究现状

1.2.1 术语和术语定义

1.2.2 定义抽取的国内外研究现状

1.3 本文拟解决的关键问题

1.4 本文的内容安排

第二章 航空术语定义语料库建设

2.1 语料库建设的意义和现状

2.1.1 语料库建设的意义

2.1.2 语料库的分类

2.1.3 国内外语料库的发展历史和现状

2.2 语料库建设规范

2.2.1 语料库系统的设计目标

2.2.2 语料库的选材

2.2.3 语料库的标注体系

2.3 语料库管理系统设计

2.3.1 语料标注及管理模块

2.3.2 语料信息统计模块

2.3.3 知识表达及存储模块

2.4 小结

第三章 基于改进重采样和BRF方法的术语定义抽取

3.1 不平衡数据分类方法的相关研究

3.1.1 不平衡数据分类中面临的问题

3.1.2 不平衡数据的重采样方法

3.1.3 集成学习方法

3.2 基于实例距离分布的重采样方法

3.2.1 SMOTE方法存在的问题

3.2.2 对重采样方法的改进

3.2.3 术语定义抽取的处理过程

3.3 术语定义抽取实验

3.3.1 实验平台构建

3.3.2 术语定义抽取实验

3.4 小结

第四章 术语定义抽取的特征选择研究

4.1 特征选择的概念和定义

4.1.1 特征选择的定义

4.1.2 特征选择的研究意义和面临的挑战

4.2 特征选择的研究进展

4.2.1 特征选择和特征抽取的区别

4.2.2 Filter类型特征选择的研究进展

4.3 基于分布差异的特征选择框架

4.3.1 传统方法的缺点

4.3.2 基于两类分布的特征选择方法定义

4.3.3 特征选择方法对特征函数值分布的影响

4.3.4 实验数据与流程

4.3.5 实验结果与结论

4.4 术语定义中的多层次特征组合

4.4.1 文本信息处理中的组合特征应用及其缺点

4.4.2 多层次特征的组合熵

4.5 使用多层次特征组合的实验

4.5.1 实验数据与流程

4.5.2 实验结果与结论

4.6 小结

第五章 定义知识在CBT智能系统中的应用

5.1 试题自动生成技术的研究现状

5.2 试题自动生成组件的设计

5.2.1 航空领域本体设计

5.2.2 句型模板与知识存储设计

5.2.3 试题生成模式设计

5.3 选择题生成示例

5.4 小结

第六章 研究总结与展望

6.1 本文的主要成果和创新点

6.2 本文的不足和对后续工作的展望

参考文献

致谢

在学期间的研究成果及发表的学术论文

展开▼

摘要

CBT(Computer Based Training)系统作为先进培训技术的重要组成部分,在民航业的飞行员培训和机务培训中具有重要作用。飞行CBT在国内外航空公司已有大量的应用,而部署机务CBT系统也是是国内二级维修单位的必备条件。 本文的工作围绕CBT系统开发过程中,利用术语定义抽取技术从专业文献中获取专业相关知识所需的关键技术展开,并探索了将定义知识应用于智能CBT系统中的方法。本文的主要研究内容如下:
  (1)建设术语定义抽取实验用语料库。语料库是所有自然语言处理研究必须要解决的问题,但是目前国内外并没有现成的专供航空领域中文术语定义抽取研究的语料库,所以本文的第一项工作就是建设一个实验用语料库。根据实验要求,确立了第一阶段语料库的建设规模,并建立了本文语料库的开发规范并开发了相应的配套软件;还对语料库的各种信息进行了详细统计,以此作为本文后续研究的基础。
  (2)确定进行术语定义抽取的基本方法。由于研究目的不同,以往用于解决自动问答和搜索引擎排序问题的方法在本文中并不适用。针对术语定义在语料中分布极不平衡的情况,提出以平衡随机森林方法来解决术定义抽取问题;针对构建平衡训练集时随机产生合成样本的方法无法有效巩固是少数类密集分布区域边界的问题,提出了采用基于实例距离分布信息定义的重采样策略,相比随机重采样方法,提高了定义抽取的F1-measure和F2-measure。
  (3)改进术语定义抽取的特征选择方法。针对术语定义抽取语料中,数据分布不平衡以及定义句内部存在小析取项这两个问题,从特征选择角度提出基于类间分布差异和类内分布差异的特征选择方法。该方法改进了传统特征选择函数依赖词频统计结果主要衡量特征的类间分布差异的缺点。实验证明在应用于平衡随机森林方法时可以以更少的特征达到与传统filter方法同样的F1-measure和F2-measure。
  (4)利用多层次语言学特征进行定义抽取。本文对在信息抽取不同子课题中使用多层次语言学特征的情况进行了总结,针对定义抽取领域中由于缺乏可定量计算的方法,导致无法在进行定义抽取时充分利用语言学特征的问题,以信息熵为基础提出使用不同层次间的特征组合的组合熵来计算不同层次的特征组合对定义抽取的影响,并结合前文的特征选择框架用于多层次特征的筛选。该方法为研究不同层次的语言学特征在定义抽取中的作用和利用这些特征进行定义抽取提供了一种可计算的方法。实验证明了该方法的正确性和有效性。
  (5)设计并实现了CBT智能考核系统。针对现有AIG(Automatic Item Generation)技术不利于生成专业领域的试题而且干扰项的迷惑性也较弱的问题。本文以加工定义知识得到的多种知识表达为基础,设计了利用句型模板库和知识点库生成考核试题的题面,从领域本体生成千扰项的自动试题生成和评价系统。该方法可以有效满足CBT系统中对于专业知识的自动考核和评价的需求,同时能够大幅减轻开发题库和组卷所需的工作量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号