首页> 中文学位 >基于多级过滤的领域复合概念抽取方法
【6h】

基于多级过滤的领域复合概念抽取方法

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 引言

1.1 研究背景

1.2 研究现状

1.2.1 基于统计的方法

1.2.2 基于规则的方法

1.2.3 统计与规则结合的方法

1.2.4 复合概念抽取的相关应用

1.3 本文工作

1.4 论文组织结构

第2章 概念抽取相关技术

2.1 复合概念的相关概念

2.1.1 概念

2.1.2 新词语

2.1.3 复合概念

2.1.4 概念、新词语和复合概念的联系与区别

2.2 概念抽取相关技术

2.2.1 TF-IDF方法

2.2.2 中文分词技术

2.3 本章小结

第3章 基于多级过滤的复合概念抽取模型

3.1 多级过滤抽取模型介绍

3.2 基于多级过滤抽取模型的具体抽取过程

3.2.1 文本预处理

3.2.2 分词和词性标注

3.2.3 对词条进行位置标注

3.2.4 停用词过滤

3.2.5 基于改进的TF-IDF公式进行原子概念过滤

3.2.6 基于空间组合规则进行复合概念过滤

3.2.7 基于词性组合规则进行复合概念过滤

3.3 本章小结

第4章 实验分析与比较

4.1 复合概念抽取系统

4.2 复合概念抽取评价指标

4.3 实验设计

4.4 实验结果

4.5 本章小结

总结及展望

1.本文工作总结

2.未来工作展望

参考文献

致谢

附录A 攻读学位期间所发表的学术论文目录

展开▼

摘要

领域本体是人工智能领域类研究的热点内容,领域概念是领域本体的基础组成部分,因而对领域概念的识别与抽取是一项基础研究工作。随着社会进步、科技发展,新概念层出不穷,而尤以各领域内的复合概念为代表。这些领域复合概念一般都是由各领域内的原子概念或词语组合而成的名词性短语,它指代一个更为精确的领域概念信息。领域复合概念的识别与抽取是领域文本信息处理的基础,对领域本体的构建与应用、文本信息检索、文本挖掘有着重要的意义。现有的分词系统不能识别这些新的领域复合概念,也就不能满足实际的应用需求。因此,对复合概念的自动抽取已成为当务之急。
  针对单独使用基于统计的方法和单独使用基于语言规则的方法对复合概念抽取的不足之处,本文融合统计与语言规则的思想,构建了一个多级过滤抽取模型。该抽取模型首先利用改进的TF-IDF方法筛选出领域原子概念集;其次通过空间组合规则,利用位置标注筛选出初始的领域复合概念集;最后通过词性分析,利用词性规则模版匹配过滤得到最终的领域复合概念集。
  本文构建了基于多级过滤的复合概念抽取验证系统,使用基于多级过滤的复合概念抽取方法进行复合概念抽取,并计算了抽取的准确率P、召回率R及F值。同时对基于互信息的中文术语抽取方法和基于词内部模式的新词识别方法也进行复合概念抽取。对比三种方法的抽取结果,我们发现:与另外两种抽取方法相比,本文方法抽取的准确率P、召回率R及F值的值都较高,所以本文方法比另外两种方法能更有效的对复合概念进行抽取。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号