首页> 中文学位 >基于文本挖掘的动态本体构建方法研究
【6h】

基于文本挖掘的动态本体构建方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章引言

1.1研究背景、目的和意义

1.2国内外研究现状

1.3研究内容和方法

1.4论文的组织

第二章相关理论和技术

2.1本体相关理论

2.2文本挖掘技术

2.3文本挖掘在本体构建中的应用

2.4小结

第三章本体与叙词表的结合方法研究

3.1叙词表的概念与应用特点

3.2本体与叙词表的区别与联系

3.3本体与叙词表的结合

3.4小结

第四章DOCTM模型及基本工作原理

4.1 DOCTM模型的提出

4.2 DOCTM系统结构与基本工作原理

4.3小结

第五章关系挖掘方法研究及实验结果分析

5.1关系挖掘过程

5.2 SRD种子关系抽取

5.3基于SRD生成RDF陈述集

5.4关联规则挖掘

5.5小结

第六章DOCTM本体构建平台原型系统

6.1实验系统设计

6.2本体构建与查询修剪

6.3系统评估

6.4小结

第七章结论和展望

7.1结论

7.2展望

参考文献

致谢

附录

个人简介

展开▼

摘要

本体(Ontology)是资源共享的基础,它提供了对领域知识的共同理解。本体的应用范围非常广泛,但本体的构建却是一项非常费时、费力的工作。目前,本体的建立基本还是采用手工静态构建的方式,而本体的构建应具备不断更新的动态特性。现实生活中信息的主要载体是非结构化纯文本数据,如何利用文本挖掘、信息抽取、机器学习等知识获取技术动态构建本体是本体自动或半自动构建所面临的挑战。 叙词表(thesaurus)作为上世纪发展起来的文献标引工具,概括了领域内绝大部分相关的术语和基本关系,并具备大量丰富的主题标引文献,是构建领域本体的重要来源。本文比较分析了叙词表与本体的结合方法,并在此基础上提出了基于文本挖掘的动态本体构建(Oynm~Ontolo~Construction based on Text Mining,DOC<'TM>)模型。该模型结合叙词表提供的已有知识,将叙词表的描述形式转换为本体的概念模型,同时利用叙词标引的主题文献进行文本挖掘构建动态领域本体:从主题文献库中识别领域概念,进而挖掘并细化概念间的属性和关系。 针对文本挖掘中难以准确获取概念间关系的状况,为提高关系抽取的准确度,本文提出了领域种子关系(Seed Relation in Domain,SRD)的概念和思想,结合自然语言处理方法,通过确定种子关系进行关系挖掘。本文详细论述了SRD的抽取,基于SRD生成关系陈述集,以及通过关联规则挖掘进一步抽取属性规则的方法。 作为DOC<'TM>动态本体构建模型的构建工具和检验平台,本文设计并开发了基于DOC¨Ⅵ的本体构建原型实验系统。该实验系统结合叙词表提供的现有资源,以领域叙词表和该词表标引的非结构化纯文本语料为输入,通过静态模型转换、动态概念挖掘、基于SRD的关系抽取以及关联规则挖掘,动态构建领域本体。 本文选用多语种农业叙词表 AGROVOC和中国农科院科技文献作为实验系统的输入数据,结果表明:系统实现了DOCTM动态本体构建的基本功能;领域叙词表为动态本体构建提供了质量保障;SRD是一种有效获取概念间关系的途径,借助种子关系可以从纯文本中提取概念间的关系;通过对OWl(Web Onology Language)定义的属性进行规则分析及关联规则挖捌可以得到概念间的部分规则,从而使本体初步具备了一定的推理能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号