首页> 中文学位 >基于语义的XML模式提取方法的研究
【6h】

基于语义的XML模式提取方法的研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究现状

1.2.1 XML模式提取研究现状

1.2.2 XML语义研究现状

1.3 论文研究内容

1.4 论文组织结构

第2章 相关理论知识

2.1 XML模式简介及模式提取准则

2.1.1 DTD模式

2.1.2 XML Schema模式

2.1.2 模式提取准则

2.2 XML解析介绍

2.2.1 DOM解析

2.2.2 SAX解析

2.3 XML语义

2.3.1 XML文档中存在的语义信息

2.3.2 单词语义关系

2.4 XML基本数据类型提取

2.5 OWL本体

2.6 基于自动机的XML模式提取

2.7 本章小结

第3章 XML元素类型提取

3.1 XML文档解析

3.1.1 UXML Tree的定义

3.1.2 XML解析算法UXMLParse

3.2 XML文档聚类

3.3 确定XML元素的元素类型

3.3.1 XML标签名称提取

3.3.2 元素类型相似度计算

3.3.3 相同元素类型划分

3.4 本章小结

第4章 基于元素类型划分的XML模式提取

4.1 模式表示

4.2 XML模式提取

4.2.1 ExSOA的定义以及提取ExSOA

4.2.2 从ExSOA提取出元素类型的模式

4.2.3 提取XML元素类型模式信息

4.2.4 XML文档模式提取算法SchemaInfer

4.3 本章小结

第5章 基于语义的XML模式提取设计及实验分析

5.1 系统设计

5.2 实验测试与结果分析

5.2.1 测试平台及测试集

5.2.2 可扩展测试及结果

5.2.3 元素类型划分测试及结果

5.2.4 表达能力测试及结果

5.3 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

XML(eXtensible Markup Language)已经成为数据表示和数据交换的标准,使用在各种各样的应用中。XML模式是XML数据交换、高效数据查询的基础,因此XML模式对于XML数据管理至关重要。但大部分的XML文档缺少XML模式信息,从XML数据中自动化的提取出XML数据的模式信息是XML数据管理的重要任务。传统的XML模式提取技术是对XML文档的结构进行提取,没有考虑XML文档中标签的语义信息,然而不同的XML文档的编写者使用的不同的标签描述信息,从而导致提取出的XML模式冗余和错误。因为,充分利用XML数据的语义信息,产生紧凑正确的XML模式是一个亟待解决的问题。
  本文提出了基于语义的XML模式提取方法。使用XML文档进行聚类,把相似度高的文档聚类在相同的簇内。分析簇内的XML数据,根据元素标签的语义信息和上下文环境,把元素划分为不同的元素类型。使用XML模式提取算法提取出每个元素类型的模式,最终提取出XML模式。基于语义的XML模式提取方法分成三部分:
  首先,对XML文档进行聚类,不同类型的XML文档被不同的XML模式描述,因此使用聚类技术把具有相似模式的XML文档聚集在一起,本文根据XML文档的标签名称和结构特点对XML文档进行聚类。
  其次,根据元素类型对XML元素进行划分。在聚类的簇内部,分析XML元素,根据元素标签的语义信息以及元素的上下文信息,把具有元素类型(即具有相同的模式)的元素划分在一起。把具有相同元素类型的元素标签名称以等价关系的形式写入到OWL本体中。
  最后,基于已划分的元素类型信息,根据元素类型的所有子元素序列建立自动机,对自动机进行简化,推导出XML模式信息。
  本文实现了基于语义的XML模式提取原型系统并进行了实验设计和实验结果的分析,实验表明基于语义的XML模式提取方法提取的模式更加准确和简洁。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号