首页> 中文学位 >基于元素层次表达式模型的XML文档相似度计算
【6h】

基于元素层次表达式模型的XML文档相似度计算

代理获取

目录

文摘

英文文摘

声明

第一章绪论

第一节课题研究背景

第二节XML数据挖掘的发展现状

第三节主要研究工作及论文组织结构

第二章XML数据挖掘的相关研究

第一节XML概述

第二节XML数据挖掘

2.2.1数据挖掘概述

2.2.2 XML数据挖掘进展

第三章XML文档的元素层次表达式模型

第一节XML文档结构模型的相关研究

3.1.1树型结构模型

3.1.2频繁路径模型

第二节元素层次表达式模型

第三节元素层次表达式模型的简化

第四节构建XML文档的元素层次表达式模型

3.4.1解析XML文档

3.4.2构建元素层次表达式模型

3.4.3精简元素层次表达式模型

第四章基于元素层次表达式模型的XML文档相似度计算

第一节XML文档相似度计算的相关研究

4.1.1基于树型结构模型的相似度计算——树编辑距离

4.1.2基于频繁路径模型的相似度计算——PBClustering

第二节基于层次表达式模型的相似度计算方法

4.2.1元素相似度计算

4.2.2元素层次表达式的相似度计算

4.2.3元素关系相似度计算

4.2.4元素层次表达式模型的相似度计算

第五章聚类与实验结果分析

第一节K-中心点算法

第二节实验结果分析

5.2.1程序流程

5.2.2实验环境

5.2.3构建元素层次表达式模型的时间分析

5.2.4相似度计算分析

5.2.5聚类结果分析

第六章总结与展望

第一节全文总结

第二节展望

参考文献

致谢

个人简历

展开▼

摘要

XML是W3C推荐的一种通用标记语言,凭借其自描述性、可扩展性、半结构化等特点,逐渐成为Web上数据表示和交换的标准,在多个领域都有广泛应用。随着XML文档的大量涌现,如何从海量文档中挖掘出有价值的信息成为研究热点。XML数据挖掘是知识发现技术在XML领域的重要应用。XML文档挖掘包含内容挖掘和结构挖掘。其中结构挖掘利用XML的层次结构特性,挖掘出XML文档结构中的知识,为XML数据的提取、集成以及其它应用提供便利。 XML文档的表示模型是结构挖掘的基础。论文在总结树型结构和频繁路径两个模型的基础上,针对XML文档的结构聚类进行研究,提出了一种新的表示模型--元素层次表达式模型(ELEM)。该模型以元素为中心,以元素之间的层次关系为主体,以关系集合为表示形式。该模型以简洁的形式表示XML文档的结构信息,改善了树型模型不易处理、操作难的缺点,并弥补了频繁路径模型在表示层次信息方面的不足。 在XML结构挖掘中,分类、聚类是常用的挖掘方法。XML文档的相似度计算是进行XML文档分类、聚类的基础,能对分类和聚类的效果产生重要影响。本文综合考虑了语义信息对元素相似度的影响,层次信息对结构相似度的影响,提出了元素层次表达式模型的相似度计算方法(LEMS)。为了验证基于该模型的相似度计算的效果,本文采用了K-中心点算法进行聚类分析。实验结果表明,基于这种相似度计算方法的聚类效果优于基于树编辑距离、PBClustering等方法得到的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号