首页> 中文学位 >相似XML文档合并方法的研究
【6h】

相似XML文档合并方法的研究

代理获取

目录

相似XML文档合并方法的研究

RESEARCH ON APPROXIMATE XML JOINS

摘 要

Abstract

目 录

Contents

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 国内外研究现状

1.3 本文的主要研究工作

1.4 本文的结构

第2章 XML 相似度量方法综述

2.1 相关XML知识

2.2 XML相似度量方法

2.3 XML聚类方法

2.4 本章小结

第3章 基于子树匹配的XML相似度量方法

3.1 引言

3.2 基于子树匹配的XML相关定义

3.3 基于子树相似性的XML相似度计算方法

3.4 基于子树相似性的XML连接算法

3.5 实验结果与分析

3.6 本章小结

第4章 基于层次结构的XML聚类

4.1 引言

4.2 XML层次结构及XML相似性

4.3 XML聚类

4.4 实验设计与分析

4.5 本章小结

结 论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

个人简历

展开▼

摘要

随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensible Markup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的 XML文档可能表示相同或相似的信息,但是这些信息可能存在大量的冗余。集成这样相似或者相同的信息是有意义的,因为用户能够从集成的数据中去除XML文档中冗余的信息并获得更为完整和有用的信息。
  本文介绍了几种 XML相似性的度量方法,并提出了一种基于子树匹配的XML相似性度量方法。在 XML子树相似性计算的过程中,本文不仅考虑子树叶子节点的PCDATA的值,还考虑了匹配的叶子节点所在路径的相似性。结合文本与路径相似性的计算,本文给出了子树相似性的定义。基于子树的相似性,本文提出了XML的相似性度量算法和XML的相似连接算法。实验结果证明了子树的相似性的计算有利于XML文档的连接。
  XML的聚类算法大多数都是基于树编辑距离的方法,这些聚类算法将XML文档两两比对,随着 XML文档数目的增加,聚类时间会急剧增加。基于XML的层次结构,本文做了一些语义上的改进,并根据XML的层次结构定义了XML文档的相似性。在事物数据和CLOPE等增量式聚类算法的启发下,基于这种层次结构相似性进行了不需要两两比对的聚类。实验结果表明增量式XML聚类方法避免了XML文档两两相似度的计算,大大加快了XML的聚类速度。

著录项

  • 作者

    何峰;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 姜守旭;
  • 年度 2012
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.01;
  • 关键词

    子树匹配; XML文档; 相似度量; 聚类分析;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号