基于频繁子树挖掘的XML聚类方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

XML数据由于其开放性、通用性、半结构化等特性，已经成为互联网上数据表示和交换的标准。随着XML应用的不断扩展，大量数据源产生出千差万别的XML文档，它们所遵循的文档模式(DTD或XML Schema)也各不相同。对异源XML数据集合进行处理的一个关键技术，是将XML文档根据结构相似性进行分类并提取DTD。基于同一DTD的XML文档间会有较多的相同子结构，对于规模较大的XML文档集而言，表现为频繁子树。本文研究基于频繁子树的XML聚类算法。主要工作包括：
　　 1、概述现有的针对XML文档的聚类方法，指出这些方法的不足之处，提出了新的解决的思路，即基于频繁子树进行聚类，并阐述了理论依据。
　　 2、在经典频繁子树挖掘算法FREQT的基础上，引入了等价类扩展的思想，提出了FROTreeMiner算法，该算法大大减少了产生的候选子树数目，可用于挖掘频繁递归有序子树。
　　 3、基于频繁子树挖掘结果，本文提出两种XML文档相似度计算方法：第一种方法结合了向量空间模型和频繁子树构建频繁结构特征向量，通过特征向量来计算相似度。第二种方法先构建了全局的频繁子树包含关系表，通过该表可以找出文档包含的最大频繁子树和文档间最大的共有频繁子树，并以此为基础定义了XML文档相似度计算公式。在得到文档的相似度后，通过最小生成树来进行XML文档的聚类。
　　 4、实验表明了(1)FROTreeMiner频繁子树挖掘算法效率高于经典算法FREQT。(2)基于频繁子树的聚类算法在应用于XML文档分类时，比传统算法具有更高的准确率和性能。

著录项

作者
周健;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机应用技术
授予学位硕士
导师姓名陈刚,寿黎但;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
XML文档分类; 数据挖掘; 频繁子树; 聚类算法; 子树包含关系表;

相似文献

中文文献
外文文献
专利

1. XML数据流分页频繁子树挖掘研究 [J] . 雷向欣 ,杨智应 ,黄少寅 . 计算机研究与发展 . 2012,第009期
2. 一种挖掘XML文档频繁子树的方法 [J] . 傅珊珊 ,吴扬扬 . 计算机工程与科学 . 2007,第010期
3. 基于子树约束的最大频繁子树挖掘算法 [J] . 陈冬菊 ,张东站 ,段江娇 . 现代计算机（专业版） . 2010,第005期
4. 基于频繁叶模式的XML最大频繁查询模式挖掘算法 [J] . 陈超祥 ,丁健龙 ,华成 . 计算机应用与软件 . 2009,第006期
5. 基于频繁子树模式的GML文档结构聚类算法 [J] . 朱颖雯 ,吉根林 ,孙勤红 . 计算机工程与应用 . 2011,第001期
6. 基于Apriori算法的XML频繁子树挖掘 [C] . 张仕 ,上海交通大学计算机科学系 ,赖会霞 . 第二届全国Web信息系统及其应用会议（WISA2005'） . 2005
7. 频繁子树挖掘在XML挖掘中的应用 [A] . 颜一鸣 . 2009

基于频繁子树挖掘的XML聚类方法研究

摘要

著录项

相似文献

相关主题

期刊订阅