相似XML文档合并方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensible Markup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的 XML文档可能表示相同或相似的信息,但是这些信息可能存在大量的冗余。集成这样相似或者相同的信息是有意义的,因为用户能够从集成的数据中去除XML文档中冗余的信息并获得更为完整和有用的信息。
　　本文介绍了几种 XML相似性的度量方法,并提出了一种基于子树匹配的XML相似性度量方法。在 XML子树相似性计算的过程中,本文不仅考虑子树叶子节点的PCDATA的值,还考虑了匹配的叶子节点所在路径的相似性。结合文本与路径相似性的计算,本文给出了子树相似性的定义。基于子树的相似性,本文提出了XML的相似性度量算法和XML的相似连接算法。实验结果证明了子树的相似性的计算有利于XML文档的连接。
　　XML的聚类算法大多数都是基于树编辑距离的方法,这些聚类算法将XML文档两两比对,随着 XML文档数目的增加,聚类时间会急剧增加。基于XML的层次结构,本文做了一些语义上的改进,并根据XML的层次结构定义了XML文档的相似性。在事物数据和CLOPE等增量式聚类算法的启发下,基于这种层次结构相似性进行了不需要两两比对的聚类。实验结果表明增量式XML聚类方法避免了XML文档两两相似度的计算,大大加快了XML的聚类速度。

著录项

作者
何峰;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名姜守旭;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.01;
关键词
子树匹配; XML文档; 相似度量; 聚类分析;

相似文献

中文文献
外文文献
专利

1. 模糊XML文档与模糊DTD相似性研究 [J] . 赵震 ,马宗民 . 东北大学学报（自然科学版） . 2017,第002期
2. 基于路径权重的XML文档相似度仿真研究 [J] . 赵艳妮 ,郭华磊 ,马军生 . 计算机技术与发展 . 2016,第009期
3. 基于编辑图的XML文档相似性研究 [J] . 徐沛娟 ,齐福慧 ,李卓 . 计算机工程与应用 . 2016,第002期
4. 基于多标记有向树模型的XML文档片段相似度量方法研究 [J] . 宋荣 ,李霞婷 . 电子技术与软件工程 . 2013,第010期
5. 基于加权余弦相似度的XML文档聚类研究 [J] . 李巍 ,孙涛 ,陈建孝 . 吉林大学学报（信息科学版） . 2010,第001期
6. XML文档的相似测度研究 [C] . 郑仕辉 ,何奇 ,张龙 . 第18届全国数据库学术会议 . 2001
7. 基于扩展边集比较法的XML文档结构及语义相似性计算研究 [A] . 杨汀 . 2012

相似XML文档合并方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅