XML文档结构相似度研究及在文档聚类中应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本论文在文档对象树的基础上，提出了一种基于树路径的XML文档描述模型，并给出了相应的相似度算法，将问题有效地简化，从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。首先，提出了一种基于树路径模型的相似度算法，来实现对XML文档之间相似度的计算。该算法简化了XML文档描述，从而降低了解决问题的复杂度。此算法在文档类别数较少，且不同类别的文档的结构相差较大时，有很好的聚类效果。其次，在此算法的基础上，针对它存在的一些问题如：路径只是包含父/子这种祖先与子孙的关系，忽略了兄弟结点之间关系；没有考虑各路径的权重；并且在比较两路径的相似度时用的是路径的完全匹配等，本文对此一一进行了改进，并提出了改进后的相似度的计算方法。改进后的算法计算出来的相似度更准确，处理了文档中元素重复问题，使得计算结果也更符合人的直观理解。最后，进行了实验测试，并且在计算文档相似度的基础上对文档进行了聚类，实验结果显示与其它算法相比，本文的方法更显著地提高了识别具有相同结构的XML文档的能力，在此基础上，通过对文档进行聚类，使具有相同特征或相似度值很大的文档归为一类，很好提高检索结果的准确性。

著录项

作者
李丽娟;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机系统结构
授予学位硕士
导师姓名马军;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
可扩展标记语言; 树路径; 结构相似度; 文档聚类;
入库时间 2022-08-17 11:03:04

相似文献

中文文献
外文文献
专利

1. 文档聚类技术在搜索引擎中的应用研究 [J] . 王倩 . 图书馆学研究 . 2008,第11期
2. 文档聚类在Web搜索结果中的应用研究 [J] . 韩建福 ,卢苇 . 中国科技信息 . 2006,第023期
3. XSLT在XML文档中的应用研究 [J] . 洪新华 ,夏群兵 . 电脑知识与技术 . 2009,第005期
4. XML文档在卫星任务规划系统中的应用研究 [J] . 高鹏 ,李菊芳 ,谭跃进 . 计算机仿真 . 2008,第007期
5. JDOM在数据库表单转换成XML文档中的应用研究 [J] . 范新民 ,何猛 . 计算机时代 . 2004,第009期
6. 基于独立分量的XML文档聚类方法 [C] . 王桐 ,刘大昕 . 全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 . 2006
7. XML文档相似性的研究及其在文档聚类中的应用 [A] . 陆翠明 . 2005

XML文档结构相似度研究及在文档聚类中应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅