首页> 中文学位 >XML文档结构相似度研究及在文档聚类中应用
【6h】

XML文档结构相似度研究及在文档聚类中应用

代理获取

目录

文摘

英文文摘

第1章前言

1.1背景介绍

1.2本文的工作

1.3本文的组织

第2章文档聚类基本知识及在信息检索中应用

2.1引言

2.2信息检索基本原理

2.2.1信息检索过程

2.2.2信息检索技术

2.2.3信息检索模型

2.2.4信息检索评估指标

2.3信息过载

2.4文档聚类

2.4.1文档聚类的应用背景和体系结构

2.4.2文档聚类方法

2.4.3文档聚类评估指标

2.5本章小结

第3章XML文档及其文档对象模型树(DOM)

3.1引言

3.2 XML文档

3.2.1 XML语言

3.2.2 XML文档

3.2.3 XML文档对象树(DOM)

3.2.4 XML编辑距离

3.2.5 XML查询

3.3本章小结

第4章文档相似度计算方法

4.1引言

4.2传统计算相似度方法

4.2.1 Set/Bag模型

4.2.2基于向量的相似度计算

4.2.3广义向量空间模型(GVSM)

4.2.4“距离”相似度计算

4.3本章小结

第5章基于树路径模型的文档结构相似度

5.1引言

5.2树路径模型

5.2.1文档描述

5.2.2树路径模型

5.3改进后的树路径模型

5.3.1路径相似度计算

5.3.2路径匹配

5.3.3相似度计算

5.3.4时间复杂度分析

5.4实验结果与性能分析

5.5本章小结

第6章总结与展望

6.1工作总结

6.2未来工作

参考文献

致谢

攻读学位期间发表的主要学术论文目录

展开▼

摘要

本论文在文档对象树的基础上,提出了一种基于树路径的XML文档描述模型,并给出了相应的相似度算法,将问题有效地简化,从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。 首先,提出了一种基于树路径模型的相似度算法,来实现对XML文档之间相似度的计算。该算法简化了XML文档描述,从而降低了解决问题的复杂度。此算法在文档类别数较少,且不同类别的文档的结构相差较大时,有很好的聚类效果。 其次,在此算法的基础上,针对它存在的一些问题如:路径只是包含父/子这种祖先与子孙的关系,忽略了兄弟结点之间关系;没有考虑各路径的权重;并且在比较两路径的相似度时用的是路径的完全匹配等,本文对此一一进行了改进,并提出了改进后的相似度的计算方法。改进后的算法计算出来的相似度更准确,处理了文档中元素重复问题,使得计算结果也更符合人的直观理解。 最后,进行了实验测试,并且在计算文档相似度的基础上对文档进行了聚类,实验结果显示与其它算法相比,本文的方法更显著地提高了识别具有相同结构的XML文档的能力,在此基础上,通过对文档进行聚类,使具有相同特征或相似度值很大的文档归为一类,很好提高检索结果的准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号