首页> 中文期刊>吉林大学学报(信息科学版) >基于加权余弦相似度的XML文档聚类研究

基于加权余弦相似度的XML文档聚类研究

     

摘要

在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变.为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法.该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类.经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类.用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号