首页> 中文期刊> 《计算机应用与软件》 >基于模糊路径匹配的 XML 文档分类研究

基于模糊路径匹配的 XML 文档分类研究

     

摘要

XML is an important standard of information representation and data exchange over Internet,document classification is an important way to get useful information from mass of information solutions,in this paper we propose a method of XML document classification which is based on fuzzy matching path.First,it removes the information that has no influence on the classification;Then it uses a mixed computation method of XML document similarity,expresses the XML document as a collection of paths;In order to improve the efficiency, the method deletes the recurring paths in the document and carries out fuzzy matching,and employs Hungarian algorithm to calculate the similarity between documents;Finally it uses the improved k-nearest neighbour algorithm to classify documents.The automatically generated documentation sets and real data sets are used in the experiment,and results show the accuracy of document classification in both sets could all reach 100%.%XML 是互联网上信息表示和数据交互的重要标准,文档分类是解决从海量信息中获取有效信息的重要方法,提出一种基于模糊路径匹配的 XML 文档分类方法。首先去除对分类没有影响的信息;然后采用一种混合的 XML 文档相似性计算方法,将XML 文档表示为路径的集合。为了提高效率,删除了文档中重复出现的路径后进行模糊匹配,用匈牙利算法计算出文档间的相似度;最后使用改进的 K 近邻算法进行文档的分类。使用自动生成及真实的文档集进行实验,结果表明:两组文档分类的正确率均可以达到100%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号