【24h】

XML-SIM-CHANGE: Structure and Content Semantic Similarity Detection among XML Document Versions

机译:XML-SIM-CHANGE:XML文档版本之间的结构和内容语义相似性检测

获取原文

摘要

XML documents from different sources may represent the same or similar information with respect to content and structure. Being able to integrate similar XML documents is important to query systems and search engines. However, information changes periodically, therefore, it is important to detect the changes among different versions of an XML document and use the changed information to discover semantic similarity among XML documents. In this paper, we introduce such an approach to detect XML similarity using the change detection mechanism to join XML document versions. In our approach, keys in subtrees play an important role in order to avoid unnecessary compari-sons of subtrees within different XML versions of the same document. We use relational database to store XML versions and apply SQL for detecting similari-ties. We show that our approach is highly scalable and has better efficiency in terms of execution time and provides comparable result quality.
机译:关于内容和结构,来自不同来源的XML文档可能表示相同或相似的信息。能够集成类似的XML文档对于查询系统和搜索引擎很重要。但是,信息会定期更改,因此,重要的是检测XML文档的不同版本之间的更改,并使用更改后的信息来发现XML文档之间的语义相似性。在本文中,我们介绍了一种使用变更检测机制来加入XML文档版本的XML相似性检测方法。在我们的方法中,子树中的键起着重要的作用,以避免同一文档的不同XML版本中子树的不必要的比较。我们使用关系数据库来存储XML版本,并使用SQL来检测相似性。我们证明了我们的方法具有高度的可扩展性,并且在执行时间方面具有更高的效率,并提供了可比的结果质量。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号