首页> 中文会议>第二十三届中国数据库学术会议(NDBC2006) >基于特征码的大规模XML文档去重算法研究

基于特征码的大规模XML文档去重算法研究

摘要

随着Web技术的飞速发展,人类交换信息的方式正发生着深刻的变化.极大的改变了人们发布,获取,使用信息的方式.人们从信息缺乏进入了信息极大丰富的年代.但另一方面,Internet所固有的海量数据的分布性,异构性,动态性又对互联网环境下的数据交换和信息共享提出了新的挑战.人们面临着从海量的数据中发现自己所需的有用信息的困境,往往有"大海捞针"的感觉.而XML(可扩展标记语言)的出现很可能改变这一切.随着信息时代的到来,尤其是互联网技术的高速发展,网站数目巨增,出现了大量的文档,而如果要想将这些数据资源成为可持续开发的Web信息资源.将其用XML语言表达是最好的方式.这就难以避免的有大量的内容重复的XML文档的出现.因此,如何在海量的XML文档之中合并表达内容重复的文档,将是本文的研究重点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号