首页> 中文会议>第二十三届中国数据库学术会议（NDBC2006） >基于特征码的大规模XML文档去重算法研究

基于特征码的大规模XML文档去重算法研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着Web技术的飞速发展,人类交换信息的方式正发生着深刻的变化.极大的改变了人们发布,获取,使用信息的方式.人们从信息缺乏进入了信息极大丰富的年代.但另一方面,Internet所固有的海量数据的分布性,异构性,动态性又对互联网环境下的数据交换和信息共享提出了新的挑战.人们面临着从海量的数据中发现自己所需的有用信息的困境,往往有"大海捞针"的感觉.而XML(可扩展标记语言)的出现很可能改变这一切.随着信息时代的到来,尤其是互联网技术的高速发展,网站数目巨增,出现了大量的文档,而如果要想将这些数据资源成为可持续开发的Web信息资源.将其用XML语言表达是最好的方式.这就难以避免的有大量的内容重复的XML文档的出现.因此,如何在海量的XML文档之中合并表达内容重复的文档,将是本文的研究重点。

著录项

来源
《第二十三届中国数据库学术会议（NDBC2006）》|2006年|382-384|共3页
会议地点广州
作者
杨喜权; 张一鸣; 王大勇;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP393.09;TP311.13;
关键词
特征码; XML文档; 去重算法; 数据交换; 可扩展标记语言; 原型系统;

相似文献

中文文献
外文文献
专利

1. 基于特征码的大规模XML文档去重研究 [J] . 韩正服 ,杨喜权 ,张一鸣 . 中国管理信息化（综合版） . 2006,第007期
2. 基于特征码的网页去重算法研究 [J] . 王哲 . 山东广播电视大学学报 . 2009,第001期
3. 基于Simhash的大规模文档去重改进算法研究 [J] . 王诚 ,王宇成 . 计算机技术与发展 . 2019,第002期
4. 基于语言节奏的大规模文档去重算法研究 [J] . 陈钒 ,冯志勇 ,李晓红 . 计算机工程与应用 . 2011,第011期
5. 基于特征码的网页去重 [J] . 陈基漓 ,牛秦洲 . 微计算机信息 . 2006,第009期
6. 基于全信息的网络文本信息去重算法研究 [C] . 李卫 ,刘建毅 ,王枞 . 第十一届中国人工智能学术年会 . 2005
7. 基于特征码的大规模中文网页并行去重方法 [A] . 辛聪 . 2008

基于特征码的大规模XML文档去重算法研究

摘要

著录项

相似文献

相关主题

期刊订阅