Chinese web pages; IMatch; KMatch; Keywords matching; Large scale web documents; MapReduce; Near-duplicate document detection; Shingling;
机译:一种促进文档聚类的近重复检测算法
机译:Web文档分层聚类的基于图割的算法的并行化
机译:并行混合Web文档聚类算法及其性能研究
机译:大规模中文网页的并行近重复文档检测算法
机译:基于AdaBoost算法的近实时,高度可扩展,并行和分布式的自适应对象检测和再训练框架
机译:使用视觉和文字功能进行大规模近乎重复的名人Web图像检索
机译:Web级文本重用检测的候选文档检索