针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN (Parallel Outlier Detection Based on K-nearest Neighborhood).该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduee的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率.实验结果表明,PODKNN具有较高的加速比及较好的扩展性.
展开▼