随着数据库技术的不断发展和Internet的不段完善,人们利用信息技术得到数据和潜在知识的能力得到极大的提高,数据挖掘正是在这种时代背景下产生的,其实质是从存放在数据库,数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。离群数据是指远离常规数据对象的数据,不满足数据的一般模式和行为,这类数据与常规数据之间存在着明显的差异,因此我们有理由怀疑他们是由另一种完全不同的机制产生的,因此,作为数据挖掘的重要分支,离群数据挖掘已被广泛应用到医疗分析,网络入侵检测,金融客户分析,移动通信检测等多个方面。目前,离群数据挖掘已成为机器学习、数据库等领域专家学者的研究热点。离群数据挖掘分为发现离群数据和离群数据分析两个阶段,第一个阶段主要应用一些具体的离群数据挖掘算法寻找离群数据,第二个阶段主要结合数据本身性质和相关算法对挖掘出的离群数据进行分析,获取知识。本文重点讨论该过程的第一个阶段——离群数据发现。 谱聚类由于能在任意形状的数据样本上进行聚类,逐步成为了当今聚类领域的研究热点。本文通过对离群数据挖掘实际应用的分析,成功地将谱聚类算法应用到离群数据挖掘领域,提出了基于NJW的离群数据挖掘算法,并通过实验验证了算法的有效性。总的说来,本文主要着眼于以下几个方面进行研究: ① 结合当今数据挖掘和离群数据挖掘领域的发展现状及趋势,分析了两者之间的关系,并分别给出了相应的挖掘流程。 ② 具体介绍了当今离群数据挖掘的各种算法,对常用的离群数据挖掘算法的优点、缺点以及适用性进行了详细对比。 ③ 着重介绍了谱聚类的相关理论,并对其优势进行了具体地分析。 ④ 提出谱聚类应用于离群数据挖掘的具体问题,给出解决办法,成功将谱聚类的NJW算法应用于离群数据挖掘领域。通过对人工数据集和真实数据集的实验,验证了算法的有效性。 ⑤ 提出了后续研究工作的主要方向,并对离群数据挖掘的未来发展进行了展望。 本文提出的基于NJW的离群数据挖掘算法具有一定的理论基础和实用价值,实验证明,该算法的效果令人满意。
展开▼