孤立点检测
孤立点检测的相关文献在2004年到2022年内共计119篇,主要集中在自动化技术、计算机技术、经济计划与管理、矿业工程
等领域,其中期刊论文106篇、会议论文4篇、专利文献1105371篇;相关期刊69种,包括信息系统工程、海南大学学报(自然科学版)、计算机工程等;
相关会议4种,包括2012年江苏省计算机学会网络与分布计算专委会和网格与服务计算专委会联合学术年会、NDBC2009第26届中国数据库学术会议、中国人工智能学会第12届全国学术年会等;孤立点检测的相关文献由293位作者贡献,包括尚俊平、梁斌梅、顾洪博等。
孤立点检测—发文量
专利文献>
论文:1105371篇
占比:99.99%
总计:1105481篇
孤立点检测
-研究学者
- 尚俊平
- 梁斌梅
- 顾洪博
- 刘合兵
- 田江
- 邱保志
- 陈伟
- 顾宏
- 丁明航
- 万定生
- 乐坤
- 任佳
- 任树清
- 余宇峰
- 刘玉珩
- 周宝柱
- 孙世奇
- 孙朝云
- 廖国琼
- 廖志芳
- 张星
- 张海娜
- 张继怀
- 张英杰
- 李伟
- 李勇
- 李晶
- 李磊
- 李舟军
- 杨臻
- 林士敏
- 樊晓平
- 熊强
- 王勃
- 王君鹏
- 王小芬
- 秦锋
- 程俊春
- 罗开信
- 赵峰
- 赵怀鑫
- 迟冬南
- 邓志勇
- 邓然然
- 邱国峰
- 邵强
- 郝泽琪
- 金昌铉
- 陆声链
- D.伯诺
-
-
钟增胜;
朱纯瑶;
杨逸飞;
廖忻橙;
王任之;
赵颖;
周芳芳;
施荣华;
秦拯
-
-
摘要:
数字货币交易中的洗钱行为区别于传统金融犯罪形态,传统反洗钱技术手段难以直接适用.针对数字货币交易所面对的洗钱行为检测需求和检测难点,通过定义交易行为,构建了一个层次化加权的交易行为特征描述体系,提出了一个结合孤立点检测和小类簇检测的数字货币交易行为异常检测方法,实现从交易行为到交易用户的洗钱可疑程度的量化度量.在真实数字货币交易所数据集上进行评估实验,结果显示,异常交易行为、可疑洗钱用户、显著性异常交易行为和隐蔽性异常交易行为的检测准确率分别为96.02%、95.05%、95.83%和95.81%,均优于基准算法.同时,本文算法的特征体系能对检测结果做出有效解释,帮助数字货币交易所安全员快速开展后续调查和取证工作.
-
-
朱万德
-
-
摘要:
创新经济责任审计方法,对进一步强化领导干部监督力度、保障企业资金资产安全,助力企业实现可持续发展有积极作用。在大数据时代,如果能够将数据挖掘技术运用到经济责任审计中,既可以提高对海量经济数据的处理效率,又能够实现数据资源的挖掘、整合、利用,更加全面与客观地评价经济责任。本文首先概述了数据挖掘技术对经济责任审计工作开展带来的促进作用,随后分别从孤立点检测、关联规则应用方面,介绍了数据挖掘技术的具体应用,最后基于油田企业的实际情况,提出了数据挖掘技术与经济责任审计相结合的几点建议。
-
-
吴晓林;
曹付元
-
-
摘要:
孤立点检测是数据挖掘的重要分支之一, 旨在发现一个数据集中与多数对象行为明显不同的一些对象.针对分类型矩阵数据, 通过给出一种矩阵对象自身的内聚度和该矩阵对象与其他矩阵对象之间的耦合度, 定义了矩阵对象的孤立因子, 提出一种面向分类型矩阵数据的孤立点检测算法.在Market basket、Microsoft web和MovieLens真实数据集上的实验结果表明, 与基于共同近邻 (common-neighbor-based, CNB)算法、局部异常因子 (local outlier factor, LOF)算法和基于信息熵 (information entropy-based, IE-based)的算法相比, 本算法能有效检测分类型矩阵数据中的孤立点.%Outlier detection is an important branch of data mining, aiming at finding the objects in a data set that are significantly different from most objects.In this paper, we define the outlier factor of a matrix-object and propose an outlier detection algorithm for categorical matrix-object data by defining the cohesion degree of a matrix-object itself and the coupling degree with other matrix-objects.The experimental results on real data sets, i.e., Market basket, Microsoft web, and MovieLens, show that the proposed algorithm can effectively detect the outliers for the matrixobject data set compared with common-neighbor-based (CNB), local outlier factor (LOF), and information entropybased (IE-based)algorithms.
-
-
冯宇;
苑易伟
-
-
摘要:
定义了最小超球面密度的概念,提出了一种基于最小超球面密度的孤立点检测算法(minimum hyper sphere density,MHSD).该算法根据数据的k近邻和反k近邻获得数据的有效近邻,并使用最小超球面密度和有效近邻计算每个数据的密度背离程度,进而计算每个数据的孤立程度,将孤立程度超过规定阈值的数据视为孤立点.实验数据为一个二维人工数据集和两个高维实际数据集,检测三个数据集的孤立点,对算法性能进行评估,并与经典的局部离群因子算法(local outlier factor,LOF)、离群影响因子算法(influenced outlierness,INFLO)和密度相似邻域离群因子算法(density similarity neighbor based outlier factor,DSNOF)进行比较.实验结果表明,基于最小超球面密度的孤立点检测算法可以准确检测出数据中的孤立点,且性能优于三种经典算法.
-
-
-
赵怀鑫;
邓然然;
张英杰;
丁明航;
孙朝云;
李伟
-
-
摘要:
为更好地对高速公路通行情况进行分析,利用高速公路海量收费数据,提出了一种用于高速公路通行情况分析的数据挖掘方法.首先,在海量的贵州省高速公路收费数据中,筛选出指定进站名称及出站名称的数据并删除部分字段,仅保留与研究相关的内容,利用车辆进入收费站的时间和驶出收费站的时间计算出其在该路段上行驶的总时长,将行驶时长字段加入原数据.然后,采用孤立点检测算法清洗该数据,剔除其中异常值.完成上述预处理过程后,使用快速峰值聚类算法对行驶时长进行聚类分析,首先计算每条数据之间的距离,将距离矩阵作为该算法的输入并输出聚类结果;对比所采用的算法与K-Means算法对于行驶时长这一指标的聚类效果,可明显地看出该算法的聚类结果更接近于实际情况;然后将春节期间与2月第4周的收费数据进行聚类,通过对比可明显得出节假日期间各个车型通行比例的变化;将上述结果结合不同车型在不同时段的平均通行时间进行分析.研究结果表明:所提出的方法可有效地将在某段高速公路通行的车辆进行分类,并且分类结果与真实运行过程中车辆在高速公路上的通行情况一致,可为高速公路的运营管理以及维护方向提供合理的科学依据和数据支持.
-
-
姚劲松;
辛永;
黄文思;
陆鑫;
陈婧;
霍成军
-
-
摘要:
This paper studies the application of data management technology in line loss data man-agement,and puts forward the data quality management model of power enterprise.The model uses the method of unique management,integrity management and accuracy management to ensure the quality of line loss data.At the same time,the simulation experiment is carried out to verify the reliability of technol-ogy of line loss data quality control,and the stability of the model is analyzed.Through the line loss of da-ta quality management,electric power enterprises' line loss data use needs are met,and promote the har-monious development of power business.%该文研究了数据治理技术在线损数据管理中的应用,提出一套电力企业数据质量治理模型.采用唯一性治理、完整性治理和准确性治理等方法来保证线损数据质量,同时运用实际数据进行模拟仿真实验,以验证线损数据质量治理技术的可靠性,并分析了模型的稳定性.通过线损数据质量治理,能够满足电力企业的线损数据使用需求,促进电力业务的稳步发展.
-
-
赵怀鑫;
张英杰;
邓然然;
丁明航;
孙朝云;
李伟
-
-
摘要:
为准确全面感知高速公路交通运行状况,根据高速公路海量收费数据,提出一种高速公路通行异常事件识别的数据挖掘方法.首先,选取贵州省2017年1月的高速公路收费数据,筛选指定的进站、出站数据并去除多余字段,利用车辆进入和驶出收费站时间计算其在该路段的通行时长.然后,使用快速峰值聚类算法对通行时长和车辆总重进行聚类分析,计算数据间欧式距离,将此距离矩阵作为算法输入,计算各数据点的局部密度ρ及与密度更高点的距离δ两项指标;这两项指标均以较高的点为聚类中心,进而对非中心点进行分类及优化,输出聚类结果;聚类结果中除被分为若干类的正常数据外,还存在一些数据点明显异于大部分正常数据的噪声点,即异常数据,对这些异常数据进行具体分析.接着,采用孤立点检测法对筛选出的数据进行清洗处理,提取异常数据,检测出通行时间过长、过短及车辆总重过高、过低等异常事件.最后,将孤立点检测法得到的异常数据与快速峰值聚类算法的异常数据进行对比.研究结果表明:快速峰值聚类识别异常事件的准确率高于孤立点检测法约2o%,验证了提出算法的有效性和准确性;提出的算法能有效准确识别收费数据中隐藏的公路拥堵、长时间停留、疑似逃费和网络设备故障等异常事件,进而为高速公路运营服务和管理决策提供数据支持.
-
-
顾洪博;
张继怀
-
-
摘要:
孤立点检测是数据挖掘中的一项广泛应用且较新的内容.根据孤立点的定义,提出一个基于偏离度的孤立点检测聚类分析算法.算法能够实现对异常数据进行处理.应用到学生成绩分析检测,保证实际聚类分析的准确性,数据的异常发现有利于学生教学的规划和推进.
-
-
-
-
-
罗玉盘;
于绍越;
商琳
- 《中国人工智能学会第12届全国学术年会》
| 2007年
-
摘要:
本文提出了基于Rough集聚类方法的孤立点检测算法。该算法首先使用Rough集聚类算法将数据集划分为互不相交的若干子集,然后使用基于划分的方法来确定孤立点。与传统的基于距离的算法相比,本算法要更高效,适合大多数数据集中的孤立点检测。本算法很好地融合了Rough集聚类方法以及基于划分的孤立点检测方法,体现了两者的优点,同时实验结果证明了该算法的可行性和高效性。
-