首页> 外文期刊>Revista de Engenharia e Tecnologia >IDENTIFICA??O DE OUTLIERS EM DADOS DE ACIDENTES DE TR?NSITO NO BRASIL: ANáLISE DE CLUSTER VERSUS MéTODOS ESTATíSTICOS
【24h】

IDENTIFICA??O DE OUTLIERS EM DADOS DE ACIDENTES DE TR?NSITO NO BRASIL: ANáLISE DE CLUSTER VERSUS MéTODOS ESTATíSTICOS

机译:巴西交通事故数据中主要成分的识别:聚类分析与统计方法

获取原文
       

摘要

A avalia??o e tratamento inicial dos dados é fundamental em qualquer análise de acidentes de transito e desenvolvimento de modelos. Um dos aspectos que pode induzir ao enviesamento dos resultados é a n?o identifica??o ou tratamento de valores discrepantes, os outliers . Neste trabalho investigou-se o potencial do uso de análise de cluster para detec??o de outliers frente às técnicas estatísticas tradicionalmente utilizada para tal finalidade. Foram utilizados 28.034 registros de acidentes, acumulados de 2011 a 2016 num trecho de 170 km da BR-116/RJ. Dentre as técnicas estatísticas, o método do desvio-padr?o apresentou razoabilidade nos resultados, mas dificuldade na aplica??o conjunta dos limites univariados de valores discrepantes. Já os métodos Boxplot e MAD se revelaram inadequados para a detec??o de outliers na base de dados analisada, uma vez que conduziram a resultados incoerentes e sem consistência prática. A análise de cluster (algoritmo k-means ), doutro lado, demonstrou ter potencial para aplica??o a este tipo de problema, tendo identificado conjuntos coerentes de outliers para a base de dados. O método n?o tem rígidas limita??es a pressupostos estatísticos, é adequado a grandes bases de dados, permite a avalia??o multivariada dos dados e ainda, a análise combinada de dados categóricos e numéricos. Ainda assim, o emprego do método deve ser feito de forma a tirar proveito dos pontos fortes da técnica e minimizar suas limita??es.
机译:数据的初始评估和处理对于任何交通事故分析和模型开发都是至关重要的。可能导致结果出现偏差的方面之一是无法识别或处理异常值,即异常值。在这项工作中,我们调查了使用聚类分析针对传统上用于此目的的统计技术检测异常值的潜力。使用了28,034起事故记录,从2011年到2016年累积了170公里的BR-116 / RJ事故记录。在统计技术中,标准差方法在结果上是合理的,但是在联合应用离群值单变量极限时比较困难。事实证明,Boxplot和MAD方法不足以在分析的数据库中检测异常值,因为它们导致不一致的结果且没有实际的一致性。另一方面,聚类分析(k-means算法)通过为数据库确定了异常值的连贯集,证明了可应用于此类问题的潜力。该方法对统计假设没有严格的限制,适用于大型数据库,可以对数据进行多元评估,并且可以对分类和数值数据进行组合分析。即使这样,也必须使用该方法,以利用该技术的优势并最小化其局限性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号