首页> 外文OA文献 >Métodos estadísticos de depuración e imputación de datos
【2h】

Métodos estadísticos de depuración e imputación de datos

机译:数据过滤和归类的统计方法

摘要

En esta tesis se llevan a cabo un conjunto de investigaciones relacionadas con la depuración e imputación de datos. Las principales líneas de trabajo son el uso de modelos estadísticos y de técnicas de optimización. Las investigaciones se agrupan en tres bloques. En el primer bloque, "Depuración e imputación basada en modelos de series temporales", se abordan preocupaciones que están presentes a lo largo de la tesis, restringidas al ámbito de las encuestas continuas. A partir de modelos RegARIMA, se especifican edits, se desarrollan herramientas de depuración selectiva, y se logran imputaciones insesgadas que minimizan el error cuadrático medio. Asimismo, en línea del análisis exploratorio de datos, se obtiene información del comportamiento dinámico de los agregados, como tendencia, estacionalidad, efectos de calendario y otros efectos determinísticos, valores atípicos, y volatilidad. Los métodos propuestos se han contrastado empíricamente utilizando los Índices de Producción Industrial. Para captar los efectos de calendario, en vez de las siete variables de trading day habitualmente utilizadas, se ha construido una única variable basándose en los días laborables ponderados, consiguiéndose un modelo más parsimonioso y de mejor ajuste. En el segundo bloque de investigaciones, "La depuración selectiva como un problema de optimización estocástica", se introduce un marco teórico que permite dar una solución formal al problema de la depuración selectiva, que hasta ahora había sido tratada de forma heurística. Para ello se define el concepto de estrategia de selección, como un vector aleatorio medible respecto a la sigma-álgebra generada por toda la información disponible. La búsqueda de una adecuada estrategia de selección se presenta como un problema de optimización lineal con restricciones cuadráticas, cuya solución es la selección de unidades a depurar. El objetivo es minimizar la carga de trabajo esperada, con la restricción de que el error esperado se sitúe por debajo de una cierta constante. Utilizando datos reales, se ha podido constatar que el método propuesto mejora el de uso común desarrollado en la literatura. Finalmente, en el tercer bloque, "Desarrollo de un marco teórico de depuración e imputación basado en modelos y optimización", se intenta generalizar las dos líneas de investigación descritas anteriormente. Los sistemas automáticos basados en la metodología de Fellegi-Holt han supuesto un gran avance. Sin embargo, no resuelven la especificación de los edits, que se establecen habitualmente de acuerdo a la experiencia práctica, sin que exista un marco teórico adecuado. En este trabajo se ha abordado la obtención de edits a partir de modelos estadísticos construidos con la información disponible. Respecto a la optimización estocástica descrita anteriormente, se ha dado un paso más hacia la generalización, al establecer un problema general de optimización, del que se derivan los enfoques de optimización estocástica y combinatoria, pudiéndose utilizar uno u otro dependiendo de la información de la que se dispone. Se ha evaluado empíricamente la propuesta que aquí se hace comparándola con la técnica de referencia en la depuración selectiva, la de las funciones score, obteniéndose, por lo general, mejores resultados.
机译:本文进行了一系列有关数据净化和归因的研究。主要工作是使用统计模型和优化技术。调查分为三个部分。在第一部分“基于时间序列模型的调试和归因”中,解决了整个论文中存在的问题,仅限于连续调查的范围。从RegARIMA模型中指定编辑,开发选择性调试工具,并获得使均方误差最小的无偏估计。同样,根据对数据的探索性分析,可以获得有关聚集体动态行为的信息,例如趋势,季节性,日历效应和其他确定性效应,异常值和波动性。所提出的方法已使用工业生产指数进行了经验对比。为了捕获日历效果,而不是七个常用交易日变量,而是根据加权工作日构造了一个变量,从而获得了更简约和更适合的模型。在第二部分研究“选择性调试作为随机优化问题”中,引入了一个理论框架,该框架为正式解决选择性调试问题提供了方法,到目前为止,该问题一直以启发式的方式进行处理。为此,将选择策略的概念定义为相对于所有可用信息生成的sigma-代数的可测量随机向量。寻求适当选择策略的问题是具有二次约束的线性优化问题,其解决方案是选择要调试的单元。目的是最大程度地减少预期工作量,并限制预期误差低于某个常数。使用实际数据,已发现所提出的方法改进了文献中开发的一种普遍使用的方法。最后,在第三个模块“基于模型和优化的调试和归因理论框架的开发”中,试图概括上述两类研究。基于Fellegi-Holt方法的自动系统是一个突破。但是,他们没有解决编辑规范,而规范通常是根据实践经验建立的,没有足够的理论框架。这项工作解决了从使用可用信息构建的统计模型中获得编辑的问题。关于上述随机优化,通过建立一个一般的优化问题,迈出了迈向通用化的又一步,从中导出了随机优化和组合优化方法,并能够根据其中的信息使用一个或另一个被安排。通过与选择性调试中的参考技术(得分函数)进行比较,对本文提出的建议进行了经验评估。

著录项

  • 作者

    Revilla Novella Pedro;

  • 作者单位
  • 年度 2014
  • 总页数
  • 原文格式 PDF
  • 正文语种 spa
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号