首页> 中文学位 >客运数据质量检测与缺失数据修补研究
【6h】

客运数据质量检测与缺失数据修补研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 选题背景及意义

1.2 国内外研究现状

1.2.1 异常数据检测

1.2.2 缺失数据修补

1.3 主要研究内容

1.4 论文结构

第二章 异常数据检测及缺失数据修补

2.1 异常检测

2.1.1 异常检测算法

2.1.2 算法对比

2.2 缺失数据修补

2.2.1 缺失数据分类

2.2.2 缺失数据修补算法

2.2.3 算法对比

2.3 本章小结

第三章 异常数据与缺失数据检测算法研究

3.1 异常客运数据

3.2 基于聚类的异常检测算法

3.2.1 聚类算法

3.2.2 层次聚类异常检测算法

3.3 基于滑动窗口的连续缺失数据检测算法

3.3.1 相关理论

3.3.2 算法描述

3.4 实验分析

3.4.1 层次聚类异常检测

3.4.2 连续缺失数据检测

3.5 本章小结

第四章 双聚类点缺失数据修补算法改进

4.1 双聚类缺失数据修补算法

4.1.1 双聚类算法基础理论

4.1.2 双聚类缺失数据修补算法描述

4.2 双聚类缺失数据修补改进算法

4.2.1 算法流程

4.2.2 行列保护规则

4.2.3 δ值选取

4.2.4 权值选取

4.3 实验分析

4.4 本章小结

第五章 非负矩阵分解连续缺失数据修补算法

5.1 非负矩阵分解基础理论

5.1.1 矩阵分解

5.1.2 目标函数

5.2 连续缺失数据修补算法

5.2.1 算法描述

5.2.2 基向量个数的确定

5.2.3 迭代次数的确定

5.4 实验分析

5.4 本章小结

第六章 总结与展望

6.1 全文总结

6.2 工作展望

致谢

参考文献

攻读硕士学位期间的研究成果

展开▼

摘要

在数据时代,随着数据量级呈指数级增长,在数据管理和分析工作中不可避免地会出现异常数据和缺失数据,为保证数据挖掘和知识发现结果的有效性,对数据进行异常检测和缺失数据修补显得尤为重要。
  本文以客运数据为研究对象,利用现有算法对异常数据和不完整数据进行检测,并针对数据离散缺失和连续缺失问题,分别提出了双聚类点缺失数据修补改进算法和基于非负矩阵分解的连续缺失数据修补算法,并以真实客运数据进行了实验验证。论文主要工作如下:
  (1)针对客运数据中存在数据异常和不完整性问题,采用层次聚类对低位点异常和离散缺失值进行检测,并利用基于滑动窗口的检测算法对连续缺失数据进行检测,为后续缺失值修补提供数据基础。实验结果表明,因低位点与正常值相差较明显,层次聚类检测算法对低位点异常的检测准确率为100%,对缺失值的检测准确率为89.7%;基于滑动窗口的检测算法对连续缺失数据的检测准确率为93.5%。
  (2)针对传统双聚类缺失值修补算法存在修补精度低、计算复杂度高的问题,提出了双聚类缺失数据修补改进算法(Bicluster-based Discrete Missing Data Imputation Improved Algorithm,BDMDII)。该算法在寻找聚类簇时,引入行列保护规则避免聚类簇规模过大导致其信息量冗余的问题,制定修补权值函数提高修补精度,设置平均平方残基最大阈值降低计算复杂度。实验结果表明,改进算法比原算法精度提高了45.7%,缺失数据修补时间减少了10%。
  (3)针对双聚类缺失数据修补改进算法修补连续长缺失序列数据精度较低的问题,提出基于非负矩阵分解的连续缺失数据修补算法(Sequence Missing Data Imputation Based on Nonnegative Matrix Factorization,NMF-SMDI)。该算法根据客运数据的时间周期性特征,引入非负矩阵分解方法,将缺失序列按时间周期分解为离散缺失,再利用双聚类点缺失数据修补改进算法进行数据修补。实验结果表明,在连续缺失数据长度固定且缺失率在30%~50%时,NMF-SMDI算法比BDMDII算法精度提高了18%;在数据缺失率相同且连续缺失长度大于4时,NMF-SMDI算法比BDMDII算法精度提高了24.6%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号