首页> 中文学位 >教务数据仓库中数据清理方法的研究
【6h】

教务数据仓库中数据清理方法的研究

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

1绪论

1.1问题的提出

1.2数据清理研究概况

1.3数据清理存在的问题和发展方向

1.4课题的主要研究内容

2高校教务数据仓库

2.1构建教务数据仓库的必要性

2.2教务数据仓库的体系结构

2.3教务数据仓库的性质

2.4本章小结

3数据清理原理

3.1数据清理的流程

3.2脏数据及其分类

3.3数据清理方案

3.4数据清理评价标准

3.5 对教务数据仓库进行数据清理的必要性

3.6本章小结

4对属性的清理

4.1数据异常的检测及处理

4.2缺失值修补

4.3本章小结

5对记录的清理

5.1孤立记录的识别

5.2相似重复记录的识别

5.3本章小结

6数据清理工具框架

6.1工具框架

6.2工具操作流程

6.3本章小结

7总结

致谢

参考文献

附录1 攻读硕士学位期间发表的论文

展开▼

摘要

本文述数据清理原理的基础上,着重从属性清理和记录清理两方面对数据清理进行了研究。在属性清理方面,为检测出异常的属性值,针对不同的数据类型采用了不同的方法,主要思想是利用元数据表对不同类型的属性值施加约束,将元数据表和应用程序结合起来检测异常的属性值;对于数据集中的缺失数据,研究了如何用贝叶斯分类方法来修补缺失值。  在记录清理中,改进了基于相似系数和的孤立点检测算法,改进后的算法不仅能检测出倍数异常孤立点,还能检测出分量异常孤立点,进一步提高了检测精度。此外,原有的相似重复记录检测算法在数据量大、错误多、单词间有相互影响,特别是单词中的插入、删除错误较多时检测能力不足。通过对原有方法的组合和改进,提出了一种高效的检测相似重复记录的方法,它能检测出常见的拼写错误如:插入、删除、替换、交换、单词交换,与以前的方法相比,此法时间复杂度小且精度有较大提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号