Data quality improvement in data warehouse: a framework

Rajiv Arora; Payal Pahwa; Daya Gupta

首页> 外文期刊>International journal of data analysis techniques and strategies >Data quality improvement in data warehouse: a framework

【24h】

Data quality improvement in data warehouse: a framework

机译：数据仓库中数据质量的改善：框架

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Data cleansing is an extremely imperative process which when carried out on the datasets, eliminates the inconsistency and duplicity from the data. It also handles null values or missing values in the data in an organised and proper manner thereby enhancing the quality of the data. In this paper, we use Kullback-Leibler divergence (KL-divergence) technique to eliminate duplicity in the datasets. Inconsistency, null values or missing values are also handled in the datasets. This is done by maintaining data marts which are made on the basis of test data. Accordingly, a framework for efficient data cleansing is suggested in order to make the data appropriate and proper for decision making purpose. A brief comparison of existing approaches of data cleansing have also been discussed. This comparison is based on various parameters such as prediction error, bias, mean square error, variance, mean absolute error, root mean square error, Theil statistics etc. These parameters are used by distance sum-based approach (DSA) to accomplish the task. The results obtained demonstrate the feasibility and validity of our method.

机译：数据清理是一个非常必要的过程，当对数据集进行清理时，它将消除数据的不一致和重复性。它还以有组织的适当方式处理数据中的空值或缺失值，从而提高了数据的质量。在本文中，我们使用Kullback-Leibler散度（KL-散度）技术消除数据集中的重复性。数据集中还会处理不一致，空值或缺失值。这是通过维护基于测试数据制作的数据集市来完成的。因此，提出了一种有效的数据清理框架，以使数据适合决策目的。还讨论了现有数据清理方法的简要比较。该比较基于各种参数，例如预测误差，偏差，均方误差，方差，平均绝对误差，均方根误差，Theil统计量等。基于距离和的方法（DSA）使用这些参数来完成任务。获得的结果证明了我们方法的可行性和有效性。

著录项

来源
《International journal of data analysis techniques and strategies》 |2017年第1期|17-33|共17页
作者
Rajiv Arora; Payal Pahwa; Daya Gupta;
展开▼
作者单位

Computer Engineering Department, Delhi Technological University, New Delhi, India;

Computer Engineering Department, BPIT, Guru Gobind Singh Indraprastha University, New Delhi, India;

Computer Engineering Department, Delhi Technological University, New Delhi, India;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Kullback-Leibler divergence; KL-divergence; data cleansing; pruning; distance sum-based approach; DSA;

机译：Kullback-Leibler分歧;KL散度;数据清理;修剪基于距离和的方法;DSA;

相似文献

外文文献
中文文献
专利

1. PS3-04: Cultivating an Environment and Attitudes Where Data Quality Improvement of the Virtual Data Warehouse Can Occur [J] . Clinical medicine & research. . 2010,第3a4期

机译：PS3-04：培养可以改善虚拟数据仓库数据质量的环境和态度
2. Measuring data quality for ongoing improvement: a data quality assessment framework [J] . Alessandro Berni Computing reviews . 2014,第4期

机译：衡量数据质量以进行持续改进：数据质量评估框架
3. Measuring Data Quality for Ongoing Improvement: A Data Quality Assessment Framework [J] . Krista Engemann Benchmarking . 2014,第3期

机译：衡量数据质量以进行持续改进：数据质量评估框架
4. A Framework for Information Quality in a Data Warehouse: IQ in the context of Data Marts and Data Warehouses [C] . Jonathan Wu Proceedings of the 6th International Conference on Information Quality . 2001

机译：数据仓库中的信息质量框架：数据市场和数据仓库中的IQ
5. Data warehousing: Case study in data quality improvement [D] . Seetharaman, Mohan 2008

机译：数据仓库：提高数据质量的案例研究
6. Improving a Secondary Use Health Data Warehouse: Proposing a Multi-Level Data Quality Framework [O] . Sandra Henley-Smith, Douglas Boyle, Kathleen Gray -1

机译：改善二手医疗数据仓库：提出多级数据质量框架
7. Using Metadata Analysis and Base Analysis Techniques in Data Qualities Framework for Data Warehouses [O] . Azwa A. Aziz, Md Y.M. Saman, Mohd P. Hamzah 2011

机译：在数据仓库的数据质量框架中使用元数据分析和基础分析技术

Data quality improvement in data warehouse: a framework

摘要

著录项

相似文献

相关主题

期刊订阅