重复记录清洗技术及其在信息管理系统中的应用

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

相似重复记录指数据集中多条语义相同，但因格式、拼写等异常导致系统不能正确识别的脏数据。检测相似重复记录就是检测并最大限度的减少这些语义相同但表现形式不同的脏数据。一般地，脏数据集中相似重复的脏数据所占的比重较大。因此，检测和消除相似重复记录是数据清洗的重点和难点之一，也是保证数据质量的关键因素，正日益受到信息系统研究者的关注以及企业的高度重视。
　　本课题组已经开发并实际运行的某省农村饮水工程信息管理系统，是一个大型复杂的WEB信息系统。在运行中发现系统存在大量的脏数据。为了解决脏数据问题，进一步提高系统的实用性，我们以清理系统脏数据、监测与清洗重复记录为核心目标，在深入学习中文分词技术、数据清洗理论、Web开发技术、数据库理论、网络通信理论和软件建模理论的基础上，基于微软VisualStudio2008开发平台对该系统进行了深入的维护性研究开发。
　　农村饮水工程信息管理系统中数据源涉及到全省上万个村庄，采集的底层数据存在严重的“脏、杂、乱”现象，从而降低了调查、统计、分析的精确性和可信度。在系统维护性研究开发过程中，作者提出了一种基于中文分词的地址信息检测方法，实现了数据中不完整及错误的地址信息检测纠正功能；提出了一种基于语义树的中文相似重复记录清洗方法，用以消除原数据中的重复记录集；运用控件编程实现了数据统计分析功能，提升了用户体验。
　　经过对原系统中新增模块的分析、设计、编码、测试及集成后，已消除了原系统中“脏、杂、乱”数据的缺陷，提高了数据质量。目前，该系统已重新部署于某省水利厅供水处数据中心，系统运行平稳，数据处理准确、快速，并得到了用户好评。
　　本文详细阐述了系统研究开发中采用的关键技术和基本理论，以及系统分析、设计、实现、测试、部署及运行过程。

著录项

作者
徐机;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名张璟;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类管理程序、管理系统;
关键词
重复记录清洗技术; 信息管理; 中文分词; 地址信息检测; 控件编程; 系统开发;

相似文献

中文文献
外文文献
专利

1. 饱和蒸汽清洗与海绵球清洗技术在液压管路清洗中的应用与研究 [J] . 刘彦希 . 汽车实用技术 . 2021,第017期
2. 化学清洗与物理清洗技术在工业清洗中的联合应用 [J] . 范经刚 . 清洗世界 . 2007,第005期
3. PIG机械清洗与化学清洗技术在油田注水管道清洗中的应用研究 [J] . 张金成 ,张宪军 . 石油工程建设 . 1997,第003期
4. 激光清洗技术在铝合金模板清洗中的应用 [J] . 薛情 . 铁道建筑技术 . 2021,第0z1期
5. 数控脉冲清洗技术在油田加热炉盘管清洗中的应用 [J] . 何巍杨 ,董刚 ,刘成千 . 石油石化节能 . 2021,第004期
6. 云环境下动车组相似重复记录的清洗 [C] . YAN Wan-mei ,延婉梅 ,ZHANG Jun-wen . 中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会 . 2014
7. 大数据环境下相似重复记录数据清洗关键技术研究 [A] . 李蕾 . 2019

重复记录清洗技术及其在信息管理系统中的应用

摘要

著录项

相似文献

相关主题

期刊订阅