首页> 中文学位 >重复记录清洗技术及其在信息管理系统中的应用
【6h】

重复记录清洗技术及其在信息管理系统中的应用

代理获取

摘要

相似重复记录指数据集中多条语义相同,但因格式、拼写等异常导致系统不能正确识别的脏数据。检测相似重复记录就是检测并最大限度的减少这些语义相同但表现形式不同的脏数据。一般地,脏数据集中相似重复的脏数据所占的比重较大。因此,检测和消除相似重复记录是数据清洗的重点和难点之一,也是保证数据质量的关键因素,正日益受到信息系统研究者的关注以及企业的高度重视。
   本课题组已经开发并实际运行的某省农村饮水工程信息管理系统,是一个大型复杂的WEB信息系统。在运行中发现系统存在大量的脏数据。为了解决脏数据问题,进一步提高系统的实用性,我们以清理系统脏数据、监测与清洗重复记录为核心目标,在深入学习中文分词技术、数据清洗理论、Web开发技术、数据库理论、网络通信理论和软件建模理论的基础上,基于微软VisualStudio2008开发平台对该系统进行了深入的维护性研究开发。
   农村饮水工程信息管理系统中数据源涉及到全省上万个村庄,采集的底层数据存在严重的“脏、杂、乱”现象,从而降低了调查、统计、分析的精确性和可信度。在系统维护性研究开发过程中,作者提出了一种基于中文分词的地址信息检测方法,实现了数据中不完整及错误的地址信息检测纠正功能;提出了一种基于语义树的中文相似重复记录清洗方法,用以消除原数据中的重复记录集;运用控件编程实现了数据统计分析功能,提升了用户体验。
   经过对原系统中新增模块的分析、设计、编码、测试及集成后,已消除了原系统中“脏、杂、乱”数据的缺陷,提高了数据质量。目前,该系统已重新部署于某省水利厅供水处数据中心,系统运行平稳,数据处理准确、快速,并得到了用户好评。
   本文详细阐述了系统研究开发中采用的关键技术和基本理论,以及系统分析、设计、实现、测试、部署及运行过程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号