首页> 中文学位 >基于主动学习的半结构化数据清洗技术研究
【6h】

基于主动学习的半结构化数据清洗技术研究

代理获取

目录

第1章 绪论

1.1课题背景及研究意义

1.2相关工作的研究现状

1.3本文主要工作内容

1.4论文组织结构

第2章 多类型文件并行解析方法

2.1关键技术

2.2基于双缓冲队列的文件并行解析方法

2.3实验结果与分析

2.4本章小结

第3章 基于正则表达式的数据属性识别与结构化

3.1数据存储结构分析

3.2于正则表达式的属性集识别

3.3基于行列统计的数据规格化方法

3.4实验结果与分析

3.5本章小结

第4章 基于主动学习的属性识别方法

4.1问题形式化描述

4.2分类器模型的构建

4.3基于主动学习的模型优化

4.4实验结果与分析

4.5本章小结

第5章 半结构化数据清洗系统的设计与实现

5.1系统架构

5.2功能模块设计与实现

5.3系统展示与分析

结论

参考文献

攻读硕士学位期间发表的学术论文及其他成果

声明

致谢

展开▼

摘要

随着互联网的快速发展产生了海量数据,按照数据结构可以将这些数据划分为:高结构化数据、半结构化数据及以原始文本。其中结构化数据由于其具有完整的逻辑结构以及描述信息,能够被人们广泛利用;原始文本中包含的可用信息较少,并且需要经过复杂的计算才能够加以利用;半结构化数据是介于以上两者之间的一种数据形式,是互联网上存在极其广泛的数据类型,它可以看作是具有一定结构的数据,但是结构变化很大,因为各个数据之间存在复杂多变的区分标志,通常不能用固定的形式进行描述。
  所以,如何能够解析半结构化数据吸引了人们的目光,本文针对海量半结构化数据的清洗问题展开研究,识别其中有价值的信息,对半结构化数据加以利用。并将海量半结构化数据进行规格化,解析各个字段的属性,最终形成带有属性标注的二维结构化数据。这样的结构化数据能够为后续的分析使用带来极大的便利。
  为此,本文提出了以下三种解决海量半结构化数据清洗问题的方法:
  (1)提出了基于双缓冲的多类型文件并行解析方法,使用双缓冲消息队列以及线程池,提升了串行解析的速度问题,还解决了并行解析中多种格式解析速度不一致造成的任务堆积问题;
  (2)提出基于正则表达式的属性集识别方法,使用正则表达式识别数据中字段的属性,根据属性位置及数据整体结构识别属性全集,在此基础上提出基于行列统计的数据规格化算法,统计属性的数量及位置,将统计结果结果与属性全集比较,确定每一个字段所在的列,从而形成带有属性标注的结构化数据;
  (3)提出基于主动学习的方法提升属性识别准确率。将已经标注属性的结构化数据作为训练集,使用C4.5算法构建分类模型,使用基于主动学习的分类器优化方法进一步提高学习模型属性识别的准确率。本文提出了基于投票机制的不确定性采样算法,筛选出最能影响分类器准确率的样例交由转件标注,并更新分类模型,最终形成一个高效率、高准确率、高可用性的数据清洗研究方法,能够将已知数据的清洗成功率提升至95%以上。

著录项

  • 作者

    于溪淼;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 方滨兴;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    主动学习; 数据清洗; 半结构化; 数据结构;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号