基于主动学习的半结构化数据清洗技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展产生了海量数据，按照数据结构可以将这些数据划分为：高结构化数据、半结构化数据及以原始文本。其中结构化数据由于其具有完整的逻辑结构以及描述信息，能够被人们广泛利用；原始文本中包含的可用信息较少，并且需要经过复杂的计算才能够加以利用；半结构化数据是介于以上两者之间的一种数据形式，是互联网上存在极其广泛的数据类型，它可以看作是具有一定结构的数据，但是结构变化很大，因为各个数据之间存在复杂多变的区分标志，通常不能用固定的形式进行描述。
　　所以，如何能够解析半结构化数据吸引了人们的目光，本文针对海量半结构化数据的清洗问题展开研究，识别其中有价值的信息，对半结构化数据加以利用。并将海量半结构化数据进行规格化，解析各个字段的属性，最终形成带有属性标注的二维结构化数据。这样的结构化数据能够为后续的分析使用带来极大的便利。
　　为此，本文提出了以下三种解决海量半结构化数据清洗问题的方法：
　　（1）提出了基于双缓冲的多类型文件并行解析方法，使用双缓冲消息队列以及线程池，提升了串行解析的速度问题，还解决了并行解析中多种格式解析速度不一致造成的任务堆积问题；
　　（2）提出基于正则表达式的属性集识别方法，使用正则表达式识别数据中字段的属性，根据属性位置及数据整体结构识别属性全集，在此基础上提出基于行列统计的数据规格化算法，统计属性的数量及位置，将统计结果结果与属性全集比较，确定每一个字段所在的列，从而形成带有属性标注的结构化数据；
　　（3）提出基于主动学习的方法提升属性识别准确率。将已经标注属性的结构化数据作为训练集，使用C4.5算法构建分类模型，使用基于主动学习的分类器优化方法进一步提高学习模型属性识别的准确率。本文提出了基于投票机制的不确定性采样算法，筛选出最能影响分类器准确率的样例交由转件标注，并更新分类模型，最终形成一个高效率、高准确率、高可用性的数据清洗研究方法，能够将已知数据的清洗成功率提升至95%以上。

著录项

作者
于溪淼;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名方滨兴;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
主动学习; 数据清洗; 半结构化; 数据结构;

相似文献

中文文献
外文文献
专利

1. 基于主动学习的数据清洗系统 [J] . 郭开彦 ,王洪亚 ,程炜东 . 软件工程师 . 2018,第009期
2. 基于主动学习的数据清洗系统 [J] . 郭开彦 ,王洪亚 ,程炜东 . 软件工程 . 2018,第009期
3. 面向众包数据清洗的主动学习技术 [J] . 叶晨 ,王宏志 ,高宏 . 软件学报 . 2020,第004期
4. 基于支撑向量机的多媒体图像半结构化技术研究 [J] . 彭勇军 ,张娟 . 信息通信 . 2012,第006期
5. 基于Web的半结构化信息抽取技术研究 [J] . 张树瑜 ,杜国宁 ,朱仲英 . 系统工程与电子技术 . 2004,第005期
6. 基于背景知识和主动学习的文本挖掘技术研究 [C] . FU Bao-long ,符保龙 . 2012年第二届全国现代制造集成技术学术会议 . 2012
7. 基于主动学习的数据清洗研究与实现 [A] . 郭开彦 . 2019

基于主动学习的半结构化数据清洗技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅