第1章 绪论
1.1课题背景及研究意义
1.2相关工作的研究现状
1.3本文主要工作内容
1.4论文组织结构
第2章 多类型文件并行解析方法
2.1关键技术
2.2基于双缓冲队列的文件并行解析方法
2.3实验结果与分析
2.4本章小结
第3章 基于正则表达式的数据属性识别与结构化
3.1数据存储结构分析
3.2于正则表达式的属性集识别
3.3基于行列统计的数据规格化方法
3.4实验结果与分析
3.5本章小结
第4章 基于主动学习的属性识别方法
4.1问题形式化描述
4.2分类器模型的构建
4.3基于主动学习的模型优化
4.4实验结果与分析
4.5本章小结
第5章 半结构化数据清洗系统的设计与实现
5.1系统架构
5.2功能模块设计与实现
5.3系统展示与分析
结论
参考文献
攻读硕士学位期间发表的学术论文及其他成果
声明
致谢