首页> 中文学位 >面向农业领域知识库构建的数据清洗方法优化研究
【6h】

面向农业领域知识库构建的数据清洗方法优化研究

代理获取

目录

封面

声明

硕士学位论文评阅人、答辩委员会签名表

中文摘要

英文摘要

目录

第一章 引 言

1.1 研究背景与意义

1.2 国内外研究现状

1.3 研究方法与内容

1.4 论文组织架构

1.5 研究结论及创新点

第二章 数据清洗相关理论与工具

2.1 数据清洗方法

2.2 数据清洗的一般流程

2.3 数据清洗的评价标准

2.4 数据清洗的工具

第三章 数据清洗核心方法分析

3.1 数据清洗方法分析

3.2 数据匹配方法分析

第四章 数据清洗方法优化设计

4.1 面向农业领域知识库构建的数据清洗特点

4.2 数据清洗框架

4.3 清洗流程

第五章 实证研究——以水稻领域文献数据为例

5.1 文献数据的特点

5.2 数据来源

5.3 清洗流程应用

5.4 实验

第六章 结论

6.1 总结

6.2 展望

参考文献

致谢

作者简历

展开▼

摘要

大数据时代,数据的意义在于对其进行专业化处理。数据质量成为数据挖掘、专家决策、商业智能等活动成功的关键。但是,迅速膨胀并变大的数据量妨碍了清洗数据的效率,使得漫长低效的人工清洗变得不可能。因此,提高数据清洗的自动化程度和时间效率势在必行。同时,科学研究进入数据密集型的第四范式,要在时代的浪潮中更好地驾驭第四范式,必须科学地管理数据,并在数据互操作中游刃有余。建立领域知识库是目前各界都在积极探索的方式。在政策的引导和支持下,各类农业服务平台和信息资源激增,构建面向农业领域的知识库,能系统有效地收集和整理农业领域信息和知识,将大量隐含知识编码化和数字化,实现海量农业领域知识有序化,便于对其进行有效组织、检索、利用、分析和共享。要实现农业领域知识库的功能和目标,就必须在构建知识库时对数据进行自动化清洗,以保证数据质量,提高处理效率。
  目前领域知识的数据清洗方法多是由专家制订规则并由计算机自动执行来完成,这种方法固然准确,但需要领域专家参与,并反复修改与更新规则集合,在数据量很大、数据规律不明显的情况下存在局限性。而且,面对不同数据集都要重新制定规则,人工劳动非常大。
  同时,现有的清洗框架和流程都是按照数据仓库构建要求制定的,大多是基于规则的,在面对农业领域知识库构建时,会有些不适用。而且,多种数据清洗方法彼此孤立,各自为营,并没有一个用于指导构建知识库时针对领域知识的框架和流程,使人在面临众多方法和工具时不知所措。众多的工具各有侧重,并不能完全解决构建知识库时遇到的数据清洗问题。
  因此,本文对这些问题进行探索,对比分析了数据清洗工具和处于数据清洗核心地位的数据匹配算法,为优化算法的选择提供参考;设计了一个通用的数据清洗框架和流程,指导农业领域知识库构建中的数据清洗工作;采用水稻领域的文献数据进行实证,设计了优化算法来解决作者机构匹配问题;最后讨论了阈值的设定对结果的影响,为今后工作中阈值的选择提供参考。通过这些研究将人工参与程度降低,进而提高数据清洗的自动化程度和效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号