首页> 中文学位 >组合信息的重复检查方法及并行化实现研究
【6h】

组合信息的重复检查方法及并行化实现研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

第一节 研究背景

第二节 国内外研究现状

第三节 研究内容和意义

第四节 论文组织结构

第二章 相关技术简介

第一节 Hadoop

第二节 MapReduce

第三节 YARN

第四节 字符串相似度检查算法

第三章 研究背景介绍

第一节 系统概述

第二节 重复检查环节流程

第三节 问题总结

第四章 组合信息的重复检查方法的实现

第一节 组合信息的重复检查方法的提出

第二节 程序设计

第三节 程序实现

第四节 结果总结

第五章 重复检查方法的并行化实现及分析

第一节 可行性分析

第二节 运行环境

第三节 数据集设计

第四节 程序设计及实现

第五节 结果及分析

第六章 总结与展望

第一节 研究工作总结

第二节 研究工作展望

参考文献

致谢

个人简历

展开▼

摘要

随着近年来我国教育水平的提高和国家及各教育机构对人才培养的重视,教育相关的数据量逐年增加。在关于教育信息的申报和评审类系统中,需要对申报的关键信息进行重复检查,以保证评审结果的客观性和公平性。根据实际评估系统使用过程中的用户反馈,随着数据量的增加,通过传统的单一重复检查方式对这些数据进行检查已经无法满足用户对于检查精度和效率的要求,从而影响了评估工作的效率。
  本文针对教育信息评估系统中的重复检查模块为研究基础,针对随着清单表数据不断增加而引起的两个问题,提出了针对组合信息的重复检查方法,针对同一张清单表中的多个关键字段分别利用不同相似度检查算法进行检查,来提高检查结果的精度,降低后期人工处理检查结果的难度,同时采用将重复检查方法并行化的方式来提高检查效率。
  本文提出了组合信息的重复检查模型,利用Hadoop平台下的MapReduce框架实现重复检查的并行化,分析了将Hadoop平台下的组合信息的检查方法应用到现有评估系统中的步骤和可能存在的问题。实验结果表明当数据量增大时,Hadoop平台下的并行的重复检查方法比单线程的重复检查方法在效率上具有明显的优势,也验证了Hadoop平台应用于已有系统的可行性。
  在保证检查结果精确性的前提下,本文提出了一种针对组合信息的通用的重复检查方法,利用分布式计算实现了提高重复检查环节准确性和效率的解决方案,提高了重复检查环节的可扩展性,并通过实验对比验证了Hadoop平台应用于重复检查环节的可能性,最后通过分析将重复检查环节迁移到Hadoop平台上的步骤进一步验证了将Hadoop平台应用于现有评估系统中的可能性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号