首页> 中文学位 >海量数据归档与恢复系统技术研究与实现
【6h】

海量数据归档与恢复系统技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

图表清单

注释表

第一章 绪 论

1.1 课题的研究意义

1.2 国内外研究现状

1.3 论文的研究内容和组织结构

第二章 文本分类方案总体设计

2.1文本分类的基础理论

2.2文本分类系统总体结构设计

2.3对传统文本分类方法的改进

2.4本章小结

第三章 非结构化数据全文检索方案的设计与实现

3.1全文检索技术与数据库模糊匹配技术的差异性分析

3.2基于Lucene的全文检索方案设计

3.3 分布式全文检索系统设计

3.4 全文检索功能在系统中的实现

3.5 本章小结

第四章 结构化数据归档与重构方案的设计与实现

4.1异构数据库环境差异性分析

4.2数据的统一格式表示

4.3结构化数据归档与重构方案设计

4.4数据双向映射的实现

4.4 本章小结

第五章 系统集成和实验分析验证

5.1各功能模块的集成

5.2非结构化数据自动分类模块的分析验证

5.3 结构化数据归档与重构的验证

5.4 本章小结

第六章 总结与展望

6.1论文的工作总结

6.2研究展望

参考文献

致谢

在学期间的研究成果及发表的学术论文

展开▼

摘要

企业信息化平台中存在的海量数据,大部分是访问频率较低的历史数据。这些数据占据着大量的系统资源,并影响着服务器的运行性能和服务质量。如何将海量数据从信息化运行平台迁移到低廉的存储设备中,并进行有效管理,成为企业信息化发展面临的一大难题。数据归档技术能够有效地解决这个问题,但是目前很多归档系统专业性很强,主要针对专一的数据库平台和专业的数据管理人员,而企业用户需要的却是一种操作简便、数据来源广泛、性能良好的通用型数据归档与恢复系统。
  数据归档与恢复系统能够有效管理数据的原因在于对数据进行分类整理,并建立完整的、能够全面描述数据特征的索引。围绕这一思路,论文首先研究和分析了文本分类技术的基本思想和方法,同时对传统分类方法提出了一些改进。设计了SVM文本分类器,利用语料库对文本分类器进行训练,建立了文本分类模型。对文本数据进行自动化分类,建立非结构化数据的类别索引。其次,将全文检索技术应用到归档系统中去,研究了Lucene全文检索引擎的原理,利用它建立了归档系统的数据索引和检索模型,并根据用户习惯,建立个性化数据检索方案。Lucene对索引采取集中式管理方式,当处理海量数据产生的大索引时,性能上难以满足应用需求。因此,又利用Solr部署了分布式检索系统,搭建了分布式索引服务器,提升了系统对海量数据的处理能力。对于关系型数据库产生的结构化数据,在研究异构数据库环境差异的基础上,设计了基于XML的结构化数据归档模型,实现对结构化数据的归档和重构。
  最后,将各个功能模块进行集成,实现一个通用的海量数据归档与恢复系统。通过实验分析参数设定和不同特征选择方法对文本分类效果的影响;并对结构化数据归档方案的有效性进行验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号