声明
致谢
摘要
1 引言
1.1 项目背景
1.2 题目来源
1.3 研究内容
1.4 国内外研究现状
1.5 论文结构
1.6 本章小结
2 关键技术介绍
2.1 网络爬虫
2.2 网页解析
2.3 SOLR简介
2.4 中文分词
2.5 Hadoop
2.6 数据展示
2.7 本章小结
3 系统需求分析
3.1 系统整体业务需求
3.2 采集中心需求分析
3.3 数据中心需求分析
3.4 应用平台需求分析
3.4.1 论文检索
3.4.2 理财产品专题
3.5 非功能性需求
3.6 本章小结
4 系统概要设计
4.1 数据平台概要结构
4.2 爬虫程序概要结构
4.3 SOLR搜索引擎结构
4.4 应用平台概要设计
4.5 数据存储设计
4.5.1 数据存储策略
4.5.2 关系型数据存储
4.5.3 SOLR索引存储
4.5.4 期刊论文文件存储
4.6 本章小结
5 系统详细设计与实现
5.1 采集中心详细设计与实现
5.1.1 国家数据网站数据采集
5.1.2 理财产品信息采集
5.1.3 反爬虫的应对策略
5.1.4 期刊论文数据采集
5.2 SOLR搜索引擎搭建
5.2.1 服务器搭建
5.2.2 索引建立
5.3 应用平台详细设计
5.3.1 论文检索
5.3.2 理财产品专题
5.4 本章小结
6 系统测试
6.1 采集中心测试
6.1.1 国家数据采集测试
6.1.2 理财产品数据采集
6.2 应用平台测试
6.2.1 功能性测试
6.2.2 非功能性测试
6.3 本章小结
7 结论
参考文献
附录
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集