首页> 中文学位 >基于网络爬虫的用户行为分析
【6h】

基于网络爬虫的用户行为分析

代理获取

目录

声明

第一章 绪 论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 课题研究的主要内容

1.4本文结构安排

第二章 基础理论知识介绍

2.1 大数据基础

2.2 数据挖掘概述

2.3 网络爬虫技术

2.4 分类算法

2.5 章节小结

第三章 分布式架构Hadoop和Spark对比

3.1引言

3.2分布式架构Hadoop

3.3 分布式架构spark

3.4 hadoop和spark的性能分析

3.5本章小结

第四章 电商数据统计分析

4.1 概述

4.2 网络爬虫的需求分析

4.3 网络爬虫的各个功能模块实现方式

4.4 下单量与时间的关系

4.5 本章小结

第五章 基于Spark的用户风险预测系统的实现

5.1 实验环境

5.2 实验数据处理

5.3 实验结果与分析

5.4本章小结

第六章 总结与展望

6.1 本文工作总结

6.2 本文研究工作展望

参考文献

硕士攻读期间发表论文

致谢

展开▼

摘要

随着互联网技术的高速发展,我们正从信息时代步入数据时代,数据量的增长速度呈现几何式趋势。现在比较流行的网络服务,如:淘宝、微信、微博、证券等,每天都会产生数以万计的数据。对于互联网产生的这些数据,都包含了大量与用户相关的行为数据,挖掘隐藏在数据背后的价值信息,可以帮助企业更好的了解市场和决策提供有效的支持。本文主要是通过网络爬虫挖掘出用户的行为数据,然后通过这些数据进行分析和构建用户征信预测模型。
  传统的用户征信预测都是依靠专家经验模型或者经验丰富的专业人士主观判断得出相对应的结论,其专家经验模型的处理方式也是在单机上进行。然而,面对越来越多的数据,申请人数逐渐增加的情况下,业务办理效率的劣势逐渐体现出来,这些问题需要研发人员提供有科学依据的模型和计算方式弥补这些劣势。分布式平台的出现刚好解决了这些问题。使得在海量数据的情况下仍然可以快速的处理和运用这些数据,而不是在单机中消耗更多的时间进行处理。
  本文研究的主要工作是在某公司提供API接口的情况下,运用网络爬虫技术对该公司2016年的订单信息表和用户详细信息表进行爬取,把爬取出来的数据经过数据清洗等操作后,得到比较清晰的数据样式,然后对这些数据进行统计分析,发现用户下单规律,从而可以优化企业的系统服务架构和升级销售策略。并且,在此基础上,构建了用户征信预测模型,该模型选用了随机森林分类算法,有20个输入变量,训练集有20万条数据,这些数据都是与用户相关联的信息。把训练出来的模型运用分布式系统中,通过准确率和处理数据时间效率进行实验说明,并且用逾期率来说明模型效果。实验结果表明,本文基于Spark构建的用户征信预测模型研究,在提高数据处理速度的基础上,保证了准确率并且降低了逾期率,结果表面说明该平台系统具有可扩展性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号