基于网络爬虫的用户行为分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的高速发展，我们正从信息时代步入数据时代，数据量的增长速度呈现几何式趋势。现在比较流行的网络服务，如：淘宝、微信、微博、证券等，每天都会产生数以万计的数据。对于互联网产生的这些数据，都包含了大量与用户相关的行为数据，挖掘隐藏在数据背后的价值信息，可以帮助企业更好的了解市场和决策提供有效的支持。本文主要是通过网络爬虫挖掘出用户的行为数据，然后通过这些数据进行分析和构建用户征信预测模型。
　　传统的用户征信预测都是依靠专家经验模型或者经验丰富的专业人士主观判断得出相对应的结论，其专家经验模型的处理方式也是在单机上进行。然而，面对越来越多的数据，申请人数逐渐增加的情况下，业务办理效率的劣势逐渐体现出来，这些问题需要研发人员提供有科学依据的模型和计算方式弥补这些劣势。分布式平台的出现刚好解决了这些问题。使得在海量数据的情况下仍然可以快速的处理和运用这些数据，而不是在单机中消耗更多的时间进行处理。
　　本文研究的主要工作是在某公司提供API接口的情况下，运用网络爬虫技术对该公司2016年的订单信息表和用户详细信息表进行爬取，把爬取出来的数据经过数据清洗等操作后，得到比较清晰的数据样式，然后对这些数据进行统计分析，发现用户下单规律，从而可以优化企业的系统服务架构和升级销售策略。并且，在此基础上，构建了用户征信预测模型，该模型选用了随机森林分类算法，有20个输入变量，训练集有20万条数据，这些数据都是与用户相关联的信息。把训练出来的模型运用分布式系统中，通过准确率和处理数据时间效率进行实验说明，并且用逾期率来说明模型效果。实验结果表明，本文基于Spark构建的用户征信预测模型研究，在提高数据处理速度的基础上，保证了准确率并且降低了逾期率，结果表面说明该平台系统具有可扩展性。

著录项

作者
刘飞;
展开▼
作者单位

汕头大学;

展开▼
授予单位汕头大学;
学科信息与通信工程
授予学位硕士
导师姓名唐雅娟;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
Spark; 随机森林分类; 风险评估; 网络爬虫; 用户征信预测;

相似文献

中文文献
外文文献
专利

1. 基于Python的网络爬虫与反爬虫技术的研究 [J] . 张宝刚 . 电子世界 . 2021,第004期
2. 基于Python的网络爬虫与反爬虫技术研究 [J] . 李培 . 计算机与数字工程 . 2019,第006期
3. 基于网络爬虫软件建设主题网络信息资源库的研究--以高铁网络信息资源库建设为例 [J] . 陈昭稳 . 安徽电子信息职业技术学院学报 . 2014,第006期
4. 基于网络爬虫的"三农"网络直播信息分析 [J] . 贾玮娜 . 商场现代化 . 2021,第016期
5. 基于匿名网络的网络爬虫设计与实现 [J] . 闫立达 ,薛朋强 . 现代计算机（专业版） . 2017,第016期
6. 基于MYSQL平台的用户行为分析在提升EVDO网络容量中的应用 [C] . 张婷 ,赵彦明 . 辽宁省通信学会2014年通信网络与信息技术年会 . 2014
7. 基于网络爬虫的互联网用户行为分析系统的设计与实现 [A] . 王荣 . 2016

基于网络爬虫的用户行为分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅