首页> 中文学位 >基于数据挖掘的上海电信分公司客户流失问题实证研究
【6h】

基于数据挖掘的上海电信分公司客户流失问题实证研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 论文研究背景

1.2 国内外研究现状

1.3 本文研究目的与内容结构

2 数据的预处理技术

2.1 数据清洗

2.2 数据集成

2.3 数据转换

2.4 数据归约

2.5 数据理解

2.6 数据预处理实例分析

3 数据挖掘技术与工具

3.1 聚类方法

3.2 分类方法

3.3关联规则

3.4 时间序列

3.5 数据挖掘的一般过程

3.6 R语言-数据挖掘工具

4 客户流失分类模型研究

4.1 基于数据样本的集成学习

4.2 基于特征的集成学习

4.3 高维不平衡数据实验研究

5 用户流失分析与研究

5.1 套餐系列(等级)分析

5.2 通信指标特征研究

5.3 指标间相关性分析

5.4 流失指标的因子分析

5.5 流失用户聚类研究

5.6 流失原因分析

6 结论与展望

6.1 本文总结

6.2 展望

致谢

参考文献

展开▼

摘要

客户流失问题一直是电信公司最重视的问题之一,客户的流失会对企业造成极大的损失。数据挖掘在电信行业运用越来越广泛,挖掘的方法逐渐丰富,挖掘的深度也正在逐步加深。为减少客户流失,基于数据挖掘知识的精准营销备受电信企业的重视。数据量的大爆发使得数据挖掘成为企业竞逐市场的重要手段,本文正式基于此背景下研究电信行业数据挖掘的方法。本文着重研究基于R语言实现电信数据预处理技术、高维不平衡数据的分类算法、流失客户聚类技术并分析流失原因。
  电信行业数据的高维度性和不平衡性是造成模型不稳定,准确率不高的一个重要原因,一直困扰着挖掘工作者。本文重点研究了处理高维不平衡电信数据和建立客户流失分类模型中的Bagging和AdaBoost以及随机森林算法。实证结果表明,AdaBoost分类模型较Bagging分类模型的覆盖率提高6%。优化后的随机森林模型误判率由原来的86.96%降低到39.64%,此时模型处于最优状态。
  本文研究了流失客户的指标特征,对比分析了流失客户在通信指标上与非流失客户的区别,分析了总通话次数、总计费时长、上网总流量等通信指标对流失用户起到关键性作用,最后从用户使用的套餐系列角度具体分析了流失原因,为后续模型研究和公司决策提供了依据和方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号