摘要
第一章 绪论
1.1.研究的背景和意义
1.2.国内外垃圾短信治理研究现状研究现状
1.2.1.已部署的群发垃圾短信探测分析解决方案
1.2.2.基于内容/关键词过滤的局限性
1.2.3.基于非内容的过滤判别系统的不稳定性
1.3.主要工作
1.4.论文结构
第二章 系统架构及数据采集相关技术分析
2.1.业务仿真和全网络信令跟踪系统架构
2.1.1.上海电信短信类业务介绍
2.1.2.上海电信业务仿真和全网络信令跟踪系统立项背景、依据及必要性
2.2.项目初步技术方案
2.2.1.系统内部实现架构
2.2.2.短信/彩信的信令采集和跟踪实现难点分析
2.3.功能模块说明
2.3.1.数据采集/合成功能
2.3.2.数据存储功能
2.3.3.应用分析功能
2.3.4.管理门户展现
2.3.5.系统用户管理
2.3.6.系统日志管理
2.4.组网改造和存储优化
2.4.1.组网改造
2.4.2.存储优化与变迁
2.4.3.改造实施后的系统架构
2.5.本章小结
第三章 两大类特征的选择与提取
3.1.系统输入
3.2.非内容特征选取
3.2.1.CDR合成
3.2.2.统计类判别器阈值设定
3.2.3.非内容判别的其他算法实现
3.2.4.评估依据
3.3.文本内容特征
3.3.1.结合文本特征判断的依据
3.3.2.短信文本预处理
3.3.3.过滤关键词的选择
3.3.4.Bloom Fliters的原理及实现
3.4.本章小结
第四章 分析过滤模块的设计
4.1.选取Hadoop系统的依据
4.1.1.利用存储和数据处理上的特性
4.1.2.适用场景
4.2.对比分析
4.3.M-R处理方案分析
4.3.1.M-R和Streming处理方式对比
4.3.2.两种方式实现M-R逻辑的比较
4.3.3.M-R处理流程设计
4.4.Boosting的原理及算法
4.5.本章小节
第五章 Hadoop框架配置及实验测试
5.1.测试环境
5.1.1.实验环境硬件/虚拟机配置
5.1.2.Hadoop运行环境操作系统配置
5.1.3.测试数据选取
5.2.Hadoop框架的配置
5.2.1.基本参数配置
5.2.2.测试环境设定
5.2.3.实际的部署要求
5.2.4.Hadoop进程启动顺序
5.2.5.Hadoop任务调度
5.3.弱分类器(特征集)选择
5.3.1.最终选取的特征项
5.3.2.阈值选择
5.4.AdaBoost的实现与训练
5.4.1.训练集合的选取与构造
5.4.2.训练过程
5.4.3.训练结果
5.5.不同数据集测试结果
5.5.1.平日(工作日+双休日)测试集
5.5.2.节假日测试集
5.5.3.测试结果
5.5.4.结果分析
5.6.数据压缩测试
5.6.1.分析系统瓶颈
5.6.2.压缩方案
5.6.3.测试结果
5.6.4.开启Map中间结果压缩
5.7.本章小节
第六章 总结与展望
6.1.总结
6.2.展望
参考文献
致谢
声明
复旦大学;