首页> 中文学位 >基于Hadoop分布式计算框架的垃圾短信群发检测系统
【6h】

基于Hadoop分布式计算框架的垃圾短信群发检测系统

代理获取

目录

摘要

第一章 绪论

1.1.研究的背景和意义

1.2.国内外垃圾短信治理研究现状研究现状

1.2.1.已部署的群发垃圾短信探测分析解决方案

1.2.2.基于内容/关键词过滤的局限性

1.2.3.基于非内容的过滤判别系统的不稳定性

1.3.主要工作

1.4.论文结构

第二章 系统架构及数据采集相关技术分析

2.1.业务仿真和全网络信令跟踪系统架构

2.1.1.上海电信短信类业务介绍

2.1.2.上海电信业务仿真和全网络信令跟踪系统立项背景、依据及必要性

2.2.项目初步技术方案

2.2.1.系统内部实现架构

2.2.2.短信/彩信的信令采集和跟踪实现难点分析

2.3.功能模块说明

2.3.1.数据采集/合成功能

2.3.2.数据存储功能

2.3.3.应用分析功能

2.3.4.管理门户展现

2.3.5.系统用户管理

2.3.6.系统日志管理

2.4.组网改造和存储优化

2.4.1.组网改造

2.4.2.存储优化与变迁

2.4.3.改造实施后的系统架构

2.5.本章小结

第三章 两大类特征的选择与提取

3.1.系统输入

3.2.非内容特征选取

3.2.1.CDR合成

3.2.2.统计类判别器阈值设定

3.2.3.非内容判别的其他算法实现

3.2.4.评估依据

3.3.文本内容特征

3.3.1.结合文本特征判断的依据

3.3.2.短信文本预处理

3.3.3.过滤关键词的选择

3.3.4.Bloom Fliters的原理及实现

3.4.本章小结

第四章 分析过滤模块的设计

4.1.选取Hadoop系统的依据

4.1.1.利用存储和数据处理上的特性

4.1.2.适用场景

4.2.对比分析

4.3.M-R处理方案分析

4.3.1.M-R和Streming处理方式对比

4.3.2.两种方式实现M-R逻辑的比较

4.3.3.M-R处理流程设计

4.4.Boosting的原理及算法

4.5.本章小节

第五章 Hadoop框架配置及实验测试

5.1.测试环境

5.1.1.实验环境硬件/虚拟机配置

5.1.2.Hadoop运行环境操作系统配置

5.1.3.测试数据选取

5.2.Hadoop框架的配置

5.2.1.基本参数配置

5.2.2.测试环境设定

5.2.3.实际的部署要求

5.2.4.Hadoop进程启动顺序

5.2.5.Hadoop任务调度

5.3.弱分类器(特征集)选择

5.3.1.最终选取的特征项

5.3.2.阈值选择

5.4.AdaBoost的实现与训练

5.4.1.训练集合的选取与构造

5.4.2.训练过程

5.4.3.训练结果

5.5.不同数据集测试结果

5.5.1.平日(工作日+双休日)测试集

5.5.2.节假日测试集

5.5.3.测试结果

5.5.4.结果分析

5.6.数据压缩测试

5.6.1.分析系统瓶颈

5.6.2.压缩方案

5.6.3.测试结果

5.6.4.开启Map中间结果压缩

5.7.本章小节

第六章 总结与展望

6.1.总结

6.2.展望

参考文献

致谢

声明

展开▼

摘要

短消息应用如今成为日常生活中密不可分的一部分。在享受短信服务便利的同时也黯然见证了垃圾短信量的急剧增长。数量如此庞大的垃圾短信,严重损害了用户对移动通信服务供应商的信心。现网已经部署了特定的数据挖掘手段来检测垃圾邮件,其中大部分实现主要是基于内容的,由于垃圾邮件和垃圾短信之间的相似性。
  上海电信全网络信令跟踪系统的上线部署[1],使得开发一个垃圾短信探测/拦截应用成为可能。本系统关注的是如何在海量短信数据中确定专业的垃圾短信发送者的问题。将专业的垃圾邮件发送者定义为:拥有移动通信运营商提供的号码,其唯一目的是发送大量的垃圾短信,以获取商业利益的主机号码。
  为应对较大的短信数据量的计算压力,该系统采用Hadoop分布式计算架构搭建平台实现处理逻辑。本文检验了从网络到面向时间分类的两组非内容特征判别的有效性;同时利用TF-IDF提取基于内容的特征词,存储在几组布隆过滤器中,进行基于内容的判别。为了利用这些弱分类器,使用Adaboost算法把它们集合在一起,从而形成强分类器,在指导学习过程后,该系统可以自动检测垃圾短信发件人。
  最后经过实验室环境下虚拟机部署Hadoop集群测试和服务器单机运行模拟测试,验证了分类器的准确性,评估了性能。针对平日和假日2组测试数据输入,实验结果表明,系统可以相对正确客观地评价垃圾SMS群发者。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号