首页> 中文学位 >基于文本分类的多层次垃圾短信过滤系统研究
【6h】

基于文本分类的多层次垃圾短信过滤系统研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 引言

1.1 研究背景和意义

1.2 垃圾短信概述

1.3 问题研究现状

1.4 本文的研究内容及安排

2 垃圾短信过滤关键技术综述

2.1 文本预处理

2.2 文本去噪处理

2.3 文本特征表示

2.4 文本特征选择

2.5 WM算法

2.6 Unicode编码

2.7 本章小结

3 AlS原理与人工免疫算法

3.1 AIS发展历史与研究现状

3.2 生物免疫系统原理和基本概念

3.3 人工免疫算法

3.4 生物免疫系统与垃圾短信过滤系统

3.5 改进的人工免疫算法

3.6 本章小结

4 多层次垃圾短信过滤系统总体设计

4.1 体系结构和网络结构

4.2 硬件构成

4.3 软件构成

4.4 系统处理流程系统架构

4.5 本章小结

5 多层次垃圾短信过滤系统模块设计

5.1 黑白名单过滤模块

5.2 短信长度及流量门限过滤模块

5.3 内容快速匹配模块

5.4 发送特征分析模块

5.5 文本预处理模块

5.6 人工免疫模块

5.7 本章小结

6 实验调试

6.1 实验环境

6.2 实验结果与分析

6.3 本章小结

7 总结与展望

7.1 总结

7.2 展望

致谢

参考文献

个人简历、学期间发表的学术论文及取得的研究成果

展开▼

摘要

近年来,手机短信受到广大用户的青睐,但此项业务产生的垃圾短信也严重困扰着人们的生活,干扰着正常的社会秩序,因此,各电信运营商纷纷出台垃圾短信过滤系统,以打击垃圾短信的严重泛滥。目前常用的过滤方法主要有黑白名单过滤机制,基于短信长度及流量的过滤机制,基于关键字匹配的过滤机制,以及基于文本分类智能算法的过滤机制,这些机制虽然在一定程度上遏制了垃圾短信的泛滥,但仍具有明显的缺陷和不足。  本文受生物免疫系统的启发,借鉴生物免疫原理,提出了基于文本分类的多层次垃圾短信过滤系统的设计,系统分为几个模块,逐层过滤,环环相扣,使垃圾短信无处遁形。本文所做的工作以及创新点如下: (1)分析了垃圾短信的研究现状,包括成因、危害和主要特征,并对国内外现有的垃圾短信过滤机制进行了总结,探讨了各种机制的优缺点。  (2)详细介绍了垃圾短信过滤关键技术,包括文本预处理、中文分词以及特征选择等技术。详细阐述了生物免疫系统原理以及由此开发的人工免疫算法,并对传统的算法进行了改进,简化了抗体和抗原的表示方法和计算方式,使亲和力的计算更加简单,节约了内存,提高了匹配速度。  (3)设计了一个基于文本分类的多层次垃圾短信过滤系统,系统由黑白名单模块、短信长度及流量门限模块、内容快速匹配模块和人工免疫模块构成,制定了各模块的主要功能和系统的处理流程。  (4)人工免疫模块通过对数据库里的短信进行训练,抗体自体耐受生成合格检测器,对短信进行分类,还可以通过变异机制不断更新短信特征样本库,维持短信样本库的生命力、多样性和自适应性。  通过实验表明,相比传统方法而言,本文提出的基于文本分类的多层次垃圾短信过滤系统成功的提高了过滤垃圾短信的智能性、可靠性、正确率和实时性。是一种智能化的改进和完善,具有十分广阔的工程应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号