首页> 中文学位 >基于核偏最小二乘特征提取的垃圾邮件过滤方法的研究
【6h】

基于核偏最小二乘特征提取的垃圾邮件过滤方法的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的章节安排

第二章 垃圾邮件过滤系统预处理

2.1 邮件的组成结构以及工作原理

2.2 语料库格式标记的去除

2.3 去停用词和词干化

2.4 中文分词

2.5 特征选择

2.6 文本表示

2.7 本章小结

第三章 核偏最小二乘特征提取

3.1 偏最小二乘

3.2 核偏最小二乘

3.3 主成分分析

3.4 核主成分分析

3.5 本章小结

第四章 垃圾邮件过滤技术概述

4.1 支持向量机

4.2 K近邻算法

4.3 最小二乘分类器

4.4 决策树算法

4.5 贝叶斯算法

4.6 本章小结

第五章 实验测试和结果分析

5.1 实验数据和预处理

5.2 评价方法

5.3 实验结果和分析

5.4 本章小结

第六章 总结和展望

6.1 主要工作回顾

6.2 本课题今后需进一步研究的地方

参考文献

个人简历 在读期间发表的学术论文

致谢

展开▼

摘要

电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会应用价值,成为信息内容安全及信息处理等领域广受关注的研究课题。
  目前,基于内容的垃圾邮件过滤技术是该领域的研究重点之一,将邮件过滤作为有监督学习,即分类问题来处理,构成文本分类的一个分支。许多机器学习方法已应用到垃圾邮件过滤领域,并取得了较好的邮件过滤效果,但是基于向量空间模型表示的邮件数据具有高维、稀疏及词条相关(同义词)等特点,造成分类器的泛化能力降低或失效,所以有必要对邮件数据进行降维及相关处理。特征提取是一种重要的数据降维方式,如主成分分析(PrincipalComponentAnalysis,PCA)和偏最小二乘(PartialLeastSquares,PLS)等。PCA和PLS是针对线性问题提出的,针对现实世界大量存在的非线性问题,“核方法”(KernelMethod)被引入到机器学习领域,同样PCA和PLS的核形式,即KPCA和KPLS被提出,并用于实践,如文本挖掘、基因数据分析等,取得了巨大的成功。
  偏最小二乘通过求取原始特征和对应的类别特征两者之间的协方差最大化问题,来挖掘出原始特征中的内在联系和隐藏特征,从而得到了一个新的低维的特征空间。核偏最小二乘在偏最小二乘的基础上引入了核函数,其可以很好地用于垃圾邮件维度约减和抵消变量(词条)相关性带来的不利影响。
  本文在深入分析研究垃圾邮件过滤相关技术的基础上,重点探讨PLS及KPLS特征提取技术问题,并将其引入用于文本垃圾邮件过滤;对比PCA和KPCA特征提取技术,结合不同分类算法(支持向量机SVM和K近邻分类算法)进行垃圾邮件过滤实验,使用中文文本垃圾邮件数据集TREC06C和数据集Enron-Spam,比较不同方法的分类效果;并使用交叉有效性算法来确定PLS和KPLS抽取出的特征维数,提高了模型效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号