基于核偏最小二乘特征提取的垃圾邮件过滤方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

电子邮件是当前互联网上使用最为广泛的服务之一，随着互联网及应用的不断发展，垃圾邮件大量蔓延，造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要，具有重要的理论意义和社会应用价值，成为信息内容安全及信息处理等领域广受关注的研究课题。
　　目前,基于内容的垃圾邮件过滤技术是该领域的研究重点之一，将邮件过滤作为有监督学习，即分类问题来处理，构成文本分类的一个分支。许多机器学习方法已应用到垃圾邮件过滤领域，并取得了较好的邮件过滤效果，但是基于向量空间模型表示的邮件数据具有高维、稀疏及词条相关（同义词）等特点，造成分类器的泛化能力降低或失效，所以有必要对邮件数据进行降维及相关处理。特征提取是一种重要的数据降维方式，如主成分分析(PrincipalComponentAnalysis,PCA)和偏最小二乘(PartialLeastSquares，PLS)等。PCA和PLS是针对线性问题提出的，针对现实世界大量存在的非线性问题，“核方法”(KernelMethod)被引入到机器学习领域，同样PCA和PLS的核形式，即KPCA和KPLS被提出，并用于实践，如文本挖掘、基因数据分析等，取得了巨大的成功。
　　偏最小二乘通过求取原始特征和对应的类别特征两者之间的协方差最大化问题，来挖掘出原始特征中的内在联系和隐藏特征，从而得到了一个新的低维的特征空间。核偏最小二乘在偏最小二乘的基础上引入了核函数，其可以很好地用于垃圾邮件维度约减和抵消变量（词条）相关性带来的不利影响。
　　本文在深入分析研究垃圾邮件过滤相关技术的基础上，重点探讨PLS及KPLS特征提取技术问题，并将其引入用于文本垃圾邮件过滤；对比PCA和KPCA特征提取技术，结合不同分类算法（支持向量机SVM和K近邻分类算法）进行垃圾邮件过滤实验，使用中文文本垃圾邮件数据集TREC06C和数据集Enron-Spam，比较不同方法的分类效果；并使用交叉有效性算法来确定PLS和KPLS抽取出的特征维数，提高了模型效率。

著录项

作者
陈俊;
展开▼
作者单位

华东交通大学;

展开▼
授予单位华东交通大学;
学科计算机应用技术
授予学位硕士
导师姓名刘遵雄;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
核偏最小二乘; 特征提取; 垃圾邮件; 过滤方法;

相似文献

中文文献
外文文献
专利

1. 基于核偏最小二乘分类的垃圾邮件过滤 [J] . 岑芳明 ,王明文 ,王鹏鸣 . 中文信息学报 . 2009,第002期
2. 基于核的偏最小二乘特征提取的最小二乘支持向量机回归方法 [J] . 郭辉 ,刘贺平 . 信息与控制 . 2005,第4期
3. 基于粗糙集的增量式垃圾邮件过滤方法研究 [J] . 徐丹 ,韩艳杰 ,寇曼曼 . 现代电子技术 . 2015,第014期
4. 基于Boosting算法的垃圾邮件过滤方法研究 [J] . 柴宝仁 ,谷文成 ,牛占云 . 北京理工大学学报 . 2013,第1期
5. 一种基于N-Gram的垃圾邮件过滤方法研究 [J] . 林伟 ,柳荣其 ,徐熙 . 计算机应用与软件 . 2010,第002期
6. 基于核偏最小二乘分类的垃圾邮件过滤 [C] . . 第四届全国信息检索与内容安全学术会议 . 2008
7. 基于核偏最小二乘分类的垃圾邮件过滤研究 [A] . 岑芳明 . 2009

基于核偏最小二乘特征提取的垃圾邮件过滤方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅