基于集成学习的邮件过滤及电子邮件智能应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

日益严重的垃圾电子邮件已引起研究人员的广泛关注，基于数据挖掘和机器学习的邮件过滤技术是当前的一大研究热点。已有的关于垃圾邮件过滤的技术或方法有：朴素只叶于过滤器、?过滤器、支撑向量机(Support Vector Machine)过滤器、神经网络过滤器、决策树过滤器等。这些方法通常视邮件过滤为2类文本分类问题，即将邮件归类为“垃圾邮件”和“正常邮件”2类。然而，邮件过滤是个代价敏感(Cost-Sensitive)的?正常邮件错分为垃圾(False Positive Errors，本文称为误拒?邮件(False Negative Errors，本文称为误收)的代价是不一样的。而且，它又不同于一般的代价敏感问题，因为人们绝不愿意过滤器出现误拒，而允许一定数目的误收错误存在，即用户对过滤器精度要求极高。集成学习已被证明是提高分类器性能的有力武器，但代价敏感集成学习的相关文献所见不多。针对传统过滤技术的局限性，本文研究了集成学习(尤其是代价敏感的集成学习)技术及其在垃圾邮件自动过滤中的应用。首先，提出了基于混合高斯模型(Gaussian Mixture Model，GMM)的多过滤器集成算法。该方法使用多元统计分析方法对多个过滤器在训练例上的过滤表现矩阵进行降维和除噪，得到训练数据及各过滤器的分布；然后，从该分布中学习出对邮件进行类别判定的 GMM。GMM根据期望代价最小准则进行过滤，避免将正常邮件判定为垃圾。实验结果表明，该方法具有较好的过滤性能，且对于特征提取率的敏感度低。其次，在基于GMM的集成算法基础上，提出了两阶段集成学习(Two-Phase Ensemble Learning，TPEL)。它包括2个阶段：第1阶段学习个体分类器，第2阶段学习集成函数。TPEL的最大特点是利用学习算法学习集成的预测函数，而不像Bagging类和Boosting类等方法的集成函数的形式被预先设定。结合垃圾邮件过滤这样一个2类文本分类问题，在4个公用数据集上对TPEL进行了一系列的实验。实验结果表明：(1)TPEL受集成的个体分类器个数的影响甚微；(2)利用TPEIL集成异构(Heterogeneous)的多个分类器时效果显著；(3)利用TPEL集成多个同构(Homogeneous)分类器时，绝大部分情况下取得了优于朴素贝叶斯等算法的结果；(4)对稳定或不稳定学习器的集成效果都很好；(5)TPEL的时间复杂度较低。进一步，我们将TPEL推广到代价敏感的学习领域，提出了多阶段代价敏感学习(Multi-Phase Cost-Sensitive Ensemble Learning，MPCSL)。与TPEL相比，后者可以间接学习多次，在学习过程的每一阶段都可使用代价敏感的技术。实验表明，MPCSL具有TPEL的一切优点。与此同时，MPCSL在集成异构的过滤器时，集成效果非常理想，且在某些情况下，MPCSL进行多次间接学习能进一步提高过滤准确性。TPEL和MPCSL的优点还有：间接学习阶段的知识维数非常小，使许多对内存要求较高且性能较好的算法可被应用到间接学习阶段。本文的另一个研究侧面是探索利用WI相关的技术实现基于电子邮件的智能应用。我们提出了可操作电子邮件的设计理念，同时，就基于可操作电子邮件在万维电子邮件网(Whole World Social Email Network，WWSEN)中实现异步的智能应用进行了阐述，指出了待研究的问题。在基于电子邮件的智能应用方面，本文还研究、设计和实现了一个电子邮件个性化智能助手。该助手的最大特点是：(1)可处理可操作电子邮件，以实现某些自动功能。(2)采用了我们提出的基于本体的归档方式，从而提供了基于概念的邮件分类存储和检索功能。(3)采用了我们设计的基于时间窗口的用户动态行为学习方法。(4)使用多个智能体进行垃圾邮件的自动过滤。总之，本文从近期目标角度，研究了：对垃圾邮件问题的过滤技术和理论、智能助手的实现技术和理论。我们深切期望本文提出的可操作电子邮件(或相似提法的电子邮件)及万维电子邮件网能引起国内外研究人员的重视。从长期研究目标的角度，提出了可操作电子邮件及万维电子邮件网；指出了有待研究的问题。在前一方面，关于邮件过滤研究的成果不但对过滤垃圾有效，显然可被推广到处理其他类似的代价敏感分类问题。关于电子邮件智能助手方面的研究成果可被用户行为学习等领域的研究者借鉴。后一方面的研究拓宽了WI的研究领域。

著录项

作者
李文斌;
展开▼
作者单位

北京工业大学;

展开▼
授予单位北京工业大学;
学科计算机应用技术
授予学位博士
导师姓名刘椿年;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
Web智能; 邮件过滤; 集成学习; 电子邮件; 垃圾邮件; 机器学习; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于智能决策支持系统的电子邮件过滤技术 [J] . 张沪寅 ,张文熙 ,吴产乐 . 武汉大学学报：信息科学版 . 2004,第12期
2. 粗糙集理论在电子邮件过滤系统中的应用研究 [J] . 杨霞 . 科技信息 . 2008,第013期
3. 基于集成学习的图像垃圾邮件过滤方法 [J] . 赵俊生 ,候圣 ,王鑫宇 . 计算机工程与科学 . 2020,第006期
4. 基于多过滤器集成学习的在线垃圾邮件过滤 [J] . 刘伍颖 ,王挺 . 中文信息学报 . 2008,第001期
5. 基于DNSBL机制的垃圾电子邮件过滤方法实证研究 [J] . 金京犬 . 电脑知识与技术 . 2017,第005期
6. 基于校园网的电子邮件过滤系统关键技术研究 [C] . 戴少锋 ,张海 ,郭文明 . 第十五届中国计算机学会网络与数据通信学术会议 . 2006
7. 智能型电子邮件过滤系统的研究与实现 [A] . 周日升 . 2005

基于集成学习的邮件过滤及电子邮件智能应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅