首页> 中文学位 >基于集成学习的邮件过滤及电子邮件智能应用研究
【6h】

基于集成学习的邮件过滤及电子邮件智能应用研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题背景

1.2本文主要研究内容

1.3研究意义

1.4创新性工作

1.4.1集成学习、代价敏感的集成学习及其在邮件过滤中的应用

1.4.2电子邮件智能应用机制(详见第7章)

1.5本文结构

1.6本章小结

第2章电子邮件的相关研究

2.1电子邮件简介

2.1.1 Internet电子邮件系统模型

2.1.2电子邮件标准

2.2电子邮件带来的问题

2.3垃圾邮件过滤

2.3.1国内外垃圾邮件现状

2.3.2基于机器学习的过滤

2.3.3基于IP地址的过滤

2.3.4基于安全标识的反垃圾邮件

2.4基于电子邮件的智能应用

2.4.1智能工作助手

2.4.2语义Web与Web智能

2.4.3新一代电子邮件的开发

2.5本章小结

第3章垃圾邮件过滤理论体系

3.1垃圾邮件过滤形式化定义

3.2垃圾邮件过滤的理论基础

3.2.1特征子集提取

3.2.2非代价敏感的有监督学习算法

3.2.3代价敏感的有监督学习算法

3.2.4集成学习与垃圾邮件过滤

3.2.5算法评价

3.3垃圾邮件过滤算法比较

3.4本章小结

第4章基于混合高斯模型的多贝叶斯过滤器集成

4.1 GMM与EM算法

4.2基于GMM的多过滤器集成算法

4.2.1算法流程

4.2.2对应分析及空间变换方法

4.2.3垃圾邮件判决方法

4.3性能分析与实验结果

4.3.1时间复杂度分析

4.3.2实验结果

4.4本章小结

第5章两阶段集成学习

5.1两阶段集成学习算法

5.1.1 Bagging和Boosting算法分析

5.1.2两阶段集成学习算法

5.2实验结果及分析

5.2.1实验数据与实验设计

5.2.2实验结果与结果分析

5.3对个体分类器构造方法的讨论

5.4本章小结

第6章多阶段代价敏感集成学习

6.1代价敏感的直接学习

6.2多学习器的知识表示

6.3代价敏感的间接学习

6.4过滤算法

6.5实验结果及分析

6.6从知识中学习集成规则的讨论

6.7本章小结

第7章电子邮件与智能应用

7.1可操作电子邮件

7.1.1万维电子邮件网(WWSEN)

7.1.2可操作电子邮件的语言栈

7.1.3在WWSEN中实现智能应用

7.1.4与可操作电子邮件相关的研究问题

7.1.5一个说明性演示程序

7.2基于可操作电子邮件的个性化智能工作助手

7.2.1总体框架

7.2.2基于本体的电子邮件归档

7.2.3基于时间窗口技术的用户行为学习

7.2.4基于多智能体的邮件过滤及实验结果

7.3本章小结

结论

1主要工作和贡献

2未来的工作

参考文献

攻读博士期间取得的研究成果

致谢

展开▼

摘要

日益严重的垃圾电子邮件已引起研究人员的广泛关注,基于数据挖掘和机器学习的邮件过滤技术是当前的一大研究热点。已有的关于垃圾邮件过滤的技术或方法有:朴素只叶于过滤器、?过滤器、支撑向量机(Support Vector Machine)过滤器、神经网络过滤器、决策树过滤器等。这些方法通常视邮件过滤为2类文本分类问题,即将邮件归类为“垃圾邮件”和“正常邮件”2类。然而,邮件过滤是个代价敏感(Cost-Sensitive)的?正常邮件错分为垃圾(False Positive Errors,本文称为误拒?邮件(False Negative Errors,本文称为误收)的代价是不一样的。而且,它又不同于一般的代价敏感问题,因为人们绝不愿意过滤器出现误拒,而允许一定数目的误收错误存在,即用户对过滤器精度要求极高。集成学习已被证明是提高分类器性能的有力武器,但代价敏感集成学习的相关文献所见不多。 针对传统过滤技术的局限性,本文研究了集成学习(尤其是代价敏感的集成学习)技术及其在垃圾邮件自动过滤中的应用。首先,提出了基于混合高斯模型(Gaussian Mixture Model,GMM)的多过滤器集成算法。该方法使用多元统计分析方法对多个过滤器在训练例上的过滤表现矩阵进行降维和除噪,得到训练数据及各过滤器的分布;然后,从该分布中学习出对邮件进行类别判定的 GMM。GMM根据期望代价最小准则进行过滤,避免将正常邮件判定为垃圾。实验结果表明,该方法具有较好的过滤性能,且对于特征提取率的敏感度低。 其次,在基于GMM的集成算法基础上,提出了两阶段集成学习(Two-Phase Ensemble Learning,TPEL)。它包括2个阶段:第1阶段学习个体分类器,第2阶段学习集成函数。TPEL的最大特点是利用学习算法学习集成的预测函数,而不像Bagging类和Boosting类等方法的集成函数的形式被预先设定。结合垃圾邮件过滤这样一个2类文本分类问题,在4个公用数据集上对TPEL进行了一系列的实验。实验结果表明:(1)TPEL受集成的个体分类器个数的影响甚微;(2)利用TPEIL集成异构(Heterogeneous)的多个分类器时效果显著;(3)利用TPEL集成多个同构(Homogeneous)分类器时,绝大部分情况下取得了优于朴素贝叶斯等算法的结果;(4)对稳定或不稳定学习器的集成效果都很好;(5)TPEL的时间复杂度较低。进一步,我们将TPEL推广到代价敏感的学习领域,提出了多阶段代价敏感学习(Multi-Phase Cost-Sensitive Ensemble Learning,MPCSL)。与TPEL相比,后者可以间接学习多次,在学习过程的每一阶段都可使用代价敏感的技术。实验表明,MPCSL具有TPEL的一切优点。与此同时,MPCSL在集成异构的过滤器时,集成效果非常理想,且在某些情况下,MPCSL进行多次间接学习能进一步提高过滤准确性。TPEL和MPCSL的优点还有:间接学习阶段的知识维数非常小,使许多对内存要求较高且性能较好的算法可被应用到间接学习阶段。 本文的另一个研究侧面是探索利用WI相关的技术实现基于电子邮件的智能应用。我们提出了可操作电子邮件的设计理念,同时,就基于可操作电子邮件在万维电子邮件网(Whole World Social Email Network,WWSEN)中实现异步的智能应用进行了阐述,指出了待研究的问题。在基于电子邮件的智能应用方面,本文还研究、设计和实现了一个电子邮件个性化智能助手。该助手的最大特点是:(1)可处理可操作电子邮件,以实现某些自动功能。(2)采用了我们提出的基于本体的归档方式,从而提供了基于概念的邮件分类存储和检索功能。(3)采用了我们设计的基于时间窗口的用户动态行为学习方法。(4)使用多个智能体进行垃圾邮件的自动过滤。 总之,本文从近期目标角度,研究了:对垃圾邮件问题的过滤技术和理论、智能助手的实现技术和理论。我们深切期望本文提出的可操作电子邮件(或相似提法的电子邮件)及万维电子邮件网能引起国内外研究人员的重视。从长期研究目标的角度,提出了可操作电子邮件及万维电子邮件网;指出了有待研究的问题。在前一方面,关于邮件过滤研究的成果不但对过滤垃圾有效,显然可被推广到处理其他类似的代价敏感分类问题。关于电子邮件智能助手方面的研究成果可被用户行为学习等领域的研究者借鉴。后一方面的研究拓宽了WI的研究领域。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号