Training SVM email classifiers using very large imbalanced dataset

Lili Diao; Chengzhong Yang; Hao Wang

首页> 外文期刊>Journal of Experimental & Theoretical Artificial Intelligence >Training SVM email classifiers using very large imbalanced dataset

【24h】

Training SVM email classifiers using very large imbalanced dataset

机译：使用非常大的不平衡数据集训练SVM电子邮件分类器

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

The Internet has been flooded with spam emails, and during the last decade therenhas been an increasing demand for reliable anti-spam email filters. The problemnof filtering emails can be considered as a classification problem in the field ofnsupervised learning. Theoretically, many mature technologies, for example,nsupport vector machines (SVM), can be used to solve this problem. However, innreal enterprise applications, the training data are typically collected via honeypotsnand thus are always of huge amounts and highly biased towards spam emails.nThis challenges both efficiency and effectiveness of conventional technologies.nIn this article, we propose an undersampling method to compress and balance thentraining set used for the conventional SVM classifier with minimal informationnloss. The key observation is that we can make a trade-off between training set sizenand information loss by carefully defining a similarity measure between datansamples. Our experiments show that the SVM classifier provides a betternperformance by applying our compressing and balancing approach.

机译：互联网已被垃圾邮件充斥，在过去十年中，对可靠的反垃圾邮件过滤器的需求不断增长。过滤电子邮件的问题可以看作是监督学习领域中的分类问题。从理论上讲，许多成熟的技术，例如nsupport向量机（SVM），都可以用来解决此问题。但是，在非现实企业应用程序中，培训数据通常是通过蜜罐收集的，因此总是庞大且偏向于垃圾邮件。n这对传统技术的效率和有效性都提出了挑战。n在本文中，我们提出了一种欠采样方法来压缩和平衡然后用于传统SVM分类器的训练集具有最小的信息损失。关键的观察结果是，通过仔细定义数据样本之间的相似性度量，我们可以在训练集大小和信息损失之间进行权衡。我们的实验表明，通过使用我们的压缩和平衡方法，SVM分类器可提供更好的性能。

著录项

来源
《Journal of Experimental & Theoretical Artificial Intelligence》 |2012年第2期|p.1-19|共19页
作者
Lili Diao; Chengzhong Yang; Hao Wang;
展开▼
作者单位

aCore Technology – Research, Trend Micro Inc., Nanjing 210012, Jiangsu Province, China;

bSchool of Management and Engineering, Nanjing University, Nanjing 210093,Jiangsu Province, China;

cDepartment of Computer Science, The University of Hong Kong,Hong Kong, China;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
email classification; support vector machine; imbalance learning; training set compression; undersampling;

机译：电子邮件分类;支持向量机不平衡学习;训练集压缩;欠采样;

相似文献

外文文献
中文文献
专利

1. Imbalanced SVM‐Based Anomaly Detection Algorithm for?Imbalanced Training Datasets [J] . GuiPing Wang, JianXi Yang, Ren Li ETRI journal . 2017,第5期

机译：基于不平衡 SVM 的异常检测算法，用于不平衡训练数据集
2. iPPBS-Opt: A Sequence-Based Ensemble Classifier for Identifying Protein-Protein Binding Sites by Optimizing Imbalanced Training Datasets [J] . Jia Jianhua, Liu Zi, Xiao Xuan, Molecules . 2016,第1期

机译：iPPBS-Opt：通过优化不平衡训练数据集来识别蛋白质与蛋白质结合位点的基于序列的集合分类器
3. iPPBS-Opt: A Sequence-Based Ensemble Classifier for Identifying Protein-Protein Binding Sites by Optimizing Imbalanced Training Datasets [J] . Jianhua Jia, Zi Liu, Xuan Xiao, Molecules . 2016,第1期

机译：iPPBS-Opt：通过优化不平衡训练数据集来识别蛋白质与蛋白质结合位点的基于序列的集合分类器
4. An Effective Parallel SVM Intrusion Detection Model for Imbalanced Training Datasets [C] . Jing Zhao, Jun Li, Chun Long, International Conference on Enterprise Information Systems . 2020

机译：用于不平衡训练数据集的有效并行SVM入侵检测模型
5. Classifier design to improve pattern classification and knowledge discovery for imbalanced datasets. [D] . Wang, Kun. 2009

机译：分类器设计可改进模式分类和不平衡数据集的知识发现。
6. iPPBS-Opt: A Sequence-Based Ensemble Classifier for Identifying Protein-Protein Binding Sites by Optimizing Imbalanced Training Datasets [O] . Jianhua Jia, Zi Liu, Xuan Xiao, 2016

机译：iPPBS-Opt：一种基于序列的集成分类器用于通过优化不平衡训练数据集来识别蛋白质与蛋白质的结合位点
7. iPPBS-Opt: A Sequence-Based Ensemble Classifier for Identifying Protein-Protein Binding Sites by Optimizing Imbalanced Training Datasets [O] . Jianhua Jia, Zi Liu, Xuan Xiao, 2016

机译：ippBs-Opt：基于序列的集成分类器，用于通过优化不平衡训练数据集来识别蛋白质 - 蛋白质结合位点
8. Chinese Classifier Assignment Using SVMs [R] . Guo, H. , Zhong, H. 2005

机译：使用sVm的中文分类器分配

Training SVM email classifiers using very large imbalanced dataset

摘要

著录项

相似文献

相关主题

期刊订阅