首页> 外文OA文献 >ANALISIS SPAM FILTERING PADA MAIL SERVER DENGANudMETODE BAYESIAN CHI-SQUARE DANudNAIVE BAYES CLASSIFIER
【2h】

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGANudMETODE BAYESIAN CHI-SQUARE DANudNAIVE BAYES CLASSIFIER

机译:ud邮件服务器的垃圾邮件过滤分析贝叶斯卡方和方法朴素贝叶斯分类器

摘要

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODEudBAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIERudANDRIYANTO DWI NURAHMATudJurusan Informatika.Fakultas Matematika dan Ilmu Pengetahuan Alam.udUniversitas Sebelas Maret.udABSTRAKudSpam pada email merupakan hal yang sangat menggangu makauddiperlukan filtering untuk mengklasifikasikan email, terdapat beberapaudmetode yang dapat mengklasifikasikan email. Metode tersebut antara lainudBayesian Chi-Square dan Naïve Bayes Classifier, kedua metode tersebutudmengklasifikan email secara matematis, untuk mengklasifikasikan emailudberdasarkan kata, frasa dan domain yang terdapat didalam email.udPenelitian analisis spam filtering pada mail server ini menggunakanudmetode Bayesian-Chi Square dan Naïve Bayes Classifier. Kedua metodeuddibandingkan untuk mengetahui metode yang lebih efektif digunakan padaudspam filtering. Keduanya diintegrasikan dengan mail server, selanjutnyauddilakukan training dengan menggunakan dataset TREC2007 yang telahuddiklasifikasikan menjadi ham dan spam. Sampel data diperoleh denganudmengambil sebagian data secara random dari TREC2007. Pada tahapudpengujian masing-masing bagian, dilakukan pengujian dengan sample dataudrandom yang berjumlah 300 email. Untuk menginputkan data traininguddilakukan secara bertahap tahap I data training berjumlah 750 email, tahap IIudberjumlah 1050 email, dan terakhir 1350. selanjutnya sampai pada tahapudpengujian, pengujian dilakukan untuk setiap tahap training data di keduaudmetode tersebut. Pada metode Bayesian Chi-Square dilakukan pengujianuddengan mengubah threshold antara spam dan ham, sehingga akan diketahuiudthreshold yang terbaik untuk digunakan.udHasil penelitian dari serangkaian pengujian menunjukkan metodeudBayesian Chi-Square mempunyai akurasi terbaik pada saat threshold 40 danud60, dengan nilai akurasi 87%. Sementara metode Naïve Bayes Classifierudmemiliki hasil yang lebih baik dengan required default 5 mampuudmenghasilkan akurasi terbaik mencapai 92,6%, akurasi tinggi jugaudmengakibatkan beberapa tiper error menjadi tinggi seperti error spam menjadiudham yang berakibat mengganggu kinerja server, error kedua adalah hamudmenjadi spam akibatnya email yang seharusnya berada diinbox akan kespamudatau terhapus. Untuk metode bayesian chi-square terdapat error unsureudakibatnya user harus mengklasifikasikan email secara mandiri tetapi nilainyaudberbanding terbalik dengan akurasi.udKata Kunci : Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier,udSpamudududSPAM FILTERING ANALYSIS ON THE MAIL SERVER WITH THEudBAYESIAN CHI-SQUARE METHODS ANDudTHE NAIVE BAYES CLASSIFIER METHODSudANDRIYANTO DWI NURAHMATudDepartment of Informatic. Mathematic and Science Faculty.udSebelas Maret UniversityudABSTRACTudSpam is a very disturbing case, so it is necessary to filtering the classify emailudand there are several methods that can classify the email. the methods are BayesianudChi-Square and Naïve Bayes Classifier, both are classify the email mathematicallyudbased on words, phrases and domains contained within the email.udthis Research of analysing spam filtering on the mail server is using theudBayesian-Chi Square and Naïve Bayes Classifier methods. Both were compared touddetermine which method is more effective on spam filtering. the methods could beudintegrated with the mail server, then training using the data set TREC2007 whichudhave been classified into ham and spam. the Samples obtained take some randomuddata from TREC2007 . In the testing phase of each pieces, performed testing withud300 sample data of random email. gradually, Input training data first phase up to 750udemails, second phase up to 1050 email, and the last was 1350. next, the testing phase,udthe testing is done for each phase of training data in both methods. the Bayesian Chi-udSquare test method is done by changing the threshold between spam and ham, soudthere will know which is the best threshold to use.udbased on test result, the conclusion are the Bayesian Chi-Square method has theudbest accuracy threshold at 40 and 60, with the accuracy was 87%. While NaïveudBayes Classifier method had better results with the required default 5 is able toudproduce the best accuracy reaches 92,6%, this high accuracy also resulted in someudtype of the error such as errors result in spam being the ham that interfere theudperformance of the server, the second error is ham being spam which is the emailudthat should be in inbox will become spam or deleted. there are error unsure in Chisquareudbayesian that consequently the user must classify email independently but itsudvalue is inversely proportional to accuracy.udKeywords: Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam
机译:使用卡方平方贝叶斯方法和朴素贝叶斯分类器对邮件服务器进行垃圾邮件过滤分析ududriRianto DWI NURAHMATU信息学系,数学与自然科学学院,3月11日,大学。如果您需要过滤以对电子邮件进行分类,则可以使用多种方法对电子邮件进行分类。这些方法包括:贝叶斯(Bayesian)Chi-Square和朴素贝叶斯分类器(NaïveBayes Classifier),这两种方法都通过数学方法对电子邮件进行分类,基于电子邮件中包含的单词,短语和域对电子邮件进行分类,以及使用数学方法对邮件服务器上的垃圾邮件过滤进行分析的研究。贝叶斯智广场和朴素贝叶斯分类器。比较这两种方法,以找出哪种方法更有效地使用udspam过滤。两者都与邮件服务器集成在一起,然后使用已分类为火腿和垃圾邮件的TREC2007数据集进行培训。数据样本是通过从TREC2007中随机获取一些数据而获得的。在每个部分的测试阶段,将使用300个随机电子邮件的样本数据进行测试。要分阶段输入培训数据,培训数据的第一阶段是750封电子邮件,第二阶段是1050封电子邮件,最后是1350封电子邮件。然后,直到测试阶段,使用两种方法对培训数据的每个阶段进行测试。在贝叶斯卡方方法中,通过更改垃圾邮件和火腿之间的阈值来进行测试,从而将其确定为最佳阈值,一系列测试的结果表明,卡方贝叶斯方法在40和60阈值时具有最高的准确性。 ,精度值为87%。虽然朴素贝叶斯分类器方法具有更好的结果,所需的默认值5可以产生最高准确度,达到92.6%,但高精度还会导致一些高错误错误,例如垃圾邮件错误变成乌德姆,从而导致服务器性能下降,这是第二个错误是由于已经保存或删除了应该在邮箱中的电子邮件而导致的垃圾邮件。对于贝叶斯卡方方法,存在一个错误,导致用户必须对电子邮件进行独立分类,但是该值与准确性成反比。关键字:贝叶斯卡方,电子邮件,火腿,朴素贝叶斯分类器, udSpam ud udSPAM邮件服务器使用udBAYESIAN卡方方法和ud朴素贝叶斯分类器方法udANDRIYANTO DWI NURAHMAT ud进行过滤分析。乌德十一月大学数学与科学学院udABSTRACT udSpam是一个非常令人不安的情况,因此有必要对分类电子邮件进行过滤,并且有几种方法可以对电子邮件进行分类。方法是贝叶斯 udChi-Square和朴素贝叶斯分类器,它们都是基于电子邮件中包含的单词,短语和域对ud进行数学分类的udthis在邮件服务器上分析垃圾邮件过滤的研究是使用eBay udes-Chi Square和朴素贝叶斯分类器方法。两者均与在垃圾邮件过滤方面更有效的方法进行了比较。这些方法可以与邮件服务器集成,然后使用已分类为火腿和垃圾邮件的TREC2007数据集进行训练。获得的样本取自TREC2007的一些随机数据。在每件的测试阶段,使用 ud300随机电子邮件的样本数据进行测试。逐步地,输入培训数据,第一阶段最多750封电子邮件,第二阶段最多1050封电子邮件,最后一个阶段输入1350。接下来的测试阶段,使用两种方法对训练数据的每个阶段进行测试。贝叶斯卡方检验方法是通过更改垃圾邮件和火腿之间的阈值来完成的,因此根据测试结果将知道哪个是最佳使用阈值。结论是贝叶斯卡方检验方法具有“最佳准确度阈值为40和60,准确度为87%。尽管Naïve的分类器方法具有更好的结果,并且所需的默认值5能够产生最高的准确度,达到92.6%,但这种高准确度还会导致某些错误,例如错误导致垃圾邮件是垃圾邮件的结果接口服务器的性能,第二个错误是火腿是垃圾邮件,这是收件箱将被垃圾邮件删除的电子邮件。 Chisquare udbayesian中存在错误元素,因此用户必须对电子邮件进行独立分类,但是值与准确性成反比。 udKeywords:贝叶斯-Chi Square,电子邮件,火腿,朴素贝叶斯分类器,垃圾邮件

著录项

  • 作者

    W ANDRIYANTO DWI;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号