Abstrak
Analisis spam filtering pada mail server dengan metode bayesian chi-square dan naive bayes classifier
Oleh :
Andriyanto Dwi N - M0508085 - Fak. MIPA
Spam pada email merupakan hal yang sangat menggangu maka diperlukan filtering untuk mengklasifikasikan email, terdapat beberapa metode yang dapat mengklasifikasikan email. Metode tersebut antara lain Bayesian Chi-Square dan Naïve Bayes Classifier, kedua metode tersebut mengklasifikan email secara matematis, untuk mengklasifikasikan email berdasarkan kata, frasa dan domain yang terdapat didalam email.
Penelitian analisis spam filtering pada mail server ini menggunakan metode Bayesian-Chi Square dan Naïve Bayes Classifier. Kedua metode dibandingkan untuk mengetahui metode yang lebih efektif digunakan pada spam filtering. Keduanya diintegrasikan dengan mail server, selanjutnya dilakukan training dengan menggunakan dataset TREC2007 yang telah diklasifikasikan menjadi ham dan spam. Sampel data diperoleh dengan mengambil sebagian data secara random dari TREC2007. Pada tahap pengujian masing-masing bagian, dilakukan pengujian dengan sample data random yang berjumlah 300 email. Untuk menginputkan data training dilakukan secara bertahap tahap I data training berjumlah 750 email, tahap II berjumlah 1050 email, dan terakhir 1350. selanjutnya sampai pada tahap pengujian, pengujian dilakukan untuk setiap tahap training data di kedua metode tersebut. Pada metode Bayesian Chi-Square dilakukan pengujian dengan mengubah threshold antara spam dan ham, sehingga akan diketahui threshold yang terbaik untuk digunakan.
Hasil penelitian dari serangkaian pengujian menunjukkan metode Bayesian Chi-Square mempunyai akurasi terbaik pada saat threshold 40 dan 60, dengan nilai akurasi 87%. Sementara metode Naïve Bayes Classifier memiliki hasil yang lebih baik dengan required default 5 mampu menghasilkan akurasi terbaik mencapai 92,6%, akurasi tinggi juga mengakibatkan beberapa tiper error menjadi tinggi seperti error spam menjadi ham yang berakibat mengganggu kinerja server, error kedua adalah ham menjadi spam akibatnya email yang seharusnya berada diinbox akan kespam atau terhapus. Untuk metode bayesian chi-square terdapat error unsure akibatnya user harus mengklasifikasikan email secara mandiri tetapi nilainya berbanding terbalik dengan akurasi.
Kata Kunci : Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam