Perbandingan Metode Oversampling untuk Menangani Data Tidak Seimbang pada Klasifikasi Ensemble Learning

Sari, Rizki Aulia

Dalam pengambilan data, sering dijumpai kasus di mana kelas data tidak seimbang. Hal ini mengakibatkan data tidak dapat diolah secara optimal. Penelitian ini membandingkan performance pada penanganan data tidak seimbang dengan menggunakan metode oversampling dan klasifikasi ensemble learning. Terdapat tiga dataset berbeda yang akan dilakukan oversampling dengan menggunakan metode SMOTE, Borderline-SMOTE, SVM SMOTE, dan KMeans-SMOTE, dan kemudian diklasifikasi menggunakan algoritma Random Forest dan Gradient Boosting. Hasil dari masing-masing klasifikasi dievaluasi dengan membandingkan nilai akurasi, F-score, Geometric Mean (G-Mean), dan Area Under Curve (AUC). Klasifikasi menggunakan algoritma random forest cenderung menghasilkan performa yang lebih baik dibanding algoritma gradient boosting pada ketiga dataset yang diujikan. Performa kedua algoritma ensemble learning menunjukkan nilai rata-rata klasifikasi random forest pada dataset yang telah dikenai oversampling lebih optimal dibandingkan klasifikasi gradient boosting dengan akurasi, F-score, dan g-mean di atas 97.8%, serta skor AUC di atas 99.5%.

Abstrak

Perbandingan Metode Oversampling untuk Menangani Data Tidak Seimbang pada Klasifikasi Ensemble Learning