Abstrak


Klasifikasi Penyakit Diabetes Menggunakan Algoritma Random Forest dan Support Vector Machine


Oleh :
Anggita Ghozali - M0719015 - Fak. MIPA

Diabetes menjadi salah satu penyakit yang mematikan. Penyakit ini masuk dalam sepuluh besar penyebab kematian secara global. Pada tahun 2045, pasien diabetes diprediksi akan meningkat sebanyak 12,2%, dengan jumlah penderita penyakit diabetes sebesar 642,7 juta. Selain itu, penderita penyakit diabetes di Indonesia akan menempati ranking kelima di dunia. Oleh karena itu, masyarakat perlu waspada terhadap penyakit ini. Dengan data diabetes yang ada, maka dapat dimanfaatkan untuk mengetahui penyakit diabetes secara dini. Dari data diabetes tersebut dapat diklasifikasikan menggunakan data mining. Data yang digunakan pada penelitian ini merupakan data sekunder dari Kaggle, yang berasal dari Rumah Sakit Sylhet Bangladesh, dengan jumlah data sebesar 520 dan 17 variabel. Algoritma yang digunakan yaitu Random Forest dan Support Vector Machine. Tujuan dari penelitian ini yaitu untuk mengetahui algoritma yang lebih baik dalam mengklasifikasikan penyakit diabetes. Data dalam penelitian ini dibagi dalam tiga kondisi, yaitu 80%:20%, 75%:25%, dan 70%:30?n diseimbangkan menggunakan Synthetic Minority Oversampling (SMOTE). Dari hasil penelitian didapatkan bahwa algoritma Random Forest dengan split data 80%:20% mendapatkan hasil terbaik dengan akurasi yang didapatkan sebesar 0,98, presisi sebesar 0,96, recall sebesar 1, specificity sebesar 0,95, dan F1-score sebesar 0,98. Tiga variabel yang paling berpengaruh dalam klasifikasi penyakit diabetes ini secara berturut turut adalah polyuria, polydipsia, dan jenis kelamin.