Data akademik memiliki
peran sentral dalam mendukung pengambilan keputusan di lembaga pendidikan.
Namun, keberhasilan implementasi machine learning untuk menganalisis dan
membuat prediksi berdasarkan data akademik sangat bergantung pada kualitas dan
keterbacaan data tersebut. Untuk memanfaatkan potensi penuh dari machine
learning, perlu dilakukan proses preprocessing yang cermat pada data
akademik. Penelitian ini bertujuan untuk mendesain dan mengimplementasikan
teknik-teknik preprocessing, yaitu imputasi, winsorizing, dan dropping
data pada data akademik. Untuk manangani missing value, dilakukan
imputasi menggunakan metode MICE dengan tiga buah algoritma berbeda, yaitu
regresi linear, random forest, dan KNN kemudian membandingkan akurasi
dari ketiga algoritma tersebut dalam memprediksi missing value.
Diterapkan juga metode winsorizing data pada outlier dan dropping
data pada data duplikat. Berdasarkan hasil pengujian melalui evaluasi
metrik, teknik preprocessing tersebut dapat meningkatkan akurasi model
sebesar 0,037 untuk MAE (Mean Absolute Error), 0,11 untuk RMSE (Root
Mean Square Error) , dan 0,006 untuk MSE (Mean Square Error). Data
yang telah diproses memungkinkan model untuk berfungsi lebih optimal dan
menghasilkan hasil yang lebih dapat diandalkan.