Abstrak


Peningkatan Keterbacaan Data Akademik untuk Machine Learning melalui Teknik Preprocessing


Oleh :
Anna Mayyah Soraya - I0720003 - Fak. Teknik

Data akademik memiliki peran sentral dalam mendukung pengambilan keputusan di lembaga pendidikan. Namun, keberhasilan implementasi machine learning untuk menganalisis dan membuat prediksi berdasarkan data akademik sangat bergantung pada kualitas dan keterbacaan data tersebut. Untuk memanfaatkan potensi penuh dari machine learning, perlu dilakukan proses preprocessing yang cermat pada data akademik. Penelitian ini bertujuan untuk mendesain dan mengimplementasikan teknik-teknik preprocessing, yaitu imputasi, winsorizing, dan dropping data pada data akademik. Untuk manangani missing value, dilakukan imputasi menggunakan metode MICE dengan tiga buah algoritma berbeda, yaitu regresi linear, random forest, dan KNN kemudian membandingkan akurasi dari ketiga algoritma tersebut dalam memprediksi missing value. Diterapkan juga metode winsorizing data pada outlier dan dropping data pada data duplikat. Berdasarkan hasil pengujian melalui evaluasi metrik, teknik preprocessing tersebut dapat meningkatkan akurasi model sebesar 0,037 untuk MAE (Mean Absolute Error), 0,11 untuk RMSE (Root Mean Square Error) , dan 0,006 untuk MSE (Mean Square Error). Data yang telah diproses memungkinkan model untuk berfungsi lebih optimal dan menghasilkan hasil yang lebih dapat diandalkan.