Klasifikasi Tingkatan Bahasa pada Artikel Berbahasa Jawa dengan Metode Multinomial Naïve Bayes

Ardhana, Adhika Pri

ABSTRAK

Saat ini Bahasa Jawa perlu dilestarikan khususnya bagi generasi muda dikarenakan sulitnya peggunaan Bahasa Jawa yang memiliki 4 tingkatan, yakni ngoko, ngoko alus, krama madya dan krama inggil. Untuk itu diperlukan klasifikasi tingkatan bahasa pada Bahasa Jawa. Sebelum melakukan klasifikasi, data harus melalui text preprocessing, salah satunya adalah stemming untuk mengubah kata berimbuhan menjadi kata dasar. Dalam proses stemming Bahasa Jawa yang dilakukan dalam penelitian ini mengacu pada aturan stemming Bahasa Indonesia berdasarkan aturan Nazief-Adriani yang disesuaikan. Kemudian proses fitur ekstraksi dilakukan menggunakan N-Gram dan TF-IDF. Selanjutnya proses klasifikasi menggunakan metode Multinomial Naïve Bayes. Dalam proses klasifikasi, sering ditemui permasalahan terkait tidak seimbangnya data antar kategori sehingga digunakan metode resampling SMOTE untuk melakukan penyeimbangan data. Hasil klasifikasi dengan variasi fitur ekstraksi unigram menghasilkan precision, recall dan accuracy berturut-turut sebesar 67.00%, 74.00% dan 73.98%. Untuk hasil klasifikasi menggunakan TF-IDF memberikan precision, recall dan accuracy berturut-turut sebesar 72.67%, 75.00% dan 74.99%. Dari hasil penelitian ini dapat disimpulkan bahwa aturan stemming Bahasa Jawa yang diadaptasi dari aturan Nazief-Adriani memberikan pengaruh pada hasil precision, recall dan accuracy pada masing-masing fitur ekstraksi. Untuk fitur ekstraksi, TF-IDF memberikan hasil precision, recall dan accuracy yang lebih baik daripada fitur ekstraksi N-Gram. Teknik SMOTE pada penelitian ini memberikan kenaikan hasil precision, recall dan accuracy pada setiap fitur ekstraksi.

Kata Kunci – text mining, bahasa jawa, n-gram, tf-idf, smote, multinomial naïve bayes.

Abstrak

Klasifikasi Tingkatan Bahasa pada Artikel Berbahasa Jawa dengan Metode Multinomial Naïve Bayes