Abstrak


Perbandingan Emosi Pengguna Commuterline dan Transjakarta Berbasis Data Twitter Menggunakan Metode Multinomial Naïve Bayes


Oleh :
Fransiska Meilani - M0514018 - Fak. MIPA

ABSTRAK
Transportasi merupakan salah satu aspek yang menyangkut hajat hidup orang banyak. Ketersediaan transportasi umum menjadi perhatian serius Pemerintah DKI Jakarta. Pemerintah menyediakan beragam transportasi umum seperti Commuterline dan Transjakarta. Kepuasan pengguna terhadap layanan transportasi itu dapat diungkapkan melalui media sosial seperti Twitter. Tweet mengenai kepuasan layanan dapat berupa emosi atau tidak, hal ini dapat diketahui melalui klasifikasi. Salah satu metode klasifikasi yang dapat digunakan adalah Multinomial Naive Bayes atau disebut MNB. Tahap-tahap penelitian dalam klasifikasi ini antara lain pengumpulan data, pemberian label data, text preprocessing, pembobotan TF-IDF, klasifikasi dengan MNB menggunakan 10-fold cross validation, dan evaluasi. Dalam tahap klasifikasi terdiri dari dua tahap, tahap pertama untuk mengklasifikasikan tweet mengandung emosi dan tidak, tahap kedua mengklasifikasikan tweet yang mengandung emosi menjadi lima emosi yaitu senang, marah, sedih, takut dan terkejut. Akurasi hasil klasifikasi tahap pertama untuk Commuterline, Transjakarta dan data campuran berturut-turut sebesar 84.40%, 81.78% dan 83.52%. Akurasi hasil klasifikasi tahap kedua untuk data asli Commuterline, Transjakarta dan data campuran berturut-turut sebesar 91.85%, 91.21% dan 91.53%. Akurasi data seimbang dengan unproportional Random Oversampling (ROS) untuk Commuterline, Transjakarta, dan data campuran secara berturut-turut 96.18%, 96.55% dan 95.63%. Akurasi data seimbang dengan proportional Random Oversampling (ROS) untuk Commuterline, Transjakarta, dan data campuran berturut-turut 96.01%, 96.27% dan 95.21%. Setelah klasifikasi, melakukan analisa perbandingan emosi berdasarkan grafik time series dan word cloud. Hasil time series menunjukkan tingkat kenaikan emosi marah Transjakarta lebih banyak dari Commuterline, hal ini disebabkan faktor gangguan Transjakarta yang lebih banyak. Dan hasil word cloud istilah yang paling sering digunakan pada kedua data set adalah kata ‘tunggu’, hal ini menunjukkan bahwa kedua transportasi memiliki masalah yang sama yaitu tingkat waktu tunggu transportasi yang cukup lama.
Kata kunci: Model emosi, TF-IDF, ROS, Multinomial Naive Bayes, 10-fold cross validation