Abstrak


Deteksi spammer di twitter dengan mempelajari tweet-based features


Oleh :
Yulia Wardhani - M.0508012 - Fak. MIPA

Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut dalam status mereka, layanan ini juga membuka peluang terbentuknya spam. Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah follower, following, URL, @mention dan #hashtag). Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86% untuk dataset 2, dan 93,67% untuk dataset 3. Kata Kunci: Algoritma C5.0, Deteksi Spammer, Tweet-based Features, Twitter.