×
ABSTRAK
Pengelompokkan kategori berita secara otomatis dapat meningkatkan efisiensi kinerja media berita online. Pengelompokkan kategori berita memanfaatkan metode Text Classification yaitu salah satu metode Data Mining untuk klasifikasi teks berdasarkan kategori. Penelitian ini mengklasifikasi berita online melalui judul beritanya. Metode Bag-of-Words dan TF-IDF banyak digunakan untuk ekstraksi fitur pada teks yang berukuran panjang. Pada klasifikasi short text, penggunaan Bag-of-Words dan TF-IDF kurang optimal karena vektor short text terbentuk terlalu panjang dan sparse yang menyebabkan penurunan kinerja classifier. Word2Vec adalah metode yang dapat menghasilkan representasi word vector dari korpus teks dan menghasilkan fitur semantik. Pada penelitian ini Word2Vec digunakan untuk pembuatan fitur short text dalam klasifikasi judul berita Indonesia menggunakan Support Vector Machine sebagai classifier. Hasil penelitian ini menunjukkan Word2Vec yang digabung dengan TF-IDF menghasilkan nilai akurasi lebih baik daripada TF-IDF biasa.
Kata kunci: Short Text Classification, Support Vector Machine, Word2vec