ABSTRAK
Ujian Nasional (UAN atau UNAS atau UN) sebagai alat ukur evaluasi pemerintah untuk menentukan kualitas pendidikan di Indonesia. Kualitas ditunjukkan saat siswa dapat mengerjakan soal ujian nasional berdasarkan materi sesuai dengan Standar Kompetensi Lulusan (SKL). Soal dikelompokkan ke berbagai tema. Klasifikasi tema berguna untuk mengetahui golongan soal yang ada di dalam materi Standar Kompetensi Lulusan (SKL). Penelitian ini bertujuan untuk mengetahui kinerja algoritma Generalized Vector Space Model (GVSM) – improved KNN dalam melakukan klasifikasi soal berdasarkan tema. Algoritma GVSM digunakan untuk mengidentifikasi kemiripan kata yang muncul di dokumen yang satu dengan dokumen yang lain. Algoritma improved KNN ini mengklasifikasikan soal ujian nasional berdasarkan tema dalam mata pelajaran dengan menganalisa semua kata yang muncul pada soal ujian nasional. Pengujian dilakukan sebanyak 10 kali dengan metode k-fold cross validation menghasilkan nilai akurasi sebesar 0,7939, presisi sebesar 0,7771, dan recall sebesar 0,7633.
Kata kunci : Ujian Nasional, Standar Kompetensi Lulus (SKL), Klasifikasi Tema,Generalized Vector Space Model, Improved KNN.