Part of speech (POS) tagging bahasa Indonesia menggunakan algoritma hidden markov model-ngram & algoritma viterbi

Vindiyanto, Michael Juan

Part of Speech (POS) Tagging merupakan salah satu aplikasi dari Natural Language Processing. POS Tagging merupakan proses pemberian label kelas kata pada kalimat. Salah satu masalah dalam POS Tagging adalah ambiguitas. Ambiguitas sendiri adalah kata yang dieja sama tetapi memiliki POS Tag yang berbeda tergantung pada konteks kalimatnya. Salah satu pendekatan untuk menyelesaikan masalah ini adalah menggunakan algoritma Hidden Markov Model (HMM) N-gram dan algoritma Viterbi. Penelitian ini membahas tentang pengembangan sebuah sistem POS tagging menggunakan algoritma HMM N-gram (bigram & trigram) dan algoritma Viterbi untuk menyelesaikan masalah tersebut dan mengetahui manakah yang lebih baik antara HMM Bigram dan HMM Trigram. Oleh karena itu sebuah korpus yang sudah dilabeli secara manual bernama “Indonesian Manually Tagged Corpus” digunakan sebagai pengetahuan sistem. Kemudian korpus tersebut diproses menggunakan algoritma HMM N-gram untuk memperoleh aturan yang akan digunakan nanti. Kemudian data testing diproses menggunakan algoritma Viterbi menggunakan aturan yang sudah diperoleh sebelumnya untuk menentukan POS Tag yang memiliki probabilitas tertinggi. Hasil akurasi tertinggi adalah 77.56% menggunakan algoritma HMM Bigram – Viterbi dengan komposisi 9,000 data training dan 1,000 data testing. Sedangkan pada algoritma HMM Trigram – Viterbi memiliki akurasi tertinggi sebesar
61.67?ngan komposisi data yang sama. Hal ini menunjukan bahwa sistem yang dibuat dapat mengatasi masalah ambiguitas tag menggunakan algoritma HMM Ngram
– Viterbi dan kita juga mengetahui bahwa HMM Bigram lebih baik daripada HMM Trigram.

Keywords: POS Tagging, Hidden Markov Model, N-gram, Bigram, Trigram, Viterbi

Abstrak

Part of speech (POS) tagging bahasa Indonesia menggunakan algoritma hidden markov model-ngram & algoritma viterbi