×
ABSTRAK
Alat untuk memahami pola tata bahasa alami disebut pengurai. Masalah ambiguitas struktural dalam mengidentifikasi pola kalimat sering terjadi dalam penguraian. Penguraian sintaksis adalah salah satu pendekatan untuk memecahkan masalah ambiguitas struktural menggunakan metode Probabilistic Context-Free Grammar (PCFG) dan Viterbi-Cocke Younger Kasami (Viterbi-CYK). Sementara itu, sejumlah besar sumber daya Bahasa Indonesia diperlukan sebagai pengetahuan mesin untuk mengurai. Penelitian ini membahas mengenai sebuah penguraian pola kalimat Bahasa Indonesia yang dilabeli dengan sumber daya Indonesian Tagged Corpus, kemudian memecahkan masalah tidak adanya aturan baku CFG dalam Bahasa Indonesia, dan masalah ambiguitas struktural pada penguraian pola kalimat Bahasa Indonesia menggunakan algoritma PCFG dan Viterbi-CYK. Data corpus diproses untuk mendapatkan aturan tata bahasa dengan algoritma PCFG. Selanjutnya, kalimat pada corpus diproses dengan aturan PCFG yang hasilkan dan menggunakan algoritma Viterbi-CYK untuk mendapatkan pohon penguraian yang diambil berdasarkan nilai probabilitas tertinggi. Hasil penelitian yang telah dilakukan dengan jumlah data testing 129 kalimat menghasilkan dua nilai, yaitu nilai rata similaritas production rules dan nilai akurasi. Masing-masing nilai tertinggi adalah 92,95% untuk nilai rata-rata similaritas production rules dan 34,11% untuk nilai akurasi. Dari hasil yang telah dipaparkan, nilai rata-rata similaritas production rules mengartikan algoritma Viterbi-CYK sudah baik dalam melakukan penguraian, namun nilai akurasi 34,11% mengindikasikan adanya kesalahan pengetahuan yang digunakan dalam penguraian. Kesalahan pengetahuan terkait masalah structural dependencies dan lexical dependencies pada aturan PCFG yang diekstrak dari data corpus.
Kata Kunci: ambiguitas, PCFG, Viterbi-CYK, Pola Kalimat Bahasa Indonesia, Similaritas Production Rules.