Deteksi Ambiguitas Singkatan Medis dengan Metode Naive Bayes, Long-short Term Memory, dan Support Vector Machine

Andini, Ruth

Pelayanan kesehatan dan tenaga kesehatan menggunakan singkatan medis untuk berkomunikasi dengan pasien di bidang medis. Seiring bertambahnya jenis penyakit, obat-obatan, dan kemajuan teknologi di bidang medis menyebabkan semakin banyaknya singkatan medis yang seringkali memiliki singkatan yang sama dengan arti yang berbeda. Kesamaan singkatan tersebut menimbulkan ambiguitas yang dapat berakibat fatal bagi pasien. Ambiguitas ini dapat dikurangi dengan menerapkan model pembelajaran mesin. Penelitian ini membandingkan metode Naive Bayes, Long-Short Term Memory (LSTM), dan Support Vector Machine (SVM) berdasarkan akurasi, presisi, recall, dan skor F1 untuk mengurangi keambiguan singkatan medis. Data yang digunakan adalah Medical Dataset for Abbreviation Disambiguation for Natural Language Understanding (MeDAL) yang didapatkan dari Kaggle. Preprocessing pada MeDAL dilakukan dengan melakukan wrangling, tokenisasi, dan membagi data menjadi data training dan data testing dengan perbandingan 80%:20%. Selanjutnya, data hasil preprocessing dimodelkan dengan multinomial Naïve Bayes, LSTM, dan SVM. Pada LSTM menggunakan aktivasi sigmoid, aktivasi tanh, dan optimasi Adam. Sementara pada SVM, parameter yang digunakan adalah C, gamma, dan kernel RBF. Akurasi dari ketiga model dibandingkan dan diperoleh nilai tertinggi pada model LSTM, yaitu akurasi 98,78%, presisi 99,11%, recall 98,17%, dan skor F1 98,64%. Hasil penelitian ini ix menunjukkan bahwa model LSTM merupakan model terbaik karena model ini memiliki keunggulan mengklasifikasikan singkatan medis berdasarkan spesialisasinya karena memiliki sel memori untuk menyimpan informasi dan tiga gerbang kontrol yaitu forget gates, input gates, dan output gates.

Abstrak

Deteksi Ambiguitas Singkatan Medis dengan Metode Naive Bayes, Long-short Term Memory, dan Support Vector Machine