CNN Berbasis Blok Xception Menggunakan Fitur Koefisien Mel-frequency Terpilih pada Speech Emotion Recognition

Ismail, Kevin

Penelitian ini menguji performa berbagai modul ekstraksi fitur berbasis melfrequency seperti MFCC, MFDWC, dan MFWPC pada tugas Speech Emotion Recognition. Komparasi secara empiris membuktikan bahwa dalam skenario penelitian yang dilakukan, MFDWC menghasilkan performa yang lebih baik dibandingkan terhadap MFCC dan MFWPC. Kemudian, pada modul klasifikasi emosi, penelitian ini menguji performa blok Xception sebagai konvolusi pembangun yang memperlukan jumlah parameter yang rendah. Eksperimen yang dijalankan dengan Blok Xception memiliki efisiensi yang lebih baik terhadap Blok Residual sebagai blok pembanding. Tahap akhir dari penelitian menghasilkan output berupa model CNN ideal yang telah dilatih dalam skenario single-corpus SER terhadap dataset Ravdess, Emovo, dan Emo-DB. Pelatihan final SER 6 emosi menghasilkan model dengan skor WA/UA sebesar 83.52%/83.71% pada dataset Ravdess, 77.57%/78.04% pada dataset Emovo, dan 83.69%/84.02% pada dataset Emo-DB.

Abstrak

CNN Berbasis Blok Xception Menggunakan Fitur Koefisien Mel-frequency Terpilih pada Speech Emotion Recognition