Penggunaan keyboard dan mouse dalam kehidupan sekarang ini mulai tergantikan dengan adanya Automatic Speech Recognition (ASR). ASR merupakan sistem komputer yang mampu memahami suara manusia. Penggunaan ASR yang lekat dalam kehidupan sehari-hari menjadikan perkembangan ASR banyak diminati. Salah satu perkembangan ASR adalah penggunaan deep learning dalam klasifikasi suara. Contoh deep learning yang kerap digunakan dalam ASR adalah Deep Neural Network (DNN), Convolutional Neural Network (CNN), serta Autoencoder Convolutional Neural Network (AECNN). Selain model yang digunakan, ekstraksi fitur merupakan langkah penting dalam ASR dimana komponen sinyal dipilah. Dalam penelitian ini dilakukan perbandingan Mel-frequency Cepstral Coefficients (MFCC), Mel-Filter Bank (MFB), dan Log Mel-Filter Bank (LMFB) sebagai ekstraksi fitur untuk model deep learning. Selain itu dilihat pula model terbaik dengan penggunaan tiga optimizer yaitu Adaptive Moment Estimation (Adam), Root Mean Square Propagation (RMSprop), dan AdaMax. Data yang digunakan dalam penelitian ini adalah data Speech Command yang diperoleh dari Kaggle. Model terbaik dipilih dengan hasil akurasi tertinggi dan kerugian yang kecil. Penelitian ini menghasilkan akurasi tertinggi pada model CNN dengan menggunakan MFCC sebagai ekstraksi fitur dan AdaMax sebagai optimizer yaitu sebesar 90,61%.