Perhitungan Manual Algoritma Naive Bayes Untuk Dataset Sederhana

Naive bayes merupakan salah satu algoritma klasifikasi yang amat terkenal. Selain simpel, tidak adanya proses training dalam naive bayes membuat algoritma ini relatif lebih cepat dari sisi waktu komputasi. Mesipun demikian, performa algoritma ini jangan dianggap enteng. Naive bayes telah terbukti efektif dalam mengatasi berbagai masalah. Dalam posting ini, saya akan menjabarkan bagaimana menghitung manual naive bayes untuk data kategorikal. Mengenai teori dasar algoritma naive bayes, dapat teman-teman pelajari di sumber yang lain.

Dataset

Baiklah, gambar 1 merepresentasikan dataset seherhana sebagai acuan untuk menghitung menggunakan naive bayes. Dataset ini memiliki 2 variabel input kategorikal, yaitu weather dan car dan variabel class. 
Gambar 1. Dataset untuk Perhitungan Naive Bayes
Setiap variabel input memiliki 2 nilai dan variabel class juga memiliki 2 nilai. Kita dapat mengkonversi setiap variabel ke dalam bentuk biner seperti berikut:

Variabel : Weather
  • sunny = 1
  • rainy = 0
Variabel : Car 
  • working = 1
  • broken = 0 
Variabel : Class
  • go-out = 1
  • stay-home = 0
Dengan demikian, hasil konversi dapat merubah dataset menjadi seperti gambar 2 berikut : 

Gambar 2 konversi ke dalam bentuk biner

Model Naive Bayes

Terdapat dua jenis peluang (probability) yang perlu dihitung dari dataset untuk model naive bayes :
  • Class Probabilities
  • Conditional Probabilities
Oke, kita mulai dari menghitung class probabilities :

Dataset memiliki 2 masalah kelas, kita dapat mengetahui probabilitas (P) masing-masing kelas dengan cara : 
  • P(class=1) = jumlah(class=1) / (jumlah(class=0) + jumlah(class=1))
  • P(class=0) = jumlah(class=0) / (jumlah(class=0) + jumlah(class=1))
Maka didapatkan : 
  • P(class=1) = 5 / (5 + 5)
  • P(class=0) = 5 / (5 + 5)
Nilai probabilitas (P) untuk P(class=1) dan P(class=0) adalah 0.5

Langkah selanjutnya adalah menghitung Conditional Probabilities, yaitu probililitas setiap nilai input terhadapat nilai class.

Variabel Weather
  • P(weather=sunny|class=go-out) = jumlah(weather=sunny and class=go-out) / jumlah(class=go-out)
  • P(weather=rainy|class=go-out) = jumlah(weather=rainy and class=go-out) / jumlah(class=go-out)
  • P(weather=sunny|class=stay-home) = jumlah(weather=sunny and class=stay-home) / jumlah(class=stay-home)
  • P(weather=rainy|class=stay-home) = jumlah(weather=rainy and class=stay-home) / jumlah(class=stay-home)
Nilai peluang yang didapatkan adalah :
  • P(weather=sunny|class=go-out) = 0.8
  • P(weather=rainy|class=go-out) = 0.2
  • P(weather=sunny|class=stay-home) = 0.4
  • P(weather=rainy|class=stay-home) = 0.6
Variabel Car
  • P(car=working|class=go-out) = jumlah(car=working and class=go-out) / jumlah(class=go-out)
  • P(car=broken|class=go-out) = jumlah(car=brokenrainy and class=go-out) / jumlah(class=go-out)
  • P(car=working|class=stay-home) = jumlah(car=working and class=stay-home) / jumlah(class=stay-home)
  • P(car=broken|class=stay-home) = jumlah(car=brokenrainy and class=stay-home) / jumlah(class=stay-home)
Nilai peluang yang didapatkan adalah :
  • P(car=working|class=go-out) = 0.8
  • P(car=broken|class=go-out) = 0.2
  • P(car=working|class=stay-home) = 0.2
  • P(car=broken|class=stay-home) = 0.8

Prediksi Naive Bayes

Baik, mari kita ambil record pertama dari dataset untuk memprediksi termasuk kelas mana record pertama tersebut.  
weather=sunny, car=working

Peluang kelas 'go-out'
  • go-out = P(weather=sunny|class=go-out) * P(car=working|class=go-out) * P(class=go-out)
  • go-out = 0.8 * 0.8 * 0.5
  • go-out = 0.32

Peluang kelas 'stay-home'
  • stay-home = P(weather=sunny|class=stay-home) * P(car=working|class=stay-home) * P(class=stay-home)
  • stay-home = 0.4 * 0.2 * 0.5
  • stay-home = 0.04
Jika kita bandingkan, peluang go-out lebih besar daripada peluang stay-home, artinya prediksi naive bayes untuk input weather=sunny, car=working adalah kelas go-out. Dan jika kita tengok data sebenarnya, hasilnya memang menunjukkan kelas go-out, sehingga prediksi naive bayes untuk record pertama benar

Kita akan memprediksi seluruh record input weather dan car. Kemudian membandingkannya dengan hasil sebenarnya, maka diperoleh seperti pada gambar 3 berikut :

Gambar 3 Perbandingan dataset sebenarnya dan hasil prediksi
Jika kita membandingkan antara hasil prediksi dengan data sebenarnya, diperoleh akurasi sebesar 80%. Tercatat ada 8 hasil prediksi yang sesuai dengan data sebenarnya dan ada 2 hasil prediksi yang menyimpang. 

Demikian penjelasan singkat mengenai perhitungan manual menggunakan algoritma naive bayes untuk dataset yang sederhana. Semoga bermanfaat. 

3 Responses to "Perhitungan Manual Algoritma Naive Bayes Untuk Dataset Sederhana"

  1. This comment has been removed by the author.

    ReplyDelete
  2. Terimakasih Sangat bermanfaat untuk menunjang Tugas Akhir (y)
    saya ingin bertanya untuk algoritma klasifikasi dalam analisis tingkat pengetahuan apakah bisa menggunakan algoritma Naive Bayes ? atau selain naive bayes dan C4.5.
    terimakasih

    ReplyDelete
    Replies
    1. Apa yang agan maksud dengan analisis tingkat pengetahuan? Jika dataset yang agan miliki memiliki atribut kemudian class. Bisa pakai naive bayes dan algoritma klasifikasi yang lain.

      Delete

Terima Kasih Telah Berkunjung, Silakan Berkomentar...
Kritik dan Saran Teman-Teman Sangat Memotivasi Saya (^_^)

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel