Machine
Learning memiliki masalah pemograman yang relatif lebih berbeda
dengan bahasa pemograman lainnya. Misalnya ML pada dunia nyata lebih
fokus pada analisis data daripada coding/teknik
pemograman
itu sendiri.
Aturan pada Machine
Learning, Aturan #1: Jangan takut untuk meluncurkan produk
tanpa machine learning
. Aturan ini saya ambil dari kursus Machine
Learning Google.
Framework dasar
Supervised Machine Learning
|
Framework dasar
Supervised Machine Learning
Supervised/Terprediksi,
adalah suatu framework dasar dalam Sistem ML mempelajari cara
menggabungkan masukan untuk membuat prediksi yang berguna dari data
yang belum pernah ada sebelumnya.
Anda dapat menemukan referensi
lainnya pada blog MeemCode.Blogspot.com.
Label
Misalnya
pada saat melatih sebuah model spam untuk mendeteksi sebuah
spam atau bukan spam. Lalu bagaimana kita dapat
menentukannya dengan tepat ? mungkin tidak langsung dapat menentukan
target tersebut adalah spam atau bukan spam namun kita
dapat memprediksinya. Hal ini juga disebut dengan Label.
Dalam hal label ini dapat kita temui pada saat kita melakukan
prediksi sesuatu seperti apakah nanti hujan, mendung/cuaca berawan
atau cerah. Label dapat diartikan sebagai data pendukung(namun belum
pasti) dan dapat membantu prediksi nantinya.
Fitur
Lalu
Fitur dari spam tersebut perihal ini kita akan menentukan
sebuah spam target adalah sebuah spam berupa email, maka fitur
yang dimilikinya adalah isi atau konten dari email tersebut. Bisa
berupa routing, header, alamat
pengirim, kata kunci atau apapun yang memungkinkan bahwa
sebuah email itu adalah spam. Maka fitur tersebut akan kita
representasikan pada model ML yang kita miliki.
Fitur
berlabel dan fitur takberlabel
Sebagai
tambahan tentunya pada perihal penentuan target email spam kali ini
adalah bahwasabta anya bisa saja sebuah sample memiliki fitur namun
tidak berlabel. Maka saya akan membantu anda untuk mendapatkan
gambaran perihal ini dengan sebuah rumah dengan usia bangunan 10
tahun, ruangan dengan jumlah 5 ruangan, memiliki 7 tempat tidur dan
memiliki luas 10 ha berikut dengan taman dan lain sebagainya maka hal
ini disebut dengan Fitur yang memiliki Label,
fitur tersebut adalah usia
bangunan, jumlah ruangan dan tempat tidur namun ukuran dari bangunan
tersebut dan tamannya adalah Label. Tentunya bila anda
menghilangkan luas taman dan bangunan tersebut maka akan menjadi
sebuah fitur target namun tidak memiliki label.
Melakukan
Representasi
(Model)
Untuk
merepresentasikan model ini maka kita membutuhkan peran dari sampling
atau contoh . Maka untuk hal ini kita membutuhkan satu contoh email
spam. Tentunya dari email/sample ini kita sudah dapat
menentukan label dan fitur spam tersebut. Namun pada saat ini kita
bisa saja memiliki sebuah email yang bukan merupakan spam
(adalah email yang diteruskan dari seorang teman/kita kenal lalu
sampai kepada kita) disini kita memiliki sample namun belum
dapat menentukan bahwa email tersebut adalah representasi target kita
nantinya.
Hal diatas adalah
apa yang disebut dengan Model, adalah sekumpulan sample (bisa lebih
dari satu) sehingga ditempatkan pada suatu folder/tempat khusus.
Nantinya model ini akan kita gunakan sebagai prediksi.
Pada tahap kali ini
memiliki dua fase, yaitu :
1.
Pelatihan dari model tersebut dengan membuat dan mempelajari
model sample tersebut dan menunjukkan hubungan antara fitur dan label
dari sample tersebut.
2.
Inferensi adalah sebuah model yang diterapkan pada contoh yang
tak berlabel dan pada fase ini model sudah dapat melakukan prediksi
bagi anda apakah target tersebut adalah spam atau tidak, jika anda
memiliki kebingungan pada fase ini silahkan baca kembali Fitur
berlabel dan fitur takberlabel untuk
memahami fase ini.
Regresi
dan Klarifikasi
Regresi
atau model regresi adalah sebuah model yang berlanjut fase demi fase
dan memiliki nilai berkelanjutan. Contohnya berapakah rumah dengan
taman dan tidak bertaman ? Atau apakah orang lebih menyukai sebuah
rumah dengan taman atau tanpa taman ? Hal ini akan membantu anda
memahami apa yang disebut dengan klarifikasi, yaitu apakah
gambar ini adalah sebuah taman atau rumah ? Apakah gambar yang
ditampilkan adalah rumah dengan taman atau tanpa taman ?
Catatan ini saya referensikan sebagi suatu bahan untuk mengikuti
kursus Machine Learning oleh Google Developer Crash Course Machine Learning
Google Developer Crash Course Machine Learning
|
Pendalaman
Supervised Learning
Misalanya anda ingin mengembangkan model supervised machine learning
untuk menentukan sebuah email adalah spam atau tidak maka hal yang
benar untuk dilakukan adalah :
1. Beberapa label pada sample bisa saja tidak dapat diandalkan
seperti perkiraan kita sebelumnya mengenai fitur berlabel dan tidak
berlabel. Hal ini juga dapat dipengaruhi oleh spammer yang melakukan
sebuah trik dengan memberikan label yang salah.
2. Email yang tidak memiliki tanda spam dan bukan spam merupakan
contoh tak berlabel karena belum adanya penentuan.
Dan hal yang tidak benar dilakukan adalah bahwa kata-kata dalam
header subjek akan menjadi label yang baik, hal ini tentunya adalah
salah namun bisa saja header pada subjek akan menjadi fitur yang baik
namun tidak dengan label.
Yang kedua adalah bahwa kita menggunakan contoh tak berlabel untuk
melatih model kita, tentunya ini salah karena belum dapat ditentukan
apakah sample yang kita miliki adalah model yang bai atau tidak.
0 Comments