Lompat ke isi

Pemelajaran terbimbing

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas

Pemelajaran terarah atau pemelajaran terbimbing (bahasa Inggris: supervised learning) adalah sebuah paradigma dalam pemelajaran mesin yang mana objek masukan (seperti vektor dari variabel prediktor) dan nilai keluaran yang diinginkan (disebut juga sebagai sinyal pengarah yang dilabeli manusia atau human-labeled supervisory signal) digunakan untuk melatih suatu model.[1] Data pelatihan (training data) diolah sehingga memungkinkan untuk dapat membangun suatu fungsi yang dapat memetakan data baru ke nilai keluaran yang diharapkan. Situasi yang optimal akan memungkinkan algoritma yang digunakan untuk dengan tepat menentukan nilai keluaran pada contoh yang belum pernah dilihat sebelumnya. Untuk mencapai hal ini, diperlukan algoritma pembelajaran untuk dapat menggeneralisasi data latih ke situasi baru dengan cara yang "masuk akal" (lihat: kecenderungan induktif). Kualitas statistik dari suatu algoritma diukur melalui apa yang disebut sebagai kesalahan generalisasi (generalization error).

Pemelajaran terarah memungkinkan kita untuk mengumpulkan data atau menghasilkan keluaran data berdasarkan dari pengalaman sebelumnya. Hal ini dapat membantu mengoptimalkan kriteria kinerja berdasarkan pengalaman mesin. Pemelajaran terarah juga dapat membantu memecahkan berbagai jenis masalah komputasi dunia nyata.[2]

Sebagai contoh sederhana, jika kita ingin membuat sistem yang mengenali gambar kucing, maka dalam pembelajaran terawasi kita akan memberikan banyak gambar yang sudah diberi label “kucing” atau “bukan kucing” sebagai input‑output, kemudian model dilatih hingga mampu memprediksi label untuk gambar baru yang belum pernah dilihat sebelumnya.[2]

Pada tahun 2006, Caruana, Rich [3] memublikasikan hasil penelitiannya mengenai perbandingan secara empiris pemelajaran terarah dengan adanya Proyek Statlog di tahun 90-an. Mereka membandingakan beberapa pemelajaran terarah seperti Support Vector Machine (SVM), Jaringan Syaraf Tiruan (Artificial Neural Network), regresi logistik, naive bayes, pemelajaran berbasis memori, Random Forest, Decision Tree (Pohon Keputusan), Bagged Trees, Boosted Trees dan Boosted Stumps. Mereka melakukan pengujian performa terhadap efek kalibrasi model melalui Platt Scaling dan Regresi Isotonik. Hal yang perlu diangkat dari kary mereka adalah penggunaan berbagai macam kriteria pengujian performa mesin pemelajar. Setiap algoritma memiliki kekuatan dan kelemahan tersendiri — misalnya SVM efektif untuk klasifikasi margin besar, pohon keputusan mudah diinterpretasikan, jaringan saraf unggul pada data besar dan kompleks. Tidak ada satu algoritma yang secara universal terbaik (No Free Lunch Theorem).[4]

Cara kerja

[sunting | sunting sumber]

Misalkan kita ingin melatih mesin untuk membantu memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja menuju rumah. Pertama-tama, kita memulai dengan membuat sekumpulan data berlabel. Lalu kita bisa mendefinisikan data masukan dan keluaran sebagai berikut:

  • Data latih masukan(input) : kondisi cuaca, waktu dalam hari, waktu liburan, hingga semua detail yang dibutuhkan.
  • Data keluaran(output) : jumlah waktu yang dibutuhkan untuk pulang ke rumah pada suatu hari tertentu.

Secara naluriah kita mengetahui bahwa jika hari hujan, maka kita akan membutuhkan waktu lebih lama untuk berkendara pulang. Namun, mesin membutuhkan data dan statistik untuk menentukan berapa lama anda dapat sampai di rumah dalam kondisi hujan. Berdasarkan set pelatihan yang berisi lama perjalanan waktu ketika hujan dan lama waktu perjalanan ketika cerah ini, mesin mungkin dapat memahami pola hubungan langsung antara jumlah hujan dan waktu yang diperlukan untuk pulang. Bisa jadi mesin dapat memahami bahwa semakin banyak hujan, semakin lama waktu berkendara untuk kembali ke rumah. Mesin juga dapat melihat pola hubungan antara waktu ketika pulang kerja dan waktu ketika dalam perjalanan. Sebagai contoh, semakin dekat waktu kita pulang dengan jam 6 sore, semakin lama waktu yang kita butuhkan untuk pulang. Mesin juga dapat menemukan beberapa pola hubungan lainnya dalam data latih berlabel seperti: bagaimana pengaruh hujan terhadap cara orang mengemudi, pengaruh hujan dalam perilaku bepergian orang-orang bahwa lebih banyak orang bepergian selama waktu cerah maupun waktu tertentu dalam sehari.

  • Regresi: teknik regresi memprediksi nilai keluaran tunggal dengan menggunakan data pelatihan. Contohnya: kita dapat menggunakan regresi untuk memprediksi harga rumah dari data pelatihan. Variabel masukan adalah lokasi, ukuran rumah, dan lain sebagainya.
  • Klasifikasi: mengelompokkan keluaran ke dalam kelas tertentu. Jika label keluaran terbagi menjadi dua kelas, maka disebut klasifikasi biner. Namun jika label keluaran memiliki lebih dari dua kelas, maka disebut sebagai klasifikasi multikelas. Contohnya: bagaimana memprediksi apakah seseorang akan membatalkan pinjaman ataukah tidak.

Masalah Utama yang Harus Dipertimbangkan

[sunting | sunting sumber]

Dalam penerapan pemelajaran terbimbing, terdapat sejumlah aspek penting yang memengaruhi keberhasilan model. Berikut adalah beberapa di antaranya:

1. Trade‑off Bias‑Variance

Salah satu isu klasik adalah keseimbangan antara bias (kesalahan sistematis akibat asumsi model yang terlalu sederhana) dan varians (sensitivitas model terhadap fluktuasi data pelatihan). Model yang sangat fleksibel mampu menyesuaikan diri dengan data pelatihan dengan sangat baik (bias rendah), namun mungkin memiliki varians tinggi — artinya ketika diberikan data pelatihan yang berbeda, model bisa sangat berbeda. Sebaliknya, model yang sangat sederhana (bias tinggi) mungkin terhindar dari varians tinggi tetapi gagal menangkap pola kompleks. Pilihan algoritma dan regularisasi memainkan peran penting dalam menjaga keseimbangan ini.[5]

2. Kompleksitas Fungsi vs. Jumlah Data

Jika fungsi yang ingin dipelajari (“true function”) sangat kompleks — misalnya karena banyak interaksi antar fitur — maka diperlukan banyak data pelatihan dan model yang cukup fleksibel agar bisa belajar dengan baik. Sebaliknya, jika fungsi cukup sederhana, maka model yang terlalu kompleks bisa menimbulkan overfitting (melampaui data pelatihan) dan jumlah data besar mungkin tidak diperlukan.

3. Dimensionalitas Ruang Input

Semakin banyak dimensi fitur (misalnya banyak atribut input), semakin sulit proses pembelajaran dilakukan karena ruang pencarian menjadi sangat luas—fenomena yang sering disebut curse of dimensionality. Fitur yang redundan, sangat berkorelasi, atau tidak relevan harus dihindari atau diolah dengan seleksi fitur atau reduksi dimensi.[2]

4. Noise pada Nilai Target (Label)

Apabila terdapat kesalahan pada label (mis‑labeling) atau output sebenarnya memiliki komponen acak (noise stochastik) atau deterministik (kompleksitas yang tidak dapat dimodelkan), maka model yang terlalu berusaha menyesuaikan diri dengan data pelatihan dapat mengalami overfitting. Oleh karena itu, strategi seperti early stopping, deteksi dan penghapusan data dengan label yang salah, atau regularisasi sering digunakan.[2]

5. Faktor‑faktor Lain

Beberapa faktor tambahan yang perlu diperhatikan:

  • Data yang heterogen (tipe fitur campuran: diskrit, kontinyu, urutan) bisa menyulitkan algoritma yang mengharapkan fitur numerik terstandarisasi.
  • Fitur yang redundan atau berkorelasi tinggi dapat menyebabkan instabilitas numerik dalam algoritma seperti regresi linier atau metode berbasis jarak.
  • Jika terdapat interaksi atau non‑linearitas antar fitur, maka algoritma linier sederhana (misalnya regresi linier/logistik) mungkin tidak cukup — model seperti pohon keputusan atau jaringan saraf lebih cocok.[4]

Generalisasi dan Perluasan Paradigma

[sunting | sunting sumber]

Meskipun pembelajaran terbimbing adalah paradigme utama, terdapat beberapa generalisasi yang memperluas kerangka ini agar lebih fleksibel dalam praktik:

  • Semi‑supervised learning (Pemelajaran Semi‑Terbimbing): data yang dilabeli hanya sebagian, sisanya tidak. Model memanfaatkan kedua jenis data untuk meningkatkan performa.
  • Active learning (Pemelajaran Aktif): model dapat meminta label tambahan untuk contoh yang paling informatif, biasanya melalui interaksi dengan manusia.
  • Structured prediction (Prediksi Terstruktur): output bukan hanya label tunggal tetapi struktur kompleks (misalnya pohon parse, graf terlabel).
  • Learning to rank (Pemelajaran untuk Peringkat): input adalah set objek dan output adalah urutan (ranking) objek tersebut menurut kriteria tertentu.

Generaliasi ini memungkinkan penerapan di tugas‑tugas yang lebih kompleks dibanding klasifikasi/regresi sederhana.[6]

Aplikasi Pemelajaran Terbimbing

[sunting | sunting sumber]

Pemelajaran terbimbing telah diterapkan secara luas di berbagai bidang. Berikut beberapa contoh:

  • Bioinformatika (misalnya prediksi aktivitas biologis senyawa)
  • Pemasaran basis data (database marketing)
  • Pengenalan tulisan tangan dan karakter (handwriting recognition)
  • Pencarian informasi dan ekstraksi informasi (information retrieval & extraction)
  • Visions komputer (computer vision) seperti pengenalan objek/ citra
  • Deteksi spam (spam detection)

Pengklasifikasian lanskap menggunakan citra satelit (land‑form classification).[6]

Contoh penelitian di Indonesia: satu studi menganalisis algoritma pemelajaran terbimbing untuk klasifikasi ulasan pengguna aplikasi investasi, menggunakan algoritma seperti Naïve Bayes, Random Forest, Logistik Regresi dan Pohon Keputusan, dan memperoleh akurasi tertinggi di sekitar 86,6%.[7]

Kelebihan dan Keterbatasan

[sunting | sunting sumber]

Kelebihan

  • Jika tersedia data berlabel yang cukup, metode supervised learning umumnya mencapai akurasi prediksi yang tinggi.[6]
  • Relatif mudah untuk diinterpretasikan dan dievaluasi karena model dilatih secara jelas terhadap label yang diketahui.
  • Banyak algoritma matang dan didukung oleh pustaka (library) terbuka yang memudahkan implementasi.

Keterbatasan

  • Kebutuhan data berlabel yang cukup merupakan hambatan utama: pelabelan bisa mahal, memakan waktu, dan rentan kesalahan.[8]
  • Model rentan terhadap overfitting jika data pelatihan tidak mencukupi atau fitur tidak tepat.
  • Pada data yang sangat besar, kompleks, atau yang memiliki banyak dimensi, model bisa menjadi sulit dilatih atau diinterpretasikan.
  • Jika label tidak akurat (mis‑labeling) atau terdapat noise yang tinggi, performa bisa menurun drastis.

Tren dan Perkembangan Terkini

[sunting | sunting sumber]

Dalam beberapa tahun terakhir, berbagai kajian literatur menunjukkan bahwa meskipun pemelajaran terbimbing tetap menjadi andalan untuk banyak tugas prediksi dan klasifikasi, namun terdapat pergeseran ke arah metode hybrid dan generalisasi yang lebih fleksibel. Sebuah tinjauan menunjukkan bahwa tren riset termasuk integrasi antara pemelajaran terbimbing dan pemelajaran tidak terbimbing melalui semi‑supervised learning, self‑supervised learning, serta pemanfaatan transfer learning untuk memperbaiki keterbatasan dari supervised learning dan unsupervised learning.[8]

Selain itu, tantangan baru muncul seperti keperluan interpretabilitas (explainability), keadilan model (fairness), serta efisiensi komputasi dan label. Model yang makin kompleks (termasuk jaringan saraf mendalam/deep learning) menyebabkan isu “kotak hitam” (black‑box) yang mempersulit pemahaman keputusan model oleh manusia. Untuk itu, penelitian tentang Explainable AI (XAI) kian berkembang.[6]

Interpretasi dan Implikasi

[sunting | sunting sumber]

Dari uraian di atas, jelas bahwa pembelajaran terawasi merupakan fondasi penting dalam pengembangan sistem kecerdasan buatan prediktif. Apabila tersedia data berlabel yang memadai, model terbimbing dapat memberikan solusi yang akurat, efisien, dan dapat diandalkan. Namun, dalam banyak situasi nyata, memperoleh data berlabel dalam jumlah besar adalah tantangan praktis (waktu, biaya, keahlian). Oleh karena itu:

  • Penggunaan teknik seperti pelabelan semi‑otomatis, active learning, atau generasi data sintetis bisa sangat membantu.
  • Penggunaan fitur yang relevan dan representasi data yang baik (termasuk teknik reduksi dimensi atau embedding) sangat penting agar model tidak tersandung oleh dimensi tinggi atau data yang buruk.
  • Desain model serta algoritma harus mempertimbangkan keseimbangan antara fleksibilitas dan risiko overfitting — yakni bias‑variance trade‑off.
  • Evaluasi model yang baik (melalui data uji terpisah, validasi silang, metrik yang tepat) adalah kunci agar model benar‑benar mampu generalisasi, bukan sekadar “hafal” data pelatihan.
  • Kombinasi dengan pendekatan lain (semi‑supervised, unsupervised, transfer learning) bisa membuka solusi ketika data label terbatas atau tugas lebih kompleks.
  • Aspek etika, transparansi, dan interpretabilitas tidak boleh diabaikan terutama pada aplikasi kritis seperti kesehatan, keuangan, atau perlindungan data.[6]

Referensi

[sunting | sunting sumber]
  1. Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of machine learning. Adaptive computation and machine learning. Cambridge, Mass. London: The MIT Press. ISBN 978-0-262-01825-8.
  2. 1 2 3 4 Retnoningsih, Endang; Pramudita, Rully (2020-12-28). "Mengenal Machine Learning Dengan Teknik Supervised Dan Unsupervised Learning Menggunakan Python". BINA INSANI ICT JOURNAL. 7 (2): 156. doi:10.51211/biict.v7i2.1422. ISSN 2527-9777.
  3. Caruana, Rich; Niculescu-Mizil, Alexandru (2006-06-25). "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning. ICML '06. Pittsburgh, Pennsylvania, USA: Association for Computing Machinery: 161–168. doi:10.1145/1143844.1143865. ISBN 978-1-59593-383-6.
  4. 1 2 Kojansow, Angeline Lydia (2025-02-28). "Supervised Learning: Fondasi AI Modern dalam Analisis dan Prediksi Data". Omnichannel Conversational Platform (dalam bahasa American English). Diakses tanggal 2025-11-22.
  5. Mehta, Pankaj; Bukov, Marin; Wang, Ching-Hao; Day, Alexandre G. R.; Richardson, Clint; Fisher, Charles K.; Schwab, David J. (2019-05-27), A high-bias, low-variance introduction to Machine Learning for physicists, doi:10.48550/arXiv.1803.08823, diakses tanggal 2025-11-22
  6. 1 2 3 4 5 Nurhalizah, Ria Suci; Ardianto, Rian; Purwono, Purwono (2024-08-18). "Analisis Supervised dan Unsupervised Learning pada Machine Learning: Systematic Literature Review". Jurnal Ilmu Komputer dan Informatika. 4 (1): 61–72. doi:10.54082/jiki.168. ISSN 2807-6591.
  7. Yulianto, Muhamad Arief; Andrianto, Romi (2025-08-11). "Analisa Kinerja Algoritma Supervised Learning pada Sentimen Ulasan Aplikasi Investasi Online Bibit". RIGGS: Journal of Artificial Intelligence and Digital Business (dalam bahasa Inggris). 4 (3): 1486–1496. doi:10.31004/riggs.v4i3.2168. ISSN 2963-914X.
  8. 1 2 Dzakwan, Muhammad Naufal Ammr; Prawoto, Fadillah Dani; Purwanto, Ahmad Nur Ihsan (2025-08-21). "Tren dan Perkembagan Supervised versus Unsupervised Learning". Jurnal Teknik Informatika dan Teknologi Informasi (dalam bahasa Inggris). 5 (2): 619–625. doi:10.55606/jutiti.v5i2.5742. ISSN 2827-9387.