Klasifikasi statistik

Dalam statistika, klasifikasi adalah masalah untuk mengidentifikasi yang mana dari kumpulan kategori (sub-populasi) yang menjadi observasi baru, berdasarkan kumpulan data pelatihan yang berisi observasi (atau contoh) yang keanggotaan kategorinya diketahui. Contohnya adalah menetapkan email tertentu ke kelas "spam" atau "non-spam", dan menetapkan diagnosis untuk pasien tertentu berdasarkan karakteristik pasien yang diamati (jenis kelamin, tekanan darah, ada atau tidak adanya gejala tertentu, dll.) . Klasifikasi adalah contoh pengenalan pola.

Dalam terminologi pembelajaran mesin,^[1] klasifikasi dianggap sebagai contoh pembelajaran yang diawasi, yaitu pembelajaran di mana serangkaian pelatihan observasi yang diidentifikasi dengan benar tersedia. Prosedur tanpa pengawasan yang sesuai dikenal sebagai pengelompokan, dan melibatkan pengelompokan data ke dalam kategori berdasarkan beberapa ukuran kesamaan atau jarak yang melekat.