Random forest: Perbedaan antara revisi

Konten dihapus Konten ditambahkan

Sebaris

Revisi per 11 Mei 2018 09.57

Random Forest (RF) adalah suatu algoritma yang digunakan pada klasifikasi data dalam jumlah yang besar. Klasifikasi yang dilakukan dengan Random Forest dilakukan melalui penggabungan pohon (tree) dengan melakukan training pada sampel data yang dimiliki. Penggunaan pohon (tree) yang semakin banyak akan mempengaruhi akurasi yang akan didapatkan menjadi lebih baik. Penentuan klasifikasi dengan Random Forest diambil berdasarkan hasil voting dari tree yang terbentuk. Pemenang dari tree yang terbentuk ditentukan dengan vote terbanyak. Pembangunan pohon (tree) pada Random Forest sampai dengan mencapai ukuran maksimum dari pohon data. Akan tetapi,pembangunan pohon Random Forest tidak dilakukan pemangkasan (pruning) yang merupakan sebuah metode untuk mengurangi kompleksitas ruang. Pembangunan dilakukan dengan penerapan metode random feature selection untuk meminimalisir kesalahan. Pembentukan pohon (tree) dengan sample data menggunakan variable yang diambil secara acak dan menjalankan klasifikasi pada semua tree yang terbentuk. Random Forest menggunakan Decision Tree untuk melakukan proses seleksi. Pohon yang dibangun dibagi secara rekursif dari data pada kelas yang sama. Pemecahan (split) digunakan untuk membagi data berdasarkan jenis atribut yang digunakan. Pembuatan decision tree pada saat penentuan klasifikasi,pohon yang buruk akan membuat prediksi acak yang saling bertentangan. Sehingga,beberapa decision tree akan menghasilkan jawaban yang baik. Random Forest merupakan salah satu cara penerapan dari pendekatan diskriminasi stokastik pada klasifikasi. Proses Klasifikasi akan berjalan jika semua tree telah terbentuk.Pada saat proses klasifikasi selesai dilakukan, inisialisasi dilakukan dengan sebanyak data berdasarkan nilai akurasinya. Keuntungan penggunaan Random Forest yaitu mampu mengklasifiksi data yang memiliki atribut yang tidak lengkap,dapat digunakan untuk klasifikasi dan regresi akan tetapi tidak terlalu bagus untuk regresi, lebih cocok untuk pengklasifikasian data serta dapat digunakan untuk menangani data sampel yang banyak. Proses klasifikasi pada Random Forest berawal dari memecah data sampel yang ada kedalam decision tree secara acak. Setelah pohon terbentuk,maka akan dilakukan voting pada setiap kelas dari data sampel. Kemudian, mengkombinasikan vote dari setiap kelas kemudian diambil vote yang paling banyak.Dengan menggunakan Random Forest pada klasifikasi data maka, akan menghasilkan vote yang paling baik.

Bacaan lanjut

Prinzie A, Poel D (2007). "Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB" (PDF). Database and Expert Systems Applications. Lecture Notes in Computer Science. 4653. hlm. 349. doi:10.1007/978-3-540-74469-6_35. ISBN 978-3-540-74467-2.
Denisko D, Hoffman MM (February 2018). "Classification and interaction in random forests". Proceedings of the National Academy of Sciences of the United States of America. 115 (8): 1690–1692. doi:10.1073/pnas.1800256115. PMC 5828645 . PMID 29440440.

@@ Baris 1: / Baris 1: @@
-''Random Forest'' (RF) adalah suatu algoritma yang digunakan pada klasifikasi data dalam jumlah yang besar. Klasifikasi yang dilakukan dengan ''Random Forest'' dilakukan melalui penggabungan pohon (''tree'') dengan melakukan ''training'' pada sampel data yang dimiliki. Penggunaan pohon (tree) yang semakin banyak akan mempengaruhi akurasi yang akan didapatkan menjadi lebih baik. Penentuan klasifikasi dengan ''Random Forest'' diambil berdasarkan hasil ''voting'' dari ''tree'' yang terbentuk. Pemenang dari ''tree'' yang terbentuk ditentukan dengan ''vote'' terbanyak.
+'''''Random Forest''''' (RF) adalah suatu [[algoritma]] yang digunakan pada klasifikasi data dalam jumlah yang besar. Klasifikasi yang dilakukan dengan ''Random Forest'' dilakukan melalui penggabungan pohon (''tree'') dengan melakukan ''training'' pada sampel data yang dimiliki. Penggunaan pohon (tree) yang semakin banyak akan mempengaruhi akurasi yang akan didapatkan menjadi lebih baik. Penentuan klasifikasi dengan ''Random Forest'' diambil berdasarkan hasil ''voting'' dari ''tree'' yang terbentuk. Pemenang dari ''tree'' yang terbentuk ditentukan dengan ''vote'' terbanyak.
 Pembangunan pohon (''tree'') pada ''Random Forest'' sampai dengan mencapai ukuran maksimum dari pohon data. Akan tetapi,pembangunan pohon ''Random Forest'' tidak dilakukan pemangkasan (''pruning'') yang merupakan sebuah metode untuk mengurangi kompleksitas ruang. Pembangunan dilakukan dengan penerapan metode ''random feature selection'' untuk meminimalisir kesalahan. Pembentukan pohon (''tree'') dengan sample data menggunakan variable yang diambil secara acak dan menjalankan klasifikasi pada semua ''tree'' yang terbentuk.
 ''Random Forest'' menggunakan ''Decision Tree'' untuk melakukan proses seleksi. Pohon yang dibangun dibagi secara rekursif dari data pada kelas yang sama. Pemecahan (''split'') digunakan untuk membagi data berdasarkan jenis atribut yang digunakan. Pembuatan ''decision tree'' pada saat penentuan klasifikasi,pohon yang buruk akan membuat prediksi acak yang saling bertentangan. Sehingga,beberapa ''decision tree'' akan menghasilkan jawaban yang baik.
 ''Random Forest'' merupakan salah satu cara penerapan dari pendekatan diskriminasi stokastik pada klasifikasi. Proses Klasifikasi akan berjalan jika semua ''tree'' telah terbentuk.Pada saat proses klasifikasi selesai dilakukan, inisialisasi dilakukan dengan sebanyak data berdasarkan nilai akurasinya. Keuntungan penggunaan Random Forest yaitu mampu mengklasifiksi data yang memiliki atribut yang tidak lengkap,dapat digunakan untuk klasifikasi dan regresi akan tetapi tidak terlalu bagus untuk regresi, lebih cocok untuk pengklasifikasian data serta dapat digunakan untuk menangani data sampel yang banyak.
 Proses klasifikasi pada ''Random Forest'' berawal dari memecah data sampel yang ada kedalam ''decision tree'' secara acak. Setelah pohon terbentuk,maka akan dilakukan ''voting'' pada setiap kelas dari data sampel. Kemudian, mengkombinasikan ''vote'' dari setiap kelas kemudian diambil ''vote'' yang paling banyak.Dengan menggunakan ''Random Forest'' pada klasifikasi data maka, akan menghasilkan ''vote'' yang paling baik.
+== Bacaan lanjut ==
+{{refbegin}}
+* {{cite conference |doi = 10.1007/978-3-540-74469-6_35 |chapter = Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB |chapter-url = https://www.researchgate.net/profile/Dirk_Van_den_Poel/publication/225175169_Random_Multiclass_Classification_Generalizing_Random_Forests_to_Random_MNL_and_Random_NB/links/02e7e5278a0a7b8e7f000000.pdf |title = Database and Expert Systems Applications |series = [[Lecture Notes in Computer Science]] |year = 2007 |last1 = Prinzie |first1 = Anita |last2 = Poel |first2 = Dirk | name-list-format = vanc |isbn = 978-3-540-74467-2 |volume = 4653 |pages = 349}}
+* {{cite journal | vauthors = Denisko D, Hoffman MM | title = Classification and interaction in random forests | journal = Proceedings of the National Academy of Sciences of the United States of America | volume = 115 | issue = 8 | pages = 1690–1692 | date = February 2018 | pmid = 29440440 | doi = 10.1073/pnas.1800256115 | url = https://doi.org/10.1073/pnas.1800256115 | pmc=5828645}}
+{{refend}}
+[[Kategori:Algoritma]]