Penggalian data: Perbedaan revisi

Loncat ke navigasi Loncat ke pencarian
68 bita ditambahkan ,  2 tahun yang lalu
k
Memasukkan tautan internal ke artikel-artikel wikipedia lainnya.
(Membalikkan revisi 14182349 oleh 36.76.117.109 (bicara))
Tag: Pembatalan
k (Memasukkan tautan internal ke artikel-artikel wikipedia lainnya.)
Tag: Suntingan perangkat seluler Suntingan peramban seluler VisualEditor
'''Penggalian data''' (bahasa Inggris: ''data mining'') adalah ekstraksi [[pola]] yang menarik dari [[data]] dalam jumlah besar <ref>http://www.amazon.com/Data-Mining-Concepts-Techniques-Management/dp/1558609016/qid=1278582726</ref>. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (''knowledge discovery in database''), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari [[sistem basis data]] perusahaan, [[e-commerce]], data [[saham]], data [[sensus]] dan data [[bioinformatika]]), tetapi tidak tahu pola apa yang bisa didapatkan.
 
== Proses Pencarian Pola ==
 
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
# [[Pembersihan Data]]: yaitu menghapus data pengganggu (''noise'') dan mengisi data yang hilang.
# [[Integrasi Data]]: yaitu menggabungkan berbagai sumber data.
# [[Pemilihan Data]]: yaitu memilih data yang relevan.
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
* [[Karakterisasi dan Diskriminasi]]: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
* [[Penggalian pola berulang]]: yaitu pencarian pola asosiasi (''association rule'') atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
* [[Klasifikasi]]: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
* [[Prediksi]]: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari [[klasifikasi]].
* [[Penggugusan/Cluster analysis]]: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
* [[Analisis outlier]]: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali ''noise'' dan pengecualian dalam data.
* [[Analisis trend dan evolusi]]: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
 
# [[C4.5]] (61 suara) <ref>Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann., 1993.</ref>
# [[k-Means]] (60 suara):<ref>MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967.</ref>
# [[SVM]] atau ''Support Vector Machine'' (58 suara):<ref>Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag.</ref>
# [[Apriori]] (52 suara):<ref>Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94.</ref>
# [[EM]] (48 suara):<ref>McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York.</ref>
36

suntingan

Menu navigasi