Analisis komponen utama

Dalam statistika, analisis komponen utama (disingkat AKU; bahasa Inggris: principal component analysis/PCA) adalah teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi data secara linier sehingga terbentuk sistem koordinat baru dengan varians maksimum.^[1] Analisis komponen utama dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan.^[2] Analisis komponen utama juga sering digunakan untuk menghindari masalah multikolinearitas antar peubah bebas dalam model regresi berganda.^[3]^[4]

Analisis komponen utama merupakan analisis antara dari suatu proses penelitian yang besar atau suatu awalan dari analisis berikutnya, bukan merupakan suatu analisis yang langsung berakhir.^{[butuh rujukan]} Misalnya komponen utama bisa merupakan masukan untuk regresi berganda atau analisis faktor atau analisis gerombol.

AKU juga dikenal dengan Transformasi Karhunen-Loève (dinamakan untuk menghormati Kari Karhunen dan Michel Loève) atau Transformasi Hotelling (dinamakan untuk menghormati Harold Hotelling).^[5]^[6]

Analisis komponen utama juga merupakan salah satu teknik statistika multivariat yang dapat menemukan karakteristik data yang tersembunyi.^[2] Dalam penerapannya, Analisis komponen utama, justru dibatasi oleh asumsi-asumsinya,^[7] yaitu asumsi kelinearan model regresi, asumsi keorthogonalan komponen utama, dan asumsi varians yang besar memiliki struktur yang penting.^[7]

Secara keseluruhan, metode Analisis komponen utama tampaknya hanya mempunyai penerapan yang sempit dalam ilmu-ilmu fisis, kerekayasaan, dan biologis.^[5] Kadang-kadang, dalam ilmu-ilmu pengetahuan sosial, metode analisis komponen utama bermanfaat untuk mencari peubah kombinasi yang efektif.^[5]

Sejarah[sunting | sunting sumber]

PCA adalah teknik statistik yang sudah digunakan secara luas baik dalam hal pengolahan data, pembelajaran mesin, maupun pengolahan citra atau pemrosesan signal. Metode Principal Component Analysis (PCA) dibuat pertama kali oleh para ahli statistik dan ditemukan oleh Karl Pearson pada tahun 1901 yang memakainya pada bidang biologi. Pada tahun 1947 teori ini ditemukan kembali oleh Karhunen, dan kemudian dikembangkan oleh Loeve pada tahun l963, sehingga teori ini juga dinamakan Karhunen-Loeve transform pada bidang ilmu telekomunikasi.

Teknik PCA[sunting | sunting sumber]

PCA adalah sebuah transformasi linier yang biasa digunakan pada kompresi data. PCA juga merupakan teknik yang umum digunakan untuk menarik fitur-fitur dari data pada sebuah skala berdimensi tinggi. PCA memproyeksikan data ke dalam subspace. PCA adalah transformasi linear untuk menentukan sistem koordinat yang baru dari data. Teknik PCA dapat mengurangi dimensi dari data tanpa menghilangkan informasi penting dari data tersebut.

Dimensionality Reduction[sunting | sunting sumber]

Salah satu masalah yang sering terjadi dalam suatu machine learning adalah “Curse of Dimensionality problem”, di mana mesin kesulitan dalam menangani sejumlah masukan data dengan dimesi yang sangat tinggi. Salah satu cara yang paling umum digunakan untuk menangani proses ini adalah dengan mengurangi dimensi dari data masukan dengan tetap menjaga informasi yang terkandung didalamnya. Salah satu cara yang paling sering digunakan adalah PCA (Principal Component Analysis), karena PCA dapat mereduksi dimensi seminimal mungkin dengan tetap mempertahankan informasi yang terkandung di dalamnya.

Contoh proses Dimensionality Reduction dari suatu data secara sederhana

Terdapat sekumpulan data dengan penyebaran sebagai berikut (untuk kasus 2 dimesi):

1. Untuk proyeksi terhadap sumbu X, didapat sebaran data antara -2.8 sampai +2.7

2. Untuk proyeksi terhadap sumbu Y, didapat sebaran data antara -9.6 sampai +9.5

Dapat dilihat bahwa varians yang dihasilkan proyeksi data terhadap sumbu Y lebih besar daripada proyeksi tehadap sumbu X, maka apabila kita ingin mereduksi data tersebut menjadi 1 dimensi saja maka proyeksi sumbu Y yang akan digunakan sebagai principal component data tersebut. Untuk data dengan dimensi lebih banyak, kita dapat menyimpan lebih dari 1 principal componet (urutan principal component yang dipilih untuk membentuk dimensi yang diinginkan berdasarkan banyaknya varians yang dihasilkan oleh principal component tersebut), hal ini dilakukan agar varians yang hasilkan lebih banyak() sehingga informasi yang dihasilkan dapat lebih terjaga(sesuai).

Hal yang perlu diperhatikan juga adalah sumbu dari setiap principal component harus saling tegak lurus satu sama lain (Orthogonal Vectors).

Principal Components dapat ditemukan dengan cara melakukan Eigenvalue Decomposition dari Covariance Matrix (atau correlation matrix) dari suatu data atau menggunakan metode Singular Value Decomposition (SVD).

Contoh Menentukan Mencari Principal Component dari Suatu Data

1. Transformasi Mean-Centering

Proses memindahkan semua data kebagian tengah, guna mendapatkan data yang lebih stabil.

Berikut langkah-langkah mean-centering:

A. Cari mean data

B. Pindahkan setiap posisi data kebagian tengah, dengan cara mengurangi nilai setiap data dengan nilai mean data

Berikut contoh proses mean-centering pada suatu data:

2. Menghitung Covariance-Matrix

Covariance-Matrix berisi seluruh pasangan covariance dari semua himpunan varians data yang ada. Secara umum, berikut bentuk matrixnya:

3. Mencari Eigenvalue dan Eigenvector dari Covariance-Matrix (Principal Component) Eigenvector dari suatu matriks A (berukuran n x n) adalah suatu vektor v, yang jika dikalikan dengan matriks A menghasilkan kelipatan dari vektor v tersebut. Nilai kelipatan tersebut merupakan Eigenvalue.

4. Urutkan principal components tersebut secara menurun

5. Transformasi Data ke Sumbu Principal Components

Untuk mentransformasi data ke sumbu principal components yang ada, cukup mengalikan data tersebut dengan invers dari principal components yang telah didapat sebelumnya.

Referensi[sunting | sunting sumber]

^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components, Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ ^a ^b Johnson, Richard A & Wichern, Dean W. Applied Multivariate Statistical Analysis (New Jersey: Prentice-Hall International Inc, 1998). ISBN 0-13-080084-8.
^ Juanda, Bambang. Ekonometrika: Pemodelan dan Pendugaan (Bogor: IPB Press, 2009). ISBN 978-979-493-177-6.
^ Iriawan, Nur, Astuti, Septin Puji. Mengolah Data Statistik dengan mudah menggunakan Minitab 14 (Yogyakarta: ANDI, 2006). ISBN 979-763-111-7.
^ ^a ^b ^c Draper, Norman & Smith, Harry. Analisis Regresi Terapan (Jakarta: PT Gramedia Pustaka Utama, 1992). ISBN 979-511-146-9.
^ "Karhunen-Loeve Transform (KLT)" (html) (Siaran pers) (dalam bahasa bahasa Inggris). Harvey Mudd College. 3 November 2009. Diakses tanggal 10 Mei 2010. "Salinan arsip". Diarsipkan dari versi asli tanggal 2016-11-28. Diakses tanggal 2010-05-10.
^ ^a ^b Jonathon Shlens, A Tutorial on Principal Component Analysis. Diarsipkan 2010-02-15 di Wayback Machine.

[1] A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components, Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer

[APG-2] Johnson, Richard A & Wichern, Dean W. Applied Multivariate Statistical Analysis (New Jersey: Prentice-Hall International Inc, 1998). ISBN 0-13-080084-8.

[Bambang_Juanda-3] Juanda, Bambang. Ekonometrika: Pemodelan dan Pendugaan (Bogor: IPB Press, 2009). ISBN 978-979-493-177-6.

[Minitab_14-4] Iriawan, Nur, Astuti, Septin Puji. Mengolah Data Statistik dengan mudah menggunakan Minitab 14 (Yogyakarta: ANDI, 2006). ISBN 979-763-111-7.

[Draper_Smith-5] Draper, Norman & Smith, Harry. Analisis Regresi Terapan (Jakarta: PT Gramedia Pustaka Utama, 1992). ISBN 979-511-146-9.

[Edu-6] "Karhunen-Loeve Transform (KLT)" (html) (Siaran pers) (dalam bahasa bahasa Inggris). Harvey Mudd College. 3 November 2009. Diakses tanggal 10 Mei 2010. "Salinan arsip". Diarsipkan dari versi asli tanggal 2016-11-28. Diakses tanggal 2010-05-10.

[pca-7] Jonathon Shlens, A Tutorial on Principal Component Analysis. Diarsipkan 2010-02-15 di Wayback Machine.

[1]

[2]

[3]

[4]

[5]

[6]

[7]