ANALISIS DATA UNIVARIATE DAN MULTIVARIATE Febti Eka Pratiwi (1308030010)
[email protected] Ria Dhea Layla NK (1308030063)
[email protected] Abstrak Peningkatan produksi padi guna penyediaan beras sebagai makanan pokok sebagian masyarakat Indonesia sangat diperlukan, sehingga pada akhirnya akan meningkatkan pendapatan petani sebagai bagian terbesar penduduk Indonesia. Keberhasilan dalam menangani masalah produksi padi akan menempatkan negara kita dalam posisi yang kuat dari segi pemenuhan kebutuhan pokok rakyat dan kita tidak khawatir akan menggantungkan pada beras impor. Data dari percobaan ini diambil dari tugas akhir Statistika ITS oleh Janawir (1397100506) dengan judul Pemetaan Potensi Produksi Padi dan Pendugaan Fungsi Produksi Padi di Jawa Timur Tahun 1996. Data yang memiliki mean sama memiliki puncak yang terletak pada garis vertikal yang sama. Nilai varians dari data berbeda. Data yang memiliki mean berbeda. Kurva terletak jauh lebih ke kanan berarti bahwa nilai mean data yang diwakili oleh kurva merah memiliki mean lebih besar. Dari data empat di uji secara bersama ternyata data berdistribusi normal. Uji normalitas secara univariate per variable menunjukan bahwa semua data tidak berdistribusi normal. Berdasarkan matrik varian covarian di atas diketahui bahwa covarian ≠ 0 sehingga diketahui bahwa data dependen. Kata Kunci: mean, garis vertikal, varians, distribusi normal, Uji normalitas, univariate, matrik varian covarian
1. Pendahuluan Peningkatan produksi padi guna penyediaan beras sebagai makanan pokok sebagian masyarakat Indonesia sangat diperlukan, sehingga pada akhirnya akan meningkatkan pendapatan petani sebagai bagian terbesar penduduk Indonesia. Keberhasilan dalam menangani masalah produksi padi akan menempatkan negara kita dalam posisi yang kuat dari segi pemenuhan kebutuhan pokok rakyat dan kita tidak khawatir akan menggantungkan pada beras impor. Untuk tercapainya peningkatan produksi pertanian diperlukan suatu pembinaan faktor produksi pertanian yang mencakup aspek metoda penggunaan sarana produksi dan tata guna sumberdaya (lahan dan air) serta aspek ketenagakerjaan, guna tercapainya produktivitas usaha tani yang tinggi disertai dengan kelestarian sumberdaya pertanian. Upaya pengembangan produki mencakup kegiatan yang berhubungan tata guna,seperti: (a) peningkatan produksivitas per unit usaha, dan (b) peningkatan luas panen melalui perbaikan pola tanam maupun perluasan areal dan mengamankan pertanaman yang ada dari fuso akibat jasad pengganggu maupun bencana alam, kebanjiran dan kekeringan. Respon terhadap penggunaan teknologi pertanian tergantung pada lingkungan, iklim, cara penggarapan lahan serta keadaan tanah serta keadaan terarah/ kondisi geografis suatu daerah. Jawa Timur merupakan salah satu lumbung padi nasional mengalami peningkatan produksi padi yang luar biasa selam 20 tahun terakhir ini, bahkan 21 persen dari total produksi padi nasional yang telah berhasil disumbangkan, yang merupakan hasil dari adanya irigasi yang baik, adopsi varians benih unggul secara umum lebih cocok dengan berbagai kondisi pertanaman dan penggunaan pupuk, nitrogen dan pupuk
1
lainnya dalam jumlah yang tinggi, namun hal ini tidaklah berarti produksi padi di Jawa Timur seragam diseluruh kabupaten. Ada perbedaan-perbedaan regional yang nyata dalam ekosistem-ekosistem sawah di Jawa Timur. 2. Landasan Teori Secara umum dalam metode statistika terdapat banyak cara dalam melakukan pengelompokan salah satunya adalah dengan menggunakan metode analisis diskriminan dan regresi logistik. Akan tetapi sebelum melakukan analisis diskriminan dan regresi logistik, perlu pemenuhan beberapa asumsi antara lain semua variabel prediktor berdistribusi multinormal dan kesamaan matriks varian kovarians antar kelompok. 2.1 Uji Normalitas Univariate Asumsi normalitas harus terpenuhi untuk mengetahui apakah data berdistribusi normal atau atau tidak, serta untuk mengetahui apakah data sampel berasal dari populasi yang berdistribusi normal. Pengujian normalitas dapat dilakukan dengan beberapa macam, yaitu: 1. Normal Probability Plot : pada plot penyebaran, data menyebar mendekati atau mengikuti pola garis normal sehingga data dapat diasumsikan bersdistribusi normal. 2. Pengujian Statistik dengan menggunakan uji Andersong-Darling normality test, Kolmogorov-Smirnov normality test, W-test, Liliefors, dsb. Apabila pengujian normalitas tidak dapat dipenuhi maka solusinya dapat dilakukan dengan: transformasi data, pendeteksian data outlier (pencilan) dan regresi bootsrap. Langkah-langkah uji kenormalan Kolmogorov-Smirnov adalah sebagai berikut Hipotesis : H0 : F(x) = F0(x), data berdistribusi normal H1 : F(x) ≠ F0(x), data tidak berdistribusi normal Statistik uji : D=Sup Fn ( x) F0 ( x) Daerah penolakan : Tolak H0 bila D > Dα 2.2 Distribusi Normal Multivariate Multivariate Normal adalah suatu perluasan dari distribusi univariate normal sebagai aplikasi pada variabel-variabel yang mempunyai hubungan. Dalam analisis multivariate, asumsi multivariate normal harus diperiksa untuk memastikan data pengamatannya mengikuti distribusi normal agar statistik inferensia dapat digunakan dalam menganalisis data tersebut. Bila dalam pengujian normal dari data tersebut mendekati garis linier normal maka dapat disimpulkan bahwa data berdistribusi multivariate normal. Distribusi normal multivariate data dapat diperiksa dengan menghitung nilai jarak pada setiap pengamatan yaitu :
d 2j x j x S-1 x j x T
dengan j = 1,2,3...n dan n adalah banyaknya data dimana Xj : pengamatan data ke-j S-1 : invers matriks varians kovarians S q d2 d 2 d 22 ... d n2 kemudian d diurutkan 1 . Lalu dibuat QQ plot antara ( j ) dengan j dimana j= 1,2,...n dengan p merupakan banyaknya variabel. 2
Bila plot mendekati garis lurus maka dapat disimpulkan bahwa data berdistribusi normal multivariate. Atau dapat juga dihitung jarak kuadrat dari setiap pengamatan paling tidak 50%. Adapun cara yang dilakukan dengan mengurutkan dari kecil ke yang besar . Setelah itu dibuat plot antara dengan ( ) dimana j = 1,2,...p dan p adalah banyaknya variabel pendukung. Variabel acak X= (X1, X2,....,Xp) berdistribusi normal dengan : ⃗
{
⃗
∑
}
|∑ | Secara sederhana ditulis X~Np ⃗ ∑ ,p =2 disebut Bivariet Normal : √
{
[(
√
)
(
√
)
(
√
)(
√
) ]}
3. Metodologi Penelitian Data dari percobaan ini diambil dari tugas akhir Statistika ITS oleh Janawir (1397100506) dengan judul Pemetaan Potensi Produksi Padi dan Pendugaan Fungsi Produksi Padi di Jawa Timur Tahun 1996. Variabel yang digunakan adalah: X1: Data Jumlah Pemberian Pupuk 25 data. X2: Data Berat Benih sebanyak 25 data. X3: Data Pengairan sebanyak 25 data. X4: Data Curah Hujan sebanyak 25 data. 4. Analisis Data dan Pembahasan Bab ini membahas tentang analisis data dan pembahasan dari masalah yang terjadi. Berikut adalah hasil analisis data dan pembahasan: 4.1 Analisis Data Analisa data dari variabel X1 merupakan jumlah pemberian pupuk, variabel X2 merupakan berat benih, variabel X3 merupakan pengairan dan variabel X4 merupakan curah hujan dengan disertai dengan interpretasi masing-masing data yang telah di bangkitkan menggunakan software minitab yang kemudian dianalisa dengan menggunakan uji normalitas secara univariate dan multivariate. 4.2 Pembahasan Pembahasan dari variabel random serta berat badan balita (X1), tinggi badan balita (X2), dan lingkar kepala balita (X3) adalah sebagai berikut: 4.2.1 Pengujian Distribusi Normal Univariate ( mean sama, varian berbeda ) Dengan membangkitkan dua data yang berdistribusi normal menggunakan software minitab dengan data masing-masing sebanyak 1000 dimana nilai mean kedua data sebesar 5 dan varians data pertama sebesar 1, varians data kedua sebesar 3. hasil plot distribusi normal dari data tersebut adalah sebagai berikut:
3
Histogram of m5S1; m5s3 Normal
400
Variable m5S1 m5s3 Mean StDev N 4,948 1,015 1000 4,830 3,040 1000
Frequency
300
200
100
0
-3
0
3
6 Data
9
12
15
Gambar 4.1 Plot Sebaran Normal dengan Mean Sama, Varian Berbeda
Gambar 4.1 menunjukkan bahwa kedua kurva tersebut berhimpit karena kedua data mempunyai rata-rata sama yaitu sebesar 4,9. Namun, nilai variansnya berbeda sehingga didapatkan kurva yang berwarna hitam lebih runcing dari pada kurva yang berwarna merah karena kurva yang berwarna hitam mempunyai keragaman yang lebih kecil dari pada kurva yang berwarna merah. 4.2.2 Pengujian Distribusi Normal Univariate ( mean berbeda, varian sama ) Dengan membangkitkan dua data yang berdistribusi normal menggunakan software minitab dengan data masing-masing sebanyak 1000 dimana nilai varians kedua data sebesar 3 dan mean data pertama sebesar 5, mean data kedua sebesar 10. hasil plot distribusi normal dari data tersebut adalah sebagai berikut: Histogram of m5s3; m10s3 Normal
140
Variable m5s3 m10s3
120
Mean StDev N 4,830 3,040 1000 10,05 2,929 1000
Frequency
100 80 60 40 20 0
-3
0
3
6
9
12
15
18
Data
Gambar 4.2 Plot Sebaran Normal dengan Mean Berbeda, Varian Sama
Gambar 4.2 menunjukkan bahwa kedua kurva tersebut sejajar (saling lepas) karena kedua data mempunyai nilai rata-ratanya berbeda. Kurva yang berwarna hitam mempunyai rata-rata yang lebih kecil dari pada kurva yang berwarna merah, sehingga didapatkan kurva yang berwarna hitam lebih ke kiri dari pada kurva yang berwarna
4
merah. Namun, lebar kurva sama karena sebaran datanya sama yaitu dengan nilai varian sebesar 3. 4.3 Pengujian Normal Multivariate Pada Data Jumlah Produksi Padi Hasil pengujian normal multivariate pada data jumlah produksi padi di Jawa Timur adalah sebagau berikut : a. Pengujian Normal Multivariate Pada Data Jumlah Pemberian Pupuk Probability Plot of Jumlah pemberian pupuk Normal 99
M ean S tD ev N AD P -V alue
95
Percent
80
37.76 53.78 25 4.360 <0.005
50 20 5 1
-100
-50
0 50 100 Jumlah pemberian pupuk
150
200
Gambar 4.3 Anderson-Darling Data Jumlah Pemberian Pupuk
Adapun pengujian kenormalan Anderson-darling adalah sebagai berikut : Hipotesis : H0 : F(x) = F0(x), data berdistribusi normal H1 : F(x) ≠ F0(x), data tidak berdistribusi normal Statistik uji : P-value Daerah penolakan : Tolak H0 bila P-value < 0,005 < 0,05 Berdasarkan pengujian diatas dikatahui bahwa P-value < sehingga kesimpulannya adalah tolak H0, ini berarti bahwa data tidak berdistribusi normal. b. Pengujian Normal Multivariate Pada Data Berat Benih Adapun pengujian kenormalan Anderson-darling adalah sebagai berikut : Hipotesis : H0 : F(x) = F0(x), data berdistribusi normal H1 : F(x) ≠ F0(x), data tidak berdistribusi normal Statistik uji : P-value
5
Daerah penolakan: Tolak H0 bila P-value < 0,005 < 0,05 Probability Plot of Berat benih Normal
99
Mean StDev N AD P-Value
95 90
14.32 11.53 25 2.442 <0,005
Percent
80 70 60 50 40 30 20 10 5
1
-20
-10
0
10 20 Berat benih
30
40
50
Gambar 4.4 Uji Normal Anderson-Darling Berat Benih
Berdasarkan pengujian diatas yang ditunjukkan oleh gambar 4.4 diketahui bahwa Pvalue < sehingga kesimpulannya adalah tolak H0, ini berarti bahwa data tidak berdistribusi normal. c. Pengujian Normal Multivariate Pada Data Pengairan Probability Plot of pengairan Normal
99
Mean StDev N AD P-Value
95 90
53.8 69.16 25 4.038 <0,005
Percent
80 70 60 50 40 30 20 10 5
1
-100
0
100 pengairan
200
300
Gambar 4.5 Uji Normal Anderson-Darling Pengairan
Adapun pengujian kenormalan Anderson-darling adalah sebagai berikut : Hipotesis : H0 : F(x) = F0(x), data berdistribusi normal H1 : F(x) ≠ F0(x), data tidak berdistribusi normal Statistik uji : P-value
6
Daerah penolakan : Tolak H0 bila P-value < 0,005 < 0,05 Berdasarkan pengujian diatas dikatahui bahwa P-value < sehingga kesimpulannya adalah tolak H0, ini berarti bahwa data tidak berdistribusi normal. d. Pengujian Normal Multivariate Pada Data Jumlah Produksi Padi Probability Plot of Jumlah produksi padi Normal
99
Mean StDev N AD P-Value
95 90
1350 1612 25 4.333 <0,005
Percent
80 70 60 50 40 30 20 10 5
1
-3000 -2000 -1000
0 1000 2000 3000 Jumlah produksi padi
4000
5000
6000
Gambar 4.6 Uji Normal Anderson-Darling Produksi Padi
Adapun pengujian kenormalan Anderson-darling adalah sebagai berikut : Hipotesis : H0 : F(x) = F0(x), data berdistribusi normal H1 : F(x) ≠ F0(x), data tidak berdistribusi normal Statistik uji : P-value Daerah penolakan : Tolak H0 bila P-value < 0,005 < 0,05 Berdasarkan pengujian diatas dikatahui bahwa P-value < sehingga kesimpulannya adalah tolak H0, ini berarti bahwa data tidak berdistribusi normal. Tabel 4.1 Multivariate Matrix COVA1 2599237 84163 17621 74126 22431
84163,5 2892,8 586,9 2611,6 778,5
17621,0 586,9 132,9 615,4 171,2
74125,7 2611,6 615,4 4783,7 821,5
22430,8 778,5 171,2 821,5 341,0
Berdasarkan putput minitab diatas, varian covarian ≠ 0 maka data tersebut dependen.
7
5. Kesimpulan Data yang memiliki mean sama memiliki puncak yang terletak pada garis vertikal yang sama. Nilai varians dari data berbeda terlihat pada luasan kurva yang berbeda dimana kurva yang memiliki nilai varians lebih besar maka kurva lebih melebar. Data yang memiliki mean berbeda yang terlihat pada puncak kedua kurva tidak terletak pada garis vertikal yang sama. Kurva terletak jauh lebih ke kanan berarti bahwa nilai mean data yang diwakili oleh kurva merah memiliki mean lebih besar. Dari data empat variabel yaitu jumlah pemberian pupuk, berat benih, pengairan, dan curah hujan setelah di uji sacara bersama ternyata data berdistribusi normal. Uji normalitas secara univariate per variable menunjukan bahwa semua data tidak berdistribusi normal. Berdasarkan matrik varian covarian di atas diketahui bahwa covarian ≠ 0 sehingga diketahui bahwa data dependen. Daftar Pustaka Janawir.2002.Tugas Akhir Pemetaan Potensi Produksi Padi dan Pendugaan Fungsi Produksi Padi di Jawa Timur Tahun 1996.Surabaya:Institut Teknologi Sepuluh Nopember Johnson, A. Richard.2004. Applied Multivariate Statistical Analysis. New Jersey Sembiring, RK.1995.Analisis Regresi.Bandung:ITB
8