Bab 2
LANDASAN TEORI
2.1
Variabel
Variabel adalah suatu sebutan yang dapat diberi nilai angka (kuantitatif) atau nilai mutu (kualitatif). Variabel merupakan pengelompokan secara logis dari dua atau lebih atribut dari objek yang diteliti. Misalnya: tidak sekolah, tidak tamat SD, tidak tamat SMP. Maka variabelnya adalah tingkat pendidikan dari objek penelitian itu. Variabel tingkat pendidikan merangkum semua atribut tadi.
Variabel merupakan suatu istilah yang berasal dari kata vary dan able yang berarti “berubah” dan “dapat”. Jadi kata variabel berarti dapat berubah. Oleh sebab itu setiap variabel dapat diberi nilai dan nilai itu berubah-ubah. Nilai itu berupa nilai kuntitatif maupun kualitatif. Dilihat dari segi nilainya, variabel dibedakan menjadi dua, yaitu variabel diskrit dan variabel kontinu. Variabel diskrit nilai kuantitatifnya selalu berupa bilangan bulat. Variabel kontinu nilai kuantitatifnya bisa berupa pecahan. (http://rakim-ypk.blogspot.com). Variabel penelitian pada dasarnya adalah segala sesuatu yang berbentuk apa saja yang ditetapkan oleh peneliti untuk dipelajari sehingga diperoleh informasi tentang hal tersebut, kemudian ditarik kesimpulannya, (Sugiyono, 2007).
Menurut hubungan antara suatu variabel dengan variabel lainnya, variabel terbagi atas beberapa yaitu : a. Variabel independent (independent variable) atau variabel bebas yaitu variabel yang menjadi sebab terjadinya (terpengaruhnya) variabel dependent (variabel tak bebas). b. Variabel dependent (dependent variable) atau variabel tak bebas yaitu variabel yang nilainya dipengaruhi oleh variabel independent. Universitas Sumatera Utara
c. Variabel moderator yaitu variabel yang memperkuat atau memperlemah hubungan antara suatu variabel dependent dengan independent. d. Variabel intervening, seperti variabel moderator, tetapi nilainya tidak dapat diukur, seperti kecewa, gembira, sakit hati, dsb. e. Variabel kontrol, yaitu variabel yang dapat dikendalikan oleh peneliti.
2.2
DATA
Data merupakan kumpulan fakta atau angka atau segala sesuatu yang dapat dipercaya kebenarannya sehingga dapat digunakan sebagai dasar penarikan kesimpulan. Data dapat dikelompokkan dalam beberapa golongan antara lain berdasarkan aspek sifat, dimensi waktu, cara memperoleh dan pengukurannya, muhidin (2009).
2.2.1 Data ditinjau dari Aspek sifat angka
Ditinjau dari aspek sifat angka, data digolongkan menjadi dua, yaitu: 1. Data diskrit, yaitu data yang satuannya merupakan bilangan bulat dan tidak berbentuk pecahan. Contohnya data mengenai jumlah pada sebuah PTN di Kota Bandung. 2. Data kontinu adalah data yang satuannya merupakan bilangan pecahan. Contohnya data mengenai rata-rata berat badan mahasiswa pada sebuah PTN di Kota Bandung.
2.2.2 Data ditinjau dari Aspek waktu
Ditinjau dari aspek waktu, data digolongkan menjadi dua yaitu: 1. Data time series, yaitu data yang dikumpulkan pada waktu tertentu yang dapat menggambarkan keadaan/karakteristik objek pada saat penelitian dilakukan, contoh: data jumlah mahasiswa PTN di Indonesia tahun 2006. Universitas Sumatera Utara
2. Data cross section adalah data yang dikumpulkan dari waktu ke waktu yang dapat digambarkan tentang perkembangan suatu kejadian atau kegiatan tertentu, contoh: data perkembangan jumlah mahasiswa sebuah PTN di Indonesia selama 5 tahun terakhir.
2.3 Analisis Korelasi
Analisis korelasi adalah metode yang digunakan untuk mengukur kekuatan atau derajat hubungan antara dua variabel atau lebih. Perhitungan derajat keeratan didasarkan pada persamaan regresi. Dalam ilmu statistika, istilah korelasi diberi pengertian sebagai hubungan linier antara dua variabel atau lebih. Hubungan antara dua variabel dikenal dengan istilah bivariate correlation, sedangkan hubungan antar lebih dari dua variabel disebut multivariate correlation. Contoh bivariate correlation: hubungan antara motivasi kerja dengan kerja. Sedangkan
contoh multivariate
correlation: hubungan antara motivasi kerja dan disiplin kerja dengan kinerja, Mann (2004). Tujuan dilakukan analisis korelasi antara lain adalah: 1. Untuk mencari bukti terdapat tidaknya hubungan (korelasi) antarvariabel 2. Bila sudah ada hubungan, untuk melihat tingkat keeratan hubungan antarvariabel 3. Dan untuk memperoleh kejelassan dan kepastian apakah hubungan tersebut berari (meyakinkan/siignifikan) atau tidak berarti.
Tinggi-rendah, kuat-lemah atau besar-kecilnya suatu korelasi dapat diketahui dengan melihat besar kecilnya suatu angka (koefisien) yang disebut angka indeks korelasi atau coefficient of correlation, yang disimbolkan dengan atau r. Koefisien
korelasi untuk data populasi disimbolkan dengan , sedangkan korelasi untuk data sampel disimbolkan dengan r. Angka korelasi berkisar antara 0 sampai dengan ± 1,00.
Perhatikan tanda plus minus (±) pada angka indeks korelasi. Tanda plus minus pada angka indeks korelasi ini fungsinya hanya untuk menunjukkan arah korelasi jadi bukan sebagai tanda aljabar. Apabila angka indeks korelasi bertanda plus (+) maka korelasi tersebut positif dan arah korelasi satu arah, sedangkan apabila angka indeks korelasi bertanda minus (-), maka korelasi tersebut negatif dan arah korelasi Universitas Sumatera Utara
berlawanan arah; serta apabila angka indeks korelasi sama dengan 0, maka hal ini menunjukkan tidak ada korelasi. Dengan demikian, arah korelasi dapat dibedakan menjadi dua, yaitu yang bersifat satu arah dan yang sifatnya berlawanan arah, Mann (2009).
2.3.1 Macam-macam Analisis Korelasi
1. Korelasi untuk skala pengukuran ordinal Apabila kita kita punya dua buah variabel X dan Y yang kedua-duanya memiliki tingkat pengukuran ordinal maka koefisien korelasii yang dapat dipergunakan adalah koefisien korelasi Spearman atau Spearman’s coefficient of (Rank) correlation dan koefisien korelasi Kendal atau Kendall’s coefficient of (Rank) correlation. a. Spearman’s coefficient of (Rank) correlation Angka indek korelasi Spearman dapat dihitung dengan menggunakan rumus berikut: 6 ∑ 1 1 (Siegel and Castellan 1988) dimana:
= koefisien korelasi rank spearman
n
= banyaknya ukuran sampel
∑ = jumlah koadrat dari selisih rank variabel x dengan rank variabel y Penggunaan rumus untuk mencari koefisien korelasi Spearman diatas, berlaku bila kurang dari 20% skor-skor pada sebuah kelompok peringkatnya sama. Bila lebih dari 20%, maka rumus koreksian harus digunakan (Siegel and Castellan, 1988). Rumus koreksian tersebut adalah:
∑ ∑
∑ !
2#∑ ∑
Universitas Sumatera Utara
dimana: ∑
$%$ & '() (
∑
*%* & '()
∑
$%$ & '() (
∑
*%* & '()
(
(
d = Selisih dari rank variabel x dengan rank variabel y t = Banyak anggota kembar pada suatu perkembaran
selain rumus koreksian dari Spearman, ada rumus lain yang dapat digunakan bila terdapat data kembar, yaitu rumusnya adalah (Conover, 1999):
n +1 R( X i ).R(Yi ) − n ∑ 2 i =1 n
2
2 2 n n +1 n n +1 2 2 ∑ R(Yi ) − n ∑ R( X i ) − n 2 i =1 2 i =1
dimana:
= Koefisien korelasi rank spearman
∑ R(x ).R( y ) = Jumlah dari hasil kali rank variabel x denngan rank variabel y i
∑ R( x )
i
2
i
∑ R( y ) i
2
= Jumlah dari rank kuadrat variabel x = Jumlah dari rank kuadrat variabel y
R( xi )
= Rank variabel x
R( yi )
= Rank variabel y
n
= Banyaknya ukuran sampel
b. Kendall’s Coefficient of (Rank) Correlation
Rumus lain yang dapat digunakan untuk menghitung koefisien korelasi dengan dua buah variabel x dan y, yang kedua-duanya memiliki tingkat pengukuran ordinal adalah koefisien korelasi dari kendall atau Kendall’s Coefficient of (Rank) Correlation. Dengan demikian rumus koefisien korelasi kendall ini, sama dengan spearman, yaitu digunakan untuk jenis data peringkat (ordinal). Bedanya koefisien kendall memperhitung posisi wajar peringkat yang satu terhadap yang lainnya dari peringkat-
Universitas Sumatera Utara
peringkat di kelompok keduanya. Rumus yang digunakan untuk koefisien korelasi dari kendall adalah (Conover, 1998):
τ=
Nc − Nd n(n − 1) / 2
dimana: N c = Jumlah pasangan yang sesuai dari pengamatan N d = Jumlah pasangan yang tidak sesuai dari pengamatan
n = Banyaknya pengamatan
2. Korelasi untuk skala pengukuran Interval Koefisien korelasi untuk dua buah variabel x dan y yang kedua-duanya memiliki tingkat pengukuran interval, dapat dihitung dengan menggunakan korelasi product moment atau product moment Coefficient (pearson’s Coefficien of Correlation) yang dikembangkan oleh Karl Pearson. Perbedaan dengan korelasi Spearman adalah, pada korelasi Spearman yang dikorelasikan adalah data peringkatnya (rangking), sementara pada korelasi product moment data observasinya yang dikorelasikan, (Conover, 1999). Koefisien korelasi product moment dapat diperoleh dengan rumus:
rxy =
N ∑ XY − (∑ X ) ⋅ (∑ Y )
[N ∑ X
2
][
− (∑ X ) N ∑ Y 2 − (∑ Y ) 2
2
]
2.3.2 Korelasi Parsial dan Ganda
Korelasi parsial (Partial Correlation) adalah suatu nilai yang memberikan kuatnya hubungan dua atau lebih variabel X dengan variabel Y, yang salah satu bagian variabel bebasnya dianggap konstan atau dibuat tetap. Koefisien korelasi parsial dirumuskan sebagai berikut (Conover, 1999): •
Hubungan antara variabel bebas-X1 dengan variabel tak bebas-y, apabila variabel-X2 tetap. Universitas Sumatera Utara
rx2 ( x, y ) = •
rx1 y − rx2 y .rx1 x2
(1 − r )(1 − r 2
x2 y
2
x1 x2
)
Hubungan antara variabel bebas-X2 dengan variabel tak bebas-Y, apabila variabel bebas-X1 tetap.
rx1 ( x2 y ) = •
rx 2 y − rx1 y .rx1 x2
(1 − r )(1 − r 2
x1 y
2
x1 x2
)
Hubungan antara variabel bebas-X1 dengan variabel tak bebas-X2, apabila variabel tak bebas-Y tetap.
ry ( x1 x2 ) = •
rx1x2 − rx1 y .rx2 y
(1 − r )(1 − r ) 2
x1 y
2
x2 y
Korelasi ganda (Multiple Correlation) adalah suatu nilai yang memberikan kuatnya hubungan dua atau lebih variabel bebas X secara bersama-sama dengan variabel tak bebas- Y. koefisien korelasi ganda dirumuskan sebagai berikut:
R x1 x2 y =
r 2 x1 y + r 2 x2 y − 2.rx1 y .rx2 y .rx1 x2 1 − r 2 x1 x2
(Kapur and Saxena, 2007)
2. 4 Analisis Regresi
Analisis regresi adalah teknik statistika yang berguna untuk memeriksa dan memodelkan hubungan diantara variabel-variabel. Secara umum ada dua macam hubungan antara dua variabel atau lebih, yaitu bentuk hubungan dan keeratan hubungan. Untuk keeratan hubungan dapat diketahui dengan analisis korelasi. Analisis regresi dipergunakan untuk menelaah hubungan antara dua variabel atau lebih, terutama untuk menelusuri pola hubungan yang modelnya belum diketahui denngan sempurna, atau untuk mengetahui bagaimana variasi dari beberapa variabel independen mempengaruhi variabel dependen dalam suatu fenomena yang kompleks. Jika X1, X2, …, Xi adalah variabel-variabel independen dan Y adalah variabel dependen, maka terdapat hubungan fungsional antara X dan Y, dimana variasi dari X Universitas Sumatera Utara
akan diiringi pula oleh variasi dari Y. Secara matematika hubungan diatas dapat dijabarkan sebagai berikut: Y = f ( x1 , x 2 , … , x i , e ) dimana: Y = variabel dependen
x = variabel independen e = variabel residu (disturbance term) Berkaitan dengan analisis regresi ini, setidaknya ada 4 yang dilakukan dalam analisis regresi ini diantaranya: mengadakan estimasi terhadap parameter berdasarkan data empiris, menguji berapa besar variasi variabel dependen dapat diterangkan oleh variasi variabel independen, menguji apakah estimasi parameter tersebut signifikan atau tidak dan melihat apakah tanda dan magnitud dari estimasi parameter cocok dengan teori (Nazir, 1983).
Regresi sederhana bertujuan untuk mempelajari hubungan antara dua variabel. Model regresi sederhana adalah + = a + bx dimana, + adalah variabel tak bebas (terikat), x adalah variabel bebas, a adalah penduga bagi intersap (α), b adalah penduga bagi koefisien regresi (β), dan α, β adalah parameter yang nilainya tidak diketahui sehingga diduga menggunakan statistic sampel, (Triola, 2005). Rumus yang dapat digunakan untuk mencari a dan b adalah:
a= b=
∑ y − b∑ x = Y − bX N
N .(∑ XY ) − ∑ X ∑ Y N ∑ X 2 − (∑ X )
2
dimana: X i = Rata-rata skor variabel X Yi = Rata-rata skor variabel Y
Universitas Sumatera Utara
2.5 Regresi Linier Ganda
Dalam regresi linier ganda variabel terikat y bergantung pada dua atau lebih varibel bebas. Mungkin terdiri dari beberapa variabel bebas, misalnya: X 1 , X 2 , … , X n Hubungan seperti ini dapat dicari dengan menggunakan analisis regresi berganda dengan bentuk umum sebagai berikut :
Yi = β0 + β1X1 + β2X2 + …+ βnXn + εi dengan : Yi
= Variabel terikat (Variabel respon)
β0 , β1, β2, … , βn
= Parameter regresi
X1 X2, …, Xn
= Variabel bebas
ε1
= Kesalahan/galat
Estimasi parameter-parameter menggunakan metode kuadrat terkecil, misalnya: ,-I = Nilai penafsir (ramalan) Y ./ 0 = Penaksir .0 ./ 1 = Penaksir .( 1 ./ n = penaksir ./ n Dengan prosedur metode kuadrat terkecil menghasilkan : ,-I = ./ 0 + ./ 1X1 + ./ 2X2 + … + ./ nXn + εi Untuk menentukan koefisien-koefisien variabel ./ 0, ./ 1, ./ 2, …, ./ n diperlukan n buah pasangan data ( X 1 , X 2 , … , X n , YI ) yang diperoleh dari pengamatan (Johnson and Bhattacharyya, 1987).
Universitas Sumatera Utara
2.6 Analisis Diskriminan Analisis diskriminan mirip regresi linier berganda (multivariable regression). Perbedaannya, analisis diskriminan dipakai kalau variabel dependennya kategori (maksudnya kalau menggunakan skala ordinal ataupun nominal) dan variabel independennya menggunakan skala metrik (interval dan rasio). Sedangkan dalam regresi berganda variabel dependentnya harus metrik, dan jika variabelnya independen, bisa metrik maupun nonmetrik. Sama seperti regresi berganda, dalam analisis diskriminan variabel independen hanya satu, sedangkan variabel independen banyak (multiple). Misalnya, variabel dependen adalah pilihan merek mobil: Kijang, Kuda, dan Panther. Variabel independen adalah rating setiap merek pada sejumlah atribut yang memakai skala 1 sampai 7, (Simamora, 2005).
Analisis diskriminan adalah metode statistik untuk mengelompokkan atau mengklasifikasi sejumlah obyek ke dalam beberapa kelompok, berdasarkan beberapa variabel, sedemikian hingga setiap obyek yang menjadi anggota lebih dari pada satu kelompok. Pada prinsipnya analisis diskriminan bertujuan untuk mengelompokkan setiap obyek ke dalam dua atau lebih kelompok berdasarkan pada kriteria sejumlah variabel bebas. Pengelompokkan ini bersifat mutually exclusive, dalam artian jika obyek A sudah masuk kelompok 1, maka ia tidak mungkin juga dapat menjadi anggota kelompok 2. Analisis kemudian dapat dikembangkan pada ‘variabel mana saja yang membuat kelompok 1 berbeda dengan kelompok 2, berapa persen yang masuk ke kelompok 1, berapa persen yang masuk ke kelompok 2. Oleh karena ada sejumlah variabel independen, maka akan terdapat satu variabel dependen (tergantung), ciri analisis diskriminan adalah jenis data dari variabel dependent bertipe nominal (kategori), seperti kode 0 dan 1, atau kode 1, 2 dan 3 serta kombinasi lainnya (Overall and Klett, 1972).
Universitas Sumatera Utara
2.6.1 Hal-hal Pokok Tentang Analisis Diskriminan
Bentuk multivariat dari analisis diskriminan adalah dependen sehingga variabel dependen adalah variabel yang menjadi dasar analisis diskriminan. Variabel dependen bisa berupa kode grup 1 atau grup 2 atau lainnya, (Santoso, 2010).
Tujuan diskriminan secara umum adalah: 1. Ingin mengetahui apakah ada perbedaan yang jelas antar-grup pada variabel dependen? Atau bisa dikatakan apakah ada perbedaan antara anggota Grup 1 dengan anggota Grup 2? 2. Jika ada perbedaan, variabel independen manakah pada fungsi diskriminan yang membuat perbedaan tersebut? 3. Membuat fungsi atau model diskriminan, yang pada dasarnya mirip dengan persamaan regresi. 4. Melakukan klasifikasi terhadap objek (dalam terminology SPSS disebut baris), apakah suatu objek (bisa nama orang, nama tumbuhan, benda atau lainnya) termasuk pada grup 2, atau lainnya.
Proses dasar dari analisis diskriminan ialah: • Memisah variabel-variabel menjadi Variabel Dependen dan Variabel Independen. • Menentukan metode untuk membuat Fungsi Diskriminan. Pada prinsipnya ada dua metode dasar untuk itu, yakni : 1. Simultaneous Estimation, dimana semua variabel dimasukkan secara bersamasama kemudian dilakukan proses analisis diskriminan. 2. Step-Wise Estimation, dimana variabel dimasukkan satu persatu kedalam model diskriminan. Pada proses ini, tentu ada variabel yang tetap ada pada model, dan ada kemungkinan satu atau lebih variabel independen yang ‘dibuang’ dari model. • Menguji signifikansi dari fungsi diskriminan yang telah terbentuk, menggunakan Wilk’s lambda, pilai, F test dan lainnya. • Menguji ketepatan klasifikasi dari fungsi diskriminan, termasuk mengetahui ketepatan klasifikasi secara individual dengan Casewise Diagnostics. Universitas Sumatera Utara
• Melakukan interpretasi terhadap fungsi diskriminan tersebut. • Melakukan uji validitas fungsi diskriminan.
Berikut ini beberapa asumsi yang harus dipenuhi agar model diskriminan dapat digunakan: 1. Multivariate Normality, atau variabel independen seharusnya berdistribusi normal, hal ini akan menyebabkan masalah pada ketepatan fungsi (model) diskriminan. Regresi logistic (Logistic Regression ) bisa dijadikan alternative metode jika memang data tidak berdistribusi normal. Tujuan uji normal adalah ingin mengetahui apakah distribusi data dengan bentuk lonceng (bell shaped). Data yang ‘baik’ adalah data yang mempunyai pola seperti distribusi normal, yakni distribusi data tersebut tidak menceng ke kiri atau menceng ke kanan. Uji normalitas pada multivariat sebenarnya sangat kompleks, karena harus dilakukan pada seluruh variabel secara bersama-sama. Namun, uji ini bisa juga dilakukan pada setiap variabel dengan logika bahwa jika secara individual masing-masing variabel memenuhi asumsi normalitas, maka secara bersama-sama (multivariat) variabelvariabel tersebut juga bisa dianggap memenuhi asumsi normalitas. Adapun criteria pengujiannya adalah: •
Angka signifikansi (Sig) > 0,05, maka data tersebut berdistribusi normal.
•
Angka signifikansi (Sig) < 0,05, maka data tidak berdistribusi normal.
Jika sebuah variabel mempunyai sebaran data yang tidak normal, maka perlakuan yang dimungkinkan agar menjadi normal, (Santoso, 2010): Menambah jumlah data. Seperti pada kasus, bisa dicari 20 atau 30 atau sejumlah data baru untuk menambah ke-75 data berat badan konsumen yang sudah ada. Kemudian dengan jumlah data yang baru, dilakukan pengujian sekali lagi. Menghilangkan data yang dianggap penyebab tidak normalnya data. Seperti pada variabel berat, jika dua data yang outlier dibuang, yakni berat 100 dan 120, kemudian diulang proses pengujian, mungkuin data bisa menjadi normal. Jika belum normal, ulangi pengurangan data yang dianggap penyebab ketidaknormalan data. Namun demikian, pengurangan data harus Universitas Sumatera Utara
dipertimbangkan apakah tidak mengaburkan tujuan penelitian karena hilangnya data-data yang seharusnya ada. Dilakukan transformasi data, misal mengubah data ke logaritma atau kebentuk natural (ln) atau bentuk lainnya, kemudian dilakukan pengujian ulang. Data diterima apa adanya, memang dianggap tidak normal dan tidak perlu dilakukan berbagai treatment. Untuk itu, alat analisis yang dipilih harus diperhatikan, seperti untuk multivariate mungkin faktor analisis tidak begitu mementingkan asumsi kenormalan. Atau pada kasus statistik univariat, bisa dilakukan alat analisis nonparametrik, (Santoso, 2010).
2.6.2
Klasifikasi dengan Dua Populasi Multivariat Normal
Dalam buku Johnson and Wichern (2007), dijelaskan bahwa fungsi diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher (1936) dengan menggunakan beberapa kombinasi linier dari pengamatan yang cukup mewakili populasi. Menurut Fisher, untuk mencari kombinasi linier dari p variabel bebas tersebut dapat dilakukan dengan pemilihan koefisien-koefisiennya yang menghasilkan hasil bagi maksimum antara matrik peragam antar kelompok (between-group) dan matrik peragam dalam kelompok (within-group). Adapun asumsi-asumsi yang harus dipenuhi sebelum melakukan analisis diskriminan, antara lain yaitu: • Variabel independen berdistribusi normal multivariat (multivariates normal distribution) • Varians dalam setiap kelompok adalah sama (equal variances)
Prosedur–prosedur klasifikasi yang didasarkan pada populasi normal lebih unggul dalam statistik karena tidak rumit dan tingkat efisiensi yang tinggi yang melibatkan banyak model variasi populasi. Sekarang asumsikan bahwa f1(x) dan f2(x) kepadatan multivariat normal, pertama dengan vektor rata-rata µ1 dan matriks kovarian ∑ 1 dan yang kedua dengan vector rata-rata µ2 dan matriks kovarian ∑ 2 . Universitas Sumatera Utara
Klasifikasi populasi normal ketika ∑ 1 = ∑ 2 = ∑ anggap bahwa kepadatan bersama dari X’ = [X1, ,X2,
fi(x) =
( 34⁄& 6
∑6
7⁄&
. . , .XP]
untuk populasi π1 dan π2 diberikan oleh:
(
exp8 9 : ; ∑
'(
9 : < untuk i = 1,2
(2.1)
Anggap juga bahwa parameter-parameter populasi µ1, µ2, dan ∑ diketahui. Kemudian, setelah
cancelasi
dari
2=>⁄ ? ∑ ?
istilah
(⁄
daerah
Expected
Cost
of
Misclassification (ECM) minimum pada region R1 dan R2 yang meminimalisir ECM didefenisikan oleh nilai x untuk ketidaksamaan yang berlaku sebagai berikut: @ 9
CD(|
>
@ 9
CD(|
>
R1 = @7 9 A BCD|(F B>7 F &
menjadi :
&
R2 = @7 9 G BCD|(F B>7 F &
1 ' R1 : exp− (x − µ 1 ) ∑ 2 1 ' R 2 : exp− (x − µ 1 ) ∑ 2
−1
&
D
(| > (x − µ1 ) + 1 (x − µ 2 )' ∑ −1 (x − µ 2 ) ≥ BC F B>7 F CD|( &
2
−1
D
(| > (x − µ 1 ) + 1 (x − µ 2 )' ∑ −1 (x − µ 2 ) < BC F B>7 F CD|( &
2
(2.2)
Diberikan daerah R1 dan R2, sehingga dapat membentuk aturan klasifikasi yang diberikan pada hasil berikut: Anggap populasi π1 dan π2 dideskripsikan oleh idensitas multivariate normal dengan bentuk pada persamaan (2.1). Kemudian aturan alokasi yang meminimalisir ECM sebagai berikut : Alokasikan x0 ke π1 jika :( : ; ∑
'(
(
90 :( : ; ∑
'( : (
CD(|
>
: A L 8BCD|(F B>& F< 7
(2.3)
Dengan cara lain alokasikan x0 ke π2. Bukti: karena quantitas pada persamaan (2.2) tidak negatif untuk semua x, maka dapat diambil logaritma naturalnya dan menyiapkan pertidaksamaan. Selanjutnya Universitas Sumatera Utara
(
9 :( ; ∑
'( 9
(
:( 9 : ; ∑ '( 9 : (
= :( : ; ∑ '( 9 :( : ; ∑
'( : (
:
(2.4)
dan akibatnya D(| 1 >& (µ 1 − µ 2 )' ∑ −1 (µ 1 + µ 2 ) A L 8BC D|(F B>7 F< C 2
'
R1 : (µ 1 − µ 2 ) ∑ −1 x −
D(| 1 > (µ 1 − µ 2 )' ∑ −1 (µ 1 + µ 2 ) G L 8BC F B>& F< D C|( 7 2
'
R2 : (µ 1 − µ 2 ) ∑ −1 x −
(2.5)
Pada kebanyakan situasi, quantitas populasi µ1, µ2, dan ∑ tidak diketahui, sehingga aturan (2.3) harus dimodifikasi. Wald dan Anderson menyarankan mengganti parameter-parameter populasi dengan sampel mereka. Kemudian, anggap kita memiliki n1 observasi dari variabel acak multivariat X’ = [X1,
X2, …, Xp] dari π1 dan n2 pengukuran quantitas ini dari π2, dengan n1+ n2 – 2 ≥ p. Kemudian matriks data respektif sebagai berikut: ' x11 ' x X1 = 12 (n1 × p ) ' x1n1
;
x'21 ' x X 2 = 22 ( n2 × p ) ' x1n2
(2.6)
Dari data matriks tersebut, vektor sampel rata-rata dan matriks kovarians adalah:
X 1 ( )
=
X 2 ( )
=
p ×1
p ×1
1 n1 ∑ x1 j n1 j =1
;
1 n2 ∑x 2 j n2 j =1
;
S1
=
1 n1 ∑ x 1 j − x1 x 1 j − x 1 n1 − 1 j =1
)
S2
=
1 n2 ∑ x2 j − x2 x 2 j − x 2 n2 − 1 j =1
)
( p× p )
( p× p )
(
(
)(
)(
'
'
(2.7)
Karena diasumsikan bahwa populasi memiliki matriks kovarian yang sama ∑ , sampel matriks kovarian S1 dan S2 dikombinasikan untuk diturunkan menjadi perkiraan objektif tunggal dari ∑ . Secara umum, berat rata-rata n1 − 1 n2 −1 S pooled = S 1 + S 2 (n1 − 1) + (n 2 − 1) (n1 − 1) + (n 2 − 1)
(2.8) Universitas Sumatera Utara
Adalah suatu estimasi unbias dari ∑ jika matriks data X1 dan X2 memuat sampelM1 untuk µ1, 9 M2 untuk sampel acak dari populasi π1 dan π2 berturut-turut. Substitusikan 9 µ2, dan Spooled untuk ∑ pada persamaan (2.3) menjadi “sampel” aturan klasifikasi. Estimasi aturan Expected Cost of Misclassification (ECM) minimum untuk dua populasi normal: Alokasikan x0 ke π1 jika CD(|
(
>
'( '( M2)N O>PPQRS M1- M92)N O>PPQRS M1 + 9 M2) A L 8B D F B & F< M1-9 90 (9 (9 (9 > C|( CD(|
7
(2.9)
>
Alokasikan x0 ke π2, jika pada (2.9), B D F B & F = 1 C|( > 7
Kemudian ln (1) = 0, dan estimasi aturan ECM minimum untuk 2 populasi normal ditotalkan untuk membandingkan variabel scalar: '( M1-9 M2)N O>PPQRS TN9 T = (9 9U
Dievaluasi pada 0 , dengan jumlah : (
'( M1-9 M2)N O>PPQRS M1 + 9 M2 ) V T = (9 (9 (
= W( W
dimana : '( M1-9 M2)N O>PPQRS M( U TN9 M( 9 W( = (9
dan
'( M1-9 M2)N O>PPQRS M U TN9 M W = (9 9
Oleh karena itu, estimasi aturan ECM minimum untuk dua populasi normal sama dengan membentuk dua populasi univariat untuk nilai y dengan mengambil suatu kombinasi linier yang sesuai dari observasi-observasi populasi π1 dan π2 dan kemudian TN9 M0 menandai suatu observasi baru x0 ke π1 atau π2, bergantung pada apakah T = U
jatuh kekanan atau kekiri titik tengah V T antara dua rata-rata univariat W( dan W . Sekali estimasi parameter disisipkan pada kuantitas populasi tak diketahui yang bersesuaian, tidak ada jaminan bahwa aturan hasil akan meminimalisir biaya ekspektasi kesalahan klasifikasi pada klasifikassi yang umum. Hal ini karena aturan optimal di (2.3) telah diturunkan menghasilkan bahwa kepadatan multivariat normal Universitas Sumatera Utara
f1(x) dan f2(x) diketahui secara lengkap. Persamaan (2.9) adalah satu estimasi sederhana dari aturan optimal. Akan tetapi, kelihatannya beralasan untuk mengekspektasi bahwa hal tersebut harusnya ada dengan baik jika ukuran sampel besar. Sebagai hasilnya, jika data muncul menjadi multivariat normal, statistik klasifikasi bergeser kekiri dari pertidaksamaan di (2.9) dapat dihitung untuk setiap observasi baru x0. Observasi-observasi ini diklasifikasikan dengan membandingkan nilai-nilai statistik dengan nilai-nilai dari ln X%YD1|2/YD2|1) / ( [.
2.6.3
Format Data Dasar dan Program Komputer yang Digunakan
Data dasar yang digunakan otomatis adalah data yang kontinu (karena adanya asumsi kenormalan) untuk variabel penjelas (Xj) dan data kategorik/kualitatif/nonmetrik untuk variabel respon (Y).
Tabel 2.1 Tabel Format Data untuk Analisis Diskriminan X1
X2
.
.
.
Xp
Y
…
…
…
…
…
…
…
…
…
…
…
…
…
…
Beberapa software yang bisa digunakan adalah SPSS, SAS, dan Minitab.
2.6.4
Algoritma dan Model Matematis
Secara ringkas, langkah-langkah dalam analisis diskriminan adalah sebagai berikut : 1) Pengecekan adanya kemungkinan hubungan linier antara variabel penjelas. Untuk point ini, dilakukan dengan bantuan matriks korelasi (pembentukan matriks korelasi sudah difasilitasi pada analisis diskriminan). Pada output SPSS, matriks korelasi bisa dilihat pada pooled Within-Groups Matrices.
Universitas Sumatera Utara
2) Uji vektor rata-rata kedua kelompok
H 0 : µ1 = µ2 H 1 : µ1 ≠ µ2 Angka signifikan : Jika Sig. > 0,05 berarti tidak ada perbedaan antar-grup Jika Sig. < 0,05 berarti ada perbedaan antar-grup
Diharapkan dalam uji ini adalah hipotesis nol ditolak, sehingga kita mempunyai informasi awal bahwa variabel yang sedang diteliti memang membedakan kedua kelompok. Pada SPSS, uji ini dilakukan secara univariate (jadi yang diuji bukan berupa vektor), dengan bantuan table Tests of Equality of Group Means.
3) Dilanjutkan pemeriksaan asumsi homoskedastisitas dengan uji Box’s M. Diharapkan dalam uji ini hipotesis nol tidak ditolak ( H 0 : ∑ 1 = ∑ 2 ) . Hipotesis:
H0 : matriks kovarians grup adalah sama H1 : matriks kovarians grup adalah berbeda secara nyata Keputusan dengan dasar signifikansi (lihat angka signifikan) Jika Sig. > 0,05 berarti H0 diterima Jika Sig. < 0,05 berarti H0 ditolak Sama tidaknya grup kovarians matriks juga bisa dilihat dari tabel output Log Determinant. Jika dalam pengujian ini H0 ditolak maka proses lanjutan seharusnya tidak bisa dilakukan.
4) Pembentukan model diskriminan
Kriteria Fungsi Linier Fisher a. Pembentukan fungsi Linier (teoritis) Fisher mengelompokkan suatu observasi berdasarkan nilai skor yang dihitung dari suatu fungsi linier Y = λ'X dimana λ' menyatakan vektor yang berisi koefisien-koefisien variabel penjelas yang membentuk persamaan linier terhadap variabel respon,
Universitas Sumatera Utara
λ' = [λ1, λ2, …, λp] ( X = 8 <
Xk menyatakan matriks data pada kelompok ke-k
x11k x 21k Xk = x n1k
x12 k x 21k xn2k
x1 pk x 2 pk . x npk i = 1, 2, …, n j = 1, 2,…, p k = 1 dan 2
xijkk menyatakan observasi ke-i variabel ke-j pada kelompok ke-k. Dibawah asumsi Xk ~ N (µ k , ∑ k ) maka ]( _ a ] ^ ` ( bc 8] < dan ∑ k _ ad ]d ad ]d N ; _ a ∑1 = ∑2 = ∑
µ pk . ]d = . ; . µ pk ]d adalah vekor rata-rata tiap variabel X pada kelompok ke-k.
σ 11 0 e . 0 0 0
σ 12 σ 22
.
.
.
.
.
.
0
.
.
.
0
0
.
.
0
0
0
0
σ 1p σ 2 p . . σ pp
Universitas Sumatera Utara
σj1j2 =
fghgi fghgjkL l g gjhLg l( l {mnfghgi fghgjkL l( !g l g gjhLgl( o
l
Fisher mentransformasikan observasi-observasi x yang multivariate menjadi observasi y yang univariate. Dari persamaan Y = λ’X diperoleh: ]dp E(Yk) = E(λ’X) = λ’ µk ; qr
= var(ℓ’X) = ℓ’ ∑ ℓ
]dp adalah rata-rata Y yang diperoleh dari X yang termasuk dalam kelompok kek. qr = adalah varians Y dan diasumsikan sama untuk kedua kelompok. Kombinasi
linier
yang
menarik
menurut
Fisher
adalah
yang
dapat
memaksimumkan rasio antara jarak kuadrat rata-rata Y yang diperoleh dari X kelompok 1 dan 2 dengan varians Y, atau dirumuskan sebagai berikut: ](r ]r s; ]( ] ]( ] ; s qr s; ∑ s Jika ]( ]) = δ maka persamaan diatas menjadi
%tu v)
&
tu ∑ t
karena ∑ adalah
matriks definit positif maka menurut teori pertidaksamaan Cauchy-Schwartz, rasio
%tu v) tu
&
∑t
dapat dimaksimumkan jika s; Y ∑
'(
δ = Y∑
'( ] (
] dengan
memilih c = 1, menghasilkan kombinasi linier yang disebut kombinasi linier Fisher sebagai berikut : '
Y = λ ' X = (µ 1 − µ 2 ) ∑ −1 X
b. Pembentukan Fungsi Linier (dengan bantuan SPSS) Pada output SPSS, koefisien untuk tiap variabel yang masuk dalam model dapat dilihat pada tabel Canonical Discriminant Function Coefficient. Tabel ini akan dihasilkan pada output apabila pilihan Function Coefficient bagian Unstandardized diaktifkan.
Universitas Sumatera Utara
c. Menghitung discriminant score Setelah dibentuk fungsi liniernya, maka dapat dihitung skor diskriminan untuk tiap observasi dengan memasukkan nilai-nilai variabel penjelasnya. d. Menghitung Cutting Score Untuk memprediksi responden mana masuk golongan
mana, kita dapat
menggunakan optimum cutting score. Memang dari computer informasi ini sudah diperoleh. Sedangkan cara mengerjakan secara manual Cutting Score (m) dapat dihitung dengan rumus sebagai berikut dengan ketentuan untuk dua grup yang mempunyai ukuran yang sama cutting score dinyatakan dengan rumus, (Simamora, 2005):
Zce =
wx ywz
dengan : Zce = cutting score untuk grup yang sama ukuran ZA = centroid grup A ZB = Centroid grup B Apabila dua grup berbeda ukuran, rumus cutting score yang digunakan adalah : ZCU =
$x wz y$z wx $x y$z
dengan : ZCU = Cutting score untuk grup tak sama ukuran NA
= Jumlah anggota grup A
NB
= Jumlah anggota grup B
ZA
= Centroid grup A
ZB
= Centroid grup B
Kemudian nilai-nilai discriminant score tiap obsservasi akan dibandingkan dengan cutting score, sehingga dapat diklasifikasikan suatu obsevasi akan termasuk kedalam kelompok yang mana. Suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota kelompok kode 1 jika '
Y = (µ 1 − µ 2 ) ∑ −1 x ≥ m , selain itu dimasukkan dalam kelompok 2 (kode
Universitas Sumatera Utara
nol) perhitungan m dilakukan secara manual, karena SPSS tidak mengeluarkan output m. Namun, dapat di hitung nilai m dengan bantuan tabel Function at Group Centroids dari output SPSS. e. Perhitungan Hit Ratio setelah semua observasi diprediksi keanggotaannya, dapat dihitung hit ratio, yaitu rasio antara observasi yang tepat pengklasifikasiannya dengan total seluruh observasi. Misalkan ada sebanyak n observasi, akan dibentuk fungsi linier dengan observasi sebanyak n-1. Observasi yang tidak disertakan dalam pembentukan fungsi linier ini akan diprediksi keanggotaannya dengan fungsi yang sudah dibentuk tadi. Proses ini akan diulang dengan kombinasi observasi yang berbeda-beda, sehingga fungsi linier yang dibentuk ada sebanyak n. Inilah yang disebut dengan metode Leave One Out.
f. Kriteria posterior probability Aturan pengklasifikasian yang ekivalen dengan model linier Fisher adalah berdasarkan nilai peluang suatu observasi dengan karakteristik tertentu (x) berasal dari suatu kelompok. Nilai peluang ini disebut posterior probability dan bisa ditampilkan pada sheet SPSS dengan mengaktifkan option probabilities of group membership pada bagian Save di kotak dialog utama.
p k f k (x ) , p Dm| ∑ p k f k (x ) k
dimana : pk adalah prior probability kelompok ke-k dan fk(x) =
(
4 3 {& 6 ∑ 6
7{ &
(
exp 9 :d ; ∑ '( 9 :d ; m 0,1
suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota kelompok 0 jika p m 0|D ~ m 1|D. Nilai-nilai posterior probability inilah yang mengisi kolom dis1_1 dan kolom di 1_2 pada sheet SPSS.
g. Akurasi statisik, dapat di uji secara statistik apakah klasifikasi yang di lakukan (dengan menggunakan fungsi diskriminan) akurat atau tidak. Uji statistik
tersebut
adalah
prees-Q
Statistik.
Ukuran
sederhana
ini
Universitas Sumatera Utara
membandingkan jumlah kasus yang diklasifikasi secara tepat dengan ukuran sampel dan jumlah grup. Nilai yang diperoleh dari perhitunngan kemudian dibandingkan dengan nilai kritis (critical velue) yang diambil dari tabel ChiSquare dan tingkat keyakinan sesuai yang diinginkan. Statistik Q ditulis dengan rumus:
Prees-Q =
$'
2
$'(
dengan : N = ukuran total sampel n = jumlah kasus yang diklasifikasi secara tepat K = jumlah grup
2.7 Pengujian Hipotesis
Intepretasi hasil analisis diskriminan tidak berguna jika fungsinya tidak signifikan. Hipotesis yang akan diuji adalah H0 yang menyatakan bahwa rata-rata semua variabel dalam semua grup adalah sama. Dalam SPSS, uji dilakukan dengan menggunakan Wilks’λ. Jika dilakukan pengujian sekaligus beberapa fungsi sebagaimana dilakukan pada analisis diskriminan, statistik Wilks’λ adalah hasil λ univariat untuk setiap fungsi. Kemudian, tingkat signifikansi diestimasi berdasarkan chi-square yang telah ditransformasi secara statistik. Setelah hasil analisis diketahui, kemudian dilihat apakah Wilks’ λ berasosiasi dengan fungsi diskriminan. Selanjutnya, angka ini ditransformasi menjadi chi-quare dengan derajat kebebasan (df) yang akan digunakan dalam pengambilan kesimpulan dengan uji kriteria hipotesis berikut:
Jika F hitung > F tabel maka H0 ditolak dan H1 diterima Jika F hitung ≤ F tabel maka H0 diterima dan H1 ditolak Universitas Sumatera Utara
Selanjutnya dengan menggunakan nilai F, dapat di ambil keputusan untuk menerima atau menolak H0. Jika H0 diterima, akan memberikan kesimpulan bahwa tidak ada perbedaan antara siswa yang lulus dan siswa yang tidak lulus. Sebaliknya jika H0 ditolak maka terdapat perbedaan antara siswa yang lulus dan siswa yang tidak lulus, dengan nilai signifikan < α, H0 ditolak. Sehingga proses analisis diskriminan dapat digunakan.
Universitas Sumatera Utara