ISSN 1411-6669 Volume 12, Juni 2012
MAJALAH ILMIAH
Matematika dan Statistika
DITERBITKAN OLEH:
JURUSAN MATEMATIKA
FMIPA – UNIVERSITAS JEMBER
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
MODEL UNTUK DATA BERDISTRIBUSI POISSON YANG MENGANDUNG VARIABEL BEBAS KUALITATIF Septi Triyani, I Made Tirta, Yuliani Setia Dewi Jurusan Matematika FMIPA Universitas Jember Abstact:
The main purpose of this research is to build model of data that distribution of respon variable is Poisson and dependent variable has qualitative variable, beside that, to know estimation of parameters and testing of hipotesis. This research uses Generalized Linear Model. At its analysis, qualitative variable is considered according to probability regression function of categories with dummy variable. Formula that can be used is Y~G*X to know if the categories need apart or not. Then to know explicitly how influence intercept and slope of each categories can be used Y~G/X-1 formula. From both of analysis, then doing selection which the best model. Selection of the best model also can be look at from AIC(Akaike’s Information Criteria). The better model has AIC smallest. .
Keywords:Generalized Linear Model, Dummy variable, Poisson, Qualitative variable.
I. PENDAHULUAN Salah satu metode statistika yang telah bertahun-tahun digunakan dalam analisis statistika adalah analisis regresi. Analisis regresi adalah sebuah metode statistika untuk membuat model peramalan dan menyelidiki bentuk hubungan dari satu variabel respon dengan satu atau lebih variabel-variabel penjelas. Apabila dalam model terdapat variabel kualitatif yang ikut juga mempengaruhi variabel respon, maka dapat digunakan variabel boneka [5]. Salah satu model regresi yang banyak digunakan oleh pengguna statistika adalah Model Regresi Linier atau Model Linier Klasik. Teknik ini berdasarkan pada asumsi bahwa respon berdistribusi Normal serta adanya hubungan linier antara mean dan variabel penjelas. Pada kehidupan nyata distribusi respon tidak selalu Normal. Untuk itu, perlu dilakukan remidi agar kondisi data sesuai dengan prasyarat penggunaan model linier klasik atau dengan memilih metode yang paling tepat. Seiring dengan perkembangan Model Linier Klasik, untuk menangani kondisi data dengan respon yang ada tidak berdistribusi Normal tetapi antara respon yang satu dengan yang lain masih saling bebas dapat digunakan Model Linier Tergeneralisir. Misalnya untuk data dengan variabel responnya berdistribusi Poisson yang sebarannya bersifat
1
Model Untuk Data Berdistribusi Poisson …(1 – 13)
diskrit. Penerapan data seperti ini salah satu contohnya dapat ditemukan di bidang ekonomi, yaitu terkait dengan faktor-faktor sosial ekonomi yang mempengaruhi fertilitas.
II. HASIL DAN PEMBAHASAN 2.1 Tinjauan Pustaka Model Linier Misalkan hubungan antara variabel respon Yi dan variabel penjelas X i dirumuskan sebagai model linier, yaitu sebagai berikut [4]: Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β p X ip + ei
dengan: Yi = variabel respon (variabel tak bebas) pada pengamatan ke-i, i=1,2,…,n; X i = variabel penjelas (variabel bebas) pada pengamatan ke-i;
β j = koefisien regresi yang tidak diketahui, j= 1, 2, …, p; ei
= variabel kesalahan (error/galat) pada pengamatan ke-i;
p
= banyaknya variabel bebas.
Asumsi model linier klasik adalah ei ~ N (0, σ 2 ) dan ei independen dengan ei' untuk setiap i ≠ i ' . Asumsi ini diuraikan lebih lanjut sebagai berikut [9]: 1. Yi berdistribusi normal dan saling bebas dengan variansi konstan, yaitu, Yi ~ NID( X iT β , σ 2 ) dengan X iT adalah variabel penjelas untuk Yi dan sama dengan baris ke-i dari matrik X . 2. ada suatu fungsi (misalkan η ) dari variabel penjelas yang disebut prediktor linier dari variabel respon Yi yaitu η i = X iT β . 3. ada hubungan antara prediktor linier (η i ) dan komponen acak ( µ i ) dengan η i =
µ i (yaitu hubungan identitas). Model Linier dengan Variabel Bebas Kualitatif Prinsip dasar pemakaian variabel boneka adalah sebagai berikut [8]: a. bila variabel kualitatif mempunyai k kategori maka bisa dibuat variabel boneka sebanyak k-1 (banyaknya kategori dikurangi satu); b. pemberian nilai 0 dan 1 pada kategori yang ada bersifat bebas, disesuaikan dengan tujuan.
2
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
Berdasarkan prinsip di atas, maka model linier untuk data yang mengandung dua kategori adalah sebagai berikut: 1 Yi = β 0 + β1 X i1 + β 2 Di 2 + ei ; dengan D2 = 0
jika kategori 1 jika lainnya
Jika diasumsikan bahwa E (ei ) = 0 , maka nilai harapan E (Yi ) = β 0 + β1 X i1 + β 2 Di 2 . Untuk memahami arti dari parameter dalam model tersebut, pertama dipertimbangkan untuk kasus kategori 1 dengan D2 =1, sehingga E (Yi ) = β 0 + β1 X i1 + β 2 (1) = ( β 0 + β 2 ) + β1 X i1 Sedangkan untuk kategori 2 dapat dibentuk D2 = 0, sehingga nilai harapannya: E (Yi ) = β 0 + β1 X i1 + β 2 (0 ) = β 0 + β1 X i1 Secara geometris, kedua sifat di atas dapat ditunjukkan pada Gambar 2.1 berikut ini. Y
β1
Kategori 1 Kategori 2
( β 0 + β 2 ) β1
β0 X1 Gambar 2.1. Ilustrasi arti parameter regresi untuk model Pengujian hipotesis sama dengan prosedur pengujian analisis regresi linier sederhana (model linier klasik), yaitu H 0 : β 2 = 0 vs H 1 : β 2 ≠ 0 . Dalam model Yi = β 0 + β1 X i1 + β 2 Di 2 + ei dianggap bahwa variabel boneka D2 tidak berinteraksi dengan variabel lainnya. Ini berarti bahwa pengaruh variabel lain sama saja baik terhadap kategori 1 maupun untuk kategori 2. Jika dimisalkan variabel Y dipengaruhi oleh variabel kuantitatif X 1 baik untuk kategori 1 maupun kategori 2 maka keadaannya menjadi lain, dalam hal ini peubah D2 berinteraksi dengan X 1 maka model tersebut menjadi: Yi = β 0 + β1 X i1 + β 2 Di 2 + β 3 X i1 Di 2 + ei dengan E (Yi ) = β 0 + β1 X i1 + β 2 Di 2 + β 3 X i1 Di 2 .
3
Model Untuk Data Berdistribusi Poisson …(1 – 13)
Jika diasumsikan E (ei ) = 0 , maka dipunyai nilai harapan variabel Yi untuk kategori 1 dengan D2 = 0 dan didapatkan: E (Yi ) = β 0 + β1 X i1 + β 2 (0 ) + β 3 X i1 (0 ) = β 0 + β1 X i1 . Sedangkan untuk kategori 2, D2 = 1, didapatkan: E (Yi ) = β 0 + β1 X i1 + β 2 (1) + β 3 X i1 (1) = (β 0 + β 2 ) + (β1 + β 3 )X i1 Misalkan ingin dilakukan uji apakah penambahan faktor interaksi berpengaruh terhadap model regresi maka pengujian hipotesis adalah sebagai berikut. H 0 : β1 = β 2 = β 3 = 0 ; H 1 : minimal ada satu β j ≠ 0 , j = 1,2,3 . Berdasarkan berbagai kemungkinan intersep dan kemiringan garis regresi untuk kategori, hasil dari uji hipotesis ini memiliki beberapa kemungkinan sebagai berikut: (i)
apabila nilai β 2 = 0 dan β 3 = 0 maka didapatkan E (Yi ) = β 0 + β1 X i1
(ii)
apabila nilai β 2 ≠ 0 dan β 3 = 0 maka didapatkan E (Yi ) = ( β 0 + β 2 ) + β1 X i1
(iii) apabila nilai β 2 = 0 dan β 3 ≠ 0 maka didapatkan E (Yi ) = β 0 + ( β1 + β 3 ) X i1 (iv) apabila nilai β 2 ≠ 0 dan β 3 ≠ 0, didapatkan E (Yi ) = ( β 0 + β 2 ) + ( β1 + β 3 ) X i1 Secara geometris, ilustrasi dari keempat kemungkinan tersebut ditunjukkan pada Gambar 2.2.
(i)
(ii)
(iii) (iv) Gambar 2.2 Ilustrasi arti dari koefisien regresi untuk berbagai jenis model
4
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
Model Linier Tergeneralisir Dalam model linier tergeneralisir asumsi model lebih longgar dan digeneralisasikan sebagai berikut. (i) Asumsi (1) diperluas untuk memungkinkan Yi mempunyai distribusi yang sama dan saling bebas dari distribusi keluarga eksponensial. (ii) Pada asumsi (3) hubungan antara komponen prediktor linier ( η ) dan komponen acak ( µ ) tidak
mesti
identitas, tetapi diperluas untuk suatu fungsi monoton dan
diferensiabel, g, yaitu η i = g (µ i ) . Fungsi g disebut fungsi link. Metode yang digunakan dalam mengestimasi parameter adalah metode likelihood maksimum dan kuadrat terkecil. Pada pembahasan ini hanya akan dijelaskan mengenai metode likelihood maksimum. Pembahasan ini dijelaskan dalam [3] yang ringkasannya sebagai berikut. Fungsi likelihood untuk observasi y1 , y2 ,..., yn adalah N
L( yi ,θ ) = ∏ f ( yi ,θ ) i =1
N
N
N
i =1
i =1
i =1
l (θ , y ) = ∑ y i b(θ i ) + ∑ c(θ i ) + ∑ d ( y i )
Selanjutnya bentuk umum dari persamaan penduga dengan menggunakan iterasi NewtonRaphson adalah:
(
b (m ) = b (m −1) X T WX
)
−1
∂η X T W (Y − μ ) ∂μ
Likelihood Maksimum Untuk Model Loglinier Model Linier Tergeneralisasi untuk model loglinier digunakan untuk respon yang peubah acaknya yaitu {Yi , i = 1,2,..., n}berdistribusi Poisson. Fungsi loglikelihood untuk distribusi Poisson dapat diringkas sebagai berikut: N
l (θ ; y ) = ∑ ( y log θ − θ − log y!) i =1
Parameter naturalnya adalah b(θ ) = log μ . Sedangkan
meannya
adalah
E (Yi ) = µ i = θ
dan
Var (Yi ) = θ ,
sehingga
E (Yi ) = Var (Yi ) = µ i .
5
Model Untuk Data Berdistribusi Poisson …(1 – 13)
Dengan menggunakan iterasi Newton Raphson, bentuk umum dari penduga likelihood maksimum adalah:
∂η b (m ) = b (m -1 ) (X T WX) -1 X T W diag (Y − μ ) ∂μ 1 b (m ) = b (m -1 ) (X T WX) -1 X T W diag (Y − μ ) μ 1 dengan diag adalah matrik diagonal dengan elemen diagonal ke-i adalah µ i dengan μ i = 1,..., n .
Inferensi Secara umum untuk Model Linier Tergeneralisir, distribusi sampling diperoleh berdasarkan pendekatan sampel besar secara asimtotis sebagai berikut: a. b j merupakan estimator tak bias untuk β j b. dengan menggunakan teorema limit pusat, statistik (b j − β j ) 2 Var (b j )
bj − β j
Var (b j )
berdistribusi N(0,1) atau
~ χ (21)
β1 β1 Hipotesis: H 0 : β = β 0 = = 0 vs H 1 = β = β 0 = ≠ 0; dengan q < p β q β q
Daerah kritis: H 0 ditolak jika ∆D > χ (2p − q ;α ) ; ∆D = 2[l (b1 ; y ) − l (b0 ; y )] (Ratih, 2000). Analisis Model dengan Variabel Kualitatif di R Ada beberapa cara (yang biasa disebut formula) untuk memasukkan variabel kualitatif (misalnya grup) pada R seperti diuraikan berikut ini. 1. Y ~ X ∗ G . Dengan formula ini mencoba model paling lengkap yaitu memeriksa kemungkinan bahwa setiap kelompok memiliki model yang berbeda. Secara geometris, hal ini sebagaimana ditunjukkan pada Gambar 2.2 (iv). 2. Y ~ X + G . Formula ini adalah untuk memeriksa model regresi sejajar yang memiliki gradien yang sama tetapi kemungkinan konstanta berbeda. Secara geometris, dengan formula ini akan dihasilkan garis regresi sebagaimana pada Gambar 2.2 (ii).
6
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
3. Y ~ G / X . Formula ini adalah untuk memeriksa signifikansi model masing-masing kelompok dengan memaksa model dengan gradien berbeda. Secara geometris, dengan formula ini akan dihasilkan garis regresi sebagaimana pada Gambar 2.2 (iii dan iv) [9]. Fungsi Link dengan Aplikasi Program R Secara umum fungsi link memenuhi g (µ ) = η atau µ = g −1 (η ) . Diantara fungsifungsi link yang dapat digunakan, ada yang disebut fungsi link kanonik (K) yaitu fungsi hubungan yang terjadi pada saat b(θ ) = η . Fungsi link kanonik ini merupakan fungsi link yang dianggap paling alamiah diantara pilihan yang lainnya. Untuk distribusi Poisson, fungsi link yang dapat digunakan adalah Identitas, Log dan Invers. Fungsi link kanonik untuk distribusi Poisson adalah Log. [10]. Uji Model Melalui Hasil Pada R Uji model dilakukan dengan dua cara yaitu: 1. Uji koefisien regresi secara individual dilakukan dengan melihat signifikansi masingmasing koefisien. Teorema: H 0 ditolak pada signifikansi α × 100 %, jika dan hanya jika p ≤ α . 2. Sebagaimana dijelaskan pada Chambers & Hastie (1990) bahwa dalam fungsi GLM dapat ditentukan model terbaik dengan melihat nilai AIC (Akaike’s Information Criteria). Model terbaik adalah model yang mempunyai nilai AIC yang terendah yaitu AIC = D + 2 p φ . Dalam hal ini D adalah devian, p adalah derajat bebas untuk kecocokan dan φ adalah penduga parameter dispersi
2.2 Pembahasan Ilustrasi Data Simulasi Dalam penelitian ini data simulasi dibangkitkan dengan menggunakan paket pemrograman R. Data simulasi digunakan untuk menguji teori-teori yang ada dalam penelitian ini. Apabila dari hasil simulasi asumsi yang diberikan terpenuhi maka teori tersebut dapat diterapkan pada data riil. Hal ini sesuai dengan tujuan simulasi yaitu mengatur kondisi data sesuai dengan tujuan yang ingin dicapai. Membangkitkan Data yang Variabel Responnya Berdistribusi Poisson Pada simulasi ini, nilai β yang sudah ditentukan atau dianggap diketahui yaitu
β = 1 1,5 2 . Dari hasil analisis data yang telah dibangkitkan, diperoleh βˆ = [1,000150
7
Model Untuk Data Berdistribusi Poisson …(1 – 13)
1,499995 1,999987]. Nilai
ini sesuai (relatif sama) dengan nilai β yang sudah
ditentukan atau dianggap diketahui. Sehingga dari sini simulasi data yang ada mendukung kesesuaian teori yang ada. Membangkitkan Data yang Mengandung Variabel Bebas Kualitatif Dalam simulasi ini, dibangkitkan tiga jenis data yaitu data dengan intersep dan kemiringan untuk masing-masing kategori sama; data dengan intersep untuk masingmasing kategori berbeda tetapi kemiringannya sama serta data dengan intersep dan kemiringan untuk masing-masing kategori adalah berbeda. Sedangkan untuk data dengan intersep sama tetapi kemiringannya berbeda tidak dibangkitkan karena dalah kehidupan nyata data dengan tipe seperti ini jarang ditemui. Uraian untuk ketiga jenis data yang dibangkitkan adalah sebagai berikut. A.
Data Jenis 1 (Data dengan intersep dan kemiringan untuk masing-masing kategori sama) Pada simulasi ini, data untuk tiap-tiap kategori dibangkitkan dengan menentukan
nilai intersep dan kemiringan untuk masing-masing kategori sama, yaitu β 01 = β 02 = 1 dan
β11 = β12 = 1. Untuk mengetahui pengaruh dari variabel kualitatif G terhadap hubungan antara Y dan X dilakukan dengan menerapkan beberapa formula sebagaimana. Langkah pertama dengan menerapkan model paling lengkap untuk memeriksa kemungkinan bahwa setiap kategori memiliki model yang berbeda, yaitu dengan formula Y ~ X ∗ G . Melalui formula ini dapat diketahui apakah model perlu dipisah atau tidak, sehingga akan didapatkan gambaran perlu tindakannya memisahkan baik intersep maupun kemiringan garis regresi dari masing-masing kategori. Dengan formula ini diperoleh hasil sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.9953667 0.0086103 115.602 <2e-16 *** X 1.0004279 0.0006868 1456.724 <2e-16 *** G[T.2] -0.0137164 0.0182716 -0.751 0.453 X:G[T.2] 0.0015620 0.0017060 0.916 0.360 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 385.31
Dari hasil ini, dapat diketahui bahwa G[T.2] atau selisih antara intersep pada ketegori 2 dengan intersep model secara keseluruhan adalah tidak signifikan. Begitu juga X:G[T.2] atau selisih antara kemiringan pada ketegori 2 dengan kemiringan variabel kuantitatif X adalah tidak signifikan. Hal ini menunjukkan bahwa tidak perlu pemisahan model atau garis regresi dari masing-masing kategori.
8
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
Selanjutnya dengan menggunakan formula Y ~ G/X – 1 untuk mengetahui secara eksplisit pengaruh intersep dan kemiringan dari masing-masing kategori, diperoleh hasil sebagai berikut: Estimate Std. Error z value Pr(>|z|) G1 0.9953667 0.0086103 115.60 <2e-16 *** G2 0.9816504 0.0161156 60.91 <2e-16 *** G1:X 1.0004279 0.0006868 1456.72 <2e-16 *** G2:X 1.0019899 0.0015617 641.61 <2e-16 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 385.31
Dari hasil ini dapat diketahui bahwa intersep dan kemiringan untuk masing-masing kategori berpengaruh sangat signifikan dalam model, tetapi dari hasil ini dapat diketahui bahwa selisih intersep kategori 1 dan 2 tidak signifikan, begitu juga dengan selisih kemiringan kategori 1 dan 2 tidak signifikan. Hasil ini juga menunjukkan bahwa tidak perlu pemisahan model atau garis regresi dari masing-masing kategori. Oleh karena itu, dari kedua hasil di atas, untuk data jenis satu ini model yang sebaiknya diterapkan adalah model sederhana tanpa mempertimbangkan kategori yang ada yaitu dengan formula Y ~ X dengan hasil yang diperoleh adalah sebagai berikut: Estimate Std. Error (Intercept) 0.9969477 0.0065197 X 1.0003230 0.0005317 Signif. codes: 0 ‘***’ 0.001 ‘**’ AIC: 383.30
z value 152.9 1881.5 0.01 ‘*’
Pr(>|z|) <2e-16 *** <2e-16 *** 0.05 ‘.’ 0.1 ‘ ’ 1
Dari hasil ini ditunjukkan bahwa variabel kualitatif X berpengaruh sangat signifikan terhadap variabel respon Y. Dalam hal ini analisis dilakukan tanpa mempertimbangkan kategori yang ada. Untuk data jenis 1 ini dapat disimpulkan bahwa kedua kategori memiliki kecenderungan yang persis sama sehingga garis regresi kedua kategori (laki-laki -perempuan) dapat digabung dan pengaruh kategori (dalam hal ini jenis kelamin) dapat diabaikan. Kesimpulan ini sesuai dengan data simulasi yang dibangkitkan yaitu kelompok atau kategori memiliki intersep dan kemiringan yang sama. B.
Data Jenis 2 (Data dengan intersep untuk masing-masing kategori berbeda tetapi kemiringannya sama) Pada simulasi ini data untuk tiap-tiap kategori dibangkitkan dengan menentukan
nilai intersep kategori 1 dan 2 berbeda yaitu β 01 = 0,5 dan β 02 = 5, tetapi kemiringannya sama β11 = β12 =1. Sebagaimana penjelasan pada data jenis 1, Untuk mengetahui pengaruh dari variabel kualitatif G terhadap hubungan antara Y dan X dilakukan dengan menerapkan beberapa formulas. Langkah pertama dengan menerapkan model paling
9
Model Untuk Data Berdistribusi Poisson …(1 – 13)
lengkap, yaitu dengan formula Y ~ X ∗ G . Selanjutnya dengan menggunakan formula Y ~ G/X – 1 untuk mengetahui
secara eksplisit pengaruh intersep dan kemiringan dari
masing-masing kategori. Berdasarkan hasil yang diperoleh dengan kedua formula ini, dapat disimpulkan bahwa, model yang sebaiknya diterapakan untuk data jenis dua ini adalah model dengan formula Y~X+G-1. Hasil ini menunjukkan bahwa perlu pemisahan model atau garis regresi dari masing-masing kategori. C.
Data Jenis 3 (Data dengan intersep dan kemiringan untuk masing-masing kategori adalah berbeda) Pada simulasi ini data untuk tiap-tiap kategori dibangkitkan dengan menentukan
nilai intersep kategori 1 dan 2 berbeda β 01 = 1dan β 02 = 3, dengan kemiringan yang berbeda pula β11 =1 dan β12 =2. Sebagaimana penjelasan pada data jenis 1, Untuk mengetahui pengaruh dari variabel kualitatif G terhadap hubungan antara Y dan X dilakukan dengan menerapkan beberapa formula. Langkah pertama dengan menerapkan model paling lengkap, yaitu dengan formula Y ~
X ∗ G . Selanjutnya dengan
menggunakan formula Y ~ G/X – 1 untuk mengetahui secara eksplisit pengaruh intersep dan kemiringan dari masing-masing kategori. Berdasarkan hasil yang diperoleh dengan kedua formula ini, dapat disimpulkan bahwa, model yang sebaiknya diterapakan untuk data jenis dua ini adalah model dengan formula
Y~G/X - 1. Formula G/X menunjukkan
bahwa model yang ada memaksa masing-masing kategori memiliki kemiringan yang berbeda. Hal ini sebagaimana dijelaskan pada tinjauan pustaka Adapun -1 digunakan untuk mengetahui secara eksplisit koefisien masing-masing kategori. Hasil analisis ini menunjukkan bahwa perlu pemisahan konstanta dari masingmasing kategori. Kategori 1 dan 2 masing-masing berpengaruh sangat signifikan dalam model dan selisih intersep antara kategori 1 dan 2 juga sangat signifikan. Oleh karena itu, model atau garis regresi dari masing-masing kategori harus dipisah. Ilustrasi Data Riil Untuk menganalisis data riil ini, digunakan prosedur sebagaimana hasil yang diperoleh pada eksplorasi data simulasi. Data riil yang ada dianalisis dengan fungsi GLM melalui menu Rcmdr pada paket pemrograman R. Pada data yang ada, adanya variabel kualitatif yang berbentuk kategori perlu dianalisis bagaimana pengaruhnya dalam model. Sebagaimana analisis pada data simulasi, langkah pertama yaitu dengan menggunakan formula model terlengkap yaitu Y ~ G * ( X 1 + X 2 ) dengan link log.
10
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
Hasil yang diperoleh adalah sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.730892 0.790646 -0.924 0.3553 G[T.SMP] -0.248323 1.374170 -0.181 0.8566 X1 0.003042 0.001539 1.976 0.0481 * X2 0.034717 0.073523 0.472 0.6368 G[T.SMP]:X1 -0.001247 0.002461 -0.507 0.6123 G[T.SMP]:X2 0.124600 0.107919 1.155 0.2483 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 118.65
Dari hasil ini ditunjukkan bahwa selisih antara intersep pada kategori SMP dengan intersep model secara keseluruhan G[T.SMP] tidak signifikan. Begitu juga selisih antara kategori SMP dengan variabel kuantitatif X 1 dan X 2 G[T.SMP]: X 1 dan G[T.SMP]: X 2 tidak signifikan. Berdasarkan penjelasan sebelumnya, hasil yang diperoleh pada data riil ini identik dengan data jenis 1 pada data simulasi. Untuk itu, model yang sebaiknya diterapkan untuk data riil ini adalah model sederhana tanpa mempertimbangkan kategori yang ada yaitu dengan formula Y ~ X 1 + X 2 dengan hasil yang diperoleh adalah sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.393617 0.578631 -0.680 0.4963 X1 0.002100 0.001124 1.869 0.0617 . X2 0.064261 0.045857 1.401 0.1611 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 116.23
Dari hasil yang diperoleh ini diketahui bahwa variabel lama penggunaan alat kontrasepsi X 2 tidak berpengaruh signifikan dalam model. Untuk itu, eksplorasi selanjutnya dengan menggunakan formula model yang sama tetapi tanpa melibatkan variabel lama penggunaan alat kontrasepsi X 2 yaitu dengan formula Y ~ X 1 yaitu hasilnya sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.6082688 0.5673027 -1.072 0.28362 X1 0.0028976 0.0009731 2.978 0.00290 ** AIC: 116.20
Hasil yang diperoleh ini merupakan model terbaik untuk data riil yang ada. Dilihat dari nilai AIC nya, model ini memiliki nilai AIC yang terkecil. Hal ini sebagaimana penjelasan sebelumnya bahwa model yang lebih baik pada analisis Model Linier Tergeneralisir adalah model dengan nilai AIC yang lebih kecil. Berdasarkan hasil di atas, intersep model tidak signifikan sedangkan variabel pendapatan keluarga berpengaruh signifikan, sehingga dari hasil analisis ini,diperoleh nilai dugaan untuk β adalah:
11
Model Untuk Data Berdistribusi Poisson …(1 – 13)
β − 0,6082688 βˆ = 0 = β1 0,0028976 Berdasarkan hasil di atas, persamaan model untuk data riil yaitu Y = 0,0028976 X 1 Pada hasil analisis data riil di atas, ditunjukkan bahwa kategori SD dan SMP tidak perlu dipisah dalam model. Selain itu, untuk data yang digunakan pada penelitian ini, variabel kualitatif tingkat pendidikan dan variabel lama penggunaan alat kontrasepsi tidak berpengaruh signifikan dalam model. Dari hasil yang diperoleh ini dapat diketahui pula bahwa tingkat pendapatan keluarga ( X 1 ) berpengaruh signifikan dan positif terhadap fertilitas. Hal ini menunjukkan bahwa semakin tinggi pendapatan keluarga fertilitas cenderung naik pula
III. KESIMPULAN Dari hasil dan pembahasan dapat diambil kesimpulan bahwa untuk membangun model yang variabel responnya berdistribusi Poisson dan variabel bebasnya mengandung variabel kualitatif dapat dilakukan analisis dengan formula Y~G*X melalui fungsi GLM pada paket pemrograman R. Dengan formula ini dapat diketahui apakah kategori pada variabel kualitatif perlu dipisah atau tidak. Selanjutnya untuk mengetahui secara eksplisit pengaruh intersep dan kemiringan dari masing-masing kategori pada variabel kualitatif dapat digunakan formula Y~G/X-1. Dari hasil analisis kedua formula tersebut kemudian ditentukan model terbaik untuk data yang ada. Penentuan model terbaik juga dapat dilihat dari nilai AIC yang terkecil dengan mengaitkan model terbaik dari hasil analisis pengaruh kategori dalam model.
DAFTAR PUSTAKA [1] Agresti. A. 1990. Categorical Data Analysis. AWiley - Interscience Publication. [2] Chambers, J.M. & Hastie T.J. 1990. Statistical Models in S. New York: Chapman & Hall. [3] Dobson, A.J. 1990. Introduction To Statistical Modelling. London, Chapman & Hall. 1st Edition. [4] Draper N & Smith H. 1992. Analisis Regresi Terapan (Terjemahan) Edisi Ke-2. Jakarta: Gramedia Pustaka Utama.
12
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
[5] Gaspersz V.1991. Ekonometrika Terapan I. Bandung: Tarsito Bandung. [6] Kuswardani, M. 2007. Pengaruh Pendapatan Keluarga, Lama Pendidikan Istri Dan Lama Penggunaan Alat Kontrasepsi Keluarga Berencana Terhadap Fertilitas Keluarga Pengrajin Pot Kelurahan Kebonagung Kecamatan Kaliwates Kabupaten Jember. Skripsi. Jurusan Ilmu Ekonomi Fakultas Ekonomi Universitas Jember. [7] Montgomery, D.C. & Peck. E.A. (1992), Introduction To Linear Regression Analysis, John Wiley & Sons.NIC. 2nd Edition. [8] Netter J, W. Wasserman & M.H. Kutner. 1985. Applied Linear Statistical Models Illinois:Irwin 2 nd edition. [9] Tirta, I.M. 2005. Generalized Linear Models. Diktat perkuliahan Laboratorium Statistika, Jurusan Matematika, FMIPA, Universitas Jember. [10] Tirta, I.M. 2008. Metode Statistika dengan Aplikasi R. Laboratorium Statistika Jurusan Matematika, FMIPA, Universitas Jember
13