Dr. Kusman Sadik, M.Si Departemen Statistika IPB, 2017
1
Pada model linear klasik, seperti regresi linear, memerlukan asumsi bahwa peubah respon y menyebar Normal. Pada kenyataanya banyak ditemukan bahwa peubah respon y tidak menyebar Normal. Misalnya menyebar Binomial, Poisson, Gamma, Eksponensial, dsb. Maka dikembangkan Model Linear Terampat (MLT / GLM) untuk mengatasi masalah ini. 2
1. Komponen Acak (Random Component) Komponen acaknya adalah peubah respon y. Dalam MLT, peubah respon diasumsikan mempunyai sebaran yang termasuk ke dalam keluarga eksponensial (exponential family), yaitu :
3
2. Komponen Sistematik (Systematic Component)
Komponen sistematik adalah kombinasi linear dari kovariat x1, x2, …, xp. Sehingga dapat dituliskan sebagai berikut: i = (ixi) i disebut juga sebagai penduga linear (linear predictor), i adalah konstanta. 4
3. Fungsi Hubung (Link Function) Yaitu fungsi yang menghubungkan antara komponen acak dengan komponen sistematik. Misalkan E(yi) = i, selanjutnya dapat dibuat hubungan sebagai berikut :
g(i) = i = (ixi) g(.) disebut sebagai fungsi hubung. Fungsi ini harus bersifat terdiferensialkan monoton (monotonic differentiable) 5
Normal
Binomial
Multinomial
Poisson
Gamma
Eksponensial
Negatif Binomial
Dsb. 6
Sebaran y
Fungsi Hubung
Normal
Identitas
Binomial
Logit
Gamma
Invers
Poisson
Log
Multinomial
Logit Kumulatif
Negatif Binomial
Log
Inverse Gaussian
Invers Kuadrat 7
Pendugaan Parameter Metode Fisher Scoring L( , y) Ur ; r
L2 ( , y) I E r s
L(,y) adalah fungsi kemungkinan (likelihood), I disebut matrik informasi Fisher. Maka penduga secara iteratif adalah sebagai berikut :
I ( k 1) βˆ ( k ) I ( k 1) βˆ ( k 1) U ( k 1)
ˆβ ( k ) βˆ ( k 1) ( I - ) ( k 1) U ( k 1) 8
Kelayakan model (goodness of fit) pada GLM dapat diukur berdasarkan Deviance (D). Deviance adalah dua kali perbedaan antara log likelihood nilai aktual dengan log likelihood nilai dugaan. Nilai deviance dapat digunakan sebagai statistik uji mengenai kelayakan model. Deviance merupakan peubah acak yang sebarannya mendekati sebaran 2. 9
Sebaran asimptotik bagi deviance (D) adalah 2(n-p) dimana n adalah banyaknya data, sedangkan p adalah banyaknya parameter dalam model.
10
Uji hipotesis untuk vektor r
p = [ r : p-r ] Ho : r = 0
H1: r 0
11
Respon yang diukur (y) berupa banyaknya kejadian selama selang waktu tertentu atau dalam luas area tententu.
Misalnya, banyaknya pengunjung mal per hari, banyaknya bakteri dalam kultur biakan, dsb. Peubah respon y yang demikian disebut menyebar Poisson 12
13
14
15
16
17
18
19
20
21
22
23
## 6.3.2. A study of wave damage to cargo ships ## McCullagh dan Nelder (hlm.204)
shipku
<- read.csv(file='1-data.ship.accident.mccullagh.csv', header=TRUE)
tipe tahun periode service incidents
<<<<<-
factor(shipku[,2]) factor(shipku[,4]) factor(shipku[,6]) shipku[,7] shipku[,8]
# # # # #
Kategorik Kategorik Kategorik Kontinu Kontinu
## Menentukan kategori pembanding tipe tahun periode
<- relevel(tipe, ref="A") <- relevel(tahun, ref="1960-64") <- relevel(periode, ref="1960-74")
data.frame(tipe,tahun,periode,service,incidents) 24
## We model the rate of damage incidents per month of service, so ## log(service) is an offset.
## We expect overdispersion, so we fit by quasi-likelihood using ## the quasipoisson family. ## ## ## ## ##
The number of damage incidents must be zero for any observation with zero aggregated months of service (whether they corrspond to "necessarily empty" or "accidentally empty cells." These "observations" are not useful in fitting the model, and so are omitted using the subset argument.
model <- glm(incidents ~ tipe + tahun + periode, offset = log(service), family = quasipoisson("link"=log), subset = (service != 0)) summary(model)
25
> data.frame(tipe,tahun,periode,service,incidents)
1 2 3 4 5 6 7 8 . . . 37 38 39 40
tipe A A A A A A A A
tahun 1960-64 1960-64 1965-69 1965-69 1970-74 1970-74 1975-79 1975-79
periode service incidents 1960-74 127 0 1975-79 63 0 1960-74 1095 3 1975-79 1095 4 1960-74 1512 6 1975-79 3353 18 1960-74 0 0 1975-79 2244 11
E E E E
1970-74 1970-74 1975-79 1975-79
1960-74 1975-79 1960-74 1975-79
1157 2161 0 542
5 12 0 1
26
Deviance Residuals: Min 1Q Median -1.6768 -0.8293 -0.4370
3Q 0.5058
Max 2.7912
Coefficients: (Intercept) tipeB tipeC tipeD tipeE
Estimate Std. Error t value Pr(>|t|) -6.40590 0.28276 -22.655 < 2e-16 *** -0.54334 0.23094 -2.353 0.02681 * -0.68740 0.42789 -1.607 0.12072 -0.07596 0.37787 -0.201 0.84230 0.32558 0.30674 1.061 0.29864
tahun1965-69 tahun1970-74 tahun1975-79
0.69714 0.81843 0.45343
0.19459 0.22077 0.30321
3.583 3.707 1.495
0.00143 ** 0.00105 ** 0.14733
periode1975-79
0.38447
0.15380
2.500
0.01935 *
---------------Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for quasipoisson family taken to be 1.691028) Null deviance: 146.328 Residual deviance: 38.695
on 33 on 25
degrees of freedom degrees of freedom 27
28
29
30
31
32
33
34
35
Materi ini bisa di-download di: kusmansadik.wordpress.com
36