STK643 PEMODELAN NON-PARAMETRIK Pendugaan Fungsi Kepekatan Regresi Nonparametrik
KARAKERISTIK DASAR PENDUGA KEPEKATAN β’ Penduga kepekatan; 1 π π₯ = π
π
1
π₯ β π₯π π€ β
β’ Nilai tengah atau Rataan (mean) πΈ{π π₯ } =
ππ€2 =
π₯βπ§ π€ π π§ ππ§ β
β2 2 " β π π₯ + ππ€ π (π₯) 2 2 π§ π€ π§ ππ§ adalah ragam fungsi kernel
KARAKERISTIK DASAR PENDUGA KEPEKATAN β’ Ragam
1 π£ππ π(π₯) β π(π₯)πΌ(π€) πβ πΌ π€ =
π€ 2 π§ ππ§
β’ Rataan dan ragam tergantung pada fungsi kepekatan sebenarnya, f(x), dan turunan kedua fungsi, f β(x) ο masalah bias β’ Kuantifikasi variabilitas suatu penduga kepekatan tanpa memperhitungkan adanya bias ο ragam didekai dengan π£ππ
1 1 π (π₯) β πΌ(π€) 4 πβ
SELANG KEPERCAYAAN β’ Selang kepercayaan untuk kepekatan sebenarnya pada berbagai nilai x dapat dinyatakan dengan lebar dua salah baku
πΌ(π€) 2 = 4πβ
πΌ(π€) β πβ
π
y <- log (aircraft$Span) [aircraft$Period==3] sm.density(y, xlab = "Log span", display = "se")
PEMULUSAN OPTIMAL β’ Berdasarkan minimisasi MISE secara asimtotik diperoleh βπππ‘ dengan πΎ π€ =
πΌ(π€) 4 ππ€
dan π½ π =
πΎ(π€) = π½ π π
1/5
π " (π₯)2 ππ₯
β’ Pemulus optimal normal 4 β=π 3π dengan Ο adalah simpangan baku sebaran.
β’ Penduga Ο yang robust adalah
1/5
PEMULUSAN OPTIMAL β’ Penduga Ο yang robust , untuk mengatasi kemungkinan adanya pencilan, adalah π = ππππππ π¦π β π /0.6745 dengan π adalah median contoh.
β’ Pemulus optimal normal untuk kasus multidimensi βπ = Οi
4 π+2 π
1/(π+4)
dengan p adalah banyaknya peubah bebas (dimensi), hi adalah pemulus optimal, Οi adalah simpangan baku dimensi ke-i β’
PEMULUSAN OPTIMAL β’ Pemulus optimal berdasarkan validasi silang
logit <- as.matrix(log(tephra/(100-tephra))) par(mfrow=c(1,2)) h.cv <- hcv(logit[,1], display = "lines", ngrid = 32) n <- length(logit) sd <- sqrt(var(logit)) h <- seq(0.003, 0.054, length=32) lines(h, nmise(sd, n, h) - 5.5, lty = 3) sm.density(logit, h.cv) sm.density(logit, lty = 3, add = T)
KENORMALAN
logit <- as.matrix(log(tephra/(100-tephra))) par(mfrow=c(1,2)) qqnorm(logit) qqline(logit) # cat("ISE statistic:", nise(logit),"\n") sm <- sm.density(logit) y <- sm$eval.points sd <- sqrt(hnorm(logit[,1])^2 + var(logit[,1])) lines(y, dnorm(y, mean(logit), sd), lty = 3) par(mfrow=c(1,1))
KENORMALAN
logit <- as.matrix(log(tephra/(100-tephra))) par(mfrow=c(1,2)) sm.density(logit, model="Normal") sm.density(logit, h=hsj(logit[,1]), model="Normal") par(mfrow=c(1,1))
BOOTSRAP PENDUGA KEPEKATAN
sm.density(y, xlab = "Log span") for (i in 1:10) sm.density(sample (y, replace=T), col=5, add=T) sm.density(y, xlab = "Log span", add=T)
REGRESI NONPARAMETRIK β’ Ketidaklinearan dalam data β’ Regresi nonparametrik bertujuan untuk memperoleh rata-rata pemodelan data β’ Teknik pemulusan masih berguna dengan cara plot tebaran data (scatter plot) untuk menampilkan struktur data tanpa referensi suatu model parametrik
REGRESI NONPARAMETRIK PLOT TEBARAN DATA
REGRESI NONPARAMETRIK MODEL
Model: π¦ = π π₯ + π dengan π¦ = peubah respon π₯ = peubah bebas (covariate) π = galat dengan rata2 0 dan ragam Ο2
π π₯ =
π₯π β π₯ π¦π β π₯π β π₯ π π=1 π€ β
π π=1 π€
REGRESI NONPARAMETRIK PARAMETER PEMULUS
Model:
π¦ =π π₯ +π
Simpangan baku sebagai h (lebar jendela) untuk fungsi kepekatan normal
REGRESI NONPARAMETRIK PARAMETER PEMULUS Parameter pemulus, h, mengendalikan lebar fungsi kernel dan juga derajat pemulusan terhadap data
Parameter pemulus besar akan menghasilkan penduga dengan beberapa karakteristik kurva yang hilang; sebaliknya, parameter pemulus kecil akan menghasilkan penduga dengan banyak βpatahanβ pada kurva; sehingga perlu dicari h yang tepat
REGRESI NONPARAMETRIK BOOTSTRAP
x <- radioc$Cal.age[radioc$Cal.age>2000 & radioc$Cal.age<3000] y <- radioc$Rc.age[radioc$Cal.age>2000 & radioc$Cal.age<3000] plot(x, y, xlab="Calendar.age", ylab="Radiocarbon.age", type="n") model <- sm.regression(x, y, h=30, eval.points=x, display="none") mhat <- model$estimate r <- y - mhat r <- r - mean(r) for (i in 1:50) sm.regression(x, mhat + sample(r, replace=T), h=30, add=T, col=2, lty=1) sm.regression(x, y, h=30, add=T, col=βblueβ)
REGRESI NONPARAMETRIK SELANG KEPERCAYAAN 95%
> x <- radioc$Cal.age[radioc$Cal.age>2000 & radioc$Cal.age<3000] > y <- radioc$Rc.age[radioc$Cal.age>2000 & radioc$Cal.age<3000] > plot(x, y, xlab="Calendar.age", ylab="Radiocarbon.age") > model <- sm.regression(x, y, h=30, eval.points=x) > w <- sqrt(2*qt(0.95,1)) #95% dari statistik t-student > lo <- model$estimate-w*model$se > hi <- model$estimate+w*model$se > sm.regression(x, lo, h=30, add=T, col=2, lty=1, add=T) > sm.regression(x, hi, h=30, add=T, col=2, lty=1, add=T)
KEPUSTAKAAN 1) Bowman AW, Azzalini A. 1997. Applied Smoothing Techniques for Data Analysis: the Kernel Approach With S-Plus Illustrations. Oxford University Press. London. 2) Silverman BW. 1986. Density Estimation for Statistics and Data Analysis. Vol. 26 of Monographs on Statistics and Applied Probability. Chapman & Hall/CRC. London. 3) Simonoff JS. 1996. Smoothing Methods in Statistics. Springer. New York.