IKG4A2 Kapita Selekta Dosen: Aniq A. Rohmawati, M.Si Data Deret Waktu dan i.i.d Data merupakan kumpulan informasi yang diharapkan dapat dinterpretasikan dengan baik dan akurat. Terdapat beberapa jenis data dalam statistika: data cross-sectional, data longitudinal, data deret waktu dan data i.i.d. Pada Bagian A, secara khusus akan dibahas terkait perbedaan data deret waktu dan data i.i.d berdasarkan nilai korelasinya dengan melibatkan simulasi pada data riil. Pada data deret waktu dilakukan uji kestasioneran dengan melihat trend data, mean dan variansi. Pada Bagian B, dilakukan fitting distribusi data i.i.d untuk mengetahui distribusi yang melekat pada data. Selain itu, dilakukan simulasi untuk melihat plot korelasi data dengan menggunakan data multivariat dan bangkitan dua data acak pada Matlab. Bagian C, menjelaskan penaksir parameter dari data riil i.i.d dengan Metode Maksimum Likelihood. Selanjutnya, Bagian D menjelaskan analisis beserta simulasi terkait fungsi kepadatan peluang dari jumlahan dua peubah acak Uniform (0,1) i.i.d. Bagian A Data yang digunakan adalah data harga emas harian Januari 2012 - April 2012. Kebergantungan dua variabel diartikan juga sebagai korelasi. Pada kasus ini korelasi digunakan untuk mengetahui apakah naik/turunnya harga emas hari ini akan mempengaruhi harga emas di hari berikutnya. Ukuran korelasi dua variabel yang cukup populer digunakan adalah koefisien korelasi Pearson. Misalkan Xt menyatakan harga emas saat t, dengan mean µX dan 2 variansi σX . Koefisien korelasi (ρ) didefinisikan sebagai ukuran hubungan linier antara Xt dan Xt+1 , dimana:
ρXt ,Xt+1 =
Cov(Xt , Xt+1 ) 2 σX t
Nilai ρ antara 0 sampai 1, semakin mendekati 1 maka nilai korelasi atau hubungan kebergantungannya semakin tinggi. Nilai koefisien korelasi dari harga emas saat t dan t + 1 adalah 0.9517. Selain itu, diagram scatterplot menunjukkan bahwa data harga emas menggerombol mengikuti garis lurus dengan kemiringan positif. Dapat disimpulkan bahwa terdapat korelasi positif yang tinggi harga emas hari ini dengan harga emas hari berikutnya.
1
Gambar 1: Plot Korelasi Harga Emas
Data harga emas merupakan data deret waktu (time series). Data deret waktu didefinisikan sebagai data pengamatan yang dibangun secara berurutan dalam waktu. Hal yang penting dan perlu diperhatikan dalam menggambarkan suatu time series adalah kestasioneran. Salah satu parameter statistik yang sering dipakai adalah mean dan variansi. Jika mean dan variansi selalu berubah tiap waktu maka akan sulit untuk menentukan parameter yang sesuai dengan kenyataan. Oleh karena itu, dibutuhkan sifat kestasioneran pada model time series, dimana mean dan variansi konstan. Berdasarkan Gambar 2, plot harga emas menunjukkan trend data yang tidak stasioner dengan mean dan variansi yang cenderung naik kemudian turun secara tajam. Kestasioneran data harga emas diperoleh melalui differencing, dimana differencing pertama adalah selisih dari Xt dan Xt+1 . Hasil differencing pertama memperlihatkan trend data stasioner, dengan mean dan variansi yang cenderung konstan.
Gambar 2: Plot Kestasioneran Harga Emas
2
Gambar 3: Plot Autocorrelation Harga Emas
Bagian B Pada data nilai UTS mata kuliah Geometri Tahun 2012/2013, diperoleh nilai koefisien korelasi 0.0178. Dapat dikatakan bahwa tidak ada korelasi atau data cenderung bersifat saling bebas (korelasi hampir nol). Diagram scatterplot (Gambar 4) menunjukkan titik-titik data berpencar atau menjauh dari garis lurus, sehingga tidak ada hubungan linier diantara data tersebut. Untuk mengetahui distribusi yang melekat pada data, dilakukan fitting distribusi. Gambar 5 menunjukkan plot histogram, dimana dari histogram tersebut belum terlihat jelas bentuk dari distribusi data.
Gambar 4: Plot Korelasi Data Nilai Kelas
Selanjutnya, dilakukan uji Kolmogorov-Smirnov (K-S) untuk mengetahui apakah data berdistribusi normal atau tidak. Hasil perhitungan, diperoleh nilai K-S adalah 0.0874, dengan asumsi: Ho : Data terdistribusi secara normal H1 : Data tidak terdistribusi secara normal Pada α (tingkat kesalahan) 0.05, diperoleh D-Tabel 0.1537 sehingga 0.0874 < 0.1537 yang berarti Ho tidak ditolak.
3
Gambar 5: Histogram Data Nilai Kelas
Sebagai perbandingan, dilakukan uji K-S dengan menggunakan software. Nilai K-S yang diperoleh adalah 0.08688 sehingga Ho tidak ditolak. Selain itu, dua aspek yang berkaitan dengan kurva normal adalah kurtosis dan skewness. Skewness mengukur penyimpangan dari kurva normal yang simetrik. Sedangkan, kurtosis mengukur kecuraman atau kedataran simetrik, nilai kurtosis di atas 3 disebut juga dengan leptokurtic. Artinya, distribusi data memiliki ekor tebal atau ekor dari distribusi ini lebih lambat menuju nol dibandingkan dengan distribusi normal. Data nilai kelas memiliki nilai kurtosis dan skewness masing-masing -0.385 dan -0.304, sehingga dapat dikatakan data terdistribusi secara normal. Dapat dikatakan bahwa data nilai kelas merupakan data yang saling bebas dan berdistribusi identik atau lebih dikenal sebagai data i.i.d
Gambar 6: Hasil Simulasi Fitting Distribusi
Simulasi data i.i.d dilakukan dengan membangkitkan data multivariat normal pada Matlab. Berikut plot korelasi data pada berbagai nilai korelasi, ρ.
4
Gambar 7: Plot Korelasi dengan ρ = 0
Gambar 8: Plot Korelasi dengan ρ = 0.5
Gambar 9: Plot Korelasi dengan ρ = 0.95
Gambar 10: Plot Korelasi dengan ρ = 1
5
Pada simulasi ini, nilai korelasi antara data multivariat pada Matlab dapat kita atur sesuai dengan kebutuhan. Berdasarkan grafik di atas, dapat dilihat plot korelasinya, dimana semakin besar nilai korelasi, grafik cenderung membentuk garis lurus dan sebaliknya. Sebagai perbandingan, dilakukan simulasi dengan membangkitkan dua data acak i.i.d berdistribusi normal. Berbeda dengan simulasi sebelumnya, nilai korelasi (ρ) pada simulasi ini tidak dapat diatur. Berikut plot korelasi dua data acak i.i.d berdistribusi normal dengan Matlab.
Gambar 11: Plot Korelasi Dua Data Acak Normal i.i.d
Plot di atas memiliki nilai korelasi, ρ = 0.0418. Berdasarkan dua simulasi di atas, konsep i.i.d bersifat subyektif, karena pada dasarnya kita sulit mencari data dengan nilai korelasi 0, maka dapat diasumsikan bahwa nilai korelasi yang mendekati 0 bersifat saling bebas. Jadi, data tersebut i.i.d atau tidak bergantung pada asumsi subyektif, begitu juga dengan cara memperoleh data i.i.d Bagian C Penaksiran parameter dilakukan dengan menggunakan metode maksimum likelihood. Misalkan data nilai kelas pada Bagian B saling bebas dan berdistribusi normal N (µ, σ 2 ), dengan fungsi peluang: ( 2 ) 1 Xt − µ 1 fXt (xt ) = √ exp − 2 σ σ 2π Untuk mendapatkan nilai penaksir parameter µ dan σ 2 digunakan metode
6
Maksimum Likelihood, dengan fungsi likelihood nya adalah ( 2 ) n Y 1 1 X − µ t √ exp − L(µ, σ 2 |xt ) = 2 σ σ 2π t=1 Sedangkan fungsi log likelihoodnya adalah ( 2 ) n X X − µ 1 t log(2π) + log σ 2 + ` = log L(µ, σ 2 |xt ) = − 2 t=1 σ Turunan pertama log (L(µ, σ 2 |xt )) terhadap µ yaitu: Pn ∂ log (L(µ, σ 2 |xt )) t=1 (Xt − µ) = ∂µ σ2 diperoleh penaksir parameter µ, Pn
t=1
µ b =
Xt
n
Turunan pertama log (L(µ, σ 2 |xt )) terhadap σ yaitu: Pn (Xt − µ)2 (n) σ 2 ∂ log (L(µ, σ 2 |xt )) = − 3 + t=1 3 ∂σ σ σ diperoleh penaksir parameter σ 2 ,
σ b
2
Pn =
t=1
(Xt − µ b)2 n
Sehingga, didapat penaksir parameter µ yang tidak bias dan penaksir parameter σ 2 yang bias, yaitu: µ b= dan
n 1 X Xt , n t=1
n 2 1 X σ b = Xt − µ b . n t=1 2
Sedangkan untuk penaksir parameter σ 2 yang tidak bias adalah Sb2 =
n 2 1 X Xt − µ b . n − 1 t=1
7
diperoleh penaksir parameter dari data nilai kelas adalah µ b = 56.230, σ b= 23.157 dan Sb = 23.343. Bagian D Misalkan X dan Y adalah peubah acak i.i.d yang berdistribusi Uniform (0,1), dengan fungsi peluang f dan g. Definisikan FX+Y (a) sebagai fungsi distribusi kumulatif X + Y , maka: FX+Y (a) = P (X + Y ≤ a) Z Z = f (x)g(y) dx dy Z
∞
x+y≤a Z a−y
f (x)g(y) dx dy
= −∞ Z ∞
−∞ Z a−y
(
= Z−∞ ∞
f (x)dx) g(y)dy −∞
FX (a − y)g(y)dy
= −∞
Fungsi distribusi kumulatif FX+Y populer disebut convolution dari FX dan FY . Dari persamaan di atas dapat diperoleh fungsi peluang fX+Y sebagai berikut: Z ∞ d fX+Y (a) = FX (a − y)g(y)dy da −∞ Z ∞ d (FX (a − y))g(y)dy = da Z−∞ ∞ = f (a − y)g(y)dy −∞
Untuk X dan Y berdistribusi Uniform (0,1), diperoleh: f (a) = g(a) = 1, 0 < a < 1 dan bernilai 0 untuk yang lain, sehingga: Z 1 fX+Y (a) = f (a − y)dy 0
Untuk 0 ≤ a ≤ 1, maka Z fX+Y (a) =
dy = a 0
8
a
Untuk 1 < a < 2, maka Z
1
dy = 2 − a
fX+Y (a) = a−1
9
bernilai 0 untuk yang lain. Misalkan Z = X + Y , maka plot fungsi peluang Z sebagai berikut:
Gambar 12: Fungsi Peluang dan Fungsi Distribusi Z
Selanjutnya, simulasi dilakukan menggunakan Matlab dengan membangkitkan data random X dan Y Uniform (0,1) i.i.d. Grafik fungsi peluang dan fungsi distribusi kumulatif Z sebagai berikut:
Gambar 13: Fungsi Kepadatan Peluang X dan Y
Gambar 14: Plot Korelasi X dan Y
10
Gambar 15: Fungsi Peluang dan Fungsi Distribusi Z
Berdasarkan uji Chi-Square, jumlahan dua peubah acak Uniform(0,1) berdistribusi Triangular parameter (m,a,b), dengan a = 0.01196, m = 0.9971 dan b = 1.9638. Dari plot Gambar 12 dan Gambar 15 diperoleh nilai parameternya adalah a = 0, m = 1 dan b = 2. Sehingga, dapat disimpulkan jumlahan dua peubah acak Uniform (0,1) berdistribusi Triangular. Prediksi Memprediksi nilai observasi masa depan merupakan hal penting di berbagai bidang dan industri, terutama dunia keuangan. Di bidang ekonomi dan ilmu sosial, prediksi lebih dikenal dengan forecasting. Di bidang keuangan yang sangat erat kaitannya dengan risiko di masa yang akan datang, membutuhkan prediksi bahwa keadaan keuangan masih stabil (prediksi yang cukup akurat). Prediksi dilakukan untuk mengetahui observasi satu langkah kedepan Yn+1 , dengan Y1 , Y2 , ..., Yn , Yn+1 berdistribusi identik dengan parameter θ. Penting mengetahui distribusi yang melekat pada Yn+1 , untuk menaksir parameter, menghitung bias dan MSE dari parameter, yang pada akhirnya berhubungan dan menjadi penentu keakuratan prediksi. Misalkan terdapat data return Y1 , Y2 , ..., Yn dari suatu model dengan parameter θ yang saling bebas dan berdistribusi identik N (µ, σ 2 ). Prediktor terbaik untuk Yn+1 adalah E(Ybn+1 ) = µ. Untuk dua peubah acak, distribusi bersama dari keduanya dapat ditentukan dengan Copula. Copula (bivariat) adalah salah satu model fungsi distribusi bivariat dimana fungsi distribusi dari marginal-marginalnya memiliki kekhususan. Suatu fungsi distribusi bivariat C untuk suatu peubah acak U dan V yang berdistribusi Uniform [0, 1], dikenal dengan nama Copula. Keakuratan prediksi atau backtesting dapat ditentukan dengan mem11
bandingkan prediksi kerugian dengan kerugian sebenarnya. Prediksi yang baik didefinisikan sebagai prediksi dengan tingkat keakuratan yang tinggi sehingga peluang terjadinya kerugian sebenarnya lebih besar dari hasil prediksi lebih kecil. Lampiran
12
Gambar 16: Perhitungan Uji Kolmogorov-Smirnov
Simulasi Data dengan Matlab 1 2
clc clear
3 4 5 6
%% −−−− SIMULASI DATA DERET WAKTU DAN I.I.D−−−−− %% disp('======Simulasi Data Deret Waktu dan i.i.d======') disp('======Data Harga Emas dan Nilai Kelas======')
7 8 9 10
11
format long %Data Deret Waktu Xn = ... [1590;1603;1614;1621;1618;1627;1641;1652;1642;1643;1662;...]; Xn1 = ... [1603;1614;1621;1618;1627;1641;1652;1642;1643;1662;1657;...];
12 13
px=corr(Xn,Xn1)
14 15 16 17 18 19
figure(1) scatterhist(Xn,Xn1) xlabel('Xn') ylabel('Xn1') set(get(gca,'children'),'marker','+')
20 21 22
figure(2) plot(Xn)
23 24 25
figure(3) autocorr(Xn)
26
13
27 28
figure(4) parcorr(Xn)
29 30 31
32
%Data IID Yn = ... [70;12.5000000000000;67.5000000000000;5;10;37.5000000000000;...]; Yn1 = ... [12.5000000000000;67.5000000000000;5;10;37.5000000000000;...];
33 34 35 36
py=corr(Yn,Yn1) kurtosis = kurtosis(Yn) skewness = skewness(Yn)
37 38 39 40 41 42
figure(5) scatterhist(Yn,Yn1) xlabel('Yn') ylabel('Yn1') set(get(gca,'children'),'marker','+')
43 44 45
figure(6) hist(Yn)
46 47 48 49
%ACF figure(7) autocorr(Yn)
50 51 52 53
%PACF figure(8) parcorr(Yn)
54 55 56 57
1 2
%displays a quantile−quantile plot of two samples. figure(9) qqplot(Yn,Yn1)
clc clear all;
3 4 5
%% −−−− SIMULASI DATA I.I.D−−−−− %% disp('====Simulasi Data i.i.d dengan Multivariat====')
6 7 8 9 10
mu = [1 1]; SIGMA = [1 0; 0 1]; % sigma = [sigma1 rho; rho sigma2] r = mvnrnd(mu,SIGMA,1000); plot(r(:,1),r(:,2),'+')
11 12 13
a=r(:,1); b=r(:,2);
14
14 15 16
figure(1) scatterhist(a,b)
17 18 19
k = ksdensity(a,a,'function','cdf'); l = ksdensity(b,b,'function','cdf');
20 21 22
figure(2) scatterhist(k,l)
23 24 25
figure(3) hist(k)
26 27 28
1 2
figure(4) hist(a)
clc clear all;
3 4 5
%% −−−− SIMULASI DATA I.I.D−−−−− %% disp('====Simulasi Data i.i.d dengan Data Random====')
6 7 8
u=normrnd(1,1,1000,1); v=normrnd(1,1,1000,1);
9 10
w=corr(u,v)
11 12 13
figure(1) scatterhist(u,v)
14 15 16
p=ksdensity(u,u,'function','cdf'); q=ksdensity(v,v,'function','cdf');
17 18 19
figure(2) scatterhist(p,q)
20 21 22
1 2 3
figure(3) hist(u)
clc clear all format long
4 5 6
%% −−−− SIMULASI JUMLAHAN DISTRIBUSI UNIFORM (0,1)−−−−− %% disp('====Simulasi Jumlahan Distribusi Uniform (0,1)====')
7
15
8 9 10 11 12
n=1000; rho=0; mu=[0 0]; SIGMA=[1 rho;rho 1]; z=mvnrnd(mu,SIGMA,n); u=normcdf(z(:,1),0,1); v=normcdf(z(:,2),0,1);
13 14 15 16
figure(1) hist(u) title('Fungsi Densitas Peluang X')
17 18 19 20
figure(2) hist(v) title('Fungsi Densitas Peluang Y')
21 22 23 24 25
w=u+v; figure(3) plot(w) title('Fungsi Densitas Peluang Z=X+Y')
26 27 28 29
figure(4) hist(w) title('Fungsi Densitas Peluang Z=X+Y')
30 31 32 33 34 35 36
figure(5) scatterhist(u,v) xlabel('f(x)') ylabel('f(y)') set(get(gca,'children'),'marker','+') title('Grafik Korelasi f(x) dan f(y) ')
37 38 39
r = ksdensity(u,u,'function','cdf'); t = ksdensity(v,v,'function','cdf');
40 41 42 43 44 45 46
figure(6) scatterhist(r,t) xlabel('F(x)') ylabel('F(y)') set(get(gca,'children'),'marker','*') title('Grafik Korelasi F(x) dan F(y) ')
47 48
r = ksdensity(w,w,'function','cdf');
49 50 51 52 53 54
figure(7) scatterhist(w,r) xlabel('z') ylabel('F(z)') title('Fungsi Distribusi Kumulatif Z ')
16