Pengantar Analisa Data (2) Tjipto Juwono, Ph.D.
April 2017
TJ (SU)
Data Analysis
April 2017
1 / 31
Data: Fuel Economy
Kita akan menganalisa data tentang fuel economy dari sejumlah mobil yang diproduksi pada 1999 dan 2008. Data yang akan kita analisa ini diperoleh dari: http://fueleconomy.gov
TJ (SU)
Data Analysis
April 2017
2 / 31
Data: Fuel Economy Variabel-variabel: 1
cty,hwy: miles per gallon for city and highway driving
2
disp: engine displacement in litres
3
drv: drivetrain f,r,4
4
model
5
class
6
cyl (cylinder: 4,6,8)
7
trans: auto, manual
8
fuel: e(ethanol), d(diesel), r(regular), p(premium), c(compressed natural gas)
9
year: 1998, 2008
TJ (SU)
Data Analysis
April 2017
3 / 31
TJ (SU)
Data Analysis
April 2017
4 / 31
TJ (SU)
Data Analysis
April 2017
5 / 31
Menentukan Interval dan Jumlah Interval Pada Histogram
Jumlah Interval: Tentukan k sedemikian rupa sehingga 2k > n Kemudian panjang interval adalah: I =
TJ (SU)
H −L k
Data Analysis
April 2017
6 / 31
TJ (SU)
Data Analysis
April 2017
7 / 31
TJ (SU)
Data Analysis
April 2017
8 / 31
TJ (SU)
Data Analysis
April 2017
9 / 31
TJ (SU)
Data Analysis
April 2017
10 / 31
TJ (SU)
Data Analysis
April 2017
11 / 31
Regression
(Intercept) x
Estimate 35.6977 -3.5306
Std. Error 0.7204 0.1945
t value 49.55 -18.15
Pvalue < 2e-16 < 2e-16
Residual standard error: 3.836 on 232 degrees of freedom Multiple R-squared: 0.5868, Adjusted R-squared: 0.585 F-statistic: 329.5 on 1 and 232 DF, p-value: < 2.2e-16 HWY = 35.6977 − 3.5406(DISPL)
TJ (SU)
Data Analysis
April 2017
12 / 31
TJ (SU)
Data Analysis
April 2017
13 / 31
TJ (SU)
Data Analysis
April 2017
14 / 31
Regression
(Intercept) x
Estimate 25.9915 -2.6305
Std. Error 0.4821 0.1302
t value 53.91 -20.20
Pvalue < 2e-16 < 2e-16
Residual standard error: 2.567 on 232 degrees of freedom Multiple R-squared: 0.6376, Adjusted R-squared: 0.636 F-statistic: 408.2 on 1 and 232 DF, p-value: < 2.2e-16 CTY = 25.9915 − 2.6305(DISPL)
TJ (SU)
Data Analysis
April 2017
15 / 31
TJ (SU)
Data Analysis
April 2017
16 / 31
Organisasi Data: Minat Membaca di Indonesia 2012
TJ (SU)
Data Analysis
April 2017
17 / 31
TJ (SU)
Data Analysis
April 2017
18 / 31
TJ (SU)
Data Analysis
April 2017
19 / 31
TJ (SU)
Data Analysis
April 2017
20 / 31
Time Series Jumlah kelahiran anak per bulan di New York Dari Januari 1946 s/d Desember 1959
TJ (SU)
Data Analysis
April 2017
21 / 31
Dekomposisi Data Time Series
TJ (SU)
Data Analysis
April 2017
22 / 31
Contoh Persoalan Time Series
Population Growth Suatu wilayah, atau suatu planet, mempunyai kapasitas yang terbatas dalam men-support populasi. Bagian penting dalam pemodelan ekonomi hijau adalah meninjau laju pertumbuhan populasi. Kita ingin memprediksi kapankah suatu wilayah atau suatu planet akan mencapai batas ambang daya dukungnya.
TJ (SU)
Data Analysis
April 2017
23 / 31
Asumsi Sederhana Apabila kita asumsikan bahwa setiap tahun populasi bertambah B%, sehingga populasi pada tahun ke-t adalah: Nt = (1 + B/100)t N0
(1)
Dengan N0 adalah populasi mula-mula, maka kita akan memperoleh pertumbuhan populasi yang eksponensial. Nt = N0 e λt
(2)
λ = ln(1 + B/100)
(3)
Dengan
TJ (SU)
Data Analysis
April 2017
24 / 31
Problem
Benarkah Eksponensial? Apakah pertumbuhan populasi selalu eksponensial?
TJ (SU)
Data Analysis
April 2017
25 / 31
TJ (SU)
Data Analysis
April 2017
26 / 31
Pemodelan Exponensial
Dengan menggunakan regresi sederhana kita dapat menguji apakah data yang kita miliki menunjukkan kecenderungan sederhana. Persamaan (2) dapat kita tulis ln Nt Y
TJ (SU)
= ln N0 + λt
(4)
= A + λt
(5)
Data Analysis
April 2017
27 / 31
World Population 1920-2015 in Millions 8000 7000
N
6000 5000 4000 3000 2000 1000 1920
TJ (SU)
1940
1960 1980 Time
Data Analysis
2000
2020
April 2017
28 / 31
Y
Regression 22.8 22.6 22.4 22.2 22 21.8 21.6 21.4 21.2 1920
TJ (SU)
Data Pred 1940
1960 1980 Time
Data Analysis
2000
2020
April 2017
29 / 31
Hasil regresi menunjukkan kecenderungan pertumbuhan populasi yang eksponensial dari tahun 1920 s/d 2015. Tetapi apakah pertumbuhan populasi memang selalu eksponensial?
TJ (SU)
Data Analysis
April 2017
30 / 31
TUGAS KELAS 1
Perhatikan kembali data pada MPG.xls. Tentukan variabel-variabel mana saja yang merupakan variabel independen, dan variabel-variabel mana saja yang merupakan variabel dependen. Jelaskan apa alasan anda!
2
Jika anda ingin meneliti data tersebut dari sudut pandang ekonomi hijau, apa yang akan anda cari dari data itu? Jelaskan!
3
Menurut pendapat anda, jika anda ingin membuat pemodelan ekonomi hijau berdasarkan data tersebut, apa yang akan anda kerjakan?
4
Download data WORLD.xlsx yang memuat data populasi dunia sejak 10 ribu tahun sebelum masehi hingga tahun 2015. Pilihlah data dari tahun 1700 hingga 2015, lalu periksalah dengan analisa regresi, apakah data tersebut menunjukkan kecenderungan eksponensial! TJ (SU)
Data Analysis
April 2017
31 / 31