DATA KOSONG DAN IMPUTASI GANDA Johan Harlan
PENERBIT GUNADARMA
Data Kosong dan Imputasi Ganda Penulis : Johan Harlan ISBN 978-602-9438-53-6 Cetakan Pertama, Januari 2016 Disain cover : Joko Slameto Diterbitkan pertama kali oleh Gunadarma Jl. Margonda Raya No. 100, Pondokcina, Depok 16424 Telp. +62-21-78881112 Faks. +62-21-7872829 e-mail :
[email protected] Hak cipta dilindungi undang-undang. Dilarang mengutip atau memperbanyak dalam bentuk apapun sebagian atau seluruh isi buku tanpa ijin tertulis dari penerbit.
Kata Pengantar
KATA PENGANTAR Buku ini membahas mengenai data kosong (missing data) dan metode penanganannya secara kontemporer, yaitu imputasi ganda (multiple imputation). Data kosong merupakan masalah lama bidang penelitian, sama usianya dengan riwayat pengumpulan data sendiri untuk penelitian, sebaliknya imputasi ganda adalah teknik statistik yang praktis baru berkembang dalam tiga dekade terakhir. Perkembangan teknik imputasi ganda dimungkinkan oleh kemajuan mutakhir di bidang Informatika dan Ilmu Komputer, dan perkembangan ini masih diharapkan untuk berlanjut dan mengalami penyempurnaan di masa mendatang. Teknik imputasi ganda terutama bermanfaat untuk data survei yang berukuran besar, walaupun dapat juga dimanfaatkan dalam studi eksperimental. Data survei biasa dikumpulkan dalam jumlah besar dengan biayanya umumnya lebih rendah daripada studi eksperimental. Pada studi eksperimental dengan biaya yang biasanya lebih besar pengumpulan data umumnya dilakukan secara lebih giat sehingga umumnya jarang didapatkan data kosong. Pembaca buku ini diharapkan sedikit banyak telah memiliki penguasaan mengenai dasar-dasar model regresi. Penulis mencoba membahas beberapa aspek dasar mengenai kekosongan data dan teknik imputasi ganda dengan menggunakan program statistik Stata secara sederhana, tetapi diharapkan dapat memberi bekal dasar bagi pembaca untuk mendalami mengenai topik tersebut.
Jakarta, Januari 2016
Penulis
v
Daftar Isi
DAFTAR ISI Kata Pengantar
v
Daftar Isi
vi
Bab I
Pendahuluan Data Kosong Imputasi Data
1 1 2
Bab II
Tipe Kekosongan MCAR MAR MNAR
7 7 8 8
Bab III
Solusi Tradisional: Delesi Data Listwise Deletion Pairwise Deletion
15 15 17
Bab IV
Solusi Tradisional: Imputasi Tunggal Imputasi Rerata Imputasi Regresi Imputasi Regresi Stokastik Last Observation Carried Forward
19 19 21 24 25
Bab V
Imputasi Ganda Univariat Pengertian Imputasi Ganda Tahap-Tahap Imputasi Ganda Pelaksanaan Imputasi Ganda Univariat dengan STATA
26 26 27 28
Bab VI
Imputasi Ganda Multivariat: Model Normal Multivariat Imputasi Ganda dengan Model Normal Multivariat Pembentukan File mi Imputasi Data Kosong Estimasi Parameter
36 36 36 40 41
vi
Daftar Isi
Bab VII
Imputasi Ganda Multivariat: Metode Persamaan Berantai Tahap Persiapan Pembentukan Dataser mi Imputasi Data Kosong Estimasi Parameter
43 43 44 46 47
Kepustakaan
49
Lampiran
50
vii
Bab 1. Pendahuluan
BAB I PENDAHULUAN Data Kosong Dalam pemrosesan dan analisis data seringkali didapatkan adanya variabel yang nilainya kosong untuk satu atau beberapa subjek penelitian, yang dikenal sebagai data kosong (missing data).
a.
Data kosong dibedakan menjadi: Data kosong terencana (planned missing data). Kekosongan data direncanakan dengan sengaja oleh peneliti sesuai desain penelitian (lihat tabel 1.1). Alasannya antara lain karena jumlah pertanyaan dalam kuesioner terlalu banyak, pengumpulan data tertentu menggunakan pemeriksaan dengan biaya yang sangat mahal, dan sebagainya. Tabel 1.1 Pola Data Kosong untuk Rancangan Tiga-Form Set item Form 1 2 3
X √ √ √
A − √ √
B √ − √
C √ √ −
Catatan: Tanda cek menyatakan data lengkap b.
-
Data kosong tak terencana (unplanned missing data). Bentuk ini yang selanjutnya akan dibahas di sini. Data kosong tak terencana dapat terjadi antara lain karena: Ketidakberhasilan mendapatkan data dari subjek penelitian, misalnya isi kuesioner tidak lengkap karena ada item yang dengan sengaja ataupun tak sengaja tak diisi oleh responden.
1
Bab 1. Pendahuluan
-
Data tercatat mungkin sengaja dihapus karena nilainya berada di luar rentang kewajaran, sedangkan pengecekan ulang terhadap subjek penelitian tidak dapat dilakukan.
-
Pada data sekunder, data kosong merupakan hasil kerja pihak lain yang semula mengumpulkannya sebagai data primer, yang umumnya tidak dapat ditelusuri lagi penyebab kekosongannya oleh pengguna data sekunder.
Imputasi Data Standar umum di waktu lampau ialah menghapus responden (record) dengan data kosong dari dataset. Hand et al (1994) mengumpulkan 510 dataset dari literatur statistik; hanya 13 di antaranya yang menyertakan pedoman yang digunakan untuk menangani data kosong. Pada sebagian besar kasus, masalah data kosong telah “dipecahkan” dengan cara tertentu, tanpa penjelasan seberapa banyak entri kosong yang semula ada. Jika jumlah responden dengan data kosong yang dihapus dari dataset relatif kecil, misalkan hanya 1% dari keseluruhan responden semula, hasil akhir dapat dikatakan praktis tak terpengaruh, sebaliknya jika jumlah responden yang dihapus besar, misalkan 50% dari keseluruhan responden semula, hasil akhir yang diperoleh dapat bersifat sangat bias. Terbuangnya data pada entri terisi tetapi dihapus akan menurunkan efisiensi penelitian. Upaya untuk mengatasi data kosong antara lain ialah melakukan imputasi (to impute = to fill in) entri kosong, sehingga responden dengan entri yang semula kosong tidak perlu dihapus untuk analisis. Untuk analisis regresi, sebagian ahli Statistika berpendapat bahwa imputasi hanya diperlukan untuk variabel independen dan tidak diperlukan untuk variabel dependen, namun sebagian besar ahli lain tidak sepakat dan berpendapat setiap variabel dengan entri kosong memerlukan imputasi.
Contoh 1.1 Dalam contoh ini dilakukan perbandingan hasil analisis regresi terhadap 3 datasets: hsb2.dta: Dataset full → Memuat data 200 kasus dengan entri lengkap.
2
Bab 1. Pendahuluan
-
hsb2_mar.dta: Memuat data hsb2 dengan sebagian berupa entri kosong,
-
yang setelah menjalani listwise deletion, menyisakan dataset cc (complete cases) yang hanya memuat 145 kasus dengan entri lengkap. mvn_imputation.dta: Berasal dari data hsb2_mar yang telah menjalani persiapan seperlunya, siap untuk menjalani proses imputasi ganda. Setelah menjalani imputasi diperoleh dataset mi (multiple imputation).
. use D:\Data\hsb2.dta, clear
(highschool and beyond (200 cases)) Perintah STATA untuk membuka (use) file hsb2.dta yang memuat entri lengkap untuk 200 kasus dan membersihkan (clear) memori dari semua hasil analisis terdahulu (jika ada). . sum
Perintah sum (summarize) adalah untuk menampilkan ringkasan nilai-nilai statistik tiap variabel. Variable | Obs Mean Std. Dev. Min Max ---------+-----------------------------------------------id | 200 100.5 57.87918 1 200 female | 200 .545 .4992205 0 1 race | 200 3.43 1.039472 1 4 ses | 200 2.055 .7242914 1 3 schtyp | 200 1.16 .367526 1 2 ---------+-----------------------------------------------prog | 200 2.025 .6904772 1 3 read | 200 52.23 10.25294 28 76 write | 200 52.775 9.478586 31 67 math | 200 52.645 9.368448 33 75 science | 200 51.85 9.900891 26 74 ---------+-----------------------------------------------socst | 200 52.405 10.73579 26 71 . regress socst write read female math
Perintah STATA ini adalah untuk meregresikan variabel dependen socst terhadap variabel independen write, read, female, dan math.
3
Bab 1. Pendahuluan
Source | SS df MS ---------+-----------------------------Model | 10938.9795 4 2734.74487 Residual | 11997.2155 195 61.5241822 ---------+-----------------------------Total | 22936.195 199 115.257261
Number of obs F( 4, 195) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
200 44.45 0.0000 0.4769 0.4662 7.8437
------------------------------------------------------------------socst | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+----------------------------------------------------------write | .3757491 .0852101 4.41 0.000 .2076975 .5438007 read | .3696825 .0775725 4.77 0.000 .2166938 .5226712 female | -.2340534 1.207995 -0.19 0.847 -2.616465 2.148358 math | .1209005 .0861526 1.40 0.162 -.0490101 .2908111 _cons | 7.029076 3.562453 1.97 0.050 .003192 14.05496 ------------------------------------------------------------------. estimates store full
Perintah STATA ini adalah untuk menyimpan hasil estimasi terhadap dataset full yang terdiri atas 200 kasus. . use D:\Data\hsb2_mar, clear
(highschool and beyond (200 cases)) . sum
Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------------------id | 200 100.5 57.87918 1 200 female | 182 .5549451 .4983428 0 1 race | 200 3.43 1.039472 1 4 ses | 200 2.055 .7242914 1 3 schtyp | 200 1.16 .367526 1 2 ---------+----------------------------------------------prog | 182 2.027473 .6927511 1 3 read | 191 52.28796 10.21072 28 76 write | 183 52.95082 9.257773 31 67 math | 185 52.8973 9.360837 33 75 science | 184 51.30978 9.817833 26 74 4
Bab 1. Pendahuluan
---------+----------------------------------------------socst | 200 52.405 10.73579 26 71 . regress socst write read female math
Source | SS df MS ---------+-----------------------------Model | 6630.7694 4 1657.69235 Residual | 8259.47888 140 58.9962777 ---------+-----------------------------Total | 14890.2483 144 103.404502
Number of obs F( 4, 140) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
145 28.10 0.0000 0.4453 0.4295 7.6809
-------------------------------------------------------------------socst | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+-----------------------------------------------------------write | .3212789 .1020247 3.15 0.002 .1195706 .5229871 read | .3047733 .0899709 3.39 0.001 .1268961 .4826505 female | .2233572 1.404163 0.16 0.874 -2.552749 2.999463 math | .1988131 .1016747 1.96 0.053 -.0022031 .3998294 _cons | 9.358279 4.262397 2.20 0.030 .9312916 17.78527 -------------------------------------------------------------------. estimates store cc . use D:\Data\mvn_imputation, clear . mi estimate, post: reg socst write read female math
Multiple-imputation estimates Linear regression
DF adjustment:
Model F test: Within VCE type:
Imputations Number of obs Average RVI Largest FMI Complete DF DF: min avg max F( 4, 163.6) Prob > F
Small sample
Equal FMI OLS
5
= = = = = = = = = =
5 200 0.0820 0.2201 195 59.71 121.37 181.12 38.78 0.0000
Bab 1. Pendahuluan
------------------------------------------------------------------socst | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+----------------------------------------------------------write | .3472116 .0956238 3.63 0.000 .1572004 .5372228 read | .3673822 .0803328 4.57 0.000 .2086775 .5260869 female | .525372 1.375176 0.38 0.704 -2.225667 3.276411 math | .1508523 .0908884 1.66 0.099 -.0290372 .3307417 _cons | 6.59747 3.707945 1.78 0.077 -.7188551 13.9138 ------------------------------------------------------------------. estimates store mi . estimates table cc full mi, b se p
Perintah untuk menyajikan tabel perbandingan hasil estimasi koefisien regresi b, SE-nya, dan nilai p-nya untuk model cc, full, dan mi. ------------------------------------------------Variable | cc full mi -----------+------------------------------------write | .32127885 .3757491 .34721159 | .10202467 .08521005 .09562376 | 0.0020 0.0000 0.0004 read | .30477331 .36968249 .36738221 | .08997086 .07757247 .08033285 | 0.0009 0.0000 0.0000 female | .22335724 -.23405342 .52537204 | 1.4041631 1.2079946 1.3751758 | 0.8738 0.8466 0.7028 math | .19881314 .12090052 .15085228 | .10167466 .08615264 .09088836 | 0.0525 0.1621 0.0986 _cons | 9.358279 7.0290761 6.5974704 | 4.2623968 3.5624529 3.7079453 | 0.0298 0.0499 0.0768 ------------------------------------------------legend: b/se/p
6
Bab II. Tipe Kekosongan
BAB II TIPE KEKOSONGAN Rubin (1976) mengemukakan teori tentang kekosongan data, yaitu setiap titik data memiliki peluang tertentu untuk kosong. Berdasarkan teori ini, tipe-tipe kekosongan dibedakan atas MCAR (missing completely at random), MAR (missing at random), dan MNAR (missing not at random).
MCAR (missing completely at random) Data kosong tergolong dalam tipe MCAR (missing completely at random) jika peluang untuk kosong sama pada setiap titik data, yaitu untuk tiap subjek penelitian pada variabel tertentu. Kekosongan tidak memiliki asosiasi dengan salah satu variabel dalam dataset. Untuk pembahasan selanjutnya mengenai tipe-tipe kekosongan data akan digunakan contoh data pada tabel 2.2 pada contoh 2.2. Misalkan dimiliki matriks n × p Y yang memuat nilai-nilai data: n menyatakan jumlah subjek dan p menyatakan jumlah variabel; dan misalkan pula R adalah matriks indikator respons biner n × p (lihat contoh 2.4); rij = 1 jika entri terisi dan rij = 0 jika entri kosong. i = 1, 2, . . . , n dan j = 1, 2, . . . , p
Data terisi secara kolektif dinyatakan dengan Yobs dan data kosong secara
(
)
kolektif dinyatakan dengan Ymiss . Secara bersama, Y = Yobs , Ymiss menyatakan keseluruhan nilai data, maka:
(
Relasi distribusi R terhadap Y = Yobs , Ymiss
)
data kosong (missing data model) (van Buuren, 2012).
7
dinyatakan sebagai model
Bab II. Tipe Kekosongan
Misalkan ψ adalah parameter model data kosong, maka model tersebut
(
)
dapat dinyatakan sebagai P R | Yobs ,Ymiss ,ψ . Jika data MCAR, maka:
(
P R = 0| Yobs , Ymiss ,ψ
) = P ( R = 0 |ψ ) ;
(2.1)
MAR (missing at random) Data kosong tergolong dalam tipe MAR (missing at random) jika peluang untuk kosong sama pada tiap anggota dalam suatu kelompok tertentu, tetapi tidak sama antar anggota kelompok berbeda. Kekosongan di sini memiliki asosiasi dengan satu atau lebih variabel dalam dataset, yaitu variabel yang menghasilkan pembagian kelompok-kelompok tersebut. Sebagai contoh, pada pengumpulan data dengan kuesioner, pria umumnya memiliki kecenderungan yang lebih besar untuk tidak menjawab dibandingkan dengan wanita (asosiasi dengan variabel gender). Dengan pemahaman yang sama terhadap matriks indikator R, data terisi kolektif Yobs , data kosong kolektif Ymiss , dan parameter model data kosong ψ, jika data MAR maka:
(
P R = 0| Yobs , Ymiss ,ψ
) = P ( R = 0| Yobs ,ψ )
(2.2)
MNAR (missing not at random) Pada data kosong tipe MNAR (missing not at random), asumsi MCAR maupun MAR tidak berlaku dan kekosongan tidak terjadi secara acak. Dengan pemahaman yang sama terhadap matriks indikator R, data terisi kolektif Yobs , data kosong kolektif Ymiss , dan parameter model data kosong ψ, jika data MNAR maka:
(
P R = 0| Yobs , Ymiss ,ψ
)
(2.3)
tak dapat disederhanakan lagi.
8
Bab II. Tipe Kekosongan
Contoh 2.1: Dataset pada tabel 2.1 memuat data sejumlah calon karyawan (dan sebagian yang lolos seleksi selanjutnya menjadi karyawan). Variabelnya yaitu nilai tes IQ dan kepuasan psikologis (psychological well-being) pada saat seleksi. Mereka yang nilai IQ lebih daripada 98 diterima menjadi karyawan dan setelah 6 bulan bekerja dinilai kinerjanya (job performance).
Kekosongan data pada psychological well-being disebabkan tak lengkapnya pengisian kuesioner pada saat seleksi yangterjadi secara acak, tak memiliki asosiasi dengan nilai IQ, sehingga kekosongan data ini psychological well-being tergolong dalam MCAR. Sebaliknya, data kosong untuk job performance terjadi karena yang bersangkutan tidak diterima menjadi karyawan karena nilai IQ-nya rendah, sehingga kekosongannya terkait dengan nilai IQ dan kekosongan data job performance ini tergolong dalam MAR. Tabel 2.1 Dataset Seleksi Karyawan IQ 78 84 84 85 87 91 92 94 94 96 99 105 105 106 108 112 113 115
Psychological well-being 13 9 10 10 − 3 12 3 13 − 6 12 14 10 − 10 14 14 9
Job performance − − − − − − − − − − 7 10 11 15 10 10 12 14
Bab II. Tipe Kekosongan
118 134
12 11
16 12
(Enders, 2010)
Contoh 2.2: Contoh berikutnya adalah data mengenai kelompok responden yang sama, diperlihatkan pada tabel 2.2. Data kinerja (job performance) terdiri atas yang lengkap (complete; diandaikan seluruh calon diterima), MCAR (misalnya sebagian karyawan mengundurkan diri, pengunduran diri tak terkait nilai IQ), MAR (calon karyawan yang diterima hanya yang nilai IQ-nya di atas 90), dan MNAR (misalnya karyawan yang menunjukkan kinerja buruk di bawah 9 telah dikeluarkan, sehingga kekosongan terkait dengan nilai kinerja itu sendiri). Tabel 2.2 Rating Kinerja dengan Nilai Kosong MCAR, MAR, dan MNAR
IQ 78 84 84 85 87 91 92 94 94 96 99 105 105 106 108 112 113 115 118
Complete 9 13 10 8 7 7 9 9 11 7 7 10 11 15 10 10 12 14 16
Job performance ratings MCAR MAR − − 13 − − − 8 − 7 − 7 7 9 9 9 9 11 11 − 7 7 7 10 10 11 11 15 15 10 10 − 10 12 12 14 14 16 16 10
MNAR 9 13 10 − − − 9 9 11 − − 10 11 15 10 10 12 14 16
Bab II. Tipe Kekosongan
134
12
−
12
12
(Enders, 2010)
Contoh 2.3: Lihat data pada tabel 2.2, beberapa nilai statistik untuk dataset lengkap, MCAR, MAR, dan MNAR diperlihatkan pada tabel 2.3. Tabel 2.3 Beberapa Nilai Statistik Dataset Lengkap, MCAR, MAR, dan MNAR dari Tabel 2.2 Data Lengkap MCAR MAR MNAR
n 20 15 15 15
Rerata 10.35 10.60 10.67 11.40
Variansi 7.19 8.54 7.81 4.97
SD 2.68 2.92 2.79 2.23
Perbandingan karakteristik estimator hasil analisis dataset yang memiliki data kosong dengan listwise deletion (menghapus data seluruh responden yang memiliki entri kosong; complete cases analysis) dan imputasi ganda diperlihatkan pada tabel 2.4 berikut. Tabel 2.4 Karakteristik estimator menurut tipe kekosongan dan metode solusinya
No 1 2 *)
Metode Complete cases analysis Imputasi ganda
Tipe kekosongan MCAR MAR Tak bias Bias Tak bias Tak bias
MNAR Bias Bias*)
Tak bias jika peneliti mampu menginklusikan model mekanisme kekosongan MNAR dalam metode imputasi
11
Bab II. Tipe Kekosongan
Contoh 2.4: Adakalanya diperlukan indikator untuk menunjukkan keberadaan entri kosong. Contoh untuk itu diperlihatkan pada tabel 2.5, yang menyajikan contoh indikator entri kosong untuk kinerja MAR. Indikator bernilai 0 jika entri kosong dan sama dengan 1 jika entri terisi. Tabel 2.5 Indikator Data Kosong untuk Rating Kinerja MAR Job performance Complete 9 13 10 8 7 7 9 9 11 7 7 10 11 15 10 10 12 14 16 12
MAR − − − − − 7 9 9 11 7 7 10 11 15 10 10 12 14 16 12
(Enders, 2010)
12
Indicator 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Bab II. Tipe Kekosongan
Contoh 2.5 (Uji statistik): Uji statistik dapat dilakukan untuk menguji apakah kekosongan data yang dimiliki MCAR atau MAR. Misalkan untuk variabel IQ dan MCAR pada tabel 2.2, subjek dibagi menjadi 2 kategori, yaitu yang entri data MCAR-nya kosong (R = 0) dan yang entri data MCAR-nya terisi (R = 1), lalu dilakukan perbandingan rerata nilai IQ antara kedua kategori tersebut dengan uji t. Jika rerata IQ antara kedua kategori tidak berbeda, data tersebut adalah MCAR, sebaliknya jika rerata IQ antara kedua kategori berbeda, data itu adalah MAR. . use “D:\Data\table 2.2”, clear . list in 1/10
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
+--------------------+ | id iq jp ind | |--------------------| | 1 78 . 0 | | 2 84 13 1 | | 3 84 . 0 | | 4 85 8 1 | | 5 87 7 1 | |--------------------| | 6 91 7 1 | | 7 92 9 1 | | 8 94 9 1 | | 9 94 11 1 | | 11 96 . 0 | +--------------------+
13
Bab II. Tipe Kekosongan
. ttest iq, by(ind)
Two-sample t test with equal variances ----------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------0 | 5 100.8 10.13114 22.65392 72.67145 128.9286 1 | 15 99.73333 2.874298 11.13211 93.56858 105.8981 ---------+------------------------------------------------------combined | 20 100 3.158947 14.12724 93.38825 106.6118 ---------+------------------------------------------------------diff | 1.066667 7.490966 -14.67127 16.8046 ----------------------------------------------------------------diff = mean(0) - mean(1) t = 0.1424 Ho: diff = 0 degrees of freedom = 18 Ha: diff < 0 Ha: diff != 0 Pr(T < t) = 0.5558 Pr(|T| > |t|) = 0.8884
Ha: diff > 0 Pr(T > t) = 0.4442
Tampak bahwa antara rerata IQ kedua kategori tidak ditemukan perbedaan yang bermakna (p = 0.89), maka data tersebut adalah MCAR. Uji statistik tidak dapat dilakukan untuk MNAR, karena yang harus diperbandingkan adalah rerata kinerja MNAR terisi dengan rerata kinerja MNAR kosong, sedangkan data untuk rerata kinerja MNAR itu tidak ada (kosong).
14
Bab III. Solusi Tradisional: Delesi Data
BAB III SOLUSI TRADISIONAL: DELESI DATA Listwise Deletion Setiap subjek (responden) yang entri datanya tidak lengkap dieliminasi dari dataset, sehingga analisis data hanya akan dilakukan terhadap himpunan kasus yang lengkap entri datanya. Dalam pembahasan beberapa metode tradisional untuk menangani kekosongan data akan digunakan dataset pada tabel 3.1 dan diagram tebarnya pada gambar 3.1. Tabel 3.1 Dataset Seleksi Karyawan Complete data IQ 78 84 84 85 87 91 92 94 94 96 99 105 105 106 108 112 113 115 118 134
Missing data Job performance − − − − − − − − − − 7 10 11 15 10 10 12 14 16 12
Job performance 9 13 10 8 7 7 9 9 11 7 7 10 11 15 10 10 12 14 16 12 15
Bab III. Solusi Tradisional: Delesi Data
(Enders, 2010)
Gambar 3. 3.1 Diagram tebar data lengkap IQ dan skor kinerja pada Tabel 5 Diagram tebar listwise deletion terhadap dataset tabel 3.1 diperlihatkan pada gambar 3.2.
16
Bab III. Solusi Tradisional: Delesi Data
Gambar 3.2 Diagram tebar listwise deletion terhadap dataset tabel 5 Beberapa nilai statistik dataset lengkap dan listwise deletion tabel 3.1 diperlihatkan pada tabel 3.2 berikut. Tabel 3.2 Beberapa Nilai Statistik Dataset Lengkap Tabel 5 dan Listwise Deletion-nya Data Lengkap LD
n 20 10
Rerata 10.35 11.70
Variansi 7.19 7.34
SD 2.68 2.71
Dengan asumsi data MCAR MCAR, listwise deletion akan menghasilkan estimasi rerata, variansi, dan koefisien regresi yang tak-bias. Jika data bukan MCAR, listwise deletion dapat menimbulkan bias yang parah pada estimasi rerata, koefisien regresi, dan korelasi.
Pairwise Deletion Metode ini terutama digunakan pada estimasi statistik untuk pasangan variabel, misalnya nilai korelasi dan kovariansi. 17
Bab III. Solusi Tradisional: Delesi Data
Untuk perhitungan korelasi tiap pasangan variabel, digunakan tiap nilai pasangan subjek yang utuh, sehingga setiap nilai pada matriks korelasi yang diperoleh mungkin berasal dari himpunan bagian (subset) data yang berbeda, karena pada perhitungan tiap korelasi antar dua variabel, pasangan subjek yang dieliminasi karena salah satu atau kedua entrinya kosong mungkin berbeda. Metode ini valid jika asumsi MCAR benar. Sepintas lalu, metode tampak lebih menarik dibandingkan dengan listwise deletion, karena mengurangi jumlah data yang dihapus, namun jika diperlukan untuk mem-pooled sejumlah analisis yang dilakukan akan timbul masalah karena ukuran sampel yang berbeda untuk tiap analisis yang dilakukan. Dalam praktik, pairwise deletion umumnya dihindari dan lebih jarang digunakan dibandingkan dengan listwise deletion.
18
Bab IV. Solusi Tradisional: Imputasi Tunggal
BAB IV SOLUSI TRADISIONAL: IMPUTASI TUNGGAL Imputasi Rerata (mean imputation) Pada variabel yang memiliki entri kosong, dihitung rerata untuk semua entri terisi, lalu nilai rerata ini diimputasikan (diisikan) pada setiap entri kosong pada variabel tersebut. Perintah STATA untuk data terisi pada tabel 3.1: . use “D:\Data\table 3.1”, clear . list in 1/10
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
+----------+ | iq jp | |----------| | 99 7 | | 105 10 | | 105 11 | | 106 15 | | 108 10 | |----------| | 112 10 | | 113 12 | | 115 14 | | 118 16 | | 134 12 | +----------+
19
Bab IV. Solusi Tradisional: Imputasi Tunggal
. mean jp
Mean estimation
Number of obs
=
10
------------------------------------------------| Mean Std. Err. [95% Conf. Interval] -----+------------------------------------------------------------------------------------JP | 11.7 .8569973 9.761337 13.63866 ------------------------------------------------Nilai rerata 11.7 diimputasikan ke setiap entri kosong untuk JP. Diagram tebar hasil imputasi rerata terhadap dataset tabel 3.1 diperlihatkan pada gambar 4.1 berikut.
Gambar 4.1 Diagram tebar hasil imputasi rerata terhadap dataset tabel 3.1 Jika asumsi data MCAR berlaku, dengan imputasi rerata akan diperoleh estimasi rerata yang valid,, namun bias pada hampir semua estimasi parameter lainnya. Jika data bukan MCAR, estimasi rerata bersifat bias. Secara umum, estimasi variansi yang diperoleh selalu lebih kecil daripada seharusnya.
20
Bab IV. Solusi Tradisional: Imputasi Tunggal
Imputasi Regresi Variabel (-variabel) yang memiliki entri kosong masing-masing diregresikan terhadap seluruh variabel yang entrinya lengkap terisi. Persamaan regresi yang diperoleh digunakan untuk memprediksi nilai-nilai pada entri kosong dan diimputasikan ke situ. Perintah STATA: . regress jp iq
Source | SS df MS ---------+--------------------------Model | 12.9004725 1 12.9004725 Residual | 53.1995275 8 6.64994093 ---------+--------------------------Total | 66.1 9 7.34444444
Number of obs F( 1, 8) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
10 1.94 0.2012 0.1952 0.0946 2.5787
----------------------------------------------------------------jp | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+------------------------------------------------------iq | .1234495 .088633 1.39 0.201 -.0809385 .3278375 _cons | -2.064619 9.916166 -0.21 0.840 -24.93134 20.8021 ----------------------------------------------------------------Diperoleh persamaan regresi: JP = −2.065 + 0.123 IQ Selanjutnya persamaan ini digunakan untuk memprediksi entri-entri kosong JP (kolom ke-3 tabel 4.1). Misalnya:
IQ = 78 IQ = 84 dan seterusnya.
JP = −2.065 + 0.123 (78) = 7.53 JP = −2.065 + 0.123 (84) = 8.27
21
Bab IV. Solusi Tradisional: Imputasi Tunggal
Tabel 4.1 Imputasi Regresi Data Seleksi Karyawan
IQ 78 84 84 85 87 91 92 94 94 96 99 105 105 106 108 112 113 115 118 134
Job performance − − − − − − − − − − 7 10 11 15 10 10 12 14 16 12
Predicted score 7.53 8.27 8.27 8.39 8.64 9.13 9.25 9.50 9.50 9.74 − − − − − − − − − −
Random residual −2.47 −0.75 2.18 2.22 −3.14 2.44 0.44 −3.43 −2.97 6.49 − − − − − − − − − −
Stochastic imputation 5.06 7.52 10.45 10.61 5.50 11.57 9.69 6.07 6.53 16.23 − − − − − − − − − −
Catatan. Persamaan regresi untuk menghasilkan nilai prediksi:
( )
JPi = −2.025 + 0.123 IQi (Enders, 2010)
Perhatikan kembali bahwa variabel (-variabel) yang memiliki entri kosong masing-masing harus diregresikan terhadap seluruh variabel yang entrinya terisi lengkap. Pada tabel 4.2 diperlihatkan contoh dataset dengan 3 variabel Y1, Y2, dan Y3, serta model regresi yang harus digunakan, sesuai dengan variabel mana yang memiliki entri kosong.
22
Bab IV. Solusi Tradisional: Imputasi Tunggal
Tabel 4.2 Pola Data Kosong dan Persamaan yang digunakan untuk Imputasi Regresi Missing variables Y1 Y2 Y3 Y1 and Y2 Y1 and Y3 Y2 and Y3
Regression equations yˆ = B0 + B1 y2 + B2 y3 1
yˆ = B0 + B1 y1 + B2 y3 2 yˆ3 = B0 + B1 y1 + B2 y2 yˆ = B0 + B1 y3 yˆ = B0 + B1 y3 1
2
yˆ = B0 + B1 y2 1 yˆ = B0 + B1 y1 2
yˆ3 = B0 + B1 y2 yˆ3 = B0 + B1 y1
(Enders, 2010) Diagram tebar hasil imputasi regresi terhadap dataset tabel 3.1 diperlihatkan pada gambar 4.2.
Gambar 4.2 .2 Diagram tebar imputasi regresi data IQ dan kinerja dari tabel 3.1
23
Bab IV. Solusi Tradisional: Imputasi Tunggal
Imputasi Regresi Stokastik Pada imputasi regresi stokastik, nilai prediksi persamaan regresi tidak langsung diimputasikan pada entri kosong dataset, melainkan ditambahkan dulu dengan estimasi residualnya. Residual diperoleh dari simulasi Monte Carlo dengan asumsi residual berdistribusi normal dengan rerata nol dan variansi diestimasikan oleh variansi residual model regresi. Misalkan estimasi variansi residual model regresi adalah 6.6499 (lihat nilai MS Residual pada hasil perintah regress di atas), sehingga SD adalah 2.5788, maka perintah STATA adalah: . clear . set obs 10
obs was 0, now 10 . set seed 12345
Nilai seed boleh sembarang, tetapi perlu dicatat untuk memperoleh hasil yang sama jika analisis perlu diulangi. . generate z = rnormal(0, 2.5788)
Ini adalah perintah untuk menghasilkan 10 nilai acak (set obs 10) dari distribusi normal (rnormal) dengan rerata 0 dan SD 2.5788. . list
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
+-----------+ | z | |-----------| | -2.470705 | | -.749728 | | 2.179607 | | 2.22218 | | -3.143945 | |-----------| | 2.438858 | | .4441902 | | -3.429672 | | -2.973124 | | 6.489448 | 24
Bab IV. Solusi Tradisional: Imputasi Tunggal
+---------------------+ Diagram tebar hasil imputasi regresi stokastik terhadap dataset tabel 3.1 diperlihatkan pada gambar 4.3 4.3.
Gambar 4.3 Diagram tebar imputasi regresi stokastik data IQ dan kinerja dataset tabel 3.1
Last Observation Carried Forward Metode ini khusus untuk digunakan pada desain longitudinal. Contoh penggunaannya diperlihatkan pada tabel 4.3. Tabel 4.3 Dataset Longitudinal Diimputasikan dengan Last Observation Carried Forward
ID 1 2 3 4 5
Wave 1 50 47 43 55 45
Observed data Wave 2 Wave 3 53 − 46 49 − − − 56 45 47
Last observation carried forward Wave 1 Wave 2 Wave 3 Wave 4 50 53 53 53 47 46 49 51 43 43 43 43 55 55 56 59 45 45 47 46
Wave 4 − 51 − 59 46
(Enders, 2010) 25
Bab V. Imputasi Ganda Univariat
BAB V IMPUTASI GANDA UNIVARIAT Pengertian Imputasi Ganda Sejumlah ahli Statistika antara lain Rubin berpendapat imputasi satu nilai (imputasi tunggal) secara umum tidak benar, sehingga mereka berusaha mengembangkan metodologi untuk imputasi ganda (van Buuren; 2012). Pengembangan teknologi imputasi ganda yang melibatkan dataset besar sejak 1990-an terutama dimungkinkan dengan kemajuan di bidang teknik komputer. Dengan imputasi ganda, yang diutamakan bukanlah nilai imputasi tunggal untuk mengisi tiap entri kosong, melainkan model yang dipilih untuk memperoleh beberapa dataset lengkap yang telah terimputasi serta hasil akhir berupa estimasi yang valid. Walaupun imputasi ganda secara teoretis telah dibahas oleh Rubin (1976) sejak empat dekade yang lampau, kemampuan komputer yang ada pada masa itu tidak memadai untuk mengimplementasikannya. Imputasi ganda praktis baru tercakup dalam beberapa program Statistika utama dalam satu dekade terakhir. Jika persentase kekosongan sangat kecil, imputasi ganda tak dianjurkan, karena listwise deletion yang lebih sederhana akan memberi hasil yang praktis hampir sama, sedangkan imputasi ganda relatif rumit serta memerlukan waktu yang lebih lama. Sebaliknya jika persentase kekosongan sangat besar, perlu diingat bahwa hasil akhir akan lebih ditentukan oleh model imputasi daripada data terisi. Dengan demikian, imputasi ganda terutama bermanfaat jika persentase kekosongan tidak terlalu kecil ataupun terlalu besar. Imputasi ganda univariat dilakukan jika hanya ada 1 variabel dalam dataset yang memiliki entri kosong. Walaupun dalam praktik keadaan ini sangat jarang ditemukan, pemahaman mengenai imputasi ganda univariat merupakan modal awal yang penting untuk mempelajari imputasi ganda multivariat.
26
Bab V. Imputasi Ganda Univariat
Tahap-tahap tahap Imputasi Ganda Imputasi ganda (multiple multiple imputation imputation) adalah teknik statistik untuk menganalisis dataset yang tak lengkap yang memiliki sejumlah entri kosong. Aplikasi teknik ini mencakup 3 tahap, yaitu imputasi, analisis, dan pooling. pooling a.
Imputasi: Pada tahap imputasi, dilakukan m kali pengisian (to to impute) impute entri kosong pada dataset,, sehingga diperoleh m dataset yang lengkap.
b.
Analisis: Pada tahap kedua dilakukan analisis terhadap masing masing-masing masing dari m dataset tersebut, yang akan menghasilkan m himpunan nilai-nilai nilai statistik.
c.
Pooling: Tahap ketiga merupakan pengkombinasian terhadap m himpunan statistik yang diperoleh data tahap kedua untuk menghasilkan 1 himpunan hasil inferensi.
Secara skematis, tahap tahap-tahap tahap imputasi ganda diperlihatkan pada gambar 5.1 untuk m = 3.
Gambar 5.1 Imputasi ganda untuk m = 3 (van Buuren, 2012)
27
Bab V. Imputasi Ganda Univariat
Literatur awal menyarankan penggunaan nilai m yang kecil, umumnya dalam kisaran 3−5, namun literatur terbaru menganjurkan nilai m sekurangkurangnya sama dengan persentase subjek (responden) yang tak lengkap datanya, tetapi tidak melebihi 100 (Molenberghs et al, 2015). Analisis terhadap dataset lengkap (terimputasi) ke-k; k = 1, 2, . . . , m; akan k menghasilkan estimasi terhadap parameter β, yaitu βˆ ( ) dan (estimasi) variansinya
V ( ) . “Aturan Rubin” menyatakan estimasi gabungan parameter sebagai rerata m estimasi yang terpisah: k
βˆ MI =
1 m
m
∑ βˆ
(5.1)
1
B m
V MI = V + 1+
dan:
m
dengan
V =
∑ 1
m
dan
(k )
B= ∑ 1
(
V
1
(5.2)
(k ) (5.2a) m
( k ) MI βˆ − βˆ
)
2
(5.2b)
m −1
Pelaksanaan Imputasi Ganda Univariat dengan Stata Sebelum pelaksanaan imputasi ganda, dicobakan dahulu meregresikan variabel imputasi yang memiliki entri kosong pada himpunan variabel regular, yaitu variabel yang terisi lengkap, yang akan digunakan untuk memprediksi nilai entri kosong pada variabel imputasi. . regtype impvar regvars
-
Opsi regtype adalah: regress jika variabel imputasi berskala kontinu. logit jika variabel imputasi biner (dikotomi). ologit jika variabel imputasi kategorik ordinal. mlogit jika variabel imputasi kategorik nominal. poisson jika variabel imputasi data cacah dengan ekidistensi. 28
Bab V. Imputasi Ganda Univariat
-
nbreg jika variabel imputasi data cacah dengan overdistensi.
Jika tidak ditemukan hambatan, tahap-tahap imputasi ganda selanjutnya adalah: 1.
Mempersiapkan file dataset untuk diimputasi. . mi set datastyle Perintah mi set adalah pernyataan pendeklarasian dataset sebagai dataset mi, yaitu supaya dataset dapat menerima perintah-perintah mi dan menjalani proses imputasi ganda. style adalah tipe basis data yang dipilih. Opsi untuk style adalah: flong, mlong, wide. . mi register imputed impvar
Perintah ini merupakan penspesifikasian impvar, yaitu variabel yang akan diimputasi. . mi register regular regvars
Pernyataan ini merupakan penspesifikasian regvars, yaitu variabel-variabel yang tidak akan diimputasi. 2.
Pemeriksaan dataset mi. . mi describe
Perintah untuk mendeskripsikan data yang dalam file mi. . mi misstable sum
Perintah untuk mentabulasikan nilai-nilai kosong. 3.
Pelaksanaan imputasi. Metode regresi yang digunakan pada imputasi ganda tergantung pada tipe data variabel dependennya. Beberapa metode regresi yang digunakan dalam Stata untuk imputasi ganda sesuai dengan tipe data variabel dependen yaitu: - Data kontinu: Regresi linear dengan perintah mi impute regress. - Data kontinu dengan rentang nilai terbatas: Regresi dengan perintah mi impute pmm (predictive mean matching). Regresi pmm hanya dapat dilakukan dalam konteks imputasi ganda. - Data biner (dikotomi): Regresi logistik dengan perintah mi impute logit. - Data kategorik ordinal: Regresi logistik ordinal dengan perintah mi impute ologit. - Data kategorik nominal: Regresi logistik multinomial dengan perintah mi impute mlogit. 29
Bab V. Imputasi Ganda Univariat
- Data cacah dengan ekidistensi: Regresi Poisson dengan perintah mi impute poisson. - Data cacah dengan overdispersi: Regresi binomial negatif dengan perintah mi impute nbreg. Secara umum, sintaks untuk imputasi ganda univariat adalah: . mi impute regtype impvar regvars, add(M) [rseed(#)] add(M) menyatakan jumlah imputasi yang diinginkan. Nilai M yang
dianjurkan dalam Stata sekurang-kurangnya adalah 20. rseed(#) diperlukan supaya jika hendak dilakukan pengulangan analisis,
akan diperoleh hasil yang sama. 4.
Pengestimasian parameter. . mi estimate: regtype depvar indepvars Perhatikan bahwa regtype di sini ditentukan oleh skala variabel dependen, regtype belum tentu sama dengan untuk variabel imputasi di atas.
Contoh 5.1: File dataset yang akan digunakan pada contoh ini adalah mheart0.dta. . use D:\Data\mheart0, clear
(Fictional heart attack data; bmi missing) Perintah untuk membuka file mheart0.dta. . sum
Variable | Obs Mean Std. Dev. Min Max ----------+------------------------------------------------attack | 154 .4480519 .4989166 0 1 smokes | 154 .4155844 .4944304 0 1 age | 154 56.48829 11.73051 20.73613 87.14446 bmi | 132 25.24136 4.027137 17.22643 38.24214 female | 154 .2467532 .4325285 0 1 ----------+------------------------------------------------hsgrad | 154 .7532468 .4325285 0 1
30
Bab V. Imputasi Ganda Univariat
Variabel adalah: attack : Outcome (heart attack) smokes : Current smoker age : Age, in years bmi : Body Mass Index, kg/m2 female : Gender hsgrad : High school graduate Tampak bahwa semua variabel memiliki 154 entri, kecuali bmi yang hanya memiliki 132 entri. Berikut diperlihatkan regresi logistik attack terhadap smokes, age, bmi, female, dan hsgrad. Tanpa imputasi ganda, perintah logit akan dikerjakan dengan listwise deletion, yaitu hanya mengikutsertakan kasus dengan entri terisi lengkap sebanyak 132. . logit attack smokes age bmi female hsgrad
Iteration Iteration Iteration Iteration
0: 1: 2: 3:
log log log log
likelihood likelihood likelihood likelihood
= = = =
-91.359017 -79.374749 -79.342218 -79.34221
Logistic regression
Number of obs LR chi2(5) Prob > chi2 Pseudo R2
Log likelihood = -79.34221
= = = =
132 24.03 0.0002 0.1315
-----------------------------------------------------------------attack | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------+---------------------------------------------------------smokes | 1.544053 .3998329 3.86 0.000 .7603945 2.327711 age | .026112 .017042 1.53 0.125 -.0072898 .0595137 bmi .1129938 .0500061 2.26 0.024 .0149837 .211004 female | .2255301 .4527558 0.50 0.618 -.6618549 1.112915 hsgrad | .4048251 .4446019 0.91 0.363 -.4665786 1.276229 _cons |-5.408398 1.810603 -2.99 0.003 -8.957115 -1.85968 -------------------------------------------------------------------
31
Bab V. Imputasi Ganda Univariat
Selanjutnya akan dilakukan imputasi ganda variabel bmi, tetapi terlebih dahulu akan dicoba meregresikan bmi terhadap himpunan variabel regularnya. . regress bmi attack smokes age female hsgrad
Source | SS df MS ---------+-----------------------------Model | 99.5998228 5 19.9199646 Residual | 2024.93667 126 16.070926 ---------+-----------------------------Total | 2124.5365 131 16.2178358
Number of obs F( 5, 126) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
132 1.24 0.2946 0.0469 0.0091 4.0089
-----------------------------------------------------------------bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+---------------------------------------------------------attack | 1.71356 .7515229 2.28 0.024 .2263179 3.200801 smokes | -.5153181 .761685 -0.68 0.500 -2.02267 .9920341 age | -.033553 .0305745 -1.10 0.275 -.0940591 .026953 female | -.3072767 .8074763 -0.38 0.704 -1.905249 1.290695 hsgrad | -.4674308 .8112327 -0.58 0.566 -2.072836 1.137975 _cons | 26.96559 1.884309 14.31 0.000 23.2366 30.69458 -----------------------------------------------------------------Tampak bahwa pada regresi variabel imputasi bmi terhadap seluruh variabel regular tidak ditemukan sesuatu hambatan. . mi set flong . mi register imputed bmi
(22 m=0 obs. now marked as incomplete) . mi register regular attack smokes age female hsgrad . mi describe
Style: mlong last mi update 05aug2015 07:45:31, 14 seconds ago Obs.:
complete 132 incomplete 22 (M = 0 imputations) --------------------total 154 32
Bab V. Imputasi Ganda Univariat
Vars.: imputed: 1; bmi(22) passive: 0 regular: 5; attack smokes age female hsgrad system:
3; _mi_m _mi_id _mi_miss
(there are no unregistered variables) . mi misstable sum
Obs<. +--------------------------| | Unique Variable | Obs=. Obs>. Obs<. | values Min Max ---------+----------------------+--------------------------bmi | 22 132 | 132 17.22643 38.24214 -----------------------------------------------------------.
mi impute pmm bmi attack smokes age female hsgrad, add(50) rseed(1500)
Univariate imputation Predictive mean matching Imputed: m=1 through m=50
Imputations = added = updated =
50 50 0
Nearest neighbors =
1
-------------------------------------------------------| Observations per m |---------------------------------------------Variable | Complete Incomplete Imputed | Total ---------+-----------------------------------+---------bmi | 132 22 22 | 154 -------------------------------------------------------(complete + incomplete = total; imputed is the minimum across m of the number of filled-in observations.) Note: Predictive mean matching uses the default one nearest neighbor to impute bmi. This default is 33
Bab V. Imputasi Ganda Univariat
arbitrary and may perform poorly depending on your data. You should choose the number of neighbors appropriate for your data and specify it in option knn(). Khusus untuk perintah mi impute pmm sesudah add(M) dapat ditambahkan opsi knn(#), yang menspesifikasikan # observasi terdekat (nearest neighbors) sebagai sumber pengambilan nilai imputasi. Nilai default adalah knn(1). . mi estimate: logit attack smokes age bmi female hsgrad
Multiple-imputation estimates Logistic regression
DF adjustment:
Model F test: Within VCE type:
Imputations Number of obs Average RVI Largest FMI DF: min avg max F( 5,218097.0) Prob > F
Large sample
Equal FMI OIM
= 50 = 154 = 0.0295 = 0.1252 = 3155.41 = 565967.10 = 1418245.09 = 3.77 = 0.0020
-----------------------------------------------------------------attack | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+---------------------------------------------------------smokes | 1.21886 .3614422 3.37 0.001 .5104437 1.927276 age | .0358003 .015487 2.31 0.021 .0054463 .0661542 bmi | .1199313 .049222 2.44 0.015 .0234209 .2164418 female | -.1124488 .4190367 -0.27 0.788 -.933747 .7088494 hsgrad | .1668407 .405365 0.41 0.681 -.6276607 .9613422 _cons | -5.871377 1.707841 -3.44 0.001 -9.219208 -2.523546 ------------------------------------------------------------------
34
Bab V. Imputasi Ganda Univariat
Tabel 5.1 Perbandingan nilai-nilai estimasi model cc dan mi untuk data mheart0.dta Model Variabel smokes
age
bmi
female
hsgrad
konstante
cc
mi
1.544 0.400 0.000 0.026 0.017 0.125 0.113 0.050 0.024 0.226 0.453 0.618 0.405 0.445 0.363 −5.408 1.811 0.003
1.219 0.361 0.001 0.036 0.015 0.021 0.120 0.049 0.015 −0.112 0.419 0.788 0.167 0.405 0.681 −5.871 1.708 0.001
Nilai estimasi: b, SE, dan nilai-p Tampak bahwa sebagian besar hasil untuk kedua model tidak banyak berbeda, kecuali untuk variabel usia (age) yang tak bermakna pada model cc menjadi bermakna pada model mi.
35
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
BAB VI IMPUTASI GANDA MULTIVARIAT: MODEL NORMAL MULTIVARIAT Imputasi Ganda dengan Model Normal Multivariat Jika variabel yang diimputasi lebih daripada satu, prosedurnya adalah imputasi ganda multivariat. Dikenal dua prosedur utama dalam imputasi ganda multivariat, yaitu imputasi ganda dengan model normal multivariat (mi impute mvn) dan imputasi ganda menggunakan persamaan berantai (mi impute chained). Dalam imputasi ganda dengan model normal multivariat diasumsikan bahwa himpunan seluruh variabel (imputasi dan regular) berdistribusi (atau dapat dianggap berdistribusi) bersama normal multivariat. Dalam kenyataannya mungkin didapatkan satu atau beberapa variabel biner, namun model normal tetap digunakan dan hasil akhirnya pun tidak terlalu menyimpang daripada hasil imputasi ganda menggunakan persamaan berantai. Sintaks untuk model normal multivariat adalah: . mi impute mvn impvars = regvars, add(M)
Langkah-langkah di sini terdiri atas pembentukan file mi, imputasi data kosong, dan pengestimasian parameter.
Pembentukan file mi Seperti halnya pada imputasi ganda univariat, pembentukan file mi dilakukan dengan pendeklarasian file sebagai dataset mi, dilanjutkan dengan meregister variabel-variabel imputasi dan variabel regular.
Contoh 6.1: Sebagai ilustrasi, diberikan contoh imputasi ganda dengan menggunakan program statistik komputer STATA 13. File yang digunakan adalah chapter13_missing.dta (Acock, 2014). File: chapter13_missing.dta 36
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
. sysuse chapter13_missing.dta
(NLS Women 14-26 in 1968) Tabel 6.1. Variabel-variabel dalam contoh dataset Variabel ln_wagem gradem agem ttl_expm tenurem not_smsa south blackm
Catatan:
.
Keterangan Logaritma naturalis gaji Pendidikan tertinggi yang diselesaikan Usia subjek penelitian Durasi pengalaman kerja (dalam tahun) Durasi di pekerjaan sekarang (dalam tahun Apakah subjek berasal dari area non-SMSA Apakah subjek berasal dari wilayah Selatan AS Apakah subjek tergolong kulit berwarna Variabel yang namanya diakhiri dengan huruf “m” adalah variabel yang memiliki entri kosong (missing values).
list not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem in 25/30
25. 26. 27. 28. 29. 30.
+-------------------------------------------------------------+ | not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem | |-------------------------------------------------------------| | 0 0 12 28 4.923077 1.677717 . 4 | | 0 0 12 19 4.5 1.321042 . 1.416667 | | 0 0 15 27 3.461538 2.132606 . 1.5 | | 0 0 12 21 4.711538 1.493794 . 1.25 | | 1 0 15 24 3.115385 2.265503 . 1.833333 | |-------------------------------------------------------------| | 0 0 16 28 2.75 1.976338 . 2.416667 | +-------------------------------------------------------------+
37
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
. sum
Variable | Obs Mean Std. Dev. Min Max ---------+------------------------------------------------idcode | 1693 2545.507 1478.858 1 5157 not_smsa | 1693 .2658004 .441889 0 1 south | 1693 .3951565 .4890287 0 1 gradem | 1545 12.16634 1.830982 0 18 agem | 1528 22.77421 3.040773 18 30 ---------+------------------------------------------------ttl_expm | 1487 3.43469 1.565412 .0833333 15.53846 ln_wagem | 1393 1.639917 .4342409 .0682788 4.242752 blackm | 1594 .2628607 .4403256 0 1 tenurem | 1493 1.752902 1.573547 0 15.5 Tampak bahwa variabel yang perlu diimputasi adalah ln_wagem, gradem, agem, ttl_expm, tenurem, dan blackm. . mi set flong . mi register imputed ln_wagem gradem agem ttl_expm tenurem blackm
(828 m=0 obs. now marked as incomplete) . mi register regular not_smsa south
Perintah mi set flong (full and long) memberitahu Stata agar mengatur dataset ganda. Perintah mi register imputed adalah untuk mendaftarkan (meregister) seluruh variabel yang memiliki entri kosong yang perlu di-imputasi. Perintah mi register regular adalah untuk mendaftarkan seluruh variabel yang tidak memiliki entri kosong atau tidak hendak diimputasi. . misstable summarize ln_wagem not_smsa south blackm
gradem
agem
ttl_expm
tenurem
Obs<. +-----------------------------| | Unique Variable | Obs=. Obs>. Obs<. | values Min Max ---------+------------------------------+-----------------------------ln_wagem | 300 1,393 | 393 .0682788 4.242752 38
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
gradem | 148 1,545 | 13 0 18 agem | 165 1,528 | 12 18 30 ttl_expm | 206 1,487 | >500 .0833333 15.53846 tenurem | 200 1,493 | 74 0 15.5 blackm | 99 1,594 | 2 0 1 ----------------------------------------------------------------------Perintah misstable adalah untuk mendapatkan ringkasan (summary) entri kosong. . misstable patterns ln_wagem gradem agem ttl_expm tenurem not_smsa south blackm
Missing-value patterns (1 means complete) | Pattern Percent | 1 2 3 4 5 6 ------------+--------------------51% | 1 1 1 1 1 1 | 8 | 1 1 1 1 1 0 7 | 1 1 0 1 1 1 6 | 1 1 1 0 1 1 5 | 1 1 1 1 0 1 4 | 1 0 1 1 1 1 4 | 0 1 1 1 1 1 3 | 1 1 1 1 0 0 2 | 1 0 1 1 1 0 (output omitted) ------------+--------------------100% | Variables are (1) blackm (2) gradem (4) tenurem (5) ttl_expm
39
(3) agem (6) ln_wagem
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
Imputasi Data Kosong Setelah dimiliki file dengan dataset mi, imputasi dapat dilakukan. Sintaksnya adalah: . mi impute mvn impvars = regvars, add(M) [rseed(#)]
Contoh 6.2: Lihat kembali data pada contoh 6.1. .
mi impute mvn ln_wagem gradem agem ttl_expm tenurem blackm = not_smsa south, add(20) rseed(2121)
Performing EM optimization: observed log likelihood = -5199.3214 at iteration 12 Performing MCMC data augmentation ... Multivariate imputation Multivariate normal regression Imputed: m=1 through m=20
Imputations = added = updated =
Prior: uniform
20 20 0
Iterations = 2000 burn-in = 100 between = 100
-----------------------------------------------------------| Observations per m |---------------------------------------------Variable | Complete Incomplete Imputed | Total -------------+-----------------------------------+---------ln_wagem | 1393 300 300 | 1693 gradem | 1545 148 148 | 1693 agem | 1528 165 165 | 1693 ttl_expm | 1487 206 206 | 1693 tenurem | 1493 200 200 | 1693 blackm | 1594 99 99 | 1693 -----------------------------------------------------------(complete + incomplete = total; imputed is the minimum across m of the number of filled-in observations.) 40
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
Perintah mi impute mvn menspesifikasikan model normal multivariat yang digunakan untuk mengimputasikan nilai-nilai bagi entri kosong. Opsi add(20) membentuk 20 datasets sebagai tambahan terhadap dataset awal yang memiliki nilai-nilai entri kosong. Ke-20 datasets ini seluruhnya lengkap terisi tanpa ada entri kosong. Nilai yang diimputasikan berbeda dari satu dataset ke yang lainnya. Opsi rseed(#) menentukan nilai seed # tertentu yang dipilih agar hasil dapat diduplikasi. Setiap nilai dapat dimasukkan ke dalam rseed(#).
Estimasi Parameter Setelah imputasi data selesai, dataset yang dimiliki dapat digunakan untuk mengestimasi parameter. Sintaksnya adalah: . mi estimate: regress depvar indepvars
Contoh 6.3: Lihat kembali data pada Contoh 6.2. .
mi estimate: regress ln_wagem gradem agem ttl_expm tenurem not_smsa south blackm
Multiple-imputation estimates Linear regression
Imputations Number of obs Average RVI Largest FMI Complete DF
= 20 = 1693 = 0.4819 = 0.4570 = 1685
DF adjustment:
DF:
= 86.89 = 181.39 = 397.74 = 73.38 = 0.0000
Model F test: Within VCE type:
Small sample
Equal FMI OLS
min avg max F( 7, 685.4) Prob > F
-----------------------------------------------------------------ln_wagem | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------gradem | .0746216 .0064335 11.60 0.000 .061872 .0873712 agem | .02062 .0040349 5.11 0.000 .0126369 .028603 ttl_expm | .0130249 .0102512 1.27 0.207 -.0073508 .0334007 41
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
tenurem | .0628405 .0090895 6.91 0.000 .0448499 .0808311 not_smsa | -.1554712 .0244057 -6.37 0.000 -.2035786 -.1073638 south | -.1032382 .0226229 -4.56 0.000 -.1477907 -.0586857 blackm | -.037655 .0239075 -1.58 0.116 -.0846558 .0093459 _cons | .1669442 .1064046 1.57 0.119 -.0434716 .3773601 -----------------------------------------------------------------Prefiks mi estimate di depan perintah regresi menginformasikan Stata untuk melaksanakan analisis regresi untuk masing-masing dari 20 datasets dan mem-pool hasilnya. Diperoleh model akhir yaitu: ln_wage = 0.17 + 0.07(grade) + 0.02(age) + 0.01(ttl_exp) + 0.06(tenure) – 0.16(not_smsa) – 0.10(south) – 0.04(black)
42
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
BAB VII IMPUTASI GANDA MULTIVARIAT: METODE PERSAMAAN BERANTAI Tahap persiapan Metode persamaan berantai untuk imputasi ganda multivariat ini pada hakekatnya merupakan perluasan imputasi ganda univariat yang telah dibahas pada bab V. Karena variabel yang akan diimputasi lebih daripada satu dan tipe data variabel mungkin saling berbeda, sebaiknya dilakukan pemeriksaan dengan meregresikan tiap (bakal) variabel imputasi terhadap seluruh variabel lainnya. Model regresi yang digunakan disesuaikan dengan tipe data masing-masing variabel imputasi. -
Data kontinu: . regress impvar regvars
-
Data biner: . logit impvar regvars
-
Data kategorik ordinal: . ologit impvar regvars
-
Data kategorik nominal . mlogit impvar regvars
-
Data cacah dengan ekidistensi: . poisson impvar regvars
-
Data cacah dengan overdistensi: . nbreg impvar regvars
Contoh penggunaan masing-masing perintah dapat dilihat pada Lampiran 1. Dengan prosedur regresi ini dapat dilihat antara lain keberadaan kemaknaan prediktif variabel regular, konvergensi pada tipe regresi dengan proses iteratif, dan sebagainya.
Contoh 7.1: . use “D:\Data\midata”, replace . sum
Variable | Obs Mean Std. Dev. Min Max ---------+--------------------------------------------------female | 3000 .496 .5000674 0 1 race | 2707 1.018471 .8103808 0 2 43
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
urban | 2727 .6622662 .473024 0 1 edu | 2681 2.357702 .912182 1 4 exp | 2707 15.57284 9.656566 0 47.8623 ---------+--------------------------------------------------wage | 2701 71493.95 38104.3 0 227465.2 Variabel yang ada yaitu: • • • • • •
female (biner) race (kategorik, tiga nilai) urban (biner) edu (kategorik ordinal, empat nilai) exp (kontinu) wage (kontinu)
Pemeriksaan dilakukan dengan beberapa prosedur regresi berikut (hasil tidak ditampilkan): . mlogit race i.urban exp wage i.edu female . logit urban i.race exp wage i.edu female . ologit edu i.urban i.race exp wage female . regress exp i.urban i.race wage i.edu female . regress wage i.urban i.race exp i.edu female
Pembentukan dataset mi Seperti pada proses imputasi ganda lainnya, perintah Stata utama di sini adalah: . mi set style
Opsi untuk style adalah flong, mlong, dan wide. . mi register imputed impvars . mi register regular regvars
Perintah lain adalah untuk mengevaluasi hasil perintah-perintah di atas: . misstable sum . misstable pattern
Contoh 7.2: Lihat kembali data pada Contoh 7.1: . mi set wide 44
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
. mi register imputed race urban edu exp wage . mi register regular female . misstable sum
Obs<. +------------------------| | Unique Variable | Obs=. Obs>. Obs<. | values Min Max ---------+----------------------------+------------------------race | 293 2,707 | 3 0 2 urban | 273 2,727 | 2 0 1 edu | 319 2,681 | 4 1 4 exp | 293 2,707 | >500 0 47.8623 wage | 299 2,701 | >500 0 227465.2 ---------------------------------------------------------------. misstable pattern
Missing-value patterns (1 means complete) | Pattern Percent | 1 2 3 4 5 ------------+--------------59% | 1 1 1 1 1 | 7 | 1 1 1 1 0 7 | 1 1 0 1 1 7 | 1 1 1 0 1 6 | 1 0 1 1 1 6 | 0 1 1 1 1 <1 | 0 1 1 1 0 <1 | 1 1 0 1 0 <1 | 1 0 0 1 1 <1 | 1 1 1 0 0 <1 | 1 0 1 0 1 <1 | 0 1 1 0 1 <1 | 1 0 1 1 0 <1 | 0 0 1 1 1 <1 | 1 1 0 0 1 45
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
<1 | 0 1 0 1 1 <1 | 1 0 0 0 1 <1 | 0 0 1 0 1 <1 | 1 0 0 1 0 <1 | 1 0 1 0 0 <1 | 0 1 0 0 1 <1 | 0 1 1 0 0 <1 | 0 1 0 1 0 <1 | 0 0 0 1 1 <1 | 0 0 1 1 0 ------------+--------------100% | Variables are
(1) urban (4) wage
(2) race (5) edu
(3) exp
Imputasi Data Kosong Sintaks untuk melakukan imputasi dengan persamaan berantai adalah: .
mi impute chained (regmethod1) impvar1 (regmethod2) impvar2 . . . = regvars, add(M) rseed(#)
Contoh 7.3: Lihat data pada Contoh 7.2. . mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm, knn(5)) exp wage = female, add(20) rseed(4444)
Conditional urban: race: exp: wage: edu:
models: logit urban i.race exp wage i.edu female mlogit race i.urban exp wage i.edu female pmm exp i.urban i.race wage i.edu female , knn(5) pmm wage i.urban i.race exp i.edu female , knn(5) ologit edu i.urban i.race exp wage female
Performing chained iterations ... Multivariate imputation Chained equations Imputed: m=1 through m=20
Imputations = added = updated =
20 20 0
Initialization: monotone
Iterations =
200
46
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
burn-in = urban: race: edu: exp: wage:
10
logistic regression multinomial logistic regression ordered logistic regression predictive mean matching predictive mean matching
----------------------------------------------------------| Observations per m |-------------------------------------------Variable | Complete Incomplete Imputed | Total --------------+-----------------------------------+-------urban | 2727 273 273 | 3000 race | 2707 293 293 | 3000 edu | 2681 319 319 | 3000 exp | 2707 293 293 | 3000 wage | 2701 299 299 | 3000 ----------------------------------------------------------(complete + incomplete = total; imputed is the minimum across m of the number of filled-in observations.)
Estimasi Parameter Sintaks: . mi estimate: regmethod depvar indepvars
Contoh 7.3: Lihat data pada contoh 7.2. .
mi estimate: regress exp i.urban i.race wage i.edu female
Multiple-imputation estimates Linear regression
DF adjustment:
Model F test:
Imputations Number of obs Average RVI Largest FMI Complete DF DF: min avg max F( 8, 1631.5)
Small sample
Equal FMI 47
= = = = = = = = =
20 3000 0.2367 0.2448 2991 287.80 480.57 799.44 123.83
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
Within VCE type:
OLS
Prob > F
=
0.0000
-----------------------------------------------------------------exp | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+--------------------------------------------------------1.urban | -.7147912 .3709081 -1.93 0.055 -1.444618 .0150357 | race | 1 | 1.111433 .4211293 2.64 0.009 .2825493 1.940317 2 | .9334521 .4083664 2.29 0.023 .1318551 1.735049 | wage | .0001327 5.01e-06 26.49 0.000 .0001229 .0001426 | edu | 2 | -2.011541 .4563419 -4.41 0.000 -2.907332 -1.115751 3 | -4.786797 .5076449 -9.43 0.000 -5.78437 -3.789224 4 | -7.796166 .6807551 -11.45 0.000 -9.133233 -6.459099 | female | -1.071471 .362309 -2.96 0.003 -1.783544 -.359398 _cons | 9.50039 .603845 15.73 0.000 8.313031 10.68775 -----------------------------------------------------------------Didapatkan model regresi akhir: exp = 9.50 – 0.71(urban_1) + 1.11(race_1) + 0.93(race_2) + 0.0001(wage) – 2.01(edu_2) – 4.79(edu_3) −7.80(edu_4) – 1.07(female)
48
Kepustakaan
KEPUSTAKAAN Enders CK. (2010). Applied Missing Data Analysis. New York: The Guilford Press. Kim JK & Shao J. (2014). Statistical Methods for Handling Incomplete Data. Boca Raton, FL: CRC Press, Taylor & Francis Group. Little RJA & Rubin DB. (2012). Statistical Analysis with Missing Data, 2nd Ed. Hoboken, New Jersey: John Wiley & Sons. Molenberghs G, Fitzmaurice G, Kenward MG, Tsiatis A, & Verbeke G. (2015). Handbook of Missing Data Methodology. Boca Raton, FL: CRC Press, Taylor & Francis Group Rubin DB. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons. StataCorp LP. (2013). Stata Multiple-Imputation Reference Manual, Release 13. College Station, Texas: Stata Press Publication. van Buuren S. (2012). Flexible Imputation of Missing Data. Boca Raton, FL: CRC Press, Taylor & Francis Group.
49
Lampiran
BEBERAPA CONTOH REGRESI DENGAN STATA Regresi Linear Sintaks: regress depvar indepvars [if] [in] [, options] Model: Y = β + β X i
0
1
1i
+ β X 2
2i
+...+ β
p
X pi + ε i
. use “ D:\Data\elemapi”, clear . list api00 acs_k3 meals full in 1/7
1. 2. 3. 4. 5. 6. 7.
+---------------------------------+ | api00 acs_k3 meals full | |---------------------------------| | 693 16 67 76.00 | | 570 15 92 79.00 | | 546 17 97 68.00 | | 571 20 90 87.00 | | 478 18 89 87.00 | |---------------------------------| | 858 20 . 100.00 | | 918 19 . 100.00 | +---------------------------------+
api00
:
api 2000
acs_k3
:
avg class size k-3
meals
:
pct free meals
full
:
pct full credential
. regress api00 acs_k3 meals full
Source | SS df MS ---------+----------------------------Model | 2634884.26 3 878294.754 Residual | 1271713.21 309 4115.57673 ---------+----------------------------50
Number of obs F( 3, 309) Prob > F R-squared Adj R-squared
= = = = =
313 213.41 0.0000 0.6745 0.6713
Lampiran
Total | 3906597.47 312 12521.1457
Root MSE
= 64.153
-----------------------------------------------------------------api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073 meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348 full | .1086104 .090719 1.20 0.232 -.0698947 .2871154 _cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555 -----------------------------------------------------------------Model estimasi: api00 = 906.74 – 2.68(acs_k3) – 3.70(meals) + 0.11(full) + e
Regresi Logistik Sintaks: logit depvar indepvars [if] [in] [, options]
( ) 1− p(Yi )
Model: logit Y = ln i
p Yi
= β + β X 0
1
1i
+ β X 2
2i
+...+ β
p
X pi
. use “D:\Data\apilog”, clear . list hiqual cred_hl pared_hl in 6/10
6. 7. 8. 9. 10.
+-------------------------------+ | hiqual cred_hl pared_hl | |-------------------------------| | not high high high | | not high high low | | not high low low | | high high high | | not high low high | +-------------------------------+
hiqual cred_hl
: :
High Quality School, Hi vs Not Full Credent Teachers, Hi vs Lo 51
Lampiran
:
pared_hl
Parents Education, Hi vs Lo
. logit hiqual cred_hl pared_hl
Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4:
log log log log log
likelihood likelihood likelihood likelihood likelihood
= = = = =
-369.63859 -295.12944 -290.93592 -290.89221 -290.89221
Logistic regression
Number of obs LR chi2(2) Prob > chi2 Pseudo R2
Log likelihood = -290.89221
= = = =
580 157.49 0.0000 0.2130
-----------------------------------------------------------------hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------cred_hl | 2.732386 .2705825 10.10 0.000 2.202054 3.262718 pared_hl | -.1699762 .2084618 -0.82 0.415 -.5785538 .2386014 _cons | -2.470522 .246384 -10.03 0.000 -2.953425 -1.987618 -----------------------------------------------------------------Model estimasi: logit hiqual = −2.47 + 2.73(cred_hl) – 0.17(pared_hl)
Regresi Logistik Ordinal Sintaks: ologit depvar indepvars [if] [in] [, options]
p Yi Model: logit Yi = ln 1− p Yi
( ) ( )
= β + β X 0
1
1i
+ β X 2
2i
+...+ β
. use “D:\Data\ologit”, clear
52
p
X pi
Lampiran
. list apply pared public gpa in 1/5
1. 2. 3. 4. 5.
+-----------------------------------------+ | apply pared public gpa | |-----------------------------------------| | very likely 0 0 3.26 | | somewhat likely 1 0 3.21 | | unlikely 1 1 3.94 | | somewhat likely 0 0 2.81 | | somewhat likely 0 0 2.53 | +-----------------------------------------+
. list apply pared public gpa in 1/5, nolabel
1. 2. 3. 4. 5.
+-------------------------------+ | apply pared public gpa | |-------------------------------| | 2 0 0 3.26 | | 1 1 0 3.21 | | 0 1 1 3.94 | | 1 0 0 2.81 | | 1 0 0 2.53 | +-------------------------------+
. ologit apply pared public gpa
Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4:
log log log log log
likelihood likelihood likelihood likelihood likelihood
= = = = =
-370.60264 -358.605 -358.51248 -358.51244 -358.51244
Ordered logistic regression
Number of obs LR chi2(3) Prob > chi2 Pseudo R2
Log likelihood = -358.51244
= = = =
400 24.18 0.0000 0.0326
-------------------------------------------------------------apply | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------+-----------------------------------------------------pared | 1.047664 .2657891 3.94 0.000 .5267266 1.568601 53
Lampiran
public | -.0586828 .0586828 .2978588 -0.20 0.844 -.6424754 .6424754 .5251098 gpa | .6157458 .2606311 2.36 0.018 .1049183 1.126573 -------+----------------------------------------------------------------------------------------------------------/cut1 | 2.203323 .7795353 .6754621 3.731184 /cut2 | 4.298767 .8043147 2.72234 5.875195 --------------------------------------------------------------
Model estimasi: apply: Unlikely vs somewhat likely ∪ very unlikely logit apply = 2.20 + 1.05(pared) – 0.06(public) + 0.62(gpa) apply: Unlikely ∪ somewhat likely vs very unlikely logit apply = 4.30 + 1.05(pared) – 0.06(public) + 0.62(gpa)
Regresi Logistik Multinomial Sintaks: mlogit depvar indepvars [if] [in] [, options]
p Yi Model: logit Yi = ln 1− p Yi
( ) ( )
= β + β X 0
1
1i
+ β X 2
2i
+...+ β
. use “D:\Data\hsbdemo”, hsbdemo”, clear
54
p
X pi
Lampiran
. list prog ses write in 16/20
16. 17. 18. 19. 20.
+---------------------------+ | prog ses write | |---------------------------| | general low 44 | | general low 46 | | vocation middle 46 | | academic middle 46 | | vocation high 49 | +---------------------------+
. list prog ses write in 16/20, nolabel
16. 17. 18. 19. 20. prog ses write
+--------------------+ | prog ses write | |--------------------| | 1 1 44 | | 1 1 46 | | 3 2 46 | | 2 2 46 | | 3 3 49 | +--------------------+ : : :
type of program writing score
. mlogit prog i.ses write, base(2)
Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4:
log log log log log
likelihood likelihood likelihood likelihood likelihood
Multinomial logistic regression
Log likelihood = -179.98173 55
= = = = =
-204.09667 -180.80105 -179.98724 -179.98173 -179.98173
Number of obs LR chi2(6) Prob > chi2 Pseudo R2
= = = =
200 48.23 0.0000 0.1182
Lampiran
-----------------------------------------------------------------prog | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------general | ses | middle | -.533291 .4437321 -1.20 0.229 -1.40299 .336408 high | -1.162832 .5142195 -2.26 0.024 -2.170684 -.1549804 | write | -.0579284 .0214109 -2.71 0.007 -.0998931 -.0159637 _cons | 2.852186 1.166439 2.45 0.014 .5660075 5.138365 ---------+---------------------------------------------------------academic | (base outcome) ---------+---------------------------------------------------------vocation | ses | middle | .2913931 .4763737 0.61 0.541 -.6422822 1.225068 high | -.9826703 .5955669 -1.65 0.099 -2.14996 .1846195 | write | -.1136026 .0222199 -5.11 0.000 -.1571528 -.0700524 _cons | 5.2182 1.163549 4.48 0.000 2.937686 7.498714 -----------------------------------------------------------------Model estimasi: prog : general vs academic logit prog = 2.85 − 0.53(sesmid-lo) – 1.16(seshi-lo) − 0.06(write) prog : vocation vs academic logit prog = 5.22 + 0.29(sesmid-lo) – 0.98(seshi-lo) − 0.11(write)
Regresi Poisson Sintaks: poisson depvar indepvars [if] [in] [, options] Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi . use "D:\Data\Stata\lahigh.dta"
56
Lampiran
. list daysabs mathnce langnce gender in 1/10
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
+----------------------------------------+ | daysabs mathnce langnce gender | |----------------------------------------| | 4 56.98883 42.45086 male | | 4 37.09416 46.82059 male | | 2 32.27546 43.56657 female | | 3 29.05672 43.56657 female | | 3 6.748048 27.24847 female | |----------------------------------------| | 13 61.65428 48.41482 female | | 11 56.98883 40.73543 female | | 7 10.39049 15.35938 male | | 10 50.52795 52.11514 male | | 9 49.47205 42.45086 male | +----------------------------------------+
daysabs mathnce langnce
: : :
number days absent ctbs math pct rank ctbs lang pct rank
. tabstat daysabs, by(gender) stats(mean sd n)
Summary for variables: daysabs by categories of: gender gender | mean sd N -------+-----------------------------female | 6.697531 8.530609 162 male | 4.876623 5.995999 154 -------+-----------------------------Total | 5.810127 7.449003 316 -------------------------------------. poisson daysabs mathnce langnce gender
Iteration 0: Iteration 1:
log likelihood = -1547.9709 log likelihood = -1547.9709
Poisson regression
Number of obs = 57
316
Lampiran
LR chi2(3) Prob > chi2 Pseudo R2
Log likelihood = -1547.9709
= 175.27 = 0.0000 = 0.0536
-----------------------------------------------------------------daysabs | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------mathnce | -.0035232 .0018213 -1.93 0.053 -.007093 .0000466 langnce | -.0121521 .0018348 -6.62 0.000 -.0157483 -.0085559 gender | -.4009209 .0484122 -8.28 0.000 -.495807 -.3060348 _cons | 3.088587 .1017365 30.36 0.000 2.889187 3.287987 -----------------------------------------------------------------Model empirik: ln (dayabs) = 3.09 – 0.004(mathce) – 0.01(langnce) – 0.40(gender)
Regresi Binomial Negatif Sintaks: nbreg depvar indepvars [if] [in] [, options] Model: ln ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi Contoh: Sama dengan di atas (regresi Poisson). . use "D:\Data\Stata\rod93.dta", clear . list deaths cohort exposure in 6/15
6. 7. 8. 9. 10. 11. 12. 13.
+-------------------------------+ | deaths cohort exposure | |-------------------------------| | 81 1941-1949 8,743.5 | | 40 1941-1949 14,270.0 | | 197 1960-1967 403.2 | | 48 1960-1967 786.0 | | 62 1960-1967 1,165.3 | |-------------------------------| | 81 1960-1967 2,294.8 | | 97 1960-1967 4,500.5 | | 103 1960-1967 13,201.5 | 58
Lampiran
14. | 39 1960-1967 19,525.0 | 15. | 195 1968-1976 495.3 | +-------------------------------+ . list deaths cohort exposure in 6/15, nolabel
6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
+----------------------------+ | deaths cohort exposure | |----------------------------| | 81 1 8,743.5 | | 40 1 14,270.0 | | 197 2 403.2 | | 48 2 786.0 | | 62 2 1,165.3 | |----------------------------| | 81 2 2,294.8 | | 97 2 4,500.5 | | 103 2 13,201.5 | | 39 2 19,525.0 | | 195 3 495.3 | +----------------------------+
. tabstat deaths, by(cohort) stats(mean sd n)
Summary for variables: deaths by categories of: cohort (defined by year children were born) cohort | mean sd N ----------+-----------------------------1941-1949 | 84.42857 42.98394 7 1960-1967 | 89.57143 53.06555 7 1968-1976 | 80 56.87413 7 ----------+-----------------------------Total | 84.66667 48.84192 21 ----------------------------------------. nbreg deaths i.cohort exposure
Fitting Poisson model: Iteration 0:
log likelihood = 59
-286.1311
Lampiran
Iteration 1: Iteration 2:
log likelihood = -286.13067 log likelihood = -286.13067
Fitting constant-only model: Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4:
log log log log log
likelihood likelihood likelihood likelihood likelihood
= = = = =
-114.33669 -110.33038 -108.56521 -108.56018 -108.56018
Fitting full model: Iteration Iteration Iteration Iteration
0: 1: 2: 3:
log log log log
likelihood likelihood likelihood likelihood
Negative binomial regression
= -106.8523 = -106.67353 = -106.67074 = -106.67074 Number of obs LR chi2(3) Prob > chi2 Pseudo R2
Dispersion = mean Log likelihood = -106.67074
= = = =
21 3.78 0.2864 0.0174
------------------------------------------------------------------deaths | Coef. Std. Err. z P>|z| [95% Conf. Interval] -----------+------------------------------------------------------cohort | 1960-1967 | .1486955 .2800229 0.53 0.595 -.4001393 .6975304 1968-1976 | -.0745488 .2753852 -0.27 0.787 -.6142939 .4651964 | exposure | -.0000452 .000022 -2.06 0.039 -.0000882 -2.19e-06 _cons | 4.596288 .2128607 21.59 0.000 4.179089 5.013488 -----------+------------------------------------------------------/lnalpha | -1.377729 .3166305 -1.998314 -.7571451 -----------+------------------------------------------------------alpha | .2521504 .0798385 .1355637 .4690035 ------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 358.92 Prob>=chibar2 = 0.000
60