Pertemuan 08 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Menyiapkan Data untuk Analisis Statistika Bagus Sartono Farit Mochamad Afendi
Tiga Tipe Orang di Perusahaan
JOKO
DIAN
DEDI
Business Analyst
Statistician – Quantitative Expert
IT and Data Expert
Peran di Perusahaan - Business Analyst - Orang yang berorientasi pada hasil - Orang yang punya berbagai pertanyaan bisnis untuk dipecahkan - Biasanya dia datang ke DIAN si statistisi, untuk meminta dilakukan suatu analisis
JOKO Business Analyst
- Umumnya orang seperti ini gak terlalu paham secara mendalam teknik-teknik analisis meskipun pernah dengar datamining, regresi, dan sebagainya. - Pengalamannya melakukan analisis ya sebatas waktu kuliah dulu
Peran di Perusahaan - Statistisi - Bertanggung jawab pada pemodelan dan membantu perusahaan menghasilkan berbagai jawaban atas permasalahan bisnis dan membuat perusahaan lebih produktif. - Dituntut mampu menyediakan apa yang diperlukan oleh bagian bisnis, berdasarkan data yang diperoleh dari bagian IT.
DIAN Statistician – Quantitative Expert
- Dituntut selalu berupaya menjelaskan hasil analisisnya dalam bahasa sederhana dan menggunakan istiah statistik sesedikit mungkin, tapi kadang-kadang perlu tetap mempertahankan argumen statistiknya.
Peran di Perusahaan -IT and data expert -Dia mengelola banyak database, operating system, dan pelaporan datawarehouse. -Dia paham sekali mengenai sumber data, tabel-tabel dan hal-hal yang terkait bagaimana cara menghasilkan variabel baru dari tabeltabel yang ada.
DEDI IT and Data Expert
statistician Dituntut memberikan hasil yang tepat dan bermanfaat, senang kalau tersedia banyak data yang bisa digunakan dan diotak-atik, apalagi data tersebut sudah siap dianalisis, kurang menyukai data-data yang aneh, bolong, tidak lengkap, dsb. Selalu berpikir, kalau bisa saya saja yang menyiapkan data.
IT and data expert
business analyist
Biasanya dikejar-kejar deadline, maunya cepet, hasil analisis dijelaskan dengan bahasa yang sederhana, gak mau pusing dengan hal-hal teknis di data, gak suka ada orang bilang kalau requestnya terlalu rumit dan butuh waktu untuk dikerjakan
Bertanggung jawab pada penyimpanan dan ekstraksi data dari berbagai sumber, suka mengotak-atik bagaimana beberapa proses dapat dijalankan secara otomatis, kurang senang dengan permintaan data yang ekstraksinya butuh waktu lama, dan tidak terlalu paham bagaimana data-data itu nantinya akan digunakan.
Sumber Data Asal • Tipe File – Text File – Spreadsheet – Database relasional – Database berhirarki – dll
• Database sudah di-”normalisasi”?
Subjek Analisis • Subjek Analisis adalah entitas yang akan dianalisis dan hasil analisis akan diinterpretasikan pada konteks entitas tersebut. • Mengenali subjek analisis penting untuk menentukan bagaimana tabel-tabel data akan disiapkan. • Berikut ini beberapa contoh yang dapat menjadi subjek analisis: – – – – – –
Orang Hewan Organ tubuh Benda, seperti mobil Badan/Organisasi, seperti perusahaan, lembaga, rumah tangga, dsb Wilayah seperti kelurahan, kecamatan, kabupaten, dsb
Struktur Data • Struktur Data: – Satu baris untuk satu subjek – Beberapa baris untuk satu subjek
• Analisis apa yang memerlukan satu baris per subjek? Analisis apa yang memerlukan beberapa baris untuk sebuah subjek?
Multiple Observation • Secara umum ada dua hal yang menyebabkan data bersifat banyak baris untuk satu subjek yaitu: – Pengamatan berulang – Hubungan berhirarki
Pengamatan Berulang • Data pengamatan berulang diperoleh karena adanya pengamatan berulang (repeated measurements) jelas merupakan data dengan beberapa baris untuk satu objek jika disimpan dalam format penambahan baris setiap perulangan amatan
• • • • • • • • • • • • • • • •
The simplest form of repeated measurements is the two-observations-per-subject case. This case happens most often when comparing observations before and after a certain event and we are interested in the difference or change in certain criteria (pre-test and post-test). Examples of such an event include the following: giving a certain treatment or medication to patients execution of a marketing campaign to promote a certain product If we have two or more repetitions of the measurement, we will get a measurement history or a time series of measurements: Patients in a clinical trial make quarterly visits to the medical center where laboratory values and vital signs values are collected. A series of measurement data such as the systolic and diastolic blood pressure can be analyzed over time. The number and duration of phone calls of telecommunications customers are available on a weekly aggregated basis. The monthly aggregated purchase history for retail customers. The weekly total amount of purchases using a credit card. The monthly list of bank branches visited by a customer.
Multiple Observations: Hubungan Berhirarki • Berikut ini adalah beberapa ilustrasi data yang memuat beberapa baris untuk satu subjek:: – Data nasabah asuransi, dimana setiap baris berisi informasi mengenai satu polis/kontrak asuransi yang dimiliki nasabah. Seorang nasabah dapat saja memiliki lebih dari satu polis asuransi. – Data kondisi cuaca suatu wilayah dimana satu baris menunjukkan kondisi cuaca di satu waktu tertentu, dan terdapat beberapa catatan kondisi cuaca untuk suatu tempat yang sama – Data catatan medis pasien rumah sakit, dimana satu baris adalah catatan dari setiap kali perawatan/pemeriksaan dan satu orang pasien mungkin saja datang beberapa kali – Apa lagi? – Apa lagi?
Data • Hasil survei penggunaan energi di rumah tangga. • Data set hanya berisi sebagian dari keseluruhan hasil survei. • Disimpan dalam file excel: Data DMS 01.xlsx – – – –
Worksheet: A.identitas Worksheet: B.karakter Worksheet: C.penerangan Worksheet: D.pengetahuan
A.identitas
B.karakter
C.penerangan
D.pengetahuan
Pembuatan Data Mart
Membuat Data Satu Objek Satu Baris • Dalam banyak analisis, diperlukan data yang memuat informasi satu objek dalam satu baris • Sehingga data yang awalnya satu objek dalam beberapa baris harus diubah menjadi satu objek satu baris • Proses membuat yang demikian dapat dilakukan dengan dua cara: – Transposing – Aggregating
Transposing • Here we transpose the multiple rows per subject into columns. This technique can be considered the “pure” way because as we take all data from the rows and represent them in columns.
Transposing no_kues jml 3602910401 3602910401 3602910401 3602910401 3602910401 3602910402 3602910402 3602910402 3602910402 3602910403 3602910403 3602910403 3602910403
letak 1 DEPAN 1 RUANG TAMU 1 RUANG TENGAH 2 KAMAR 1 DAPUR 1 HALAMAN DEPAN 1 RUANG TAMU 1 KAMAR TIDUR 1 DAPUR 1 DEPAN 1 TENGAH 2 KAMAR 1 DAPUR
no_kues DAPUR DEPAN HALAMAN DEPAN KAMAR KAMAR TIDUR RUANG TAMU RUANG TENGAH TENGAH 3602910401
1
1
0
2
0
1
1
0
3602910402
1
0
1
0
1
1
0
0
3602910403
1
1
0
2
0
0
0
1
Agregating no_kues jml 3602910401 3602910401 3602910401 3602910401 3602910401 3602910402 3602910402 3602910402 3602910402 3602910403 3602910403 3602910403 3602910403
no_kues 3602910401 3602910402 3602910403
letak Watt 1 DEPAN 1 RUANG TAMU 1 RUANG TENGAH 2 KAMAR 1 DAPUR 1 HALAMAN DEPAN 1 RUANG TAMU 1 KAMAR TIDUR 1 DAPUR 1 DEPAN 1 TENGAH 2 KAMAR 1 DAPUR
Sum of jml 6 4 5
Total Watt 20 20 20 20 20 5 7 5 5 8 8 8 8
20 20 20 40 20 5 7 5 5 8 8 16 8
Sum of Total Watt 120 22 40
proc print data=sasuser.datatrag; run;
proc transpose data=sasuser.datatrag out=hasil; by no_kues; var jml; id letak; run; proc print data=hasil; run;
proc tabulate data=sasuser.datatrag out=agregat; class no_kues; Var jml total_watt; tables no_kues, sum*jml sum*total_watt; run; proc print data=agregat; var no_kues jml_sum total_watt_sum; run;
data gabung; merge hasil (drop = _name_ _label_) agregat (drop = _type_ _page_ _table_); by no_kues; run; proc print data=gabung; run;
Pertemuan 08 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Agregasi Data Bagus Sartono Farit Mochamad Afendi
Outline • Agregasi Data • Kegunaan Agregasi Data • Agregasi Data menggunakan PROC SQL • Agregasi Data menggunakan PROC TABULATE
Agregasi Data Individu Mahasiswa
Individu Orang Rumah Tangga
Program Studi Desa/Kelurahan Departemen Kecamatan
Fakultas
Universitas
Kab/Kota Propinsi Nasional
Kegunaan Agregasi • Memberikan informasi mengenai deskripsi data secara umum • Merupakan bagian dari proses analisis data • Mengidentifikasi keberadaan data yang bersifat anomali
Pertemuan 09 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Tabel Ringkasan Bagus Sartono Farit Mochamad Afendi
Pertemuan 10 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Penggunaan Grafik untuk Penyajian Ringkasan Data Bagus Sartono Farit Mochamad Afendi
Pertemuan 11 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Memperoleh Tabel Data Sesuai dengan Keinginan Analisis Bagus Sartono Farit Mochamad Afendi
Pertemuan 12 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Memperoleh Tabel Data Sesuai dengan Keinginan Analisis Bagus Sartono Farit Mochamad Afendi
Pertemuan 13 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Mengidentifikasi Pencilan dan Anomali dalam Data Bagus Sartono Farit Mochamad Afendi
Pertemuan 14 STK 572 Manajemen Data Statistika Program Studi Magister Statistika Terapan Departemen Statistika FMIPA – Institut Pertanian Bogor
Transformasi Data
Bagus Sartono Farit Mochamad Afendi