Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Aplikasi Data Mining Menggunakan Multiple Linear Regression Untuk Pengenalan Pola Curah Hujan Irwan Budiman1) Artesya Nanda Akhlakulkarimah 2) 1,2Prodi Ilmu Komputer FMIPA UNLAM Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1) email :
[email protected], 2)
[email protected] Abstract The development of information technology in today's era of globalization is growing rapidly. It also has created the development of a lot of data, including data about the weather. The method of data analysis that we used is multiple linear regression. F test, partial correlation test and coefficient of determination were used in this research. After we got a regression model with two independent variables, then we did testing for coefficient of determination. From the result, we knew that the relevance between the number of rainy days with the rainfall was very strong. The relevance between the duration of solar radiation with the rainfall was strong. Whereas, the relevance between the number of rainy days with duration of sun exposure was very strong. Coefficient of determination was 0.5778. It meant that multiple linear regression model had a reliability rate of 57,78%. The Conclusions of this research are the number of rainy days and duration of sun exposure are affecting significantly with rainfall. The regression model which used is 57,78%, it means that rainfall is influenced by 57,78% of independent variables which measured in this research. Keywords: Multiple Linear Regression, data mining, rainfall. Abstrak Perkembangan teknologi informasi pada era globalisasi saat ini sangat berkembang pesat. Perkembangan ini juga telah melahirkan perkembangan banyak data, termasuk data-data tentang cuaca. Metode analisis data yang digunakan dengan multiple linear regression. Pada penelitian ini digunakan uji F, uji korelasi parsial dan koefisien determinasinya. Setelah didapatkan model regresi dengan dua variable bebas, kemudian dilakukan pengujian terhadap koefisien regresi. Dari hasil perhitungan, dapat diketahui keterkaitan antara jumlah hari hujan dengan curah hujan sangat kuat. Keterkaitan antara lama penyinaran dan curah hujan kuat. Sedangkan, keterkaitan antara jumlah hari hujan dan lama penyinaran sangat kuat. Koefisien determinasinya 0,5778. Artinya tingkat kecocokan model multiple linear regression memiliki tingkat kehandalan 57,78%. Kesimpulan dari penelitian ini adalah jumlah hari hujan dan lamanya penyinaran matahari berpengaruh signifikan terhadap curah hujan. Model regresi yang digunakan memberikan hasil 57,78% yang berarti curah hujan dipengaruhi oleh 57,78% variable bebas yang diukur pada penelitian ini. Kata Kunci: Multiple Linear Regression, data mining, curah hujan. Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |34
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
1. PENDAHULUAN 1.1 Latar Belakang Cuaca merupakan keadaan yang menunjukkan adanya aktifitas alam di atmosfer pada suatu wilayah tertentu dan dalam waktu yang singkat. Berbagai aktifitas manusia bergantung dengan kondisi cuaca. Kondisi cuaca berpengaruh pada beberapa sektor. Informasi tentang cuaca bisa didapatkan secara berkala. Badan Metereologi, Klimatologi dan Geofisika (BMKG) dapat mempublikasikan informasi ini per bulan. Adanya pemberian informasi secara berkala ini dapat dijadikan acuan untuk menggali pengetahuan dari data-data ini. Perkembangan teknologi informasi pada era globalisasi saat ini sangat berkembang pesat. Perkembangan ini juga telah melahirkan perkembangan banyak data, termasuk data-data tentang cuaca. Teknologi saat ini mampu menyimpan dan mengumpulkan berbagai tipe data. Untuk menangani jumlah data yang besar ini, maka lahirlah sebuah metode baru, yaitu data mining. Data mining digunakan untuk mencari pengetahuan apa yang dapat digali dari informasi yang diambil dari data-data yang jumlahnya besar. Dari informasi inilah kita akan mencari pengetahuan yang bisa diambil dari data-data tersebut Oleh karena itu, digunakanlah data mining untuk mengetahui pola hubungan curah hujan dengan variabel cuaca lainnya. Data yang didapat yaitu dari data-data yang didapatkan dari Badan Metereologi, Klimatologi dan Geofisika (BMKG). Pengetahuan yang didapat berguna nantinya untuk mengetahui hubungan curah hujan dengan variabel cuaca. 1.2 Perumusan Masalah Berdasarkan latar belakang masalah di atas maka perumusan masalah dari penelitian ini adalah seberapa besar tingkat keterkaitan antara curah hujan dengan variabel cuaca dalam sebulan menggunakan teknik data mining dengan algoritma multiple linear regression. 1.3 Manfaat dan Tujuan Penelitian Manfaat dari penelitian ini adalah memberikan pengetahuan mengenai pola hubungan curah hujan bulanan dengan variabel cuaca dalam sebulan. Tujuan yang ingin dicapai dalam penelitian ini adalah mengetahui pola hubungan curah hujan bulanan dengan variabel cuaca dengan menggunakan algoritma multiple linear regression. 1.4 Batasan Penelitian Batasan-batasan penelitian yaitu : a. Data yang diolah berdasarkan data unsur cuaca bulanan dari Badan Metereologi dan Geofisika (BMKG) Stasiun Klimatologi Klas I Banjarbaru untuk wilayah Banjarbaru selama periode 2005 – Desember 2013. b. Unsur cuaca yang dijadikan variabel bebas adalah jumlah hari hujan dalam sebulan dan lama penyinaran matahari dalam sebulan. Sedangkan variabel yang dijadikan variabel terikat adalah curah hujan bulanan. c. Algoritma yang digunakan adalah dengan multiple linear regression Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |35
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
2. METODE PENELITIAN Metode analisis data yang digunakan dengan multiple linear regression. Setelah didapatkan model regresi dengan dua variable bebas, kemudian dilakukan pengujian terhadap koefisien regresi. Pada penelitian ini digunakan uji korelasi parsial dan koefisien determinasi nya. Hal ini digunakan untuk mengetahui seberapa besar pengaruh semua variabel bebas secara bersama-sama terhadap perubahan variabel tak bebas Y dan mengukur seberapa kuat hubungan antara variabel-variabel bebas yang telah ditetapkan dalam model terbaik terhadap variabel tak bebasnya. Setelah itu dilakukan uji F untuk mengukur tingkat signifikansinya. Setelah dilakukan uji F, dilakukanlah pengujian terhadap model regresi. Hasil pengujian (prediksi) dibandingkan dengan nilai kenyataan dan kemudian dihitung nilai standar error nya. 3. Hasil dan Pembahasan Bentuk model multipler linear regression yang menyatakan hubungan antara jumlah hari hujan, lamanya penyinaran, dan curah hujan adalah ƩY = a + b1ƩX1+b2ƩX2 Langkah pertama yang harus dilakukan adalah mencari nilai a, b1, dan b2 nya agar bisa didapatkan persamaan regresi linier berganda. a.
Multiple Linear Regression Data yang digunakan adalah sebagai berikut Tabel 1Data Cuaca
tgl Jan-05 Feb-05 Mar-05 Apr-05 May-05 Jun-05 Jul-05 Aug-05 Sep-05 Oct-05 Nov-05 Dec-05 Jan-06 Feb-06 Mar-06 Apr-06 May-06 Jun-06 Jul-06
X1 28 25 27 26 20 17 16 7 5 21 25 28 28 26 27 20 15 28 10
X2 43.6 43.7 56 55.2 61.8 66 60.6 74.7 76 49 47.5 16.3 30.7 41.3 50.9 50.4 63.6 39.4 76
Y 270 290 261 222 199 139 72 34 15 212 187 264 363 300 295 213 73 183 25
Aug-06 Sep-06 Oct-06 Nov-06 Dec-06 Jan-07 Feb-07 Mar-07 Apr-07 May-07 Jun-07 Jul-07 Aug-07 Sep-07 Oct-07 Nov-07 Dec-07 Jan-08 Feb-08 Mar-08
5 1 1 15 21 28 26 26 27 21 23 13 12 7 13 24 24 24 21 27
76.3 78.6 71.5 56.7 53.8 42.8 27.1 47.5 54.9 56.1 37.3 52.3 71.5 76.8 59 46.8 44.7 45.6 32.1 43.6
5 3 17 116 403 241 329 483 330 235 171 229 55 30 62 170 256 272 240 554
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |36
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Apr-08 May-08 Jun-08 Jul-08 Aug-08 Sep-08 Oct-08 Nov-08 Dec-08 Jan-09 Feb-09 Mar-09 Apr-09 May-09 Jun-09 Jul-09 Aug-09 Sep-09 Oct-09 Nov-09 Dec-09 Jan-10 Feb-10 Mar-10 Apr-10 May-10 Jun-10 Jul-10 Aug-10 Sep-10 Oct-10 Nov-10 Dec-10 Jan-11 Feb-11 Mar-11 Apr-11 May-11 Jun-11 Jul-11 Aug-11 Sep-11 Oct-11
24 17 19 20 22 14 25 25 27 30 21 21 21 22 9 8 2 4 12 19 24 25 22 27 23 22 27 23 25 26 21 27 26 24 20 24 23 17 13 6 6 13 19
57.9 60 53.4 45.8 47.5 57.8 42.9 47.6 18.8 39.6 36.7 53.6 56.4 66.9 67 65.8 80.3 80.7 62.6 54.1 43 38.8 50.2 45.6 59.9 57.9 43.2 31.7 45.1 38.4 50 45 37.9 39.8 36.7 31 45.2 56.7 76.5 72.6 77.7 60.9 65.1
241 54 259 144 83 99 78 288 420 384 148 212 279 236 22 73 25 21 189 292 287 324 321 285 243 171 366 172 240 338 257 318 355 419 284 337 251 211 84 21 27 77 134
Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12 Jun-12 Jul-12 Aug-12 Sep-12 Oct-12 Nov-12 Dec-12 Jan-13 Feb-13 Mar-13 Apr-13 May-13 Jun-13 Jul-13 Aug-13 Sep-13 Oct-13 Nov-13 Dec-13
21 27 26 25 24 24 11 18 20 8 5 15 23 26 27 23 22 23 22 13 24 15 12 13 24 23
52.9 27.9 39.1 25.5 48.8 61.8 67.3 60 45.5 69.8 75.2 65.5 52.1 41.5 29.1 42.1 54 51.3 50.2 63.7 37.5 64.4 51 71.2 49.9 36
276 857 224 258 313 319 149 58 192 70 58 157 298 410 355 415 308 305 346 141 126 81 34 106 441 349
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |37
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Keterangan : Tgl : bulan dan tahun X1 : jumlah hari hujan X2 : lama penyinaran Y : curah hujan Dari data di atas dilakukan perhitungan dengan multiple linear regression sehingga menghasilkan nilai a,b1,dan b2 sebagai berikut : b2
Tabel 2 Nilai a,b1,dan b2 b1 a
-1,70263 11,74574 76,81641 Kemudian didapatkanlah model multiple linear regression nya sebagai berikut : ƩY = 76,81641 + 11,74574ƩX1-1,70263ƩX2 b.
Uji Korelasi Parsial Untuk mengetahui seberapa besar keterkaitan masing-masing variable bebas terhadap variable tidak bebas maka perlu dihitung korelasi parsial. Untuk menghitung nilai korelasi, diperlukan perhitungan untuk mengetahui rX1Y, rX2Y, rX1X2. Dari table 4.1 data cuaca dibuatlah beberapa table yang memuat atribut turunan. Pertama, untuk menghitung rX1Y, maka query SQL yang digunakan adalah : INSERT INTO x1y SELECT `jlh_hari_hujan`, curah_hujan`, jlh_hari_hujan`*.`curah_hujan` AS X1Y, jlh_hari_hujan`*`jlh_hari_hujan` AS X1kuadrat, `curah_hujan`*`curah_hujan` AS Ykuadrat FROM Table_cuaca; Kedua, untuk menghitung rX2Y, maka query SQL yang digunakan adalah : INSERT INTO x2y SELECT lama_penyinaran`, `curah_hujan`, lama_penyinaran` * `curah_hujan` AS X2Y, `lama_penyinaran`*`lama_penyinaran` AS X2kuadrat, `curah_hujan`*`curah_hujan` AS Ykuadrat FROM Table_cuaca;
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |38
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Ketiga, untuk menghitung rX1X2, maka query SQL yang digunakan adalah : INSERT INTO x1x2SELECT `jlh_hari_hujan`,`lama_penyinaran`, `jlh_hari_hujan`* `lama_penyinaran` AS X1X2, `jlh_hari_hujan`*`jlh_hari_hujan` AS X1kuadrat, `.` lama_penyinaran`*`lama_penyinaran` AS X2kuadrat FROM Table_cuaca; Keempat, untuk menghitung jumlah per kolom dari tabel rX1Y, maka query SQL yang digunakan adalah : INSERT INTO `sum_x1y` SELECT SUM(`jlh_hari_hujan`) AS total_hari , SUM(`curah_hujan`) AS total_curah, SUM(`X1Y`) AS total_X1Y, SUM(`X1kuadrat`) AS total_X1kuadrat, SUM(`Ykuadrat`) AS total_Ykuadrat FROM x1y; Kelima, untuk menghitung jumlah per kolom rX2Y, maka query SQL yang digunakan adalah : INSERT INTO `sum_x2y`SELECT SUM(`lama_penyinaran`) AS total_lama , SUM(`curah_hujan`) AS total_curah, SUM(`X2Y`) AS total_X2Y, SUM(`X2kuadrat`) AS total_X2kuadrat, SUM(`Ykuadrat`) AS total_Ykuadrat FROM x2y; Keenam, untuk menghitung jumlah per kolom rX1X2, maka query SQL yang digunakan adalah: INSERT INTO `sum_x1x2` SELECT SUM(`jlh_hari_hujan`) AS total_hari , SUM(`lama_penyinaran`) AS total_lama, SUM(`X1X2`) AS total_X1X2, SUM(`X1kuadrat`) AS total_X1kuadrat, SUM(`X2kuadrat`) AS total_X2kuadrat FROM x1x2; Hasil perhitungan korelasi parsial untuk model multiple linear regression antara jumlah hari hujan, lama penyinaran, dan curah hujan dapat dilihat pada table berikut :
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |39
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Tabel 3 Hasil Uji Korelasi Parsial Nilai Korelasi rx1Y
0,7536
rx2Y
-0,6765
rX1X2
-0,8228
Dari hasil perhitungan, dapat diketahui bahwa keterkaitan antara jumlah hari hujan dengan curah hujan sangat kuat. Keterkaitan antara lama penyinaran dan curah hujan kuat. Sedangkan, untuk keterkaitan antara jumlah hari hujan dan lama penyinaran sangat kuat. c.
Uji Koefisien Determinasi Kegunaan koefisien determinasi adalah mengetahui seberapa besar pengaruh variable bebas terhadap varibel terikat sehingga dapat diketahui kesamaan dan kecocokan model regresi linier. Berdarkan hasil perhitungan diperoleh koefisien determinasi (R2) adalah sebagai berikut: Tabel 4 Hasil Uji Koefisien Determinasi R R2 0,7601
0,5778
Dari model di atas terlihat koefisien determinasinya 0,5778. artinya tingkat kecocokan model multiplelinear regression memiliki tingkat kehandalan 57,78%. Artinya, sebanyak 57,78% variasi nilai curah hujan bergantung pada variable bebas yang diukur pada penelitian ini, yaitu jumlah hari hujan dan lamanya penyinaran. Sedangkan sisanya, sebesar 42,22% dipengaruhi oleh variable lain yang dipengaruhi oleh variable lain yang tidak diukur dalam penelitian ini. d.
Uji F Uji F digunakan untuk mengukur signifikan keseluruhan model regresi F. Apakah hasilnya signifikan atau tidak. Jika hasilnya signifikan, artinya model regresi bisa digunakan untuk peramalan. Untuk melakukan uji F, Pertama-tama kita melakukan perhitungan Fhitung.
Fhitung = = = 71,854
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |40
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Kriteria : Fhitung > Ftabel Ha diterima Fhitung <= Ftabel Ho diterima Ho : variable bebas tidak berpengaruh signifikan terhadap variable terikat Ha : variable bebas berpengaruh signifikan terhadap variable terikat. Ftable dengan menggunakan tingkat kepercayaan (α) 0,05 dan dk pembilang andalah banyaknya variable bebas yaitu 2 dan dk penyebut adalah n-k-1 yaitu 105, maka didapatlah hasil Ftable adalah 3,0829. Dengan demikian Fhitung > Ftable. Ini artinya jumlah hari hujan dan lamanya penyinaran matahari berpengaruh signifikan terhadap curah hujan. e.
Pengujian Misalkan terdapat data jumlah hari hujan dan lama penyinaran sebagai berikut Tabel 5 Data Pengujian Tgl X1 X2 Jan-2014
26
33.3
Feb-2014
21
44.9
Mar-2014
24
49.4
Apr-2014
21
56.4
Mei-2014
27
62.3
Jun-2014
20
50.9
Jul-2014
12
64.2
Agt-2014
12
18
Maka berdasarkan model multiple linear regression nya, yaitu ƩY = 76.81641 + 11.74574ƩX1-1.70263ƩX2 di dapatlah hasil curah hujan sebagai berikut :
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |41
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
Tgl Jan2014
X1
X2
Tabel 6 Hasil Pengujian Y Y Selisih Kuadrat prediksi kenyataan (ei) selisih (e2)
26 33.3
325.508
443 117.49
Feb2014
21 44.9
247.028 7
220
-27.03
730.55
Mar2014
24 49.4
274.604 1
332
57.40
3294.29
21 56.4
227.448 4
223
-4.45
19.79
Mei2014
27 62.3
287.877 3
156 131.88
17391.63
Jun2014
20 50.9
225.067 2
221
-4.07
16.54
Jul2014
12 64.2
108.456 2
113
4.54
20.65
Agt2014
12
187.117 9
53 134.12
17987.61
TOTAL
53265.43
Apr2014
18
13804.38
Hasil pengujian model multiple linear regression dengan data curah hujan real menunjukkan adanya selisih. Hal ini memperlihatkan adanya error. Dari kuadrat selisih pada table diatas, dapat diketahui kesalahan baku (standart error) regresi adalah 22,52. Ini artinya besarnya penyimpangan atau ketidak akuratan nilai dugaan terhadap nilai sebenarnya adalah 22,52. 4. KESIMPULAN DAN SARAN 4.1 Kesimpulan Kesimpulan dari penelitian ini adalah jumlah hari hujan dengan curah hujan berpengaruh sangat kuat. Keterkaitan antara lama penyinaran dan curah hujan kuat. Sedangkan, untuk antara jumlah hari hujan dan lama penyinaran sangat kuat. Jumlah hari hujan dan lamanya penyinaran matahari berpengaruh signifikan terhadap curah hujan. Model regresi yang digunakan yaitu sebesar 57,78%. Artinya, 57,78% variasi nilai curah hujan bergantung pada variable bebas yang diukur pada penelitian ini. Kesalahan baku regresi adalah 22,52. Hal ini berarti ketidakakuratan nilai dugaan dengan nilai sebenarnya sebesar 22,52.
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |42
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
4.2 Saran Berdasarkan hasil pembahasan dan kesimpulan, maka saran untuk penelitian selanjutnya adalah sebagai berikut : a. Sebaiknya data yang digunakan lebih banyak lagi agar model regresi yang digunakan lebih baik lagi. b. Variable bebas yang digunakan dapat ditambah lagi (seperti suhu udara, tekanan udara, dan lain-lain) agar diketahui seberapa besar pengaruh variable lainnya terhadap curah hujan.
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |43
Kumpulan jurnaL Ilmu Komputer (KLIK) Volume 02, No.01 Februari 2015 ISSN: 2406-7857
DAFTAR PUSTAKA [1]. Kurniadi, Eka, dkk. 2012. “Multiple linear regression Menggunakan Aplikasi Matlab”. Universitas Pendidikan Ganesha Singaraja. Bali. [2]. Larose, Daniel T. 2006. “Data mining Methods and Models”. John Wiley & Sons Inc.Hoboken New Jersey. [3]. Lesmana, Eman dan Riaman. 2013. “Penggunaan Model Regresi linear Berganda pada Program Penggemukan Sapi PO (Peranakan Ongole) serta Analisis BCR (Benefit Cost Ratio) Penggunaan Bahan Pakan Kering”. Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBRBATAN Bandung 4 Juli 2013. [4]. Turban, E., Aronson Jay E. dan Liang T. 2005. “Decision Support Systems and Intelligent Systems Seventh Edition”. Andi. Yogyakarta.
Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |44