Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
IMPLEMENTASI ALGORITMA MULTIPLE LINEAR REGRESSION UNTUK MEMPREDIKSI INDEKS GLIKEMIK BERDASARKAN KANDUNGAN NUTRISI PANGAN Ilyas1, Irwan Budiman2, Heru Kartika Chandra3 1,2,3 Prodi Ilmu Komputer FMIPA ULM Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan Email :
[email protected] Abstract There is some food that does not have value of the glycemic index. Based on the results of research using multiple linear regression algorithm to process training data sourced from DKBM KEMENKES, DKBM USDA and sourced from journals and internet, it is obtained that the relationship of each nutritional content in determining the glycemic index is very weak. However, the calcium content has a strong and significant inverse relationship based on the partial correlation value (r) which is -0.427740 and t-value is -3.418372. While the relationship of nutritional content simultaneously is very strong and significant with the value of R is 0.761376 and F-value is 11.378546. The ability of nutritional content in describing the glycemic index is 57.969378%, while the remaining 42.030622% is influenced by other factors. The accuracy calculation by using standard error of estimate value in training data and test data are 14.924050 and 13.470881, therefore, the obtained accuracy is low. Keywords : Data Mining, Multiple Linear Regression, Diabetes Mellitus, Glycemic Index Abstrak Bahan makanan atau pangan tidak semua telah memiliki nilai indeks glikemik. Berdasarkan hasil penelitian data mining dengan algoritma multiple linear regression untuk mengolah data training yang bersumber pada DKBM KEMENKES, DKBM USDA serta bersumber dari jurnal maupun internet, didapatkan hubungan setiap kandungan nutrisi dalam menentukan indeks glikemik tergolong sangat lemah. Namun, kandungan kalsium memiliki hubungan terbalik cukup kuat dan signifikan berdasarkan nilai korelasi parsial (r) sebesar -0.427740 dan thitung sebesar -3.418372. Sedangkan hubungan kandungan nutrisi secara bersamaan terbilang sangat kuat dan signifikan dengan nilai korelasi ganda (R) sebesar 0.761376 dan Fhitung sebesar 11.378546. Kemampuan kandungan nutrisi dalam menjelaskan indeks glikemik sebesar 57.969378%, sedangkan 42.030622% sisanya dipengaruhi oleh faktor lain. Perhitungan tingkat akurasi dengan menggunakan nilai standard error of estimate pada data training dan data testing dengan nilai sebesar 14.924050 dan 13.470881, sehingga tingkat akurasi yang didapatkan tergolong rendah. Kata kunci : Data Mining, Multiple Linear Regression, Diabetes Melitus, Indeks Glikemik Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 124
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
1.
PENDAHULUAN
Masyarakat masa kini sangat dimanjakan dengan berbagai jenis makanan dan minuman tanpa mengetahui apa yang terkandung didalamnya, dan bisa jadi merupakan salah satu penyebab munculnya penyakit diabetes. Diabetes melitus merupakan salah satu penyakit yang berbahaya dimana Indonesia pada tahun 2012 menempati peringkat ke-7 sebagai negara penyandang diabetes terbanyak berjumlah 7,6 juta jiwa berdasarkan informasi dari International Diabetes Federation (IDF) [1]. Bagi penderita diabetes melitus hendaknya memilih bahan makanan atau pangan dengan memperhatian kandungan gula dan karbohidratnya, karena apabila dikonsumsi berlebihan dapat menaikkan kadar gula dengan cepat [2]. Oleh sebab itu, bagi penderita diabetes maupun orang sehat yang ingin selektif dalam memilih makananya agar terhindar dari penyakit tersebut dapat menerapkan suatu indeks yang dinamakan indeks glikemik. Indeks glikemik menandakan seberapa cepat makanan berkarbohidrat diubah menjadi gula dalam darah, semakin cepat karbohidrat yang diubah menjadi gula dalam darah, maka semakin besar nilai indeks glikemik dan sebaliknya [3]. Beberapa makanan telah memiliki indeks glikemiknya sendiri, namun tidak semua makanan telah diteliti untuk menentukan indeks glikemiknya. Ada beberapa faktor yang mempengaruhi indeks glikemik seperti kadar serat, amilosa dan amilopektin, daya cerna pati, kadar lemak dan protein, serta cara pengolahannya [4]. Selain itu kandungan nutrisi pada makanan seperti vitamin dan mineral mampu memberikan manfaat yang positif bagi penderita diabetes walaupun belum diketahui pengaruhnya terhadap indeks glikemik [5]. Dalam penelitian ini akan mengimplementasikan keilmuan data mining dengan menggunakan algoritma multiple linear regression yang diharapkan mampu mengetahui hubungan kandungan nutrisi pangan dalam menentukan indeks glikemik, serta mampu memprediksi indeks glikemik berdasarkan kandungan nutrisi pangan. Data training yang digunakan berupa Daftar Komposisi Bahan Makanan (DKBM) dari KEMENKES dan USDA, serta daftar indeks glikemik dari jurnal dan internet. Sementara data testing yang digunakan bersumberkan seperti pada data training dengan pembagian data yang berbeda. 2. METODE PENELITIAN Metode penelitian berdasarkan algoritma multiple linear regression dengan diikuti berbagai uji yang ada, yaitu uji asumsi klasik, koefisien korelasi, uji F, uji t, serta menguji tingkat akurasi persamaan multiple linear regression menggunakan standard error of estimate. Dataset digunakan sebagai sumber informasi yang akan diubah menjadi pengetahuan melalui algoritma multiple linear regression, dimana dataset yang digunakan pada penelitian dapat dilihat pada tabel 1. Tabel 1. Informasi dataset penelitian Dataset Sumber DKBM KEMENKES http://gizi.depkes.go.id/downl oad_gizinet DKBM USDA http://www.ars.usda.gov/Serv ices/docs.htm?docid=25700
Jumlah Data 1386 8790
Keterangan Sebagai variabel bebas (X)
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 125
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 1. Lanjutan Informasi dataset penelitian Dataset Daftar indeks 1. glikemik
Sumber Jumlah Data Keterangan Jurnal “Glycemic index and 609 Sebagai variabel glycemic load of tropical tak bebas (Y) fruits and the potential risk for chronic disease” oleh Passos et. al. 2. Jurnal “Glycemic index of commonly consumed carbohydrate foods in the Philippines” oleh Trinidad et. al. 3. http://www.lowgihealth.c om.au 4. http://montignac.com/en /search-for-a-specificglycemic-index/ Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Variabel dataset yang digunakan pada penelitian ini meliputi energi, protein, lemak, karbohidrat, kalsium, fosfor, zat besi, vitamin b1, vitamin c, natrium, kalium, dan air sebagai variabel bebas (X), serta indeks glikemik sebagai variabel tak bebas (Y). Data yang digunakan sebagai sumber pengetahuan untuk digali berupa kandungan nutrisi dan indeks glikemik dari pangan murni berkarbohidrat. 2.1 Data Preprocessing Sebelum menerapkan algoritma multiple linear regression pada data training, terlebih dahulu dataset akan melalui data preprocessing agar menjadi data training yang siap untuk diterapkan dengan algoritma multiple linear regression. Data preprocessing memiliki beberapa tahap yang digunakan pada penelitian ini, seperti data cleaning, data integration dan data selection [6]. 2.1.1 Data Cleaning Data cleaning akan diterapkan untuk membersihkan data yang memiliki nilai null pada variabel-variabel yang diteliti. Pertama, untuk menghilangkan nilai null pada dataset DKBM KEMENKES dengan menerapkan query berikut : DELETE FROM dkbm_kemenkes WHERE ( Nama IS NULL OR Kelompok IS NULL OR Golongan IS NULL OR Energi IS NULL OR Protein_Nabati IS NULL OR Lemak IS NULL OR Karbohidrat IS NULL OR Kalsium IS NULL OR Fosfor IS NULL OR Fe IS NULL OR Vitamin_B1 IS NULL OR Vitamin_C IS NULL OR Natrium IS NULL OR Kalium IS NULL OR Air IS NULL);
Kedua, untuk menghilangkan nilai null pada dataset DKMB USDA dengan menerapkan query berikut:
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 126
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
DELETE FROM dkbm_usda WHERE ( NDB_No IS NULL OR Shrt_Desc IS NULL OR Water_g IS NULL OR Energ_Kcal IS NULL OR Protein_g IS NULL OR Lipid_Tot_g IS NULL OR Carbohydrt_g IS NULL OR Calcium_mg IS NULL OR Phosphorus_mg IS NULL OR Iron_mg IS NULL OR Thiamin_mg IS NULL OR Vit_C_mg IS NULL OR Sodium_mg IS NULL OR Potassium_mg IS NULL);
Setelah kedua query dieksekusi, terdapat 5 data pada DKBM KEMENKES dan 1374 data pada DKBM USDA yang memiliki nilai null, sehingga jumlah data pada DKBM KEMENKES RI dan DKBM USDA berturut-turut sebesar 1381 dan 7416 data. 2.1.2 Data Integration dan Data Selection Data integration pada penelitian ini dilakukan dua kali, yaitu sebelum dan setelah penerapan data selection. Data integration yang pertama diterapkan untuk mengintegrasikan antara dataset DKBM KEMENKES dan dataset DKBM USDA dengan menerapkan query berikut : CREATE TABLE dkbm_gabungan SELECT NULL AS NDB_No, Nama, Kelompok, Golongan, Energi, Protein_Hewani + Protein_Nabati AS Protein, Lemak, Karbohidrat, Kalsium, Fosfor, Fe AS Zat_Besi, Vitamin_A, Vitamin_B1, Vitamin_C, Natrium, Kalium, Kolesterol, Air, Bdd FROM dkbm_kemenkes UNION SELECT NDB_No, Shrt_Desc, NULL, NULL, Energ_Kcal, Protein_g, Lipid_Tot_g, Carbohydrt_g, Calcium_mg, Phosphorus_mg, Iron_mg, Vit_A_RAE, Thiamin_mg, Vit_C_mg, Sodium_mg, Potassium_mg, Cholestrl_mg, Water_g, 100 - Refuse_pct FROM dkbm_usda;
Hasil yang diperoleh setelah query dieksekusi berupa tabel database dengan nama dkbm_gabungan dengan jumlah data sebanyak 8797. Setelah memperoleh tabel dkbm_gabungan, maka diterapkanlah data selection untuk memilih data pangan murni berkarbohidrat berdasarkan kolom kelompok, golongan, dan NDB_No dengan menerapkan query berikut : CREATE TABLE dk_bahan_makanan SELECT Nama, Energi, Protein, Lemak, Karbohidrat, Kalsium, Fosfor, Zat_Besi, Vitamin_B1, Vitamin_C, Natrium, Kalium, Air FROM dkbm_gabungan WHERE ( NDB_No BETWEEN 02001 AND 02076 OR NDB_No BETWEEN 09001 AND 09531 OR NDB_No BETWEEN 11001 AND 11998 OR NDB_No BETWEEN 12001 AND 12738 OR NDB_No BETWEEN 16001 AND 16619 OR NDB_No BETWEEN 20001 AND 20657 OR NDB_No BETWEEN 22118 AND 22126 OR NDB_No BETWEEN 31001 AND 31036 OR NDB_No BETWEEN 42040 AND 93600 OR NDB_No IS NULL) AND (Kelompok = 'Bahan Makanan' OR Kelompok IS NULL) AND ( Golongan = 'Buah-Buahan' OR Golongan = 'Kacang-Kacangan, Biji-Bijian dan Hasil Olahan'OR Golongan = 'Sayuran' OR Golongan = 'Serba-Serbi' OR Golongan = 'Serealia, Umbi, dan Hasil Olahan' OR Golongan IS NULL);
Hasil yang diperoleh setelah query dieksekusi berupa tabel database dengan nama dk_bahan_makanan dengan jumlah data sebanyak 2590.
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 127
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Setelah memperoleh tabel dk_bahan_makanan, maka diterapkanlah data integration selanjutnya untuk mengintegrasikan antara tabel dk_bahan_makanan dan dataset daftar indeks glikemik dengan menerapkan query berikut : CREATE TABLE tbl_indeks_glikemik SELECT dft_ig.Nama, dft_ig.Indeks_Glikemik, dk_bahan_makanan.Energi, dk_bahan_makanan.Protein,dk_bahan_makanan.Lemak,dk_bahan_makanan.Karbo hidrat,dk_bahan_makanan.Kalsium,dk_bahan_makanan.Fosfor,dk_bahan_makan an.Zat_Besi,dk_bahan_makanan.Vitamin_B1,dk_bahan_makanan.Vitamin_C,dk_ bahan_makanan.Natrium, dk_bahan_makanan.Kalium, dk_bahan_makanan.Air FROM dft_ig INNER JOIN dk_bahan_makanan ON dk_bahan_makanan.Nama LIKE CONCAT(dft_ig.Nama,'%') WHERE dft_ig.Pakai = 'V' GROUP BY dft_ig.nama
Hasil yang diperoleh setelah query dieksekusi berupa tabel database dengan nama tbl_indeks_glikemik sebanyak 112 data yang akan digunakan sebagai data training. 3. HASIL DAN PEMBAHASAN 3.1 Multiple Linear Regression Persamaan multiple linear regression didapatkan melalui metode eliminasi Gauss dalam bentuk matriks berdasarkan nilai dari ke-12 variabel bebas (X) dan 1 variabel tak bebas (Y) pada data training. Hasil dari proses eliminasi Gauss didapatkan nilai koefisien regresi yang dapat dilihat pada tabel 2. Tabel 2. Nilai koefisien regresi Koefisien Regresi
Nilai
b0 -57.516452 b1 0.122108 b2 -0.154556 b3 0.144749 b4 1.093404 b5 -0.055760 b6 -0.000625 b7 -0.615468 b8 -14.006705 b9 -0.009271 b10 0.090191 b11 -0.007573 b12 0.855527 Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel di atas didapatkan persamaan multiple linear regression sebagai berikut : Indeks Glikemik = -57.516452 + 0.122108 (Energi) + (-0.154556) (Protein) + 0.144749 (Lemak) + 1.093404 (Karbohidrat) +(-0.055760) (Kalsium) + (0.000625) (Fosfor) + (-0.615468) (Zat Besi) + (-14.006705) (Vitamin B1) + (-
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 128
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
0.009271) (Vitamin C) + 0.090191 (Natrium) + (-0.007573) (Kalium) + 0.855527 (Air) 3.2 Uji Asumsi Klasik Uji asumsi klasik bertujuan sebagai sarana pembuktian bahwa persamaan multiple linear regression yang didapatkan berbentuk linear dan dapat dipergunakan (valid) untuk memprediksikan indeks glikemik. 3.2.1 Uji Normalitas Untuk membuktikan normal atau tidaknya persebaran nilai residual berdasarkan persamaan multiple linear regression melalui uji ini, dapat menggunakan salah satu perhitungan statistik dengan Zskewness dan Zkurtosis. Pembuktian uji normalitas melalui perbandingan nilai Zskewness dan Zkurtosis dengan nilai Ztabel sebesar 1.96 yang didapatkan berdasarkan nilai alpha (α) atau tingkat kepercayaan yang digunakan sebesar 5% (0.05). Hasil uji normalitas berdasarkan nilai Zskewness dan Zkurtosis dapat dilihat pada tabel 3. Tabel 3. Hasil uji normalitas berdasarkan nilai Zskewness dan Zkurtosis Zskewness 4.082044
Zkurtosis 1.972604
Hasil Perbandingan Kesimpulan Zskewness > Zkurtosis > Tidak Ztabel Ztabel Normal Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel di atas, residual memiliki distribusi tidak normal dan perlu dilakukan transformasi data secara statistik dengan melihat bentuk skewness (kecondongan) dari hasil perbandingan Zskewness berupa condong positif dan bentuk kurtosis (keruncingan) dari hasil perbandingan Zkurtosis berupa leptokurtic. Bentuk tersebut mendekati kurva substansial positive skewness dengan transformasi log10(x) untuk semua variabel bebas (X) dan tak bebas (Y) pada data training dengan menerapkan query berikut : CREATE TABLE tbl_ig_sbps LIKE tbl_indeks_glikemik; INSERT INTO tbl_ig_sbps SELECT Nama, LOG10(Indeks_Glikemik+1) AS Indeks_Glikemik, LOG10(Energi+1) AS Energi, LOG10(Protein+1) AS Protein, LOG10(Lemak+1) AS Lemak, LOG10(Karbohidrat+1) AS Karbohidrat, LOG10(Kalsium+1) AS Kalsium, LOG10(Fosfor+1) AS Fosfor, LOG10(Zat_Besi+1) AS Zat_Besi, LOG10(Vitamin_B1+1) AS Vitamin_B1, LOG10(Vitamin_C+1) AS Vitamin_C, LOG10(Natrium+1) AS Natrium, LOG10(Kalium+1) AS Kalium, LOG10(Air+1) AS Air FROM tbl_indeks_glikemik;
Data training dengan bentuk transformasi log10 akan digunakan kembali untuk mengetahui nilai Zskewness dan Zkurtosis, serta membandingkannya dengan Ztabel yang dapat dilihat pada tabel 4.
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 129
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 4. Hasil uji normalitas berdasarkan nilai Zskewness dan Zkurtosis pada hasil transformasi Zskewness 1.762853
Zkurtosis 1.100282
Hasil Perbandingan Kesimpulan -Ztabel < Zskewness -Ztabel < Zkurtosis Normal < Ztabel < Ztabel Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel sebelumnya, residual memiliki distribusi normal, sehingga memiliki bentuk kurva normal dan dapat dikatakan residual dari persamaan multiple linear regression hasil transformasi log10 memiliki distribusi normal. Untuk penerapan uji selanjutnya, data training dengan bentuk transformasi log10 akan menjadi basis pengetahuan baru yang menggantikan data training sebelum diterapkannya transformasi log10. 3.2.2 Uji Heteroskedastisitas Untuk membuktikan terjadi atau tidaknya ketidaksamaan variance dari residual satu pengamatan dengan pengamatan lainnya, dapat menggunakan salah satu perhitungan statistik, yaitu uji Glejser dengan membandingkan nilai signifikan setiap variabel bebas dengan nilai alpha 0.05. Hasil uji heteroskedastisitas berdasarkan nilai signifikan pada uji Glejser dapat dilihat pada tabel 5. Tabel 5. Hasil uji heteroskedastisitas berdasarkan nilai signifikan pada uji Glejser Variabel Bebas Nilai Signifikan Hasil Perbandingan Kesimpulan Energi (X1) 0.868988 Energi (X1) > alpha Semua variabel Protein (X2) 0.052998 Protein (X2) > alpha bebas tidak Lemak (X3) 0.336467 Lemak (X3) > alpha mengalami Karbohidrat (X4) 0.994683 Karbohidrat (X4) > alpha heteroskedastisitas Kalsium (X5) 0.338198 Kalsium (X5) > alpha Fosfor (X6) 0.142862 Fosfor (X6) > alpha Zat Besi (X7) 0.387618 Zat Besi (X7) > alpha Vitamin B1 (X8) 0.663144 Vitamin B1 (X8) > alpha Vitamin C (X9) 0.842432 Vitamin C (X9) > alpha Natrium (X10) 0.999940 Natrium (X10) > alpha Kalium (X11) 0.805953 Kalium (X11) > alpha Air (X12) 0.531992 Air (X12) > alpha Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel di atas, semua nilai signifikan variabel bebas lebih besar dari nilai alpha. Sehingga persamaan multiple linear regression dari data training hasil transformasi tidak mengalami heteroskedastisitas. 3.2.3 Uji Multikolinearitas Untuk membuktikan ada atau tidaknya korelasi antar variabel bebas (X) dapat menggunakan salah satu perhitungan statistik, yaitu variance inflation factor (VIF)
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 130
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
dengan membandingan nilai VIF setiap variabel bebas dengan nilai 10. Hasil uji multikolinearitas berdasarkan nilai VIF dapat dilihat pada tabel 6. Tabel 6. Hasil uji multikolinearitas berdasarkan nilai VIF Variabel Bebas Energi (X1) Protein (X2) Lemak (X3)
Nilai VIF 19.538453 18.114726 6.817362
Hasil Perbandingan Energi (X1) > 10 Protein (X2) > 10 Lemak (X3) < 10
Kesimpulan Mengalami multikolinearitas Mengalami multikolinearitas Tidak mengalami multikolinearitas Karbohidrat (X4) 10.783736 Karbohidrat (X4) > 10 Mengalami multikolinearitas Kalsium (X5) 2.023572 Kalsium (X5) < 10 Tidak mengalami multikolinearitas Fosfor (X6) 10.803853 Fosfor (X6) > 10 Mengalami multikolinearitas Zat Besi (X7) 5.426488 Zat Besi (X7) < 10 Tidak mengalami multikolinearitas Vitamin B1 (X8) 3.020878 Vitamin B1 (X8) < 10 Tidak mengalami multikolinearitas Vitamin C (X9) 2.126136 Vitamin C (X9) < 10 Tidak mengalami multikolinearitas Natrium (X10) 2.252243 Natrium (X10) < 10 Tidak mengalami multikolinearitas Kalium (X11) 1.825638 Kalium (X11) < 10 Tidak mengalami multikolinearitas Air (X12) 13.571749 Air (X12) > 10 Mengalami multikolinearitas Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel di atas, terdapat 5 variabel bebas yang memiliki nilai VIF lebih besar dari 10, sehingga mengalami multikolinearitas. Variabel-variabel yang mengalami masalah multikolinearitas pada penelitian ini tetap digunakan, namun perlu diketahui bahwa variabel-variabel tersebut akan berkorelasi dengan variabel bebas lainnya di dalam persamaan multiple linear regression ketika digunakan untuk mengetahui nilai variabel tak bebas (Y). 3.2.4 Persamaan Multiple Linear Regression Berdasarkan Uji Asumsi Klasik Persamaan multiple linear regression kembali dibangun berdasarkan data training hasil transformasi log10, sehingga menjadi persamaan multiple linear regression sebagai berikut : Indeks Glikemik = 0.482088 + 0.463087 (Energi) + (-0.057868) (Protein) + (0.104075) (Lemak) + 0.137528 (Karbohidrat) + (-0.172422) (Kalsium) + 0.090329 (Fosfor) + (-0.466676) (Zat Besi) + (-0.189487) (Vitamin B1) + (-0.106060) (Vitamin C) + 0.073058 (Natrium) + (-0.018892) (Kalium) + 0.202224 (Air)
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 131
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
3.3 Koefisien Korelasi Koefisien Korelasi bertujuan untuk melihat seberapa besar kekuatan dan arah hubungan yang dibangun antara setiap variabel bebas (Xi) maupun antara semua variabel bebas (X) terhadap variabel tak bebas (Y). 3.3.1 Koefisien Korelasi Parsial (r) Koefisien korelasi parsial (r) bertujuan untuk melihat seberapa besar hubungan setiap variabel bebas (Xi) dengan variabel tak bebas (Y). Hubungan kuat atau lemah yang dibangun antara setiap variabel bebas dengan variabel tak bebas dapat dilihat pada tabel 7. Tabel 7. Hasil koefisien korelasi parsial (r) Variabel Bebas Nilai r Arah Korelasi Korelasi Energi (X1) 0,240516 Searah Sangat lemah Protein (X2) -0,050486 Berlawanan Sangat lemah Lemak (X3) -0,129079 Berlawanan Sangat lemah Karbohidrat (X4) 0,371155 Searah Cukup kuat Kalsium (X5) -0,427740 Berlawanan Cukup kuat Fosfor (X6) -0,037092 Berlawanan Sangat lemah Zat Besi (X7) -0,216204 Berlawanan Sangat lemah Vitamin B1 (X8) 0,003984 Searah Sangat lemah Vitamin C (X9) -0,240028 Berlawanan Sangat lemah Natrium (X10) -0,082460 Berlawanan Sangat lemah Kalium (X11) -0,010816 Berlawanan Sangat lemah Air (X12) -0,040311 Berlawanan Sangat lemah Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel di atas, terdapat 2 variabel bebas yang memiliki korelasi parsial cukup kuat, yaitu Karbohidrat (X4) dengan arah korelasi searah dan Kalsium (X5) dengan arah berlawanan, sedangkan variabel lainnya tergolong sangat lemah dengan arah korelasi yang berbeda-beda. 3.3.2 Koefisien Korelasi Ganda (R) Koefisien korelasi ganda (R) bertujuan untuk melihat seberapa besar hubungan seluruh variabel bebas (X) secara bersamaan dengan variabel tak bebas (Y). Hubungan kuat atau lemah yang dibangun antara variabel bebas energi (X1) hingga air (X12) secara bersamaan dengan variabel tak bebas dapat dilihat berdasarkan koefisien korelasi ganda pada data training hasil transformasi sebesar 0.761376. Dari hasil yang didapat, korelasi semua variabel bebas (X) terhadap variabel tak bebas (Y) tergolong korelasi yang sangat kuat. 3.3.3 Koefisien Determinasi (R2) Koefisien korelasi determinasi (R2) bertujuan untuk mengetahui seberapa besar kontribusi seluruh variabel bebas (X) dalam menerangkan variabel tak bebas (Y). Kontribusi variabel bebas energi (X1) hingga air (X12) dalam Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 132
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
menerangkan variabel tak bebas (Y) dapat dilihat berdasarkan nilai koefisien determinasi pada data training hasil transformasi sebesar 57.969378%. Namun, nilai yang tersisa sebesar 42.030622% menandakan adanya kontribusi di luar variabel-variabel bebas yang digunakan atau berbagai faktor lainnya dalam menerangkan variabel tak bebas. 3.4 Uji F Uji F bertujuan untuk mengetahui apakah seluruh variabel bebas (X) secara bersamaan berpengaruh signifikan terhadap variabel tak bebas (Y). Pembuktian uji F dalam mengambil keputusan dapat dilihat pada tabel 8. Tabel 8. Kriteria Pengambilan Keputusan Uji F Hipotesis Hasil Perbandingan Kesimpulan Hipotesis awal (H0) : Persamaan Fhitung ≤ Ftabel Diterima H0 dan ditolak multiple linear regression tidak H1 memiliki hubungan linier atau Fhitung > Ftabel Diterima H1 dan ditolak pengaruh secara signifikan antara H0 semua variabel bebas (X) terhadap variabel tak bebas (Y). Hipotesis alternatif (H1) : Persamaan multiple linear regression memiliki hubungan linier atau pengaruh secara signifikan antara semua variabel bebas (X) terhadap variabel tak bebas (Y). Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Dengan nilai Ftabel sebesar 1.851 yang didapatkan melalui tabel distribusi F berdasarkan nilai alpha (0.05), dk pembilang berupa banyaknya jumlah variabel bebas yaitu 12, dan dk penyebut adalah n-k-1 yaitu 99, serta nilai Fhitung pada data training hasil transformasi sebesar 11.378546. Maka dapat diambil keputusan diterima H1 dan ditolak H0. 3.5 Uji t Uji t bertujuan untuk mengetahui apakah setiap variabel bebas (Xi) berpengaruh signifikan terhadap variabel tak bebas (Y). Pembuktian uji t dalam mengambil keputusan dapat dilihat pada tabel 9.
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 133
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 9. Kriteria Pengambilan Keputusan Uji t Hipotesis Hasil Perbandingan Kesimpulan Hipotesis awal (H0) : Tidak terdapat -ttabel ≤ thitung ≤ ttabel Diterima H0 dan ditolak pengaruh yang signifikan antara H1 variabel bebas (Xi) dengan variabel thitung > ttabel atau Diterima H1 dan ditolak tak bebas (Y). thitung< -ttabel H0 Hipotesis alternatif (H1) : Terdapat pengaruh yang signifikan antara variabel bebas (Xi) dengan variabel tak bebas (Y). Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Dengan nilai ttabel sebesar 1.984 yang didapatkan melalui tabel distribusi t berdasarkan nilai alpha (0.05), dan derajat kebebasan adalah n-k-1 yaitu 99. Maka dapat diambil keputusan berdasarkan thitung seperti pada tabel 10. Tabel 10. Hasil uji t berdasarkan nilai thitung Variabel Bebas
thitung
Arah Pengaruh
Hipotesis yang Diterima Energi (X1) 2,786112 Searah H1 Protein (X2) -0,340340 Berlawanan H0 Lemak (X3) -0,989891 Berlawanan H0 Karbohidrat (X4) 0,954287 Searah H0 Kalsium (X5) -3,418372 Berlawanan H1 Fosfor (X6) 0,833838 Searah H0 Zat Besi (X7) -3,538804 Berlawanan H1 Vitamin B1 (X8) -0,551181 Berlawanan H0 Vitamin C (X9) -2,900627 Berlawanan H1 Natrium (X10) 1,801583 Searah H0 Kalium (X11) -0,906306 Berlawanan H0 Air (X12) 1,329073 Searah H0 Sumber : Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan. 2017
Berdasarkan tabel di atas, terdapat 4 variabel bebas yang menandakan adanya pengaruh signifikan terhadap variabel indeks glikemik (Y), yaitu variabel energi (X1) dengan arah pengaruh searah, variabel kalsium (X5) dengan arah pengaruh berlawanan, variabel zat besi (X7) dengan arah pengaruh berlawanan, dan variabel vitamin c (X9) dengan arah pengaruh berlawanan. Sedangkan variabel lainnya menandakan tidak adanya pengaruh signifikan dengan arah pengaruh yang berbeda-beda. 3.6 Tingkat Akurasi Pengujian tingkat akurasi menggunakan Standard Error of Estimate (SEE) atau kesalahan baku peramalan bertujuan untuk mengetahui seberapa besar ketepatan persamaan yang didapatkan dalam memperkirakan suatu nilai dengan nilai sebenarnya. SEE dapat dilihat berdasarkan nilai dari data training hasil Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 134
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
transformasi sebesar 14.924050, yang menandakan banyaknya kesalahan ketika memprediksi atau memperkirakan nilai indeks glikemik dari persamaan multiple linear regression. Dengan demikian tingkat akurasi dalam memprediksi indeks glikemik tergolong rendah. Pengujian tingkat akurasi menggunakan SEE juga dilakukan terhadap data testing sebanyak 39 data untuk mengetahui seberapa besar ketepatan perkiraan yang didapatkan berdasarkan data testing. Berdasarkan nilai SEE yang didapatkan pada data testing sebesar 13.470881, maka tingkat akurasi yang didapatkan juga tergolong rendah. 4. SIMPULAN Dari penelitian yang telah dilakukan, maka dapat diambil kesimpulan sebagai berikut : a. Hubungan setiap kandungan nutrisi dalam menentukan indeks glikemik tergolong sangat lemah. Namun, kandungan kalsium memiliki hubungan terbalik dan cukup kuat serta pengaruh signifikan terhadap indeks glikemik secara parsial tanpa ada keterkaitan dengan kandungan nutrisi lainnya berdasarkan nilai korelasi parsial (r) sebesar -0,427740 dan nilai thitung sebesar -3,418372. Sedangkan hubungan semua kandungan nutrisi secara bersamaan dalam mempengaruhi indeks glikemik terbilang sangat kuat dan signifikan dengan nilai korelasi ganda (R) sebesar 0,761376 dan nilai F hitung sebesar 11,378546. Kemampuan ke-12 kandungan nutrisi dalam mempengaruhi nilai indeks glikemik sebesar 57,969378%, sedangkan sisanya sebesar 42,030622% dipengaruhi oleh kandungan nutrisi atau faktor lainnya di luar dari lingkupan penelitian. b. Tingkat akurasi berdasarkan nilai standard error of estimate atau kesalahan prediksi yang diterapkan pada data training dan data testing tergolong tinggi dengan nilai berturut-turut sebesar 14,924050 dan 13,470881. Sehingga akurasi prediksi yang dihasilkan tergolong rendah. DAFTAR PUSTAKA [1] [2] [3] [4]
[5]
International Diabetes Federation. (2016, April 09). “IDF Diabetes Atlas Update”. Diperoleh dari http://www.idf.org/diabetesatlas/previouseditions Fitriana, R., & Rachmawati, S. (2016). “Cara Ampuh Tumpas Diabetes”. Yogyakarta: MEDIKA. Na’imah, A. (2013). “Indeks Glikemik Beberapa Variasi Sajian Mi Instan”. Jakarta: Universitas Islam Negeri Syarif dan Hidayatullah. Diperoleh dari http://repository.uinjkt.ac.id Arif, A., & Budiyanto, A. (2013). “Nilai Indeks Glikemik Produk Pangan dan Faktor-Faktor yang Memengaruhinya”. Jurnal Penelitian dan Pengembangan Pertanian, 32(3), 91-99. doi: 10.21082/JP3.V32N3.2013.P9199 Paruntu, O. L. (2012). “Asupan Gizi dengan Pengendalian Diabetes pada Diabetes Tipe II Rawat Jalan di BLU Prof. DR. R. D. Kandou Manado”. GIZIDO - Jurnal Ilmiah Gizi, 04(1), 327-337. Diperoleh dari http://ejurnal.poltekkesmanado.ac.id
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 135
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
[6] [7] [8]
Han, J., & Kamber, M. (2012). “Data Mining Concepts Techniques, 3rd Edition”. Waltham: Morgana Kaufmann. Ghozali, I. (2016). “Aplikasi Analisis Multivariate dengan Program IBM SPSS 23”. Semarang: BP Universitas Diponegoro. Ilyas. (2017). “Aplikasi Data Mining Menggunakan Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik Berdasarkan Kandungan Nutrisi Pangan”. Banjarbaru: Universitas Lambung Mangkurat.
Implementasi Algoritma Multiple Linear Regression Untuk Memprediksi Indeks Glikemik (Ilyas) | 136