SN T KT III
=; 9
Seminar :'\asiollai Tek u ologi KomputeT dan Telekonnmik a s! ----------------------~--~~--------------~~------------~.-.-----------
PENERAPAN DATA MINING UNTUK MENEMUKAN POLA ANTARA NILAIUJIAN SARINGAN MASUK TERHADAPINDEKS PRESTASI
, iF ~
Yugi Trianto Purba\ Sunjana l
ABSTRAK ~
==
Makalah ini membahas pemanfaatan dala mining dalam menggali dan menemukan" hubungan antara nilai ujian saringan masuk calon mahasiswa dengan indek prestasi yang diperoleh mahasiswa le7"sebut. Melode yang digunakan dalam menggali pola tersebul adalah model regresi linier. Kala kunci : Data Mining, Regresi Linier I.
PENDAHULUAN Pesatnya perkembangan teknologi informasi dewasa ini khususnya dalam aplikasi-aplikasi database yang diiringi dengan meningkatnya kapabilitas media penyimpanan yang semakin besar telah memungkinkan terjadinya akumulasi data dalam jumlah besar. Komputerisasi diberbagai bidang dan penggunaan iJ1ternet sebagai sarana sistem informasi global secara signifikan juga turut berperan dalam terjadinya akumulas i data dan informasi tersebut. Pertumbuhan yang begitu pesat dari akumulasi data yang tersimpan dalam suatu database akan menciptakan suatu kondisi "rich of data bUI poor of informalion " dan data yang tersimpan akan menjadi kuburan data apabila tumpukan data tersebut dibiarkan begitu saja sehingga tidak dapat digunakan untuk aplikasi yang berguna. Didalam tumpukan data tersebut mungkin terdapat informasi-infomlasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan yang dapat dUadikan dasar atau pedoman dalam pengambilan keputusan. Keputusan sering sekali dibuat tidak berdasarkan pada data-data yang ada yang tersimpan dalam tumpukan data tersebut melainkan hanya didasarkan intuisi sang pembuat keputusan. Hal ini dikarenakan tidak adanya sistem atau perangkat lunak yang dapat membantu dalam pencarian informasi yang tepat, cepat dan akurat, dilain pihak penggalian data untuk mendapatkan informasi yang dilakukan secara manual sangatlah tidak efektif dan memakan banyak waktu . Universitas X merupakan salah satu organisasi yang bergerak dalam bidang pendidikan yang memanfaatkan teknologi informasi dalam menjalankan proses bisnisnya. Dengan adanya pemanfaatan teknologi infonnasi di Universitas X maka akan terjadi akumulasi data dalam jumlah besar tiap tahunnya. Salah satu data yang mengalami peningkatan tiap tahunnya yaitu data nilai Ujian Saringan Masuk (USM) mahasiswa baru . Semakin lama data nilai USM ini akan menjadi kuburan data yang tidak memiliki suatu nilai maupun infonnasi yang dihasilkan dari data tersebut. Oleh karena itu diperlukan suatu teknik dan pe-rangkat yang dapat membantu kita dalam mentransformasikan data dalam jumlah besar tersebut menjadi suatu informasi yang berguna yaitu dengan penerapan Dala Mining yang diaplikasikan dengan pembuatan perangkat lunak data mining atau data mining engine. 'Uni versitas Widyata ma 13alldung email sUlli .. n\l®.~a lamaac . td
276
F II•
.
=
== = =
, S;
Berdasarkan latar belakang masalah terscbut penults tertarik untuk meneltti bldang ini dengan rnengambil judul "Penerapan Data l~finillg Untuk lVlenemukan PoIa Antara NiIai Ujian Sal'jngan Masuk (USM) Terbadap Indeks Prestasi (IP)".
II. LANDASAl'\f TEOR! 11.1 Pcnge.-tian Data Mkining Data Mining rnerupakan salah satu cabang ilmu kornputer yang relatif baruyang memilikl keterkaitan dengan machine learning, kecerdasan buatan (artificial intelligence), statistic dan da/abase. Data Mining mengacu kepada ekstraksi atau penggalian pengetahuan dari suatu data dalarn jumlah besar. Ada banyak pengertian data mining itu senditi, diantaranya seperti penggalian pengetahuan dari database, ekstraksi pengetahuan (knowledge extraction), analisis data atau pola (pattern analysis), penggaltan data dan lain sebagainya. Definisi umum dari data mining itu sendiri adalah proses pencatian polapola yang menarik (hidden patenl) berupa pengetahuan (knowledge) yang tldak diketahui sebelumnya dari suatu kumpulan data dimana data tersebut dapat berada dalarn database, data warehouse , atau media penyimpanan informasl yang lain. Data mining seringkali diartikan dengan "menulis banyak laporan dan query", namun pada faktanya kegiatan data mining tidak rnelakukan pembuatan iaporan dan query sarna sekah. Data mining dilakukan dengan tool khusus, yang mengeksekusl operasi data mining yang telah didefinisikan berdasarkan model analisis. Data mining merupakan proses 311alisls terhadap data dengan penekanan menernukan informasi yang tersembllnYI pada se.1umlah besar data yang dlsimpan ketika menJalankan bisnis perusahaan. Dalam aplikasinya, data mining sebenarnya merllpakan bagian dari proses Knowledge Discovery in Database atau KDD, bukan sebagai teknologl yang utuh dan berdiri sendiri Data mining mempakan suatu bagian langkah yang pent1l1g dalam proses KDD terutama berkaitan dengan ekstraksi dan penghitungan polapola dari data yang ditelaah, seperti ditunjukkan oleh gambar 2. 1, langkah langkah atau proses KDD itu sendlri terdiri dari : 1. Pembersihan data (Data cleaning), rnembuan g nOise dan data yang tidak konsisten 2 lntegrasi data (Data integration), menggabungan data yang berasal dari beberapa sumber 3. Pemilihan data (Dara selection), memilih data yang relevan atau sesuai dengan proses anilisls yang akan dilakukan. 4 Transformasi data (Data tran ,~ronJ1ation) , mengubah data menjadi bentuk yang sesuai untuk proses data mining. s. Penggailan data (Data mining), merupakan proses terpenting dimana teknik data mining dlaplikasikan untuk mengekstraksi pola-pola dari suatu data 6 E valuasi pola (Pattern evaLuation), evaluasi pota yang dltemukan untuk menemukan pola yang bernilai atau menarik. 7 . Presentasi pengetahuan (Knowledge presel1latition), visual isasi dan teknlk represe ntasi pengetahuan digunakan untuk diperlihatkan kepada pengguna atau user. Tahap-tahap tersebut bersifat interaktif dlmana pengguna atau user terlibat langsung atau dengan perantaraan basis pengetahuan (h71011ledge base) yang terintegrasi dida la m Sistelll. Pola pola yang rnenarik di saj ikan kepada pengguna dan di s impan sebagai pengetahuan baru didalam basis pengetahuan . Dari tahapan diatas dapat diketahui bahvva data mining hanya merupakan satl! bagain lan gkah dan keseluruhan proses KDD
277
SNT TT III
-
Seminar .\"a<;iollaI Te-k1l01ogi Kompu!eT dan
T~lekomun i
';:;-I si
Gambar 2.1 Langkah-langkah Proses KDD
11.2 Teknik Data Mining Dari definisi data mining yang luas, terdapat ban yak jenis teknik analisa yang dapat digolongkan dalam data mining. Dalam penelitian ini teknik analisa yang digunakan yaitu teknik regresi linier.
11.2.1 Regresi Linier. Analisis regresi adalah teknik statistik untuk pemodelan dan investigasi hubungan dua atau lebih variabel. Yang sering dipakai dan paling sederhana adalah regresi linier sederhana. Dalam analisis regresi ada satu atau lebih variabel independentlprediktor yang biasa diwakili dengan notasi x dan satu variabel respon yang diwakili dengan notasi y. Sesuai namanya, hubungan antara duavariabel yang bersifat linier. Gambar 2.4 dan gambar 2.5 memberi ilustrasi bagaimana hubungan dua variabel iill bersifat linier dan tidak linier. Gambar 2.4 menunjukkan hubungan linier dua variabel. Garis regresi linier akan sangat sesuai untuk mewakili hubungan dua variabel seperti ini. Gambar 2.5 menunjukkan hubungan tidak linier antara dua variabel. Pendekatan regresi linier kurang sesuai untuk mewaki Ii hubungan dua variabel seperti gambar 2.4 ini. Dalam regresi linier sederhana hanya ada satu variabel independentlprediktor dan satu variabel respon. Jika variabel independen-nya x dan variabel re!>pon adalah y maka model regresi linier sederhana untuk populasi adalah :
~
:1
e; . 11 !
;ill
F cJ
r
;J
c
=
,=
=
r-----------~====~----~
[A30+P1 X i-{
y N
Untuk,
Nlla; p·e6ks y Un·.ukx,
14-----.
1 j
•
•~~:1
"f<
I+-_ _~/"" /~
I
~
~
•
,-
an do:'" Euor
urIUk n~, xini
:=
': ;1
x
Gambar 2.2 Geometri garis regresi linier
278
i=
==
==
Prediksi nilai dengan pendekatan regresi linter s ederhana , dl dapatkan dan rumus dibawah ini • \ , "=
b!!
+bl ,t
Koefi s ien-koefisien regresi bo dan bl untuk regresi linier, dihitung dengan rumus •
II.2.2 Bel'bagai Val'ians Sehubungan Deugan Regrcsi Liniel' Sederhana Untuk analtsis selanjutnya tentang regresi linier sederhana beberapa asumsi harus diambil. Peliama , mengingat has il pengamatan vanabel tak bebas y belum tentu sama besamya dengan harga diharapkan , yakni y yang didapat dari regresi hasil pengamatan, maka terjadi perbedaan e -~ y - Y , biasa disebut kekeliruan prediksi awu galat prediksi (Error). Dalam populasi, galat predlksi iOl dimisalkan berbentuk variabel acak yang m engiklltl dlstribusi normal dengan rata rata nol dan varians v .~ . Tenlu saJa sudal) Jelas balnva kita Juga memisalkan tidak terJ3di kekellrua n
ata s pe ngamatan vanabel bebas x.
Asumsi kedua yang dia mbil adalah bahwa untuk setiap harga x yang diberikan, variabe l tak bebas
y independen dan berdistribusi normal dengan rata rata (8 1+ 82x) dan varians
CT:. x .
Va rians a;2:.:
ditnisalkan sama untuk setia p x dan karenanya dapat dinyatakan oleb a ,2yang biasa pula dinatnakan varians kekeliruan taks iran s edan g kan a~\ dikenal dengan kekeliruan baku taks iran Berpegang kepada asumsi-a'3 umsi diatas , m aka varians
a; ditaksir oleh rata-rata kuadrat
penyimpangan sekita r regresi atau di sebut JUga rata -rata kuadrat residu , dinyatakan oleb varian s JYfean ,Square Error (MSE) dengan rumlls SSE
." 1S1~
.SSL :=
1' f -
\l
;,s ,.
'" ss=
s\. -
s ~'
b, S ~
Dengan SSE yaitu Jumlah kuadrat resldu atau ""'lIl1J oj'Sqllare .lor Error (SSE) , SSy ya itu Jutnlah kuadrat reg resi y, SSxy yaitu jumlah kuadrat XJ) dan n yaitu ukuran sampeJ
n.2.3 lnteTval KepeJ'cayaan Sehubullgan Dengan Regl'csi Linier
279
SNTf(T III
Semillal' :'\asiOllal
T ~ kuo!ogi.
Komputer dan Telekomunik as i
Kita lihat bahwa regresi linier populas! telah ditaksir oleh regresi linier sampel y == bo + b1x dengan koefisien-koefi s ien bO dan bl. jadi nampak bahwa bO dan bl masing-masing merupakan titik taksiran untuk ~o dan ~ l. maka berbagai interval taksiran sehubungan dengan regresi linier, termasuk untuk BO dan 0[ dapat ditentukan.
A ( I-u) I nl)(;;, inlt·"'"l I:epcrc"ya
s(b ) '" -
---
---
,
. ' , "iSS.
rI.2.4 Uji Signifikan Dan Tabel Analysis of Variance (ANOVA) Pada sub-bab ini akan dibahas tentang melakukan kriteria uji signifikan dengan menghitung Fhitung dan membandingkan hasilnya dengan hasil perhitungan Ftabel. Berikut rumus mencari Fhitung: F
= MSR
" (1.,,,2. _
,MSE
Mean Square Regression (MSR) atau rata:-rata kuadrat regresi, dengan rumus :
Mi~R=SiR
dall
SSR
=- b.S.sxj-'
Setelah ditemukan hasil dari Fhitung maka selanjutnya kita melaukan uji signifikan dengan membandingkan Fhitung dengan Ftabel , berikut kaidah pengujian signifikan : '
, Jika Fhitung ? Ftabel, maka tolak HO (Signifikan) Jika Fhitung:'S FtabeJ, maka tolak Ha (Tidak Signifikan) Setelah kita menghitung seluruh perhitungan yang ada di proses regresi, maka kita tinggal menyusunnya dalam tabel analysis ofvariance (ANOYA). Berikut skema dari tabel ANOY A, Source-o" " Variation
Di!grcssof Freedom
,SUm ofSquarcs
, is.~)
OW)
Me-dn Sqllare~'IS)
:lISH
SSR = L', S'S •.
= SSR I
SSE= <;'S·. -1>,5) ..
Jl - :
MSL
= SSE 1:-
SST = 55,'
11,1
Tabel 2.[ Tabel ANOYA pada Regresi
.2
,
. ~
--
--
-
-
=
-...
(
II.2.S Korelasi Pearson 280
Korelasl merupakan suatu hubungan antara satu variabel dengan variabel lall1n ya. Hubungan an tara variabel tersebut bisa seeara kOlelas LOnal dan bisa juga seeara kama! Jika hubungan tersebut tidak menunjukkan sifat sebab akibat, ' maka korelasi tersebut dikatakan korelasional, artinya sifat hubungan variabel satu dengan varia bel la1t1l1ya tidak jelas mana variabel sebab dan mana variabel akibat Sebaliknya, JIb hubun gan tersebut menunjukkan slfat sebab akibat, maka korelasinya dikatakan kausal, artinya jlka variabel yang satu merupakan sebab, maka variabel lainnya merupakan akibat Korelasi Pearson adalah korelasi yang sering digunakan oleh peneiiti, terutama peneliti yang mempunyai data-data interval. Sebeillm kita mempergunakan korelasi ini terleblh dahulu kita harus memperhatikan data yang terkumpul, apakah memenuhi persyaratan yang diminta oleh rumus korelasi ini Adapun beberapa persyaratan yang harus dipenuhi apabila kita menggunakan rumus ini adalah • L Pengambilan sampel dari populasi hams random Caeak) 2 . Data yang dieari korelasinya harus berskala interval atall ratio. 3 Variasi skor kedua variabel yang akan dieari korelasinya harus sarna. 4. Distribusi skor variabel yang dleari korelasinya hendaknya merupakan distribusl unimodal 5. Hubungan antara variabel x dany hendaknya tinier. Korelasi Pearson dapat dihltung dengan rumus dibawah ini •
.
;l~.\ ;··-> \ '~'"
.
r .: ;:. ~====-======
. ~~=="===-~ \ ,'i! ,," .\
~
-;- 1"\ \ ):
J I! ~
\: -:f;;': 'I-
Atau .t ·
=
~ S$xs s \'
1[,2.6 Pengujian Signifilwnsi KOl'elasi Langkah awal dalam pengujian disini Juga menyusun hipotesis nol dan hlpotesis alternatif Baru kemlldian hasil r hitung kita bandingkan dengan hasil r tabel dari tabel r Pearson Apabila kita menggunakan tabel r Pearson, rnaka hlpotesls nol yang rnengatakan tidak ada korelasi (r =:: 0) ditolak jika hasil perhitungan r > dari pada r tabel, demikian pula sebaliknya apabda r hitung ternyata lebih keeil < dari pada r tabel, maka kita akan menerima Ho yang menyatakan bahwa dua variabel yang dieari hitungannya ll yata-nyata tldak berkorelasi . Untuk lebih jelasnya blsa kita lihat kriteria signifikan sebagai beflkut • Jika rhitung 2: rtabel maka Ho ada didaerah penolakan, berarti Ha diteflma artinya antara varia bel x dan y ada hubungannya • Jika rhltung :S liabel maka Ho ada didaerah penerimaan, berarti Ha dltolak artl11ya an tara variabel x dan y tldak hubungannya II.2.7 Analisis Koefisien Determinasi Analisis koefislen determinasl adalah menunjukkan seberapa besar pengaruh an tar kedua variabel yang diteliti, maka dihitung Koefislen Determmasl(KD) dengan asumsi dasar f(1ktor faktor la in diluar variabel dianggap tetap atau konstan , koefisien diantara laill -l :s. r 2: +-, ,
281
SNTKT III Semluar .\" asional T e-knologi
Kompuf~r
dan T ~lekomullikasi
tanda (-) bedawanan arah, sedangkan tanda (+) menunjukkan searah. Selanjutnya untuk mengetahui seberapa besar faktor yang berperan antara variabel x terhadap variabe! y, maka hubungan atau pengaruh dihitung koefisien determinasinya dengan rumus :
', " , ~. . :" >.!\'loo%
.
KEJ·~ r'~
III. HASIL PENELITIAN Pada penelitian ini data yang diuji adalah sebanyak 1637 record. Penelitian dilakukan dua tahap, pertama pengujian terhadap data sampel. Data sampel merupakan tabel yang terdiri dan beberapa recordltupel hasil sampling dari tabel populasi, metode sampiing yang digunakan adalah systematic sampling. Systematic sampling kadang disebut juga dengan interval sampling yang berarti terdapat gap atau celah diantara data yang diambiL Metode ini biasanya digunakan dalam industri. Kelebihan dari metode ini adalah sangat sederhana dalam memilih sampel yang dipilih secara acak dan sebaran datanya sangatlah bagus karena menyebar secara menyeluruh dari awaI sampai akhir data Tahap kedua adalah pengujian terhadap data populasi sebanyak 1637 record. Hasil yang diperoleh baik terhadap data sampel maupun data populasi adalah sebagai berikut: Il(i ' . ' , b;. ' '.rhilut;. KI> 16,61
35 .-15312
0.' 1-'.\ 5
0-107(>6
1)(
s·
.. (~,i
," !{hl I
89
1829i.l.Q
7.02] ~
0. 169 -"7 1
~>
-.
I ahel .\ ., 0\ . \
$V
.' SS '
Fntrlo '
Error ' ~~7{)R,11
-•
41
Tabe1 3.l Tabel HasiI Perhitungan Data Sampel
7.87S{··
4154291167
0.50061 791 S
·or
's
, s(l)o) .
17.796.27122
1.77426S7J2
"' sv . '
SS
MS
'
Error Towi
'Frafio '
-' 16,707261,14. 56206',61
16.'1)
Tabel 3.2 Tabel Hasil Perhitungan Data Populasi
I;::
Ie::: 282
-. - - - -
-
...
_'iii_;o;;;;;;;;;;;_iiiiiiii"~ ~ · '" ;;0 , ~~iiiiii"iP5·".= "'_;:;;n~"",;;:,,_~,",-'.:;;o;,;;;:a;:.,,; , ... , ;:;,.-;;;;;;;Oiiiii&miiiiiiiiiiiiiiiii....._~_~1iiii,. "';:;;-;;;2"'"~.'
i'i' :
S i? n 'Ill.U
.'\- "( '; in, _~j
[( :... .:1 0
lc.;!.t
~. t' ' I. tJ/..I '" d
K(· ; i.j Il~ ,. tjl-::t 'l
t-=hilU".~ ":: rl ~! "l' ( -, . ' . I . :.
'.~
•
i
E I
. . . i~ninj,;·'n_
11I J J..::'-l
1 (~L;7k.~H.,.'-·\-:-,I--: ,ll------1
~..:·~H(l.~;.: :-) l1 irkl l('~. j ~. :. \ \\.' ~d .;
CbJl'l.'n,f: :...- C, _.C_: I_ I1Lfk. l I n ! ~ IL
St..'~ i)lIl.~ _:":- :
E
:,
H ...·· ~i \ ~.t1J
...
Hd
~
i!.lldnk.::.tlI .
1 11ipPI.:':-<:'.I .f. H \v ~ d I H ~· j.1 t'j~"'; 1 ,II( :;-'( "j n );- I
. dritullt!' .
K V£ ll s'kn ,t .~( I<TI11 i ti n ,,; d~n l
\ ", l-Ld):.'1
,
t
nfldl trS f\ f
~
r, ' i'11:t .. I:q'
~.
:':l(L ,h l:t
..
f flll':'lL If-'\ !<~tt\l ':--0 t 'I,.';..: r 2S.2l « .
Tabel 33 Tabe l Keslmpulan Dari Data Sampel K(-siJlJ pub n .'-
,.
r---------~+_------~-----
Kl.Til li l nHuhun~an ' L'UiU Ui-J i.
----r-:r,-·l ,-··r-ll-.u-,l-l-l-,,-r,'L ' ) kfl l,r. < (:;\lill' . ·l · i. I:\ ,tI,,, , l 'l l ;:~ . l -.1 1l , .
0 .' 1\ -:,Ill I . h:: ) .J"; :;o n h ",,- Ir~H1 '.'-',!'[, Ji '.(' 1 ,
I L I . .li
\,,'
·)J',llll \
U S lv l i krll:...t:c r '::'(1 :1h(·1
Tabe l 34 Tabel Kesimpulan Dari Data PopuJ as i
28 3
"I n".
,·1
SNTKT III
Semill-ar
~ asiOllal
T ekuologi Komputer dan T elen: oltwuikasi
IV.KESIMPULAN Dari hasil yang diperoleh terlihat bahwa : 1. Untuk data sampel diperoleh korelasi sebesar 0,40766, menu rut tafsiran kriteria Guilford, maka nilai USM terhadap IP memiliki hubungan yang cukup. 2. Sedangkan untuk data populasi diperoleh korelasi sebesar 0,280, menurut tafsiran kriteria Guilford, maka nil?i USM terhadap IP memiliki hubungan yang sangat kecil (tidak erat).
DAFTAR PUSTAKA
[l] Aczel, Amir dan Jayavel Sounderpandian. Complete Business Statistics, Sixlh Edition. Singapore: Me Graw Hill, 2006. [2] Fajar, Abdullah, dan Guntari Sekarwangi. Modul PrakJikum Stalistika Dasar. Jurusan Teknik lnformatika Universiitas Widyatama, 2004. [3] Irianto, Agus. Slatistik Konsep Dasar dan Aplikasinya. Jakarta: Pranada Media, 2004. [4] Jaenudin. Belajar Sendiri .Net dengan Visual C# 2005. Yogyakarta:ANDI, 2005. [5] Martina, lnge. 36 Jam Belajar Komputer Microsoft SQL Server 2000. Jakarta: Elex Media Komputindo, 2002 . [6] Riduwan. Dasar-dasar StatisliM. Bandung: Alfabeta, 2003 [7] Santosa, Budi. Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis Teori dan Aplikasi. Yogyakarta: Graha Hmu, 2007. [8] Santosa, Budi. Data Mining Terapan dengan MATLAB. Yogyakarta:Graha lImu, 2007. [9] Walpole, Ronald. Pengantar Statistika Edisi ke-3. Jakarta: GramediaPustaka Utama, 1992.
e ::: p
•
f
:
==
==
c:
284
c=
I::