JETri, Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
SIMULASI IDENTIFIKASI DAERAH CODING PADA DEOXYRIBONUCLEIC ACID DENGAN MENGGUNAKAN DISCRETE FOURIER TRANSFORM Suhartati Agoes & Suryadi* Dosen Jurusan Teknik Elektro-FTI, Universitas Trisakti Abstract Deoxyribonucleic acid (DNA) is a genetic substance that brings heredity factor. DNA consist of four bases, which are adenine, timine, guanine, and citosine. Each base is symbolized by A, T, G, and C. There are coding and noncoding regions in DNA data. Coding region (called exon) is a DNA region that’s useful to describe heredity factor. Many methods can be used to determine coding region in DNA data, one of them is by using Discrete Fourier Transform (DFT). Simulation using DFT is performed by entering the algoritm similarities into Matlab language program. The purpose of simulation are to predict exon length, to get the value of optimized spectral and to get the value of exon total power spectral. Optimized spectral is useful to identify exon position in DNA data. The results of simulation reveal that the total power spectral value of exon is proportional to N-point DFT value for each DNA sequence and the optimized spectral value of DNA is also proportional to quantity of exon bases and exon length. Optimized spectral value reaches maximum for more quantity of exon bases and more length of exon than when optimized spectral value reaches minimum. Keywords: deoxyribonucleic acid, exon, optimized spectral, total power spectral.
1. Pendahuluan Kemajuan zaman saat ini mengarah ke segala sesuatu yang serba digital. Berbagai macam peralatan elektronik yang ada di pasaran kini telah dilengkapi dengan sistem digital. Sistem digital itu sendiri memanfaatkan data biner dalam proses pengolahan datanya. Data biner ini merupakan sistem angka berbasis dua, yaitu 0 dan 1. Data-data seperti suara, gambar, atau teks dapat disandikan ke bentuk data biner tersebut. Hal ini tentu saja memudahkan dalam pengolahan data secara komputasi untuk berbagai tujuan. Demikian halnya dalam bidang digital signal processing. Penelitian yang melibatkan penyandian secara biner dalam signal processing untuk menganalisis data biomolekuler sel telah melahirkan bidang bioinformatika. Bioinformatika merupakan kajian yang memadukan disiplin ilmu biologi molekul, matematika dan komputer. Kajian ini didefinisikan sebagai aplikasi dari alat komputasi dan analisis untuk menangkap dan
* Alumni Jurusan Teknik Elektro-FTI, Universitas Trisakti
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
menginterpretasikan data-data biologi molekul, deoxyribonucleic acid (DNA) mahkluk hidup.
seperti
data
Rantai DNA yang menyandi protein disebut gen. Gen ditranskripsikan menjadi ribonucleic acid messenger (mRNA). Kemudian mRNA ditranslasikan menjadi protein. Arus informasi dari DNA, RNA, dan terakhir menjadi protein inilah yang disebut sentral dogma dalam biologi molekul. Rantai DNA dari satu organisme tersusun atas puluhan, ratusan, bahkan jutaan jumlah nukleotida yang diwakili oleh empat abjad yaitu adenin (‘A’), timin (‘T’), guanin (‘G’), dan citosin (‘C’). Enzim dalam sel hidup membaca data-data genetik yang tersimpan dalam DNA (dalam bentuk kode A, T, G, C) menggunakan cara yang sangat mirip dengan cara komputer membaca data biner. Analogi antara keduanya inilah yang selanjutnya dimanfaatkan dalam bioteknologi modern. Para peneliti telah berhasil membaca rantai DNA yang berjumlah ratusan nukleotida secara menyeluruh pada abad ke-18 (Alberts, B., 1994 : 145-161). Hal ini terus berkembang hingga saat ini terdapat milyaran data nukleotida yang tersimpan dalam database DNA. Database DNA ini dapat di download melalui situs http://www.ncbi.nlm.nih.gov/entrez/. Desakan kebutuhan untuk mengumpulkan, menyimpan dan menganalisis data-data biologis dari database DNA inilah yang semakin memacu perkembangan kajian bioinformatika. Tujuan penelitian ini adalah mempelajari signal processing pada urutan diskrit dari data DNA serta memperoleh sinyal spektrum yang mengandung informasi genetik dari hasil analisis output simulasi (berupa spektrum optimal (optimized spectral) dan spektrum daya total (total power spectral)) dengan menggunakan metode DFT untuk input data DNA yang mengacu pada parameter-parameter data DNA Caenorhabditis elegans (cacing tanah/parasit). Metode penelitian yang digunakan dalam pembuatan tulisan ini yaitu program simulasi yang adalah software Matlab 6.5.1.
2. Deoxyribonucleic Acid Ilmu yang mempelajari pewarisan sifat individu kepada keturunannya disebut genetika. Ilmu tersebut dinamakan genetika karena
46
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
berkaitan dengan gen. Gen adalah faktor pembawa sifat suatu individu yang akan diturunkan pada generasi berikutnya. Setiap gen berfungsi mengontrol atau menentukan satu macam sifat, misalnya gen jenis rambut, gen warna mata, gen warna kulit, dan sebagainya. Gen ini terdapat berderet di dalam kromosom pada tempattempat yang disebut lokus. Setiap gen disusun oleh substansi genetik yang dikenal sebagai asam nukleat (asam inti), yaitu deoxyribonucleic acid (DNA) dan rybonucleic acid (RNA) (Supeni, T., 1996 : 72-73). Dari sejumlah organel yang terdapat di dalam sel, nukleus (inti sel) merupakan organ yang paling banyak mendapat perhatian. Berdasarkan membran (selaput pelindung) pada inti sel, makhluk hidup dikelompokkan menjadi 2 yaitu prokariotik dan eukariotik. Prokariotik adalah kelompok makhluk hidup yang nukleusnya tidak diselubungi oleh membran dan DNAnya tidak berada dalam kromosom (contohnya bakteri). Sedangkan eukariotik merupakan kelompok makhluk hidup yang nukleusnya diselubungi oleh membran dan DNAnya tersusun rapi di dalam kromosom (contohnya manusia, hewan, dan tumbuhan). DNA terdiri dari dua jenis rangkaian yaitu rangkaian panjang yang tak terpilin (single helix) dan rangkaian panjang yang terpilin seperti tangga (double helix), seperti terlihat pada gambar 1. pada halaman berikut ini. Pada DNA double helix, dua untaian DNA tersusun atas ribuan unit nukleotida (polinukleotida). Setiap nukleotida disusun oleh basa nitrogen, gula deoksiribosa dan asam fosfat. Antara nukleotida yang satu dengan nukleotida lainnya dihubungkan oleh suatu ikatan kimia antara gula dan fosfat. Ada 4 macam basa nitrogen yang ditemukan pada DNA, yaitu adenin (A), timin (T), citosin (C), dan guanin (G). Keempat macam basa nitrogen ini menyusun DNA secara berpasangan. Guanin hanya dapat berpasangan dengan citosin, sedangkan adenin berpasangan dengan timin. Puluhan, ratusan, bahkan ribuan basa-basa nitrogen menyusun rantai DNA dari mahkluk hidup. Dalam kumpulan basa-basa nitrogen yang terdiri dari karakter ‘a’, ‘t’, ‘c’, dan ‘g’ ini (data DNA) terkandung informasi genetik yang menjadi ciri khas suatu individu (gambar 2).
47
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
Gambar 1 Struktur DNA.
Gambar 2 Contoh data DNA.
48
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
3. Ekson Dan Intron Suatu data DNA tersusun atas rangkaian penyandi protein (ekson) dan rangkaian bukan penyandi protein (intron). Ekson didefinisikan sebagai kodon yang memiliki arti dan dapat ditranslasi menjadi protein (asam amino). Kodon adalah satu kelompok nukleotida (3 basa) yang memperinci suatu asam amino. Atau dengan kata lain ekson adalah daerah coding. Sedangkan intron adalah daerah pengkodean yang tidak memiliki arti dan tidak dapat ditranslasi menjadi protein. Intron disebut juga daerah noncoding. Intron ini dihilangkan saat akan ditranslasi menjadi protein. Dalam data DNA, kemunculan intron diawali oleh basa ‘gt’ dan diakhiri oleh basa ‘ag’. Sedangkan ekson diawali dengan basa ‘atg’. Untuk posisinya, intron diapit oleh dua ekson. Ini berarti jumlah intron satu lebih sedikit dari jumlah ekson. Kumpulan ekson yang membentuk rangkaian nukleotida baru dinamakan open reading frame (ORF). Gambar 3 pada halaman berikut ini menjelaskan proses pemisahan intron dari rantai RNA.
4. Reading Frame Rangkaian nukleotida dalam molekul mRNA dibaca secara berurut dalam kelompok-kelompok tiga (kodon). Setiap kodon menyatakan sebuah asam amino. Cara membaca rangkaian nukleotida ini disebut reading frame (kerangka pembacaan). Ada tiga macam reading frame yaitu reading frame 1, reading frame 2, dan reading frame 3 (tabel 1). Ketiga reading frame tersebut menghasilkan pengkodean protein yang berbeda. Dalam setiap kasus, hanya satu dari ketiga reading frame itu akan memproduksi sebuah protein yang fungsional. Karena tidak adanya "tanda baca" kecuali pada awal dan akhir pesan RNA, kerangka pembacaan ditentukan sejak proses translasi dimulai dan selanjutnya tetap demikian. Tabel 1 Reading frames Data DNA
aatgacggatccgat
Readind frame 1
aat gat gga tcc gat
Readind frame 2
atg acg gat ccg
Readind frame 3
tga cgg atc cga
49
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
Sitoplasma
nucleus intron
ekson
DNA TRANSKRIPSI RNA
PENYAMBUNGAN
mRNA protein
Gambar 3 Proses pemisahan intron dari rantai RNA.
5. Numerical Data Sequence Untuk menggunakan metode DFT dalam menganalisis data DNA, data DNA harus diubah ke bentuk numerik. Caranya yaitu dengan membentuk 4 binary indicator sequences (tabel 2. pada halaman berikut) (Anastassiou, D., 2000: np). Urutan numerik data DNA {x[n]} adalah: x[n] = auA[n] + tuT[n] + cuC[n] + guG[n] untuk n = 0,1,2,..., N-1
50
(1)
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
dimana uA[n], uT[n], uC[n], dan uG[n] adalah binary indicator sequences yang dapat bernilai 1 atau 0 pada urutan n sesuai dengan urutan karakter sebenarnya dalam data DNA. Tabel 2 Binary indicator sequences
Data DNA
....agtaccg ....
Indikator uA[n]
...1001000...
Indikator uT[n]
...0010000...
Indikator uC[n]
...0000110...
Indikator uG[n]
...0100001...
Untuk setiap n, hanya satu dari binary indicator sequences yang bernilai 1. Dengan mengabaikan nilai a, t, c, dan g, persamaan (1) menjadi: uA[n] + uT[n] + uC[n] + uG[n] = 1, untuk semua n
(2)
6. Discrete Fourier Transform (Dft) DFT adalah urutan frekuensi diskrit waktu terbatas yang diperoleh dengan proses sampling suatu periode terhadap transformasi fourier. DFT {H(k)} dari urutan waktu diskrit {h(n)} sepanjang N diberikan pada persamaan (3) berikut ini. N 1
H(k) =
h ( n )e
j
2 kn N
,
k = 0, 1, 2, ..., N-1
(3)
n 0
Persamaan (3) disebut juga N-point DFT. Dalam pemrosesan sinyal suatu input DNA, urutan waktu diskrit adalah urutan numerik x[n] input data DNA. Maka persamaan (3) menjadi: N 1
X[k] =
x[n]e
j
2 kn N
, k = 0, 1, 2, ..., N-1
(4)
n 0
51
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
N 1
=
(au A [n] tuT [n] cu C [n] guG [n])e
j
2 kn N
n 0
= a UA[k] + t UT[k] + c UC[k] + g UG[k]
(5)
DFT untuk binary indicator sequences berdasarkan persamaan (5) adalah UA[k], UT[k], UC[k], dan UG[k]. Setiap k dapat dicari spektrum daya totalnya (total power spectral) {S[k]} dengan cara menjumlahkan nilai dari masing-masing DFT binary indicator sequences. S[k] = |UA[k]|2 + |UT[k]|2 + |UC[k]|2 + |UG[k]|2
(6)
Dalam daerah coding DNA, frekuensi k = N/3 merupakan bagian yang penting karena menyangkut dengan panjang kodon yang berkelipatan tiga (triplet). Jika k = N/3 disubstitusi pada persamaan (5) dan setiap DFT binary indicator sequences dinormalisasi, maka diperoleh:
1 N 1 N 1 N 1 N 1 N X [ ] a U A [ ] t U T [ ] c U C [ ] g U G [ ] (7) N 3 N 3 N 3 N 3 N 3 Dengan menetapkan:
1 N X[ ] = W N 3 1 N UA[ ] = A N 3
1 N UT[ ] = T N 3 1 N UC[ ] = C N 3 1 N UG[ ] = G N 3
52
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
persamaan (7) menjadi: W = aA + tT + cC + gG
(8)
Nilai spektrum optimal (W2) dapat diperoleh dengan mencari hasil kuadrat nilai W dari persamaan (8). W2 = |aA + tT + cC + gG|2
(9)
Nilai a, t, c, dan g dalam tulisan ini diambil berdasarkan nilai yang diperoleh dari hasil analisis data DNA Caenorhabditis elegans (8000 bp, urutan ke-7021 s.d. 15020) yaitu: a = 0,10 + 0,12j t = -0,30 – 0,20j c=0 g = 0,45 – 0,19j Nilai kompleks inilah yang nantinya diikutsertakan pada penggunaan persamaan (9) guna medapatkan nilai spektrum optimal untuk setiap panjang data DNA (Anastassiou, D., 2001: np).
7. Rancangan Simulasi Ada 3 data DNA hewan (no.1 s.d. 3) dan 1 data DNA tumbuhan (no.4) yang didownload melalui situs http://www.ncbi.nlm.nih.gov/entrez/ dan akan digunakan sebagai input simulasi yaitu: 1. Caenorhabditis elegans (accession number AF099922, 8000 bp, data urutan ke 7021 s.d. 15020). 2. Felis catus (accession number AC146679, 3000 bp, data urutan ke 60541 s.d. 63540). 3. Mus musculus (accession number AC154359, 2520 bp, data urutan ke 14581 s.d. 17100). 4. Oryza sativa (accession number AC161790, 2160 bp, data urutan ke 4981 s.d. 7140).
53
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
Output simulasi adalah gambar spektrum daerah coding DNA hewan dan tumbuhan sesuai dengan reading frame-nya serta gambar spektrum daya total (total power spectral) dari daerah coding sesuai dengan open reading frame-nya. Proses simulasi berlangsung saat program yang telah dibuat untuk simulasi dapat dijalankan pada Matlab 6.5.1 tanpa ada pesan error. Prosedur proses simulasi mulai dari awal sampai akhir simulasi dijelaskan dalam bentuk blok diagram simulasi berikut ini.
Gambar 4 Blok diagram simulasi. Gambar 4 diatas merupakan urut-urutan proses simulasi identifikasi daerah coding pada DNA. Proses pertama yaitu memasukkan input berupa data DNA yang merupakan kumpulan karakter string (a, t, c, g). Proses berikutnya adalah mengubah karakter string pada data DNA menjadi data numerik dengan membentuk binary indikator sequences. Proses selanjutnya yaitu mengolah data numerik tersebut dengan metode DFT guna mendapatkan output berupa sinyal spektrum.
8. Hasil Dan Analisis Simulasi Sebagai hasil dari simulasi, diperoleh gambar spektrum daerah coding pada DNA serta spektrum daya total dari ORF DNA untuk empat data DNA yang digunakan sebagai input simulasi.
54
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
Gambar 5 Hasil dan analisis data DNA Caenorhabditis elegans (urutan data ke 7021 s.d. 15020): (1) Spektrum optimal (8000 bp), (2) Grafik perbandingan jumlah basa dalam ekson I dan II, (3) Spektrum daya total ORF (1332 bp).
55
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
Gambar 6 Hasil dan analisis data DNA Felis catus (urutan data ke 60541 s.d. 63540): (1) Spektrum optimal (3000 bp), (2) Grafik perbandingan jumlah basa dalam ekson I dan V, (3) Spektrum daya total ORF (1056 bp).
56
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
Gambar 7 Hasil dan analisis data DNA Mus musculus (urutan data ke 14581 s.d. 17100): (1) Spektrum optimal (2520 bp), (2) Grafik perbandingan jumlah basa dalam ekson IV dan V, (3) Spektrum daya total ORF (1578 bp).
57
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
Gambar 8 Hasil dan analisis data DNA Oryza sativa (urutan data ke 4981 s.d. 7140): (1) Spektrum optimal (2160 bp), (2) Grafik perbandingan jumlah basa dalam ekson II dan IV, (3) Spektrum daya total ORF (780 bp).
58
Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid
Berdasarkan hasil analisis gambar spektrum optimal DNA Caenorhabditis elegans (gambar 5) menunjukkan bahwa terdapat 5 posisi ekson dalam DNA Caenorhabditis elegans. Nilai optimized spectral dari data DNA Caenorhabditis elegans sepanjang 8000 bp (accession number AF099922, data urutan ke 7021 s.d. 15020) mencapai maksimum pada 4,96 x 10-3 (ekson ke-II) dan minimum pada 1,61 x 10-3 (ekson ke-I). Panjang sequence adalah urutan data terakhir dikurangi urutan data awal ditambah 1. Panjang ekson dapat ditentukan dengan cara yang sama dengan panjang sequence. Posisi puncak ekson adalah panjang ekson dibagi 3 lalu dijumlahkan pada posisi awal ekson. Untuk ekson dengan nilai spektral maksimum (ekson ke-II) dan minimum (ekson ke-I) dianalisis untuk mengetahui perbandingan jumlah masing-masing basa penyusunnya. Ternyata ekson dengan nilai spektral maksimum memiliki jumlah basa dan panjang ekson yang lebih besar dibandingkan ekson dengan nilai spektral minimum (gambar 5(2)). Spektrum dari open reading frame atau gabungan dari seluruh ekson (ekson ke-I s.d V) dapat ditentukan dengan menggunakan persamaan 6 dan tampilannya adalah seperti pada gambar spektrum daya total (gambar 5(3)). Ciri khas dari spektrum daya total suatu ORF ditandai dengan adanya puncak spektrum yang lebih tinggi dari puncak-puncak spektrum lainnya (Anastassiou, D., 2001: np). Berdasarkan hasil analisis gambar spektrum optimal DNA Felis catus (gambar 6) menunjukkan bahwa terdapat 5 posisi ekson dalam DNA Felis catus. Nilai optimized spectral dari data DNA Felis catus sepanjang 3000 bp (accession number AC146679, data urutan ke 60541 s.d. 63540) mencapai maksimum pada 1,32 x 10-3 (ekson ke-V) dan minimum pada 4,51 x 10-4 (ekson ke-I). Ekson ke-V memiliki jumlah basa dan panjang ekson yang lebih besar daripada ekson ke-I (gambar 6(2)). Besarnya spektrum daya total dari ORF (ekson ke- I s.d. V) ditentukan dengan menggunakan persamaan 6 (gambar 6(3)). Berdasarkan hasil analisis gambar spektrum optimal DNA Mus musculus (gambar 7) menunjukkan bahwa terdapat 7 posisi ekson dalam DNA Mus musculus. Nilai optimized spectral dari data DNA Mus musculus sepanjang 2520 bp (accession number AC154359, data urutan ke 14581 s.d. 17100) mencapai maksimum pada 1,29 x 10-3 (ekson ke-IV) dan minimum pada 5,14 x 10-4 (ekson ke-V). Ekson ke-IV memiliki jumlah basa dan panjang ekson yang lebih besar daripada ekson ke-V (gambar 7(2)). Besarnya spektrum daya total dari ORF (ekson ke-I s.d. VII) ditentukan dengan menggunakan persamaan 6 (gambar 7(3)).
59
JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372
Berdasarkan hasil analisis gambar spektrum optimal DNA Oryza sativa (gambar 8) menunjukkan bahwa terdapat 4 posisi ekson dalam DNA Oryza sativa. Nilai optimized spectral dari data DNA Oryza sativa sepanjang 2160 bp (accession number AC161790, data urutan ke 4981 s.d. 7140) mencapai maksimum pada 1,18 x 10-3 (ekson ke-II) dan minimum pada 5,56 x 10-4 (ekson ke-IV). Ekson ke-II memiliki jumlah basa dan panjang ekson yang lebih besar daripada ekson ke-IV (gambar 8(2)). Besarnya spektrum daya total dari ORF (ekson ke-I s.d. IV) ditentukan dengan menggunakan persamaan 6 (gambar 8(3)). 9. Kesimpulan Dari keseluruhan simulasi identifikasi daerah coding yang dilakukan, maka dapat disimpulkan bahwa: 1. Besarnya nilai maksimum dan minimum dari optimized spectral pada daerah coding (ekson) DNA bergantung pada 2 faktor, yaitu kuantitas basa-basa penyusun ekson (a, t, g, c) serta panjang ekson. 2. Nilai optimized spectral mencapai maksimum untuk kuantitas basa-basa penyusun ekson dan panjang ekson yang lebih besar daripada saat nilai optimized spectral mencapai minimum. 3. Nilai total power spectral dari open reading frame data DNA hewan dan tumbuhan bergantung pada besarnya nilai N-point DFT masingmasing sequence-nya. Hubungan antara nilai total power spectral dengan N-point DFT adalah berbanding lurus. Semakin besar nilai Npoint DFT maka nilai total power spectralnya akan semakin besar juga. 4. Suatu informasi genetik yang diperoleh dari hasil analisis data DNA dengan memakai metode discrete fourier transform (DFT) dapat digunakan untuk menunjang penelitian-penelitian lebih lanjut dalam bidang bioinformatika. Daftar Pustaka 1. Alberts, B., Dennis Bray, Julian Lewis, dkk. 1994. Biologi Molekuler Sel 1: Mengenal Sel. Jakarta: PT. Gramedia Pustaka Utama. 2. Anastassiou D. 2000. Digital Signal Processing of Biomolecular Sequences. Technical Report EE000420-1. 3. Anastassiou D. Genomic Signal Processing. 2001. IEEE Signal Processing Magazine. 4. Supeni, T., Mintje SL Tobando, Yan Piet Talumewo. 1996. Biologi SMU Jilid 3A. Jakarta: Erlangga.
60