50
BAB IV APLIKASI MODEL HIDDEN MARKOV DISKRET PADA DNA Pada Bab ini dijelaskan mengenai DNA cendawan pada spesies Aspergillus niger [http://www.ncbi.nlm.gov/ 06/05/2009] sebagai data input yang digunakan
sebagai data pengamatan dan akan dibahas aplikasi model Hidden Markov diskretnya. Untuk memudahkan perhitungan dan analisis data, dibuat program komputasi berbasis pemprograman fungsional menggunakan Mathematica 7.0.
4.1 DNA Sebagai Materi Genetik DNA Asam deoksiribonukleat, lebih dikenal dengan DNA (deoxyribonucleic acid), adalah sejenis asam nukleat yang tergolong biomolekul utama penyusun berat kering setiap organisme. Di dalam sel, DNA umumnya terletak di dalam inti sel. Secara garis besar, peran DNA di dalam sebuah sel adalah sebagai materi genetik; artinya, DNA menyimpan cetak biru bagi segala aktivitas sel. Ini berlaku umum bagi setiap organisme. Di antara perkecualian yang menonjol adalah beberapa jenis virus (dan virus tidak termasuk organisme) seperti HIV (Human Immunodeficiency Virus). DNA merupakan molekul paling terkenal saat ini, sebab molekul ini merupakan substansi penurunan sifat. Faktor-faktor turunan Mendel dan gen-gen Morgan mengenai kromosom sesungguhnya tersusun dari DNA dan dapat disimpulkan bahwa DNA merupakan bahan dasar penyusun gen.
Struktur DNA Serangkaian studi genetik yang dikombinasikan dengan studi kimia, telah membawa kepada kesimpulan bahwa material genetik disusun oleh asam nukleat, yaitu Asam deoksiribonukleat (DNA) atau Asam Ribonukleat (RNA). Asam Deoksiribonukleat merupakan molekul kompleks yang dibentuk oleh 3 macam
51
molekul, yaitu 1
gula pentosa (deoksiribosa)
2
fosfat (PO −4 )
3
basa nitrogen, terdiri dari a. purin: Guanin(G) dan Adenin(A) b. pirimidin: Timin(T) dan Sitosin(C)
DNA terbentuk dari empat tipe nukleotida, yang berikatan secara
kovalen
membentuk rantai polinukleotida (rantai DNA atau benang DNA) dengan tulang punggung gula-fosfat tempat melekatnya basa-basa. Dua rantai polinukleotida saling berikatan melalui ikatan hidrogen antara basa-basa nitrogen dari rantai yang berbeda. Semua basa berada di dalam double helix dan tulang punggung gulafosfat berada di bagian luar. Purin selalu berpasangan dengan pirimidin (A-T, GC). Perpasangan secara komplemen tersebut memungkinkan pasangan basa dikemas dengan susunan yang paling sesuai. Hal ini bisa terjadi bila kedua rantai polinukleotida tersusun secara antiparalel. Erwin Chargaff (Campbell et al. 2002) menganalisis komposisi basa DNA dari sejumlah organisme yang berbeda. Pada tahun 1947. Ia melaporkan bahwa komposisi DNA berbeda-beda antara satu spesies dengan spesies lainnya. Dalam DNA dari spesies apa pun yang dipilih, banyaknya keempat basa nitrogen ini tidaklah sama tetapi hadir dalam rasio yang khas. Chargaff juga menemukan adanya keteraturan yang agak ganjil dalam rasio dari basa-basa nukleotida ini. Dalam DNA setiap spesies yang dipelajarinya, jumlah adenin kurang lebih sama dengan jumlah timin, dan jumlah guanine kurang lebih sama dengan jumlah sitosin. Sebagai
contoh
pada
DNA
manusia,
keempat basa ini
hadir
dalam persentase: A= 30,9% dan T=29,4%; G=19,9% dan C=19,8%. Kesamaan A=T dan G=C, yang kemudian dikenal sebagai aturan Chargaff, baru dapat dijelaskan setelah ditemukannya untai ganda.
52
A
B
Gambar 1 Pembentukan secara skematik struktur dsDNA dari gula fosfat sebagai backbone dan basa nukleotida (A). Bentuk skematik double-helix DNA (B).
Struktur untaian (helix) DNA ditentukan oleh tumpukan (stacking) basa-basa nukleotida berdekatan yang ada pada satu untai, sedangkan struktur untai gandanya ditentukan oleh ikatan hidrogen antara basa-basa yang berpasangan.
4.2 Data input DNA Data yang digunakan merupakan sebagian dari data komplit DNA pada cendawan aspergillus niger. Data yang diamati ada sebanyak 1000 basa nitrogen sebagai berikut
1 ccaccaaggg ttccattacc tccgtccagg ccgtctacgt ccctgctgac gatttgactg 61 accctgcccc cgccaccacc ttcgctcact tggacgccac cactgtcttg tcccgtggta 121 tctccgagtt gggtatctac cctgccgtcg accctctcga ctccaagtcc cgtatgctcg 181 acacccgtat cgtcggtgaa gaccactaca acaccgccac ccgtgtccag cagatgctcc 241 aggagtacaa gtccctccag gatatcattg ccattctggg tatggacgaa ctgtctgagg 301 ctgacaagct taccgtcgag cgtgctcgta agctccagcg tttcctgtcc cagcccttca 361 ccgtcgccca ggtcttcact g gtatcgagg gtaagctggt cgacctgaag gacaccatcc
53
421 gcagtttcaa ggccatcatc a acggtgaag gtgacgacct cctgagggt aagttgatct 481 ctccactttc t gtttggtga tc ggcatgga tgctaatttg tttatctaca gctgctttct 541 acatggttgg tgacttcgag tctgcccgcg ccaagggtga gaagatcttg gccgagctcg 601 agaacaaggc ctaaatgtaa tattgttttt aagcgccctt ttcctttttt gttagacatg 661 gacttccttt cttccatgtg ccgttttcta ccgatccgtg tacagtactc gaattgagaa 721 aagggagttg aaagaaaggc gaggtccccc ctatataaaa ggatgagagc gctcttaacg 781 tacacctctc tgaaagtctg gatggaaact tctagacttg tgttacacta cgtgctcatg 841 taagtaagtt aaaatgacca cagtcagcct gatacccgct gggctgggac aattgtactc 901 aaatttcctt tgttgaaccg ggggaccgtg atatctgttg cgtagacatt cctgtagcat 961 gtaatctgta agattccaaa cgagccatac gtcccttcta Sumber:[ http://www.ncbi.nlm.gov/ 06/05/2009] Keterangan: dari data di atas, 1, 61, 121,… menyatakan urutan ke- k urutan basa nitrogen.
4.3 Aplikasi Model Hidden Markov Diskret pada DNA Barisan DNA mengalami perubahan pada setiap urutannya. Sampai saat ini penyebab perubahannya tidak diketahui, namun penyebab tersebut diasumsikan sebagai state yang tidak diamati. Untuk menjelaskan perilaku urutan basa nitrogen pada cendawan spesies Aspergillus niger, dibangun suatu model stokastik. Ide memilih model Hidden Markov diskret Elliot et al. 1995 untuk masalah ini diperoleh dari Jamal (2008). Data yang diamati dan dimodelkan pada model Hidden Markov diskret [Elliot et al. 1995] hanya sebagian dari barisan DNA lengkap pada spesies Aspergillus niger, dengan banyaknya data T = 1000 dan k menyatakan urutan DNA. Pada komputasi, basa nitrogen c, g,t, dan a diubah menjadi c=1,g=2,t=3, dan a=4. Diasumsikan bahwa barisan DNA pada spesies Aspergillus niger dibangkitkan oleh proses pengamatan yang hanya dipengaruhi oleh proses penyebab kejadian yang membentuk rantai Markov dan tidak diamati secara langsung. Faktor-faktor yang menyebabkan terjadinya perubahan keteraturan DNA diasumsikan sebagai state dari suatu rantai Markov
. Pada setiap state, urutan DNA dibangkitkan
54
oleh peubah acak Ω, ,
yang menyebar dengan sebaran tertentu pada ruang peluang
. Misalkan hubungan antara
dan
ditentukan oleh persamaan
(3.5), yaitu , untuk
.
Berdasarkan asumsi bahwa penyebab perubahan DNA tidak diamati secara
tersembunyi (hidden) di balik data pengamatan
langsung, sehingga proses . Jadi pasangan
,
merupakan model Hidden Markov diskret [Elliot et
al. 1995] dengan parameter model di atas berbentuk :
,1
,
,
,1
, 1
.
Dengan menggunakan data di atas, parameter model diduga dengan menggunakan metode maximum likelihood dan pendugaan ulang menggunakan metode expectation maximization yang melibatkan perubahan ukuran. Penduga rekursif yang dilakukan pada penelitian ini adalah penduga smoother dengan N = 2.
4.4 Hasil Komputasi Dari algoritme di atas dibuat program berbasis pemograman fungsional menggunakan software Mathematica 7.0. Hasil run dan interpretasi model sebagai berikut
55
Kasus urutan DNA dengan banyak penyebab kejadian N = 2 4
Data duga Yi
3
2
28%
30%
21%
26%
25%
1
26%
30%
26%
28%
24%
28%
25%
19%
25%
24%
23%
0 0
1
2 Data Asli
3 Yi
4
: Y i = Yi
Gambar 2 Grafik distribusi nilai dugaan urutan DNA menggunakan penduga smoother untuk 2 penyebab kejadian (N = 2). Banyaknya data, ⎛ 0.16 0.26 ⎞ ⎜ ⎟ ⎛ 0.31 0.66 ⎞ ⎜ 0.09 0.02 ⎟ dan , T = 1000. Nilai awal A0 = ⎜ C = ⎟ 0 ⎜ 0.40 0.43 ⎟ ⎝ 0.69 0.34 ⎠ ⎜ ⎟ ⎝ 0.35 0.29 ⎠ ⎛ 0.49 ⎞ π0 = ⎜ ⎟. ⎝ 0.51 ⎠
56
Kasus urutan DNA dengan banyak penyebab kejadian N = 2 4
47%
data duga Yi
3
21%
2
17%
1
15%
44%
45%
13%
16%
12%
16%
24%
28%
23%
21%
2
3
15%
43%
0 0
1
data Asli
4
Yi
: Y i = Yi
Gambar 3 Grafik distribusi nilai dugaan urutan DNA menggunakan penduga smoother untuk 2 penyebab kejadian (N = 2). Banyaknya data, ⎛ 0.37 0.20 ⎞ ⎜ ⎟ 0.27 0.02 ⎟ ⎛ 0.37 0.35 ⎞ ⎜ T = 1000. Nilai awal A0 = ⎜ ⎟ , C0 = ⎜ 0.26 0.33 ⎟ ⎝ 0.63 0.65 ⎠ ⎜ ⎟ ⎝ 0.10 0.45 ⎠ ⎛ 0.50 ⎞ dan π 0 = ⎜ ⎟. ⎝ 0.50 ⎠ Dari grafik terlihat hasil komputasi yang menunjukkan distribusi nilai harapan model yang dihasilkan. Garis dengan
persamaan Y i = Yi merupakan penduga
model yang diharapkan pada Yi ∈ {1, 2,3, 4} .
Dari Gambar 1 dan Gambar 2, terlihat bahwa model menghasilkan distribusi penduga yang berbeda. Ini dapat dilihat dari titik-titik yang merupakan hasil
(
perhitungan komputasi berupa pasangan titik Yi , Y i
)
dengan Yi , Y i ∈ {1, 2,3, 4} .
Pada Gambar 1, terlihat 26% tepat muncul nilai harapan untuk data 1, 28% tepat
57
muncul nilai harapan untuk data 2, 26% tepat muncul nilai harapan untuk data 3 dan 28% tepat muncul nilai harapan untuk data 4. Pada Gambar 2, terlihat 15% tepat muncul nilai harapan untuk data 1, 15% tepat muncul nilai harapan untuk data 2, 16% tepat muncul nilai harapan untuk data 3 dan 43% tepat muncul nilai harapan untuk data 4. Ini berarti, pada Gambar 1, rata-rata model dapat menduga dengan tepat sebesar 27% dan pada Gambar 2, rata-rata model dapat menduga dengan tepat sebesar 22.25% . Model Hidden Markov Elliott dicirikan oleh parameter-parameternya yang berupa matriks peluang transisi. Dari kedua gambar di atas, untuk penyebab kejadian dan banyaknya data yang sama, menghasilkan nilai harapan model yang berbeda. Hasil yang diperoleh masih belum cukup baik, karena belum diperoleh cara untuk menentukan nilai awal yang paling baik. Oleh sebab itu perlu dikaji penentuan nilai awal yang terbaik untuk memperoleh hasil yang optimal. .