5
II TINJAUAN PUSTAKA
2.1
Struktur Protein Protein merupakan bagian yang sangat penting pada setiap makhluk hidup.
Proses untuk mendapatkan protein dinamakan dengan translasi. Setiap makhluk hidup memiliki kode genetik yaitu DNA (deoxyribonucleic acid) yang tersusun dari basa nitrogen adenin (A), guanin (G), thymine (T) dan cytosine (C). Melalui proses transkripsi, DNA tersebut ditranskripsikan menjadi RNA (ribonucleic acid). RNA mengalami proses translasi untuk kemudian menghasilkan protein (Jones dan Pevzner 2004). Secara ringkas proses terbentuknya protein dapat dilihat pada Gambar 1.
DNA
transkripsi
RNA
translasi
PROTEIN
Gambar 1. Proses pembentukan protein Protein merupakan elemen dasar dari suatu organisme yang dibentuk dari asam amino. Terdapat 20 asam amino dengan struktur kimia yang berbeda (Polanski dan Kimmel 2007). Susunan asam amino pembentuk protein dapat dilihat pada Tabel 1. Asam amino tersebut terbentuk dari tiga huruf (triplet) dari kombinasi Asam Deoksirobosa (DNA) yang disebut dengan codon. Codon triplet pembentuk protein dapat dilihat pada Tabel 2. Satu protein protein terdiri atas sejumlah sekuens asam amino. Ilustrasi dari pembentukan satu protein berdasarkan sekuensnya dapat dilihat pada Gambar 2.
6
DNA
: TAC CGC GGC TAT TAC TGC CAG GAA GGA ACT
RNA
: AUG GCG CCG AUA AUG ACG GUC CUU CCU UGA
Protein
: Met Ala Pro Ile Met Thr Val Leu Pro Stop
Gambar 2. Contoh urutan asam amino pembentuk suatu protein Gambar 2 merupakan ilustrasi proses pembentukan protein mulai dari urutan sekuens DNA sampai dengan proses translasi yang dapat menghasilkan suatu protein.
Tabel 1. Asam amino, singkatan, simbol dan karakteristik Asam Amino
Singkatan
Simbol
Karakteristik
Alanine
Ala
A
Nonpolar, hydrophobic
Arginine
Arg
R
Polar, hydrophilic
Asparagine
Asn
N
Polar, hydrophilic
Aspartic acid
Asp
D
Polar, hydrophilic
Cystein
Cys
C
Polar, hydrophilic
Glutamine
Gln
Q
Polar, hydrophilic
Glutamic acid
Glu
E
Polar, hydrophilic
Glycine
Gly
G
Polar, hydrophilic
Histidine
His
H
Polar, hydrophilic
Isoleucine
Ile
I
Nonpolar, hydrophobic
Leucine
Leu
L
Nonpolar, hydrophobic
Lysine
Lys
K
Polar, hydrophilic
Methionine
Met
M
Nonpolar, hydrophobic
Phenylalanine
Phe
F
Nonpolar, hydrophobic
Proline
Pro
P
Nonpolar, hydrophobic
Serine
Ser
S
Polar, hydrophilic
Threonine
Thr
T
Polar, hydrophilic
Tryptophan
Trp
W
Nonpolar, hydrophobic
Tyrosine
Tyr
Y
Polar, hydrophilic
Valine
Val
V
Nonpolar, hydrophobic
7
Tabel 2. Codon pembentuk protein U
C
A
G
UUU Phe
UCU Ser
UAU Tyr
UGU Cys
UUC Phe
UCC Ser
UAC Tyr
UGC Cys
UUA Leu
UCA Ser
UAA Stop
UGA Stop
UUG Leu
UCG Ser
UAG Stop
UGG Trp
CUU Leu
CCU Pro
CAU His
CGU Arg
CUC Leu
CCC Pro
CAC His
CGC Arg
CUA Leu
CCA Pro
CAA Gln
CGA Arg
CUG Leu
CCG Pro
CAG Gln
CGG Arg
AUU Ile
ACU Thr
AAU Asn
AGU Ser
AUC Ile
ACC Thr
AAC Asn
AGC Ser
AUA Ile
ACA Thr
AAA Lys
AGA Arg
AUG Met
ACG Thr
AAG Lys
AGG Arg
GUU Val
GCU Ala
GAU Asp
GGU Gly
G GUC Val GUA Val
GCC Ala
GAC Asp
GGC Gly
GCA Ala
GAA Glu
GGA Gly
GUG Val
GCG Ala
GAG Glu
GGG Gly
U
C
A
Struktur protein terdiri atas struktur primer, struktur sekunder dan struktur tersier ( Polanski dan Kimmel 2007). Struktur primer dari suatu protein adalah rangkaian asam amino pembentuknya di sekitar rantai polipeptida. Database Bioinformatics memiliki 3 x 106 atau 3.000.000 sekuens asam amino dari protein. Struktur primer ini yang dibentuk dari hasil translasi DNA sampai menjadi codon. Hormon merupakan contoh protein yang dapat dilihat dari susunan asam aminonya. Sebagai contoh, prolaktin adalah salah satu hormon pertumbuhan yang dimiliki setiap makhluk hidup. Gambar 3 adalah contoh asam amino dari hormon prolaktin pada manusia.
8
Gambar 3. Contoh susunan asam amino hormon prolaktin pada manusia Struktur sekunder adalah struktur protein yang ditentukan oleh bentuk alpha-helix (H), betha-sheet (B) dan coil (C) penyusunnya. Struktur sekunder diperoleh dari sekuens asam amino, yang terikat dengan ikatan péptida. Dari sekuens asam amino tersebut, akan membentuk tiga kemungkinan segmen yaitu alpha-helix (H) yang bentuknya berpilin, betha-sheet (B) yang bentuknya lurus atau coil (C). Contoh bentuk ketiganya dapat dilihat pada Gambar 4. Gambar struktur sekunder protein tersebut didapatkan dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 sebagai perangkat lunak untuk memodelkan struktur protein yang bersifat free software.
(a)
(b)
(c)
Gambar 4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). bethasheet (b) dan (c). coil (c) Struktur tersier protein adalah struktur sekunder protein yang mengalami pelipatan atau dikenal dengan istilah melakukan folding protein. Struktur tersier protein terjadi dengan adanya interaksi untaian rantai alpha-helix, betha-sheet dan coil yang kemudian melakukan proses pelipatan (Lesk 2002). Bentuk struktur
9
tersier protein seperti dilihat pada Gambar 5 dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 .
Gambar 5. Struktur tersier protein Data struktur tersier protein dapat diperoleh dari suatu database yang bernama Protein Data Bank (PDB). Dari data ini protein dapat divisualisasikan dalam bentuk tiga dimensi. Fungsi protein akan terlihat apabila sudah melakukan pelipatan atau protein folding. Protein merupakan molekul kompleks dengan struktur tiga dimensi (3D) yang dikenal dengan struktur tersier. Namun, demikian struktur kompleks tersebut dibangun dari struktur primer yang terdiri atas sekuens asam amino pembentuknya ( Polanski dan Kimmel 2007). 2.2
Prediksi Struktur sekunder protein Struktur sekunder protein
merupakan tahap awal dari proses prediksi
struktur tiga dimensi (3D) suatu protein. Prediksi struktur sekunder protein bertujuan untuk mendapatkan informasi segmen alpha-helix (H), betha-sheet (B) atau coil (C) dari untaian asam amino primer yang membentuknya. Struktur Protein dapat diprediksi dengan beberapa cara. Cara pertama adalah dengan
melakukan
eksperimen
secara
kimiawi
menggunakan
X-Ray
10
Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. (Albert et al. 2007). Cara ini akan menghasilkan struktur protein secara tepat dan sangat memungkinkan menghasilkan struktur baru. Cara kedua adalah dengan pendekatan heuristic yaitu dengan comparative modelling yang hasilnya berupa prediksi. Prediksi struktur protein dengan menggunakan pendekatan heuristik ini, tidak akan menghasilkan penemuan struktur protein baru karena pendekatan ini hanya melakukan perbandingan antara data yang kita miliki dengan model yang sudah ada. 2.3
Hidden Markov Model (HMM) Hidden Markov Model (HMM) merupakan model probabilistik yang dapat
diaplikasikan untuk menganalisis model deret waktu atau sekuens linear (Eddy 1998). Pada sekitar tahun 1990, untuk membandingkan dua buah sekuens data biologi baik DNA atau RNA digunakan perbandingan pasangan antara dua sekuens yang akan disamakan. Namun, terdapat kendala yang ada apabila dua sekuens tersebut tidak sama di samping kesulitan apabila adanya sekuens baru (Baldi dan Brunak 2001). HMMs adalah salah satu pendekatan yang digunakan untuk
memodelkan
kumpulan
sekuens
tersebut.
HMMs
telah
banyak
dikembangkan pada banyak permasalahan seperti speech recognition (Rabiner 1989). Menurut Rabiner (1989), aplikasi pada HMMs pada akhirnya akan direduksi untuk menyelesaikan tiga jenis permasalahan, yaitu : 1. Jika diberikan suatu model λ = (A, B, π) ,
bagaimana menghitung
peluang dari sukuens observasi O = O1,O2,...OT yang dinotasikan dengan P(O | λ) 2. Jika diberikan suatu model λ = (A, B, π) , bagaimana memilih state sekuens
I = I1,I2,...IT sehingga P(O, I | λ) sebagai peluang bersama
dari sekuens observasi O = O1,O2,...OT dan state sekuens tersebut memiliki nilai maksimum 3. Mendapatkan parameter model HMM yang optimal sehingga peluang suatu observasi memiliki nilai maksimum,
11
dengan
λ adalah model HMM A adalah Matriks peluang transisi, B adalah Matriks peluang emisi dan
π adalah Matriks peluang awal / Matriks priority O = O1,O2,...OT adalah variabel observasi P(O | λ) adalah peluang variabel observasi jika diberikan model
Hidden Markov Model (HMMs) menggambarkan distribusi peluang dari sejumlah sekuens yang tidak terbatas (Eddy 1998). Nama "Hidden Markov Model" berawal dari fakta bahwasannya state dari sekuens merupakan orde pertama dari rantai Markov sebagai variabel yang tidak teramati. Adapun sekuens dari simbol (seperti A,C,G,T/U) merupakan variabel yang secara langsung dapat diobservasi. Pada kasus analisis sekuens dari data biologi, state sekuens akan berasosiasi dengan label biologis yang bermakna (seperti: struktur pada posisi lokus 42) (Eddy 1998).
2.4
Algoritme Baum-Welch Algoritme Baum-Welch merupakan salah satu algoritme yang digunakan
untuk melakukan pelatihan dalam melakukan estimasi parameter model dari HMMs yang dinotasikan sebagai . Algoritme ini mampu melakukan perbaruan nilai Matrikss peluang transisi A, Matriks peluang emisi B dan Matriks prioritas π . Algoritme ini disebut juga dengan nama forward-backward algorithm.
Berikut adalah prosedur Algoritme Baum-Welch (Dugad dan Desai 1996) : set nilai λ = (A, B, π) . Algoritme ini akan memperbaiki
Inisialisasi
nilai λ secara iteratif sampai konvergen. prosedur forward
:
definisikan
αt (i) = p(O1 = O1 ,O2 ,...Ot ,it = i |, λ) sebagai
peluang observasi parsial dari sekuens O1,O2,...Ot sampai dengan state ke-i pada saat t. Secara rekursif, t (i) dapat dihitung sebagai berikut :
12
αt (i) = πi bi (o1 ) …………………...……….……….....……….………..(1) N αt+1 (j) = b j (ot+1 ) αt (i).aij ……………………….........….…....……(2) i=1 :definisikan
prosedur backward
β t (i) = P(O
t +1
,O t + 2 ,... ,O T | i t = i, λ) adalah
peluang observasi parsial sekuens dari t + 1 sampai T dengan state i pada saat t dan model λ . Secara efisien dapat dihitung : βT (i) = 1 , 1 i N ………………….....………………….......…......(3)
β t (i) =
N
a
ij
j=1
b j (o t +1 )β t +1 (j) .................................................................(4)
Dengan menggunakan α dan β , akan ditentukan dua variabel, yaitu γt (i) dan
ξt (i, j) dengan persamaan sebagai berikut: α (i) β (i) t γ t (i) = N t α t (i) β t (i) i= 1
ξ t (i, j) =
.......................................................................................(5)
α t (i)a ij β t +1 (j)b j (o t +1 ) N
N
α i= 1
t
(i)a ij β t +1 (j)b j (o t +1 ) ...........................................................(6)
j=1
Dengan mengasumsikan model saat inisialisasi adalah λ = (A, B, π) , maka, update nilai baru untuk mereestimasi parameter adalah: π i = γ 1 (i)
1 i N …...........................................................(7)
,
T 1
ξ (i, j) t
a ij =
t=1 T 1
γ (i) t
t=1
,
1 i N , 1 j N …........................................(8)
13 T
b j (k )
t 1 O t vk T
γ t (i) 1 j N
, 1 k M ….................................................(9)
γ t (i)
t=1
dengan
λ adalah model HMM A adalah matriks peluang transisi, B adalah matriks peluang emisi dan
π adalah matriks peluang awal / matrik priority O = O1,O2,...OT adalah variabel observasi P(O | λ) adalah peluang variabel observasi jika diberikan model λ
t (i) adalah peluang parsial dari sekuens observasi O1, O2,… Ot sampai dengan state ke-i pada saat ke-t β T (i) adalah peluang parsial dari sekuen dari t + 1 sampai dengan T (dimana T
= t-1) pada state ke-i pada saat t
2.5
Algoritme Viterbi Algoritme Viterbi digunakan untuk mendapatkan state yang optimal
sehingga peluang suatu observasi adalah yang paling maksimal. Berikut adalah langkah-langkah algoritme Viterbi. Inisialisasi
……………………… ……………………………................………..(10) Proses rekusif
untuk
untuk
dan
dan
……….......…….(11)
14 Terminasi
………………………………………………………(12)
Proses menemukan kemungkinan nilai peluang paling besar dari suatu observasi yang berakhir pada saat t = T Backtracking
sehingga
,
…….(13)
Membaca (decoding) path sekuens terbaik dari vektor
2.6
Hidden Semi Markov Model Hidden Semi Markov Model (HSMM) adalah bentuk perluasan dari
Hidden Markov Model (HMM) yang mempertimbangkan durasi suatu observas terhadap state yang dimiliki. Pada HSMM, panjang durasi D pada suatu state secara eksplisit dinyatakan sehingga dinamakan juga dengan HMM dengan durasi variabel (Yu 2009). State durasi atau D merupakan varibel acak yang memiliki nilai integer D = {1, 2, 3… D}. Peluang panjang durasi P(d) adalah peluang panjang durasi suatu state dengan panjang tertentu. Bentuk umum dari Hidden Semi Markov Model seperti yang dilihat pada Gambar 6 (Yu 2009)
15
Gambar 6. Bentuk umum HSMM (Yu 2009) Pada HSMM terlihat bahwa suatu state dapat membangitkan lebih dari satu observasi atau bahkan sejumlah sekuens observasi. Sepanjang observasi T, setiap state pada HSMM akan memiliki panjang durasi state dengan nilai tertentu. Pada prediksi struktu protein sekunder observasi ini merupakan sekuens dari asam amino yang membentuk protein sedangkan state adalah struktur protein yang akan diidentifikasi atau diprediksi. Berikut ini adalah tahap algoritme pada HSMM (Yu dan Kobayashi 2006)
Proses Forward
……………….…………...……..(16)
16
Proses Backward
Penentuan State Optimal
Estimasi Parameter