BAB II LANDASAN TEORI
2.1
DOKUMEN
Teks adalah m edia yang paling utama untuk m en gkomun ikasikan p engetah uan. Dim ulai dengan h ieroglyph s, p erm ukaan tertulis pertam a (batu, kayu, hewan, kulit, papir us, dan kertas beras), dan kertas. Teks telah diciptakan di mana-m ana dalam bent uk yan g berm acam-m acam. Dok um en adalah istilah yang digun akan untuk men unjukkan unit tunggal dari informasi, biasanya teks dalam bentuk digital, tetapi juga dapat m encak up m edia lain. Dok umen m erupakan representasi fisik atau digital yan g berisi inform asi dan dirancang unt uk sar ana kom unikasi. Sebuah dok um en dap at ber isi sim bol, diagram atau inder a representasional.
Dok um en mem iliki sintaks tertentu dan struktur y ang biasany a ditentukan o leh aplikasi atau oran g y an g m enciptakannya. Dokum en juga m em iliki semantik, yang ditentukan oleh penulis dok umen. Selain itu, dok um en juga m un gkin memiliki gaya representasi yang terkait den gan strukt ur tersebut, yan g menentukan bagaimana har us ditam pilkan atau dicetak. Sintaks dan str uktur dok umen biasany a berh ubungan den gan aplikasi tertentu (misalny a, web bro wser). Gam bar 2.1 menunjukkan relasi antara dok umen sintaks, p resenta tion style, dan sem antik. Sebuah dokum en juga dapat m emiliki inform asi tentang dok umen itu sendiri atau disebut den gan metadata.
9
10
Document Teks + Struktur + Sintaks
Media Lain
Presentation Style Semantics
G am bar 2.1 Karakteristik dari Dokumen (Baeza-Yates, R. dan Ribeiro-Neto, B., p. 142)
Sintaks dari dok umen dapat mengekspresikan struktur, gaya presentasi, sem antik, atau bahkan tindakan ek sternal. Dalam banyak kasus, satu atau lebih elemen yan g ada bisa implisit atau diberikan bersam a-sama. Sebagai contoh, elem en struktur al (contoh: section) dapat mem iliki format yang tetap. Sem antik dar i dok umen juga terkait dengan pen ggunany a. Misalny a Postscript secara lan gsun g diran can g untuk menggam bar. Ada beberapa standar strukt ur dok umen dan salah satuny a adalah Open Document Arch itectu re ( ODA). ODA adalah form at file dok umen internasional yan g bersif at terbuka dan gratis dan dik emban gkan oleh ITU-T untuk m enggantikan sem ua format file dokumen. ODA secara rin ci didok umentasikan dalam standar CCITT T.411-T.424, yang setara dengan I SO 8613.
ODA mendef inisikan format dokumen yan g terdiri dari raw tek s, gam bar r aster, dan gambar v ektor. Dalam rilis aslinya, per bedaan antara standar ini den gan yan g lain adalah bahwa struktur grafis secara eksklusif didef inisikan sebagai citra r aster CCITT dan Com puter Graph ic Metafile (CGM – I SO 8632). Hal ini untuk m em batasi m asalah yan g dimiliki wo rd p rocessor dan p erangkat lunak d esktop yang mengh arusk an pen ulis unt uk menafsirkan semua format graf is yan g diken al.
11
Seperti yan g telah dijelaskan sebelum nya dokum en memiliki kedua str uktur lo gis dan tata letak. Logikanya teks dibagi menjadi beberapa bab, catatan kaki dan sub elem en lainnya, m irip dengan Hyp erText Markup Language (HTML), dan tata letak yang mirip dengan Cascading Style Sheets (CSS) dalam dunia web. Format transformasi biner unt uk file ODA disebut Op en Document Interchange Fo rmat (ODIF) dan didasarkan pada Standard Gen era lized Markup Language dan Abstract Synta x Nota si One ( ASN.1). Dalam perkem banganny a ODA gagal menjadi format dokumen yang pop uler, n amun san gat mem pengar uhi format dok umen yan g berhasil mem peroleh dukun gan peran gkat lunak dan p engguna saat ini.
Saat in i ada dua jenis dok um en yaitu dokumen yan g m en ggunakan m edia cetak dan dok um en teks dalam bentuk digital. Seirin g den gan perkem ban gan jaman dok umen dalam bent uk digital semakin banyak digunakan. Ada beber apa keun ggulan dar i dokumen digital, yaitu adalah sebagai berik ut: a. Dok umen digital dapat dik irim dan cep at untuk dipin dahk an. b. Tidak m em erlukan media cetak ber upa k ertas atau m edia cetak lainnya. c. Dapat dipin dahkan ke media cetak sewaktu- wakt u. d. Dapat lebih mudah di indek s, ber beda den gan dok um en yan g m enggunakan media cetak, beberapa dok um en digital dapat di indeks menjadi satu untuk mem udahk an pencarian dokum en. e. Dapat digunak an di ber bagai m acam platform .
Den gan adanya dok umen dalam bent uk digital maka m em ungkinkan
untuk
mendistribusik an sebuah dokumen m elalui media Web. Dokum en digital
12
bent uknya dapat bermacam -macam dan setiap platform mem iliki jenis dok um en yang ber beda-beda. Namun untuk dap at didistribusikan melalui media web ada beberapa format standar yan g digunakan, beberapa diantaranya yan g serin g digun akan adalah Portable Document Format (PDF), HyperText Markup Language (HTML), eXtensible Ma rkup Languag e (XML), eXtensib le Hypertext Markup Language (XHTML) dan lain sebagainy a. Nam un tidak sem uanya digun akan dalam Group Field Project ( GFP) ini.
2.1. 1 HyperText M arkup Language (HTML) HyperText Markup Language (HTML), adalah bahasa untuk m erepresentasikan dokumen dalam sebuah halaman web. HTML ini ditem ukan o leh Tim Berner sLee pada tahun 1980. Kem udian dikem ban gkan oleh Wo rld Wide Web Consontrium (W 3C) sebuah or ganisasi standar internasional untuk Wo rld Wide Web (WWW atau W3). W3C ini sendiri ditem ukan dan dikepalai oleh Tim Bern ers- Lee.
Dokumen HTML disebut markup language karen a m engan dun g tan da-tan da tertentu (markup tags) yang digunak an untuk m enent ukan tam pilan suat u teks dan tingkat kepentingan dari teks tersebut dalam suatu dokum en. HTML markup tags biasa disebut den gan HTML tags. HTML tags biasany a selalu berpasangan, seperti
dan . Tag yan g pertama disebut sebagai tag pembuka dan tag terakhir disebut sebagai tag p en utup.
Ada berm acam-macam tag yan g didukun g oleh HTML. Pada dasarnya sebuah dokumen HTML selalu diawali den gan tag
dan ditutup dengan tag
13