Dokumentumformátumok
Jelölo˝ nyelvek
XML Sass Bálint
[email protected]
Bevezetés a nyelvtechnológiába 2. gyakorlat 2007. szeptember 20.
XML
Dokumentumformátumok
Jelölo˝ nyelvek
1
D OKUMENTUMFORMÁTUMOK
2
J ELÖL O˝ NYELVEK
3
XML
XML
Dokumentumformátumok
Jelölo˝ nyelvek
1
D OKUMENTUMFORMÁTUMOK
2
J ELÖL O˝ NYELVEK
3
XML
XML
Dokumentumformátumok
Jelölo˝ nyelvek
D OKUMENTUMFORMÁTUMOK
Sima szöveges formátum: TXT tömör esetleges szerkezet nagyon hatékony feldolgozó eszközök (pl. Linux környezetben)
Lapleíró nyelvek: PS (PostScript), PDF (Portable Document Format) cél a szép és gyors nyomtatás nem (nagyon nehezen) módosítható a megjelenést alacsony szinten írja le
XML
Dokumentumformátumok
Jelölo˝ nyelvek
D OKUMENTUMFORMÁTUMOK
Szövegszerkeszto˝ formátumok: DOC / RTF ˝ cél: szép megjelenésu˝ dokumentumok eloállítása módosítható tartalom könnyen módosítható forma (WYSIWYG) elsikkad a szerkezet
LATEX ˝ cél: szép megjelenésu˝ dokumentumok eloállítása szöveges formátum, a tartalom között kódolva jelenik meg a szerkezet és a forma dokumentumsablonok – újat elég nehéz létrehozni ˝ PS, PDF lesz belole
XML
Dokumentumformátumok
Jelölo˝ nyelvek
1
D OKUMENTUMFORMÁTUMOK
2
J ELÖL O˝ NYELVEK
3
XML
XML
Dokumentumformátumok
Jelölo˝ nyelvek
T ÖRTÉNET
’60- AS ÉVEK : válasszuk el a dokumentum tartalmát és szerkezetét ˝ → a megjelenítéstol! 1969: GML (Generalized Markup Language) Goldfarb, Mosher, Lorie
1986: ISO szabvány lesz: SGML (Standard GML) 1989: HTML (Hypertext ML) – egy SGML alkalmazás, amit mindenki ismer 1998: XML (Extensible ML) 1.0 verziója
XML
Dokumentumformátumok
Jelölo˝ nyelvek
D EFINÍCIÓK kódolás (markup): a szöveg egy interpretációjának reprezentálására használt módszer; minden, ami a dokumentumban nem tartalom; címkézés jelölo˝ nyelv (markup language): a szövegek kódolására használt jelölési szabályok összessége címke (tag, element): adott szövegrész megjelölésére szolgáló eszköz, a szövegrészt nyitó és záró címke közé zárjuk; a címkék szigorúan elkülönülnek a dokumentum ˝ szövegétol P ÉLDA LATEX: HTML:
Ez most \emph{nagyon} fontos. Ez most
nagyon fontos.
XML
Dokumentumformátumok
Jelölo˝ nyelvek
P ROCEDURÁLIS ÉS DESKRIPTÍV MARKUP
procedurális markup: mit kell vele csinálni P ÉLDA
Kovács János
deskriptív markup: mit jelent P ÉLDA
Kovács János
XML
Dokumentumformátumok
Jelölo˝ nyelvek
S TRUKTÚRÁLTSÁG
a címkék egymásba ágyazhatók → ábrázolható a dokumentum struktúrája a címkék nem fedhetik át egymást P ÉLDA jó:
<év>2004év>217 rossz:
d˝olt d˝olt és félkövér félkövér a címkék egymáshoz való viszonya fa-struktúrát definiál
XML
Dokumentumformátumok
Jelölo˝ nyelvek
M ETANYELV
metanyelv: olyan szabályrendszer, mely jelölo˝ nyelvek általános szabályszeruségeit ˝ definiálja azt, hogy hogyan kell megadnunk . . . egy jelölo˝ nyelv címkekészletét, és a címkék egymásba ágyazhatóságának szabályait, azaz a dokumentum megengedett struktúráját
segítségével céljainknak megfelelo˝ strukturált jelölo˝ ˝ nyelvek készíthetok egy jelölo˝ nyelvet a hozzá tartozó DTD (Document Type Declaration) ad meg, adott jelölo˝ nyelven kódolt dokumentumok tartoznak egy dokumentumtípusba
XML
Dokumentumformátumok
Jelölo˝ nyelvek
HTML
˝ definiált: konkrét jelölo˝ nyelv – címkekészlete elore
...
cél a webes megjelenítés – inkább procedurális egyszeru, ˝ olcsó, sok eszköz, a hivatkozásokat jól kezeli ˝ mert hiányzik a szerkezet rosszul keresheto,
XML
Dokumentumformátumok
Jelölo˝ nyelvek
1
D OKUMENTUMFORMÁTUMOK
2
J ELÖL O˝ NYELVEK
3
XML
XML
Dokumentumformátumok
Jelölo˝ nyelvek
KÖVETELMÉNYEK
˝ rugalmas, bovíthet o˝ alkalmazások széles körét támogassa egyszeruen ˝ használható ˝ feldolgozható, keresheto˝ könnyen elemezheto, ember által olvasható, világos szerkezetu˝ dokumentumok
XML
Dokumentumformátumok
Jelölo˝ nyelvek
˝ J ELLEMZ OI
metanyelv: szabadon definiálható címkekészlet és dokumentumstruktúra az SGML-hez képest kötöttebb, egyszerubb, ˝ pl. SGML-ben nem kötelezo˝ lezárni bizonyos tag-eket. ˝ általános (minden XML fájlt könnyen elemezheto: ˝ készíthetok ˝ feldolgozó!) elemzok
XML
Jelölo˝ nyelvek
Dokumentumformátumok
˝ J ELLEMZ OI
metanyelv: szabadon definiálható címkekészlet és dokumentumstruktúra az SGML-hez képest kötöttebb, egyszerubb, ˝ pl. SGML-ben nem kötelezo˝ lezárni bizonyos tag-eket. ˝ általános (minden XML fájlt könnyen elemezheto: ˝ készíthetok ˝ feldolgozó!) elemzok metanyelv SGML (1) XML (3)
konkrét nyelv pl. HTML (2) pl. XHTML (4)
XML
Dokumentumformátumok
Jelölo˝ nyelvek
XML DOKUMENTUM FELÉPÍTÉSE címke (tag, element): <s>Ez egy mondat. mindig van záró tag, üres címke jele:
beágyazás lehetséges, átfedés nem attribútumok (attribute): <s id="1">Ez az "1" azonosítójú mondat.
˝ között attribútum érték mindig idézojelek a fájl elején: prológ
majd pontosan egy gyökérelem, ami tartalmazza az egész dokumentumot egyebek → XMLTutorial
XML
Dokumentumformátumok
Jelölo˝ nyelvek
DTD FÁJL ELEMEI címke:
tartalom modell: elemek, szöveg (#PCDATA), EMPTY, ANY tartalom modell operátorok: ∗ + ? , | P ÉLDA
attribútum:
típus: CDATA, ID, felsorolás . . . default: #REQUIRED, #IMPLIED, adott érték egyebek → DTDTutorial
XML
Dokumentumformátumok
Jelölo˝ nyelvek
˝ M EGFELEL OSÉG
J ÓL FORMÁZOTTSÁG Egy jól formázott (well-formed) XML dokumentum megfelel a szabványban rögzített összes szintaktikai szabálynak, de nem köteles megfelelni a dokumentum típus deklarációnak.
É RVÉNYESSÉG Egy érvényes (valid) XML dokumentum jól formázott és ezen kívül a dokumentum típus deklarációban meghatározott struktúra követelményeknek is megfelel.
XML
Dokumentumformátumok
Jelölo˝ nyelvek
˝ M EGFELEL OSÉG
J ÓL FORMÁZOTTSÁG Egy jól formázott (well-formed) XML dokumentum megfelel a szabványban rögzített összes szintaktikai szabálynak, de nem köteles megfelelni a dokumentum típus deklarációnak. xmlint.exe -w fájl
É RVÉNYESSÉG Egy érvényes (valid) XML dokumentum jól formázott és ezen kívül a dokumentum típus deklarációban meghatározott struktúra követelményeknek is megfelel. xmlint.exe fájl
XML