Možnosti využití XML v knihovnické praxi Gabriela Krčmařová
AKP 2001
Národní knihovna ČR
Liberec, 24.4.2001
XML - eXtensible Markup Language ! je jazyk, který umožňuje definovat nejen zpracování informace (formát), ale také její sémantickou úroveň (obsah) ! popisuje nejen to, co data jsou a jak je zpracovávat, ale také co znamenají, tj. umožní automatizované logické myšlení ! strojem čitelný web se stane strojem srozumitelný web ! rozsáhlý informační prostor, který web představuje, se stane zpracovatelným, nikoliv jen přístupným V roce 2002 bude podle prognóz konsorcia W3C 75% dokumentů šířených po Internetu zpracováno v XML.
Desatero XML I 1996 společnost W3C sestavila pracovní skupinu XWG (XML Working Group) XWG definovala deset základních cílů: 1. XML musí být přímočaře použitelný na Internetu 2. XML musí podporovat široké spektrum aplikací 3. XML musí být kompatibilní se SGML 4. musí být snadné napsat programy, které zpracovávají XML
Desatero XML II 5. množství volitelných rysů XML musí být omezeno na absolutní minimum, nejlépe na nulu 6. XML dokumenty musí být čitelné pro člověka a přiměřeně srozumitelné 7. XML design musí být připraven rychle 8. design XML musí být formální a stručný 9. musí být snadné tvořit XML dokumenty 10. stručnost XML značkování má minimální důležitost
Výsledkem je: !
XML jako technické doporučení konsorcia W3C
! XML je přenosné mezi systémy, protože používá SGML jako centrální technologii !
XML je možné se snadno naučit
!
dokument popisující syntaxi XML má jen třicet stran
!
nabízí komplexní formátovací možnosti
!
umožňuje pokročilé vyhledávací a navigační funkce
!
nevznikají žádné problémy s licencemi
!
XML je přiměřeně stabilní
!
již dnes má XML takový dopad, o jaký se SGML snažil deset let
V současné době XML podporují i hlavní prohlížeče: MS Internet Explorer 5.5 a Netscape 6
Web jako zdroj informací příliš široký 1991 – registrovány necelé tři desítky http serverů 2001 – desítky miliónů příliš nestálý 44% http vzniklých v roce 1998 zmizelo v roce 1999 Informace na Internetu je třeba zpřístupnit uživatelům. Každá knihovna udržuje dva základní přístupy: !
knihovní katalogy
!
ostatní informační zdroje
Katalogizace informačních zdrojů na Internetu I 1991-1992 projekt OCLC se dvěma základními cíli: !
zpřístupnit exitující textové zdroje
ověřit vhodnost MARC formátů a AACR2 při ! katalogizaci těchto zdrojů konkrétní výsledky projektu: !
pole 856 (URL adresa dokumentu)
!
počítačové soubory
!
několik změn v AACR2
Katalogizace informačních zdrojů na Internetu II 1994 neúspěšný projekt OCLC: !
snaha o centrální katalogizaci zdrojů na Internetu
!
katalog webových zdrojů – InterCat
1995 Dublin Core 15 základních identifikačních prvků je součástí dokumentu na webu a usnadňuje tak jeho vyhledání
1997 IFLA vydala standard pro popis elektronických zdrojů: ISBD (ER) - ISBD for Electronic Resources
CORC – Cooperative Online Resource Catalog ! zpřístupněn v roce 1999 ! využívá standard Dublin Core k identifikaci internetových zdrojů ! dokázal, že MARC/AACR2 záznamy mohou být konvertovány do jiných sémantických schémat ! efektivně funguje konverze polí MARC formátu do Dublin Core ! od července 2000 CORC poskytuje katalogizační služby za poplatek ! především záznamy zdrojů na Internetu
Knihovní katalogy na Internetu ! MARC velmi rozšířený v oblasti knihovnictví, ale neznámý v jiných profesích ! MARC je těžko zasaditelný do prostředí webu ! nutný dvojí přístup k informacím na webu ! MARC záznamy jsou v zajetí OPACů, umožňují pouze jeden přístup ! nutno nahradit MARC formát -----) XML
Je XML schopen nahradit MARC formát? XML/MARC diskuse v konferencích AUTOCAT a USMARC Bruce Johnson – předseda výboru MARBI (MachineReadable Bibliographic Information), odpovídá za rozvoj MARC formátů. Projekt „Medlane“ na Stanfordské univerzitě s cílem: ! využití nových standardů pro kvalitnější dostupnost bibliografických a autoritních dat na webu ! zmapovat možnosti konverze MARC formátu do XML
Proč ne !obrovská investice vložená do MARC záznamů a softwarových nástrojů !nezbytná nová investice související s migrací systémů !čas potřebný pro prodejce systémů k vývoji knihovnických systémů na bázi XML !přesnost a vysoká úroveň MARC standardů !XML je příliš nový a není důkladně prověřen dlouhým využíváním jako MARC !MARC je přizpůsobivý !MARC je v chodu a funguje !nutná drastická revize AACR2 !nutná celková oprava bibliografických záznamů, nástrojů a katalogizačních utilit
Proč ano !katalogizace s využitím MARC standardů a AACR2 je vyčerpávající a zdlouhavá !MARC formát nedrží krok se současným vývojem !změny, které je schopen akceptovat, implementuje velmi pomalu !nízká využitelnost značné detailnosti charakteristické pro proces tradiční katalogizace !MARC je jen komunikační formát, ačkoliv je často považován za nezbytnou součást AACR2 !AACR2 však může pracovat s XML stejně dobře jako s MARC formátem !XML by měl nahradit MARC jako komunikační formát, přestože jeho implementace v širokém měřítku bude stát mnoho času a peněz
Bibliografický záznam v XML ! konverze bibliografického záznamu z MARC formátu do XML ! kopie XML záznamu v informačních zdrojích na Internetu ! vyhledávání prostřednictvím stejného rozhraní jako ostatní webové entity ! zvýší se využívání primárních zdrojů v tradičních formátech ! on-line katalog ještě nevyčerpal svou užitečnost
DTD (Document Type Definition) I DTD stanoví strukturu dokumentu: !
jaké elementy může dokument obsahovat
!
v jakém mohou být vzájemném vztahu
!
jaké atributy může každý element mít
!
zda se mohou opakovat či zda mohou být vynechány
DTD mohou být: !
unikátní pro každý dokument
!
společná pro celou řadu dokumentů o
v rámci určité organizace
o
v rámci celého světa
DTD II Dnes jsou na Internetu celé knihovny DTD pro konkrétní aplikace z různých oborů lidské činnosti: HTML (Hypertext Markup Language) je DTD pro ! SGML !
MathML (Mathematical Markup Language)
!
CML (Chemical Markup Language)
!
AML (Astronomy Markup Language)
!
TEI (Text Encoding Inintiative)
Dnes jsou však DTD zastaralá, budoucnost patří XML schématům.
DTD pro knihovníky v prosinci 1999 ukončen francouzský projekt BiblioML s cílem ! vytvořit přenosový formát na bázi XML, který by zajišťoval přenos dat ve formátu UNIMARC mezi různými aplikacemi BiblioML a AuthoritiesML zajišťují export záznamů ! z UNIMARC databází a jejich konverzi do XML BiblioML a AuthoritiesML mohou být využity v rámci ! různých aplikací spojených s bibliografickými odkazy !
vývoj jednoduchých nástrojů umožňujících tento přenos
!
BiblioML DTD verze 0.3 obsahuje 224 elementů
!
element nejvyšší úrovně tohoto DTD je BiblioRecord
! některé části DTD jsou ještě ve vývoji nebo vyžadují další diskusi
XML a Z39.50 V rámci projektu Emerge (USA) usiluje NCSA (National Center for Supercomputer Applications) o vývoj progresivních přenosových a komunikačních nástrojů, které pak nabízí jako volně šiřitelné. Jedním z takových nástrojů je software Gazebo, který provádí konverzi dotazů popsaných v XML do syntaxe protokolu Z39.50.
XML a SFX Tématem konference EUSIDIC Spring Meeting (22. – 23.3.2001) v Lille (Francie) s názvem „XML, SFX, … a jiné zkratky: (meta)link budoucnosti“ byly strategie a nástroje pro strukturování obsahu za účelem přesného a obsáhlého vyhledávání informací.
Motto konference: „Náš svět je plný zkratek – otázkou není, zda víme, co všechny znamenají, ale jestli víme, jak je použít. Jestli víme, které z nich mohou skutečně přispět ke zlepšení struktury, obsahu a vyhledávání informací v síti.“
Jedním ze závěrů konference je: „Jestliže se XML a SFX stanou standardy používanými v tak velkém rozsahu jako HTML, bude to mít obrovský dopad na strukturování elektronického obsahu (e-content) a vyhledávání informací na webu.“