Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze
Marie Šímová
Identifikátory elektronických dokumentů
Bakalářská práce 2010
.
.
Prohlášení Prohlašuji, že jsem bakalářskou práci na téma Identifikátory elektronických dokumentů zpracovala samostatně a použila pouze zdrojů, které cituji a uvádím v seznamu použité literatury.
V Praze dne 20. prosince 2010
………………………………
.
Anotace
Tato bakalářská práce se zabývá identifikátory elektronických dokumentů, popřípadě digitálních objektů. V práci je vymezen termín elektronický dokument, který se skládá z určitých formátů, má nějaké vlastnosti a může se pojit s dalšími informacemi o dokumentu samotném. Tyto informace nám umožňují dokument jednoznačně identifikovat a popsat. Abychom jednotlivé elektronické dokumenty od sebe mohli odlišit, přidělujeme jim identifikátory. Název určitého elektronického dokumentu i několika dalších dokumentů může být stejný. Identifikátor nikoli, jelikož je vždy jedinečný. V dnešní době, kdy většina dokumentů existuje v digitální podobě nebo do ní byla převedena se nám z důvodu vyhledávání a následné práce s dokumenty toto jednoznačné označení hodí. V práci je nastíněn přehled nejpoužívanějších identifikátorů pro elektronické dokumenty. Identifikátory jsou převážně využívány v oblasti digitálních knihoven, ale také pro komerční využití, při výměně informací nebo prokázání důvěryhodnosti daného elektronického dokumentu. This BA thesis is concerned with identifiers of electronic documents and digital objects. The term “electronic document” is defined in this work; it consists of certain formats, has certain characteristics and can be related to other information about the document itself. This information allows us to identify and define the document unambiguously. To be able to differentiate particular documents we assign them identifiers. A name of a particular electronic document and few other documents can be the same. The identifier cannot because it is always unique. Nowadays, when majority of documents is in digital form or is being transformed into it, this labeling is very useful to us mainly for searching and working with the documents. In this thesis the list of the most often used identifiers is presented. Identifiers are mainly used in the field of digital libraries but also for commercial purposes, for exchanging information and for proving credibility of certain electronic documents.
.
Obsah
1
Úvod ........................................................................................................................................3
2
Elektronické dokumenty ..........................................................................................................5
3
2.1
Od elektronického dokumentu k digitálnímu objektu ......................................................6
2.2
Metadata............................................................................................................................8
2.3
Typy digitálních dokumentů .............................................................................................9
2.3.1
Rozdělení podle charakteru .......................................................................................9
2.3.2
Rozdělení podle způsobu vzniku .............................................................................12
2.4
Výhody a nevýhody ........................................................................................................14
2.5
Ochrana digitálních dat a jejich dlouhodobé zpřístupnění..............................................15
Identifikátory .........................................................................................................................18 3.1
Nároky na trvalý identifikátor a spravující systémy .......................................................19
3.2
Přehled vybraných trvalých identifikátorů .....................................................................21
3.3
Identifikátory spojené s objekty, které mohou mít digitální i fyzickou podobu .............22
3.3.1
ISBN ........................................................................................................................22
3.3.2
ISSN a ISSN-L .......................................................................................................24
3.3.3
ISAN a V-ISAN ......................................................................................................26
3.3.4
ISWC .......................................................................................................................27
3.3.5
ISRC ........................................................................................................................29
3.3.6
ISTC ........................................................................................................................30
3.3.7
ISRN ........................................................................................................................32
3.4
Identifikátory převážně spojené s digitálními objekty....................................................33
3.4.1
URI ..........................................................................................................................33
3.4.2
URN .........................................................................................................................34
3.4.3
HDL .........................................................................................................................35 1
.
3.4.4
DOI ..........................................................................................................................36
3.4.5
PURL .......................................................................................................................38
3.4.6
ARK .........................................................................................................................38
3.4.7
Digitální podpis .......................................................................................................39
3.5 4
Porovnání URI a DOI .....................................................................................................40
Závěr ......................................................................................................................................42
Seznam použité literatury ..............................................................................................................44
2
Úvod
1
Úvod
Téma této práce jsem si vybrala, jelikož mě zaujala tématika propojení identifikátoru s elektronickými dokumenty, popřípadě s digitálními objekty. Rozvojem počítačových sítí a používáním internetu dnes vzniká většina dokumentů v elektronické podobě. Nebo jsou zpětně do elektronické podoby převáděny. Pokud chci něco najít a také to použít, potřebuji znát název, nebo alespoň něco, co o daném objektu vypovídá. Když vezmu v potaz samotné vyhledávání prostřednictvím internetového vyhledávače nebo jiných databází, ne vždy najdu to, co hledám, i když prostřednictvím internetu se dá získat skoro vše. Jedná se o hodiny a hodiny brouzdání po síti, než informace a odkazy začnou člověku dávat nějaký smysl nebo odpověď, kterou hledá. Někde jsou objekty volně ke stažení, jinde je potřebná registrace nebo určitý poplatek, díky kterému se k danému objektu dostaneme nebo alespoň k informaci o něm. Dobré věci totiž nikdy nejsou zadarmo. Nejvíce to platí hlavně u informací, protože jsou velice cennou komoditou, které má člověk k dispozici. Elektronické dokumenty jsou prostřednictvím internetu volně ke stažení, ale jsou také shromažďovány a uchovávány prostřednictvím různých databází, digitálních knihoven a archivů. Ve většině případů nás zajímá relevantní zdroj, ve kterém je elektronický dokument či objekt obsažen a nikoli například blog pomatené mladé slečny, která se o určitém dokumentu nebo objektu zmínila. Abychom daný dokument, objekt, informaci nebo zdroj našli, potřebujeme vědět, co a kde hledat. Samotný název ale nestačí. Můžeme narazit na stejné názvy, ale nejedná se o to, co hledáme. Jindy potřebujeme najít dokumenty, které mají podobný název nebo se zaobírají podobnou tématikou, aby informace, které hledáme, byly kompletní. Digitální objekty proto potřebujeme nějak identifikovat. K tomu nám slouží identifikátory. Může se jednat o pouhý vygenerovaný řetězec znaků, který je pořadovým číslem, ale může také o daném objektu něco vypovídat. Formou této práce je přehledová studie. Nemá cenu vymýšlet něco, co už vymyšleno bylo, ale spíše sumarizovat informace k dané problematice tak, aby dávali smysl. Má práce bude spočívat 3
Úvod
v prostudování nalezených zdrojů a jejich následné interpretaci. Cílem této práce je snaha co nejvíce přiblížit a popsat pojem elektronický dokument popřípadě digitální objekt. Dále stanovit přehled identifikátorů, které jsou s elektronickými dokumenty a digitálními objekty používány. Nakonec bych chtěla porovnat dva identifikátory. Zatím nevím, jak spolu souvisí a jestli se vůbec porovnat dají, ale touto otázkou se budu zabírat až ke konci této práce. Mé shrnutí a poznatky dané problematiky budou uvedeny v závěru. Jak už jsem zmínila, informace jsou velice cenné. Sama se ráda učím novým věcem a dozvídám se nové informace a tak doufám, že i tato práce bude jistým přínosem pro její čtenáře.
4
Elektronické dokumenty
2
Elektronické dokumenty
Slovo dokument má většina lidí spojené s něčím, co je vytištěno na papíře a fyzicky si na něj mohou sáhnout. Jenže stejně jako by v posledních pár staletích díky vzniku knihtisku byly nedostačující hliněné tabulky nebo papyrus, tak dnes při práci s počítači již nikomu nestačí jen dokumenty v papírové podobě. Samozřejmě, že většina listinných dokumentů se v dnešní době dá digitalizovat, ale na druhou stranu, ne vše, co je digitálním dokumentem se dá převést do fyzické formy. Při použití pojmu elektronický či digitální dokument už totiž nezůstáváme jen u textového záznamu vytvořeného v textovém editoru či e-mailu, ale přes fotografii vytvořenou digitálním fotoaparátem až k takovému typu, který je výčtem dalších různých typů digitálních dokumentů, jako je například webová stránka. V této kapitole jsem se nechala převážně inspirovat zdrojem [1]. Hlavním problémem je, že slovem dokument se standardně označuje textový záznam, ale s vývojem výpočetní techniky a s tím spojenou potřebou rychlejšího přístupu k dokumentům, vyšly najevo otázky, co všechno by mělo být za dokument považováno. Může tedy vedle textu vytvořeného v textovém editoru být slovem dokument označován například softwarový program, protože se skládá s řádků, které jsou tvořeny textem? Proto není zcela úplně jasné, kde jsou hranice pro vymezení pojmu elektronický dokument. Na začátku byla otázka, co je to dokument. Snahou bylo rozšířit pojem dokument i na nepsané dokumenty pro použití ve slovnících. Mezi dokumentaristy byl dokument spojovaný s vyjádřením jakéhokoli lidského myšlení. Ve Spojených státech amerických byl spojen s grafickým záznamem. Podle belgického spisovatele Paula Otleta, který na toto téma rád diskutoval, lze za dokumenty považovat všechny pozorované objekty, pokud jsme z nich informováni nebo se jedná o objekty nesoucí stopy lidské činnosti. Například archeologické nálezy, vzdělávací hry nebo umělecká díla. Mezinárodní institut pro duševní spolupráci 5
Elektronické dokumenty
(International Institute for Intellectual Cooperation) vytvořil definici, kdy dokumentem mohou být všechny zdroje informací, v materiální formě, které mohou být použity pro odkaz nebo studium. Příkladem zde jsou: rukopisy, tiskoviny, diagramy, ilustrace, muzejní exempláře atd. Další tvrzení je, že dokument je důkaz, který se opírá o skutečnost. Tedy strom rostoucí v přírodě dokumentem není, ale zachycením na fotografii by se dokumentem stal. Těmito směry se vyvíjela odpověď na otázku, co je to dokument. [2] Když se vrátíme k dokumentu v papírové podobě, který je rozlišován už jen tím, že je na papíře, tak nám to u elektronického dokumentu moc nepomůže. Jelikož věci kolem nás jsou vytvořené z atomů, kdežto základním prvkem digitální informace je bit. Definicí elektronického dokumentu je, že se jedná o „dokument, který se od tištěných typů dokumentů odlišuje nikoliv obsahovými, ale formálními vlastnostmi, zejména digitálním způsobem záznamu informací a z něho vyplývající větší nezávislostí a oddělitelností obsahu dokumentu od nosiče dat. Digitální uložení informace umožňuje aplikaci operativnějších individuálních metod práce s informacemi (vyhledávání, změny).“ [3] Uvedeno na příkladě, pokud je vyfocena fotografie, je uložena na paměťovou kartu, odkud ji můžeme přehrát na pevný disk počítače. Změnila tedy své místo uložení, ale můžeme s ní pracovat dál. S nosičem je spjat původ a trvanlivost dokumentu. V případě elektronického dokumentu nám tyto údaje uchovávají a poskytují metadata.
2.1
Od elektronického dokumentu k digitálnímu objektu
Vedle bitu, je díky rozmanitosti digitálního světa, jednou ze stavebních jednotek digitální objekt. Podle [4] je definice digitálního objektu následující. „Digitální objekt je objekt zaznamenaný nebo přenášený v digitálním formátu, tj. jako řetězce bitů, který byl v této formě vytvořen nebo do ní konvertován. Umožňuje kompresi dat a přidání dodatečné informace určené buď k opravě chyb nebo k popisu obsažených údajů (metadata).“ Podle [1] je „Elektronický či digitální dokument vnitřně uspořádaný soubor digitálních objektů. Elementárním digitálním objektem rozumějme pro naši potřebu jednotlivý jednoduchý datový nebo metadatový soubor jako základní jednotku výstavby digitálního dokumentu – v krajním případě se může digitální dokument rovnat právě jednomu souboru.“
6
Elektronické dokumenty
Pokud se elektronický dokument skládá z digitálních objektů, pak je jimi také tvořen a musí mezi nimi být nějaký vztah. Některé digitální objekty jsou nadřazené, jiné podřazené, některé odkazují na další externí objekty, jež mohou být datového nebo metadatového původu, a mají mezi sebou také vztahy. Je zde třeba vzít v úvahu nástroj, který by zajišťoval integritu elektronického dokumentu jako celku a mezi jednotlivými objekty dohlížel na jednotlivé vztahy. K dispozici máme SGML (Standard Generalized Markup Language). Jde o standardní jazyk určený k formálnímu popisu struktury dokumentů, který je definován v normě ISO 8879 z roku 1986. Můžeme jím znázornit objektově orientovaný přístup. [1] Při objektovém modelování jsou námi vytvořené věci pomocí počítače odrazem reálného světa. Základem jsou zde objekty (entity), které mají určité předdefinované vlastnosti (atributy) a můžeme je umisťovat do kategorií. Entity jsou vymezeny formálními či obsahovými kategoriemi. Při zpracování dat v dokumentu, se nám tato vlastnost může hodit například tím, že je rozlišováno mezi hodnotami, jakými jsou text a číslo. SGML je velmi obecné. Určuje, jak bychom měli objekty označovat, zapisovat jejich vlastnosti a vztahy s nimi spojené, ale vždy je potřeba konkretizace. Ta bývá vyjádřena jeho vlastními nástroji pomocí definice typu dokumentu (DTD). Dále pokud chceme daný dokument převést třeba na hypertextový odkaz a prohlížet jej interaktivně, poslouží nám HyperText Markup Language (HTML). Všechny značkovací jazyky pracují s takzvanými tagy. Nejčastěji se s nimi setkáme prostřednictvím HTML kódu. Vlastnosti aplikací SGML slouží pro popis, výstavbu a kontrolu integrity složených dokumentů. V jednom dokumentu můžeme díky množství informací najít různé seskupení metadatových a datových souborů, ale také jeden a tentýž objekt, který je vyobrazen různými datovými soubory a také můžeme mít v jednom dokumentu obsažené soubory různého původu a různého formátu. [5]
7
Elektronické dokumenty
2.2
Metadata
Když bychom se vrátili o pár desítek let dozadu, kdy byly digitální systémy primárně určeny pro zachycení textu, a pracovalo se v prostředí MS-DOS, tak bychom už definici elektronického dokumentu znali. Postačila by nám jen definice dokumentu, ovšem s tím rozdílem, že formální úpravy můžeme v digitálním provedení dělat rychleji a mnohem snadněji. Ale dnes, kdy je zájem i o vektorovou či bitmapovou grafiku nebo o digitální zpracování audia a videa, vzniká problém v podobě odtržení těchto objektů od jejich kontextu. Potřebou je začlenění digitálních objektů do dalších struktur, které uchovávají informaci o objektech. Máme na výběr ze dvou možností. První možnost je pomocí záznamů uložených v relační databázi, jelikož popisná data objektů jsou uložena mimo tyto objekty. V tomto případě se ale musí dodržet relace mezi objektem a informacemi a dále také zajištění funkčnosti relační databáze. Ve druhém případě si objekt nese informaci s sebou a je tak více nezávislý. [1] Metadata jsou nesdílnou součástí elektronického dokumentu. Pokud vyhledáváme pojem metadata, setkáme se s definicemi, že jedná o data o datech, ovšem nejedná se o označení úplné. Mezi knihovnickými pracovníky se setkáme s pojmem katalogizační nebo bibliografický popis či záznam. Ale s rozvojem internetu a komunikací prostřednictvím počítačových sítí získávají metadata širší význam. Spíše se zde jedná o „stroji srozumitelné informace o webovských zdrojích nebo dalších věcech (o lidech, věcech, pojmech, faktech, myšlenkách atd.).“ [6] V případě webové stránky najdeme tato data v hlavičce a u dalších digitálních objektů třeba ve vlastnostech. Nejedná se údaje, které by byly viděny na první pohled, ovšem některé specializované programy pro práci s daným objektem, toto umožňují. Tvořeny jsou většinou autory či vydavateli. „Pokud jde o formu metadat, je tvořena množinou nezávislých výroků, které reprezentují údaje o zdroji. V počítačovém systému nabývají výroky formu jména či typu výroku a souboru dalších parametrů.“ [6] K čemu nám metadata slouží? V oblasti knihovnictví prostřednictvím katalogizačního záznamu, kdy je informace od dokumentu oddělena, převážně k vyhledávání a identifikaci. V informatice tomu není jinak.
8
Elektronické dokumenty
Funkce metadat: • Identifikace • Popis objektu se zaměřením na jeho integritu • Popis vlastností převážně vnějšího prostředí, ve kterém lze s objektem pracovat Jelikož název této studie je Identifikátory elektronických dokumentů, tak nás nejvíce bude zajímat právě identifikace, které bude věnována pozornost v další kapitole. Mezi nejznámějšího zástupce metadat patří Dublinské jádro (Dublin Core). Jde o soubor metadatových prvků, jehož hlavním cílem je vyhledávání mezi elektronickými zdroji. Původně byl vytvořen pro oblast webových stránek, ale díky jeho jednoduchosti, modifikovatelnosti a mezinárodní rozšířenosti o něj projevily zájem další instituce, které se zabývají zpracováním zdrojů. Může obsahovat až 15 prvků, které o objektu poskytují informace. I pro člověka, který není počítačově příliš gramotný, je připojení Dublin Core k dokumentu jednoduchá. [7]
2.3
Typy digitálních dokumentů
Formy digitálních dokumentů rozlišujeme z hlediska jejich charakteru nebo podle zdroje. Dle charakteru je lze rozdělit na textové, obrazové, audio, video či smíšené. Do zvláštní skupiny spadá software. Toto rozdělení je založeno na tom, z čeho jsou dokumenty vytvořeny. Jsou tvořeny různými strukturami a formáty. Aby operační systém věděl, jak má s danými dokumenty zacházet, má k dispozici několik způsobů. Dokument může odlišovat pomocí přípony, hlavičky, metadat nebo atributů. U typů dokumentů jsem vycházela z uživatelské zkušenosti. 2.3.1 Rozdělení podle charakteru Mezi nejrozšířenější patří textové dokumenty. K jejich tvorbě byl dříve využíván textový editor T602, který vývojem později přešel k objektově orientovaným formátům typu MS Word. Ovšem pokud chceme přečíst jakýkoli textový soubor, podaří se nám jej otevřít prostřednictvím poznámkového bloku, který stejně jako T602 nepoužívá formátování a styly. Při předávání textových informací jsou na prvních místech HTML, MS Word, RTF a dále v dnešní době více a více rozšířený formát PDF. 9
Elektronické dokumenty
Přehled nejpoužívanějších textových formátů: •
HTML (HyperText Markup Language), neboli hypertextový jazyk značek (tagů). Jedná se o formát, který je nejčastěji používaný prostřednictvím internetu. Jedná se o formát, který tvořen z hlavičky, těla a v něm zapsaných tagů. Můžeme do něj vkládat odkazy na ostatní objekty a formátovat jej. K tomu nám slouží již zmíněné tagy. V případě, že prohlížeč něco z HTML neumí přečíst, prostě to ignoruje.
• Za nástupce HTML je dnes označován XML (eXtensible Markup Language), jehož výhodou je, že tagy dokáží lépe a přesněji označit uvedené informace. Vedle textu, který obsahuje, s sebou nese i informaci o daném dokumentu. Převod do dalších formátů je z XML jednoduchý a je velice vhodný pro strukturovaná data, určená pro relační databáze. • Dokument s příponou DOC, dnes již DOCX z dílny Microsoft Office, umožňuje kombinaci textu s grafikou a je nejčastěji využívaným textovým editorem • RTF (Rich Text Format) slouží k přenosu naformátovaných dokumentů • PDF (Portable Document Format) formát, který je schopen funkčnosti nezávisle na platformě, má stále stejnou kvalitu. Mezi jeho dvě největší výhody patří jeho uzamykatelnost a možnost zaindexování do systému, který vytváří fulltextové databáze Jako další jmenujme pár zástupců obrazových (grafických) formátů. Dělíme je na vektorové a bitmapové někdy také rastrové. Rozdíl mezi bitmapou a vektorem, je v prvcích, ze kterých se skládají. Bitmapu tvoří jednotlivé body (pixely) kdežto vektory jsou tvořeny z objektů, jako jsou křivky nebo základní geometrické tvary. U zpracování obrazových formátů, může docházet ke kompresi, která bývá využívaná ke zmenšení objektu. Dochází ale nejen ke zmenšení, ale i ke ztrátě informací. Základními používanými rastrovými formáty jsou: • GIF je formát, který umožňuje animace, je ale omezen barvami. • JPEG je formát pro ukládání obrázků v dobré kvalitě, ale dochází u něj ke ztrátové kompresi. • TIFF jako jeden z mála umožňuje ukládání vícestránkových souborů. Používán je převážně pro dokumenty, které jsou určené k tisku. 10
Elektronické dokumenty
• RAW jsou neupravená data z digitálního fotoaparátu, se kterými se dá mnohem lépe pracovat, jelikož nepodléhají ztrátové kompresi. U každého výrobce fotoaparátů se liší, a proto společnost Adobe navrhla řešení v podobě univerzálního formátu DNG. • BMP je formát, který jednoduchý a můžeme jej snadno zdokumentovat. • PNG byl vytvořen pro bezztrátovou kompresi jako nástupce formátu GIF.
Z vektorových formátů lze uvést: • SLD je jednoduchý formát podporující pouze úsečky. • SVG je značkovací jazyk, který popisuje dvourozměrnou grafiku pomocí XML. • PostScript Mezi audio a video nahrávkami, je vlivem sílícího postavení internetu zájem o dosažení komprese dat, ale zároveň o zachování kvality nahrávky. K dispozici je zde přehled nejpoužívanějších audio a video typů. Audio formáty: • WAV (Waveform Audio Format), byl vytvořen za spolupráce firem IBM a Microsoft. Tento formát se používá u hudebních nahrávek na CD discích. • MP3 vzniká jako ztrátová komprese dat formátu WAV. Formát zachovává docela vysokou kvalitu nahrávky, přesto že se jeho velikost až desetinásobně sníží. MP3 potlačuje zvuky na hranici slyšitelnosti lidského ucha a proto není vhodnou volbou pro nahrávky, kde se vyskytuje mluvené slovo. • WMA, byl vyvinut společností windows media jako náhrada za MP3 v prostředí windows • VORBIS (označován také jako OCG), jde o formát, který je srovnatelný s formátem MP3. Na rozdíl od MP3 nespadá pod žádnou licenci. • ACC (MPEG-4 Advanced Audio Coding), jde o kvalitní poměr mezi kvalitou a kompresí • MIDI (Musical Instrument Digital Interface) je určen především pro profesionální hudebníky. Slouží pro komunikaci mezi hudebními nástroji a počítačem, generování jednotlivých zvuků a nástrojů a pro převod z notového zápisu do počítače.
11
Elektronické dokumenty
• Proudová média (stream) tyto zvukové a hudební nahrávky mají velice sníženou kvalitu zvuku, ale rychlý přenos a právě proto jsou používány internetovými rádii. Nejčastěji se s nimi setkáme prostřednictvím RealAudio, WindowsMedia a QuickTime. Audio a video soubory jsou ukládány to tzv. kontejnerů, díky kterým je umožněna lepší práce s multimediálními formáty. Přeci jen éra němých filmů už je dávno pryč, a proto k videu zvuk patří. Kontejnery mimo zvuku a videa mohou obsahovat i informace o kapitolách, menu nebo titulky. Typy kontejnerů: • AVI (Audio Video Interleave) je nejrozšířenější kontejner pro ukládání videa. Podporuje většinu kompresí zvuku i obrazu a výhodou je, že je podporován všemi operačními systémy. Neumí si ale moc dobře poradit s novými kvalitními formáty zvuku a videa. • MPEG Program Stream, zahrnuje video s kompresí MPEG-1 a MPEG-2. Také je podporován všemi operačními systémy. • MPEG Transport Stream používá se pro digitální vysílání, AVC HD kamery a pro Bluray přehrávače. • MP4 je rozšířený převážně mezi mobilními telefony a primárně je určen pro MPEG-4 video. • Matroška je kontejner, který je volně k použití. Zařadit do něj můžeme širokou škálu podporovaných formátů. Bývá využíván se spojením pro HD videa. Toto byl přehled neužívanějších základních formátů elektronických dokumentů. Na výběr jich máme mnohem víc, stejně jako existují mnohem složitější struktury. Tím může být například jakýkoli program, aplikace nebo webové stránky napsané formou různých jazyků a vytvořené pomocí odlišných technologií.
2.3.2 Rozdělení podle způsobu vzniku Dále se elektronické dokumenty dělí dle místa svého vzniku. Můžeme mít elektronické dokumenty, které vznikly digitalizací a jsou převodem (kopií) tištěného originálu nebo už v digitální podobě vznikly. 12
Elektronické dokumenty
Digitalizace je činnost, při které jsou dokumenty, které mají analogovou formu, převáděny do dvojkové soustavy. Poté je binární kód možné číst, přenášet a uchovávat pomocí počítače a počítačových sítí. Jedná se ve většině případů o přenos listinných dokumentů do elektronické podoby. Důvody k digitalizaci: • Jedním z hlavních důvodů je úspora místa. Například dokument, který je naskenován černobíle při rozlišení 240 dpi, tedy nejběžnější a naprosto dostačující formát, má v digitální podobě velikost 70 až 100 kB. Při této velikosti je možné uložení statisíců či milionů dat na nejmenších discích. • Dalším je dostupnost informací, kdy je elektronický dokument přístupný například na internetu. • Neopomenutelným důvodem je ochrana dat. Papírový dokument není těžké jakkoli poničit, ať při nešetrném zacházení člověka či prostřednictvím vnějších vlivů. Kdežto při správném zacházení s nosičem, na kterém je uložen dokument v digitální podobě, by se nic podobného stát nemělo. • V neposlední řadě mají digitalizované dokumenty výhodu v jednoduchosti vyhledávání. Díky tomu, že je dokument ukládán pomocí indexace, je možné prohledávat celé texty. A na bázi vyhledávání v celých textech funguje většina databází článků či fulltextové vyhledavače. [8] V této podkapitole jsem popisovala formáty, ze kterých se elektronické dokumenty skládají. Elektronických dokumentů jako takových je mnoho, ovšem většinou se skládají z těchto stavebních prvků. Webová stránka je v základu text, který pomocí programovacích jazyků nebo programů něco dělá. Různé elektronické účetní doklady, které se implementací informačních systémů rozšiřují, jsou také v základu text. Proto v tomto případě vyjdeme z definice jako takové a pro upřesnění je možné přiblížit elektronický dokument formou formátů, ze kterých se skládají.
13
Elektronické dokumenty
2.4
Výhody a nevýhody
S používáním elektronických dokumentů jsou spojeny klady a zápory. Naštěstí díky rostoucímu množství těchto dokumentů začíná pozitivní stránka s jejich užíváním převyšovat tu negativní. A neustálým zlepšováním převádí nedokonalosti na výhody. [9] Výhody spojené s elektronickými dokumenty: • Hypertext, který umožňuje upozornění na souvislosti. • Úspora času, ke které dochází vlivem rychlejší práce při úpravách nebo změnách v dokumentech. • Možnost aktualizace je také rychlejší a snazší než u tištěných dokumentů. • Informace může být díky multimédiím přijata ve více podobách. • Díky dosažitelnosti na síti nám odpadají výdaje, i když na počátku je potřeba drobné investice k zakoupení hardwaru nebo software, abychom s elektronickými dokumenty mohli vůbec pracovat. • Uchování a archivace, jelikož dokumenty nezabírají fyzické místo, můžeme jich mít více, než bychom si v normální podobě mohli dovolit. • Snadnost vyhledávání, například díky fulltextu, obsaženým metadatům nebo za použití umělé inteligence, která je schopna rozpoznat různé tvary. • Interakce, ať již mezi objekty samotnými nebo mezi člověkem a dokumentem. • Manipulace s daty, nejsou úplně spjaty s nosičem a můžeme je používat podle toho, jak potřebujeme. Druhou stránkou jsou zde i nevýhody, které se sice postupně transformují na výhody, ale vždy tu nějaké budou. Nevýhody spojené s elektronickými dokumenty: • Při práci s technikou si musíme uvědomit, že se stále jedná jen o techniku, která není neomylná, a mohou nastat problémy. • Snadná duplikace, ze začátku se může zdát, že se jedná o výhodu, ovšem v případě autora, který nechce, aby byl dokument volně šířen, jde o nevýhodu. 14
Elektronické dokumenty
• Zahlcení nepotřebnými dokumenty. • Věrohodnost, při vyhledávání na internetu bývá velice těžké odlišit relevantnost nalezeného zdroje.
2.5
Ochrana digitálních dat a jejich dlouhodobé zpřístupnění
Ve většině odborných textů je tato problematika spojována se zpřístupněním do digitálních knihoven, portálů nebo digitálních archivů. Digitální dokumenty většinou poskytují vysoké školy, výzkumná centra, některé knihovny, muzea a další kulturní a vzdělávací instituce. Jsou ukládány a spravovány prostřednictvím digitálních archivů (repozitářů). „Digitální repozitář lze chápat jako organizaci lidí a systémů se závazkem ochraňovat a zpřístupňovat digitální data pro určitou skupinu uživatelů. Infrastruktura jednotlivého repozitáře může být navržena tak, aby navíc umožňovala i snadnou vzájemnou spolupráci s jinými systémy (portály, digitálními knihovnami) pomocí daných komunikačních protokolů. Digitální knihovnou rozumíme soubor aplikací, které nad daty v repozitáři provádějí nějaké stanovené operace za účelem jejich zpřístupnění koncovým uživatelům. Digitální repozitáře sehrávají klíčovou roli v dlouhodobé ochraně digitálních dat. Potřebou je, aby objekty zůstaly zachovány v původní podobě a mohly být dále využívány.“ [10] Tato oblast se dá rozšířit i na další autory ostatních elektronických dokumentů, kteří je prostřednictvím internetu dávají k dispozici okolnímu světu. Vlastně pro kohokoli, kdo má dokument, který stojí za to, aby byl uchován pro další generace. Při ochraně dat se nezaměřujeme jen na samotné objekty, ale i na metadata a identifikátory s nimi spojené. Cíle dlouhodobé ochrany digitálních dokumentů: • Uchovávány jsou digitální objekty, které již vznikly prostřednictvím digitálního prostředí a nemají tedy žádnou jinou podobu a je potřeba zajistit, jejich neměnnost • Zajištění dostupnosti, spolehlivosti a srozumitelnosti těchto objektů i budoucím uživatelům
15
Elektronické dokumenty
• Proces u dlouhodobé ochrany digitálních dat by měl být dobře vymyšlený, aby se dalo předejít výpadku techniky či technologickým změnám. Tato cesta je nezbytná k zajištění trvalého zpřístupnění elektronických dokumentů, abychom mohli objekty vyhledávat a pracovat s nimi, i přes jejich uložení v archivu • Důvěryhodnost digitálních repozitářů, kterou je možno zajistit tím, že objekty nalézající se v archivech jsou autentické, úplné, přesné Abychom archiv mohli považovat za důvěryhodný, měl by zajišťovat autenticitu, integritu, být spolehlivý a dostupný a mít možnost opakovaného použití. Autenticita je důležitá pro jednoznačné určení, kdo je autorem digitálního objektu. Dnes se k tomuto prokázání využívají digitální podpisy, certifikáty, vodoznaky a časová razítka. Digitální podpis a certifikát bude popsán v následující kapitole.
Pro zachování integrity je využíván MD5. Jedná se o algoritmus, který je uveden v internetovém standardu RFC 1321, a mimo jiné byl také užíván k ukládání hesel. V dnešní době se od něj z důvodu bezpečnosti upouští. Základní úlohou tohoto algoritmu je kontrola integrity a tím předcházení nežádoucím změnám a uchovávání dat v úplném a bezchybném stavu. Při spolehlivosti a dostupnosti musíme u techniky, rozumějme hardwaru a softwaru, zajistit bezchybné fungování nebo se alespoň snažit procento chybovosti a poruch snížit na minimum a zajistit, aby byl dokument dostupný po co nejdelší dobu. Těchto výsledků se dá dosáhnout za pomoci vytváření záložních kopií za použití zrcadel, upgradováním softwaru, používáním přepěťových ochran a antivirů a správně nastaveného firewallu. Vedle technického hlediska se musíme také zaměřit na finanční stránku situace, zajistit kvalifikovaný personál a organizace by měla být efektivně vedena. Abychom mohli dokument stále používat, je potřeba umožnit jeho vyhledávání, neměnnost a uchování po dlouhou dobu a to za pomoci trvalých identifikátorů, uchováváním na trvanlivých médiích a v dostupných formátech. U těchto cílů jsem vycházela ze zdroje [11].
16
Elektronické dokumenty
Elektronický dokument či digitální objekt je opatřen nějakým názvem, ovšem spousta dalších dokumentů se jmenuje podobně nebo dokonce stejně. Můžeme je tedy od sebe odlišit očíslováním, ale v budoucnosti může dojít k přečíslování či úplné změně značení. Při dlouhodobém uložení elektronických dokumentů potřebujeme něco, čím bude dokument označen od začátku až do konce jeho existence. Něco, co nám bude sloužit k jeho identifikaci, popřípadě k jeho vyhledávání. A tím něčím je právě trvalý identifikátor.
17
Identifikátory
3
Identifikátory
Nejjednodušší vysvětlení identifikátoru je na příkladu rodného čísla. Rodné číslo je jedinečný identifikátor, který je přidělován občanům České republiky již při narození a je s člověkem spjat po celý život. Skládá se ze dvou částí a je tvořen číslicemi. Obsahuje také kontrolní mechanismus. První část o nás prozrazuje pár informací, kdežto část druhá je zde pro kontrolu. V první části složené z 6 číslic se z prvního dvojčíslí dozvíme, v kterém roce jsme se narodili, druhé dvojčíslí určuje nejen měsíc, ale i naše pohlaví a třetí dvojčíslí den narození. První část je od té druhé oddělená lomítkem, které se na technických nosičích často vynechává. Do konce roku 1953 se za lomítko přidávaly 3 číslice. Vyjadřovali pořadí narozeného člověka v konkrétní den. Ovšem od začátku roku 1954 se za lomítko přidávají 4 číslice. Tři jsou koncovkou a čtvrté číslo je kontrolní. Umožňuje nám osobu najít a také ji z části identifikovat. Jednalo by se o hodně dobře vymyšlený identifikátor, kdyby jako jediný trvalý nebyl používán všude, kde vyplňujeme svoje údaje, nemohlo docházet k jeho snadnému zneužití a kdyby nepostačoval pouze do roku 2054. [12] Vraťme se ale k identifikátorům a identifikaci spojené s elektronickými dokumenty. V této kapitole jsem vycházela převážně z poznatků [13], pokud jsem neuváděla jiný zdroj, jelikož autorka se danou problematikou značně zabývá a vše má podloženo relevantními zdroji. Příklady identifikátorů jsou také převzaty od [13] a to z důvodu, že přístup do databází institucí, které identifikátory spravují, není většinou volně přístupný. Text, který mi byl předlohou, je velice dobře zpracovaný, myšlenky jsem parafrázovala a aktualizovala podle informací dostupných na webu organizací, které identifikátory spravují. Dále jsem využívala zdroje [14] pro porovnání informací a jednotlivých zdrojů k danému identifikátoru. Zdroje [13] a [14] proto již dál neuvádím.
18
Identifikátory
Jak již bylo zmíněno, vše je spojené s rozmachem výpočetní techniky, počítačových sítí a používáním internetu. Pro efektivní práci v prostředí těchto sítí je potřeba co nejpřesnější identifikace jednotlivých digitálních dokumentů. Tradiční informační znaky, jakými jsou například název, autor, datum vydání atd., se jeví jako nedostatečné pro činnost spojenou se získáváním, zpracováním, zpřístupňováním, upravováním či vyhledáváním těchto digitálních objektů. Vedle těchto tradičních markantů je využíváno identifikačních znaků (identifikátorů). Jedná se vytvořené nebo vygenerované řetězce číslic, písmen nebo symbolů, které daný objekt zastupují. „Prakticky ve všech informačních systémech se v současnosti využívá velkého množství identifikátorů lokálního významu. V rovině mezinárodní komunikace informací v digitální době pak na značném významu nabývají takové identifikátory, které jsou v globálním rámci jednoznačné či jedinečné a zejména trvalé (angl. persistent). Hovoříme o trvalých identifikátorech informačních entit. Hrají důležitou roli v zabezpečení potřebné interoperability informačních systémů v prostředí počítačových sítí.“ [13, s. 3] Identifikátory můžeme rozdělit podle jejich skladby a obsahu na dva základní typy • Identifikátory jednoduché struktury Pouze označují daný zdroj či objekt, jedná se o pořadové číslo, které o objektu nic víc neříká. Staly se hitem posledních let. Tento typ bývá často spojován s určitou množinou povinných metadat, která jsou pospolu ukládána v registračních databázích. • Identifikátory komplexní povahy Jsou opakem identifikátorů jednoduché struktury. Vedle identifikace daného objektu obsahují další informace. Příkladem zde může být ISBN, který ve svém kódu obsahuje informaci o zemi, jazyku, nakladateli.
3.1
Nároky na trvalý identifikátor a spravující systémy
Pro případy dlouhodobé ochrany, zpřístupnění a dalšího šíření digitálních objektů, je potřeba mít objekt spojen s trvalým identifikátorem a také metadaty obsahujícími informace o daném objektu. Trvalý identifikátor je prevencí před ztrátou dat, prostřednictvím užívání nestabilních 19
Identifikátory
odkazů. V dnešní době je hojně využíván URL, u kterého může docházet například ke zrušení domény nebo přemístění objektu jinam, kde ho nenajdeme. Systém spravující trvalý identifikátor by měl splňovat několik požadavků [15] • Globální jednoznačnost Identifikátor je spojen s daným objektem (ISBN patří ke knižní publikaci) a také by měla být identifikována autorita, která tento identifikátor přidělila. • Trvalost Je spojena s existencí identifikátoru, kdy je identifikátor přidělen jednou pro vždy a nelze jej přidělit jinému objektu. • Zpřístupnitelnost Jde o možnost získání publikovaného nebo jinde vystaveného objektu • Spolehlivost Identifikaci musí mít na starost systém, který je stále v provozu a vedle správy i pravidelně aktualizuje. • Spravující autorita Instituce a organizace, které přidělují identifikátory a spravují další síť organizací, které jsou pod nimi. • Pružnost Systém by měl být schopen se přizpůsobit pro různé typy objektů a také odkazovat na různé typy zdrojů. • Interoperabilita Je úzce spojena s dlouhodobou perzistencí (uchováním). Jde o schopnost, kdy jsou nezávislé systémy schopny mezi sebou spolupracovat a komunikovat, tak aby mezi nimi docházelo k určitým akcím. Rozlišujeme 3 typy. Syntaktická, sémantická a uživatelská interoperabilita. [16] • Náklady Systém pro trvalou identifikaci používaný v různých institucích, které mají na starosti správu kulturního dědictví, by měl být dostupný zdarma či za přijatelný poplatek, jelikož tyto instituce dále zajišťují volný přístup k informacím. • Granularita 20
Identifikátory
Míra podrobnosti s jakou je digitální objekt identifikátorem označen. Je vždy na instituci, aby vybrala správný systém, který bude tuto vlastnost zajišťovat. • Transparentnost Identifikátor může být složen z náhodně vygenerovaných znaků a nenese tak o objektu žádnou informaci nebo naopak se skládá z částí, které o daném objektu něco vypovídají. K trvalé identifikaci objektů slouží databáze resolveru, která uchovává informace o aktuálním umístění objektů a je schopna na daný objekt uživatele přesměrovat. Databázi je potřeba udržovat a aktualizovat a může fungovat různými způsoby. Může být centralizovaná, distribuovaná či využívat DNS, ale nemusí. V případě centralizované architektury, se jedná o bod, který má na starost správu nad objekty. Generuje jejich názvy, umožňuje jejich vyhledávání a aktualizuje je. Ovšem je zde velká pravděpodobnost selhání, protože se vše odehrává na jednom místě. V případě distribuované architektury, má každá periferní část systému svůj registr a vlastní službu, která umožňuje jeho zpřístupnění. Na určité zpřístupňovací služby zprostředkovává přesměrování centrální registrační autorita. Pokud je využívána možnost DNS, není kladen žádný zvláštní nárok na uživatele a nejsou potřeba žádné zvláštní doplňky do internetového prohlížeče. Služba DNS využívá http protokol, který aktivuje citovaný odkaz na internetu. Tento vývoj pomohl k vytvoření protokolu, jenž může spravovat pojmenování a zprostředkovávat vyhledávání (např. Digital Object Identifier). [15]
3.2
Přehled vybraných trvalých identifikátorů
Identifikátory jsem seřadila podle toho, jak jsou známé. A jak jsou používané prostřednictvím objektů, ke kterým patří, „normálními“ lidmi. Mám na mysli člověka, který si sem tam zajde do knihovny a vypůjčí si knihu, poslechne si nově koupenou nahrávku nebo si zabrouzdá na internetu. I když je pravdou, že identifikátory s běžným uživatelem toho moc co dočinění nemají, jelikož jejich služeb převážně využívají knihovny, archívy, vědecké instituce, nakladatelské společnosti, vydavatelské společnosti aj. Ale i tak jsou řazeny od těch nejrozšířenějších až k těm méně používaným. ISBN
International Standard Book Number
ISSN
International Standard Serial Number 21
Identifikátory
ISSN-L
Linking International Standard Serial Number
ISAN
International Standard Audiovisual Number
V-ISAN
International Standard Audiovisual Number - Version Identifier
ISWC
International Standard Musical Work Code
ISRC
International Standard Recording Code
ISTC
International Standard Textual Work Code
ISRN
International Standard Technical Report Number
URI
Uniform Resource Identifer
URN
Uniform Resource Name
HDL
Handle
DOI
Digital Object Identifier
PURL
Persistent URL (Uniform Resource Locator)
ARK
Archival Resource Key
Digitální podpis
3.3
Identifikátory spojené s objekty, které mohou mít digitální i fyzickou podobu
3.3.1 ISBN Slouží k identifikaci a komunikaci mezi knižními publikacemi. Používá se pro různé publikace monografického charakteru, které se nemusí pojit s tištěnou formou, ale mohou být zapsány na jiných médiích včetně elektronických. Přidělování identifikátorů těmto dalším formám je podmíněno obsahem a to, že se jedná převážně o text či mapy a plány. Jsou vždy uváděny na místech, kde si jej oko čtenáře povšimne. Jeho tvorba a přidělování je odvozena od ČSN ISO 2108. Informace a dokumentace – Mezinárodní standardní číslo knihy (ISBN). Systém přidělování je řízen na třech úrovních. Na vrcholu stojí Mezinárodní agentura ISBN sídlící v Londýně. Dále jsou zde skupinové nebo národní agentury (u nás sídlící v Národní knihovně) a v poslední řadě samotní vydavatelé. V současnosti je v systému zahrnuto 190 zemí světa. 22
Identifikátory
Postup ve fungování systému je následující. Mezinárodní agentura přiděluje a registruje skupiny identifikátorů pro skupinové nebo národní agentury. Mezinárodní agentura má na starost správu čísel ISBN a s nimi souvisejících metadat. Tyto údaje jsou uloženy prostřednictvím registračních databází ISBN národních agentur. Také přiděluje a registruje skupinové identifikátory pro členy systému ISBN (skupinové nebo národní agentury a vydavatelství). Skupinové nebo národní agentury přidělují vydavatelské identifikátory a čísla ISBN obsahující kontrolní číslici. Kontrolují správnost při přidělování čísel ISBN a také vytvářejí a vedou správu nad registračními databázemi čísel ISBN a jejich metadat, správu databáze o vydavatelích a ohlášených knižních titulech a hudebnininách. Na samostatných vydavatelích je pak správa a přidělování jednotlivých identifikátorů ISBN právě vydaným publikacím. Evidují je a mají ohlašovací povinnost formou ohlašovacích lístků, kdy předávají metadata dále do národních agentur. Číslo ISBN je přidělováno každému novému vydání knihy, překladu dané knihy, různým formám vazeb vydání nebo jednotlivým svazkům pocházejících z vícesvazkového vydání. Pokud je publikace vydána na různých nosičích, také dostane nové číslo ISBN. Pokud se jedná o dotisk, nové číslo ISBN přidělováno není. Jedná-li se o publikaci, která vyšla ve spolupráci dvou vydavatelů, může mít uvedena ISBN čísla dvě. Identifikátor se dříve skládal z 10 znaků. Buď z arabských číslic, nebo písmene X, které mělo zastupující hodnotu pro číslo 10 a mohlo se vyskytovat jen jako poslední kontrolní číslice. S rozvojem digitálního zpracování se přešlo na číslic 13. V době přechodu bylo možno v publikacích uvádět oba identifikátory, ovšem za pomlčkou muselo být uvedeno číslo, které označovala počet použitých číslic. ISBN je vnitřně rozdělen na 5 skupin, kdy každá je oddělena pomlčkou a druhá, třetí a čtvrtá má proměnlivou délku. Model: ISBN Prefix-Id skupiny-Id vydavatele-Id titulu-Kontrolní číslice Příklady: 1. Kniha „Keltové a Čechy“ autorů Petra Drdy a Aleny Rybové, vydaná nakladatelstvím Academia v roce 1998, dostala v té době desetimístné ISBN: 23
Identifikátory
ISBN 80-200-0658-3
2. Publikace „Guidelines for the implementation of 13-digit ISBNs“, vydaná v roce 2004 MA ISBN, dostala následující dvě verze ISBN: ISBN-10: 3-88053-108-0 ISBN-13: 978-3-88053-108-0 3. Publikace „Institucionální pilíře soukromého práva v dynamice vývoje společnosti“, vydaná v roce 2007 nakladatelstvím C.H. Beck, dostala již jen nové ISBN: ISBN 978-80-7179-379-3 Prefix u nového modelu ISBN je složen z 3 znaků a je přidělován společností EAN International. Nyní jsou přidělovány prefixy 978 a 979. Identifikátor skupiny je přidělován Mezinárodní agenturou ISBN. Vypovídá o národu, geografické, nebo jazykové oblasti. Jeho délka může být 1-5 znaků. Česká a Slovenská republika má stejný identifikátor „80“ a to podle původní vymezené zeměpisné oblasti ČSFR. Identifikátor vydavatele je také přidělován Mezinárodní agenturou ISBN. Délka tohoto identifikátoru se odvíjí od objemu publikační činnosti daného vydavatele. Jeho délka může být 1-7 znaků. Identifikátor titulu (knihy) přiděluje vydavatel a může být různě dlouhý. Kontrolní číslice je tvořena jedním znakem. Slouží k ověření správnosti čísla. Je vypočítána algoritmem z předchozích 12 číslic. [17], [18]
3.3.2 ISSN a ISSN-L Jedná se o identifikátor mezinárodního standardního číslování seriálových publikací (International Standard Serial Number). Výrazem seriál jsou označovány periodika, nepravá periodika, edice, pokračující zdroje aj. Dnes vedle tradičních typů seriálů jde i o elektronické a ty které jsou dostupné online. Největším problémem u tohoto identifikátoru bylo označování pokračujících zdrojů, které vycházejí na různých nosičích. Tato situace byla vyřešena zavedením ISSN-L (Linking ISSN). Periodikum obsažené na různých nosičích má přidělena různá čísla ISSN, ale vždy jen jedno ISSN-L. V normálním případě by číslo ISSN-L mělo odpovídat prvně přidělenému ISSN. Tedy číslu ISSN, které bylo přiděleno periodiku na prvním nosiči, většinou tomu v tištěné podobě. Využití identifikátoru ISSN-L se očekává především u služeb
24
Identifikátory
používajících identifikátory DOI, URN, EAN aj. (k propojování záznamů a informačních zdrojů). Jeho tvorba je uvedena v normě ISO 3297:2007. Information and documentation – International standard serial number (ISSN) 4. vydání. Překlad je zatím jen pro 3. vydání a to v normě ČSN ISO 3297. Informace a dokumentace – Mezinárodní standardní číslo seriálových publikací (ISSN). Na vše dohlíží, řídí a koordinuje Mezinárodní centrum ISSN sídlící v Paříži a dále pak národní centra ISSN, ke konci roku 2010 jich existuje 87 a u nás je zastoupeno Státní technickou knihovnou v Praze. Mezinárodní centrum ISSN také vytváří a zpřístupňuje ústřední registr dat o seriálech (pokračujících zdrojích). Dnes je v registru necelých milion a půl záznamů. Národní centra mimo vytváření bibliografických dat, přidělují čísla ISSN těm seriálům, u kterých o to požádají jejich vydavatelé. Vše samozřejmě probíhá v řádném postupu. Čísla ISSN, která národní centra přidělují, jsou jim přiřazována Mezinárodním centrem. [19], [20] Identifikátoru vždy předchází zkratka ISSN, po ní je rozdělen spojovníkem na dvě části po 4 znacích. Dohromady se skládá z 8 znaků. Tvoří je arabské číslice 0-9 nebo písmeno X, které stejně jako u ISBN zastupuje číslo 10. První skupina je vytvořena kódem bloku, druhá pořadovým číslem o délce 3 znaky a jedním kontrolním znakem. Opět zde kontrolní znak, který je dosazen pomocí algoritmu, slouží k vyloučení chyb, které by mohly být způsobeny nesprávným zápisem ISSN čísla. Model: ISSN Kód bloku-Pořadové číslo Kontrolní znak Příklady: Francouzský časopis „GENCOD informations“ (vydávaný společností Groupement d'études de normalisation et de codification - viz též identifikátor EAN v části 3.4.5.2) ISSN 1144-875X Český časopis „Národní knihovna : knihovnická revue“ (vydávaný NK ČR, Praha) ISSN 0862-7487
25
Identifikátory
3.3.3 ISAN a V-ISAN Jedná se o poměrně nové identifikátory týkající se audiovizuálního díla. ISAN je mezinárodní standardní číslo audiovizuálního díla (International Standard Audiovisual Number) a V-ISAN (značeno také VISAN) označené pro určitou verzi audiovizuálního díla. Identifikátory identifikují nejen audiovizuální dílo, ale také jeho vyjádření nebo realizaci. Audiovizuálním dílem je zde sled po sobě jdoucích obrázků s, nebo bez zvuku. Jde o pohyblivý obraz (filmy a videozáznamy), který je určen ke zhlédnutí, bez ohledu na nosič, na který byl původně zaznamenán, a na kterém je posléze uložen. Tím, že jsou nové, by měly převážně sloužit pro účely většiny počítačových aplikací, například ke sledování užívání děl nebo výroby jejich pirátských kopií. Čísla se přidělují na požádání a slouží především potřebám v oblasti průmyslu a obchodu audiovizuálních děl. ISAN se řídí normou ISO 15706:2002. Information and documentation – International Standard Audiovisual Number (ISAN). A ISO 15706-2:2007. Information and documentation – International Standard Audiovisual Number (ISAN) -- Part 2: Version Identifier Překlad je pouze pro normu jako takovou bez té doplňující ČSN ISO 15706. Informace a dokumentace – Mezinárodní standardní číslo audiovizuálního dokumentu (ISAN). [21] Číslo ISAN je přidělováno filmům, reklamám, filmům o filmu, dokumentům, záznamům o událostech, zprávám, televizním pořadům, videoklipům a dalším. Přidělováno ale nebude neaudiovizuálním prvkům audiovizuálního díla, například jeho nosiči, fotografii pořízené z filmu či samotné hudbě, která z daného filmu pochází. Může být také přidělováno složeným audiovizuálním dílům nebo seriálovým audiovizuálním dílům. V případě V-ISAN se přidělení odvíjí od jazykové verze daného filmu, zda se jedná o jeho plnou verzi nebo jestli je třeba barevný. Také zahrnuje rozdíl mezi vznikem v analogové nebo digitální podobě. Přidělování čísel ISAN má na starosti Mezinárodní agentura ISAN sídlící v Ženevě a dále se na systému podílí Nadace ISAN, která je složena z mezinárodních organizací, které působí na půdě průmyslu pro audiovizuální dokumenty. Jsou to federace FIAPF, asociace AGICOA a konfederace CISAC. Mezinárodní agentura ISAN má na starost koordinaci v rámci celého systému a udržuje centrální registrační databázi ISAN. Dále jsou zde regionální agentury, které 26
Identifikátory
přijímají a zpracovávají žádosti o přidělení čísla ISAN. Jsou i odpovědné za kontrolu metadat souvisejících s audiovizuálními díly. Metadata jsou uložena v mezinárodní centrální databázi a obsahují názvy audiovizuálních děl, rok zveřejnění, režiséra, herecké obsazení, jeho typ aj, dále také epizody seriálových audiovizuálních dat a jejich verze. Číslo ISAN a V-ISAN je složeno z 24 hexadecimálních číslic a jsou prezentována 10 číselnými znaky (0-9) a 6 doplňkovými písmeny (A-F). Číslo je rozděleno do 3 částí. Na začátku je opatřeno zkratkou ISAN a jednotlivé části jsou odděleny spojovníkem nebo mezerou. První část (kmenová) je tvořena z 12 hexadecimálních číslic. Druhá část ze 4 a jedná se o úsek, který slouží k identifikaci epizod nebo částí seriálového audiovizuálního díla. Když se jedná o dílo, které nijak nepokračuje, je tato část vyplněna 4 nulami. Mezi částí, jak už u identifikátorů bývá, je kontrolní číslice. Není součástí celkového počtu znaků. Jedná se o číslo či písmeno. Je vypočteno z 16 hexadecimálních číslic podle systému MOD 36 a 37, který je definován v normě ISO 7064. Třetí částí je verze díla. Pokud žádné jiné verze dané dílo nemá, je tato část vyplněna nulami. Na konci je ještě jedna kontrolní číslice, která je vypočtena z předchozích 24 číslic. Model: ISAN RRRR-RRRR-RRRR-EEEE-X-VVVV-VVVV-Y Příklad: ISAN 0000-0000-272E-0000-S-0000-0000-R Tento identifikátor patří filmu Erin Brockovich.
3.3.4 ISWC Jedná se o standardní mezinárodní kód hudebního díla (International Standard Musical Work Code), který je významný při jednoznačné identifikaci hudebních děl, především mezi počítačovými informačními systémy. Nejvíce jej ocení tvůrci, nahrávací společnosti, společnosti, které mají na starost práva a licence. Nejedná se ale o něco hmatatelného, ale o abstrakt. Nahrávka tedy číslo dostává sama nezávisle na svém nosiči nebo formě.
27
Identifikátory
„Obecný termín „dílo“ je v systému ISWC definován jako „výrazný, abstraktní intelektuální výtvor, jehož existence se projevuje prostřednictvím jednoho nebo více vyjádření“ (například rukopisu partitury skladatele nebo provedení díla nějakým orchestrem) nebo konkrétního zhmotnění (například publikovaného záznamu koncertu na kompaktním disku, publikované partitury aj.). Ústřední pojem „hudební dílo“ je definován jako „dílo složené z kombinace zvuků s/nebo bez doprovázejícího textu“. ISWC může být konkrétně přidělováno hudebním dílům publikovaným nebo nepublikovaným, nově vytvořeným nebo již existujícím (retrospektivně), a to bez ohledu na jejich stav autorské ochrany a bez ohledu na formu distribuce (analogovou či digitální). Modifikovaným verzím děl (například nová aranžmá aj.), výňatkům z děl (například „Óda na radost“ z Beethovenovy Symfonie č. 9) a dílům složeným z jiných děl budou vždy přidělovány nové kódy ISWC.“ [12, s. 11] Tvorba čísla ISWC se odvíjí od normy ISO 15707:2001. Information and documentation – International Standard Musical Work Code (ISWC) český překlad ČSN ISO 15707. Informace a dokumentace – Mezinárodní standardní kód hudebního díla (ISWC). Správu má na starost Mezinárodní agentura ISWC (International ISWC Agency) sídlící v Paříži, za kterou se skrývá Mezinárodní konfederace CISAC. Dále přiděluje bloky čísel regionálním agenturám a spravuje centrální databázi. Regionální agentura je u nás zastoupena agenturou OSA. Na starost má přidělování jednotlivých čísel ISWC na požádání a dále vytváření metadat k hudebními dílům a jejich přenos do centrální databáze. Ke konci roku 2010 je v programu zapojeno 68 zemí a k dispozici je 47 regionálních agentur. A existuje 18 miliónů přidělených identifikátorů ISWC. [22] Identifikátor ISWC je tvořen 11 znaky (písmeny latinské abecedy a arabskými číslicemi). Dělí se na 3 části, kterým předchází název ISWC. V první části najdeme prefix, který je tvořený písmenem T (odvozeno od anglického slova Tune). V druhé části je obsažen identifikátor díla tvořený 9 číslicemi. Tyto číslice o daném díle nenesou žádnou informaci. V části poslední je kontrolní číslice, která obstarává kontrolu podle určitého vzorce pro výpočet správnosti identifikátoru.
Model: ISWC Prefix-Identifikátor díla-Kontrolní číslice 28
Identifikátory
Příklad: ISWC T-000.000.001.0 Jde o píseň „Dancing Queen“ od skupiny ABBA, které byl přidělen vůbec první identifikátor ISWC.
Kódy ISWC jsou spojeny s metadaty, která daná díla popisují. Pokud je dílo zpracováno digitální formou, tak je identifikátor zakódovaný a lidským okem není vidět. Využití tohoto zakódování je především pro sledování užívání autorských práv. ISWC je také přidělováno jen těm dílům, jejichž tvůrci mají přidělen identifikátor IPI (dnes již ISNI).
3.3.5 ISRC Je identifikátorem mezinárodního standardního kódu záznamu (International Standard Recording Code). Zaměřuje se na zvukové záznamy nebo hudební videozáznamy. Na první pohled by se mohlo zdát, že takový identifikátor zde uveden byl, ale není tomu tak. „Jde o jedinečné záznamy reprezentující vyjádření či realizaci tvůrčích hudebních děl (například záznam koncertu, opery apod.)“ [13, s. 17] Identifikátor se přiděluje každé nezávislé jednotce zvukového záznamu. Přiřazení nezávisí na nosiči ani na tom, v jaké formě byli pořízen. Tento identifikátor je důležitý pro zvýšení ochrany v oblasti autorských práv. Identifikátor ISRC se řídí normou ISO 3901:2001. Information and documentation -International Standard Recording Code překlad je dostupný jako ČSN ISO 3901. Informace a dokumentace – Mezinárodní standardní kód nahrávky (ISRC). Dohled nad ISRC má Mezinárodní agentura ISRC (International ISRC Agency), jejíž práci vykonává Mezinárodní organizace fonografického průmyslu IFPI (International Federation of the Phonographic Industry) se sídlem v Londýně. IFPI zastupuje nahrávací průmysl po celém světě, může se pochlubit členstvím, které sčítá cca 144 nahrávacích společností ze 66 zemí. Pod Mezinárodní organizaci spadají národní agentury, které zajišťují tvorbu metadat a přidělují kódy ISRC. V České republice je národní agentura zastoupena společností INTERGRAM (Nezávislá společnost výkonných umělců a výrobců zvukových a zvukově obrazových záznamů) sídlící v Praze. 29
Identifikátory
Identifikátor je tvořen 12 znaky (písmeny latinské abecedy a arabských číslic). Dělí se na 4 části. V případě tisku kódu předchází zkratka ISRC a jednotlivé části jsou od sebe odděleny spojovníkem.
Model: ISRC Kód státu-Kód producenta/majitele záznamu-Rok přidělení ISRC-Kód nahrávky Příklad: Francouzský zvukový záznam, produkovaný společností Mercury France, kterému byl v roce 1997 přidělen kód ISRC s pořadovým číslem 212 (příklad je z normy ISRC) ISRC FR-Z03-97-00212 Kód země je reprezentován 2 velkými písmeny podle mezinárodní normy ISO 3166-1 (například GB=Velká Británie, FR=Francie, CZ=Česká republika aj.). Kód producenta nebo následného majitele záznamu je tvořen 3 znaky (písmeny A-Z nebo číslicemi 0-9) a přiděluje jej na základě žádosti organizace Intergram. Rok přidělení kódu ISRC danému záznamu se skládá ze 2 znaků, uváděny jsou dvě poslední číslice (99=1999, 01=2001).
Kód nahrávky identifikuje každý
záznam nebo část nějakého širšího zaznamenaného díla, který by se dal použít jako samostatný. Je vytvořen z 5 číselných znaků, které odpovídají pořadovému číslu (zleva je číslo zarovnáno nulami). [23]
3.3.6 ISTC Mezinárodní standardní kód textu ISTC (International Standard Text Code) se týká textového díla. „Pro účely této normy je textové dílo definováno jako samostatný abstraktní výtvor duševního nebo uměleckého obsahu sestávající z kombinace slov. Příklady textových děl jsou článek, esej, román, scénář nebo povídka“. [14] Tento identifikátor slouží k odlišení jednoho textového díla od druhého. Zlepšuje se jím možnost vyhledávání, kdy stačí znát číslo ISTC a je možné podle něj najít díla se stejným názvem, ale v různých formách, nebo díla další, ve kterých se vyskytuje informace o daném díle. Jedná se o systém dobrovolného přidělování. Využití má převážně mezi vydavateli a bibliografickými agenturami. 30
Identifikátory
Identifikátor ISTC je založen na normě ISO 21047:2009. Information and documentation – International Standard Textual Work (ISTC). Celý systém je řízen Mezinárodní agenturou ISTC, která je zastoupena prostřednictvím Konsorcia ISTC, jenž je tvořeno z Mezinárodní konfederace CISAC, společností Nielsen, vydavatelskou společností R. R. Bowker a Mezinárodní federací organizace pro reprodukční práva IFFRO (International Federation of Reproduction Rights Organizations). Identifikátor ISTC se skládá z 16 hexadecimálních znaků (číslice 0-9 a písmena A-F). Je rozdělen do 4 částí. Pokud má být kód ISTC vyobrazen, je před kódem uvedena zkratka ISTC. V první části je obsažen kód registrační agentury, který je složen z 3 číslic. V druhé rok přidělení kódu, jenž je tvořen 4 číslicemi. Ve třetí je kód díla, který je v podobě 8 číslic a přiděluje jej registrační agentura. A v poslední je uvedena kontrolní číslice, která je vypočítávána podle normy ISO/IEC 7064 pomocí MOD 16-3. Kód v sobě nenese nic, co by se týkalo díla jako takového.
Model: ISTC Kód registrační agentury-Rok-Kód díla-Kontrolní číslice Příklad: ISTC 09200912B41057 ISTC 09-2009 až 12B4105–7 ISTC byl zaveden hlavně proto, aby s rozvojem různých elektronických dokumentů textového původu bylo možno tato díla přesně identifikovat. ISTC je povinně registrován s určitou soustavou metadat, která o díle vypovídají, jestli je práce originálem nebo jestli se jedná o jeho překlad. Metadata jsou spravována pomocí systému ONIX. Výhodou je možnost vyhledávání a sledování vazeb, který tento identifikátor má k ostatním (ISBN, ISSN, ISMN, ISWC a další). [24]
31
Identifikátory
3.3.7 ISRN Jedná se o mezinárodní standardní číslo technické zprávy (International Standard Technical Report Number). Má za úkol zlepšení a zefektivnění práce s technickými a vědeckovýzkumnými zprávami. Technické zprávy většinou vznikají na akademické půdě nebo ve výzkumných institucích, kde jsou užívány interně. Dále jsou technické zprávy standardně publikované, například ve vědeckých časopisech. Identifikátor ISRN je vybudován na normě ISO 10444:1994. Information and documentation – International Standard Technical Report Number (ISRN). V českém překladu jsme ji mohli najít jako ČSN ISO 10444. Informace a dokumentace – Mezinárodní standardní číslo technické zprávy (ISRN). Nyní je norma zrušena. [25] Dohled nad ISRN měla Mezinárodní agentura pro ISRN se sídlem v Německu, ovšem není již v provozu. V Čechách o status národní agentury pro ISRN žádala Státní technická knihovna, ale po provedeném průzkumu mezi vysokými školami a dalšími institucemi, o používání tohoto identifikátoru nebyl zájem. To byl i nejspíše důvod ke zrušení normy. Ovšem v některých zemích je identifikátor ISRN používán. Identifikátor je tvořen až z 36 znaků (alfanumerických). Před kódem je uvedena zkratka ISRN a sestává z 3 částí, které jsou od sebe odděleny oddělovačem. Na konci může být obsažen lokální doplněk. První část obsahuje kód zprávy, jejíž délka je od 2 do 16 znaků. Lze zde používat vnitřní oddělovače údajů „/“ a „-“. Druhou částí je pořadová skupina, která se může skládat z 14 znaků. Kód země je třetí částí, kterou upravuje norma ISO 3166, o délce 2 znaky. Lokální doplněk může obsahovat informaci spojenou s typem nosiče nebo jazykovou verzí. Model: ISRN Kód zprávy-Pořadová skupina-Kód země+Lokální doplněk Příklad: ISRN CNRS-DG/RA-3328-FR+ENG ISRN INRIA/RR-98-26-FR
32
Identifikátory
3.4
Identifikátory převážně spojené s digitálními objekty
3.4.1 URI Jednotný identifikátor zdroje (Uniform Resource Identifer) patří mezi jedny z nejstarších identifikátorů pro digitální objekty. Jeho popis je uveden v normě RFC 3986. Uniform Resource Identifier (URI). Je definován jako řetězec znaků, který slouží k identifikaci (nebo lokalizaci, vyhledávání, směrování, odkazování apod.) Použit může být pro jakýkoli objekt. Webovou stránku, databázi, službu, dokument, fyzický objekt, metadatový záznam. URI je obecným rámcem identifikátorů informačních zdrojů. Skládá se ze dvou podtypů URN a URL. „Uniform Resource Locator (URL) popisuje konkrétní umístění daného cíle. Obsahuje veškeré informace potřebné pro jeho získání – jakou síťovou službu použít, na který server se obrátit a co po něm chtít. Jinými slovy URL identifikuje, kde se dotyčný cíl nachází. Uniform Resource Name (URN) je obecnějším konceptem. URN představuje jednoznačné jméno dotyčného zdroje, podle nějž by jej klient měl rozpoznat a obstarat si jej „někde v Internetu“. Z URL se klient dozví, co je dotyčný cíl zač. Problém je, že k URN zatím nikdo nevymyslel vhodný mechanismus, jak cílový dokument najít a získat. V praxi to znamená, že URN zatím zůstává jen teoretickým konceptem a na stránkách se používají lokátory, čili URL.“ [26] Je důležité vědět, že identifikátor URI je zastoupen schématy. Některými schématy jsou protokoly. Nejpoužívanějším je například HTTP, který slouží k určení umístění objektů (zdrojů) na webu. Schéma URN souvisí s více protokoly najednou. Některá schémata protokolem sama o sobě nejsou, ale souvisí s nimi (MAILTO, z39.s59). Na níže uvedených příkladech je vidět, že identifikátor URI můžeme propojovat s dalšími identifikátory. Registrovaná schémata jsou k dispozici na webových stránkách organizace IANA.
33
Identifikátory
Model: schéma:specifická část Příklady: http://www.ifla.org/VII/s13/garr/garr.pdf telnet://dec59.ruk.cuni.cz ftp://ftp.rfc-editor.org/in-notes/rfc4452.txt mailto:
[email protected] info:lccn/n78089035 info:doi/10.1000.10/123456 z39.50s://melvyl.ucop.edu/cat urn:nbn:de:gbv:089-3321552
3.4.2 URN Identifikátor URN je trvalý identifikátor informačního zdroje, který nezávisí na umístění daného objektu nebo na tom, jak se k němu dostaneme. URN je definováno standardem RFC 2141. Jeho skladba je odvozena od URI a může obsahovat několik jmenných prostorů (Namespace), označováno zkratkou NID, které následuje řetězec znaků NSS (Namespace Specific String). Zkratka NID označuje celosvětově přidělený a užívaný identifikátor jmenného prostoru (ISBN, ISSN, MPEG a další), kdežto NSS, obsahuje různé znaky, jelikož se odvíjí od jmenného prostoru.
Model:
::=”urn:””:” Příklad: urn:isbn:9780110002224 Celý systém URN je postavený na směrovací službě. Přidělení identifikátoru URN složité není, ovšem zajištění směrovací služby ano. Směrovací služba na národní nebo celosvětové úrovni vybudována zatím není. Je to dosti finančně náročné. Možná proto se běžný uživatel s URN jako 34
Identifikátory
takovým nesetká. Nejvíce je zatím využíván jmenný prostor URN:NBN, který slouží pro systém národních bibliografií. URN souvisí s jednou nebo více adresami URL, na kterých se zdroj nalézá. Směrovací služba tedy URN k URL přesměruje. Pokud se tato akce nezdaří na poprvé, služba to zkouší dál s jinou adresou URL, dokud se k danému zdroji nedostane. Směrovací služba v průběhu své práce také adresy aktualizuje. Najde-li někde novou, začlení ji do databáze, a pokud některou nenajde, smaže ji. Díky tomuto mechanismu je možné najít daný zdroj, i když se jeho umístění změnilo. [27]
3.4.3 HDL Slovo Handle se do češtiny nepřekládá, ale je tímto názvem označován jeden z nejběžnějších trvalých identifikátorů. Jde o americkou verzi identifikátoru URN. Založila ho americká Korporace pro národní výzkumné iniciativy CNRI (Corporation for National Research Initiatives). Původně byl navržen pro přístup k technickým zprávám uloženým v digitálním archivu. Díky systému Handle je digitálnímu objektu umožněno, aby byl identifikován, byl přístupný a chráněný. Digitální objekt i v tomto případě může být spojen s metadaty. [28] Identifikátory jsou přidělovány institucemi, které stanovuje Globální služba. Identifikátor Handle je složen ze 2 částí, které jsou od sebe odděleny lomítkem. První část je tvořena z názvu instituce, která identifikátor přidělila. Může obsahovat desetinné číselné notace nebo jména složená z písmen a číslic. Druhá část je vytvořena z názvu konkrétního digitálního objektu. Jméno je opět přiděleno institucí. Jméno může být jakkoli dlouhé, pod podmínkou, že se skládá ze znaků definovaných v UCS-2. Příklady: cnri-1/1995.02.12.16.42.21;9 1012.Theses/1998-Charland.Nathalie(1970)-[HTML] 1721.1/14399
35
Identifikátory
Systém Handle směruje identifikátory nezávisle na DNS a nemusí spoléhat na URL. Může je ale využívat prostřednictvím proxy serverů, které identifikátor na URL přesměrují, a stále zajišťují a aktualizují vazby mezi nimi. Systém je spravován globálním serverem, který spravuje databázi institucí a korporací, které identifikátory HDL přidělují. Handle je využíván k řadě projektů. Systém Handle je integrován ve volně dostupném systému DSpace, se například užívá pro uchovávání a určování plagiátorství u bakalářských prací. Také je užíván různými repozitáři po celém světě. Byl taktéž základem pro vývoj systému DOI. Jedná se o identifikátor, který je spolehlivý a dále se rozvíjí.
3.4.4 DOI Jedná se o trvalý identifikátor digitální objektu, který je z velké části postaven na HDL. Jak už napovídá samotný název identifikátoru, byl vytvořen pro identifikaci a komunikaci mezi digitálními objekty a jejich metadaty hlavně v internetové síti. Tento identifikátor je využíván převážně pro komerční účely nakladatelů, producentů nebo distributorských společností, ale je podstatný pro elektronický obchod a správu autorských práv. [29] Identifikátorem DOI je možné označit jakýkoli digitální objekt. Jsou jím označována tvůrčí díla a jejich zhmotnění. Může být přiděleno i abstraktnímu vyjádření tvůrčího díla, ale uplatní se především pouze prostřednictvím metadat. DOI pomocí směrování umí vyhledat stejné objekty, i když mají odlišná URL a to v rámci internetu, databází či různých archivů digitálních knihoven. DOI je kompatibilní a využívá další identifikátory. Systém DOI je plně řízen Mezinárodní nadací DOI (International DOI Foundation) a je definován normou ISO 26324:2010. Information and documentation -- Digital object identifier systém. Skladba je plně odvozena od systému Handle. Identifikátor je složen ze 3 částí, které jsou od sebe odděleny lomítkem, a je tvořen libovolnými znaky, které podléhají kódování znaků UCS-2. První část (prefix) je složena z Indikátoru adresáře (Directory indicator), pro který je používáno číslo 10, po něm následuje tečka a na ní navazuje kód čísel (v budoucnu možná i písmen) 36
Identifikátory
označující registrující instituci (Registrant code). Prefix je možno dále oddělovat tečkami a přidělovat další kódy. Druhá část (sufix) jednoznačně identifikuje daný objekt. Může se jednat o pořadové číslo nebo další identifikátor. Příklady: 10.1000/182 10.1145/336597.336660 10.1016/j.acalib.2006.04.004 10.100X/ISBN-900512-44-0 Mezinárodní nadace dohlíží na registrační agentury, které přidělují prefixy jednotlivým institucím. Mezi nejznámější registrační agentury patří CrossRef, Nielsen BookData, MEDRA, R. R. Bowker, OPOCE, TIB.
Neziskovou a nezávislou organizací PILA (Publishers International Linking Association) byl vyvinut systém CrossRef, který využívá identifikátoru DOI, aby při propojování elektronických dokumentů nedocházelo k odkazování se na neplatné adresy URL. Umožňuje lepší přístup k materiálům v oblasti internetu. Propojuje vědecké práce s jejich bibliografickými záznamy. Původně se jednalo jen o oblast přírodních a technických věd a medicíny. Postupem času se systém uchytil i v dalších odvětvích. Systém sám o sobě není databází, ale odkazuje na určité dokumenty, například formou citací. V systému CrossRef dochází k propojení identifikátoru DOI s metadaty daného objektu a jeho URL. Ty jsou ukládány do databáze MDDB ve formátu XML. Následně je informace o spojení DOI s URL předána do centrálního adresáře, kde je mezi nimi vytvořena pevná vazba. Systém využívá směrovací službu Mezinárodní nadace DOI. Pomocí tohoto identifikátoru je možné při klikání na celý identifikátor provádět řadu operací, jelikož uživatel má možnost propojení k více objektům najednou, jako jsou části objektu nebo jeho metadata. Zatím je tento identifikátor využíván převážně na západních zemích.
37
Identifikátory
3.4.5 PURL Identifikátor PURL je jakýmsi nástupcem URL jako takového, ovšem s rozdílem, že lokátor je oddělen od jmen internetových zdrojů a URL měnit můžeme, kdežto PURL nikoli. PURL nenavádí klienta na určité místo uložení objektu, ale na směrovací službu, která využívá HTTP protokolu. Databáze směrovací služby má v sobě vedle PURL uložené URL, na kterém se daný zdroj nachází. Identifikátor je složen ze 3 částí. V první části je označen protokol HTTP, ve druhé je zachycena směrovací služba prostřednictvím DNS. V třetí části je obsažen název informačního zdroje. Příklady: http://purl.oclc.org/keith/home http://purl.oclc.org/OCLC/PURL/FAQ Software pro tvorbu PURL je volně dostupný na stránkách společnosti OCLC, která jej vytvořila. Na stránkách o PURL v sekci help je také pěkný návod na jeho vytvoření. [30]
3.4.6 ARK Jeden z nejnovějších a zvláštních identifikátorů, který má uplatnění v široké sféře informačních zdrojů různého typu. Založen na URL a vytvořen především pro použití na digitálních objektech. Mimo digitálních objektů může také identifikovat fyzické (sochy, knihy) nebo nehmatatelné (onemocnění, slovníky, chemické látky) objekty. Cílem při tvorbě bylo vytvoření stabilního jména (odkazu), které by bylo trvale spojeno s objektem. Identifikátor byl vytvořen v Kalifornii. Identifikátor se skládá ze dvou částí. Na začátku identifikátoru je uveden protokol a jméno serveru. Protože byl identifikátor ARK navrhnut z důvodu, že objekty přežívají své původní umístění, jméno serveru se může měnit. Ale název, který následuje po zkratce AKR nikoli. Druhá neměnná část se skládá z názvu instituce či organizace, která identifikátor přiděluje. Je zastoupena číslicemi, které jsou vedeny v databázi Kalifornské univerzity. Například číslo pro Google je 78319. Konec tvoří samotný název objektu. 38
Identifikátory
Příklad [31] http://example.org/ark:/13030/654xz321/s3/f8.05v.tiff Příklad změny serveru: http://bnf.fr/ark:/13030/tf5p30086k
na
http://portico.org/ark:/13030/tf5p30086k
3.4.7 Digitální podpis Klasické dokumenty bývají opatřeny vlastnoručním podpisem, který stvrzuje jeho obsah, originalitu a identifikuje autora. V elektronické podobě se jako autor může podepsat kdokoli, aniž by jím doopravdy byl. Abychom zabránili nežádoucím úpravám a prokázali důvěryhodnost daného dokumentu, můžeme jej opatřit digitálním podpisem, certifikátem a popřípadě časovým razítkem. Pro popsání digitální podpisu jsem využila zdroje [32], [33], [34] Digitální podpis je založen na asymetrické šifře, která využívá dvojici klíčů, veřejný a soukromý. Jedním klíčem se dá zpráva v dokumentu zašifrovat, tím druhým dekódovat.
Asymetrické
šifrování je matematicky velmi náročné a proto se šifruje jen část zprávy tzv. otisk (hash). Pokud by byl dokument pozměněn, poznáme to tak, že jeho otisk bude jiný. Vlastnoruční podpis si je většinou alespoň trochu podobný, ale digitální podpis je vždy jiný, proto se řadí mezi identifikátory. Podpis jako takový, nám ale nic neřekne o autorovi. Aby byl digitální podpis důvěryhodný, je potřeba jeho ověření, které zajišťuje certifikát. Certifikát je vydáván fyzické nebo právnické osobě. Jeho přidělení má na starost certifikační autorita. Mezi významné certifikační autority v České republice patří První certifikační autorita, Czechia, TrustPort, Globe Internet a KPNQest Czechia. Certifikát je vydán na základě údajů, které můžeme doložit. U fyzické osoby prostřednictvím občanského průkazu, u právnické osoby například výpisem z obchodního rejstříku. Certifikát obsahuje sériové číslo, které je vždy jedinečné, datum vystavení a konce platnosti certifikátu, identifikační údaje o subjektu, kterému byl vydán, veřejný klíč a digitální podpis autorizační agentury. „Certifikát by se s trochou fantazie dal přirovnat k občanskému průkazu. Občanský průkaz vlastně spojuje identifikační údaje s jedinečným identifikátorem konkrétní osoby, kterým je v tomto případě její podoba (reprezentovaná fotografií). V případě 39
Identifikátory
certifikátu je tímto identifikátorem veřejný klíč.“ [33] Expirace certifikátu se odvíjí od síly zabezpečení klíče. Většinou je vydáván na dobu jednoho roku. Chytrým doplňkem digitálního podpisu je časové razítko. Nejenže dokumentu přidělíme datum, kdy byl vytvořen, ale také nám pomáhá v případě, že certifikát, který byl součástí digitálního podpisu, už není platný. Prošlé certifikáty jsou vystaveny na webu certifikační agentury, která je vystavila V případě, že by někdo našel náš certifikát jako neplatný, nepřikládal by dokumentu váhu. Časovým razítkem opět potvrzujeme důvěryhodnost dokumentu.
3.5
Porovnání URI a DOI
S URI se v případě užívání internetu setkává každý z nás a to prostřednictví URL adres. Jak již víme URI je zastoupeno pomocí schémat. Registrovaná schémata jsou uvedena na stránkách organizace IANA. Těmi nejběžnějšími jsou protokoly HTTP a HTTPS (zabezpečené http), FTP a DNS. Dále pak MAILTO a třeba INFO. Využíváno je jich ovšem více, tímto případem je schéma DOI, i když zatím patří mezi neschválená schémata. Při porovnání jsem vycházela ze zdrojů [27], [29], [35], [36] DOI je postavený na základech HDL, který je odnoží URN. Z URN a URL je složen URI. Avšak s URN jako takovým se nesetkáme, kdežto s DOI ano. DOI může být přiřazeno jakémukoli digitálnímu objektu, ale zatím je používán převážně vydavateli v oblasti odborné literatury. Slouží k lepšímu vyhledávání a dostupnosti plných textů. Jeho obrovskou výhodou oproti samotnému URL je trvalost. Jelikož URL není trvalý identifikátor, často místo zobrazení hledaného zdroje dojde k chybové hlášce 404 nenalezeno, která nikoho nepotěší. Odkaz DOI totiž vždy přesměruje klienta na stránky vydavatele nebo autora, kde je objekt uložen. Samotný identifikátor ale nestačí k tomu, abychom docílili dokumentu v jeho plné podobě. Předchozím odstavcem by mohl být vysvětlen rozdíl mezi URI a DOI. Problémem ale zatím zůstává samotné fungování DOI. V případě URL víme, že jej zadáme do pole adresy ve vyhledávači. Nebo prostřednictvím vyhledávače zadáme dotaz a vyhledavač nám vrátí výsledky s odkazem na adresy, kde se daný objekt nachází. Jak už bylo jednou zmíněno, ne vždy je 40
Identifikátory
stránka v platnosti. Ale co s DOI? Slouží k vyhledávání, ale pokud jej zapíšeme v příslušeném formátu do pole s adresou, tak se žádný výsledek nezobrazí. Pro práci s DOI nám totiž samotný vyhledavač nestačí. Musíme mít nainstalovány určité doplňky, které tuto službu umožňují. Například pro prohlížeč Mozilla Firefox je tento doplněk ke stažení pod příznačným názvem DOI Search 1.0. Nebo nám vyhledávání umožňuje referenční propojovací služba CrossRef. Tento systém je založen na trvalých identifikátorech, se kterými jsou spojena standardizovaná metadata, metodách umožňující vyhledání identifikátorů pomocí metadat a metodách pro propojení obsahu s identifikátory. Systém uchovává pouze databázi metadat, která jsou propojena s DOI a s ním jsou spojené adresy URL, na kterých se daný objekt nachází. Autor digitálního objektu může nabízet další služby, které umožňují k přechodu na alternativní odkaz, jiné materiály vztahující se k článku či získání informací o autorovi samotném. Výhody tohoto systému jsou jak pro autory, knihovny, tak čtenáře. K autorovi tyto odkazy přivádějí nové zájemce o daný objekt. Ve chvíli kdy autor (vydavatel) začne používat CrossRef, uzavírá smlouvu i s ostatními autory, kteří jsou v systému zapojeni, což šetří čas i peníze. Pro knihovny je nesmírnou výhodou úspora místa, jelikož samotné dokumenty nemusí nikde uskladňovat. Zájemci o daný dokument, převážně psaná díla, mohou přecházet mezi jednotlivými články pomocí citací, bez ohledu na to, kde je dokument vystaven. Srovnání je následující. Prostřednictvím URI se dají získat jakékoli odkazy prostřednictvím URL vykonat různé činnosti například nahrát na web jeho obsah nebo odeslat zprávu. Má široké spektrum použití převážně v počítačové oblasti. DOI může i nemusí být součástí URI, ale rozhodně neumožňuje takovou škálu operací jako URI samotné. Pouze funkce URI o něco rozšiřuje. Využíván je také převážně v oblasti psaných textů. Oproti samotnému URL je ale zase trvalý. Slouží dobře k vyhledávání informací, ovšem já osobně bych jeho použití rozšířila třeba na software, kdy bych měla k ruce popis programu, k čemu slouží, co je k němu potřeba, jedná se o volně dostupný program nebo si jej musím zakoupit, popřípadě jaký je další software zabývající se danou problematikou a jaká jsou k němu rozšíření. Dále doufám, že DOI bude rozvíjet dalšími směry a bude více začleňován do funkcí vyhledávačů, abychom při získání informace o jakémkoli digitálním dokumentu nebo objektu mezi nimi mohli volně přecházet a jednalo se o zaručené a relevantní zdroje. 41
Závěr
4
Závěr
V této práci jsem si vyzkoušela, že zaobírat se určitou problematikou není jednoduché a dát dohromady informace z různých zdrojů, aby poskytly odpovědi na otázky, stojí nějakou práci. V první kapitole jsem se snažila vymezit pojem elektronický dokument. Jako bylo století páry nebo století spojené s velkým rozvojem průmyslu, tak nynější století by se dalo označit jako digitální věk. S digitálními či elektronickými věcmi se každý z nás setkává denodenně. Ať už používáním digitálních hodinek, díváním se na televizi, při práci s počítačem v zaměstnání nebo doma nebo při koupi nového vozu, kdy jsme vyměnili klasická táhla třeba za elektronický plyn. Vše je řízeno pomocí čipů, procesorů a počítačů. Když pracujeme s počítačem, vytváříme různé digitálně zpracované objekty. Můžeme napsat knihu, která je následně vydána nebo jen prostý text, kterým si třeba zapíšeme recept. Můžeme také napsat program, jednoduchou aplikaci nebo webovou stránku. Záleží na našich znalostech a vědomostech a také je to o tom, čím se zabýváme. Dopisní papír už jsme také vyměnili za email. Z důvodu efektivity práce jsou ve společnostech zaváděny různé informační systémy, které eliminují tzv. byrokratická kolečka. Používání všech těchto výdobytků dnešní doby vede ke zrychlení, usnadnění a dostupnosti. Těmito procesy vzniká mnoho digitálních dokumentů, které je potřeba z důvodu usnadnění vyhledávání, úprav, uchování a samotným vyznáním se v této džungli, nějak propojit. Informace, které s danými objekty souvisí, jsou uloženy prostřednictvím metadat. A i když je snaha o jejich standardizaci, tak mě při psaní této práce překvapilo, že například instituce, které spravují identifikátory určitých objektů a vědí, že metadata jsou důležitá, tak v případě svých webových stránek tento faktor opomíjí. Každopádně pojem elektronický dokument a digitální objekt je nějak definován. Ale definice sama o sobě nic říkat nemusí. Pro jeho zkonkrétnění je potřeba jej přiblížit. Nastínit se dá vždy pro danou oblast. Základem zůstává, že je založený na binárním kódu a může jím být vlastně cokoli, co tento fakt splňuje. Proto jsem pro udělání představy, čím elektronický dokument je, zmiňovala druhy formátů základních elektronických formátů. Vedle metadat, která uchovávají určité informace o daném dokumentu je za potřebí různých programů, 42
Závěr
které s danými digitálními objekty umí pracovat. Ale je také nutné dokumenty označit něčím, co je spojuje a zároveň i odlišuje. K tomu nám slouží identifikátory. Nejsou ničím novým, ovšem v oblasti digitálních dokumentů dochází nejen k propojování dokumentů, informací o nich a identifikátoru ale také k propojování identifikátorů s identifikátory. Proto jsou identifikátory určené digitálním objektům komplexnější a ne tak zdánlivě jednoduché jako třeba identifikátor ISBN, se kterým se určitě každý minimálně jednou setkal. Je vynikající, že z důvodu dlouhodobé ochrany digitálních dat jsou objektům přiřazovány trvalé identifikátory, které zaručují jejich dostupnost, ale stále jsou dostupné převážně z různých databází, které nejsou vždy volně přístupné. Největší a nejvíce užívanou databází je internet, který pomocí dotazu prostřednictvím vyhledávače nachází výsledky. Ovšem s ním jako takovým identifikátory prozatím propojené nejsou, až na URI, ale to ve své podstatě dělá internet internetem. Což je škoda, jelikož by to neskutečně urychlilo vyhledávání. A v případě propojení internetu se samotným identifikátorem DOI by se jednalo o „informační boom“. Je ale faktem, že této oblasti k vývoji dochází. Zdárným příkladem jsou například google books. Doufám, že k vývoji bude docházet i nadále, ne z důvodu, že bych neměla ráda kouzlo klasické knihovny a byla pohodlná, i dnes při rozmachu internetových obchodů dám ráda přednost kamenné prodejně, ale z důvodu získání dobrých informací. A na každém z nás je, jestli informace nalezená v digitálním světě je dostačující nebo po jejím nalezení je potřeba pátrat dále v tom reálném. Více se o tématu identifikátorů dá dozvědět z díla [13], ze kterého jsem v případě druhé kapitoly čerpala. Samotné porovnání identifikátorů URI a DOI na konec vypovídá o možnosti zkompletování identifikátorů, ale zatím ne všechny digitální objekty jsou opatřeny identifikátorem DOI a internetové vyhledávače touto cestou zatím pracovat neumí. Tedy bez nutnosti nainstalování různých ovládacích prvků, které prohlížeč přesměrovávají do databází. Ale ne vždy máme k dispozici svůj počítač, nebo práva k nainstalování podpůrných programů. Opět je to ale něco, co se blíží a za pár let to může být součástí života, bez které bychom si jej představit dovedli už jen těžko. Bez ohledu na vývoj, jsem se v této práci snažila uvést současný stav daného tématu. Její zhodnocení, a jestli je přínosem už nechám na Vás.
43
Seznam použité literatury
Seznam použité literatury
1. KNOLL, Adolf. Problematika elektronických publikací. Národní knihovna : knihovnická revue [online]. 1999, roč. 10, č. 4, s. 173-177. [cit. 2010-12-09]. Dostupné z WWW: . ISSN 1214-0678.
2. BUCKLAND, Michael K. Michael Buckland Home Page [online]. 1998 [cit. 2010-1120]. What is a digital document? Dostupné z WWW:
3. CELBOVÁ, Ludmila. Elekronický dokument. In RESSLER, Miroslav. Výkladový slovník české terminologie z oblasti informační vědy a knihovnictví [online]. verze 1.0. Praha : Vydavatelství VŠCHT, 2006 [cit. 2010-12-09]. Dostupné z WWW: . ISBN 80-7080-599-4. 4. KUČEROVÁ, Helena. Digitální objekt. In RESSLER, Miroslav. Výkladový slovník české terminologie z oblasti informační vědy a knihovnictví [online]. verze 1.0. Praha : Vydavatelství VŠCHT, 2006 [cit. 2010-12-09]. Dostupné z WWW: . ISBN 807080-599-4. 5. KOSEK, Jiří. Domovská stránka Jirky Koska : Vše o WWW [online]. 1999 [cit. 2010-1209]. SGML: Standard Generalized Markup Language. Dostupné z WWW: .
44
Seznam použité literatury
6. BRATKOVÁ, Eva. Metadata jako nový nástroj pro komunikaci webovských informačních zdrojů. Národní knihovna : knihovnická revue [online]. 1999, roč. 10, č. 4, s. 178–195. [cit. 2010-12-09]. Dostupný z WWW: . ISSN 1214-0678. 7. Masarykova univerzita : Ústav výpočetní techniky [online]. 23. 8. 2006 [cit. 2010-12-16]. Charakteristika Dublin Core. Dostupné z WWW: . 8. KRČÁL, Martin. Digitalizace dokumentů - skenování [online]. Brno : Masaykova univerzita, 2004. 14 s. Seminární práce. Masarykova univerzita v Brně. Dostupné z WWW: . 9. BERÁNEK, Zdeněk. Elektronické publikování. Události na VUT v Brně [online]. 2000, 4-5, [cit. 2010-12-17]. Dostupný z WWW: . 10. HUTAŘ, Jan. Národní digitální knihovna [online]. 04.10.2010 [cit. 2010-12-16]. Dlouhodobá ochrana digitálních dat. Dostupné z WWW: .
11. PASQUI, Valdo. Digital preservation Europe [online]. 2008 [cit. 2010-12-16] Ochrana digitálních dat a otevřené archivy. Dostupné z WWW: . 12. LORENC, Miroslav. Lorenc.info [online]. 2007 [cit. 2010-12-16]. Kontrola rodného čísla. Dostupné z WWW: .
45
Seznam použité literatury
13. BRATKOVÁ, Eva. Síť trvalých identifikátorů informačních entit [online]. Praha : Ústav informačních studií a knihovnictví FF UK, 2007 [cit. 2010-12-16]. Dostupné z WWW: .
14. BELLINI, Emanuele, CIRINNA, Chiara a LUNGHI, Maurizio. Digital preservation Europe [online]. 2008 [cit. 2010-12-16]Trvalé identifikátory pro kulturní dědictví. Dostupné z WWW: .
15. PASKIN, Norman. Digital preservation Europe [online]. 2008 [cit. 2010-12-16] Interoperabilita identifikátorů. Dostupné z WWW:
. 16. Národní knihovna České republiky [online]. 27.07.10 [cit. 2010-12-16]. ISBN a další
identifikátory. Dostupné z WWW: .
17. International ISBN Agency [online]. 2009 [cit. 2010-12-17]. Dostupné z WWW: . 18. JEŘÁBEK, Antonín. Národní knihovna České republiky [online]. 2.8.2010 [cit. 2010-1216]. MEZINÁRODNÍ REGISTRAČNÍ SYSTÉMY. Dostupné z WWW: .
19. ISSN international centre [online]. 2008 [cit. 2010-12-17]. Dostupné z WWW: . 20. JEŘÁBKOVÁ, Eva. ISSN-L – novinka 4. revidovaného vydání normy ISO 3297 ISSN. Ikaros : Elektronický časopis pro informační společnost [online]. 2007, 11, 10, [cit. 2010-12-16]. Dostupný z WWW: . ISSN 1212-5075. 46
Seznam použité literatury
21. ISAN International Standard Audiovisual Number [online]. 2003 [cit. 2010-12-17]. Dostupné z WWW: .
22. ISWC International Agency [online]. 2005, 2009 [cit. 2010-12-17]. Dostupné z WWW: . 23. Intergram : Nezávislá společnost výkonných umělců a výrobců zvukových a zvukově obrazových záznamů o.s. [online]. [cit. 2010-12-17]. Dostupné z WWW: .
24. ISTC International Standard Text Code [online]. c2010 [cit. 2010-12-17]. All about ISTC. Dostupné z WWW: . 25. TECHNOR [online]. 2008, 14. 12. 2010 [cit. 2010-12-17]. ČSN ISO 10444 Informace a dokumentace - Mezinárodní standardní číslo technické zprávy (ISRN). Dostupné z WWW: .
26. SATRAPA, Pavel. Domovská stránka Pavla Satrapy [online]. 2007 [cit. 2010-12-17]. Webové adresy. Dostupné z WWW: .
27. World Wide Web Consorcium [online]. Verze 1.0. 21. 9. 2001 [cit. 2010-12-17]. URIs, URLs, and URNs: Clarifications and Recommendations. Dostupné z WWW: .
28. Handle System [online]. c2010 [cit. 2010-12-17]. Dostupné z WWW: .
29. The doi system [online]. 2004, 2010 [cit. 2010-12-18]. Frequently Asked Questions about the DOI® System. Dostupné z WWW: <www.doi.org>. 47
Seznam použité literatury
30. PURL [online]. [cit. 2010-12-17]. Dostupné z WWW: .
31. WILLETT, Perry . University of California DCL [online]. 21. 12. 2009 [cit. 2010-12-17]. ARK Anatomy. Dostupné z WWW: .
32. DOLEŽAL, Dušan. Interval.cz [online]. 23. 10. 2002 [cit. 2010-12-16]. Jak funguje digitální podpis. Dostupné z WWW: .
33. DOLEŽAL, Dušan. Interval.cz [online]. 21. 01. 2003 [cit. 2010-12-16]. Co je to digitální certifikát. Dostupné z WWW: .
34. VRABEC, Vladimír. Interval.cz [online]. 03. 06. 2003 [cit. 2010-12-16]. Elektronické časové razítko, doplněk elektronického podpisu. Dostupné z WWW: . 35. FABIÁN, Ondřej; BUDÍNSKÝ, Lukáš. Spolupráce SFX s identifikátorem DOI – funkce Cookie Pusher. Ikaros [online]. 2009, 13, 7, [cit. 2010-12-18]. Dostupný z WWW: . 36. ROSICKÝ, Jan. Crossref - referenční propojovaci služba založená na DOI [online]. Brno : Masaykova univerzita, 13.12. 2005. 4 s. Esej. Masarykova univerzita v Brně. Dostupné z WWW: .
48