1 VŠB - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Úložiště digitálních dat pro potřeby ÚK VŠB-TU Ostrava ...
VSˇB - Technicka´ univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky
´ lozˇisˇteˇ digita´lnı´ch dat pro potrˇeby U ´ K VSˇB-TU Ostrava I U Diplomova´ pra´ce
2006
Bc. Dusˇan Jalu˚vka
Prohlasˇuji, zˇe jsem tuto diplomovou pra´ci vypracoval samostatneˇ. Uvedl jsem vsˇechny litera´rnı´ prameny a publikace, ze ktery´ch jsem cˇerpal.
V Ostraveˇ 4. kveˇtna 2006
.............................
Ra´d bych na tomto mı´steˇ podeˇkoval vsˇem, kterˇ´ı mi s pracı´ pomohli, protozˇe bez nich by tato pra´ce nevznikla.
Abstrakt Te´matem pra´ce je nale´zt nejlepsˇ´ı rˇesˇenı´ pro implementaci a zprovozneˇnı´ digita´lnı´ho u´lo´ strˇednı´ knihovnu Vysoke´ sˇkoly ba´nˇske´ – Technicke´ univerzity Ostrava. Pra´ce zˇisˇteˇ pro U se zaby´va´ obecny´mi digita´lnı´mi knihovnami a srovna´va´ syste´my DSpace a Eprints, pouzˇ´ıvane´ jako digita´lnı´ repozita´rˇe. Z teˇchto dvou syste´mu˚ se jevı´ jako lepsˇ´ı volba DSpace. Tento syste´m je podrobneˇ popsa´n, stejneˇ tak postup, jak byl syste´m prˇizpu˚sobova´n potrˇeba´m univerzitnı´ knihovny. Popisuje take´ postup prˇi prˇevodu dat ze syste´mu T-Series do DSpace. Pra´ce obsahuje take´ prˇ´ırucˇku administra´tora a knihovnı´ka, ktera´ byla k syste´mu DSpace vytvorˇena. Klı´cˇova´ slova: digita´lnı´ knihovna, DSpace, repozita´rˇ, metadata, identifika´tor
Abstract The main subject of this work is to find the best solution for implementing digital repository at Central library in VSB – Technical university of Ostrava. This thesis concern with common digital library and compare two systems – DSpace and Eprints used as digital repository. DSpace appears as best choice between these systems. This system is described in detail and next is described building this repository in Central library. There are described problems which appear during building this repository system. Also there is described process to convert data from T-Series to DSpace. In the end is described user–administrator guidebook, which was created for DSpace. Keywords: digital library, DSpace, repository, metadata, identifier
Seznam pouzˇity´ch zkratek a symbolu˚ J2SE OAI PHM GPL DC MIT HP CNRI PDF RDF XML HTML
– – – – – – – – – – – –
Java 2 Standard Edition Open Archives Iniciative Protocol for Metadata Harvesting GNU Public Licence Dublin Core Massachussetts Institute of Technology Hewlett Packard Corporation for National Research Initiative Portable Document Format Resource Description Framework eXtensible Markup Language HyperText Markup Language
´ vod 1 U V dnesˇnı´ modernı´ pocˇ´ıtacˇove´ dobeˇ stoupa´ potrˇeba uchova´vat a zprˇ´ıstupnˇovat dokumenty elektronickou formou. Sˇ´ırˇenı´ informacı´ ulozˇeny´ch klasicky v tisˇteˇne´ podobeˇ ma´ sva´ omezenı´ a v e´rˇe globa´lneˇ pouzˇ´ıvane´ho me´dia, Internetu, jde o prˇekonanou praxi. Z tohoto pohledu nabı´zı´ digita´lnı´ repozita´rˇe mnoho podob vyuzˇitı´. Sˇiroke´ uplatneˇnı´ nacha´zejı´ digita´lnı´ repozita´rˇe v knihovna´ch a vy´zkumny´ch centrech. Klasicke´ knihovny zrˇizujı´ tzv. digita´lnı´ knihovny pro zı´ska´va´nı´, uchova´va´nı´, zprˇ´ıstupnˇova´nı´ a organizova´nı´ dokumentu˚, ktere´ majı´ k dispozici v elektronicke´ podobeˇ. Vy´zkumna´ centra vyuzˇ´ıvajı´ digita´lnı´ u´lozˇisˇteˇ pro sdı´lenı´ a prezentova´nı´ vy´sledku˚ vy´zkumu˚ a jiny´ch cˇinnostı´. Oproti klasicke´ knihovneˇ prˇina´sˇ´ı digita´lnı´ knihovna rˇadu vy´hod. Prˇedevsˇ´ım dovede uchovat daleko veˇtsˇ´ı mnozˇstvı´ informacı´ a doka´zˇe tyto dokumenty uchova´vat ve sta´le stejne´ kvaliteˇ. Dalsˇ´ı vy´hodou digita´lnı´ch u´lozˇisˇt a knihoven je fakt, zˇe nemusı´ uchova´vat jen textove´ dokumenty, ale doka´zˇe uchovat ru˚zne´ forma´ty dat od fotografiı´ technicky´ch vy´kresu˚, azˇ po videoza´znamy ru˚zny´ch konferencı´ a podobneˇ. Takove´ vy´hody sice mohou poskytnout i jine´ technologie nezˇ digita´lnı´ knihovny, ale ty zase majı´ jine´ nevy´hody, ktere´ znemozˇnˇujı´ pouzˇitı´ v plne´m rozsahu. Tyto nevy´hody budou popsa´ny da´le v textu. ´ strˇednı´ knihovneˇ Vysoke´ Cı´lem pra´ce by meˇlo by´t poskytnutı´ digita´lnı´ho u´lozˇisˇteˇ U sˇkoly ba´nˇske´ – Technicke´ univerzity Ostrava, ktera´ by pomocı´ neˇho zprˇ´ıstupnˇovala digita´lnı´ verze naskenovany´ch cˇla´nku˚ ze sbornı´ku˚ veˇdecky´ch pracı´ a elektronicke´ verze kvalifikacˇnı´ch pracı´ studentu˚. Meˇlo by probeˇhnout porovna´nı´ neˇkolika prˇipraveny´ch syste´mu˚ pro digita´lnı´ u´lozˇisˇteˇ a na za´kladeˇ zkusˇenostı´ s nimi by meˇl by´t vybra´n jeden z nich. Do tohoto syste´mu by meˇly by´t prˇevedeny data z jiny´ch syste´mu˚, ktere´ jsou pro tyto potrˇeby nevyhovujı´cı´.
Popis kapitol V te´to pra´ci se budu zby´vat problematikou: 1. Prvnı´ kapitola je u´vod, 2. bude podrobneˇ rozvedena problematika digita´lnı´ch knihoven, budou popsa´ny jejich vy´hody a nevy´hody ve srovna´nı´ s klasicky´mi knihovnami a pouzˇ´ıvane´ technologie a standardy, 3. bude popsa´n proces vy´beˇru spra´vne´ho syste´mu pro nasazenı´ a v ra´mci tohoto procesu take´ srovna´nı´ dvou rozsˇ´ırˇeny´ch syste´mu˚ DSpace a Eprints. Vybrany´ syste´m bude du˚kladneˇji popsa´n, ´ strˇednı´ knihovneˇ Vysoke´ sˇkoly Ba´nˇske´ – Technicke´ univerzity Ostrava jsem vy4. v U zkousˇel uve´st do provozu software, ktery´ byl vytvorˇen pra´veˇ za u´cˇelem uchova´va´nı´ digita´lnı´ch dat. Provedl jsem na neˇm rˇadu u´prav, aby prˇesneˇ splnˇoval pozˇadavky kladene´ na uchova´va´nı´ digitalizovany´ch cˇla´nku˚ a vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´. V te´to kapitole popı´sˇi postup prˇi u´prava´ch a implementaci tohoto digita´lnı´ho repozita´rˇe,
1
´ VOD U
6
5. kapitola 5 popisuje prˇ´ırucˇku pro administra´tora a knihovnı´ka, ktera´ byla v ra´mci diplomove´ pra´ce vytvorˇena. Meˇla by ulehcˇit pochopenı´ slozˇiteˇjsˇ´ıch u´konu˚ prˇi administraci syste´mu. 6. v za´veˇru se pokusı´m zhodnotit vy´sledky pra´ce a zmı´nı´m se o tom, jak by se dal syste´m da´le rozsˇ´ırˇit.
2
TEORIE DIGITA´LNI´CH KNIHOVEN
7
2 Teorie digita´lnı´ch knihoven Nynı´ bude podrobneˇ popsa´na problematika digita´lnı´ch knihoven, co takova´ digita´lnı´ knihovna znamena´ a jak se lisˇ´ı od klasicke´ knihovny. Popı´sˇi vy´hody a nevy´hody digita´lnı´ch knihoven a ve strucˇnosti se zmı´nı´m o technologiı´ch spojeny´ch s digita´lnı´mi knihovnami a u´lozˇisˇteˇmi.
2.1 Co je digita´lnı´ knihovna Digita´lnı´ knihovna je knihovna, ve ktere´ nejveˇtsˇ´ı zastoupenı´ zdroju˚ prˇedstavujı´ dokumenty v elektronicke´ podobeˇ. Dokument v elektronicke´ podobeˇ mu˚zˇe by´t vytvorˇen prˇ´ımo pomocı´ pocˇ´ıtacˇe nebo se pomocı´ neˇjaky´ch elektronicky´ch zarˇ´ızenı´ (naprˇ´ıklad skeneru) prˇevedou jizˇ existujı´cı´ tisˇteˇne´ dokumenty do podoby digita´lnı´ch dat. Tato data mohou by´t pomocı´ pocˇ´ıtacˇe prˇevedena do cˇitelne´ podoby, naprˇ´ıklad vytisknuty na papı´r nebo zobrazeny na monitoru pocˇ´ıtacˇe. Takovy´ digita´lnı´ dokument pak mu˚zˇe by´t ulozˇen na jednom mı´steˇ a mu˚zˇe se k neˇmu prˇistupovat pomocı´ pocˇ´ıtacˇove´ sı´teˇ nebo prˇ´ımo loka´lneˇ. Definice digita´lnı´ knihovny by mohla znı´t naprˇ´ıklad takto: „Digita´lnı´ knihovna je sbı´rka digita´lnı´ch objektu˚, obsahujı´cı´ch text, video, zvuk, technicke´ zpra´vy, . . . “. Spolecˇny´m prvkem digita´lnı´ch a klasicky´ch „kamenny´ch“ knihoven je text. Textove´ objekty v digita´lnı´ch knihovna´ch nazy´va´me dokumenty. Digita´lnı´ knihovny ale nemusı´ obsahovat jen textove´ dokumenty, jejich univerza´lnost dovoluje uchova´vat naprˇ´ıklad hudbu v mnoha reprezentacı´ch (audio nahra´vky, notove´ za´pisy, MIDI nahra´vky a dalsˇ´ı), technicke´ dokumenty (vy´kresy v digita´lnı´ podobeˇ, specifikace, a dalsˇ´ı), video (za´znamy prˇedna´sˇek, snı´mky ze staciona´rnı´ druzˇice, a dalsˇ´ı), software, obra´zek (umeˇlecke´ fotografie, geograficke´ mapy, a dalsˇ´ı), a jine´. Protozˇe by takove´ typy digita´lnı´ch objektu˚ byly sˇpatneˇ vyhledatelne´, ke kazˇde´mu takove´mu objektu se v digita´lnı´ch knihovna´ch uchova´vajı´ tzv. metadata. Metadata jsou popisna´ data dokumentu (data o datech), ktera´ popisujı´ obsah digita´lnı´ch objektu˚ pro jejich snadneˇjsˇ´ı vyhleda´va´nı´. Metadata mohou obsahovat informace o autorovi, forma´tu, velikosti, sta´rˇ´ı a dalsˇ´ı u´daje o digita´lnı´m objektu v archivu. Podrobneˇjsˇ´ı popis metadat bude v kapitole 2.5.1. Hlavnı´mi funkcemi digita´lnı´ch knihoven je zı´ska´va´nı´, zpracova´va´nı´, uchova´va´nı´, zprˇ´ıstupnˇova´nı´ a ochrana dat. Zı´ska´va´nı´m dat se rozumı´ neusta´le´ prˇida´va´nı´ novy´ch objektu˚ do archivu digita´lnı´ knihovny. Prˇida´va´nı´ mu˚zˇe prova´deˇt naprˇ´ıklad knihovnı´k rucˇnı´m vkla´da´nı´m novy´ch objektu˚ a vypisova´nı´m metadat nebo automatizovane´ mechanismy pro sbeˇr dat. Takovy´m mechanismem je naprˇ´ıklad protokol OAI-PHM, ktery´ bude podrobneˇji popsa´n v kapitole 2.5.2. Zpracova´nı´m je mysˇleno spra´vne´ trˇ´ıdeˇnı´ digita´lnı´ch objektu˚ podle jejich obsahu a prˇirˇazenı´ jednoznacˇne´ho identifika´toru, tzn. prˇidat naprˇ´ıklad digita´lnı´ mapu povrchu Marsu do sbı´rky digita´lnı´ch map a prˇirˇazenı´ spra´vne´ho a jedinecˇne´ho identifika´toru. Identifika´toru˚m se podrobneˇji veˇnuje kapitola 2.5.3. Uchova´va´nı´m rozumı´me ulozˇenı´ digita´lnı´ho objektu do spolecˇne´ho archivu vsˇech dat a udrzˇova´nı´ dat v takove´m forma´tu, aby byly kdykoliv cˇitelne´ (tzn. aby byly v takove´m forma´tu, zˇe pu˚jdou otevrˇ´ıt beˇzˇnou aplikacı´). Metody takove´ho udrzˇova´nı´ forma´tu jsou podrobneˇji popsa´ny v kapitole 3.4.7. Soucˇa´stı´ uchova´va´nı´ je i ochrana dat, ktera´ by
2
TEORIE DIGITA´LNI´CH KNIHOVEN
8
meˇla zajistit bezpecˇne´ ulozˇenı´ dat a pravidelne´ za´lohova´nı´ cele´ho obsahu digita´lnı´ho archivu.Zprˇ´ıstupnˇova´nı´m rozumı´me zajisˇteˇnı´ dohledatelnosti objektu, aby se podle zadany´ch metadat bylo mozˇne´ dostat ke konkre´tnı´mu digita´lnı´mu objektu.
2.2 Pohled do historie knihoven Prvnı´ zmı´nka o „digita´lnı´ knihovneˇ“ je z roku 1945, kdyzˇ se Vannevar Bush ve sve´m viziona´rˇske´m cˇla´nku As We May Think [7] zaby´val efektivneˇjsˇ´ım „automatizovane´m“ zpracova´nı´ odborny´ch informacı´. Za dalsˇ´ıho „pru˚kopnı´ka“ digita´lnı´ch knihoven by´va´ povazˇova´n J. C. R. Licklider, ktery´ v roce 1965 publikoval knihu Libraries of the future [8], v nı´zˇ popisuje vy´zkum a vy´voj potrˇebny´ k realizaci opravdove´ digita´lnı´ knihovny. Prvnı´ skutecˇne´ digita´lnı´ knihovny se zacˇaly objevovat s veˇtsˇ´ım rozsˇ´ırˇenı´m vy´pocˇetnı´ techniky a pocˇ´ıtacˇovy´ch sı´tı´ pocˇa´tkem 90. let. Problematika digita´lnı´ch knihoven je natolik obsa´hla´, zˇe vy´voj probı´ha´ neusta´le a porˇa´d se objevujı´ nove´ mysˇlenky na vylepsˇenı´ sta´vajı´cı´ch syste´mu˚. Vı´ce se o historii digita´lnı´ch knihovna´ch mu˚zˇete docˇ´ıst v [6].
2.3 Vy´hody a nevy´hody digita´lnı´ch knihoven Tak jako majı´ digita´lnı´ knihovny vy´hody oproti klasicky´m knihovna´m, mohou z neˇktery´ch vy´hod plynout nevy´hody, ktere´ klasicke´ knihovny nemajı´. Rozdı´ly mezi obeˇma typy knihoven lze shrnout takto. Nejpodstatneˇjsˇ´ımi vy´hodami jsou: • proti klasicky´m knihovna´m nejsou digita´lnı´ knihovny omezeny skladovacı´m prostorem, protozˇe digitalizovana´ data zabı´rajı´ zanedbatelny´ prostor. Pro srovna´nı´: naprˇ´ıklad jedna rozsa´hla´ klasicka´ knihovna s rozlohou jedne´ budovy by mohla fungovat v ra´mci jedne´ mı´stnosti i s obsluhou, • do digita´lnı´ knihovny nemusı´te chodit, takzˇe digita´lnı´ knihovnu mu˚zˇe navsˇtı´vit soucˇasneˇ daleko vı´ce lidı´. Navı´c mu˚zˇete „navsˇtı´vit“ digita´lnı´ knihovnu vzda´lenou od va´s neˇkolik tisı´c kilometru˚ rychleji, nezˇ mı´stnı´ klasickou knihovnu, • s tı´m take´ souvisı´ provoznı´ doba knihovny, kterou mu˚zˇete navsˇtı´vit v kteroukoliv dennı´ cˇi nocˇnı´ dobu, • stejne´ dokumenty mu˚zˇe cˇ´ıst vı´ce lidı´ najednou, • v digita´lnı´ knihovneˇ mu˚zˇete vyhleda´vat podle fra´ze nebo klı´cˇovy´ch slov soucˇasneˇ v cele´m obsahu digita´lnı´ knihovny, • digita´lnı´ materia´l se daleko le´pe uchova´va´ a kopı´ruje, takzˇe kopie origina´lu neztra´cı´ na kvaliteˇ. Navı´c mu˚zˇe by´t obsah dokumentu konvertova´n do moderneˇjsˇ´ıch forma´tu˚, ktere´ se cˇasem vyvinou, • dı´ky propojenı´ vsˇech digita´lnı´ch knihoven internetem mu˚zˇe knihovna nabı´dnout prˇi hleda´nı´ i dokumenty, ktere´ jsou fyzicky ulozˇeny v jine´ vzda´lene´ digita´lnı´ knihovneˇ,
2
TEORIE DIGITA´LNI´CH KNIHOVEN
9
• cena provozu digita´lnı´ knihovny se mu˚zˇe zda´t nizˇsˇ´ı nezˇ u klasicke´ knihovny, ktera´ musı´ platit zameˇstnance, a jine´ poplatky. U digita´lnı´ knihovny se musı´ investovat nemale´ prostrˇedky do prˇevodu materia´lu˚ do digita´lnı´ podoby a do zajisˇteˇnı´ online prˇ´ıstupu (internetove´ prˇipojenı´, porˇ´ızenı´ a provoz serveru˚). Takzˇe se u mensˇ´ı knihovny mu˚zˇe prˇi porˇ´ızenı´ digita´lnı´ verze knihovny cena jevit jako nevy´hoda. Nevy´hod digita´lnı´ch knihoven nenı´ tolik jako vy´hod, ale pro neˇkoho mohou by´t docela za´sadnı´. Patrˇ´ı mezi neˇ: • na mnoho dokumentu˚ se vztahujı´ autorske´ pra´va, takzˇe nemohou by´t volneˇ prˇ´ıstupne´ vsˇem. Proto obsahem digita´lnı´ch knihoven by´vajı´ veˇtsˇinou verˇejneˇ dostupne´ dokumenty nebo dokumenty vlastnı´ produkce, • neˇkterˇ´ı lide´ tvrdı´, zˇe tisˇteˇne´ dokumenty se cˇtou mnohem le´pe nezˇ text zobrazeny´ na monitoru, ale to mu˚zˇe za´viset na prezentaci textu a preferencı´ch cˇtena´rˇu˚. Digita´lnı´ knihovna take´ nemu˚zˇe nahradit prostrˇedı´ a atmosfe´ru klasicke´ knihovny.
2.4 Mozˇnosti vyuzˇitı´ digita´lnı´ch knihoven Digita´lnı´ knihovny mohou mı´t daleko veˇtsˇ´ı uplatneˇnı´, nezˇ pouhe´ nahrazenı´ nebo vylepsˇenı´ sta´vajı´cı´ch klasicky´ch knihoven. Pouzˇ´ıvajı´ se take´ jako mohutna´ skladisˇteˇ pro ukla´da´nı´ dokumentu˚ nejru˚zneˇjsˇ´ıho typu v digita´lnı´ podobeˇ. 2.4.1 Instituciona´lnı´ repozita´rˇe Instituciona´lnı´ repozita´rˇ slouzˇ´ı ke sbeˇru digita´lnı´ho materia´lu z vy´zkumny´ch laboratorˇ´ı, akademicky´ch vy´zkumny´ch projektu˚, elektronicky´ch kvalifikacˇnı´ch pracı´ a dalsˇ´ıch. Obsah teˇchto typu˚ dokumentu˚ zprˇ´ıstupnˇuje akademicke´ komuniteˇ a cˇa´stecˇneˇ i sˇiroke´ verˇejnosti. Vybudova´nı´ takove´ho akademicke´ho repozita´rˇe bylo hlavnı´m cı´lem te´to pra´ce. Postup prˇi budova´nı´ instituciona´lnı´ho repozita´rˇe je podrobneˇji popsa´n v kapitole 3.5. 2.4.2 Digita´lnı´ archivy Digita´lnı´ archivy se od digita´lnı´ch knihoven lisˇ´ı v neˇkolika aspektech. Prˇeva´zˇneˇ obsahujı´ dokumenty z vlastnı´ch zdroju˚ jako jsou dopisy a dalsˇ´ı dokumenty vytvorˇene´ institucı´, mı´sto dokumentu˚ jako jsou knihy nebo cˇasopisy. Dokumenty ulozˇene´ v digita´lnı´m archivu majı´ jedinecˇny´ obsah a neby´vajı´ vkla´da´ny do jiny´ch archivu˚. To znamena´, zˇe je nemu˚zˇeme najı´t nikde jinde, nezˇ v konkre´tnı´m digita´lnı´m archivu, narozdı´l od knih v knihovna´ch. Obsah digita´lnı´ho archivu veˇtsˇinou by´va´ rˇazen do skupin dokumentu˚, kdezˇto knihy v knihovna´ch by´vajı´ rˇazeny jako jednotlive´ polozˇky. Dokumenty mohou by´t naprˇ´ıklad rˇazeny podle pu˚vodu vzniku (tvu˚rce nebo organizace) a jedinecˇne´ho porˇadı´ (datum vytvorˇenı´). S digita´lnı´mi archivy souvisı´ take´ rˇ´ızeny´ kolobeˇh dokumentu˚ po instituci nebo firmeˇ. Ten je podrobneˇji popsa´n v kapitole 3.4.4.
2
TEORIE DIGITA´LNI´CH KNIHOVEN
10
V dalsˇ´ım textu bude pod pojmem digita´lnı´ knihovna zahrnut i digita´lnı´ archiv a instituciona´lnı´ repozita´rˇ.
2.5 Technologie a standardy pouzˇ´ıvane´ v digita´lnı´ch knihovna´ch Prˇi vy´voji digita´lnı´ch knihoven a repozita´rˇu˚ se vyvinula rˇada standardu˚ pouzˇ´ıvany´ch pro fungova´nı´ digita´lnı´ch knihoven. Patrˇ´ı mezi neˇ standardy pro popis digita´lnı´ch objektu˚, pro interakci mezi jednotlivy´mi digita´lnı´mi knihovnami na internetu nebo take´ standardy pro jednoznacˇne´ identifika´tory. V te´to cˇa´sti budou popsa´ny standardy, se ktery´mi jsem pracoval v pru˚beˇhu rˇesˇenı´ pra´ce a ktere´ budou da´le v textu pouzˇ´ıva´ny. 2.5.1 Metadata Metadata se dajı´ prˇirovnat ke katalogovy´m lı´stku˚m v knihovneˇ, ktere´ obsahujı´ informace o knize a jejı´m umı´steˇnı´. Metadata jsou informace o digita´lnı´ch objektech („Data about data“), ktere´ urcˇujı´, jak jednoznacˇneˇ popsat atributy digita´lnı´ch za´znamu˚. Mu˚zˇeme je rozdeˇlit podle mozˇnostı´ pouzˇitı´ na metadata popisna´, struktura´lnı´ a administrativnı´. Popisna´ metadata slouzˇ´ı k popisu digita´lnı´ho objektu, aby jej bylo mozˇne´ vyhledat a identifikovat. Struktura´lnı´ metadata urcˇujı´ forma´t objektu, strukturu souboru nebo jeho velikost. Administrativnı´ metadata se pouzˇ´ıvajı´ pro rˇ´ızenı´ autentikace prˇ´ıstupu a za´lohova´nı´. Veˇtsˇinou nejsou ulozˇeny s popisny´mi metadaty, ale ukla´dajı´ se s nebo do digita´lnı´ch objektu˚. Prˇi vy´voji metadat se vyvinula cela´ rˇada standardu˚ pro za´pis metadat digita´lnı´ch objektu˚. Zna´my´m standardem pro popis metadat v prostrˇedı´ webu a digita´lnı´ch dat je Dublin Core (pouzˇ´ıva´ se zkratka DC) [12]. Prvnı´ verze DC vznikla v brˇeznu roku 1995 na semina´rˇi, ktere´ho se u´cˇastnilo 52 specialistu˚ z oboru˚ knihovnictvı´, zpracova´va´nı´ textu˚, pocˇ´ıtacˇovı´ experti a dalsˇ´ı. Pu˚vodneˇ meˇl Dublin Core slouzˇit jako popis zdroju˚ sestaveny´ prˇ´ımo autorem, ale nakonec zaujal instituce jako muzea, knihovny a dalsˇ´ı. Dublin Core definuje patna´ct za´kladnı´ch elementu˚ pro popis dat a ke kazˇde´mu elementu jesˇteˇ neˇkolik zprˇesnˇujı´cı´ch prvku˚, tzv. kvalifika´toru˚. Dohromady tvorˇ´ı dobrou za´kladnu pro popis dat ru˚zny´ch typu˚ dokumentu˚. Vsˇechny elementy jsou nepovinne´ a mohou se opakovat. Za´kladnı´ch 15 elementu˚ popisuje tabulka 1. Kazˇdy´ kvalifikovany´ element ma´ da´no sche´ma za´pisu, aby byla dodrzˇena jednotnost v za´pisu. Naprˇ´ıklad jazyk se zapisuje dle normy ISO 639 (cs, en, sk, . . . ) nebo datum dle normy ISO 8601 (2006-0423, 2006-04 nebo jen 2006). Seznam vsˇech elementu˚, kvalifika´toru˚ a jejich podrobny´ popis mu˚zˇete nale´zt v [12]. Zatı´mco Dublin Core urcˇuje popisna´ a cˇa´stecˇneˇ struktura´lnı´ metadata, standard METS (Metadata Encoding & Transmission Standard) definuje pomoci jazyka XML popisna´, struktura´lnı´ i administrativnı´ metadata. Jazyku XML je veˇnova´na kapitola 4.1.7. METS definuje sedm sekcı´ pro popis dat: 1. hlavicˇku METS, popisujı´cı´ metadata samotne´, 2. popisna´ metadata, 3. administrativnı´ metadata,
2
TEORIE DIGITA´LNI´CH KNIHOVEN
Jme´no elementu Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights
11
Vy´znam elementu Na´zev Tvu˚rce Prˇedmeˇt nebo klı´cˇova´ slova Popis Vydavatel Prˇispeˇvatel (autor, spoluautor, sponzor, . . . ) Datum (vyda´nı´, vytvorˇenı´, zprˇ´ıstupneˇnı´, . . . ) Typ pra´ce (cˇla´nek, obra´zek, zvuk, . . . ) Forma´t dokumentu (pocˇet stran, datovy´ forma´t, . . . ) Identifika´tory (ISSN, ISBN, handle, . . . ) Zdroj dokumentu Jazyk dokumentu Vztah (je cˇa´stı´, je zalozˇen, . . . ) Rozsah (prostorovy´, cˇasovy´) Pra´va (autorska´, distribucˇnı´)
Tabulka 1: Za´kladnı´ elementy Dublin Core 4. sekce souboru˚, obsahuje seznam vsˇech souboru˚, 5. struktura´lnı´ data, informace, kam zarˇadit dokument, 6. struktura´lnı´ odkazy, dovolujı´ prova´zat data v hierarchii, 7. chova´nı´, urcˇuje, jak zacha´zet s daty. Jako rozsˇ´ırˇenı´ METS byl vyvinut standard MODS (Metadata Object Description Schema. Podrobneˇjsˇ´ı popis viz [13, 14]. Poslednı´m za´stupcem z rˇady metadat, o ktere´m se tady zmı´nı´m je standard RDF (Resource Description Framework). Za pomoci jazyka XML definuje, jak popsat metadata (naprˇ´ıklad Dublin Core). RDF nasˇel uplatneˇnı´ prˇedevsˇ´ım v oblasti se´manticke´ho webu. Vı´ce informacı´ viz [15]. 2.5.2 Interoperabilita Pozˇadavkem spra´vce knihovny je, aby si ru˚zne´ digita´lnı´ knihovny (repozita´rˇe, archivy) umeˇly vymeˇnˇovat metadata jednotny´m zpu˚sobem a aby v ra´mci jedne´ digita´lnı´ knihovny byl vyhledatelny´ alesponˇ cˇa´stecˇny´ obsah jine´ digita´lnı´ knihovny. Dalsˇ´ım proble´mem je prova´za´nı´ takto zı´skany´ch metadat se skutecˇny´mi daty v libovolne´ jine´ digita´lnı´ knihovneˇ. Takove´ chova´nı´ mu˚zˇe zajistit jedineˇ jednotny´ protokol pro interoperabilitu mezi knihovnami. Takovy´ch protokolu˚ bylo navrzˇeno a implementova´no neˇkolik, jako prˇ´ıklad bych uvedl OAI–PMH [16], Z39.50 [17], OpenURL [18] a dalsˇ´ı. Protozˇe v ra´mci me´ pra´ce jsem se setkal s protokolem OAI–PMH, podrobneˇji se zmı´nı´m o tomto protokolu.
2
TEORIE DIGITA´LNI´CH KNIHOVEN
12
Open Archives Initiative Protocol for Metadata Harvesting (da´le jen OAI–PMH) je jednoduchy´ protokol pro zı´ska´va´nı´ metadat z jiny´ch digita´lnı´ch knihoven. Prvnı´ verze protokolu vznikla pocˇa´tkem roku 2001 a pozˇaduje, aby metadatadovy´m standardem pro vza´jemnou komunikaci byl minima´lneˇ Dublin Core. Je zalozˇen na komunikacˇnı´m protokolu HTTP a forma´tu XML. Protokol definuje 5 za´kladnı´ch pojmu˚: • Resource – entita, ktera´ je popisova´na dany´m metadatovy´m objektem, • Repository – repozita´rˇ, ktery´ je provozovany´ poskytovatelem dat a prostrˇednictvı´m protokolu OAI–PMH poskytuje metadatove´ za´znamy, • Harvester – klientsky´ program, provozovany´ poskytovatelem sluzˇeb za u´cˇelem zı´ska´nı´ metadat z repozita´rˇu˚, • Item – metadatovy´ objekt v repozita´rˇi, ze ktere´ho se odvozujı´ metadatove´ za´znamy pro protokol, • Record – metadatovy´ za´znam v konkre´tnı´m forma´tu, zı´skany´ nebo odvozeny´ z dane´ho metadatove´ho objektu. Dı´ky tomuto rozdeˇlenı´ umozˇnˇuje protokol vytva´rˇet informacˇnı´ centra´ly a poskytovat dalsˇ´ı sluzˇby, ktere´ dovolujı´ vyhleda´vat pomocı´ metadat digita´lnı´ objekty ulozˇene´ v ru˚zny´ch digita´lnı´ch knihovna´ch. Vı´ce informacı´ o protokolu OAI–PMH naleznete na [16, 9]. 2.5.3 Identifika´tory V klasicky´ch knihovna´ch se pouzˇ´ıvajı´ identifika´tory jako ISSN, ISBN, ISTC a dalsˇ´ı, stejneˇ tak se pro digita´lnı´ objekty pouzˇ´ıvajı´ zvla´sˇtnı´ identifika´tory v prostrˇedı´ internetu. Na identifika´tory je kladeno neˇkolik pozˇadavku˚: • jednoznacˇnost – identifika´tor by meˇl by´t jedinecˇny´ v cele´ globa´lnı´ sı´ti internetu, • perzistence – identifika´tor by meˇl by´t objektu prˇirˇazen natrvalo, ikdyzˇ bude objekt zrusˇen, • sˇka´lovatelnost – jme´no by meˇlo by´t pouzˇitelne´ pro jaky´koliv mozˇny´ typ entity. Obecny´m sche´matem pro identifika´tory se stal Uniform Resource Name (URN), ktery´ definuje identifikaci objektu neza´visle na jeho umı´steˇnı´. Nalezenı´ spra´vne´ho umı´steˇnı´ dle tohoto identifika´toru by meˇl rˇesˇit jisty´ smeˇrovacı´ protokol. V praxi se jedna´ veˇtsˇinou o servery, ktere´ na dotaz s identifika´torem vracı´ jeho fyzicke´ umı´steˇnı´ na sı´ti. Obecny´ identifika´tor by meˇl by´t ve tvaru „urn:nid:nss“, kde nid (namespace identifier) je rˇeteˇzec identifikujı´cı´ pouzˇity´ identifikacˇnı´ syste´m (naprˇ´ıklad doi, hdl, issn a dalsˇ´ı) a nss (name specific string) je rˇeteˇzec s konkre´tnı´m identifika´torem. Konkre´tnı´ identifika´tor patrˇ´ıcı´ knize [1] by byl urn:isbn:8072269194. Jeden z konkre´tneˇjsˇ´ıch identifikacˇnı´ch sche´mat je CNRI handles [19]. Sche´ma je zalozˇeno na protokolu HTTP a je plneˇ kompatibilnı´ s konceptem URN. Umozˇnˇuje prˇirˇazova´nı´,
2
TEORIE DIGITA´LNI´CH KNIHOVEN
13
spra´vu a rozpozna´va´nı´ perzistentnı´ch identifika´toru˚ digita´lnı´ch objektu˚. Identifika´tor ma´ tvar „hdl:cnri.dlib/locid“, kde prvnı´ cˇa´st (nazy´vana´ prefix) cnri.dlib definuje pojmenova´vacı´ autoritu. Prvnı´ cˇa´st se prˇideˇluje globa´lneˇ, druha´ cˇa´st loka´lneˇ v ra´mci instituce. Cˇa´st locid je jaky´koliv rˇeteˇzec jedinecˇny´ v ra´mci pojmenova´vacı´ autority. Identifikacˇnı´ sche´ma ´ strˇednı´ knihovny, CNRI handles pouzˇ´ıva´ i syste´m DSpace, ktery´ byl vyuzˇit v prostrˇedı´ U a ktery´ je popisova´n da´le. Dalsˇ´ım z identifikacˇnı´ch sche´mat je Digital Object Identifier (DOI) [20]. DOI pouzˇ´ıva´ tvar jako CNRI handle, ale v cˇa´sti pro pojmenova´vacı´ autoritu je konstanta 10 pro odlisˇenı´ od ostatnı´ch handle syste´mu˚. Narozdı´l od CNRI handles, ktery´ je zdarma, je sche´ma DOI zpoplatneˇno. Platı´ se za samotnou registraci organizace, i za prˇideˇlenı´ cˇ´ısla DOI.
2.6 Shrnutı´ Te´ma digita´lnı´ch knihoven a shromazˇd’ova´nı´ a zprˇ´ıstupneˇnı´ informacı´ jejich prostrˇednictvı´m otvı´ra´ prostor pro dalsˇ´ı zdokonalenı´, prˇestozˇe jizˇ je k dispozici rˇada dı´lcˇ´ıch standardu˚ a protokolu˚, ktere´ umozˇnˇujı´ fungova´nı´ rozsa´hly´ch digita´lnı´ch knihoven. Mnoho proble´mu˚ je sta´le jesˇteˇ otevrˇeny´ch a na jejich rˇesˇenı´ se neusta´le pracuje. Nedorˇesˇena je ota´zka prˇ´ıstupu k ulozˇeny´m objektu˚m, ota´zka cˇtenı´ a kopı´rova´nı´ plny´ch textu˚ neopra´vneˇny´mi osobami, kde je potrˇeba zajistit rˇ´ızenı´ prˇ´ıstupu k ulozˇeny´m objektu˚m a nedovolit cˇtenı´ nebo kopı´rova´nı´ neautorizovany´m osoba´m. U klasicky´ch knihoven lze tento proble´m rˇesˇit omezenı´m fyzicke´ho prˇ´ıstupu k dokumentu˚m. Dalsˇ´ı cˇa´st pra´ce se zaby´va´ jizˇ samotnou implementacı´ digita´lnı´ho repozita´rˇe v pro´ strˇednı´ knihovny vysoke´ sˇkoly ba´nˇske´ – Technicke´ univerzity Ostrava. V prˇ´ıpadeˇ strˇedı´ U za´jmu o teorii digita´lnı´ch knihoven se mu˚zˇete obra´tit na drˇ´ıve citovane´ dokumenty nebo pouzˇ´ıt neˇkterou digita´lnı´ knihovnu (naprˇ´ıklad [21]) a zkusit najı´t pozˇadovane´ informace tam.
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
14
3 Analy´za rˇesˇenı´ proble´mu Tato kapitola se veˇnuje analy´ze proble´mu, popisuje postup prˇi rozhodova´nı´ pro vhodny´ syste´m digita´lnı´ho repozita´rˇe a popisuje vybrany´ syste´m DSpace. Analy´za by meˇla jednoznacˇneˇ definovat jednotlive´ pozˇadavky na syste´m. Nakonec je popsa´n obecny´ postup prˇi implementaci digita´lnı´ho repozita´rˇe. ´ strˇednı´ Hlavnı´m cı´lem pra´ce je poskytnutı´ digita´lnı´ho u´lozˇisˇteˇ dat, do ktere´ho by U ˇ knihovna VSB–TU Ostrava mohla vkla´dat elektronicke´ verze dokumentu˚. V prvnı´ fa´zi se prˇedpokla´da´ ulozˇenı´ vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ a sbornı´ku˚ vyda´vany´ch Vysokou sˇkolou ba´nˇskou – Technickou univerzitou Ostrava, ktere´ se knihovna rozhodla zprˇ´ıstupnit v elektronicke´ verzi. Prˇedpokla´da´ se, zˇe prˇevod sbornı´ku˚ do elektronicke´ verze potrva´ velmi dlouho (rˇa´doveˇ neˇkolik let), protozˇe je trˇeba naskenovat vı´ce nezˇ 3300 cˇla´nku˚. Asi 800 cˇla´nku˚ je jizˇ v elektronicke´ podobeˇ a je potrˇeba tyto cˇla´nky jizˇ zahrnout do digita´lnı´ho u´lozˇisˇteˇ spolecˇneˇ s jejich metadaty, ktera´ budou importova´na jednora´zoveˇ. K teˇmto metadatu˚m musı´ syste´m pozdeˇji umozˇnit naskenovany´ plny´ text. Syste´m by meˇl take´ umozˇnit vlozˇit metadata o vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ch, ktere´ nejsou k dispozici v elektronicke´ verzi, ale jsou k dispozici v tisˇteˇne´ podobeˇ. V dalsˇ´ı fa´zi by meˇl syste´m slouzˇit jako u´lozˇisˇteˇ pro digitalizovane´ stare´ tisky (do roku 1800) z archivnı´ho fondu knihovny a meˇlo by se prˇipravit univerza´lnı´ rozhranı´ pro vkla´da´nı´ ru˚zny´ch vy´zkumny´ch pracı´ a vy´sledku˚ veˇdecke´ cˇinnosti univerzity. Syste´m musı´ umozˇnˇovat fulltextove´ vyhleda´va´nı´ metadat a procha´zenı´ jednotlivy´ch za´znamu˚ podle ru˚zny´ch krite´riı´ (autor, na´zev, datum). Dalsˇ´ım pozˇadavkem je, aby prˇ´ıstup k plny´m textu˚m vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ a cˇla´nku˚m ze sbornı´ku˚ byl povolen jen studentu˚m a zameˇstnancu˚m sˇkoly. Ostatnı´m musı´ by´t zprˇ´ıstupneˇny informace o vsˇech za´znamech, ale ne soubory s plny´mi texty. Plny´ prˇ´ıstup by tedy meˇli mı´t vsˇichni ti, kterˇ´ı se do syste´mu prˇihla´sı´ svy´m sˇkolnı´m LDAP heslem. Prˇ´ıstup a prˇihlasˇova´nı´ uzˇivatelu˚ by meˇlo probı´hat prˇes zabezpecˇeny´ protokol HTTPS, aby nebylo mozˇne´ na trase mezi uzˇivatelem a serverem odposlechnout heslo a dalsˇ´ı citlive´ informace. Dı´lcˇ´ım u´kolem je take´ importovat cˇa´st bibliograficky´ch dat o vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ch a cˇla´ncı´ch ze sbornı´ku z jine´ho syste´mu, v neˇmzˇ byla data doposud ulozˇena. Jedna´ se o knihovnicky´ syste´m T-Series. Syste´m T-Series pouzˇ´ıva´ k exportu dat svu˚j vlastnı´ forma´t souboru, takzˇe bude trˇeba vytvorˇit program, ktery´ vyexportovany´ soubor z T-Series prˇevede do metadatove´ho forma´tu Dublin Core zapsane´ho v XML.
3.1 Soucˇasny´ stav V soucˇasne´ dobeˇ je proces zprˇ´ıstupneˇnı´ vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ velice zdlouhavy´ a nedokonaly´. Pra´ce se odevzda´vajı´ jednotlivy´m katedra´m a po obha´jenı´ se vsˇechny pra´ce posı´lajı´ do knihovny ke zpracova´nı´. Tam jsou kvalifikacˇnı´ pra´ce pracovnı´ky knihovny katalogizova´ny a u´daje o pra´ci jsou vlozˇeny do syste´mu T-Series. Fyzicky je pra´ce prˇ´ıstupna´ ve studovneˇ, kde je k dispozici k nahle´dnutı´. V syste´mu T-Series je vedeno vı´ce nezˇ 20 tisı´c pracı´.
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
15
Cˇla´nky ze sbornı´ku˚ Vysoke´ sˇkoly ba´nˇske´ – Technicke´ univerzity Ostrava a bibliograficke´ za´znamy o cˇla´ncı´ch ze sbornı´ku˚ se vytva´rˇejı´ a uchova´vajı´ v syste´mu T-Series. Byl zapocˇat proces prˇevodu cˇla´nku˚ do elektronicke´ podoby. Z celkovy´ch asi 3300 cˇla´nku˚ je do elektronicke´ verze prˇevedeno asi 800 cˇla´nku˚ a jsou ulozˇeny v PDF forma´tu.
3.2 Prˇ´ıpady pouzˇitı´ Prˇ´ıpad pouzˇitı´ (use case) naznacˇuje hranice syste´mu, za´kladnı´ poskytovane´ funkce a typy uzˇivatelu˚, kterˇ´ı budou se syste´mem pracovat. Uzˇivatelu˚m jsou prˇideˇlova´ny role podle toho, jake´ funkce syste´mu smeˇjı´ vyuzˇ´ıvat. Prˇ´ıpady pouzˇitı´ jsou zachyceny v textove´ a graficke´ podobeˇ. K diagramu je prˇilozˇen take´ textovy´ popis jednotlivy´ch rolı´ a prˇ´ıpadu˚ uzˇitı´. Pro veˇtsˇ´ı prˇehlednost se diagramy mohou rozdeˇlit hierarchicky do neˇkolika podrobneˇjsˇ´ıch diagramu˚. Diagram na obra´zku cˇ. 1 ukazuje, jake´ prˇ´ıpady pouzˇitı´ by meˇl syste´m umozˇnˇovat. Uzˇivatel v roli administra´tor bude moci prova´deˇt vesˇkere´ operace se syste´mem, nastavovat syste´m, urcˇovat, jaka´ opra´vneˇnı´ budou mı´t jednotlivı´ uzˇivatele´. Bude moci vytva´rˇet nove´ kolekce dokumentu˚ a prˇideˇlovat jim uzˇivatele, kterˇ´ı budou zodpoveˇdnı´ za obsah a spra´vnost vyplneˇny´ch metadat. Role spra´vce kolekce umozˇnı´ uzˇivateli v te´to roli prova´deˇt operace spojene´ se spra´vou prˇideˇlene´ kolekce (editace, maza´nı´, prˇida´va´nı´ dokumentu˚). Tuto roli prˇideˇluje uzˇivateli jedineˇ administra´tor. Role prˇihla´sˇeny´ uzˇivatel a anonymnı´ uzˇivatel reprezentujı´ na´vsˇteˇvnı´ky digita´lnı´ho u´lozˇisˇteˇ, kterˇ´ı mohou vyhleda´vat dokumenty, procha´zet dokumenty podle ru˚zny´ch krite´riı´. Prˇihla´sˇenı´ uzˇivatele´ mohou navı´c, v za´vislosti na nastavenı´ kolekce, vkla´dat nove´ dokumenty do kolekcı´ a mohou mı´t take´ prˇ´ıstup k plny´m textu˚m dokumentu˚ ulozˇeny´ch v u´lozˇisˇti.
3.3 Porovna´nı´ syste´mu˚ Eprints a DSpace Jako vhodne´ rˇesˇenı´ pro implementaci digita´lnı´ho u´lozˇisˇteˇ byly vybra´ny dva syste´my DSpace a Eprints, ktere´ jsou pouzˇ´ıva´ny univerzitami na cele´m sveˇteˇ. Z teˇchto dvou syste´mu˚ bude po srovna´nı´ a zkusˇebnı´ instalaci vybra´n vhodneˇjsˇ´ı a bude pouzˇit jako oficia´lnı´ digita´lnı´ u´lozˇisˇteˇ u´strˇednı´ knihovny. Obecne´ srovna´nı´ teˇchto a dalsˇ´ıch syste´mu˚ pro zprˇ´ıstupnˇova´nı´ digita´lnı´ch dokumentu˚ mu˚zˇete najı´t v [3]. Oba syste´my jsou volneˇ dostupne´ (open source), takzˇe jsou k nim dispozici i zdrojove´ ko´dy a je mozˇno je jakkoliv modifikovat. Ja´ jsem v ra´mci sve´ pra´ce pracoval se syste´mem DSpace a kolega Michal Pastuszek ve sve´ pra´ci [5] testoval syste´m Eprints. Po vza´jemny´ch ´ strˇednı´ knihovny bude konzultacı´ch a srovna´nı´ch se nakonec uka´zalo, zˇe pro potrˇeby U le´pe vyhovovat syste´m DSpace, na ktere´m se provedou mı´rne´ u´pravy. K tomuto rozhodnutı´ na´s vedly prˇedevsˇ´ım tyto du˚vody: • DSpace ma´ jednodusˇsˇ´ı instalaci a me´neˇ pozˇadavku˚ na hostitelsky´ syste´m, • je snadneˇji modifikovatelny´ dı´ky poskytnute´mu programa´torske´mu rozhranı´ a prˇedprˇipraveny´mi skripty,
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
Obra´zek 1: Diagram prˇ´ıpadu˚ pouzˇitı´
16
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
17
• dı´ky definici vkla´dacı´ch formula´rˇu˚ v jedine´m XML souboru ma´ DSpace tyto formula´rˇe jednodusˇeji modifikovatelne´ nezˇ Eprints a nejsou velke´ proble´my s prˇida´nı´m novy´ch formula´rˇu˚ pro jine´ typy kolekcı´, • DSpace poskytuje lepsˇ´ı mozˇnosti pro vytvorˇenı´ obecne´ho repozita´rˇe obsahujı´cı´ho mnoho typu˚ digita´lnı´ch objektu˚, • administra´torske´ rozhranı´ umozˇnˇuje prova´deˇt vı´ce operacı´ nezˇ v Eprints, • ze zkusˇenostı´ knihovnı´ku˚, ktere´ se vyskytly prˇi testovacı´m provozu, vyply´va´, zˇe DSpace ma´ vı´ce intuitivnı´ ovla´da´nı´ nezˇ Eprints, • a dalsˇ´ı drobnosti, ktere´ se projevili prˇi administracˇnı´ch pracı´ch se syste´mem DSpace.
3.4 Popis DSpace DSpace [11] vznikl v roce 2002 jako vy´sledek spolupra´ce Massachussetts Institute of Technology (MIT) a Hewlett Packard (HP). Hlavnı´m cı´lem bylo vytvorˇit univerza´lnı´ digita´lnı´ repozita´rˇ pro potrˇeby MIT, ale take´ poskytnout univerza´lnı´ za´klad pro pouzˇitı´ v jiny´ch institucı´ch, prˇedevsˇ´ım z akademice´ sfe´ry. Je distribuova´n pod licencı´ BSD (Berkeley Software Distribution), cozˇ je svobodna´ licence, ktera´ umozˇnˇuje jake´koliv zmeˇny v poskytnuty´ch zdrojovy´ch ko´dech prˇi dodrzˇenı´ jisty´ch podmı´nek [22]. DSpace pouzˇ´ıva´ rˇadu technologiı´ a standardu˚, aby poskytl co mozˇna´ nejkomfortneˇjsˇ´ı pra´ci se syste´mem. Je pouzˇitelny´ pro uchova´va´nı´ ru˚zny´ch druhu˚ archivovany´ch materia´lu˚, jako jsou cˇla´nky, technicke´ zpra´vy, elektronicke´ kvalifikacˇnı´ pra´ce, obrazova´ data, video data, audio data, vy´ukove´ materia´ly a dalsˇ´ı. Mnoho organizacı´ pouzˇ´ıva´ DSpace jako instituciona´lnı´ repozita´rˇ nebo digita´lnı´ knihovnu. Syste´m ma´ v sobeˇ implementova´nu rˇadu na´stroju˚, ktere´ zjednodusˇujı´ pra´ci se syste´mem a jeho administraci. Umozˇnˇuje nastavenı´ ru˚zny´ch bezpecˇnostnı´ch politik a uzˇivatelsky´ch u´cˇtu˚, definuje trˇ´ıstupnˇove´ sche´ma rˇ´ızenı´ kolobeˇhu dokumentu˚, dohlı´zˇenı´ vedoucı´ch nad pra´cemi studentu˚, rozesı´la´nı´ emailu˚ se seznamem novy´ch prˇ´ıspeˇvku˚ v archivu, import a export obsahu archivu do forma´tu XML a metadatove´ho sche´matu Dublin Core a dalsˇ´ı. Neˇktere´ z teˇchto na´stroju˚ budou podrobneˇji popsa´ny v na´sledujı´cı´m textu, ktery´ se veˇnuje popisu DSpace verze 1.3.2. 3.4.1 Syste´mova´ architektura Syste´m je naprogramova´n v jazyce Java v kombinaci s dynamicky generovany´mi HTML stra´nkami pomocı´ Java Server Pages (JSP). Pu˚vodneˇ byl napsa´n pro operacˇnı´ syste´m UNIXove´ho typu (Linux, HP/UX, Solaris), ale jelikozˇ jsou pouzˇity multiplatformnı´ technologie, meˇlo by by´t mozˇne´ nainstalovat DSpace i na jine´ syste´my (naprˇ´ıklad MS Windows v kombinaci s Cygwin). Pro ukla´da´nı´ metadat je pouzˇita relacˇnı´ databa´ze PostrgreSQL nebo Oracle ve spojenı´ s ovladacˇem JDBC (Java Dababase Connector). Jako servlet kontejne´r mu˚zˇe by´t pouzˇit server Apache Tomcat, Jetty nebo Caucho Resin. Doporucˇova´na je kombinace Linux, PostgreSQL a Tomcat.
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
Obra´zek 2: Architektura DSpace
18
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
19
DSpace je postaven na trˇ´ıvrstve´m modelu, ktery´ je zna´zorneˇn na obra´zku 2 (obra´zek prˇevzat z [2]). Jednotlive´ vrstvy spolu komunikujı´ prostrˇednictvı´m spolecˇne´ho rozhranı´ a zajisˇt’ujı´ tak oddeˇlenı´ a neza´vislost cˇa´stı´ syste´mu. Nejnizˇsˇ´ı vrstva (Storage layer) zajisˇt’uje ukla´da´nı´ dat a metadat prostrˇednictvı´m databa´ze a manazˇera dat (Bitstream Storage Manager). Manazˇer dat dovoluje ulozˇenı´ bud’ na loka´lnı´ souborovy´ syste´m, nebo na vzda´leny´ server (podrobneˇji popsa´no v kapitole 3.4.3). Prostrˇednı´ vrstva (Bussines Logic Layer) poskytuje rozhranı´ (Public API) pro vesˇkere´ funkce syste´mu. Jak je videˇt z obra´zku 2, zajisˇt’uje autorizaci uzˇivatelu˚, vyhleda´va´nı´ a prohlı´zˇenı´ digita´lnı´ch za´znamu˚, prˇideˇlova´nı´ identifika´toru˚, schvalova´nı´ a rˇ´ızenı´ kolobeˇhu dokumentu˚ a dalsˇ´ı spra´vu obsahu digita´lnı´ho u´lozˇisˇteˇ. Nejvysˇsˇ´ı vrstva (Application Layer) poskytuje rozhranı´ pro styk u´lozˇisˇteˇ s okolnı´m sveˇtem. Pomocı´ vola´nı´ funkcı´ z Public API da´va´ k dispozici na´stroje pro tvorˇenı´ statistik, webove´ rozhranı´ pro uzˇivatele a spra´vce, na´stroj pro import a export za´znamu˚, rozhranı´ protokolu OAI-PMH pro zı´ska´va´nı´ metadat z jiny´ch digita´lnı´ch u´lozˇisˇt’, media filter pro tvorbu na´hledu˚ obra´zku˚ a jine´ho zpracova´nı´ ulozˇeny´ch souboru˚ a take´ umozˇnˇuje exportovat obsah u´lozˇisˇteˇ do metadat standardu METS. Pro vesˇkera´ rozhranı´ je poskytnuta kvalitnı´ dokumentace s nabı´zeny´mi funkcemi, takzˇe je mozˇne´ kdykoliv doprogramovat vlastnı´ verzi nebo zmeˇnit sta´vajı´cı´ cˇa´st syste´mu. 3.4.2 Datovy´ model DSpace Zpu˚sob jak DSpace zacha´zı´ se za´znamy a uzˇivateli zna´zornˇuje diagram datove´ho modelu na obra´zku 3 (obra´zek prˇevzat z [2]). DSpace nazy´va´ vesˇkery´ digita´lnı´ obsah v archı´vu jako polozˇky (Items). Polozˇka se skla´da´ ze vsˇech souboru˚ s digita´lnı´m obsahem a z popisny´ch metadat ulozˇeny´ch v Dublin Core. Hlavnı´m prvkem je komunita. Komunita prˇedstavuje organizacˇnı´ jednotky nebo skupiny uzˇivatelu˚, kterˇ´ı se rozhodli ukla´dat do DSpace sve´ polozˇky. V univerzitnı´m prostrˇedı´ to veˇtsˇinou by´vajı´ fakulty, katedry nebo vy´zkumna´ pracovisˇteˇ. Kazˇda´ komunita mu˚zˇe by´t rozdeˇlena do neˇkolika podkomunit. Aby si komunity mohli ukla´dat v DSpace polozˇky ru˚zne´ho charakteru, kazˇda´ komunita si zakla´da´ kolekce polozˇek. Naprˇ´ıklad kolekce kvalifikacˇnı´ch pracı´ nebo kolekce vy´zkumny´ch pracı´. Kazˇdou polozˇku vlastnı´ jedina´ kolekce, ale polozˇka se mu˚zˇe objevit i v jiny´ch kolekcı´ch (na´strojem pro mapova´nı´ polozˇek). Kazˇda´ polozˇka je da´le rozdeˇlena do svazku˚ souboru˚ (bundles of bitstreams), kde kazˇdy´ svazek obsahuje jeden a vı´ce souboru˚. Svazkem se myslı´ naprˇ´ıklad HTML dokument spolu s obra´zky a styly nebo na´hledy k obra´zku˚m. Kazˇdy´ soubor je asociova´n s jednı´m forma´tem souboru (bitstream format). 3.4.3 Manazˇer datove´ho skladu Manazˇer datove´ho skladu poskytuje univerza´lnı´ rozhranı´ pro ukla´da´nı´ souboru˚. V soucˇasnosti nabı´zı´ dveˇ mozˇnosti ukla´da´nı´ dat. Prvnı´ mozˇnostı´ je ukla´da´nı´ na loka´lnı´ soubo-
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
Obra´zek 3: Datovy´ model DSpace
20
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
21
Obra´zek 4: Workflow proces
rovy´ syste´m, kde u´lozˇisˇteˇ mu˚zˇe by´t rozdeˇleno mezi neˇkolik fyzicky´ch disku˚ nebo mu˚zˇe by´t vsˇe na jednom disku. Druhou mozˇnostı´ je pouzˇitı´ syste´mu storage resource broker (SRB). Storage resource broker je robustnı´ syste´m poskytujı´cı´ te´meˇrˇ neomezenou diskovou kapacitu a mnoho mozˇnostı´ pro za´lohova´nı´ dat. V tomto prˇ´ıpadeˇ jsou data ulozˇena bud’ na loka´lnı´m souborove´m syste´mu, nebo na vzda´lene´m serveru. Storage resource broker je podrobneˇ popsa´n v [23]. 3.4.4 Workflow proces – rˇ´ızeny´ kolobeˇh dokumentu˚ ˇ ´ızeny´ kolobeˇh dokumentu˚ (workflow proces) je proces, ktery´ zprˇehlednˇuje kontrolu, R schvalova´nı´ a prˇeposı´la´nı´ dokumentu˚. V DSpace tento proces zajisˇt’uje kontrolu nad zada´va´nı´m polozˇek do archı´vu, jejich schvalova´nı´m nebo kontrolu studentsky´ch pracı´ jejich vedoucı´mi. Workflow proces se skla´da´ ze trˇ´ı kroku˚, ktere´ mohou nebo nemusı´ by´t nastaveny. Kazˇde´mu kroku je prˇideˇlena skupina lidı´, kterˇ´ı majı´ na starost kontrolu a schvalova´nı´. Workflow proces je zna´zorneˇn na obra´zku 4 (obra´zek prˇevzat z [2]). Po odesla´nı´ registrovany´m uzˇivatelem se dokument prˇesune do tzv. za´sobnı´ku u´loh pro prvnı´ workflow krok. Tam se ho ujme neˇktery´ z poveˇrˇeny´ch uzˇivatelu˚, zkontroluje dokument a bud’ ho vra´tı´ s prˇ´ıslusˇny´m vysveˇtlenı´m autorovi nebo jej posˇle do dalsˇ´ıho kroku. Poveˇrˇeny´ uzˇivatel pro druhy´ workflow krok pak mu˚zˇe editovat metadata polozˇky, prˇ´ıpadneˇ polozˇku posˇle do dalsˇ´ıho kroku nebo ji vra´tı´ zpeˇt autorovi. Nemu˚zˇe ovsˇem editovat samotny´ soubor s daty. Ve trˇetı´m kroku jizˇ jen poveˇrˇeny´ uzˇivatel zedituje metadata a posˇle polozˇku do hlavnı´ho archı´vu. Prˇed prˇida´nı´m polozˇky do hlavnı´ho archı´vu se jı´ prˇirˇadı´ trvaly´ identifika´tor (handle), vyplnı´ se datum, kdy se stala polozˇka dostupna´ prˇes rozhranı´ DSpace, prˇ´ıpadneˇ datum vyda´nı´. Da´le se na polozˇku aplikujı´ vy´chozı´ politiky podle nastavenı´ kolekce a polozˇka se prˇida´ do indexove´ho souboru pro procha´zenı´ a vyhleda´va´nı´.
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
22
Pokud pro neˇktery´ z kroku˚ workflow procesu nema´ nastavenu skupinu poveˇrˇeny´ch uzˇivatelu˚, je jednodusˇe prˇeskocˇen a polozˇka je automaticky posla´na do dalsˇ´ıho kroku. Cely´ proces mu˚zˇe prˇerusˇit administra´tor DSpace prˇes webove´ rozhranı´. 3.4.5 Dohlı´zˇenı´ nad pra´cemi DSpace nabı´zı´ vedoucı´m kvalifikacˇnı´ch pracı´ mozˇnost dohlı´zˇet na studenty a jejich pra´ce. Prˇirˇazova´nı´ pracı´ k dohlı´zˇenı´ prova´dı´ administra´tor. Kazˇde´ pra´ci je prˇirˇazena skupina lidı´, kterˇ´ı na pra´ci mohou dohlı´zˇet. Kazˇde´ skupineˇ je prˇirˇazena vy´chozı´ politika, takzˇe dohlı´zˇejı´cı´ mu˚zˇe editovat zada´nı´ nebo jej jen sledovat a reagovat na zmeˇny prostrˇednictvı´m emailu. Tento mechanismus mu˚zˇe by´t vyuzˇit i pro spolupra´ci vı´ce lidı´ na jedne´ polozˇce. Vy´chozı´ politiky mohou by´t nastaveny na editor, pozorovatel nebo nejsou nastaveny vu˚bec a prˇedpokla´da´ se specificke´ nastavenı´ politik administra´torem. Pozorovatel mu˚zˇe prohlı´zˇet metadata i soubory s obsahem pra´ce, ale nema´ mozˇnost v nich nic upravovat. Editor mu˚zˇe pracovat s polozˇkou, jako by byl jejı´m autorem. 3.4.6 Autorizacˇnı´ politiky Autorizacˇnı´ politiky jsou v DSpace rˇesˇeny tak, zˇe kazˇde´ akci je prˇirˇazen seznam lidı´, kterˇ´ı mohou akci prove´st. Takove´ seznamy jsou v DSpace nazy´va´ny skupiny. V syste´mu jsou dveˇ specia´lnı´ skupiny uzˇivatelu˚. Anonymnı´ skupina obsahuje vsˇechny uzˇivatele v syste´mu a skupina administra´torˇi obsahuje spra´vce syste´mu, ktery´m je dovoleno deˇlat vsˇe. Autorizacˇnı´ politiky lze prˇirˇazovat komunita´m, kolekcı´m, polozˇka´m, svazku˚m a souboru˚m. Komuniteˇ mu˚zˇeme prˇideˇlit opra´vneˇnı´ pro tyto akce: • ADD – dovoluje prˇidat kolekce nebo subkomunity, • REMOVE – dovoluje smazat kolekce nebo subkomunity. Jednotlivy´m kolekcı´m mu˚zˇeme prˇirˇadit na´sledujı´cı´ opra´vneˇnı´: • ADD – prˇida´nı´ polozˇek do kolekce (mu˚zˇe odesı´lat prostrˇednictvı´m formula´rˇe), • REMOVE – odstraneˇnı´ nebo zmeˇna kolekce, • DEFAULT ITEM READ – vsˇechny noveˇ vlozˇene´ polozˇky budou mı´t tuto skupinu jako vy´chozı´ pro akci READ, • DEFAULT BITSTREAM READ – vsˇechny soubory vlozˇene´ do kolekce budou mı´t tuto skupinu jako vy´chozı´ pro akci READ, • COLLECTION ADMIN – spra´vcove´ kolekce, mohou editovat nebo mazat polozˇky v kolekci nebo mapovat cizı´ polozˇky do te´to kolekce. Polozˇky mohou mı´t opra´vneˇnı´ pro:
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
23
• ADD – prˇida´va´nı´ svazku˚ souboru˚ k polozˇce, • REMOVE – odebı´ra´nı´ svazku˚ souboru˚ z polozˇky, • READ – cˇtenı´ polozˇky (metadata jsou cˇitelna´ sta´le), • WRITE – zmeˇna polozˇky. Svazku˚m mu˚zˇeme prˇirˇadit opra´vneˇnı´ pro: • ADD – prˇida´va´nı´ souboru˚ do svazku, • REMOVE – odstraneˇnı´ souboru˚ ze svazku. Jednotlive´ soubory mohou mı´t jen opra´vneˇnı´: • READ – umozˇnˇuje cˇ´ıst soubory, • WRITE – umozˇnˇuje zapisovat a modifikovat soubory. 3.4.7 Uchova´va´nı´ cˇitelnosti forma´tu DSpace rozdeˇluje forma´ty souboru˚ podle trˇ´ı typu˚ u´rovneˇ podpory – podporovany´, zna´my´ a nepodporovany´. Podle tohoto rozdeˇlenı´ pak se soubory pracuje. Hostitelska´ organizace mu˚zˇe podle teˇchto u´rovnı´ zarucˇit prˇevod mezi ru˚zny´mi forma´ty. Soubor typu nepodporovany´ DSpace nerozpoznal a uchova´ jej v takove´ podobeˇ, v jake´ ho prˇijal. Ve stejne´ podobeˇ jej poskytuje i uzˇivatelu˚m. Pokud DSpace forma´t souboru rozpozna´, mu˚zˇe s nı´m zacha´zet dveˇma zpu˚soby. Jestlizˇe soubor zarˇadı´ mezi typ zna´my´, znamena´ to, zˇe DSpace tento forma´t rozpoznal, uchova´ a poskytne jej ve stejne´ podobeˇ, ale provozovatel DSpace nezarucˇuje prˇevod do noveˇjsˇ´ıch forma´tu˚ podobne´ho typu. Mezi takove´ forma´ty patrˇ´ı naprˇ´ıklad ru˚zne´ uzavrˇene´ forma´ty nebo forma´ty, ktere´ organizace nemu˚zˇe nijak zpracovat (naprˇ´ıklad chybı´ potrˇebne´ softwarove´ vybavenı´). Jestlizˇe provozovatel DSpace oznacˇ´ı neˇktery´ forma´t jako podporovany´, zarucˇuje, zˇe forma´t tohoto typu bude cˇitelny´ i v budoucnosti. Toho mu˚zˇe dosa´hnout naprˇ´ıklad prˇevodem souboru˚ do jine´ho forma´tu nebo emulacı´ softwaru na zpracova´nı´. Do takove´ kategorie mu˚zˇe provozovatel DSpace zarˇadit naprˇ´ıklad obra´zek ve forma´tu tiff, ktery´ je specifikovany´ standardem ISO/IEC 10918-1 a existujı´ pro neˇj konverznı´ metody. 3.4.8 Vyhleda´va´nı´ DSpace nabı´zı´ uzˇivatelu˚m neˇkolik mozˇnostı´, jak najı´t pozˇadovany´ dokument. Prvnı´ mozˇnostı´ je prˇ´ıstup prostrˇednictvı´m externı´ho odkazu prˇ´ımo na urcˇitou polozˇku, naprˇ´ıklad pomocı´ identifika´toru handle. Jednou z dalsˇ´ıch mozˇnostı´, jak se dostat k objektu ulozˇene´m v DSpace je prohleda´va´nı´ popisny´ch metadat. Jelikozˇ jsou na vyhleda´va´nı´ kladeny vysoke´ na´roky, vy´voja´rˇi DSpace se rozhodli pouzˇ´ıt volneˇ dostupny´ vyhleda´vacı´ engine Apache Lucene [24]. Lucene poskytuje mozˇnosti vyhleda´va´nı´, indexova´nı´, prˇeskakova´nı´ jazykovy´ch cˇlenu˚ prˇi
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
24
indexova´nı´ a jednoduche´ prˇida´va´nı´ za´znamu˚ do indexu bez potrˇeby prˇeindexova´vat cely´ obsah. DSpace nabı´zı´ mozˇnost jednoduche´ho vyhleda´va´nı´, kdy se prohleda´vajı´ vsˇechna indexovana´ metadata nebo rozsˇ´ırˇene´ vyhleda´va´nı´, kde lze urcˇit i metadata, ktera´ se majı´ prohleda´vat. Rozsˇ´ırˇene´ vyhleda´va´nı´ take´ nabı´zı´ mozˇnost kombinovat vyhleda´vacı´ vy´razy pomocı´ logicky´ch opera´toru˚ OR, AND a NOT. Neme´neˇ du˚lezˇitou mozˇnostı´ prˇi hleda´nı´ za´znamu˚ je procha´zenı´. DSpace dovoluje procha´zet na´zvy za´znamu˚, jme´na jejich autoru˚ a za´znamy serˇazene´ podle data vlozˇenı´ do DSpace. Je mozˇno procha´zet cely´ obsah DSpace, jen za´znamy patrˇ´ıcı´ urcˇite´ komuniteˇ nebo za´znamy patrˇ´ıcı´ do urcˇene´ kolekce. Prˇi procha´zenı´ je opeˇt vyuzˇit vyhleda´vacı´ engine Lucene. 3.4.9 Licence Creative Commons DSpace da´va´ autoru˚m mozˇnost zvolit si alternativnı´ licenci pro distribuci a zacha´zenı´ s materia´lem, ktery´ do u´lozˇisˇteˇ vkla´da´. K tomuto je vyuzˇito mnozˇstvı´ licencı´, ktere´ poskytuje organizace Creative Commons [25]. Pouzˇitı´ te´to licence je volitelne´ a krok zvolenı´ alternativnı´ licence mu˚zˇe by´t prˇeskocˇen. Pokud uzˇivatel vyuzˇije mozˇnost zvolit si svou licenci, je text te´to licence spolu s metadaty ulozˇen jako soubor ve forma´tu RDF k ostatnı´m souboru˚m s obsahem. 3.4.10 Identifikace za´znamu˚ Jak jizˇ bylo zmı´neˇno drˇ´ıve, DSpace pouzˇ´ıva´ k identifikaci digita´lnı´ch objektu˚ identifika´tory typu CNRI handles [19]. CNRI handle system se stara´ o prˇideˇlova´nı´, rozlisˇova´nı´ a manipulaci s identifika´tory. Identifika´tory jsou prˇirˇazeny trvale, takzˇe se znovu nepouzˇijı´ ani po odstraneˇnı´ za´znamu z archı´vu. Pro reprezentaci identifika´toru˚ je pouzˇit protokol HTTP a kazˇde´ instalaci DSpace musı´ by´t prˇirˇazen globa´lneˇ jednoznacˇny´ prefix od hlavnı´ autority. V soucˇasne´ verzi DSpace jsou identifika´tory prˇirˇazova´ny komunita´m, kolekcı´m a polozˇka´m. Soubory a svazky souboru˚ majı´ sve´ identifika´tory odvozene´ od handlu. Handle mu˚zˇe by´t zapsa´n dveˇma zpu˚soby: 1. hdl:4321.123/4567 2. http://hdl.handle.net/4321.123/4567 K rozpozna´nı´ identifika´toru zapsane´ho prvnı´ mozˇnostı´ je potrˇeba mı´t k dispozici neˇjaky´ rozlisˇovacı´ software (naprˇ´ıklad plugin pro webovy´ prohlı´zˇecˇ nebo webovou aplikaci). Pokud zada´me do webove´ho prohlı´zˇecˇe identifika´tor zapsany´ druhy´m zpu˚sobem, postara´ se o rozlisˇenı´ server hdl.handle.net a prˇesmeˇruje na´s prˇ´ımo na konkre´tnı´ instalaci DSpace. DSpace pouzˇ´ıva´ druhou formu za´pisu. Handle server obsazˇeny´ v DSpace se stara´ pouze o loka´lnı´ cˇa´st „4567“ a je pouze na neˇm, aby rozpoznal, zda jde o kolekci, komunitu nebo polozˇku. Kazˇdy´ soubor ma´ v databa´zi prˇirˇazen sekvencˇnı´ ID, ktere´ je pouzˇito pro identifikaci souboru. Identifika´tor pro soubor text.pdf odvozeny´ od prˇedesˇle´ho handlu by vypadal
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
25
naprˇ´ıklad takto: „https://dspace.vsb.cz/bitstream/4321.123/4567/3/text.pdf“, kde „3“ je pra´veˇ sekvencˇnı´ ID. 3.4.11 Dalsˇ´ı DSpace nabı´zı´ spoustu dalsˇ´ıch mozˇnostı´ a funkcı´ a jejich popis by tady byl zbytecˇny´. Ve zkratce bych zmı´nil jesˇteˇ neˇkolik du˚lezˇiteˇjsˇ´ıch funkcı´, ktere´ DSpace nabı´zı´. Du˚lezˇitou funkcı´ pro spravova´nı´ digita´lnı´ho u´lozˇisˇteˇ je export a import obsahu kolekcı´. Export a import se pouzˇ´ıva´ k migraci syste´mu DSpace na jiny´ server, ale take´ je to jedna z mozˇnostı´ za´lohova´nı´ nebo obnovy dat. Jako vy´stupnı´ forma´t exportu byl zvolen metadatovy´ standard Dublin Core zapsany´ v souboru XML. DSpace v soucˇasne´ verzi doka´zˇe exportovat obsahy jednotlivy´ch kolekcı´ a ovla´da´nı´ na´stroje pro import a export je prova´deˇno prˇes prˇ´ıkazovy´ rˇa´dek. DSpace take´ doka´zˇe exportovat data v metadatove´m standardu METS [14]. Dalsˇ´ı uzˇitecˇnou funkcı´ je tvorba statistik. DSpace rozdeˇluje statistiky na meˇsı´cˇnı´ souhrny, ktere´ mohou by´t verˇejneˇ prˇ´ıstupne´ nebo je prˇ´ıstup povolen pouze administra´toru˚m. Statistiky obsahujı´ tyto u´daje: • na´vsˇteˇvnost jednotlivy´ch komunit, kolekcı´ a polozˇek, • pocˇty prˇihla´sˇenı´ a odhla´sˇenı´ uzˇivatelu˚, • souhrn obsahu cele´ho archı´vu (jake´ typy za´znamu˚ jsou nejcˇasteˇji ukla´da´ny a dalsˇ´ı), • nejcˇasteˇji vyhleda´vane´ slova a slovnı´ spojenı´, • setrˇ´ıdeˇny´ seznam provedeny´ch akcı´ a neˇktere´ dalsˇ´ı podrobne´ u´daje. DSpace dovoluje uzˇivatelu˚m registrovat se do kolekcı´, u ktery´ch majı´ za´jem sledovat nove´ prˇ´ıspeˇvky. Teˇmto uzˇivatelu˚m je kazˇdy´ den zasla´n email se seznamem novy´ch prˇ´ıspeˇvku˚ v kolekci. Pokud za prˇedchozı´ den zˇa´dne´ prˇ´ıspeˇvky do kolekce neprˇibyly, email se neposı´la´. Pro zpracova´va´nı´ obsahu archı´vu a take´ pro vytva´rˇenı´ nove´ho obsahu jsou v DSpace pouzˇity tzv. MediaFiltery. K za´kladnı´m filtru˚m patrˇ´ı extrakce textu ulozˇeny´ch objektu˚ pro fulltextove´ vyhleda´va´nı´ a tvorba na´hledu˚ k obra´zku˚m ve forma´tu JPEG, GIF a PNG. Soucˇasne´ MediaFiltery vytva´rˇejı´ z PDF souboru˚ textove´, slouzˇ´ıcı´ k prohleda´va´nı´ obsahu. Tyto soubory ukla´da´ s na´zvem nazev.pdf.txt. DSpace nabı´zı´ mozˇnost doprogramovat si vlastnı´ filtry pro jine´ typy souboru˚. Dı´ky implementaci rozhranı´ a dobre´ho popisu teˇchto rozhranı´ je mozˇne´ modifikovat a prˇida´vat nove´ funkce implementacı´ vlastnı´ch na´stroju˚, ktere´ vyuzˇ´ıvajı´ obecne´ rozhranı´ DSpace. O teˇchto u´prava´ch se pı´sˇe v kapitole 4.
3.5 Nasazenı´ obecne´ho digita´lnı´ho repozita´rˇe Prˇi budova´nı´ digita´lnı´ho repozita´rˇe je vhodne´ postupovat podle urcˇity´ch kroku˚. Tato kapitola popisuje jednotlive´ kroky postupu. Kazˇdy´ digita´lnı´ repozita´rˇ je svy´m zpu˚sobem
3
ˇ ESˇENI´ PROBLE´MU ANALY´ZA R
26
jiny´ a jsou na neˇj kladeny jine´ pozˇadavky (ru˚zne´ druhy digita´lnı´ho obsahu, mnozˇstvı´ uchova´vany´ch dat, modifikovatelnost a dalsˇ´ı). Drˇ´ıve, nezˇ zacˇneme vybı´rat vhodny´ syste´m digita´lnı´ho u´lozˇisˇteˇ, je vhodne´ si rozmyslet jake´ druhy digita´lnı´ch objektu˚ potrˇebujeme uchova´vat, protozˇe ne vsˇechny syste´my jsou vhodne´ pro uchova´va´nı´ jaky´koliv typu˚ dat a kazˇdy´ nabı´zı´ jine´ sluzˇby. V nasˇem prˇ´ıpadeˇ potrˇebujeme uchova´vat prˇedevsˇ´ım naskenovane´ cˇla´nky ze sbornı´ku˚ veˇdecky´ch pracı´, vysokosˇkolske´ kvalifikacˇnı´ pra´ce a digitalizovane´ stare´ tisky. V dalsˇ´ı fa´zi bychom meˇli vybrat vhodny´ syste´m pro vybudova´nı´ digita´lnı´ho repozita´rˇe. Meˇli bychom bra´t ohled na to, aby syste´m doka´zal uchovat typy objektu˚, ktere´ pozˇadujeme, a aby splnˇoval vsˇechny pozˇadavky, ktere´ jsme si stanovili v prˇedchozı´m bodeˇ. Meˇl by take´ umozˇnˇovat rozsˇ´ırˇenı´ typu˚ ukla´dany´ch objektu˚ a export obsahu v prˇ´ıpadeˇ, zˇe se rozhodneme prˇene´st obsah u´lozˇisˇteˇ do jine´ho syste´mu. Za´rovenˇ bychom meˇli stanovit ty´m lidı´, kterˇ´ı budou digita´lnı´ u´lozˇisˇteˇ budovat, nastavovat a testovat. Meˇl by´ to by´t ty´m slozˇeny´ z odbornı´ku˚ na informacˇnı´ syste´my a knihovnicke´ procesy. My jsme vybı´rali mezi syste´my Eprints a DSpace, z nichzˇ le´pe vyhovuje DSpace. Nynı´ mu˚zˇe stanoveny´ ty´m zacˇ´ıt s instalacı´ a u´pravami repozita´rˇe. Podle zvolene´ho syste´mu, ktery´ mu˚zˇe vyhovovat vı´ce cˇi me´neˇ, prova´dı´me patrˇicˇne´ u´pravy. Protozˇe oblast digita´lnı´ch repozita´rˇu˚ se neusta´le vyvı´jı´, meˇli bychom prˇi u´prava´ch syste´mu bra´t ohled na budoucı´ prˇechod na noveˇjsˇ´ı verze pouzˇite´ho syste´mu a nemuseli tak noveˇjsˇ´ı verzi opeˇt celou modifikovat. Pokud je syste´m nainstalova´n a splnˇuje vsˇechny pozˇadovane´ funkce, meˇli bychom stanovit, kterˇ´ı uzˇivatele´ se budou o syste´m starat, kdo bude hlavnı´m administra´torem a prˇideˇlit dalsˇ´ı role v syste´mu. Teˇmto uzˇivatelu˚m by na´sledneˇ meˇla by´t prˇirˇazena prˇ´ıslusˇna´ opra´vneˇnı´. Da´le by meˇlo na´sledovat rozdeˇlenı´ obsahu repozita´rˇe na jednotlive´ skupiny lidı´, kterˇ´ı budou spolecˇneˇ vytva´rˇet neˇjakou kolekci dokumentu˚. Po vytvorˇenı´ pocˇa´tecˇnı´ch kolekcı´ bychom meˇli nastavit prˇ´ıstup k teˇmto kolekcı´m a urcˇit, kdo bude moci do dane´ kolekce prˇispı´vat a kdo si ji jen prohlı´zˇet. Take´ bychom meˇli rozhodnout, jake´ forma´ty dokumentu˚ bude u´lozˇisˇteˇ prˇijı´mat. Soucˇasneˇ s pocˇa´tecˇnı´m nastavova´nı´m u´lozˇisˇteˇ musı´me zacˇ´ıt prosˇkolovat beˇzˇne´ uzˇivatele, kterˇ´ı budou s u´lozˇisˇteˇm take´ pracovat. Prˇ´ıpadneˇ mu˚zˇeme vydat tisˇteˇny´ nebo elektronicky´ na´vod k pouzˇitı´, ktery´ by meˇl obsahovat informace jak prˇispı´vat do u´lozˇisˇteˇ, jak vyhleda´vat a prˇistupovat k obsahu a dalsˇ´ı. V konecˇne´ fa´zi mu˚zˇeme nasadit u´lozˇisˇteˇ do ostre´ho provozu a zacˇ´ıt digita´lnı´ u´lozˇisˇteˇ pouzˇ´ıvat v praxi. Pocˇa´tecˇnı´ testova´nı´ provozu by meˇlo odhalit vsˇechny nedostatky, ktere´ se prˇi testovacı´m provozu neprojevily. Meˇli bychom poskytnout uzˇivatelu˚m take´ podporu v prˇ´ıpadeˇ potı´zˇ´ı a mu˚zˇeme zaha´jit neˇjaky´ druh propagacˇnı´ akce, ktery´ upozornı´ na noveˇ vznikle´ u´lozˇisˇteˇ. Cely´ tento postup bude v dalsˇ´ı kapitole podrobneˇ popsa´n spolu s u´pravami na na´mi zvolene´m syste´mu.
4
ˇ ESˇENI´ R
27
ˇ esˇenı´ 4 R V te´to kapitole bude popsa´n prakticky´ postup prˇi nasazova´nı´ digita´lnı´ho repozita´rˇe v pro´ strˇednı´ knihovny Vysoke´ sˇkoly ba´nˇske´ – Technicke´ univerzity Ostrava. Jak jizˇ bylo strˇedı´ U zmı´neˇno drˇ´ıve, my jsme se rozhodli jako syste´m digita´lnı´ho u´lozˇisˇteˇ pouzˇ´ıt DSpace. Budou zmı´neˇny pouzˇite´ technologie a popsa´ny jednotlive´ u´pravy, ktere´ bylo trˇeba prove´st v origina´lnı´ch zdrojovy´ch ko´dech a stra´nka´ch JSP. V dalsˇ´ı cˇa´sti na´sleduje popis instalace DSpace na testovacı´ server, lokalizace DSpace do cˇesˇtiny, u´pravy prˇihlasˇova´nı´ prostrˇednictvı´m LDAP, u´pravy vkla´dacı´ch formula´rˇu˚, nastavenı´ prˇ´ıstupovy´ch pra´v a dalsˇ´ı u´pravy. Da´le je take´ popsa´n prˇevod dat ze syte´mu T-Series do DSpace, mozˇnosti za´lohova´nı´ a vy´sledky testova´nı´.
4.1 Popis technologiı´ Prˇi implementaci DSpace byla pouzˇita rˇada technologiı´ a standardnı´ch forma´tu˚, ktere´ usnadnˇovaly vy´voja´rˇu˚m prˇi programova´nı´ pra´ci. At’uzˇ se jedna´ o pouzˇitou architekturu nebo zabezpecˇenı´ prˇ´ıstupu a prˇenosu dat, bude trˇeba se blı´zˇe sezna´mit s teˇmito technologiemi. Pro podrobneˇjsˇ´ı sezna´menı´ s nimi by bylo trˇeba popsat mnoho stra´nek, takzˇe kazˇda´ technologie bude strucˇneˇ popsa´na alesponˇ tak, aby bylo mozˇne´ spra´vneˇ pochopit na´sledujı´cı´ u´pravy. 4.1.1 Java Java [26] nenı´ jen programovacı´ jazyk, ale je to cela´ softwarova´ platforma urcˇena´ k vy´voji aplikacı´. Nejveˇtsˇ´ı uplatneˇnı´ nasˇla Java v oblasti internetovy´ch a multiplatformnı´ch aplikacı´. Program napsany´ pro Java platformu mu˚zˇeme spustit na rˇadeˇ hardwarovy´ch platforma´ch. Java platforma se skla´da´ z programovacı´ho jazyka Java a virtua´lnı´ho stroje Javy. Programovacı´ jazyk Java je bezpecˇny´, robustnı´, prˇenosny´, objektoveˇ orientovany´ jazyk, ktery´ nenı´ za´visly´ na hardwarove´ platformeˇ. Umozˇnˇuje tvorbu vı´cevla´knovy´ch aplikacı´, pouzˇitı´ sı´t’ovy´ch protokolu˚, a mnoho dalsˇ´ıho. Zdrojove´ ko´dy majı´ soubor s prˇ´ıponou .java, ktere´ se na´sledneˇ kompilujı´ do podoby byte code, ktery´ ma´ prˇ´ıponu .class. Java platforma je zna´zorneˇna´ na obra´zku 5. Veˇtsˇina platforem je tvorˇena kombinacı´ hardwaru a softwaru, kdezˇto java platforma je pouze softwarovou platformou. Tvorˇ´ı ji virtua´lnı´ stroj Javy a rozhranı´ Java API. Java API je aplikacˇnı´ programove´ rozhranı´ jazyka Java. Program napsany´ v Javeˇ se nejdrˇ´ıve zkompiluje prˇekladacˇem Javy do podoby tzv. byte code, ktery´ umı´ interpretovat virtua´lnı´ stroj Javy. Byte code se da´ cha´pat jako instrukcˇnı´ soubor pro virtua´lnı´ stroj Javy. Kompilace aplikace se provede jen jednou na jake´mkoliv stroji, ale spustit ji mu˚zˇeme vsˇude tam, kde ma´me k dispozici virtua´lnı´ stroj Javy. Virtua´lnı´ stroj Javy je software, ktery´ je dostupny´ pro mnoho platforem (naprˇ´ıklad MS Windows, Linux, Unix, Solaris, ale take´ mobilnı´ telefony a dalsˇ´ı zarˇ´ızenı´). Existuje neˇkolik verzı´ Java platformy. Pro tvorbu beˇzˇny´ch aplikacı´ na pocˇ´ıtacˇi je urcˇena verze SE (Standard Edition), ktera´ obsahuje vesˇkere´ potrˇebne´ vybavenı´ pro naprogramova´nı´ (za´kladnı´ a rozsˇ´ırˇene´ datove´ typy, pra´ce se sı´tı´, pra´ce s databa´zı´, a dalsˇ´ı). Pro
4
ˇ ESˇENI´ R
28
Obra´zek 5: Java platforma
tvorbu pokrocˇilejsˇ´ıch internetovy´ch aplikacı´ je urcˇena verze EE (Enterprise Edition), ktera´ prˇida´va´ podporu internetovy´ch protokolu˚, webovy´ch aplikacı´ (Java Server Pages, Java Servlets) a dalsˇ´ıch. V dnesˇnı´ dobeˇ se sta´va´ sta´le popula´rneˇjsˇ´ı verze ME (Micro Edition) pro mobilnı´ zarˇ´ızenı´ jako jsou mobilnı´ telefon nebo PDA. My jsme prˇi implementaci pouzˇili J2SE (Java 2 Standard Edition) verze 1.5.0. 4.1.2 Java Server Pages Java Server Pages [27] je technologie pro tvorbu dynamicky´ch webovy´ch stra´nek. Nabı´zı´ mozˇnost rychle´ tvorby webovy´ch aplikacı´, ktere´ jsou serveroveˇ a platformneˇ neza´visle´. V kombinaci s servlety jsou Java Server Pages vy´hodny´m na´strojem pro tvorbu rozsa´hly´ch interaktivnı´ch aplikacı´ beˇzˇ´ıcı´ch na straneˇ serveru. Java Server Pages se nejcˇasteˇji pouzˇ´ıvajı´ pro tvorbu HTML dokumentu˚, ktere´ jsou na´sledneˇ zobrazova´ny v klientoveˇ prohlı´zˇecˇi. Servlety jsou aplikace beˇzˇ´ıcı´ na straneˇ serveru, ktere´ doplnˇujı´ stra´nky JSP. Pouzˇ´ıvajı´ se na rychle´ a optimalizovane´ zpracova´nı´ dotazu˚. JSP stra´nky jsou po vygenerova´nı´ serverem prˇevedeny na servlety docˇasneˇ ulozˇene´ na serveru a slouzˇ´ı pro rychlejsˇ´ı zpracova´nı´ pozˇadavku˚. Opakem servletu jsou applety, ktere´ beˇzˇ´ı na straneˇ klienta a vyuzˇ´ıvajı´ virtua´lnı´ stroj Javy na straneˇ klienta. JSP a servlety se dajı´ vyuzˇ´ıt pro oddeˇlenı´ staticky´ch a dynamicky´ch stra´nek. Staticke´ stra´nky definujı´ vzhled aplikace, zatı´mco dynamicke´ stra´nky se servlety zajisˇtujı´ funkcˇnı´ logiku syste´mu. Hlavnı´mi prˇednostmi teˇchto technologiı´ jsou: • Definujı´ jazyk pro tvorbu JSP stra´nek, cozˇ jsou textove´ dokumenty, definujı´cı´ jak prˇijmout, zpracovat a odeslat pozˇadavek od klienta, • definujı´ mechanismy pro rozsˇ´ırˇenı´ jazyka JSP, prˇida´va´nı´ novy´ch tagu˚, • nabı´zejı´ koncept pro prˇistupova´nı´ objektu˚ na straneˇ serveru.
4
ˇ ESˇENI´ R
29
4.1.3 Tomcat Apache Tomcat [29] je webovy´ server, ktery´ slouzˇ´ı pro uchova´va´nı´ a zpracova´va´nı´ aplikacı´ch zalozˇeny´ch na Java Servlets a Java Server Pages. Mu˚zˇe by´t pouzˇit jako samostatny´ server nebo fungovat ve spojenı´ s webovy´m serverem Apache. Tomcat je v podstateˇ skladisˇteˇ servletu˚, ktere´ se stara´ o spusˇteˇnı´, beˇh a ukoncˇenı´ servletu˚ a vyrˇizova´nı´ pozˇadavku˚ od klientu˚ pomocı´ protokolu˚ HTTP nebo HTTPS. Vy´hodou Apache Tomcat je jeho dostupnost zdarma. V nasˇem prˇ´ıpadeˇ byl pouzˇit Apache Tomcat ve verzi 5.5.15. 4.1.4 PostgreSQL PostgreSQL je rozsˇ´ırˇeny´, volneˇ dostupny´ RDBMS (Relational DataBase Management System). Nabı´zı´ alternativu k jiny´m volneˇ dostupny´m relacˇnı´m databa´zı´m jako jsou MySQL a Firebird nebo ke komercˇnı´m databa´zovy´m syste´mu˚m typu Oracle, MS SQL nebo DB2 od IBM. Podporuje mnoho modernı´ch operacˇnı´ch syste´mu˚ jako jsou MS Windows, Linux, OS/2. Je sˇ´ırˇen pod licencı´ BSD [22], ktera´ umozˇnˇuje jeho modifikaci a bina´rnı´ distribuci. Z jazyka SQL dovoluje pouzˇitı´ cizı´ch klı´cˇu˚, vnorˇeny´ch dotazu˚, spojenı´ tabulek (JOIN), spousˇtı´ (trigger), pohledy (view) a dalsˇ´ıch. Umozˇnˇuje psanı´ uzˇivatelsky definovany´ch funkcı´ pomocı´ vestaveˇne´ho jazyka PL/pgSQL nebo klasicky´ch programovacı´ch jazyku˚ jako jsou C, C++, Java, Perl, Tcl a dalsˇ´ı. Nasˇe digita´lnı´ u´lozˇisˇteˇ beˇzˇ´ı nad PostgreSQL verze 7.4.7 s ovladacˇem JDBC (Java Database Conectivity) pro programovacı´ jazyk Java. 4.1.5 HTTPS HTTPS (Hyper Text Transfer Protocol Secure) je protokol pro komunikaci prostrˇednictvı´m internetu. HTTPS zajisˇt’uje bezpecˇny´ prˇenos dat za pomoci sˇifrova´nı´ho protokolu Secure Socket Layer (SSL) nebo Transport Layer Security (TLS). HTTPS prˇena´sˇ´ı data protokolem HTTP, ale neprˇena´sˇ´ı je v cˇisteˇ textove´ podobeˇ, ale sˇifrovaneˇ. Toto sˇifrova´nı´ znemozˇnˇuje odposlech prˇena´sˇeny´ch dat a jejich podvrzˇenı´. Komunikace protokolu HTTPS standardneˇ probı´ha´ na portu 443 (protokol HTTP komunikuje na portu 80). Oveˇrˇenı´ identity serveru probı´ha´ pomocı´ certifika´tu serveru, ktery´ musı´ by´t elektronicky podepsa´n neˇkterou z certifikacˇnı´ch autorit. Webove´ prohlı´zˇecˇe a operacˇnı´ syste´my v sobeˇ majı´ napevno implementova´ny podepsane´ certifika´ty hlavnı´ch certifikacˇnı´ch autorit, jako je naprˇ´ıklad VeriSign [32]. Protokol HTTPS se nastavuje na u´rovni webove´ho serveru, ktery´ vyrˇizuje pozˇadavky webove´ aplikace. Komunikaci protokolem HTTPS pozna´me podle adresy, ktera´ zacˇ´ına´ rˇeteˇzcem https:// a cela´ adresa ma´ tvar https://hostitel:port/ kde hostitel je na´zev serveru, na ktery´ se chceme prˇipojit a port je cˇ´ıslo portu, na ktere´m prˇijı´ma´ pozˇadavky aplikace nebo server. Pokud neuvedeme cˇ´ıslo portu, komunikuje se na standardnı´m portu 443.
4
ˇ ESˇENI´ R
30
4.1.6 LDAP Lightweight Directory Access Protocol (LDAP) je protokol urcˇeny´ pro udrzˇova´nı´ adresa´rˇu˚ a pra´ci s informacemi o uzˇivatelı´ch jako jsou vyhleda´va´nı´ adres, emailu˚ a dalsˇ´ıch informacı´ uchova´vany´ch v databa´zi nebo adresa´rˇove´ strukturˇe. Je zalozˇen na doporucˇenı´ X.500 vyvinuty´ spolkem International Consultative Commitee of Telephony and Telegraphy (ITU-T), ktery´ definuje prˇena´sˇenı´ elektronicky´ch zpra´v po pocˇ´ıtacˇove´ sı´ti. Konkre´tnı´ open source implementacı´ je naprˇ´ıklad OpenLDAP [30]. Je to protokol typu klient/server, takzˇe klient se prˇipojı´ k LDAP serveru (implicitneˇ na port 389) a zasˇle pozˇadavek, server mu pak vracı´ odpoveˇd’. Data v LDAP adresa´rˇi jsou rˇazena do stromove´ struktury a veˇtsˇinou popisujı´ neˇjakou rea´lnou osobu, veˇc, tiska´rnu nebo pocˇ´ıtacˇ. Kazˇde´mu takove´mu objektu je prˇirˇazeno neˇkolik atributu˚ (zemeˇ, organizace, oddeˇlenı´, jme´no, email a dalsˇ´ı), nad ktery´mi protokol LDAP pracuje. Uka´zka z adresa´rˇove´ struktury sˇkoly je zachycena na obra´zku 7. Protokol umozˇnˇuje vyhleda´vat, prˇida´vat, modifikovat a mazat za´znamy v adresa´rˇove´ strukturˇe. Dalsˇ´ı podstatnou funkcı´ adresa´rˇove´ sluzˇby LDAP je mozˇnost autentizace klienta. Autentizace pomocı´ LDAP se vyuzˇ´ıva´ v mnoha webovy´ch sluzˇba´ch v ra´mci organizace, takzˇe uzˇivatele´ pouzˇ´ıvajı´ pro prˇihlasˇova´nı´ ke vsˇem aplikacı´m stejne´ prˇihlasˇovacı´ jme´no a heslo. 4.1.7 XML XML (eXtensible Markup Language) je znacˇkovacı´ jazyk podobny´ HTML (HyperText Markup Language). Hlavnı´m rozdı´lem mezi teˇmito jazyky je skutecˇnost, zˇe HTML svy´mi znacˇkami urcˇuje, jak se majı´ data zobrazit, kdezˇto XML zachycuje vy´znam popisovany´ch dat. XML byl navrzˇen konsorciem W3C [31]. XML je stejneˇ jako HTML odvozen od jazyka SGML (Standard Generalized Markup Language), ktery´ definuje popis a definici dat takovy´m zpu˚sobem, zˇe nepracuje s daty jako s textem, ale jako s objekty. SGML je vsˇak prˇ´ılisˇ komplexnı´ a slozˇity´, a proto byl jako podmnozˇina odvozen jazyk XML. Jazyk XML byl navrzˇen prˇedevsˇ´ım jako rozsˇirˇitelny´ jazyk, ktery´ povoluje dodefinova´nı´ vlastnı´ch znacˇek. Jazyk XML je urcˇen prˇedevsˇ´ım pro vy´meˇnu dat mezi aplikacemi a popisova´nı´ dokumentu˚. Snazˇ´ı se popsat se´mantiku dat mı´sto toho, jak budou data prezentova´na. To zajisˇt’uje propojenı´ XML souboru s nadefinovany´mi styly, ktere´ urcˇujı´, jak se ma´ dany´ element zobrazit. Mezi nejpouzˇ´ıvaneˇjsˇ´ı styl pro zobrazova´nı´ XML dokumentu˚ na obrazovce nebo tiska´rneˇ patrˇ´ı CSS (Cascade Styles Sheets), ktery´ kazˇde´mu elementu prˇirˇadı´ vlastnosti pro zobrazenı´ (velikost pı´sma, odsazenı´, barvu pı´sma a dalsˇ´ı). Tato technika umozˇnˇuje stejny´ dokument zobrazit ru˚zneˇ na monitoru a naprˇ´ıklad na tiska´rneˇ. Pomocı´ transformacˇnı´ch stylu˚ lze dokumenty v XML prˇeva´deˇt do jiny´ch forma´tu˚, jako jsou PDF, XHTML, HTML, postscript, a jine´. Popsa´nı´m vy´znamu zachyceny´ch dat se nasky´ta´ mozˇnost efektivneˇjsˇ´ıho vyhleda´va´nı´ informacı´, kdy vyhleda´vacˇe mohou prohleda´vat jen specifickou cˇa´st obsahu. Naprˇ´ıklad mu˚zˇeme vyhleda´vat pouze text, ktery´ je obsazˇen v neˇjake´m nadpisu, pozna´mce a jinde.
4
ˇ ESˇENI´ R
31
Na na´sledujı´cı´ uka´zce ze souboru XML je prˇ´ıklad za´pisu cˇla´nku. U cˇla´nku je uveden autor, na´zev a vlastnı´ text. Kazˇdy´ XML soubor zacˇ´ına´ deklaracı´ XML. Ta musı´ obsahovat verzi XML a znakovou sadu, ve ktere´ je dokument napsa´n. Veˇtsˇinou se pro psanı´ XML pouzˇ´ıva´ znakova´ sada UTF-8, ale jsou povoleny i jine´. Na´sleduje posloupnost znacˇek (tagu˚) podle definice z DTD souboru. Znacˇky jsou uzavrˇeny mezi znaky „<“ a „>“. Jelikozˇ jsou tyto znaky pouzˇity pro oznacˇenı´ znacˇek, pro zapsa´nı´ teˇchto znaku˚ musı´me pouzˇ´ıt prˇeddefinovany´ch entit „<“ a „>“. Kazˇda´ znacˇka mu˚zˇe obsahovat atributy a hodnoty nastavene´ teˇmto atributu˚m. V prˇ´ıkladu je to naprˇ´ıklad atribut typ a hodnota vzdeˇla´vacı´ ve znacˇce . <jmeno>Luka ´s ˇ <prijmeni>Jandera [email protected]Jak zı ´skat sta ´tnı ´ obc ˇanstvı ´ ´vod U Te ´matem c ˇla ´nku bude postup pr ˇi zı ´ska ´va ´nı ´ sta ´tnı ´ho... ... Aby bylo mozˇne´ zkontrolovat, jestli je dany´ dokument vytvorˇen spra´vneˇ, je trˇeba neˇkde urcˇit, jake´ znacˇky a v jake´m porˇadı´ se mohou v dokumentu vyskytovat. Popis takove´ struktury dokumentu je obsazˇen v DTD (Document Type Definition) souboru. DTD soubor popisuje sche´ma pro urcˇity´ typ XML dokumentu. Obsahuje seznam elementu˚ a pro kazˇdy´ element take´ seznam mozˇny´ch vnorˇeny´ch elementu˚. Take´ urcˇuje, zda-li je element povinny´ nebo nikoliv. Pro ru˚zne´ typy dokumentu˚ byly vytvorˇeny ru˚zna´ DTD sche´mata, ktera´ mu˚zˇeme pouzˇ´ıt nebo si mu˚zˇeme vytvorˇit DTD s vlastnı´m popisem XML souboru podle potrˇeby. Aby byl dokument XML spra´vneˇ vytvorˇeny´, musı´ splnˇovat vsˇechny na´sledujı´cı´ pravidla: • cely´ dokument musı´ by´t obsazˇen v jednom korˇenove´m elementu (root element), • vsˇechny elementy jsou pa´rove´, to znamena´, zˇe kazˇdy´ startovacı´ element musı´ mı´t i svu˚j koncovy´ element nebo pokud se jedna´ o pra´zdny´ element, mu˚zˇe by´t ukoncˇen znacˇkou pra´zdne´ho elementu , • hodnoty atributu˚ musı´ by´t uzavrˇeny v uvozovka´ch nebo v apostrofech, ikdyzˇ jde jen o cˇ´ıselnou hodnotu,
4
ˇ ESˇENI´ R
32
• elementy se mohou do sebe zanorˇovat podle definice DTD, ale nesmı´ se krˇ´ızˇit (neˇco je sˇpatny´ za´pis), • rozlisˇujı´ se mala´ a velka´ pı´smena, takzˇe startovacı´ i ukoncˇovacı´ znacˇka musı´ by´t zapsa´na stejneˇ. Oblasti pouzˇitı´ XML jsou sˇiroke´. XML se pouzˇ´ıva´ jako forma´t za´pisu metadatovy´ch standardu˚, jako jsou METS, RDF nebo Dublin Core. Slouzˇ´ı take´ jako forma´t pro za´pis a tvorbu publikacı´ a spolu s prˇeddefinovany´mi DTD je zna´m jako DocBook, ktery´ je podrobneˇ popsa´n v kapitole 5.1. Je pouzˇ´ıva´n take´ pro popis multime´diı´ a grafiky (dvourozmeˇrna´ vektorova´ grafika SVG – Scalable Vector Graphics). Sˇiroke´ uplatneˇnı´ nasˇel XML forma´t take´ v komunikaci prˇes internet, naprˇ´ıklad Instant Messenger Jabber je zalozˇen na zpra´va´ch ve forma´tu XML. Pouzˇ´ıva´ jej take´ mnoho aplikacı´ pro vy´meˇnu dat mezi jednotlivy´mi instalacemi.
4.2 Instalace Instalace DSpace probeˇhla bez veˇtsˇ´ıch proble´mu˚, bylo ovsˇem potrˇeba prˇed instalacı´ prˇipravit operacˇnı´ syste´m a nainstalovat potrˇebne´ softwarove´ vybavenı´. Pro instalaci je trˇeba zvolit dostatecˇneˇ vy´konny´ server, ktery´ by meˇl disponovat velkou diskovou kapacitou, velkou a rychlou pameˇtı´ RAM a rychly´m procesorem. Vy´voja´rˇi DSpace je doporucˇova´n server s minima´lneˇ 2 GB operacˇnı´ pameˇti, dvouja´drovy´m procesorem Xeon 2,4 GHz a SCSI disky s velkou kapacitou. Pro na´sˇ testovacı´ DSpace byl vybra´n pocˇ´ıtacˇ s procesorem Intel Pentium 4 beˇzˇ´ıcı´m na 2 GHz a 512 MB operacˇnı´ pameˇti. Prˇi instalaci jsem spolupracoval s ing. Stanislavem Ulmanem, ktery´ zajisˇt’oval spra´vu syste´mu a poskytl jizˇ prˇedinstalovany´ pocˇ´ıtacˇ. Na tomto testovacı´m pocˇ´ıtacˇi byl nainstalova´n operacˇnı´ syste´m Debian GNU/Linux verze 3.1, Java 2 Runtime Environment verze 1.5 a databa´zovy´ relacˇnı´ syste´m PostgreSQL verze 7.4.7. Na´sledneˇ byl doinstalova´n jesˇteˇ program ant, ktery´ je potrˇeba prˇi kompilova´nı´ a sestavova´nı´ projektu DSpace. Po vytvorˇenı´ databa´ze dspace a nastavenı´ prˇ´ıslusˇny´ch opra´vneˇnı´ jsem mohl prˇistoupit k samotne´ instalaci. Ze serveru sourceforge.net jsem sta´hnul zdrojove´ ko´dy DSpace verze 1.3.2 a rozbalil je do sve´ho adresa´rˇe. V konfiguracˇnı´m souboru dspace.cfg jsem nastavil u´daje potrˇebne´ pro instalaci, jako jsou adresa´rˇ, kam se bude instalovat, jme´no a heslo databa´ze, adresu posˇtovnı´ho serveru a adresu, na ktere´ DSpace pobeˇzˇ´ı. Do adresa´rˇe se zdrojovy´mi ko´dy jsem nakopı´roval ovladacˇ JDBC pro PostgreSQL prˇ´ıslusˇne´ verze. Da´le jsem pomocı´ programu ant spustil kompilaci a instalaci zdrojovy´ch ko´du˚ DSpace. Po u´speˇsˇne´ kompilaci jsem prˇesunul vytvorˇene´ zabalene´ archı´vy aplikace do spra´vne´ho adresa´rˇe serveru a tomcat restartoval. Poslednı´ krok za´kladnı´ instalace je vytvorˇenı´ administra´tora DSpace pomocı´ prˇ´ıkazu create-administrator. Ostatnı´ administracˇnı´ u´kony lze prova´deˇt pomocı´ webove´ho rozhranı´ DSpace. Po nainstalova´nı´ a spusˇteˇnı´ za´kladnı´ instalace bylo potrˇeba zajistit pravidelne´ spousˇteˇnı´ neˇktery´ch akcı´. Toho bylo dosazˇeno pomocı´ linuxove´ho de´mona cron, ktery´ ve stanoveny´ cˇas spousˇtı´ zadane´ prˇ´ıkazy. Cron spousˇtı´ skripty pro rozesı´la´nı´ pravidelny´ch emailu˚, cˇisˇteˇnı´ databa´ze od polozˇek oznacˇeny´ch jako smazane´, skript media-filter pro extrahova´nı´
4
ˇ ESˇENI´ R
33
textu z vlozˇeny´ch dokumentu˚ a vytva´rˇenı´ na´hledu˚ obra´zku˚. Kazˇdy´ den take´ prova´dı´ generova´nı´ statistik prˇ´ıstupu˚ a dalsˇ´ıch u´daju˚, jak jizˇ bylo popsa´no v kapitole 3.4.11. Jednou ty´dneˇ se spousˇtı´ skript pro fyzicke´ maza´nı´ souboru˚, ktere´ byly oznacˇene´ za smazane´. Po takto nainstalovane´m DSpace se objevily neˇktere´ proble´my prˇi vyhleda´va´nı´ a procha´zenı´ cˇesky´ch na´zvu˚. Proble´my se projevovaly dvojı´m zpu˚sobem.Prˇi vyhleda´va´nı´ se neˇktere´ znaky v hledane´m rˇeteˇzci (veˇtsˇinou se jednalo o cˇeske´ znaky s diakritikou) po odesla´nı´ pozˇadavku zmeˇnily na nezobrazitelne´ znaky a vy´sledky hleda´nı´ tı´m byly ovlivneˇny. Prˇ´ıcˇinou byly sˇpatneˇ nastavene´ parametry prˇi spousˇteˇnı´ serveru Tomcat, konkre´tneˇ pouzˇita´ znakova´ sada pro ko´dova´nı´ textu. Po nastavenı´ ko´dova´nı´ na znakovou sadu UTF-8 proble´m s vyhleda´va´nı´m zmizel. Dalsˇ´ım proble´mem bylo trˇ´ıdeˇnı´ cˇesky´ch na´zvu˚. Na´zvy se netrˇ´ıdily podle pravidel pro cˇesky´ jazyk, takzˇe na´zvy zacˇ´ınajı´cı´ pı´smenem s diakritikou se zarˇazovaly na zacˇa´tek seznamu a pı´smeno „Ch“ bylo vrˇazeno mezi na´zvy zacˇ´ınajı´cı´ na „C“. Proble´m ovsˇem nebyl v DSpace, ale ve sˇpatneˇ nastavene´ databa´zi PostgreSQL. Protozˇe PostgreSQL byl instalova´n a inicializova´n jizˇ prˇi instalaci syste´mu, ktery´ byl nastaven pro anglicke´ prostrˇedı´, trˇ´ıdeˇnı´ dat se prova´deˇlo podle teˇchto pocˇa´tecˇnı´ch nastavenı´. Pro opravenı´ bylo nutne´ data z databa´ze za´lohovat do souboru pomocı´ prˇ´ıkazu pg dump, smazat obsah cele´ databa´ze a pote´ databa´zi znovu inicializovat se spra´vneˇ nastaveny´mi parametry. Prˇ´ıkaz pro inicializaci databa´ze s nastavenı´m cˇeske´ho trˇ´ıdeˇnı´ vypada´ na´sledovneˇ: initdb -D [postgres]/data --locale=cs_CZ.UTF-8 kde [postgres] je adresa´rˇ, ve ktere´m majı´ by´t data ulozˇena. Po te´to opraveˇ jizˇ DSpace fungoval korektneˇ a mohl jsem zacˇ´ıt s modifikacemi pro potrˇeby knihovny. Po instalaci byly vytvorˇeny za´kladnı´ komunity a kolekce. Komunity jsou rozdeˇleny podle vysokosˇkolsky´ch fakult a pracovisˇt’. V soucˇasne´ dobeˇ jsou v DSpace kolekce dvojı´ho typu, vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ a naskenovany´ch cˇla´nku˚ ze sbornı´ku˚ veˇdec´ strˇednı´ knihovna“ je kolekce s importem vysokosˇkolsky´ch ky´ch pracı´. Pod komunitou „U kvalifikacˇnı´ch pracı´ ze syste´mu T-Series. Prˇipravuje se take´ kolekce pro digitalizovane´ stare´ tisky. Nynı´ (kveˇten 2006) je DSpace instalova´n na testovacı´m serveru v knihovneˇ na adrese http://pcnk233c.vsb.cz:8080/dspace. Vı´ce podrobnostı´ je o instalaci a nastavenı´ DSpace popsa´no v [2] nebo v administra´torske´ dokumentaci, ktera´ je v elektronicke´ podobeˇ prˇilozˇena na CD k te´to pra´ci.
4.3 Lokalizace do cˇesˇtiny Du˚lezˇitou u´pravou, ktera´ byla pozˇadova´na, je lokalizace syste´mu DSpace do cˇeske´ho jazyka. Vy´voja´rˇi jizˇ zacˇali s prˇ´ıpravou na internacionalizaci prostrˇedı´, takzˇe tato u´prava nebyla tak slozˇita´. V soucˇasne´ verzi DSpace je plneˇ internacionalizovane´ webove´ prostrˇedı´ syste´mu, proto stacˇilo pouze prˇelozˇit soubor s texty a popisy. Prˇi internacionalizaci jsou pouzˇity prostrˇedky platformy Javy, ktere´ toto umozˇnˇujı´ docela snadno. Pro texty v JSP stra´nka´ch byla pouzˇita knihovna Java Standard Tag Library a pro vy´beˇr spra´vne´ho souboru s texty byla pouzˇita trˇ´ıda ResourceBundle z Java API. Soubory s texty jsou pojmenova´ny podle vzoru „Messages cs.properties“, kde cs je ko´d jazyka podle normy ISO 639. Pokud neˇjaky´ text nenı´ nalezen v lokalizovane´m souboru,
4
ˇ ESˇENI´ R
34
Obra´zek 6: Upraveny´ index pı´smen pro procha´zenı´
pouzˇije se anglicky´ text z vy´chozı´ho souboru Messages.properties. Prˇepı´na´nı´ mezi jazyky je prozatı´m vyrˇesˇeno na za´kladeˇ detekce nastavenı´ webove´ho prohlı´zˇecˇe klienta. Pokud jazyk nastaveny´ v prohlı´zˇecˇi nema´ v DSpace odpovı´dajı´cı´ soubor s texty, DSpace se zobrazı´ s anglicky´mi texty z vy´chozı´ho souboru. Vy´chozı´ soubor s texty Messages.properties je na na´sledujı´cı´ uka´zce. Na zacˇa´tku rˇa´dku je vzˇdy uveden klı´cˇ, podle ktere´ho se rozpozna´vajı´ jednotlive´ texty a za znakem „=“ je uveden text, ktery´ se zobrazı´ na prˇ´ıslusˇne´ stra´nce. Na´zev klı´cˇe je odvozen od plne´ cesty k JSP stra´nce a rˇeteˇzce identifikujı´cı´ho text v ra´mci jedne´ stra´nky. jsp.layout.navbar-default.about = About DSpace jsp.layout.navbar-default.advanced = Advanced Search jsp.layout.navbar-default.authors = Authors jsp.layout.navbar-default.browse = Browse Soubor s texty musı´ by´t v ko´dova´nı´ ascii, takzˇe cˇeske´ znaky musı´ by´t zapsa´ny jako sekvence „\uXXXX“, kde XXXX je hexadecima´lnı´ cˇ´ıslo urcˇujı´cı´ znak v ascii tabulce. Soubor jsem prˇelozˇil v ko´dova´nı´ iso-8859-2 a na´sledneˇ jej prˇekonvertoval do ascii pomocı´ prˇ´ıkazu native2ascii. Po prˇelozˇenı´ textu˚ z prˇedesˇle´ uka´zky vypadajı´ tyto texty na´sledovneˇ: jsp.layout.navbar-default.about = O DSpace jsp.layout.navbar-default.advanced = Rozs ˇı ´r ˇene ´ hleda ´nı ´ jsp.layout.navbar-default.authors = Autor ˇi jsp.layout.navbar-default.browse = Procha ´zet Soubory s na´poveˇdou nejsou zatı´m internacionalizova´ny, takzˇe prozatı´m zu˚staly v anglicˇtineˇ. Prˇelozˇeny byly sˇablony emailu˚, ktere´ sice take´ nejsou prˇizpu˚sobeny vı´cejazycˇne´ verzi, ale DSpace rozesı´la´ tyto emaily uzˇivatelu˚m po vlozˇenı´ za´znamu do repozita´rˇe, pokud se uzˇivatel prˇihla´sı´ k odbeˇru emailu˚ s novy´mi za´znamy vlozˇeny´mi do kolekce nebo v jiny´ch prˇ´ıpadech. Tyto emaily se tedy posı´lajı´ pouze v cˇeske´ verzi, neza´visle na tom, jak je nastaven webovy´ prohlı´zˇecˇ. Prˇelozˇeny byly take´ formula´rˇe pro vkla´da´nı´ za´znamu˚ do DSpace, ktere´ sice nejsou soucˇa´stı´ lokalizacˇnı´ho souboru, ale prˇedpokla´da´ se nejcˇasteˇjsˇ´ı nastavenı´ pro cˇesky´ jazyk. Soubeˇzˇneˇ s lokalizacı´ formula´rˇu˚ byly provedeny u´pravy formula´rˇu˚ tak, aby splnˇovaly pozˇadavky na vkla´da´nı´ pozˇadovany´ch dokumentu˚. Tyto u´pravy budou podrobneˇji popsa´ny da´le. V ra´mci lokalizace DSpace do cˇeske´ho jazyka byla upravena JSP stra´nka pro procha´zenı´ na´zvu˚ a autoru˚, kde byl upraven seznam pocˇa´tecˇnı´ch pı´smen, do ktere´ho byla ˇ “, „Sˇ“ a „Zˇ“. Tento seznam je na obra´zku 6. prˇida´na pı´smena „Ch“, „Cˇ“, „R
4
ˇ ESˇENI´ R
35
Obra´zek 7: Adresa´rˇova´ struktura LDAP
4.4 LDAP Dalsˇ´ım pozˇadavk na digita´lnı´ u´lozˇisˇteˇ byla mozˇnost prˇihla´sit se prostrˇednictvı´m sˇkolnı´ho LDAP uzˇivatelske´ho jme´na a hesla. Uzˇivatele´ se nemusı´ registrovat, pokud chteˇjı´ vlozˇit do DSpace svou pra´ci. Navı´c se nabı´zı´ mozˇnost odlisˇit uzˇivatele prˇihla´sˇene´ pomocı´ LDAP hesla od uzˇivatelu˚ prˇihla´sˇeny´ch prˇes svu˚j registrovany´ u´cˇet v DSpace. V za´kladnı´ instalaci nabı´zı´ DSpace mozˇnost prˇihla´sˇova´nı´ prˇes LDAP. Vyskytl se ovsˇem proble´m prˇi nastavenı´ u´daju˚ pro oveˇrˇova´nı´ uzˇivatelu˚. Byly nastaveny u´daje jako adresa LDAP serveru, na´zvy polı´ v adresa´rˇove´ strukturˇe a kontext pro oveˇrˇova´nı´ uzˇivatelsky´ch hesel. DSpace vsˇak prˇedpokla´da´, zˇe uzˇivatele´ jsou v adresa´rˇove´ strukturˇe LDAP v jednom podstromeˇ. V nastavenı´ je nastaven kontext, ve ktere´m DSpace uzˇivatele hleda´ a pokud je najde, oveˇrˇ´ı heslo. Na obra´zku 7 je uka´zka adresa´rˇove´ho stromu sˇkolnı´ho LDAP serveru (ldap://ldap.vsb.cz:389). Kazˇda´ fakulta ma´ svu˚j podstrom jako samostatna´ organizace, takzˇe naprˇ´ıklad o=FEI znamena´ „organization FEI“. Fakulty jsou da´le rozdeˇleny na studenty, katedry a dalsˇ´ı. Pod katedrami je vzˇdy seznam kateder podle cˇ´ısla katedry a v nich jednotlivı´ zameˇstnanci kateder. Pod studenty (ou=Stu) je seznam vsˇech studentu˚ fakulty. Pokud byl kontext nastaven naprˇ´ıklad na „o=FEI,ou=Stu“, mohli se prˇihlasˇovat pouze studenti fakulty elektrotechniky a informatiky. Proble´m jsem vyrˇesˇil tak, zˇe jsem implementoval vlastnı´ servlet pro prˇihlasˇova´nı´ – VSB LDAPServlet.java, ktery´ doplnˇoval funkce pu˚vodnı´ho servletu. Servlet nejdrˇ´ıve prohleda´ cely´ adresa´rˇovy´ strom a snazˇ´ı se najı´t uzˇivatele s prˇ´ıslusˇny´m uzˇivatelsky´m jme´nem. Pokud takove´ho uzˇivatele najde, pouzˇije kontext z vy´sledku˚ hleda´nı´ pro oveˇrˇenı´ uzˇiva-
4
ˇ ESˇENI´ R
36
telske´ho hesla. Servlet jsem prˇidal k ostatnı´m a v souboru dspace-web.xml s nastavenı´m webove´ aplikace jsem jej zameˇnil mı´sto pu˚vodnı´ho servletu LDAPServlet.java. DSpace nabı´zı´ programove´ rozhranı´ pro vytvorˇenı´ vlastnı´ch autentikacˇnı´ch pravidel. Rozhranı´ umozˇnˇuje implementovat tyto metody: • allowSetPassword(context, request, email) – pro konkre´tnı´ho uzˇivatele vracı´ true nebo false, pokud si mu˚zˇe uzˇivatel sa´m nastavit heslo, • canSelfRegister(context, request, email) – pro konkre´tnı´ho uzˇivatele vracı´ true nebo false, pokud se uzˇivatel mu˚zˇe zaregistrovat do DSpace a vytvorˇit si tak vlastnı´ u´cˇet, prˇ´ıstupny´ prˇes svoji emailovou adresu, • getSpecialGroups(context, request) – vracı´ seznam specia´lnı´ch (dynamicky´ch) skupin, do ktery´ch je uzˇivatel zarˇazen. Skupiny se mohou tvorˇit na za´kladeˇ emailove´ adresy, IP adresy nebo dalsˇ´ıch u´daju˚, • initEperson(context, request, eperson) – prˇedvyplneˇnı´ informacı´ o uzˇivateli, pokud se uzˇivatel automaticky registruje naprˇ´ıklad pomocı´ LDAP, • startAuthentication(context, request, response) – spousˇtı´ servlet pro autentikaci. V nasˇem prˇ´ıpadeˇ byla implementova´na hlavneˇ metoda getSpecialGroups(), ktera´ uzˇivatele, kterˇ´ı majı´ email koncˇ´ıcı´ „@vsb.cz“, prˇida´va´ do skupiny VSB users. Teˇmto uzˇivatelu˚m prˇihla´sˇeny´m prˇes LDAP metoda allowSetPassword() nedovoluje zmeˇnu hesla. Ostatnı´ metody rozhranı´, ktere´ nebylo trˇeba modifikovat, byly prˇevzaty z vy´chozı´ trˇ´ıdy SimpleAuthenticator.java.
4.5 Vkla´dacı´ formula´rˇe Aby bylo mozˇne´ vkla´dat do DSpace ru˚zne´ typy digita´lnı´ch dokumentu˚, musely by´t vytvorˇeny odpovı´dajı´cı´ formula´rˇe pro vkla´da´nı´ novy´ch za´znamu˚. DSpace ma´ formula´rˇe ulozˇeny v jednom XML souboru, ve ktere´m je take´ ulozˇeno, jaky´ formula´rˇ ma´ mı´t konkre´tnı´ kolekce. Soubor se jmenuje input-forms.xml a je nacˇ´ıta´n vzˇdy prˇi spusˇteˇnı´ DSpace. Jak jizˇ bylo zmı´neˇno drˇ´ıve, tento soubor byl lokalizova´n do cˇeske´ho jazyka a byly do neˇj prˇida´ny dalsˇ´ı formula´rˇe. Na na´sledujı´cı´ uka´zce je zobrazena struktura souboru inputforms.xml. ...
4
ˇ ESˇENI´ R
37
Obra´zek 8: Uka´zka polı´cˇka formula´rˇe
... Na zacˇa´tku jsou mapova´ny formula´rˇe na jednotlive´ kolekce a je tady uvedeno take´ vy´chozı´ mapova´nı´, ktere´ prˇirˇadı´ formula´rˇ trad vsˇem kolekcı´m, ktere´ nejsou v tomto seznamu. Da´le na´sledujı´ definice pojmenovany´ch formula´rˇu˚, ktere´ v sobeˇ obsajujı´ jednotlive´ formula´rˇe, stra´nky formula´rˇu˚ a polı´cˇka. Nakonec jsou uvedeny seznamy hodnot pro prvky formula´rˇe umozˇnˇujı´cı´ vy´beˇr z prˇeddefinovany´ch hodnot. Kazˇdy´ prvek formula´rˇe ma´ odpovı´dajı´cı´ element v definici formula´rˇe form. Jeden prvek formula´rˇe mohou definovat na´sledujı´cı´ znacˇky v XML souboru input-forms.xml: • dc-element – povinny´ element urcˇujı´cı´ Dublin Core element, do ktere´ho se hodnota zapı´sˇe, • dc-qualifier – urcˇuje uprˇesnˇujı´cı´ Dublin Core kvalifika´tor, do ktere´ho se zapı´sˇe hodnota z prvku formula´rˇe, • repeatable – povoluje opakovatelnost polı´cˇka formula´rˇe. U polı´cˇka formula´rˇe se vygeneruje tlacˇ´ıtko pro prˇida´nı´ dalsˇ´ıho polı´cˇka stejne´ho typu, • label – povinny´ element pro na´zev polı´cˇka, • input-type – povinny´ element pro urcˇenı´ typu formula´rˇove´ho polı´cˇka. Mu˚zˇe to by´t textove´ pole, dvojite´ pole pro jme´no a prˇ´ıjmenı´, specia´lnı´ trojite´ pole pro datum nebo combobox pro vy´beˇr z prˇednastaveny´ch hodnot, • hint – povinny´ na´poveˇdny´ text pro uprˇesneˇnı´ obsahu, zobrazuje se nad formula´rˇovy´m polı´cˇkem, • required – nastavuje povinneˇ vyplnitelne´ polı´cˇko. Pokud bude chtı´t uzˇivatel prˇejı´t na dalsˇ´ı stranu vkla´dacı´ho formula´rˇe, zobrazı´ se mu upozorneˇnı´ o nevyplneˇne´m poli. Na obra´zku 8 je zobrazen jeden prvek formula´rˇe, ktery´ se vygeneroval z na´sledujı´cı´ cˇa´sti souboru input-forms.xml:
4
ˇ ESˇENI´ R
38
contributorauthortruenameZadejte jme ´na autoru ˚. <required>Nevyplnili jste z ˇa ´dne ´ho autora! Vyplneˇny´ autor se ulozˇ´ı do Dublin Core elementu „contributor.author“ a pokud nebude vyplneˇn zˇa´dny´ autor, zobrazı´ se upozornˇujı´cı´ text z elementu required. Bylo vytvorˇeno neˇkolik typu˚ formula´rˇu˚ pro vysokosˇkolske´ kvalifikacˇnı´ pra´ce, cˇla´nky ze sbornı´ku˚, stare´ tisky a neˇkolik obecny´ch formula´rˇu˚. Formula´rˇ pro vysokosˇkolske´ kvalifikacˇnı´ pra´ce byl nakonec rozdeˇlen do sedmi formula´rˇu˚ podle fakult a kazˇde´mu formula´rˇi byl nastaven jiny´ prˇedvoleny´ seznam studijnı´ch oboru˚, programu˚ a kateder.
4.6 Zabezpecˇenı´ prˇ´ıstupu Zabezpecˇenı´ prˇ´ıstupu lze rozdeˇlit na dveˇ hlediska. Z prvnı´ho hlediska je nutne´ zabezpecˇit komunity a kolekce v DSpace tak, aby do nich nemohli vkla´dat vsˇichni uzˇivatele´, ale jen ti, ktery´m je to povoleno. Da´le je trˇeba zabezpecˇit samotny´ prˇ´ıstup k serveru po sı´ti, aby neopra´vneˇnı´ uzˇivatele´ nemohli odposlechnout heslo prˇi prˇihlasˇova´nı´ jine´ho uzˇivatele. 4.6.1 Prˇ´ıstupova´ pra´va Za´kladnı´m pozˇadavkem na prˇ´ıstupova´ pra´va bylo omezenı´ prˇ´ıstupu k plny´m textu˚m skenovany´ch cˇla´nku˚ ze sbornı´ku veˇdecky´ch pracı´. Jak jizˇ bylo zmı´neˇno v kapitole 4.4, uzˇivatele´ prˇihla´sˇenı´ pomocı´ sve´ho sˇkolnı´ho LDAP jme´na a hesla se automaticky rˇadı´ do dynamicke´ skupiny VSB users. Opra´vneˇnı´ pro cˇtenı´ souboru˚ v teˇchto kolekcı´ch bylo nastaveno skupineˇ VSB users. Ostatnı´ uzˇivatele´ mohou cˇ´ıst pouze metadata teˇchto za´znamu˚. Vkla´da´nı´ do te´to kolekce je povoleno jen poveˇrˇeny´m knihovnı´ku˚m. Vkla´da´nı´ do kolekcı´ vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ je prozatı´m povoleno pouze poveˇrˇeny´m knihovnı´ku˚m, ale prˇedpokla´da´ se, zˇe v budoucnu budou do DSpace vkla´dat sve´ kvalifikacˇnı´ pra´ce samotnı´ studenti, tedy uzˇivatele´ ve skupineˇ VSB users. Aby bylo mozˇne´ kontrolovat spra´vnost vkla´dany´ch pracı´ a doplneˇnı´ knihovnicky´ch u´daju˚, bude nutne´ nastavit pro vsˇechny kolekce kvalifikacˇnı´ch pracı´ proces schvalova´nı´ a proces fina´lnı´ editace metadat, kterou bude mı´t na starost poveˇrˇeny´ knihovnı´k. 4.6.2 Zabezpecˇenı´ serveru Zabezpecˇenı´ serveru spocˇ´ıva´ v sˇifrova´nı´ dat prˇena´sˇeny´ch po sı´ti pomocı´ protokolu HTTPS (viz kapitolu 4.1.5). DSpace je navrhnut tak, aby bylo mozˇne´ tento protokol pouzˇ´ıt. Pro sˇifrovany´ prˇ´ıstup stacˇ´ı nastavit kontejne´r pro servlety Apache Tomcat. Nastavenı´ serveru Apache Tomcat pro zprovozneˇnı´ sˇifrovane´ho prˇenosu probı´ha´ ve trˇech krocı´ch:
4
ˇ ESˇENI´ R
39
1. je potrˇeba vygenerovat certifika´t, ktery´ zarucˇ´ı spra´vnou identitu serveru. Certifika´t se vygeneruje pomocı´ na´stroje openssl, 2. certifika´t se odesˇle certifikacˇnı´ autoriteˇ k podpisu, 3. nastavit spra´vneˇ server Apache Tomcat. V souboru server.xml nastavı´me sekci Connector pro zabezpecˇene´ prˇipojenı´. Musı´me take´ nastavit port, na ktere´m bude server prˇijı´mat pozˇadavky prˇes SSL. Standardneˇ je to port 8443. Takto nastaveny´ Tomcat je prˇ´ıstupny´ naprˇ´ıklad prˇes adresu https://pcnk233c.vsb.cz:8443/. Pokud bychom chteˇli pouzˇ´ıt Tomcat bez specifikova´nı´ portu, museli bychom pouzˇ´ıt bud’ prˇesmeˇrova´nı´ pomocı´ iptables v linuxu nebo prˇesmeˇrova´nı´ pozˇadavku˚ na Tomcat prˇes webovy´ server Apache. ´ strˇednı´ knihovneˇ do ostre´ho provozu na hlavnı´ server, Azˇ bude DSpace nasazen v U bude pouzˇito prˇesmeˇrova´nı´ prˇes webovy´ server Apache a adresa mu˚zˇe vypadat naprˇ´ıklad takto: https://dspace.vsb.cz/.
4.7 Ostatnı´ u´pravy Prˇi testovacı´m provozu bylo odhaleno jesˇteˇ mnoho nedostatku˚ a na´vrhu˚ na vylepsˇenı´, takzˇe se DSpace jesˇteˇ postupneˇ upravoval za provozu. Byl upravova´n vzhled DSpace, velikosti pı´sem neˇktery´ch textu˚, zobrazova´nı´ vy´sledku˚ procha´zenı´ podle pocˇa´tecˇnı´ho pı´smena a dalsˇ´ı. Teˇchto u´prav bylo mnoho, proto tady zmı´nı´m jen ty podstatneˇjsˇ´ı. ´ prava metadat 4.7.1 U Aby bylo mozˇne´ do DSpace vkla´dat take´ za´znamy o vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ch, bylo potrˇeba rozsˇ´ırˇit standardnı´ Dublin Core metadata o neˇkolik novy´ch polozˇek. Tato metadata jsou zapsa´na v XML souboru, ktery´ se prˇi instalaci prˇenese do databa´ze. Po nainstalova´nı´ lze metadatove´ registry editovat prostrˇednictvı´m administra´torske´ho rozhranı´ DSpace. Tato noveˇ prˇidana´ metadata musela by´t zahrnuta take´ do vkla´dacı´ch formula´rˇu˚. V tabulce 2 je seznam prˇidany´ch metadat do Dublin Core registru˚. 4.7.2 Vyhleda´va´nı´ Protozˇe byly dodefinova´ny vlastnı´ prvky metadat, bylo trˇeba tyto metadata zahrnout do rozhranı´ pro rozsˇ´ırˇene´ vyhleda´va´nı´. Mimo teˇchto prˇidany´ch jsme potrˇebovali prˇidat i neˇktere´ sta´vajı´cı´ prvky Dublin Core. Ve fina´lnı´ podobeˇ byly do rozsˇ´ırˇene´ho vyhleda´va´nı´ zarˇazeny tyto mozˇnosti: • Autor – vyhleda´va´ ve jme´nech autoru˚, vedoucı´ch pracı´ a oponentu˚, • Na´zev – prohleda´va´ jake´koliv slovo z na´zvu˚, • Klı´cˇove´ slovo – hleda´ v klı´cˇovy´ch slovech, • Abstrakt – prohleda´va´ cˇesky´ i cizojazycˇny´ abstrakt dokumentu˚,
4
ˇ ESˇENI´ R
40
DC element contributor contributor description date thesis thesis thesis thesis thesis description description identifier identifier
DC kvalifika´tor consultant referee abstract-en accepted degree-name degree-level degree-branch degree-program degree-grantor department category location signature
Vy´znam Konzultant pra´ce Oponent pra´ce Cizojazycˇny´ abstrakt pra´ce Datum obha´jenı´ pra´ce Jme´no prˇideˇlovane´ hodnosti Typ studijnı´ho programu Studijnı´ obor Studijnı´ program Instituce prˇideˇlujı´cı´ hodnost Katedra Kategorie pra´ce Lokace pra´ce Signature pra´ce
Tabulka 2: Prˇidane´ prvky metadat • Zdrojovy´ dokument – hleda´ citaci zdrojove´ho dokumentu, • Identifika´tor – jaky´koliv identifika´tor jako handle, signatura, prˇ´ıru˚tkove´ cˇ´ıslo a podobneˇ, • Ko´d jazyka – vyhleda´ dokumenty napsane´ v zadane´m jazyce, • Druh dokumentu – omezenı´ na druhy pracı´ jako jsou diplomove´, bakala´rˇske´, a dalsˇ´ı, • Datum – jaky´koliv datum (vyda´nı´, zverˇejneˇnı´ v DSpace a jine´), • Studijnı´ obor/program – hleda´ v na´zvech studijnı´ch oboru˚ a programu˚, • Instituce/katedra – prohleda´va´ na´zvy kateder a institucı´. Pro zajisˇteˇnı´ teˇchto u´prav bylo trˇeba upravit JSP stra´nku pro rozsˇ´ırˇene´ vyhleda´va´nı´ a upravit nastavenı´ Lucene search indexu˚ pro vyhleda´va´nı´. 4.7.3 Modifikace servletu pro vkla´da´nı´ Prˇi testova´nı´ DSpace vznikl pozˇadavek na prˇeskocˇenı´ nahra´nı´ souboru s digita´lnı´m dokumentem. Toho mu˚zˇe by´t vyuzˇito naprˇ´ıklad pro vlozˇenı´ metadat kvalifikacˇnı´ch pracı´ nebo cˇla´nku˚, ktere´ jesˇteˇ nejsou digitalizova´ny. Pro dosazˇenı´ takove´ho chova´nı´ musel by´t upraven servlet pro vkla´da´nı´ SubmitServlet, ktery´ zajisˇt’uje kontrolu nahrane´ho souboru. Da´le bylo trˇeba upravit neˇkolik JSP stra´nek s vkla´dacı´m formula´rˇem. Prˇi u´praveˇ byla prˇida´na do souboru input-forms.xml s definicemi formula´rˇu˚ mozˇnost volby fileupload=“optional“, ktera´ urcˇuje, zda mu˚zˇe by´t nahra´nı´ souboru prˇeskocˇeno a ulozˇeny budou pouze metadata. Pokud tato volba v definici formula´rˇe je, na stra´nce formula´rˇe, kde se nahra´va´ soubor, se objevı´ tlacˇ´ıtko pro prˇeskocˇenı´ nahra´nı´. Soubor pak mu˚zˇe by´t doplneˇn knihovnı´kem nebo administra´torem.
4
ˇ ESˇENI´ R
41
4.8 Prˇevod dat z T-Series Hlavnı´m u´kolem pra´ce bylo prˇevedenı´ sta´vajı´cı´ch metadat o vysokosˇkolsky´ch kvalifikacˇnı´ch pracı´ch a naskenovany´mi cˇla´nky ze sbornı´ku veˇdecky´ch pracı´ ze syste´mu T-Series. Syste´m T-Series podporuje neˇkolik forma´tu˚ exportu˚, ale ani jeden nebyl prˇ´ımo pouzˇitelny´ pro import pomocı´ na´stroju˚ doda´vany´ch s DSpace. DSpace doka´zˇe importovat data zapsana´ v XML souboru standardu Dublin Core. T-Series umı´ exportovat do znacˇkovane´ho textove´ho souboru, ktery´ se zda´l by´t nejvhodneˇjsˇ´ı pro import. Bylo ovsˇem potrˇeba vytvorˇit konverznı´ program, ktery´ metadata z textove´ho souboru prˇevede do XML souboru ve standardu Dublin Core. Konverznı´ program byl vytvorˇen v jazyce Java, jako vstup prˇijı´ma´ exportovany´ soubor z T-Series v ko´dova´nı´ UTF-8 a vy´stupem je adresa´rˇova´ struktura s XML soubory prˇipraveny´mi pro import do DSpace. Program take´ vypisuje za´znamy, u ktery´ch nebyla vyplneˇna neˇktera´ metadata a vytva´rˇ´ı soubor se seznamem importovany´ch PDF souboru˚. Exportovane´ soubory z T-Series jsou v ko´dova´nı´ 852, takzˇe byly do UTF-8 prˇevedeny pomocı´ linuxove´ utility iconv. Aby bylo mozˇne´ rozpoznat, ktery´ PDF soubor patrˇ´ı ktere´mu metadatove´mu za´znamu, byl pouzˇit XML soubor ze syste´mu pro prˇevod naskenovany´ch stra´nek cˇla´nku˚ do PDF, ktery´ implementoval jako svou diplomovou pra´ci Jan Vita´sek [4]. V tomto souboru (books.xml) je seznam cˇla´nku˚ s jejich metadaty a take´ s na´zvem PDF souboru s naskenovany´m textem. Pro urcˇenı´ spra´vne´ho souboru bylo trˇeba porovnat cˇtyrˇi hodnoty – na´zev sbornı´ku, cˇ´ıslo sbornı´ku v roce, rok a referencˇnı´ cˇ´ıslo. Soubor se seznamem rozpoznany´ch PDF slouzˇil ke kontrole pocˇtu importovany´ch souboru˚ a da´ se z neˇj pomocı´ neˇkolika linuxovy´ch utilit vytvorˇit take´ soubor se seznamem nerozpoznany´ch PDF souboru˚. Z celkove´ho pocˇtu asi 800 naskenovany´ch cˇla´nku˚ zu˚stalo nerozpozna´no asi 70 souboru˚, protozˇe nebyly zapsa´ny v rozpozna´vacı´m souboru books.xml. Ze seznamu teˇchto 70 nerozpoznany´ch souboru˚ byl vytvorˇen HTML dokument s odkazy na PDF soubory, aby mohli knihovnı´ci zkontrolovat a prˇ´ıpadneˇ rucˇneˇ prˇidat soubory k metadatu˚m v DSpace. Vy´stupnı´ adresa´rˇ, do ktere´ho konverznı´ program zapisuje prˇevedene´ Dublin Core metadata a rozpoznane´ PDF soubory, musı´ mı´t prˇesneˇ danou strukturu, aby bylo mozˇne´ bezchybneˇ importovat za´znamy do DSpace. Kazˇdy´ za´znam pro import je v samostatne´m podadresa´rˇi. Tento adresa´rˇ obsahuje na´sledujı´cı´ soubory: • dublin core.xml – soubor s metadaty Dublin Core, • contents – obsahuje seznam souboru˚, ktere´ majı´ by´t prˇi importu prˇirˇazeny k za´znamu. Na kazˇde´m rˇa´dku je jedno jme´ho souboru, • text.pdf – soubor s naskenovany´m textem. Takovy´ch souboru˚ mu˚zˇe by´t prˇida´no neˇkolik, prˇi importu budou do DSpace nahra´ny vsˇechny. 4.8.1 Popis konverznı´ho programu V prvnı´ fa´zi program pouze prˇeva´deˇl forma´t souboru z textove´ho do XML. Jak se ale uka´zalo pozdeˇji, bylo trˇeba prove´st s daty prˇi prˇevodu neˇktere´ u´pravy. Jednou z u´prav
4
ˇ ESˇENI´ R
42
bylo vyfiltrova´nı´ nezˇa´doucı´ch u´daju˚ v exportovany´ch datech. Pro zajisˇteˇnı´ jednoznacˇnosti se v syste´mu T-Series k neˇktery´m u´daju˚m prˇida´valy naprˇ´ıklad signatury, na´zvy nebo rok narozenı´ autora. Vsˇude se pouzˇ´ıvala zpeˇtna´ lomı´tka, ktera´ da´vala slovu˚m nebo znaku˚m v T-Series specia´lnı´ vy´znam. Tyto nezˇa´doucı´ u´daje a lomı´tka bylo trˇeba spra´vneˇ vyfiltrovat, aby v novy´ch datech byly jen spra´vne´ u´daje. Navı´c se se zmeˇnou uzˇivatelu˚ vkla´dajı´cı´ch do T-Series za´znamy meˇnily i zvyky a zpu˚soby za´pisu, takzˇe se s tı´m muselo prˇi prˇevodu pocˇ´ıtat. Dalsˇ´ı u´pravou bylo prˇida´nı´ ISSN a vydavatele u cˇla´nku˚ ze sbornı´ku na za´kladeˇ roku vyda´nı´ a na´zvu sbornı´ku. U teˇchto cˇla´nku˚ se navı´c hledal i naskenovany´ text, jak uzˇ bylo zmı´neˇno drˇ´ıve. Program je slozˇen z teˇchto trˇ´ı trˇ´ıd: • Record.java – trˇ´ıda implementujı´cı´ jeden za´znam se vsˇemi u´daji, ktera´ dovede za´znam zapsat do XML souboru a prova´dı´ u´pravy a filtrace u´daju˚, • Converter.java – trˇ´ıda, ktera´ prova´dı´ konverzi dat tı´m, zˇe cˇte vstupnı´ soubor a rozpozna´va´ v neˇm jednotlive´ za´znamy. Tyto za´znamy pak vkla´da´ do instance trˇ´ıdy Record a vytva´rˇ´ı vy´stupnı´ adresa´rˇovou strukturu. Pro soubor obsahujı´cı´ cˇla´nky nacˇ´ıta´ XML soubor s u´daji o naskenovany´ch souborech a hleda´ v neˇm jme´no souboru pro dany´ cˇla´nek. Pokud soubor nalezne, zkopı´ruje jej do vy´stupnı´ho adresa´rˇe, • Conv.java – spousˇteˇcı´ trˇ´ıda, ktera´ tvorˇ´ı uzˇivatelske´ rozhranı´ pro pra´ci s konverznı´m programem. Zajisˇt’uje rozpozna´va´nı´ a kontrolu vstupnı´ch parametru˚ a prˇ´ıpadny´ vy´pis na´poveˇdy. V soucˇasne´ verzi poskytuje rozhranı´ pro spousˇteˇnı´ z prˇ´ıkazove´ rˇa´dky, ale mu˚zˇe by´t rozsˇ´ırˇena o implementaci graficke´ho rozhranı´ nebo mu˚zˇe by´t nahrazena servletem, ktery´ mu˚zˇe by´t prˇida´n do administra´torske´ho rozhranı´ DSpace a umozˇnit tak snadny´ prˇevod dat ze syste´mu T-Series i s importem. Podrobneˇjsˇ´ı programa´torska´ dokumentace k programu je k dispozici na prˇilozˇene´m CD. Dokumentace je generova´na ze zdrojovy´ch ko´du˚ technologiı´ javadoc, jak je u jazyka Java zvykem. 4.8.2 Uka´zka prˇevedene´ho za´znamu Na´sleduje na´zorna´ uka´zka z prˇevodu cˇla´nku˚ sbornı´ku veˇdecky´ch pracı´. Pro uka´zku jsem vybral jeden z asi 3500 cˇla´nku˚. Kazˇdy´ za´znam zacˇ´ına´ nezobrazitelny´m znakem „Line Feed“, podle ktere´ho rozpozna´m jednotlive´ za´znamy v jinak dlouhe´m neoddeˇlene´m souboru. Na jednom rˇa´dku je vzˇdy zapsa´n jeden u´daj, ktery´ zacˇ´ına´ znacˇkou identifikujı´cı´, o jaky´ u´daj jde. Za cˇtyrˇznakovou znacˇkou na´sleduje dvojtecˇka a za nı´ samotny´ textovy´ u´daj. Z rˇa´dku se znacˇkou ADRN je pouzˇito referencˇnı´ cˇ´ıslo v hranaty´ch za´vorka´ch pro nalezenı´ naskenovane´ho souboru. ATIT:Testing and statistical feedback ˇaloun, Dana S ˇalounova ARES:Petr S ´, Anna Madryova ´ A/TI:Testing and statistical feedback AOTI:Testova ´nı ´ a statisticka ´ zpe ˇtna ´ vazba
4
ˇ ESˇENI´ R
43
A/OT:Testova ´nı ´ a statisticka ´ zpe ˇtna ´ vazba ˇaloun, Petr,\\\ 1962-@Testing and statistical feedback AAAX:S ˇaloun, Petr,\\\ 1962AAUT:S ˇalounova AAAX:S ´, Dana,\\\ 1963-@Testing and statistical feedback ˇalounova AAUT:S ´, Dana,\\\ 1963AAAX:Madryova ´, Anna,\\\ 1952-@Testing and statistical feedback AAUT:Madryova ´, Anna,\\\ 1952ADRN:c ˇla ´nek 27 [3] ALAN:anglicky \\eng\ ASER:Sbornı ´k ve ˇdecky ´ch pracı ´ Vysoke ´ s ˇkoly ba ´n ˇske ´ - Technicke ´ ˇ univerzity Ostrava.\\,\ Rada elektrotechnicka ´ \\a\ A/ST:Sbornı ´k ve ˇdecky ´ch pracı ´ Vysoke ´ s ˇkoly ba ´n ˇske ´ - Technicke ´ ˇada elektrotechnicka univerzity Ostrava.\\,\ R ´ \\a\ ASNR:Roc ˇ. 5, c ˇ. 1 ASPG:s. 23-32 : il. ASYY:1999 AKWD:Feedback AKWD:Statistical AKWD:Testing AEDT:2001/03/22 AUDT:2003/10/02 AENT:OSD 002/HAU50 AUPD:OSD 002/HAU50 Na obra´zku 9 je uka´zka souboru dublin core.xml, kde je jizˇ videˇt vy´sledny´ XML soubor konverze. Lze v neˇm videˇt vyfiltrova´nı´ lomı´tek a dat narozenı´ autoru˚, prˇidany´ u´daj o vydavateli a ISSN a citace poskla´dana´ z neˇkolika u´daju˚ pu˚vodnı´ho souboru. Podle klı´cˇovy´ch slov cizı´ch jazyku˚ byl rozpozna´n jazyk na´zvu, ktery´ je du˚lezˇity´ pro spra´vne´ rˇazenı´ cizojazycˇny´ch na´zvu˚, u ktery´ch se jako pocˇa´tecˇnı´ slovo neberou cˇleny jazyka. Podle prvnı´ho pı´smena znacˇky v prˇedchozı´m souboru byl rozpozna´n typ za´znamu jako „cˇla´nek“. Na obra´zku 10 je videˇt, jak tento za´znam vypada´ po naimportova´nı´ do DSpace. Ve vy´pisu za´znamu se vypisujı´ jen neˇktere´ u´daje, plny´ vy´pis se zobrazı´ azˇ po kliknutı´ na „Zobraz cely´ za´znam“. Z obra´zku je take´ videˇt, zˇe prˇi konverzi nebyl nalezen odpovı´dajı´cı´ naskenovany´ PDF soubor a za´znam je proto bez prˇipojeny´ch souboru˚. 4.8.3 Import do DSpace Vy´sledna´ adresa´rˇova´ struktura po prˇevodu exportony´ch dat z T-Series do XML je jizˇ prˇipravena pro import do DSpace pomocı´ prˇilozˇeny´ch na´stroju˚ DSpace. Import a export dat v DSpace je v soucˇasne´ dobeˇ rˇesˇen pomocı´ trˇ´ıd, ktere´ se spousˇteˇjı´ z prˇ´ıkazove´ho rˇa´dku pomocı´ specia´lnı´ho spousˇteˇcı´ho souboru dsrun, ktery´ zajisˇt’uje bezpecˇny´ prˇ´ıstup do databa´ze DSpace. Prˇi importu je nutne´ zadat neˇkolik potrˇebny´ch u´daju˚, jako jsou email uzˇivatele, pod ktery´m se za´znamy budou vkla´dat, identifika´tor kolekce do ktere´ se budou za´znamy vkla´dat a take´ jme´no mapovacı´ho souboru. Tento mapovacı´ soubor po importu
4
ˇ ESˇENI´ R
44
Obra´zek 9: Uka´zka cˇla´nku po konverzi v souboru dublin core.xml
Obra´zek 10: Uka´zka cˇla´nku v DSpace
4
ˇ ESˇENI´ R
45
obsahuje seznam identifika´toru˚ vsˇech importovany´ch za´znamu˚ a je mozˇne´ jej pouzˇ´ıt pro odstraneˇnı´ naimportovany´ch za´znamu˚ nebo jejich modifikaci. Import byl nejprve testova´n na neˇkolika (asi 600) za´znamech. Kdyzˇ se zda´ly by´t vy´sledky konverze v porˇa´dku, naimportovaly se vsˇechny potrˇebne´ za´znamy, ktery´ch bylo asi 24200. Cely´ import trval na nasˇem testovacı´m serveru asi 23 hodin, cozˇ je pomeˇrneˇ dlouha´ doba, ale jelikozˇ se takovy´ rozsa´hly´ import prova´dı´ pouze jednou, nenı´ trˇeba cha´pat to jako chybu DSpace.
4.9 Testova´nı´ Aby bylo mozˇne´ nasadit syste´m do rea´lne´ho provozu a mohl poskytovat sluzˇby sˇiroke´ verˇejnosti, byla potrˇeba jej rˇa´dneˇ otestovat. Prvotnı´ testova´nı´ jsem prova´deˇl sa´m a hledal jsem hlavneˇ chyby v upravene´m ko´du. V dalsˇ´ım testova´nı´ se zkousˇely hlavneˇ vkla´dacı´ formula´rˇe. S testova´nı´m vkla´dacı´ch formula´rˇu˚ mi poma´haly Mgr. Pavla Rygelova´ a Mgr. Alena Hauskova´. Testova´nı´ probı´halo v iteracˇnı´m cyklu, dokud se syste´m z pohledu knihovnı´ku˚ nejevil u´plneˇ v porˇa´dku. Na´sledovalo testova´nı´ a kontrola importovany´ch za´znamu˚ a pote´ procha´zenı´ a vyhleda´va´nı´ v teˇchto za´znamech. V poslednı´ fa´zi jsme kontrolovali a upravovali spra´vnost a vhodnost cˇeske´ho prˇekladu uzˇivatelske´ho rozhranı´ DSpace. Neˇktere´ vy´razy byly sice prˇelozˇeny spra´vneˇ, ale nezapadaly do kontextu cˇeske´ho prostrˇedı´, a proto byly nahrazeny jiny´mi.
4.10
Za´lohova´nı´ a prˇesun na novy´ server
Kdyzˇ bylo vsˇe ve stavu, kdy syste´m mohl prˇejı´t do ostre´ho provozu, bylo nutne´ kompletnı´ syste´m prˇene´st na novy´ server. K tomu bylo trˇeba syste´m za´lohovat a obnovit na druhe´m stroji. DSpace je mozˇne´ za´lohovat trˇemi zpu˚soby, prˇicˇemzˇ pro migraci fungujı´cı´ho syste´mu se nejvı´ce hodı´ druhy´ zpu˚sob. Za´lohovat je mozˇne´ teˇmito zpu˚soby: 1. je mozˇne´ za´lohovat kompletneˇ cely´ souborovy´ syste´m nebo jen cˇa´st nutnou pro prˇenos DSpace. Jsou to hlavneˇ adresa´rˇe s instalacı´ DSpace a syste´move´ adresa´rˇe, ve ktery´ch jsou ulozˇena data PostgreSQL. Je mozˇne´ take´ za´lohovat soubory serveru Apache Tomcat a adresa´rˇ se zdrojovy´mi ko´dy DSpace pro prˇ´ıpadne´ dalsˇ´ı u´pravy. Na´sledna´ obnova dat se provede zkopı´rova´nı´m za´lohovany´ch adresa´rˇu˚ do nove´ho syste´mu, 2. je mozˇne´ za´lohovat databa´zi na programove´ u´rovni a adresa´rˇ s u´lozˇisˇteˇm souboru˚ DSpace. K za´lohova´nı´ databa´ze slouzˇ´ı prˇ´ıkazy pg dump a pg dumpall, ktere´ za´lohujı´ obsah databa´ze jako sekvenci SQL prˇ´ıkazu˚ do textove´ho souboru. Tento soubor lze pote´ spustit na jine´m pocˇ´ıtacˇi a SQL dotazy pro vytvorˇenı´ a naplneˇnı´ databa´ze se provedou. Prˇi tomto zpu˚sobu obnovy databa´ze se musı´ spustit jesˇteˇ soubor s SQL dotazy pro nastavenı´ prima´rnı´ch klı´cˇu˚, aby PostgreSQL neprˇirˇazoval jizˇ pouzˇite´ klı´cˇe. Adresa´rˇ s u´lozˇisˇteˇm pak stacˇ´ı pouze zkopı´rovat na spra´vne´ mı´sto a zbytek souboru˚ aplikace se obnovı´ ze zdrojovy´ch ko´du˚, 3. asi nejme´neˇ vhodna´ mozˇnost pro prˇenos cele´ho syste´mu je export a na´sledny´ import dat. DSpace umozˇnˇuje exportovat pouze za´znamy z jednotlivy´ch kolekcı´, takzˇe
4
ˇ ESˇENI´ R
46
bychom museli v nove´m syste´mu nejdrˇ´ıve vytvorˇit prˇ´ıslusˇne´ kolekce a komunity a teprve potom prˇene´st data jednotlivy´ch kolekcı´. Tato mozˇnost je nejlepsˇ´ı pro cˇa´stecˇnou migraci dat, jako je naprˇ´ıklad prˇevod kolekce z testovacı´ho na produkcˇnı´ server.
4.11
Budoucı´ vy´voj DSpace
Na DSpace se neusta´le pracuje a sta´le se do neˇj doplnˇujı´ nove´ funkce a vylepsˇujı´ se ty sta´vajı´cı´. V nasˇem prˇ´ıpadeˇ jsme pouzˇili poslednı´ verzi 1.3.2, ktera´ vysˇla v rˇ´ıjnu 2005. V soucˇasne´ dobeˇ se prˇipravuje verze 1.4, zatı´m je dostupna´ k testova´nı´ pouze beta verze. V te´to noveˇjsˇ´ı verzi by meˇlo by´t opraveno mnoho chyb a doplneˇno hodneˇ novy´ch funkcı´. Z teˇch nejpodstatneˇjsˇ´ıch zmeˇn to jsou: • vylepsˇena´ pra´ce se skupinami uzˇivatelu˚, kde skupiny mohou obsahovat jine´ skupiny, • zmeˇny v autentizcˇnı´m syste´mu, lze nastavit jaka´ metoda autentikace (LDAP, heslo a jine´ vlastnı´ metody) se pouzˇije pro ktere´ uzˇivatele, • mozˇnost definovat a pouzˇ´ıvat vı´ce metadatovy´ch sche´mat, vcˇetneˇ vlastnı´ho vytvorˇene´ho, • je mozˇne´ procha´zenı´ za´znamu˚ podle klı´cˇovy´ch slov, • mozˇnost nastavit metadata, ktera´ se budou zobrazovat prˇi vy´pisu za´znamu˚. Ve vy´chozı´m nastavenı´ se zobrazuje datum, na´zev a autor a je mozˇne´ prˇidat dalsˇ´ı. Jako dalsˇ´ı cı´le si vy´voja´rˇi urcˇili zlepsˇenı´ podpory pro jine´ jazyky, nezˇ je anglicˇtina a mozˇnosti jejich prˇepı´na´nı´ neza´visle na nastavenı´ prohlı´zˇecˇe. Da´le internacionalizace zby´vajı´cı´ch cˇa´stı´ syste´mu (vkla´dacı´ formula´rˇe, emaily, na´poveˇda) a vylepsˇenı´ konfigurovatelnosti soucˇasny´ch funkcı´.
5
ˇ ´IRUC ˇ KY POPIS PR
47
5 Popis prˇ´ırucˇky Soucˇa´stı´ zada´nı´ pra´ce bylo vytvorˇenı´ prˇ´ırucˇky k vybrane´mu syste´mu. Prˇ´ırucˇka by meˇla by´t vytvorˇena pomocı´ DocBook, aby z nı´ bylo mozˇno vygenerovat neˇkolik vy´stupnı´ch forma´tu˚. Meˇla by slouzˇit knihovnı´ku˚m a administra´torovi DSpace pro snadneˇjsˇ´ı sezna´menı´ se se syste´mem a na´roznou uka´zkou vysveˇtlit postupy prova´deˇnı´ neˇktery´ch operacı´. V neˇktery´ch cˇa´stech by meˇla nahradit origina´lnı´ anglickou dokumentaci a jinde ji jen doplnit. Uzˇivatelska´ dokumentace vytva´rˇena azˇ na vy´jimku nebyla, protozˇe pra´ce se syste´mem DSpace je velice jednoducha´ a navı´c je v syste´mu velice kvalitnı´ na´poveˇda, kterou by v prˇ´ıpadeˇ potrˇeby stacˇilo prˇelozˇit do cˇesˇtiny. Vy´jimkou je na´poveˇda k vyhleda´va´nı´ za´znamu˚, ktera´ byla vytvorˇena a prˇilozˇena k origina´lnı´ na´poveˇdeˇ a vysveˇtluje rozsˇ´ırˇene´ vyhleda´va´nı´. Vytvorˇena´ dokumentace je dostupna´ na prˇilozˇene´m CD, jehozˇ obsah je popsa´n v prˇ´ıloze C. Kra´tkou uka´zku z te´to dokumentace mu˚zˇete videˇt na obra´zcı´ch v prˇ´ıloze A. Kompletnı´ dokumentace je dostupna´ jako sada XHTML stra´nek a jako samotny´ PDF soubor prˇichystany´ k tisku. Dı´ky pouzˇitı´ DocBooku k tvorbeˇ prˇ´ırucˇky je mozˇne´ vytvorˇit i jine´ forma´ty.
5.1 DocBook DocBook [33] je forma´t zalozˇeny´ na XML souborech pro za´pis textovy´ch dokumentu˚. Pu˚vodneˇ byl vytvorˇen jako forma´t pro tvorbu dokumentacı´ k softwaru, ale dnes se pouzˇ´ıva´ pro spoustu jiny´ch typu˚ dokumentu˚. Protozˇe je DocBook zalozˇen na XML souborech, umozˇnˇuje oddeˇlit vzhled dokumentu˚ od jejich obsahu. XML jazyk byl podrobneˇji popsa´n v kapitole 4.1.7, takzˇe jeho vy´hody nenı´ trˇeba popisovat. DocBook definuje sadu vlastnı´ch znacˇek prˇedevsˇ´ım pro tvorbu dokumentacı´, ale take´ sadu stylu˚, ktere´ umozˇnˇujı´ generovat ru˚zne´ vy´stupnı´ forma´ty. Tvorba dokumentu˚ v DocBooku ma´ proti jiny´m metoda´m rˇadu vy´hod. Pokud vytva´rˇ´ıme dokumentaci k rozsa´hlejsˇ´ımu syste´mu, mu˚zˇeme potrˇebovat cˇa´sti dokumentace vlozˇit naprˇ´ıklad do na´poveˇdy samotne´ aplikace, do celkove´ prˇ´ırucˇky nebo kdekoliv jinde. XML soubor DocBooku mu˚zˇe by´t rozdeˇlen na neˇkolik cˇa´stı´ a tyto cˇa´sti se mohou pouzˇ´ıt v mnoha prˇ´ıpadech pro generova´nı´ pozˇadovany´ch cˇa´stı´ dokumentace v ru˚zny´ch forma´tech. Pokud budeme potrˇebovat prove´st zmeˇnu v dokumentaci, nenı´ trˇeba opravovat neˇkolik samostatny´ch souboru˚, ale opravı´me dokumentaci pouze v jednom XML souboru a z neˇj opeˇt vygenerujeme opravene´ verze dokumentace. Mu˚zˇeme take´ potrˇebovat generovat neˇkolik verzı´ dokumentu lisˇ´ıcı´ se pouze v neˇkolika ma´lo kapitola´ch. V tomto prˇ´ıpadeˇ stacˇ´ı napsat jen odlisˇne´ kapitoly a zbytek dokumentu zu˚stane pouze v jedne´ kopii. Vkla´da´me-li do textu obra´zky, docbook umozˇnˇuje vlozˇenı´ odkazu˚ na vı´ce typu˚ obra´zku˚, naprˇ´ıklad vektorove´ pro tisk nebo bitmapove´ pro prezentaci na monitoru. Prˇi generova´nı´ vy´stupnı´ho souboru se pouzˇije vhodneˇjsˇ´ı typ obra´zku. Implementace DocBooku je neza´visla´ na pouzˇite´ platformeˇ, takzˇe jej lze pouzˇ´ıt na ru˚zny´ch operacˇnı´ch syste´mech. Nezanedbatelnou vy´hodou je take´ cena, protozˇe DocBook je poskytnut zdarma. Na na´sledujı´cı´ uka´zce je strucˇny´ popis jednoduche´ knihy, popsane´ v DocBooku. Soubor ma´ klasickou XML strukturu, jen za hlavicˇkou XML se zapisuje jesˇteˇ definice typu
5
ˇ ´IRUC ˇ KY POPIS PR
48
dokumentu pro DocBook. V na´sledujı´cı´m prˇ´ıpadeˇ jde o DocBook verze 4.2. Da´le na´sledujı´ znacˇky DocBooku definovane´ pro tvorbu knihy. Atributem lang je nastaven jazyk knihy na cˇesky´, aby se v knize generovaly cˇeske´ na´zvy kapitol (kapitola, obsah a dalsˇ´ı). Na´sledujı´ informace o knize (na´zev, u´daje o autorovi) a da´le jizˇ samotny´ u´vod a kapitoly knihy. Moje knihaDus ˇan <surname>Jalu ˚vka <preface> ´vod U <para>Prvnı ´ odstavec u ´vodu. <para>Druhy ´ odstavec u ´vodu. Prvnı ´ kapitola <para>Text prvnı ´ kapitoly Z takove´ho souboru mu˚zˇe by´t vygenerova´n text knihy nebo v za´vislosti na pouzˇite´m stylu i s obsahem a titulnı´ stranou. Styly definujı´, jak se ma´ dokument zobrazit nebo vytisknout a jsou zapisova´ny stylovy´mi jazyky. V soucˇasne´ dobeˇ se pouzˇ´ıvajı´ pro za´pis stylu˚ XSL a DSSSL jazyky, ktere´ umozˇnˇujı´ prˇevod do mnoha ru˚zny´ch forma´tu˚ jako jsou RTF, PDF, PostScript, HTML, XHTML, HTML Help a dalsˇ´ı. U forma´tu˚ HTML a XHTML si mu˚zˇeme zvolit, zda se vygeneruje jeden velky´ soubor nebo se text rozdeˇlı´ podle kapitol do neˇkolika mensˇ´ıch souboru˚. Pokud ma´me na vy´stupnı´ forma´t zvla´sˇtnı´ pozˇadavky, mu˚zˇeme pouzˇ´ıt prˇipraveny´ styl a doplnit je do neˇj. Spojenı´ vytvorˇene´ho XML dokumentu s neˇktery´m forma´tovacı´m stylem zajisˇt’uje stylovy´ procesor, jehozˇ vy´stupem je soubor nebo sada souboru˚ v pozˇadovane´m forma´tu. Mezi nejpouzˇ´ıvaneˇjsˇ´ı forma´tovacı´ procesory patrˇ´ı xsltproc, Saxon nebo Jade.
5.2 Administra´torska´ dokumentace Administra´torska´ dokumentace ma´ slouzˇit spra´vci serveru a administra´torovi DSpace, aby byli schopni zprovoznit DSpace ze zdrojovy´ch ko´du˚ a prove´st na neˇm potrˇebne´ u´pravy a nastavenı´. Pra´ce popsane´ v te´to prˇ´ırucˇce vyzˇadujı´ alesponˇ za´kladnı´ znalosti
5
ˇ ´IRUC ˇ KY POPIS PR
49
spra´vy operacˇnı´ho syste´mu GNU/Linux a alesponˇ za´kladnı´ znalosti platformy Java. Spra´vce syste´mu a serveru by meˇl by´t schopen pracovat i s databa´zı´ PostgreSQL. Meˇl by take´ porozumeˇt syste´mu DSpace, aby byl schopen zprovoznit syste´m, pokud se vyskytne neˇjaka´ chyba. Protozˇe se prˇi pra´ci s DSpace prˇedpokla´da´ i pra´ce s textovy´mi na´stroji na straneˇ serveru, meˇl by by´t administra´tor cˇa´stecˇneˇ knihovnı´kem nebo s nı´m alesponˇ spolupracovat. V administra´torske´ prˇ´ırucˇce jsou podrobneˇ popsa´ny vsˇechny proble´my, se ktery´mi jsem se prˇi instalaci a administraci DSpace setkal. Jsou to naprˇ´ıklad tyto u´kony: • Na zacˇa´tku je popsa´na prˇ´ıprava na instalaci, kde jsou popsa´ny vsˇechny softwarove´ balı´ky, ktere´ je trˇeba mı´t prˇed instalacı´ nainstalovane´. Instalace teˇchto balı´ku˚ nenı´ rozepsa´na podrobneˇ, jen jsou zmı´neˇny kroky, ktere´ majı´ vliv na vy´sledne´ chova´nı´ DSpace a ktere´ by se nemeˇly opomenout. Jsou to naprˇ´ıklad operacˇnı´ syste´m, platforma Java, databa´zovy´ syste´m PostgreSQL a servlet kontejne´r Apache Tomcat. • Da´le jsou popsa´ny vsˇechny provedene´ zmeˇny na origina´lnı´ch zdrojovy´ch ko´dech a popsa´n postup zacˇleneˇnı´ zmeˇn prˇepsa´nı´m upraveny´ch souboru˚. • Instalace je popsa´na celkem podrobneˇ krok za krokem, takzˇe by nemeˇl by´t proble´m nainstalovat DSpace ze zdrojovy´ch ko´du˚. • Cˇa´st dokumentace je veˇnova´na za´lohova´nı´, protozˇe za´lohova´nı´ je nezbytna´ soucˇa´st kazˇde´ho syste´mu a navı´c je potrˇebne´ prˇi prˇevodu syste´mu na jiny´ server. • Aby bylo mozˇne´ prove´st zmeˇny ve vkla´dacı´ch formula´rˇ´ıch, je v dokumentaci popsa´na u´prava formula´rˇu˚ v souboru dublin core.xml. • Take´ jsou tam popsa´ny za´kladnı´ nastavenı´, ktera´ se prova´deˇjı´ v souboru dspace.cfg. • Stejneˇ tak je tady popsa´n postup prˇevodu dat ze syste´mu T-Series a na´sledny´ import do DSpace. Mozˇnosti exportu dat z kolekcı´ DSpace jsou jen zmı´neˇny a je zde odkaz na origina´lnı´ dokumentaci.
5.3 Knihovnicka´ dokumentace V knihovnicke´ dokumentaci jsou popsa´ny u´kony, ktere´ budou prova´deˇt spra´vcove´ kolekce nebo pracovnı´ci knihovny prostrˇednictvı´m webove´ho administracˇnı´ho rozhranı´ nebo pomocı´ rozhranı´ schvalovacı´ch a dohlı´zˇecı´ch procesu˚. Prˇi vysveˇtlova´nı´ postupu prova´deˇnı´ knihovnicky´ch u´konu˚ je pouzˇito na´zorny´ch uka´zek, ktere´ zobrazujı´ graficke´ uzˇivatelske´ rozhranı´. K teˇmto uka´zka´m je vzˇdy popsa´n prˇ´ıpad, kdy se takova´ operace prova´dı´ a jake´ na´sledky mu˚zˇe mı´t na za´znamy v archı´vu. Knihovnicka´ dokumentace vysveˇtluje nejpouzˇ´ıvaneˇjsˇ´ı funkce a doplnˇuje origina´lnı´ na´poveˇdu zabudovanou v DSpace. Tato na´poveˇda je psa´na anglicky v XHTML a v prˇ´ıpadeˇ potrˇeby nenı´ proble´m ji lokalizovat do cˇesˇtiny. Ja´ jsem to prˇi lokalizaci DSpace neudeˇlal, protozˇe se u uzˇivatelu˚ DSpace prˇedpokla´da´ alesponˇ za´kladnı´ znalost anglicˇtiny.
5
ˇ ´IRUC ˇ KY POPIS PR
50
V knihovnicke´ dokumentaci jsou popsa´ny na´sledujı´cı´ operace, ktere´ prova´dı´ bud’ spra´vce kolekce nebo poveˇrˇena´ osoba, ktera´ ma´ zkontrolovat, prˇijmout nebo editovat za´znam prˇed zarˇazenı´m do hlavnı´ho archı´vu. • Je posa´no vytva´rˇenı´ kolekcı´ a komunit, popsa´ny mozˇnosti prˇi vytva´rˇenı´ a pravidla pro cˇleneˇnı´ komunit a podkomunit. • Da´le je popsa´na spra´va teˇchto kolekcı´ a komunit, popsa´ny opra´vneˇnı´ administra´tora kolekce a mozˇnosti mapova´nı´ za´znamu˚ mezi kolekcemi. • Nastavenı´ prˇ´ıstupovy´ch politik pro komunity, kolekce, za´znamy a soubory je veˇnova´na samostatna´ kapitola. Je podrobneˇ vysveˇtlen vy´znam jednotlivy´ch nastavenı´ a ty jsou demonstrova´ny na prˇ´ıkladech. • Dokumentace se veˇnuje take´ nastavenı´ rˇ´ızene´mu kolobeˇhu dokumentu˚, tzv. workflow procesu. Jsou popsa´ny mozˇnosti nastavenı´ schvalova´nı´ a editace metadat. Je zde take´ popsa´n pru˚beˇh prˇi schvalova´nı´ dokumentu˚ a zarˇazenı´ do hlavnı´ho archı´vu. • DSpace poskytuje mozˇnost dohlı´zˇenı´ vedoucı´ch nad pracemi studentu˚ nebo mozˇnost nastavenı´ spolupra´ce na jednom za´znamu. V dokumentaci je popsa´no nastavova´nı´ teˇchto dohledu˚ a mozˇnosti dohlı´zˇejı´cı´ch uzˇivatelu˚. • Jedna kapitola je veˇnova´na take´ editaci a maza´nı´ za´znamu˚. V te´to kapitole jsou popsa´ny mozˇnosti a rizika prˇi maza´nı´ a editaci.
6
ZA´VEˇR
51
6 Za´veˇr ´ strˇednı´ knihovneˇ Vysoke´ sˇkoly ba´nˇske´ – Hlavnı´m cı´lem te´to pra´ce bylo poskytnout U Technicke´ univerzity Ostrava syste´m u´lozˇisˇteˇ digita´lnı´ch dat a do tohoto syste´mu prˇeve´st naskenovane´ cˇla´nky ze sbornı´ku˚ veˇdecky´ch pracı´ a u´daje o kvalifikacˇnı´ch pracı´ch. Tento u´kol byl splneˇn a vsˇechny digita´lnı´ dokumenty nebo prˇ´ıpada´ metadata dokumentu˚ jsou jizˇ importova´ny v syste´mu DSpace. Pro syste´m DSpace jsme se rozhodli po porovna´nı´ se syste´mem Eprints. Po du˚kladne´m testova´nı´ pracovnicemi knihovny je DSpace nynı´ prˇipraven na ostry´ provoz a mu˚zˇe by´t prˇeveden na hlavnı´ server knihovny. Mimo hlavnı´ obsah byl DSpace rozsˇ´ırˇen jako univerza´lnı´ repozita´rˇ, takzˇe bude nabı´dnut univerziteˇ k volne´mu uzˇitı´. To znamena´, zˇe si mu˚zˇe kdokoliv z univerzity pozˇa´dat o vytvorˇenı´ sve´ kolekce a prezentovat v DSpace sve´ dokumenty jako naprˇ´ıklad vy´ukove´ materia´ly, skripta, publikace a dalsˇ´ı. Prˇi prova´deˇnı´ u´prav a prˇi testova´nı´ bylo nalezeno neˇkolik dalsˇ´ıch mozˇny´ch na´vrhu˚, ktere´ by zjednodusˇily pra´ci s DSpace a umozˇnily tak dalsˇ´ı rozsˇ´ırˇenı´ obsahu. Tyto na´vrhy mohou by´t do budoucna zpracova´ny a implementova´ny do DSpace. Mezi takove´ na´vrhy naprˇ´ıklad patrˇ´ı kontrola jedinecˇnosti identifika´toru˚ jako je signatura nebo prˇ´ıru˚stkove´ cˇ´ıslo, kdy by DSpace automaticky novy´m za´znamu˚m prˇirˇazoval tyto identifika´tory na za´kladeˇ stanoveny´ch pravidel tak, jak jizˇ prˇirˇazuje handle identifika´tory. Dalsˇ´ım mozˇny´m vylepsˇenı´m by byla u´prava rozsˇ´ırˇene´ho vyhleda´va´nı´, kde by se mı´sto ko´du˚ jazyka vybı´ral jazyk z prˇeddefinovane´ho seznamu. Prˇi te´to pra´ci jsem zı´skal rˇadu cenny´ch zkusˇenostı´ a znalostı´ a oblı´bil jsem si syste´m DSpace jako takovy´. Navı´c se mi zamlouva´ mysˇlenka svobodne´ho softwaru, takzˇe je mozˇne´, zˇe neˇktere´ z vy´sˇe zmı´neˇny´ch funkcı´ doplnı´m v ra´mci sve´ho volne´ho cˇasu a nada´le budu s knihovnou spolupracovat.
7
LITERATURA
52
7 Literatura [1] NEMETH, Evi; SNYDER, Garth; HEIN, Trent R. LINUX : Kompletnı´ prˇ´ırucˇka administra´tora. Brno : Computer Press, 2004. xxxiii, 828 s. ISBN 80-7226-919-4. [2] TANSLEY, Robert; STUVE, David; BASS, Mick. DSpace System Documentation [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . ˇ , Vlastimil Univerza´lnı´ digita´lnı´ repozita´rˇ : diplomova´ pra´ce [online]. Brno : [3] KREJCˇI´R Masarykova univerzita, 2005 [cit. 2006-04-27]. 116 s. Dostupny´ na WWW: . ´ SEK, Jan. WWW prezentace sbornı´ku veˇdecky´ch pracı´ : diplomova´ pra´ce. Ostrava : [4] VITA Vysoka´ sˇkola ba´nˇska´ – Technicka´ univerzita Ostrava, 2003. 48 s. ´ lozˇisˇteˇ digita´lnı´ch dat pro potrˇeby U ´ K VSˇB–TU Ostrava II : [5] PASTUSZEK, Michal. U diplomova´ pra´ce. Ostrava : Vysoka´ sˇkola ba´nˇska´ – Technicka´ univerzita Ostrava, 2006. [6] BARTOSˇEK, Miroslav. Digita´lnı´ knihovny [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [7] VANNEVAR, Bush. As We May Think. Atlantic Monthly, 1945. [8] LICKLIDER, J. C. R. Libraries of the Future. Cambridge : The MIT Press, 1965. [9] ZˇABICˇKA, Petr. OAI–PMH : Protokol pro metadatovou interoperabilitu [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [10] BARTOSˇEK, Miroslav. Digita´lnı´ knihovny : Teorie a praxe [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [11] DSpace [online]. MIT, 2006 [cit. 2006-04-27]. Dostupne´ na WWW: . [12] Dublin Core Metadata Initiative [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [13] Metadata Object Description Schema [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [14] Metadata Encoding & Transmission Standard [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [15] Resource Description Framework [online]. [cit. 2006-04-27]. Dostupne´ na WWW: .
7
LITERATURA
53
[16] Open Archives Initiative. Protocol for Metadata Harvesting [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [17] Z39.50 [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [18] OpenURL [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [19] CNRI Handles [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [20] Digital Object Identifier [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [21] E-LIS Digital library [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [22] Berkley Software Distribution License [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [23] Storage Request Broker [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [24] Lucene Search Index [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [25] Creative Commons License [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [26] Sun Java Technology [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [27] Java Server Pages [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [28] PostgreSQL database [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [29] Apache Tomcat [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [30] Open LDAP [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [31] Extensible Markup Language (XML) [online]. [cit. 2006-04-27]. Dostupne´ na WWW: .
7
LITERATURA
[32] VeriSign certifikacˇnı´ autorita [online]. [cit. 2006-04-27]. Dostupne´ na WWW: . [33] DocBook [online]. [cit. 2006-04-27]. Dostupne´ na WWW: .
54
A
A
ˇ ENE´ PR ˇ ´IRUC ˇ KY UKA´ZKA VYTVOR
55
Uka´zka vytvorˇene´ prˇ´ırucˇky
Na na´sledujı´cı´ch stra´nka´ch jsou uka´zky z vytvorˇene´ prˇ´ırucˇky administra´tora a knihovnı´ka, ktere´ byly z DocBooku vygenerova´ny do forma´tu PDF.
Nynı´ na´sleduje neˇkolik obra´zku˚ s na´hledy na graficke´ uzˇivatelske´ rozhranı´ DSpace.
60
B
UKA´ZKA UZˇIVATELSKE´HO ROZHRANI´
Obra´zek 11: Administra´torske´ menu
´ vodnı´ stra´nka DSpace Obra´zek 12: U
61
B
UKA´ZKA UZˇIVATELSKE´HO ROZHRANI´
Obra´zek 13: Rozsˇ´ırˇene´ vyhleda´va´nı´
62
B
UKA´ZKA UZˇIVATELSKE´HO ROZHRANI´
Obra´zek 14: Vkla´dacı´ formula´rˇ
63
C
C
ˇ ILOZˇENE´HO CD OBSAH PR
64
Obsah prˇilozˇene´ho CD
Na prˇilozˇene´m CD jsou vsˇechny elektronicke´ materia´ly, ktere´ vznikly prˇi tvorbeˇ te´to pra´ce a prˇi instalaci a u´prava´ch DSpace. CD ma´ na´sledujı´cı´ strukturu: • dspace-source – kompletnı´ zdrojove´ ko´dy DSpace se vsˇemi provedeny´mi u´pravami, • konverze – program pro prˇevod forma´tu dat T-Series do XML Dublin Core vcˇetneˇ dokumentace k programu, • prirucka – knihovnicka´ a administra´torska´ dokumentace v DocBooku, PDF a jako sada XHTML stra´nek, • software – instalacˇnı´ archı´vy softwaru potrˇebne´ho pro instalaci DSpace (Apache Tomcat, PostgreSQL, origina´l dspace–source), • text – elektronicka´ verze textu te´to pra´ce v syste´mu LATEX a vygenerovane´m forma´tu PDF, • upravy – adresa´rˇ s jednotlivy´mi u´pravami, – config – soubory s nastavenı´m Apache Tomcat a DSpace, – forms – soubory s upraveny´mi formula´rˇi, – jsp – upravene´ JSP stra´nky graficke´ho rozhranı´ DSpace, – lokalizace – lokalizovane´ soubory s texty DSpace v neˇkolika ko´dova´nı´ch, – registries – soubory s inicializacˇnı´mi nastavenı´mi registru Dublin Core.