Projekt Převod záznamů starých tisků rodové Chotkovské knihovny do systému Clavius
Vypracovali: Thomas Ignatyev Klára Husáková Natasha Goncharova Matyáš Málek Martin Hadrava
Projekt: Převod záznamů starých tisků rodové Chotkovské knihovny do systému Clavius
1.1 Cíl projektu Hlavním cílem našeho projektu je převod starých tisků rodové Chotkovské knihovny pro Knihovnu Národního zemědělského muzea na zámku Kačina do elektronického systému Clavius. Naším zadavatelem je paní Alena Štecherová z knihovny NZM. Pracovištěm nám bude Knihovna Národního zemědělského muzea na zámku Kačina Tisky jsou uchovány v papírové formě, ale máme je také k dispozici v jednoduché tabulkové formě v MS Excel a MS Word. Rádi bychom tento převod zpracovali pomocí importu a exportu dat do programu Clavius. (http://www.lanius.cz/) Pokud by se tato prvotní myšlenka nezdála být tou pravou, máme v záloze řešení přes SQL databázi a vkládání dat a uživatelské rozhraní v PHP.
2
1.2 Plánovaný harmonogram řešení projektu Podle zjištěných skutečností a podle zvážení náročnosti řešení jsme se rozhodli rozložit si práci v těchto termínech: Datum 4.3.11 9.3.11 16.3.11 23.3.11 30.3.11 6.4.11 13.4.11 1.5.11
Popis práce
Počet hodin
Zadání práce a schůzka se zadavatelem Shrnutí, rozdělení a upřesnění práce Týmová porada a sjednocení nápadů, podkladů Technická dokumentace řešení projektu Miniseminář k problematice řešeného projektu Úpravy, redesign projektu a řešení případných problémů Prezentace projektu Odevzdání konečné verze knihovně NZM
2 2 2 4 1,5 2 1,5 1
1.3 Use case diagram <<extend>>
otevřit doc v exelu
spustit exel
<<extend>>
Připojit se servru SQL
spustit SQL klient
<<extend>>
Export dat z Exelu do SQL
Vytvořit přikaz v SQL
V přikazu SQL odkazat na zdrojový doc
<<extend>>
Student Knihovna
import dat do systému CLAVIUS
<<extend>>
<
>
instalace a spuštění syst Clavius
Zpracování dat
Předání vysledku prace
3
1.4 Technické řešení projektu 1.4.1 Postup Knihovna Národního zemědělského muzea na zámku Kačina má katalogizované záznamy ve formě tisku a také ve formě jednoduchého přepisu v MS Excel a MS Word. Jelikož nelze jen exportovat data do systému Clavius, je nutná konverze formátu. Jako první se budeme zabývat zjevně viditelnějším postupem a to konvertovat databázi ve formátu MS Excel do jednoduchého SQL rozhraní. K tomu je potřeba vytvořit základní uživatelské rozhraní pro vyhledávání. Toto rozhraní bude sloužit pro kontrolu všech procesů katalogu. Díky tomu je možná pozdější modifikace rozhraní. To se samozřejmě musí stále zdokonalovat, aby nedocházelo k různým chybám. Musíme přenést pouze ta data, která nesou podstatnou informaci, je tedy nutná selekce dat na důležitá a nedůležitá. A jelikož je dat bezmála 20 000, budeme postupovat pomocí příkazů z SQL. Výhodou je snadná modularita, tedy sestavení jednotlivých částí k sobě, tak aby byly standardizovány mezinárodními normami. V první verzi našeho řešení bychom rádi zkusili přesunout data z MS Excel do databáze v MySQL. Pro možnost manipulace s databází je nutnost mít nainstalovaný MS SQL Server. Do tohoto serveru postupně překlopíme všechna data tak, abychom s nimi mohli dále operovat. Dále je nutná instalace konvertovacího programu, který nám pomůže přesunout data z MS Excel do SQL Serveru. My jsme se na základě týmové porady rozhodli pro program SQL Convertor, který nám přišel nejvíce vhodný pro danou operaci. V SQL Convertoru se data přeskupila do našeho SQL Serveru. Tento bod překlopení byl poměrně jednoduchý. Nyní máme k dispozici data z MS Excel v požadovaném rozhraní. Dále jsme pokračovali tím, že jsme se snažili upravit data v databázi do požadované normy. Prvním úkolem v SQL je rozdělit data ve sloupci Autor. Momentální data ve sloupci autor jsou jméno a příjmení v jedné kolonce. My dané jméno a příjmení rozdělím do dvou kolonek. A to z důvodu přehlednějšího a rychlejšího vyhledávání a také abychom předešli případné duplikaci jmen či příjmení. Tato operace se provede pomocí tohoto skriptu: Select substring (F3, 0, charindex (‘,’, F3)) as Příjmení, Substring (F3, charindex (‘ ’,F3), len (F3)) as Jméno From dbo.chotkárna
4
Tímto postupem jsme rozdělili danou buňku na dvě a v každé se objeví buď slovo před čárkou, nebo za čárkou – ta je tzv. rozdělovač. Dále jsme přejmenovali názvy sloupců, tak aby odpovídaly původním údajům z databáze v MS Excel. Tohoto řešení jsme dosáhli pomocí SQL skriptů: select F1 as S1,, F2 as Alig, substring (F3, 0, charindex (',', F3) as Příjmení, P substring (F3, charindex (' ', F3), len (F3)) as Jméno, F4 as Titul, F5 as Mesto, TRIAL_COLUMN6 as Rok, TRIAL_COLUMN7 as PocetStranek, TRIAL_COLUMN5 as PocetSvazku, TRIAL_COLUMN11 as Vazba, TRIAL_COLUMN12 as ExLibris, TRIAL_COLUMN13 as Poznamka from dbo.chotkárna Skript 1
Skript 2
5
1.4.2 Překlopení SQL databáze do systému Clavius Hlavním cílem naší práce bylo překlopení dat do systému Clavius. Tento problém se nám však nepovedlo vyřešit. Nepodařilo se nám zjistit, jakým způsobem databázi z SQL zpracovat do podporovaných formátů systému Clavius. Knihovní systém Clavius podporuje pro nahrání dat tyto formáty: *.ISO, *.UNI, *.TAG. Tyto formáty jsou standardizované verze pro knihovní systémy.
Ačkoliv jsme se pustili do podrobného vyhledávání, neuspěli jsme. Zkoušeli jsme konvertovat data do textové formy, ale ani tento jednoduchý formát jsme nedokázali nahrát do systému Clavius. ISO 2709 ČSN ISO 2709 je mezinárodní norma, která specifikuje požadavky na obecný formát výměny dat. Je to tedy formát pro výměnu informací. Jeho struktura je návěstí, adresář, pole s údaji a oddělovač záznamů. Každé pole je definováno jako samostatný prvek. Tagy mají čísla pouze od 002 do 999 nebo znaky od 00A do ZZZ. Bibliografické Pole jsou v rozmezí 010-999 a 0AA-ZZZ. Tato bibliografická pole obsahují data a oddělovač. Marc 21 Je také standard pro výměn bibliografických informací ve strojem čitelné podobě. Originální název je MAchine Readable Cataloguing, což znamená „Strojově čitelnou katalogizaci”. Marc 21 je kombinace kanadských formatů Marc používaných ve Spojených státech Amerických. Využívá znakové sady jako MARC-8, Unicode, UTF-8. MARC21 má strukturu záznamu danou standardy ANSI Z39.2 a ISO 2709. V praxi to znamená, že se data člení do polí a podpolí, označených tagy. Jednomu poli odpovídají dva indikátory, které upřesňují význam jeho obsahu. Každé pole začíná na novém řádku. V MARC21 je kladen důraz na interpunkci.
6
Dalším bodem v našem projektu je řešení souvislé řady přírůstkových čísel = signatur. Data v MS Excel jsou číslována až od čísla 6542 do čísla 19 780. Data v MS Word jsou rozdělena do šesti souborů. Číslování je rozděleno takto: Číslování
Od
Do
*.doc.1 *.doc.2 *.doc.3 *.doc.4 *.doc.5 *.doc.6
1 151 1201 3541 3541 4927
151 1200 3540 5489 4926 7002
Toto rozdělení do souborů je velice nešťastné a to z důvodu, že se daná přírůstková čísla překrývají již v této formě. Navíc je v jednom MS Word dokumentu uvedeno více záznamů, než je uvedeno v číslování. Například v prvním souboru je obsaženo 7933 záznamů a pro nás jich je platných pouze 151. Takhle je to i v ostatních souborech jen s tím rozdílem, že nezačínají od začátku, ale od daného čísla jak je vidíte v tabulce. Zde bych právě proto stanovila náš první zásadní problém. Je nutné ručně vytřídit nepotřebná data a ponechat pouze jeden soubor, ve kterém bude uloženo 6541 záznamů, tak aby doplňovali původní databázi v MS Excel (nyní v SQL). Jako druhou variantu řešení tohoto problému jsme zvolili kontaktování osoby, která tento výpis databáze v MS Word, měla původně spravovat. Data jsme z původních pěti souborů vytřídili do jednoho souboru ve formátu MS Word. S tou to platformou se dále špatně pracuje, a proto jsme se rozhodli převést data do manipulačně příjemnějšího rozhraní. A to do MS Excel. Bohužel ani toto rozhodnutí se nezdálo být správné. Protože přetvořit bezmála sedm tisíc řádků je pro nás nemožné ručně. A opět jsme nebyli vybaveni programem či systémem, který by nám tento problém převedl do požadovaného formátu. Postup v bodech: -
Chotkovska_databaze.xls přesunuta do MySQL Serveru pomocí konvertovacího
-
programu SQL Convertor Třídění dat v souborech ve formátu MS Word do jednoho souboru Rozdělení sloupce Autor na sloupce Jméno a Příjmení pomocí SQL příkazů Překlopení dat z SQL databáze do systému Clavius
7
1.5
Reálný harmonogram řešení projektu
Datum
Popis práce
Počet hodin
Zadání práce a schůzka se zadavatelem Shrnutí, rozdělení a upřesnění práce Týmová porada a sjednocení nápadů, podkladů Technická dokumentace řešení projektu Miniseminář k problematice řešeného projektu Týmová porada a konverze MS Excel do SQL Kontrolní den projektu + konzultace s vedoucím Technická dokumentace řešení projektu
3 4 2 3 1,5 2 1,5 2
4.5.11 Převod dat MS Word do SQL / neúspěšný pokus 11.5.11 Odevzdání konečné verze
2,5 1,5
4.3.11 9.3.11 16.3.11 23.3.11 30.3.11 8.4.11 4.5.11 4.5.11
Průběžně Individuální řešení problémů – každý člen
1.6
3
Jmenovitý podíl jednotlivých členů týmu na řešení projektu
Thomas Ignatyev - Analýza projektu, rozdělení úkolů, vymezení problémů, dohled a komunikace v týmu, kontrola práce. Martin Hadrava - Technické řešení projektu, manipulace a přepracování dat v SQL. Matyáš Málek - Překlopení dat do SQL, řešení vzniklých problémů Natasha Goncharova - UseCase diagram, překlopení dat do SQL a vyhledávání dat, formátů Klára Husáková - Zpracování technické dokumentace, plánování - harmonogram, podpora vedoucího týmu.
1.7
Problémy, s nimiž se tým setkal při řešení projektu -
Nefunkční SQL Server Data v MS Word jsou rozdělena do 6 částí, potřebná data v MS Word jsou
-
doplněna o tisíce zbytečných záznamů, nutnost ručního vytřídění důležitých dat velká časová ztráta. Seskupení data z MS Excel a MS Word (nelze konvertovat z jednoho do
-
druhého) momentálně hledáme řešení. Nekompatibilní formáty dat z SQL – k překlopení do systému Clavius 8
1.8
Přínos projektu pro členy týmu
V tomto projektu byl zásadní problém překlopení dat, ten jsme bohužel nesplnili. Ale jako kladnou stránku projektu bych uvedla zkušenost v hledání dat, shromažďování a třídění podstatných údajů. Dále bych zmínila jako velmi příjemnou zkušenost práci v týmu. Komunikace ze začátku vázla, ale po jednom sezení nebyl žádný problém mezi sebou komunikovat, předávat si vytvořené úkoly a dále s nimi pracovat. Jako zajímavost bych uvedla návštěvu zámku Kačina, ve kterém působí Knihovna národního zemědělského muzea. Tato návštěva byla pro nás zdrojem informací, příjemného pobytu a ukázkou toho, jak vše v knihovnictví funguje. Jako negativní část bych ještě jednou zmínila naši technickou neznalost, při překlápění dat do systému. Chyběly nám zásadní potřebné informace o systému Clavius a o jeho podporovaných formátech. Pro příště bychom se snažili si sestavit harmonogram projektu více reálněji. Jak je vidět v dokumentaci, náš původní harmonogram se podstatně liší od harmonogramu reálného. A proto bychom si vyhradili na dané úkoly více času, abychom měli více možností řešení, pokud by jedna selhala.
9