Knihovny současnosti 2015
Novinky v projektu OBÁLKYKNIH.cz Jiří Nechvátal Jihočeská vědecká knihovna v Českých Budějovicích
[email protected]
O projektu obalkyknih.cz Agreguje různé zdroje informací o dokumentech a poskytuje je knihovním a jiným systémům :
Obálky knih a periodik - poskytnuté knihovnami pomocí skenovacího klienta, ale i obálky z jiných zdrojů například od vydavatelů, knihkupců či jiných agregátorů
Obsahy knih a periodik - naskenované obsahy zpřístupňuje v podobě PDF
Fulltexty obsahů - jedná se o převod naskenovaných obsahů na text pomocí OCR a zpřístupnění pro indexaci cílovým knihovním systémem
Anotace, komentáře a hodnocení - možnost stažení existujících komentářů a zároveň i možnost exportu Vašich komentářů na obalkyknih.cz
To všechno v podobě jedné snadno použitelné služby.
O projektu obalkyknih.cz databáze aktuálně obsahuje 983 022 obálek 148 682 obsahů 248 462 anotací 4 322 hodnocení 13 214 komentářů
českých a zahraničních publikací.
O projektu obalkyknih.cz hlavní servery jsou provozovány v Jihočeské vědecké knihovně v Českých Budějovicích, záložní server je v Moravské zemské knihovně v Brně --------měsíčně hlavní server odbaví průměrně 55 miliónů požadavků, cca. 2 milióny denně, průměrně 20 dotazů za vteřinu --------ve špičkách (9-15:00) odbavují servery 40-80 požadavků za vteřinu --------denně do databáze je nově nahráno nebo upraveno průměrně 250 dokumentů --------denní přírůstek dat činí 3 GB, z nich se následně generují náhledy obálek v různých rozlišeních, PDF dokumenty s obsahy a rozpoznává se text pomocí OCR --------20 Mbit za vteřinu je datový tok ven ze serveru a na server což představuje cca. 85% všech dat, které projdou internetovým připojením JVK .
Novinky 2014-2015 Anotace, komentáře a hodnocení Failover
Obálky periodik a vícesvazkových děl Fulltextové prohledávání obsahů
Anotace, komentáře a hodnocení
Anotace, komentáře a hodnocení Stažení anotací, komentářů a hodnocení do knihovních katalogů
Vytvoření, načtení, update a smazání pomocí API Tímto způsobem vkládají komentáře a hodnocení pouze registrované knihovny (neobsahuje roboty generované komentáře) Export komentářů a hodnocení z vašich knihovních systémů na server obalkyknih.cz …
Anotace, komentáře a hodnocení Každá knihovna vlastní pravidla:
poskytují jen přihlášení uživatelé 1 titul … 1 uživatel … 1 komentář komentář může uživatel změnit do konce dne, pak již nelze komentáře se ukládají lokálně a následně se každý den uploadují na jeden z frontend serverů – postará se o distribuci mezi servery
Anotace, komentáře a hodnocení http://cache.obalkyknih.cz/api/books?multi=[{"isbn“:"978-80-86964-09-6"}] Počet hodnocení díla čtenáři Součet bodů hodnocení díla udělených čtenáři Průměrné hodnocení přepočtené na stupnici 0-5 Průměrné hodnocení přepočtené na stupnici 0-100 URL adresa s obrázkem hvězdiček, odpovídající průměru hodnocení na stupnici 0-5. annotation Anotace („source“ a „html“) reviews Pole s komentáři ----------------------------------------------------------------------------------------- created Datum vytvoření ve formátu ISO8601 html_text Celý text komentáře (ne HTML !!!) rating Udělené hodnocení na stupnici 1..10 library_name Název knihovny, která komentář vytvořila sigla Sigla knihovny, která komentář vytvořila id Identifikátor záznamu ve zdrojovém informačním systému
rating_count rating_sum rating_avg5 rating_avg100 rating_url
Komentáře a hodnocení
Komentáře a hodnocení
Komentáře a hodnocení
Failover
Failover
zajišťuje dostupnost služby obalkyknih.cz je řešen aplikačně - aplikace kontroluje dostupnost primárního serveru a v případě jeho výpadku přepne stahování ze záložního serveru
API volání: http://cache1.obalkyknih.cz/api/runtime/alive http://cache2.obalkyknih.cz/api/runtime/alive
… JVK … MZK
v případě dostupnosti vrátí odpověď ALIVE v případě jiné odpovědi, nebo v případě nezodpovězení do 10 s lze považovat primární server za nedostupný a je potřeba kontaktovat záložní server (po 1 hodině testuje znovu)
Failover
V případě KIS ALEPH, kde se výsledné HTML skládá až v prohlížeči na straně uživatele je vhodné spouštět na serveru daemon script, který bude periodicky zjišťovat dostupnost primárního frontend serveru. V případě výpadku daemon upraví, nebo nahradí HTML dokumenty přímo na webovém serveru, čím ve výsledku pozmění adresu dotazovaného frontend serveru za záložní adresu. Více ve specifikaci http://www.obalkyknih.cz/doc/Dokumentace_API_OKCZ_3.1.pdf
Obálky periodik a vícesvazkových děl
Obálky periodik a vícesvazkových děl
Obálky periodik a vícesvazkových děl
Obálky periodik a vícesvazkových děl
Obálky periodik a vícesvazkových děl
nově v API 3.1 je možné dotazování na části monografie/číslo periodika pomocí parametrů:
• part_no – Číslo části v případě monografie (podpole 245n). Číslo vydání v případě periodika. Používá se u monografie i periodika. • part_name – Název části v případě monografie (podpole 245p). Nepoužívá se u periodika. • part_year – Rok vydání periodika. Nepoužívá se u monografie. • part_volume – Ročník vydání periodika. Nepoužívá se u monografie. • part_note – Textová identifikace části monografie, nebo periodika pro knihovní IS, které nemají výše uvedené informace oddělené.
Obálky periodik a vícesvazkových děl
Na části monografie se dotazuje pomocí kombinace dodatečných parametrů part_no (číslo části MARC21 podpole 245n) + part_name (název části MARC21 podpole 245p). Je povinný pouze jeden z těchto parametrů. http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"978-80-86964-096","nbn":"cnb000154538","oclc":"(OCoLC)311597120","part_no":"část 1"}] http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"80-7203-2682","nbn":"cnb000602512","part_name":"díl 1, sv. 1"}]
Obálky periodik a vícesvazkových děl Na číslo periodika se dotazujeme pomocí kombinace dodatečných parametrů part_no + part_year + part_volume. Je povinná kombinace buďto part_no + part_year, nebo part_no + part_volume, ale doporučuje se dotazovat pomocí všech dostupných identifikátorů
http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"0322-9629", "part_year":"2014","part_volume":"51","part_no":„15"}] http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"0322-9629", "part_year":"2014","part_volume":"51","part_no":„Nerozluštěné záhady 20. století"}]
Obálky periodik a vícesvazkových děl Pokud knihovní IS neobsahuje výše uvedené parametry odděleně, ale obsahuje je v textové podobě zapsané při katalogizaci, je možné uvádět i tento text/poznámku jako parametr part_note. "Roč. 51, č. 4, rok 2014" http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"Roč. 51, č. 4, rok 2014 "} nebo "R. 2014, Roč. 51, číslo 4" http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"R. 2014, Roč. 51, číslo 4"} nebo "2014 51 4" http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"2014 51 4"} nebo "[51] číslo 4." http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"[51] číslo 4."} nebo "číslo duben 2014" http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"číslo duben 2014"} nebo … vyzkoušejte sami u sebe a pošlete připomínky
Obálky periodik a vícesvazkových děl
Ročník 51, číslo 4
Obálky periodik a vícesvazkových děl
Zvláštní číslo
Obálky periodik a vícesvazkových děl Souborný záznam
Zvláštní číslo
Fulltextové prohledávání obsahů
Fulltextové prohledávání obsahů přepis naskenovaného díla do textu
toc_full_text
fulltext se stahuje z metadat OKCZ společně s obálkami, uloží se a dále indexuje v SOLR. k indexaci použit stemming - snaží se indexovat základní tvar slova - při zadání "tónovaná malba", "tónované malby", "tónovaní malby„ najde to samé.
Fulltextové prohledávání
Fulltextové prohledávání
Fulltextové prohledávání
Fulltextové prohledávání
Nezapomenou na povolení OCR !!!
Vývoj v roce 2015
Rozšíření projektu obálky knih o propojení s databází autorit
smyslem úlohy je poskytnout knihovním katalogům obrazové a jiné materiály napojené na ID autority. Například fotografie osob, GPS souřadnice míst, www odkazy, .... Projekt bude čerpat z databáze autorit NK Praha přes Z39.50. Zdroj materiálů budou volně dostupné zdroje.
Rozšíření projektu obálky knih o podporu obálek zvukových dokumentů a hudebnin návrh jednotné identifikace zvukových dokumentů a hudebnin, podle které bude následně upraveno API a skenovací klient projektu obálky knih. Předběžný návrh identifikátoru: urn:okcz:typ_dokumentu:nakladatel:vydavatelske_cislo. Pro typ dokumentu bude vytvořen číselník (MC, CD, LP, HUD, ...) a dle analýzy stavu v knihovnách se předpokládá vytvoření číselníku nakladatelů pro snadnější propojení záznamů v katalozích knihoven. Součástí úlohy bude import cca. 15 000 obálek zvukových dokumentů získaných od vydavatelství Supraphon. Import bude obohacovat záznamy nejen o obálky, ale i o seznamy skladeb/stop, těles, případně jiných typů informací, které připravené XML obsahuje.
Převzetí anotací a komentářů z jiných systémů, nebo sklízení dalších zdrojů dat převod komentářů a hodnocení z jiných systémů - knihovních i komerčních Statický jednorázový export a převod dat do databáze obalkyknih.cz nebo naprogramování API rozhraní pro stahování komentářů a hodnocení ze spolupracujících serverů. Zdroje budou předběžně poskytovat data buďto ve formátu XML, nebo ve formě OAI setu. V případě sklízení OAI-PMH setu bude použita stávající instalace klienta, která je plánována v rámci jiné úlohy tohoto projektu. Úloha vznikla z důvodu snahy o prosazení projektu obalkyknih.cz jako agregátora komentářů a hodnocení mezi informačními systémy v oblasti paměťových institucí. Bez této snahy budou komentáře a hodnocení knihovními katalogy nadále potlačovány a pro čtenáře budou hlavním zdrojem nadále komerční servery namísto vytváření komunity v prostředí knihovních katalogů. Zboží.cz, Srovnáme.cz, Ereading.cz
Deduplikace záznamů podle identifikátorů z historických důvodů databáze obalkyknih.cz obsahuje duplicitní záznamy shodných dokumentů. Tento stav vznikl u dokumentů vkládaných přes různé zdroje, tj. webové rozhraní obalkyknih.cz, sklízecí proces nad daty poskytovanými vydavateli a knihovnami tzv. crawler a harvestery, kdy k záznamu nebyly přiřazeny všechny dostupné identifikátory (ISBN, č. ČNB, OCLC, vlastní identifikátor). Dnes v databázi existují shodné záznamy uložené každý pod jiným identifikátorem. Problém nastává s obsahy, komentáři, fulltexty … , kdy je nutné jejich uložení pod správný - jedinečný – dokument. Úloha bude využívat dříve shromážděné záznamy z NK Praha v rámci úlohy tohoto projektu obalkyknih.cz a jako deduplikační klíč bude brát identifikátory titulu. Tituly, které budou spadat pod proces deduplikace budou slučovány do jediného záznamu tak aby informační hodnota byla zachována, nebo zvýšena. Automatizovaný proces, který bude deduplikaci pravidelně provádět.
Vlastní skenování
Skenovací klient
http://obalkyknih.cz/obalkyknih-scanner/
Statistiky skenovacího klienta v r. 2014 (01-10) 42 713 OLA001 Vědecká knihovna v Olomouci 30 873 CBA001 Jihočeská vědecká knihovna 14 340 ABA001 Národní knihovna XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 10182 ABA004 Slovanská knihovna 7 638 CBD005 Teologická fakulta JCU 6 899 BOA001 Moravská zemská knihovna 3 681 BOD001 Masarykova univerzita - Filozofická fakulta 4 182 ABA007 Knihovna Akademie věd ČR 2 270 CBD007 Jihočeská univerzita - Akademická knihovna 2 229 ABA008 Národní lékařská knihovna 1 330 LIA001 Krajská vědecká knihovna Liberec 1 150 ABA006 Vysoká škola ekonomická 719 KLG001 Středočeská vědecká knihovna v Kladně 512 BOD018 Masarykova univerzita - Fakulta informatiky, Brno 438 TAG001 Městská knihovna Tábor 276 HBG001 Krajská knihovna Vysočiny, Havlíčkův Brod 266 ULD001 Univerzita J.E.Purkyně - Pedagogická fakulta, Ústí nad Labem 10 669 MLP – vlastní rozhraní, 1 522 Fragment.cz …
Statistiky skenovacího klienta v r. 2015 20 142 CBA001 Jihočeská vědecká knihovna 16 684 BOD001 Masarykova univerzita - Filozofická fakulta 11 969 ABA001 Národní knihovna 10 353 OLA001 Vědecká knihovna v Olomouci XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 8 405 ABA004 Slovanská knihovna 6 138 BOA001 Moravská zemská knihovna 3 365 CBD005 Teologická fakulta JCU 2 606 ABA008 Národní lékařská knihovna 2 109 ABA007 Knihovna Akademie věd ČR 1 011 ABD001 Univerzita Karlova v Praze - Filozofická fakulta 877 ABD103 UK - Fakulta sociálních věd - Středisko vědeckých informací 829 HBG001 Krajská knihovna Vysočiny, Havlíčkův Brod 797 PTG001 Městská knihovna Prachatice 753 ULD001 Univerzita J.E.Purkyně - Pedagogická fakulta, Ústí nad Labem 730 KLG001 Středočeská vědecká knihovna v Kladně 674 LIA001 Krajská vědecká knihovna Liberec 571 CBD007 Jihočeská univerzita - Akademická knihovna 488 ZLG001 Krajská knihovna Františka Bartoše ve Zlíně 463 ABA006 Vysoká škola ekonomická 397 ULG001 Severočeská vědecká knihovna v Ústí nad Labem 289 BOD018 Masarykova univerzita - Fakulta informatiky, Brno 245 ABB503 Ústav anorganické chemie AV ČR 191 TAG001 Městská knihovna Tábor 143 PNA001 Studijní a vědecká knihovna Plzeňského kraje 62 OSA001 Moravskoslezská vědecká knihovna v Ostravě, 8 325 MLP, 1 203 Antikvariát Kodytek, 425, Fragment … webové rozhraní obalkyknih.cz (723 SVK H.Králové )
Statistiky skenovacího klienta v r. 2015 automatické stahování xml feed: Městská knihovna Praha Antikvariát Kodytek, Fragment Umelecko-duchovné združenie Fénix
8 325 1 203 425 31
webové rozhraní obalkyknih.cz Knihovna města Ostravy SVK Hradec Králové Ústav zemědělské ekonomiky a informací Gemerská knižnica Pavla Dobšinského, Rožňava INFORMATORIUM, spol. s r. o.
1 203 719 302 188 108
...
Nové přírůstky: jiné zdroje
VKOL
červen 2014 importováno cca. 31 000 obálek
MUNI
září–říjen 2014 importováno cca 55 000 obálek
SKAT
červenec 2015 importováno cca 14000 komentářů
MLP
září 2015 importuje se cca 100 000 anotací
Pomožme si sami …
!!! Výsledky práce využijí všichni !!!
Stránky projektu
http://www.obalkyknih.cz https://github.com/cbvk/obalkyknih/wiki
[email protected]
Dotazy ???
[email protected]
Děkuji za pozornost
Knihovny současnosti 2015
Novinky v projektu OBÁLKYKNIH.cz Jiří Nechvátal Jihočeská vědecká knihovna v Českých Budějovicích
[email protected]