Vysoká škola ekonomická v Praze
Projekt digitální repozitář Pražské skupiny školní etnografie
Datum: 15.2. 2012
Členové týmu: Matyáš Málek Natalya Goncharova Adam Pařízek David Štern Martin Michl Matyáš Neuwirth
Obsah Zadání a cíl projektu................................................................................................................................ 3 Harmonogram.......................................................................................................................................... 4 Dokumentace postupu scanování ......................................................................................................... 6 Dokumentace návrhu propagace ............................................................................................................. 8 Open psychology archive..................................................................................................................... 9 Webarchiv .......................................................................................................................................... 10 Národního úložiště šedé literatury..............................................................................................11 Wikiedia – Wikipedie, wikizdroje.....................................................................................................192 Google Books .....................................................................................................................................13 Google Scholar....................................................................................................................................17 Jmenovitý podíl členů týmu na řešení projektu..................................................................................... 19 Seznam digitalizovaných publikací........................................................................................................20 Problémy a přínosy...............................................................................................................................21
2
Zadání a cíl projektu Projekt byl zadán Pražskou skupinou školní etnografie zastoupenou: PhDr. Miroslavem Klusákem, CSc. PhDr. Milošem Kučerou, CSc. Cílem projektu bylo zvýšit množství citací prací zadavatele. K tomuto cíli jsme se rozhodli dostat pomocí výsledků několika hlavních činností. 1. Usnadnit přístup k pracím zadavatele pomocí digitalizace dokumentů a jejich zpřístupněním na internetu. 2. Tvorba přehledného rozhraní pro pohodlné stahování digitalizovaných publikací. 3. Návrh způsobu propagace prací zadavatele za využití cizích webů a služeb. Jelikož byl projekt zadán dvěma pracovním týmům zároveň, došlo rozdělení bodu 2. a 3. mezi oba týmy. Část digitalizace byla oběma týmům zadána jako společná s možností průběžně navzájem porovnávat získané zkušenosti i výsledky práce. Náš tým se zabýval vypracováním bodu 1. a 3. a mezi naše členy patří Matyáš Málek, Natalya Goncharová, Adam Pařízek, David Štern, Martin Michl a Matyáš Neuwirth.
3
Harmonogram - plánovaný Na zářijovém zadávání projektu se všichni členové shodli, že na projektu chtějí začít pracovat co nejdříve a výsledek práce odevzdat na přelomu listopadu a prosince. Původní plán byl tedy rozdělen po měsících na : září
- kontakt se zadavatelem, obdržení dokumentů k digitalizaci
říjen
- digitalizace dokumentů
listopad - tvorba repozitáře Na říjnovém setkáni se zadavatelem jsme obdrželi několik podrobností k podobě projektu a první dvě publikace. Během příštího týdne bylo domluveno vyzvednutí zbytku publikací a zajištění technického vybavení pro digitalizaci. Vyzvednutí publikací však proběhlo mnohem později a digitalizace se skutečně naplno spustila až v listopadu. Vzhledem k několika technickým problémům se digitalizace protáhla až do začátku prosince, čímž se námi odhadnutý termín dokončení odsunul. V prosinci došlo k úpravě zadání, kde jsme místo digitálního repozitáře začali pracovat na způsobech propagace Pražské skupiny školní etnografie. Celá práce měla být připravena 19.12., ale po kontaktu se zadavateli bylo zadáno rozšíření článku o google books. Další termín odevzdání práce byl stanoven na 3.1. , ale na žádost druhého pracovního týmu došlo k odkladu. Následující termín prezentace výsledků práce byl stanoven na 23.1. V době mezi termíny opět došlo k dodatečným úpravám obsahu práce. Oba týmy pak zadavateli přislíbili vyřešení několika posledních detailů do termínu 15.2.
Harmonogram - skutečný Úvodní setkání se zadavatelem Setkání se zadavatelem proběhlo ve čtvrtek 13.10 2011 v 16:45 v domě v Myslíkově ul. 7, Praha 1. Setkání se zúčastnili Natalya Goncharová, Matyáš Málek a Martin Michl na straně řešitelského týmu. Jako zadavatelé byli přítomni PhDr. Miroslav Klusák, CSc. a PhDr. Miloš Kučera, CSc. Zadavatelé nám představili řešený úkol a po vzájemné diskusi byly stanoveny základní cíle projektu. Mezi týmy byly rozděleny první dvě publikace k digitalizaci.
Převzetí publikací Dne 1.11 2011 převzal Matyáš Málek od zadavatelů zbývající publikace k digitalizaci, které byly rozděleny mezi oba řešitelské týmy.
První fáze digitalizace Od 5.11 2011 jsme započali s digitalizací. Seznámili s používáním scanneru a dalšího softwarového příslušenství, především toho určeného k rozpoznávání textu. Došlo k rozdělení publikací mezi všemi členy týmu.
4
První kontrolní den 28.11 2011 se uskutečnil první kontrolní den projektu. Do této chvíle se naší skupině podařilo úspěšně digitalizovat 3 publikace a provést u nich rozpoznání textu.
Druhá fáze digitalizace V době mezi kontrolními dny provedla naše skupina digitalizaci jedné publikace a rozpoznání textu u publikace nascanované druhým týmem. Dále bylo všech pět námi zpracovaných publikací rozděleno na více pdf souborů podle kapitol dané publikace. Cílem dělení bylo umožnit výběr mezi stažením jednoho většího dokumentu a stažením dokumentu po částech počítačům s pomalým připojením k internetu. Byly také započaty práce na dokumentaci projektu.
Druhý kontrolní den 13.12 2011 se uskutečnil druhý kontrolní den projektu. Proběhla rekapitulace dosavadní práce a rozdělení zbývajících úkolů mezi všechny členy týmu. Druhá schůzka se zadavatelem byla dohodnuta na 19.12 2011 v 15:15 v Myslíkově ul. 7, Praha 1
- Návrhy propagace Mezi druhým kontrolním dnem a druhým setkáním se zadavatelem se tým věnoval návrhu propagace Pražské skupiny školní etnografie a prozkoumal několik webových stránek a služeb.
Druhé setkání se zadavatelem Na druhém setkání se zadavatelem byly v krátkosti představeny výsledky práce týmu. Zadavatel obdržel digitalizované verze publikací a technickou dokumentaci ke zhodnocení. Kompletní verze dokumentace byla v papírové formě předána profesorce Heleně Kučerové. Pracovní týmy byly seznámeny se zadáním několika posledních úprav na projektu.
- Závěrečná prezentace výsledků práce týmu Závěrečné prezentace proběhne pod dozorem profesorky Kučerové za přítomnosti obou zadavatelů. Po několika změnách byl termín prezentace stanoven na 23.1. 2012 a termín odevzdání kompletního projektu na 15.2.2012.
5
Technická dokumentace Dokumentace postupu scanování Při digitalizaci vázaných papírových dokumentů je nejprve nutné určit, zda jej lze „rozebrat“ na jednotlivé listy, nebo zdali musí být publikace po dokončení digitalizačního procesu zachována v původní formě. Pokud je třeba zachovat formu dokumentu, používají se speciální skenery vybavené „lůžkem“ ve tvaru písmene „V“, do kterého je kniha vložena. Při skenování jsou stránky automaticky otáčeny a díky použitému lůžku se neničí vazba knihy. Tyto skenery jsou však v současnosti velmi nákladné na nákup i pronájem. V našem případě probíhalo skenování na multifunkčním zařízení určeném pro kancelářskou práci (Sharp AR-M207), kde se takové knihy pokládaly přímo na standardní skleněnou tabuli a strany se otáčely ručně. Pokud je možné při digitalizaci zničit fyzickou formu vázaného dokumentu, je ideálním řešením použití podavače podporujícího oboustranné skenování. V případě skenování skript jsme tedy publikaci rozložily na jednotlivé listy jejich postupným vytrháváním z lepené vazby ve skupinách cca po patnácti stranách a zastřihli jsme je několik milimetrů od okraje znečištěného lepidlem. Před umístěním listů do podavače je vhodné se ručně přesvědčit, zda jdou od sebe jednotlivé listy skutečně snadno oddělit. Množství situací, při kterých dojede k zaseknutí papíru v mechanickém ústrojí skeneru, se tak dá snížit na přijatelnou úroveň. V našem případě totiž vedlo zaseknutí papíru k chybě v procesu ukládání naskenovaných dat do dočasné paměti a následně ke ztrátě již celé právě skenované dávky. Výsledkem skenování byly soubory ve formátu *.tiff . Při digitalizaci byl použit program Sharpdesk, který kromě přehledného prostředí pro správu naskenovaných materiálů obsahuje i kvalitní OCR (optické rozpoznávání znaků). Protože program Sharpdesk pracuje s naskenovanými materiály z podavače jako s jedním objektem (dávkou), setkávali jsme se s podobným druhem problému, jako v případě zasekávání papíru. Pokud při rozpoznávání textu nahlásil program chybu, nedalo se již s rozpoznávanou dávkou dále pracovat (např. rozdělit ji na část textu „před a za“ chybou a provést OCR alespoň u nezávadné části dávky) a musela být znovu celá naskenována. Zdroj tohoto problému se mi i přes značnou snahu nepodařilo identifikovat. Výsledkem rozpoznání jedné dávky jednotlivých souborů v *.tiff byl jeden soubor ve formátu *.pdf . Samotné rozpoznání fungovalo téměř ve všech případech bez problému. Většina převedených dokumentů umožňuje textové vyhledávání i v obsahu tabulek, v grafech a zvládá různé druhy fontů. Problémy nastaly jen v případech, kdy původní skenovaný text nebyl zcela zřetelně vytištěn. V takových situacích došlo v elektronické kopii k mírnému snížení čitelnosti, především v případech tenké kurzivy, nebo naopak rozteklého tučného textu (téměř výhradně se tento problém projevil u „Takoví jsou jsme“). V kontextu okolního textu sice občasná horší čitelnost nebrání člověku v pochopení nezřetelného slova, nejde již ale zaručit bezchybné fungování OCR, jako je tomu u ostatních dokumentů.
6
Tento problém jsme se pokusili vyřešit zdvojnásobením hodnoty citlivosti skeneru (ze 300dpi standardních pro skenování tištěného textu na 500dpi), ale výsledek nepřinesl viditelnou změnu ani pro fungování OCR, ani pro oko čtenáře. Lepšího výsledku by bylo možné dosáhnout za použití kvalitnějšího skeneru určeného pro profesionální elektronickou archivaci hůře zachovaných tiskopisů, který však nemáme k dispozici. Další z námi použitých programů je PDF split and merge. Omezená kapacita podavače, spolu s chybou nutící ke znovu naskenování celé dávky, nás vedla k navýšení počtu dávek a snížení jejich objemu. Výsledkem rozpoznání tedy bylo několik *.pdf souborů, které bylo třeba pomocí PDF merge spojit do jednoho finálního dokumentu, který odpovídá skenované publikaci. Pomocí stejného programu se dá dokument ve formátu *.pdf dělit na menší části, čehož jsme využili při rozdělení publikací na jednotlivé kapitoly. Možnost stahovat celou publikaci po kapitolách potěší především majitele pomalejšího připojení k internetu. Kvalita jednotlivých elektronických verzí kolísá podle kvality jejich předlohy. U některých druhů tence, nebo naopak tučně tištěných písmen, neproběhlo rozpoznání textu zcela bez chyb. Rozhodovala i možnost rozložit předlohu na samostatné listy papíru. Nejhůře si při digitalizaci vedla kniha Typy žáků, u níž nám nebylo povoleno zničit vazbu. Z toho důvodu se při scanování text v blízkosti vazby deformoval a OCR ho nedokázalo rozpoznat. Čtyři strany dokonce neprošly rozpoznáním vůbec a byly nahrazeny svojí obrazovou kopii, a tudíž v nich nepůjde textově vyhledávat. Přesto celkově považuji digitalizaci za úspěšnou. Možnost vyhledávání slov v dokumentu přispěje k rychlejší orientaci v textu. V žádném případě však nejde o metodu, která by dokázala zcela spolehlivě např. označit všechny instance jednoho slova v publikaci.
7
Dokumentace návrhu propagace
V návrhu propagace jsme se zaměřili na několik služeb a pokusili se rozebrat jejich potenciál pro zvýšení povědomí o zadavateli. Především nám šlo o: - Jaké funkce služba nabízí a které z nich doporučujeme využít - Jaký druh informací daná služba návštěvníkovi poskytuje - Jaké podmínky musí být splněny pro využití této služby - Postup, jakým lze na danou službu umístit svůj obsah.
8
Open psychology archive Je internetový archiv shromažďující informace z jakéhokoliv odvětví, jež se určitým způsobem dotýká psychologie. Archiv je volně přístupný a nabízí čtenáři obsah, který se dělí do několika základních kategorií. Jde o videa, odborné články, knihy, představení nových knih a podcasty. Nové příspěvky se na hlavní stránce zobrazují podobně, jako např. zprávy na idnes.cz. Má svůj název, popis nového obsahu a obsah samotný. -Videa Kategorie videa obsahuje příspěvky se záznamy z přednášek a konferencí. Pod každým videem je stručný popis toho o čem se v přednášce bude diskutovat. V případě, že autor videa veřejně vydal své publikace, jsou pod videem připojeny odkaz na internetový obchod amazon.com, kde je možné publikace ihned zakoupit. -Knihy Podobně jako u videa je k příspěvkům v kategorii knih připojen krátký popis knihy, obsah a kapitoly. Další publikace vydané stejným autorem, jež nejsou volně přístupné v archivu, se zobrazí jako odkazy na obchod Amazon. Samotná kniha se zobrazí jako součást stránky v internetovém prohlížeči a umožňuje náhled na obsah, vyhledávání v textu a přiblížení lupou. -Články U článků lze nalézt pouze text článku a popis jeho zdroje. -Podcast Podcasty jsou audio nahrávky zaznamenávající přednášky, kurzy a předčítané knihy. Jejich poslech, nebo stáhnutí obvykle vyžaduje přejít ze stránek Open psychology archive na stránky cizí, na kterých je možné download spustit. -Představení nových knih Představení nových knih není o bezplatném šíření obsahu. Příspěvek týkající se nově vydané knihy obsahuje podrobný popis toho, s čím se v knize můžete setkat a náhled na prvních několik desítek stran. Prohlížení těchto stran probíhá stejným způsobem, jako u úplné knihy, jen jste na poslední z volně přístupných stran upozorněni, že zbytek textu si můžete přečíst po zakoupení publikace. Nechybí odkaz na amazon.com Publikace obsahu na Open psychology archives je realizována programem Wordpress zdarma k dostání na wordpress.org . Program umožňuje snadným způsobem vytvářet a editovat obsah internetových blogů. OPA je poměrně malý web a poslední příspěvek na něj byl vložen letos v létě. Vkládání obsahu je sice prováděno přes program Wordpress, ale pro tento účel je vyžadováno neznámé heslo. Na stránce není přítomen ani kontakt na původního tvůrce stránek. Vzhledem k tomu, že je celá stránka v angličtině a všechen její dostupný obsah též, nepovažuji tuto službu za ideální způsob propagace práce Pražské skupiny školní etnografie.
9
Webarchiv Webarchiv je internetová služba národní knihovny, jejímž cílem je sběr a archivace elektronických dokumentů spřízněných s Českou Republikou. Vznikla v roce 2000 v rámci programu Registrace ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet a zaštiťuje ho Ministerstvo školství, mládeže a tělovýchovy. Nejedná se tedy jen o dokumenty v akademickém slova smyslu, ale veškeré internetové zdroje, jsou-li vnímány jako dostatečně hodnotné. V archivu se tak mohou vyskytnout třeba internetové blogy, jsou-li zaměřeny na seriózní téma. Hlavní výhodou této služby je její správa Národní Knihovnou přinášející profesionální péči o zařazené tituly, odpovídající katalogizaci, spolupráce s obdobnými projekty v rámci EU a v neposlední řadě také financování projektu. Slouží k informování návštěvníků Národní Knihovny o hodnotném českém internetu. Bohužel nelze z legislativních důvodů přistupovat do tohoto archivu jinak, než z terminálů v Národní Knihovně. Jeho síla je tak uměle značně redukována. Nedojde-li ke změně příslušného zákona, nelze předpokládat růst uživatelů této služby. V současné době je zde evidováno přes 285 miliónů jednotlivých dokumentů. Webarchiv si většinu zdrojů vyhledává automaticky, je ale možná registrace konkrétní domény, splňuje-li požadované vlastnosti. Obsah musí být tématicky, jazykově, geograficky, nebo autorsky spojen s Českou republikou. Archivovaná stránka musí nést použitelné informace, nelze tedy zažádat o archivaci skript a programů. Tyto zdroje musí být využitelné i ostatními uživateli, jsou tedy zakázány internetové deníky, soubory dat, nebo rozcestníky bez vlastního obsahu. Obdobné služby fungují i v jiných státech EU, proto byla zvolena jednotná metodika u všech obdobných projektů vycházející z otevřených formátů použitých u služby Internet Archive. Jednotlivé programy umožňují lepší indexaci, tvorbu metadata následnou archivaci. Budoucnost služby je velmi nejistá, a pakliže nedojde k odstranění legislativních překážek, předpokládám, že se časem stane zcela neveřejnou z důvodu minimálního zájmu veřejnosti. Bohužel tyto okolnosti nemohou autoři ovlivnit a při současné rychlosti implementace legislativních změn je tato možnost značně nepravděpodobná.
10
Národního úložiště šedé literatury Národního úložiště šedé literatury (NUŠL) je projekt Národní technické knihovny v Praze pro dlouhodobou archivaci a zpřístupnění šedé literatury. V současnosti je tento projekt podporován Ministerstvem kultury v rámci projektu "Digitální knihovna pro šedou literaturu - funkční model a pilotní realizace". Na tomto projektu Národní technická knihovna spolupracuje s Vysokou školou ekonomickou v Praze. Samotný projekt byl zahájen v roce 2008. Prvním krokem již na přelomu roku 2007 a 2008 bylo podrobné zjištění stavu šedé literatury a jejích producentů v České republice. V rámci dotazníkového šetření byli osloveni jakožto hlavní zástupci producentů šedé literatury vysoké školy a ústavy AV ČR. 39 ze 48 dotazovaných institucí vyjádřilo ochotu k budoucí spolupráci v závislosti na sjednaných licenčních podmínkách. Projekt NUŠL zajišťuje právně ošetřené zveřejnění digitálních dokumentů šedé literatury a jejich dlouhodobou dostupnost. Projekt je zaměřen na získávání metadat a plných textů. Národní technická knihovna v Praze v rámci budování partnerské sítě projektu Národní úložiště šedé literatury (NUŠL) nabízí spolupráci institucím z oblasti, vědy, výzkumu, vzdělávání, kultury a komerční sféry, kde vznikají typy dokumentů odborné šedé literatury. Zástupce instituce může být osloven oficiálním dopisem ředitele Národní technické knihovny s návrhem o spolupráci s projektem NUŠL. Příslušná instituce obdrží informace o projektu NUŠL, licenční podmínky a varianty spolupráce nebo může zájemce (instituce či soukromá osoba) kdykoliv kontaktovat pracovníky týmu NUŠL. Zájemce sdělí, o jakou formu spolupráce by měl zájem, a budou mu e-mailem zaslány bližší informace o projektu NUŠL. Zapojení se do projektu NUŠL přinese partnerům zvýšení viditelnosti a prestiže instituce, úřadu či firmy před financujícími orgány, zákazníky, vědci, studenty, atd. a dostupnost a vyhledatelnost digitálních dokumentů šedé literatury. V PDF příloze je popsána typologie dokumentů ukládaných do NUŠL.
11
Wikipedia Wikipedie je jedním s nejrozšířenějších projektů nadace Wikimedia. Wikipedie slouží jako mnohojazyčná webová encyklopedie, kde může každý uživatel svobodně vkládat a editovat encyklopedické informace. Existuje již ve více než 250 jazykových verzí. Od roku 2002 existuje také česká verze této encyklopedie, která se do roku 2007 rozrostla na 76000 článků a stále se rozšiřuje. Wikipedie je určena výhradně pro vkládání a zveřejňování faktických informací, není určena pro publikaci vlastních myšlenek nebo analýz. Z pohledu Pražské skupiny školní etnografie tedy lze využít Wikipedii pro zadání základních faktů, není však vhodná pro publikaci samotných dokumentů. V tomto případě bude lepší využít další z projektu nadace Wikimedia a to jeho českou verzi „Wikizdroje“. Projekt Wikizdroje se zabývá uchováváním volně dostupných textů a dokumentů v původním jazyce i v dostupných překladech původních děl. Vkládat lze dokumenty a texty různého původu i různě tématického zaměření. Lze vkládat vlastní překlady, literární texty apd. Vložené texty mohou sloužit také k doplnění odpovídajících článků již vložených na Wikipedii. Tato možnost by mohla být velmi dobře využita právě skupinou školní etnografie, nejprve by bylo vhodné vložit fakta o Pražské skupině školní etnografie na Wikipedii, kde by kromě základních faktů bylo odkázáno i na dokumenty publikované na portálu Wikizdroje. Způsob vkládání textů či dokumentů na oba tyto portály je velmi dobře popsán online dostupnými manuály, které lze najít přímo na úvodních stránkách obou projektů. Důležité při používání Wikipedie i Wikizdroje je dodržet podmínky o druhu a obsahu zveřejňovaného textu. Na Wikipedii lze již najít nadřazená či příbuzná témata zabývající se obecně Etnografií, proto je pravděpodobně nejlepší cestou doplnit náležitá fakta o školní etnografii jako dílčí téma nadřazeného tématu „Etnografie“. Pro vložení dokumentu je nejprve nutné, zřídit si uživatelský profil. Vyžadováno je pouze jméno a příjmení uživatele, volitelně potom e-mailová adresa. E-mail je vhodné zadat z důvodů případných informací ze strany správců portálu, či potřeby některého z dalších uživatelů nás kontaktovat. Po přihlášení je již velmi jednoduché soubor nahrát, po pravé straně stačí kliknout do nabídky „Nástroje“ a zde vybrat „Načíst soubor“. Pro nahrání souboru se musí nejdříve vyplnit formulář s informacemi o díle, jeho původu a autorech. Toto je poslední krok nutný pro publikaci, po nahrání knihy si ji mohou ostatní uživatelé přečíst a případně také přidávat komentáře.
Tvorba účtu Na žádost zadavatele byla vytvořena stránka na wikipedii pod názvem Pražská skupina školní etnografie dostupná na adrese : http://cs.wikipedia.org/wiki/Pra%C5%BEsk%C3%A1_skupina_%C5%A1koln%C3%AD_etnografie
Pro přihlášení do systému wikipedie lze použít následující kontaktní údaje Uživatelské jméno: psse Heslo: psse1
12
Google books Google Books je servis, který poskytuje společnost Google. Vyhledává celý text knih, které naskenoval, převedl ho do digitální podoby a přidal do své databáze. Služba Vyhledávání knih Google funguje stejným způsobem, jako webové vyhledávání. Google books si vytváří referenční stránky pro každou knihu, takže o ní uživatelé mohou rychle najít všechny potřebné informace: recenze, webové reference, mapy a jiné. V případě, že si ji někdo bude chtít koupit nebo půjčit, dostane na Vás kontakt. - Cíl Cílem google books je podpora zájemců, kteří chtějí najít různé knihy, zejména takové, které už skoro nejsou dostupné v tištěné podobě. A zároveň pečlivě respektovat autorská a vydavatelská práva. A je to vše zdarma! Tím, že má Google Books v sobě obrovský počet knih, se stal velice známým rozhraním pro vyhledávání knih v digitálně podobě. Jeho uživatelé jsou studenti, učitelé, odborníci a další. - Postup Postup vkládání knihy do databáze se skládá z několika dílčích kroků. Pokud má kniha, kterou chceme vložit ISBN číslo, pokračujeme takto: - Přihlásíme se do účtu Knih Google na stránce https://books.google.com/partner/. - Klikneme na „Program náhledu“. - Klikneme na odkaz „Spravovat náhledy". - Klikneme na „Přidat knihy“ -To platí v případě, že jsme z tohoto účtu ještě žádné knihy neodeslali. Účet se ve výchozím nastavení otevře právě na této stránce. -Vyplníme informace o této knize, včetně autora, titulu knihy, čísla ISBN a teritoriálních práv. (Teritoriální práva představují seznam zemí, ve kterých jste držitelem práv k zobrazování knihy na webu Google.) -Zadáváme-li více autorů, oddělíme jejich jména středníkem. - Pokud není u knihy problém s teritoriálními právy, můžeme vybrat možnost „všechny“ Kliknutím na tlačítko „Uložit“ uložíme všechny kroky. Google vyžaduje, abychom první zásilku knih odeslali do třiceti dnů od chvíle, kdy jsme přijali standardní smluvní podmínky Partnerského programu služby Knihy Google.
13
Chceme-li odeslat kopii knihy ke skenování a zpracování, můžeme odeslat její výtisk nebo kopii ve formátu PDF. Soubory PDF zpracují mnohem rychleji než výtisky knih. Nahrávání PDF - Na účtu Klikneme na kartu Program náhledu. - Klikneme na odkaz na stránku Spravovat náhledy. - Klikneme na „Přidat knihy“. - Klikneme na „Nahrát/Zaslat knihy“. - Pokud má kniha číslo ISBN, musí ho obsahovat také název souboru PDF. Pokud číslo ISBN nemá, měl by se název souboru shodovat s titulem knihy. - Klikneme na „Procházet“ ve webovém formuláři a vyhledejte soubory PDF své knihy. - Klikneme na tlačítko „Nahrát soubory“. - Zobrazí se potvrzující zpráva se stavem nahrávání.1 Návod pro PDF formát Rozměry: Alespoň jeden rozměr musí být kratší než 11,7 palce (29,7 cm). Druhý rozměr není omezen (na výšku ani na šířku). Při orientaci na výšku musí být formát nejméně 1,9 palce (4,8 cm) široký a 2,75 palce (6,99 cm) vysoký a při orientaci na šířku nejméně 2,75 palce (6,99) cm široký a 1,9 palce (4,8 cm) vysoký. Počet stran není nijak omezen.
Vytvoření účtu v systému Google books Na základě informací poskytnutých zadavatelům v průběhu druhé informační schůzky 19.12. bylo rozhodnuto o použití systému Google Books pro prezentaci jednotlivých publikací. Vytvořili jsme tedy účet pro publikaci a správu těchto dokumentů. Účet na Google Books vyžadoval propojení s e-mailem od stejné společnosti, vytvořili jsme proto schránku s názvem:
[email protected] ,heslo: kucerova. Na tento účet byly dosud nahrány publikace za účelem vyzkoušet funkčnosti stránky. Jde o tituly: -The transmission of knowledge as a problem of culture and identity - Čeští žáci po deseti letech - Profi-volba z deváté třídy - Typy žíků
1
http://support.google.com/books/partner/bin/answer.py?hl=cs&hlrm=ru&answer=106169
14
Z těchto titulů jsou v tuto chvíli přístupné tituly označené tučně a po zpracování googlem se k nim připojí i zbylé knihy. V současné době neumožňuje služba Google books přidávat autorům ke svým dílům adresu na své domovské stránky.
Duplicitní profily publikací Na google books existovaly záznamy o publikacích vydaných PSŠE ještě před tím, než naše pracovní skupina začala pracovat na tomto projektu a vytvořila účet na Gbooks
"
[email protected]" . Přes tento nový účet přidáváme do google books informace o vydaných publikacích a posíláme pdf soubory s naskenovanými knihami. V případech, kdy se název námi přidané knihy kryje s názvem již existující knihy, je námi přidaná kniha označena jako druhé vydání knihy wxistující. Následkem toho, se při vyhledávání např. "profi-volby z deváté třídy" zobrazí pouze jeden výsledek, který ale odkazuje na starý profil knihy bez náhledu.
Po otevření starého profilu objevíme odkaz na druhé vydání a teprve pak se dostaneme na nový profil knihy s náhledem na nascanovaný text. Jde o poměrně nešikovný postup, který lze vyřešit pouze dvěma způsoby: 1. Získat kontakt na osobu, která poprvé prováděla nahrávání informací o Vašich knihách na Google a domluvit se s ní o stažení starých verzí profilů knih,nebo od ní rovnou získat přístupové údaje k účtu a do starých profilů knih nahrát pdf soubory s naskenovanými publikacemi a stáhnout profily nové. 2. Domluvit se přímo s Googlem, v emailu jim vysvětlit situaci a požádat o stažení starých profilů v případech, kdy se kryjí s profily novými, které už obsahují náhledy.
15
Druhy zobrazení v google books Google books nabízí čtyři základní druhy zobrazení. Úplné zobrazení Pokud se na digitalizovanou publikaci již nevztahují autorská práva, nebo na výslovné přání vydavatele, je možné prohlížet publikaci v úplném zobrazení. Toto zobrazení umožňuje návštěvníkům přečíst si on-line kompletní verzi publikace. Omezený náhled Omezený náhled nabízí zobrazení několika vybraných stran, ze kterých má čtenář možnost udělat si vlastní představu o zbytku publikace. Zobrazení fragmentů Obdobně jako u lístkového katalogu se zobrazí určitý fragment publikace. Jde o několik vět, které dají čtenářem hledaný výraz do kontextu. Náhled není k dispozici Návštěvník vidí pouze základní informace o knize
16
Google Scholar Co je služba Google Scholar? Služba Google Scholar je jednoduchý způsob vyhledávání odborné literatury. Rozhraní pomocí, kterého můžete vyhledávat informace z mnoha oborů a zdrojů: recenzované články, disertační práce, knihy, abstrakty a články, od akademických nakladatelství, odborných společností, archivů a dalších odborných organizací. Služba Google Scholar pomáhá identifikovat ty nejrelevantnější zdroje na poli výzkumu. Funkce služby Google Scholar • Vyhledávání různých zdrojů z jednoho místa • Vyhledání článků, abstraktů a citací • Nalezení celého článku v knihovně či na webu • Informace o klíčových článcích v jakémkoli vědním oboru Jak jsou články hodnoceny? Cílem služby Google Scholar je třídění pomocí metod citační analýzy. Relevance jednotlivých publikací spočívá v počtu odkazů na ně směřující. Čím je publikace častěji citována, tím dostává větší váhu a je tedy více zobrazována. Google Scholar pomáhá autorům zvýšit viditelnost obsahu. Spolupracuje s vydavateli odborné literatury, indexuje práce ze všech oblastí výzkumu a umožňuje jejich vyhledávání ve službě Google Scholar.2 Oproti službě google books zde není možné přidávat jednotlivé texty. Služba je stahuje ze systému google books a dále je zpracovává vlastním algoritmem. Do databáze lze zanést jednotlivé publikace, ale je nutné uvést jejich přesnou lokalizaci na internetu. Do doby, než bude známa finální verze zadavatelových stránek tedy nemělo smysl přidávat jednotlivé texty. „Jsem vydavatel vědeckých prací a chtěl bych, aby se můj obsah objevil na ve službě Google Scholar? Váš obsah je vřele vítaný. Jsou-li vaše práce již umístěny na internetu, je možné, že nebudeme potřebovat nic jiného než vaše svolení k tomu, aby mohly naše prohledávače navštívit vaše stránky. Jak bylo již zmíněno výše, pro nepředplatitele, kteří přijdou z Google či ze služby Google Scholar musí být k dispozici alespoň abstrakt.“3 „Jsem vydavatel vědeckých učebnic a monografií. Může být můj obsah zařazen do služby Google Scholar? V současné době indexuje služba Google Scholar pouze vědecké články. Pro učebnice a monografie doporučujeme službu Google Book Search. „4 Pokud roztřídíme učebnici na jednotlivé články, můžeme ji použít v Google Scholaru. Naskenovaná verze musí odpovídat podmínkám pro toto rozhraní, tj. má vyhledávatelný text.5
2
http://scholar.google.cz/intl/cs/scholar/about.html http://scholar.google.cz/intl/cs/scholar/publishers.html 4 http://scholar.google.cz/intl/cs/scholar/publishers.html#faq1 3
5
Možnost vyhledavání textu přes vyhledávač
17
Tvorba účtu Na webu Google scholar byl vytvořen účet, který jsme v pro tuto chvíli spojili se jménem docenta Kučery. K účtu se lze připojit pomocí stejných přihlašovacích údajů, jako je tomu u služby google books. V současné době je účet neveřejný a profilová stránka je přístupná pouze zadavateli. Po zveřejnění stránky je možné na jednom místě vidět autorovi vydané články, kontaktní údaje, fotografii a další podrobnosti. Pro zveřejnění účtu je třeba zadat oficiální email Vašeho pracoviště, ke kterému máte přístup (
[email protected]), a který zde plní kromě kontaktní funkce i funkci autentizační. Nyní je na profilu umístěno několik odkazů na práce doc. Kučery přístupné na internetu. Protože náš tým nemá úplné povědomí o všech vydaných pracích, přidali jsme na účet jen několik článku jako ukázku. Odkazy na další články je možné snadno přidávat přímo ze stránky profilu. Jedna z možností pro budoucí použití je přejmenovat název profilu na Pražskou skupinu školní etnografie a přidat odkazy na články všech jejích členů.
18
Jmenovitý podíl členů týmu na řešení projektu Martin Michl - 22,5 hodiny 4 hodiny - Dodatky ke Google books a Scholar 3 hodiny - Organizace práce v týmu 4 hodiny - Kompletační práce provedené na dokumentaci 4 hodiny - Dokumentace postupu scanování 6 hodin - Řešení technických potíží a technologických postupů 0,5 hodiny- Návštěva zadavatele 1 hodina - Tvorba Wiki stránek Matyáš Málek – 16,5 hodin 1 hodina - Vyzvednutí materiálu k digitalizaci u zadavatele 3 hodiny - Scan skript 2x 3 hodiny - Rozpoznání textu 3x 2 hodiny - Dokumentace- Webarchiv 3 hodiny - Návštěva zadavatele 3x 1 hodina -Příprava prezentace 2 hodiny -korektura dokumentace 0,5 hodiny -tvorba účtu na Google books 1 hodina -příprava prezentace Matyáš Neuwirth - 10 hodin 7 hodin - Scanování posledních skript kde došlo k poruše podavače, která zapříčinila velkou časovou náročnost. 3 hodiny - Dokumentace- Open psychology archive Natalya Gancharová - 12,5 hodiny 2 hodiny - Dodatky ke Google books 0,5 hodiny- Návštěva zadavatele 3 hodiny - Dokumentace- Google books 3 hodiny - Dokumentace- Google scholar 3 hodiny - Rozpoznání textu u scanů vázané knihy- vyšší časová náročnost 0,5 hodiny- Dělení celého pdf na jednotlivé soubory podle kapitol 0,5 hodiny- Scan sešitu- nižší časová náročnost Adam Pařízek - 10 hodin 7 hodin - Doscanování skript bez použití podavače. 3 hodiny - Dokumentace- wikipedie David Štern - 10,5 hodiny 0,5 hodiny- Návštěva zadavatele 3 hodiny - Dokumentace - NUŠL 1,5 hodiny- Scan skript 1 hodina - Rozpoznání textu 2 hodiny - Rozpoznání textu u skript scanovaných bez podavače- vyšší časová náročnost 2,5 hodiny- Dělení celého pdf na jednotlivé soubory podle kapitol 5x 0,5 hodiny- Rozpoznání textu u sešitu- nižší časová náročnost 19
Seznam publikací digitalizovaných touto pracovní skupinou a odpovídajících činností Profi-volba z deváté třídy - Scanování, OCR rozpoznání textu, tvorba pdf, dělení pdf na kapitoly Čeští žáci po deseti letech - Scanování, OCR rozpoznání textu, tvorba pdf, dělení pdf na kapitoly Takoví jsou jsme - Scanování, OCR rozpoznání textu, tvorba pdf, dělení pdf na kapitoly Pedagogická fakulta očima studentů - Scanování, OCR rozpoznání textu, tvorba pdf, dělení pdf na kapitoly Školní etnografie - přehled problematiky - Scanování, OCR rozpoznání textu, tvorba pdf "Co se v mládí naučíš ... " - OCR rozpoznání textu, tvorba pdf, dělení pdf na kapitoly Typy žáků - OCR rozpoznání textu, tvorba pdf, dělení pdf na kapitoly
20
Problémy Většina problémů, se kterými si naše skupina setkala, se objevila téměř výhradně při digitalizaci. Digitalizaci doprovázelo selhávání technického vybavení i pro naše oči "náhodné" selhání používaného softwaru na rozpoznání textu. Všechny potíže se však podařilo buď vyřešit, nebo potlačit jejich důsledky na zanedbatelnou úroveň. Druhy problémů a způsoby řešení jsou podrobněji popsány v části dokumentace věnující se digitalizaci.
Přínosy V projektu jsme si prohloubili schopnost orientace ve velkém množství informací. Měli jsme možnost zlepšit si komunikaci v týmu seznámit se s novým elementem ve formě zadavatele. Dozvěděli jsme se něco o digitalizaci dokumentů a jakým způsobem používat software určený pro rozpoznávání textu v naskenovaném obrázku. Celkově pro nás šlo o zajímavou zkušenost.
21