Nástroje Google. 3. Google Book Search Miroslav Bartošek, ÚVT MU
Google ˇ rešil tento spor pragmaticky. Rozdˇ elil knihy z pohledu autorských práv do tˇ rí skupin. V první skupinˇ e jsou knihy, u kterých již autorská ochrana vypršela1 . Zde není zásadní problém – tyto knihy jsou ve veˇ rejném vlastnictví (publicdomain), takže Google je m˚ uže bez problém˚ u skenovat, umožnit v nich vyhledávat a dokonce m˚ uže zpˇ rístupnit bez omezení i plné texty takových knih (uživatel si je m˚ uže ˇ císt na obrazovce poˇ cítaˇ ce nebo stáhnout v podobˇ e PDF-souboru). Druhou skupinu pˇ redstavovaly knihy chránˇ ené copyrightem, k jejichž zaˇ razení do GBS nemˇ el Google explicitní souhlas držitele práv (souˇ casnˇ e však Google zveˇ rejnil, že pokud vlastník nebude s digitalizací svého díla souhlasit, bude jeho nesouhlas respektovat a knihu skenovat nebude). Tyto knihy Google skenoval a umožnil v nich vyhledávat; nezobrazuje však již uživatel˚ um plný text, pouze nˇ ekolik krátkých úryvk˚ u obsahujících okolí hledaného výrazu. Tˇ retí skupinu pˇ redstavují knihy chránˇ ené copyrightem, u nichž držitelé práv poskytli souhlas se zaˇ razením do GBS. Google tyto knihy skenuje (nebo pˇ rebírá jejich elektronickou podobu) a držitel práv sám urˇ cí, jaká ˇ cást knihy bude uživateli v GBS zobrazována.
Služba Google Book Search pˇ redstavuje snahu rozšíˇ rit osvˇ edˇ cené googlovské technologie z oblasti webu do dalšího informaˇ cního prostoru – do oblasti tištˇ ených knih. Vzhledem k obrovskému množství existujících knih (nˇ ekteré odhady uvádí 100 milión˚ u titul˚ u vytvoˇ rených od poˇ cátku psaných dˇ ejin lidstva [4]) jde o prostor informaˇ cnˇ e bohatý, kvalitní a pro uživatele nepochybnˇ e užiteˇ cný. Souˇ casnˇ e jde ale také o prostor komerˇ cnˇ e velmi zajímavý. A právˇ e komerˇ cní stránka vˇ eci spolu s otázkou autorských práv vyvolala u této služby nejvˇ etší polemiku a právní spory. Koncem loˇ nského roku došlo k zásadní dohodˇ e mezi firmou Google a hlavními odp˚ urci, která otevírá možnost další rozvoj služby výraznˇ e akcelerovat.
1 Co to je Google Book Search (GBS) http://books. google.com vyhledává knihy, a to na základˇ e fulltextového prohledávání jejich obsahu (nikoliv jen prohledáváním bibliografických záznam˚ u, jak to dˇ elají bˇ ežné knihovní systémy). Jde o knihy jakéhokoliv typu – beletrii i knihy odborné. Protože texty vˇ etšiny knih nejsou v elektronické podobˇ e dostupné, je souˇ cástí GBS projekt masové digitalizace tištˇ ených knih; výhledovˇ e Google plánuje digitalizovat 30 až 60 milión˚ u titul˚ u! Skenování knih a zpˇ rístupnˇ ení jejich obsahu nese s sebou ale jeden zásadní problém, a tím jsou autorská práva – copyright.
Služba byla poprvé pˇ redstavena v roce 2004, tehdy ještˇ e pod ponˇ ekud zavádˇ ejícím názvem Google Print. Podobnˇ e jako stejnˇ e starý Google Scholar je i Google Book Search dodnes oznaˇ cován jako „beta verze“ – nicménˇ e služba se neustále zdokonaluje a pokroky jak v obsahu databáze (poˇ cty knih), tak i softwaru jsou velmi povzbudivé. Dle údaj˚ u [3] nabízela služba GBS koncem roku 2008 již pˇ res 7 milión˚ u knih, z toho pˇ res jeden milión tvoˇ rily knihy ve veˇ rejném vlastnictví, tedy s volnˇ e dostupnými plnými texty. A tyto poˇ cty se rychle zvyšují.
Na rozdíl od volnˇ e pˇ rístupného webu, kde problém autorských práv není z pohledu vyhledávacích služeb tak palˇ civý (i když nelze tvrdit, že neexistuje), je v pˇ rípadˇ e knih situace diametrálnˇ e odlišná. Knihu obvykle autor resp. držitel práv nevystavil na web k volnému použití. M˚ uže tedy nˇ ekdo, bez explicitního souhlasu autora, v˚ ubec takovou knihu skenovat (pˇ revádˇ et z tištˇ ené do elektronické formy), indexovat a umožnit v ní komukoliv na webu vyhledávat? To bylo a je hlavním jádrem sporu.
Odkud vlastnˇ e Google všechny tyto knihy bere? Využívá k tomu dva programy, které jsou souˇ cástí GBS – Projekt knihovna (Library Project) a Partnerský program (Partner Program). 1
Doba autorskoprávní ochrany díla (copyright) m˚ uže být v r˚ uzných zemích r˚ uznˇ e dlouhá. V zemích EU a USA je to od okamžiku vytvoˇ rení díla do 70 let po smrti autora; u „najatých dˇ el" (ve vlastnictví korporací) je v USA ochrana 95 let od publikace díla.
1
Projekt knihovna zahájil v roce 2004 spoluprací s pˇ eti významnými knihovnami s rozsáhlými knihovními fondy: knihovnami Michiganské univerzity, Harvardské univerzity, Stanfordské univerzity, Oxfordské univerzity a Newyorské veˇ rejné knihovny. Postupnˇ e se zapojovaly další. Knihovny poskytují knihy, které Google skenuje speciálnˇ e k tomu vyvinutými super-výkonnými technologiemi a dále je zpracovává (rozpoznání textu pomocí OCR, indexace textu, doplnˇ ení základních bibliografických metadat, vazeb na jiné informaˇ cní zdroje a dalších užiteˇ cných údaj˚ u – vše je zpracováváno automatizovanˇ e). Jde pˇ ritom skuteˇ cnˇ e o velmi masivní produkci. Napˇ ríklad jenom dle smlouvy s Michiganskou univerzitou má být bˇ ehem šesti let zpracováno 7 milión˚ u knih z fond˚ u univerzitní knihovny (i pˇ ri nepˇ retržitém provozu 24 hodin dennˇ e, 365 dn˚ u v roce by to znamenalo zpracovat více jak dvˇ e knihy každou minutu!).
ISBN. Souˇ casnˇ e je možno nastavit vyhledávací filtr, který omezí vyhledávání podle dostupnosti textu (napˇ r. jen knihy s volnˇ e dostupnými plnými texty – s úplným zobrazením) nebo podle druhu dokumentu (lze vyhledávat nejen v knihách ale i v populárních ˇ casopisech – magazínech, které Google zaˇ cal pˇ ridávat do GBS od prosince 2008; jako pˇ ríklad takového ˇ casopisu uved’me Popular Science Magazine2 ). Jako výsledek vyhledávání se zobrazí seznam relevantních knih. Kliknutím na zvolenou knihu pˇ rejde uživatel na referenˇ cní stránku knihy. Rozsah informací a služeb na referenˇ cní stránce závisí na tom, do které ze ˇ ctyˇ r kategorií – z hlediska možností zobrazení textu – kniha patˇ rí (od nejjednodušší k nejbohatší): Náhled není k dispozici (No preview available): nejrestriktivnˇ ejší kategorie, kdy jsou uživateli o dané knize poskytnuta jen základní bibliografická data (obdoba zjednodušeného záznamu v lístkovém katalogu); žádná ˇ cást textu knihy není pˇ rístupná. Pˇ ríklad: http://books. google.com/books?id=B0mbA Zobrazení fragment˚ u (Snippet view): kromˇ e základních bibliografických údaj˚ u je uživateli zobrazeno i nˇ ekolik (nejvýše tˇ ri) fragment˚ u (snippets) – vˇ et z knihy zobrazujících hledaný výraz v kontextu. Uživatel m˚ uže v textu knihy dále vyhledávat a zobrazovat si jiné fragmenty (v omezeném množství). Pˇ ríklad: http://books.google.com/books? hl=cs&id=G3NLAAAAMAAJ&q=Franci&pgis=1 Omezený náhled (Limited preview): v této kategorii je uživateli zobrazen omezený poˇ cet stran textu. Rozsah stanovuje držitel práv, obvykle bývá zobrazeno kolem 20 % stran pˇ ríslušné knihy. Uživatel tak m˚ uže danou knihou „listovat” obdobnˇ e, jako by si namátkovˇ e prohlížel fyzickou knihu v knihkupectví. Pˇ ríklad: Kniha The Calculus Galery z roku 2005 http://books.google. com/books?vid=ISBN691095655&hl=cs. Úplné zobrazení (Full view): informaˇ cnˇ e nejbohatší kategorie, kdy je uživateli k dispozici plný text celé knihy. Úplné zobrazení je možné v pˇ rípadˇ e, kdy je kniha ve veˇ rejném
Partnerský program je zamˇ eˇ ren na vydavatele a autory. Umožˇ nuje jim, aby sami poskytli své knihy k zaˇ razení do GBS (bud’ dodáním tištˇ ených knih ke skenování nebo nahráním elektronické verze knih do databáze GBS). Za to jim Google nabízí lepší on-line marketing (zvýšení viditelnosti knih a také webových stránek vydavatel˚ u), zvýšení prodeje (u autorsky chránˇ ených knih neposkytuje GBS uživatel˚ um plné texty, ale pˇ resmˇ erovává je na knihkupectví, kde si mohou danou knihu koupit), a podle nedávno uzavˇ rené dohody dokonce i finanˇ cní podíl z pˇ ríjm˚ u na kontextové reklamˇ e (nový zdroj zisk˚ u). V souˇ casnosti je do programu zaˇ razeno již pˇ res 20 000 partner˚ u.
2 Zaˇ cínáme s Google Book Search Domovská stránka služby Google Book Search http://books.google.com se nijak zvlášt’ neliší od toho, na co je uživatel zvyklý u webového vyhledávaˇ ce Google nebo u Google Scholar. Základní vyhledávání nabízí googlovsky jednoduchou obrazovku s jediným polem pro zadání hledané fráze (na úvodní stránce anglické verze se zobrazuji ještˇ e i obálky vybraných knih a seznamy knih podle obor˚ u). Rozšíˇ rené vyhledávání pak nabídne formulᡠr pro pˇ resnˇ ejší specifikaci – napˇ ríklad lze specifikovat jméno autora, název knihy, jazyk, vydavatele, datum vydání ˇ ci
2 http://books.google.com/books?id= Ok8XtrhowscC&hl=cs
2
pˇ rímo (URL odkazy ˇ ci RSS kanály), nebo v rámci dalších služeb Google, jako napˇ ríklad Google Blogger ˇ ci Google Notebook.
vlastnictví (nevztahují se již na ni autorská práva)3 nebo když vydavatel ˇ ci autor požádal, aby byla kniha plnˇ e viditelná. Úplné zobrazení umožˇ nuje prohlédnout si kteroukoli stránku pˇ ríslušné knihy, a pokud je kniha ve veˇ rejném vlastnictví, lze si ji rovnˇ ež stáhnout ve formátu PDF4 . Jako pˇ ríklad uved’me Komenského Orbis Pictus z roku 1833 http://books.google.com/books? id=9uoIAAAAQAAJ&hl=cs ˇ ci Euklidovy Elements http://books.google.com/books? id=9ViEZbTGaeEC&hl=cs.
3 Dohoda s vydavateli – a co z ní vyplývá Pˇ redstavitelé Google od poˇ cátku deklarovali, že kladou silný d˚ uraz na dodržování autorských práv. Pˇ resto však projekt GBS narážel záhy po svém uvedení na zásadní odpor velkých vydavatel˚ u. Nelíbilo se jim zejména to, že Google zaˇ cal skenovat knihy pod autorskoprávní ochranou bez explicitního souhlasu držitele práv. I když Google neposkytoval u tˇ echto knih plný text uživatel˚ um a využíval ho pouze pro indexaci obsahu a vyhledávání, a pˇ restože nabídl držitel˚ um práv možnost opt-out – tj. urˇ cit knihy, které budou ze skenování vylouˇ ceny, vydavatelé se cítili ohroženi a finanˇ cnˇ e poškozeni.
Jsou-li k dispozici, mohou být u každé z výše uvedených kategorií knih poskytnuty další užiteˇ cné informace: obálka, obsah, oblíbené pasáže, další vydání, recenze, odkazy z webových stránek, odkazy z vˇ edeckých prací, odkazy z knih, místa zmínˇ ená v knize s vyznaˇ cením pozic na mapˇ e Google-maps5 aj. Souˇ casnˇ e jsou na každé referenˇ cní stránce knihy umístˇ eny odkazy na knihkupectví, kde si uživatel m˚ uže knihu koupit, a na nejbližší knihovnu, kde se kniha dá vyp˚ ujˇ cit (tato funkce je realizována odkazem do celosvˇ etového katalogu WorldCat spoleˇ cnosti OCLC, který se po zadání zemˇ e ˇ pokusí nalézt místní knihovnu nebo kódu PSC vlastnící daný knižní titul).
Spory vyvrcholily žalobou za rozsáhlé narušení autorských práv (massive copyright infringement), kterou na Google podaly v roce 2005 organizace Cech amerických autor˚ u, Asociace amerických nakladatel˚ u a další. Pˇ redpokládalo se, že se soudní spor povleˇ ce dlouhou ˇ radu let. Proto bylo ponˇ ekud pˇ rekvapivé, když bylo 28. ˇ ríjna 2008 oznámeno, že mezi obˇ ema stranami sporu byla uzavˇ rena dohoda o vyrovnání (ta zatím nebyla soudnˇ e potvrzena, soud o ní bude jednat až ve druhé polovinˇ e roku 2009).
Registrovaný uživatel si také m˚ uže zˇ rídit v rámci GBS vlastní knihovniˇ cku, psát recenze, pˇ ridˇ elovat knihám štítky a u knih v úplném zobrazení dokonce anotovat ˇ cásti textu. Tyto své vlastní informace m˚ uže pak sdílet s jinými uživateli at’ již
Dohoda je velmi obsáhlá a složitá – i s dodatky má pˇ res 200 stran. Uznává práva a zájmy držitel˚ u autorských práv, nabízí jim kontrolu nad tím, jak budou jejich knihy v GBS využívány a poskytuje jim podíl z pˇ ríjm˚ u Google za kontextovou reklamu. Souˇ casnˇ e Google uhradí soudní výlohy a v rámci odškodnˇ ení za již naskenované chránˇ ené knihy investuje ˇ cástku 125 milión˚ u dolaru do nové nezávislé neziskové organizace Registr autorských práv, která bude zastupovat autory, vydavatele i další vlastníky autorských práv. Organizace bude pomáhat vyhledávat vlastníky autorských práv a zajistí, aby tito získali peníze, které si na základˇ e této dohody vydˇ elají.
3 Vzhledem k tomu, že v r˚ uzných zemích platí r˚ uzná pravidla pro autorskoprávní ochranu, nemusí být v˚ ubec snadné urˇ cit, zda je daná kniha ve veˇ rejném vlastnictví ˇ ci nikoliv. V pˇ rípadˇ e USA to v souˇ casnosti vˇ etšinou znamená, že kniha musela být vydána pˇ red rokem 1923. V pˇ rípadˇ e zemí mimo USA se Google ˇ rídí místními zákony, pˇ riˇ cemž pˇ ri interpretaci daného autorského zákona a známých fakt˚ u o konkrétní knize zachovává konzervativní pˇ rístup. Uživatelé mohou upozorˇ novat na knihy, které jsou ve veˇ rejném vlastnictví, a pˇ resto je Google nenabízí v úplném zobrazení. 4 Vedle ˇ ctení ve formátu PDF existuje i možnost „Prohlížet jako prostý text“. Tato možnost otevírá knihu adaptivním technologiím, jako jsou napˇ ríklad ˇ cteˇ cka obrazovky ˇ ci Braill˚ uv displej, a umožˇ nuje tak lepší pˇ rístup uživatel˚ um s vadou zraku. 5 V aplikaci Google Earth je služba, která funguje pˇ resnˇ e opaˇ cnˇ e – uživatel si vybere místo a Google mu ˇ rekne, které knihy s ním souvisí.
Díky dohodˇ e mají být nabídnuty nové možnosti pˇ rístupu k plným text˚ um autorským zákonem chránˇ ených knih: 3
4 Další podobné projekty
– Individuální pˇ rístup on-line: jednotliví uživatelé budou mít možnost zakoupit si on-line pˇ rístup k plným text˚ um milión˚ u chránˇ ených knih a pˇ ristupovat k nim pˇ res svou osobní knihovniˇ cku (jako registrovaní uživatelé);
Google Book Search není prvním ani jediným projektem v oblast masové digitalizace knih a jejich on-line zpˇ rístupnˇ ení. Nejstarším z nich je projekt Gutenberg http://www.gutenberg.org zahájený již v roce 1971, s cílem digitalizovat s pomocí dobrovolník˚ u pˇ redevším anglická klasická literární díla ve veˇ rejném vlastnictví. V souˇ casnosti obsahuje kolem 27 000 knih dostupných v ˇ cistˇ e textovém formátu (plain-ASCII).
– Pˇ rístup pro knihovny a univerzity: knihovny, univerzity a další instituce budou mít možnost zakoupení pˇ rístupové licence pro celou organizaci. Lepší dostupnost by se mˇ ela týkat zejména tzv. vyprodaných knih (out-of-print books), které doposud byly k sehnání pouze v knihovnách ˇ ci antikvariátech. Nyní budou široce dostupné on-line pˇ res GBS – a to bezplatnˇ e formou omezeného náhledu nebo v režimu úplného zobrazení za poplatek. Veˇ rejné knihovny v USA budou také moci nabídnout jeden terminál v budovˇ e pro veˇ rejný bezplatný pˇ rístup.
Hlavním konkurentem projektu Google Book Search je v souˇ casnosti Open Content Alliance http://www.opencontentalliance.org/, kooperativní projekt založený v roce 2005 spoleˇ cnostmi Internet Archive a Yahoo! (postupnˇ e se zapojila ˇ rada dalších) s cílem masové digitalizace a trvalé archivace knih. Knihy pod autorskoprávní ochranou se od zaˇ cátku skenují výhradnˇ e až po udˇ elení souhlasu majitele autorských práv. Výstupem této iniciativy je volnˇ e dostupná digitální knihovna Open Library http:// openlibrary.org/, která nabízí v souˇ casnosti témˇ eˇ r 23 milión˚ u záznam˚ u knih (z toho jeden milión i s plnými texty).
Novˇ e se také otevírá pˇ ríležitosti pro badatele, kteˇ rí budou moci využívat korpus milión˚ u knih v indexu GBS pro výzkumné úˇ cely. Protože uvedená dohoda ˇ reší soudní spor v USA, týká se pˇ rímo pouze uživatel˚ u, kteˇ rí pˇ ristupují ke službˇ e GBS v USA. Mimo území USA bude služba fungovat stejnˇ e jako doposud. Do budoucna se však zˇ rejmˇ e bude Google snažit dosáhnout obdobné dohody i se zahraniˇ cními vlastníky autorských práv.
Dalším konkurentem mˇ el být projekt Microsoftu s názvem Windows Live Book Search, ten však byl v kvˇ etnu 2008 zastaven. Projekt Carnegie Mellon University s názvem Universal Digital Library (UDL) http://www.ulib. org/ digitalizuje knihy od roku 2001 a dosáhl již více než 1,5 miliónu titul˚ u (milión z nich v ˇ cínštinˇ e). Na projektu spolupracuje 50 skenovacích center po celém svˇ etˇ e. V letech 2006-2007 byl v rámci aktivit UDL realizován projekt the Milion Book Digital Library, jehož cílem bylo ovˇ eˇ rit technologie pro masovou digitalizaci.
Je tˇ reba ˇ ríci, že ne všichni tuto dohodu pˇ rivítali. Nespokojeni jsou zejména ti, kteˇ rí oˇ cekávali, že soud potvrdí jejich pˇ resvˇ edˇ cení, že skenování knih za úˇ celem jejich indexace a vyhledávání spadá pod tzv. fair use – tj. taková užití díla, na která se nevztahuje autorskoprávní ochrana. Z tohoto pohledu dohoda oslabuje pozici uživatel˚ u a vývojᡠru ˚ informaˇ cních služeb v˚ uˇ ci držitel˚ um autorských práv. A navíc se mnozí obávají, že podobných „ˇ certových kopýtek“ m˚ uže dohoda skrývat více, vˇ cetnˇ e komercionalizace služby a nežádoucího posílení monopolního postavení Google. Mezi tˇ emi, kdo v souvislosti s dohodou vyslovili velké znepokojení, byla i Harvardská univerzita – jedna z pˇ eti prvních knihoven zapojených do knihovního projektu GBS (univerzita údajnˇ e dokonce z projektu odstoupila).
V knihovním svˇ etˇ e je nejznámˇ ejším a nejrozsáhlejším digitalizaˇ cním poˇ cinem projekt Kongresové knihovny USA s názvem American Memory http://memory.loc.gov, který od poloviny 90. let digitalizoval na deset milión˚ u informaˇ cních objekt˚ u z historických sbírek Kongresové knihovny a dalších amerických knihoven (knih, dopis˚ u, dokument˚ u, fotografií, map, zvukových nahrávek, filmových záznam˚ u atd.) 4
5 Závˇ er Google Book Search je nepochybnˇ e užiteˇ cná a slibnˇ e se rozvíjející služba. I když Google uvádí, že „cílem je pomáhat uživatel˚ um nacházet knihy a zjišt’ovat, kde se dají koupit nebo p˚ ujˇ cit, nikoli ˇ císt je celé on-line“, nabízí i velké množství plných text˚ u knih ve veˇ rejném vlastnictví. Služba má samozˇ rejmˇ e i své stinné stránky. Patˇ rí mezi nˇ e napˇ ríklad ne vždy dostateˇ cná kvalita sken˚ u a OCR text˚ u, pˇ revaha anglicky psané literatury (a z toho pramenící obavy jinojazyˇ cných národ˚ u z „kulturního imperialismu“), obavy z monopolizace trhu a nejistota ohlednˇ e dopad˚ u nedávné dohody mezi Googlem a vydavateli. Pro naše uživatele je zatím nevýhodou i malé pokrytí ˇ ceských knih. Pˇ resto však pˇ rínosy jednoznaˇ cnˇ e pˇ revažují. Hlavním pˇ rínosem je služba samotná, významné však jsou i dopady do oblasti digitalizace – nové výkonné technologie pro masovou digitalizaci a razantní pokles cen skenování.
Literatura [1] O službˇ e Vyhledávání knih Google. http://books.google.com/intl/cs/ googlebooks/about.html [2] Dian Schaffhauser. Google Book Search: The Good, the Bad, & the Ugly. Campus Technology. 1.1.2008. http://campustechnology. com/Articles/2008/01/ Google-Book-Search-The-Good-the-Bad-amp-the-Ugly. aspx [3] Wikipedia: Google Book Search. http: //en.wikipedia.org/wiki/Google_Book_ Search [4] Universal Digital Library (UDL). http://www. ulib.org/
5