Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky
Diplomová práce Tvorba datových zdrojů pro bibliometrická měření
Plzeň 2014
Bc. Tomáš Hanke
Prohlášení Prohlašuji, že jsem diplomovou práci vypracoval samostatně a výhradně s použitím citovaných pramenů. V Plzni dne 1. června 2014. Tomáš Hanke
Abstract Creation of data sources for bibliometric measurements This thesis deals with creating of data sources for bibliometric measuring. For this purpose it analyses especially SciVerse Scopus database and possibilities of its use for bibliometric data downloading. It describes the Scopus APIs and modifications of program for more efficient data downloading. As next there are introduced various measurements realized on the created data sources and some scales as the results of the measurements. The goal of this thesis is to create as large data source for bibliometric measuring as possible.
Abstrakt Tvorba datových zdrojů pro bibliometrická měření Tato diplomová práce se zabývá vytvářením datových zdrojů pro bibliometrická měření. Za tímto účelem zkoumá především službu SciVerse Scopus a možnosti jejího použití pro získávání bibliometrických dat. Popisuje její jednotlivá aplikační rozhraní (API) a úpravy odpovídajícího modulu existujícího meta-vyhledávače pro efektivnější stahování dat. Dále představuje různá měření provedená nad vytvořenými datovými zdroji a jako výsledky těchto měření předkládá několik žebříčků. Cílem práce je vytvořit co největší datový zdroj pro bibliometrická měření.
Poděkování Děkuji Ing. Daliboru Fialovi, Ph.D. za vedení mé diplomové práce, za jeho podnětné rady, připomínky, pomoc a čas, který mi věnoval.
Obsah 1
Úvod ................................................................................................................. 8
2
Vysvětlení pojmů .............................................................................................. 9
3
2.1
Bibliografie ......................................................................................................... 9
2.2
Bibliometrie ...................................................................................................... 10
2.3
Scientometrie ................................................................................................... 12
Bibliografické databáze ................................................................................... 13 3.1
Google Scholar ................................................................................................. 13
3.2
ACM Digital Library........................................................................................... 14
3.3
SciVerse Scopus ................................................................................................ 16
3.3.1
Document search ...................................................................................... 16
3.3.2
Author search............................................................................................ 17
3.3.3
Affiliation search ....................................................................................... 18
3.3.4
Advanced search ....................................................................................... 18
3.3.5
Omezení .................................................................................................... 18
3.3.6
Program .................................................................................................... 19
3.4 4
Zvolené řešení .................................................................................................. 19
Možnosti získávání dat .................................................................................... 20 4.1
Parsování HTML................................................................................................ 20
4.2
API .................................................................................................................... 20
4.2.1
Scopus Javascript API.................................................................................... 21
Document Search API .............................................................................................. 21 Cited-By Count API .................................................................................................. 23 4.2.2
Scopus RESTful API ....................................................................................... 26
Omezení ................................................................................................................... 29 4.3
Použité řešení ................................................................................................... 30
5
Příprava datových zdrojů ................................................................................. 31 5.1
Úpravy meta-vyhledávače................................................................................ 31
5.2
Data .................................................................................................................. 33
5.3
Zdrojový XML soubor ....................................................................................... 33
5.4
Databáze........................................................................................................... 36
5.4.1
6
5.5
Program pro import dat do databáze .............................................................. 41
5.6
JUNG ................................................................................................................. 44
Měření ............................................................................................................ 46 6.1
Problém s autory .............................................................................................. 47
6.1.1
Možná řešení ............................................................................................ 48
6.1.2
Zvolené řešení ........................................................................................... 49
6.2
Žebříčky ............................................................................................................ 49
6.2.1
Spolupráce ................................................................................................ 50
6.2.2
Počet publikací .......................................................................................... 51
6.2.3
Počet citací ................................................................................................ 53
6.2.4
In-deg ........................................................................................................ 55
6.2.5
PageRank................................................................................................... 57
6.2.6
HITS ........................................................................................................... 59
6.3 7
Import dat ................................................................................................. 40
Korelační koeficient .......................................................................................... 60
Závěr............................................................................................................... 62 7.1
Návrhy pro další práci ...................................................................................... 63
Literatura ............................................................................................................... 65 Seznamy ................................................................................................................ 67 Tabulky ........................................................................................................................ 67 Obrázky ....................................................................................................................... 68
Ukázky kódu ................................................................................................................ 68 Pseudoalgoritmy ......................................................................................................... 68 Přílohy ................................................................................................................... 69 A
Uživatelská dokumentace................................................................................ 70
B
Žebříček spolupráce autorů ............................................................................. 71
C
Žebříček spolupráce zemí ................................................................................ 72
D
Žebříček počtu publikací pro autory ................................................................. 73
E
Žebříček počtu publikací pro země................................................................... 74
F
Žebříček relativního počtu publikací pro země ................................................. 75
G
Žebříček počtu citací pro publikace .................................................................. 76
H
Žebříček počtu citací pro autory ...................................................................... 78
I
Žebříček relativního počtu citací pro autory ..................................................... 79
J
Žebříček počtu citací pro země ........................................................................ 80
K
Žebříček relativního počtu citací pro země ....................................................... 81
L
Žebříček in-degree pro publikace ..................................................................... 82
M Žebříček in-degree pro autory ......................................................................... 84 N
Žebříček relativního in-degree pro autory ........................................................ 85
O
Žebříček in-degree pro země ........................................................................... 86
P
Žebříček relativního in-degree pro země .......................................................... 87
Q
Žebříček PageRank pro publikace .................................................................... 88
R
Žebříček PageRank pro autory ......................................................................... 90
S
Žebříček PageRank pro země ........................................................................... 91
T
Žebříček HITS pro publikace............................................................................. 92
U
Žebříček HITS pro autory ................................................................................. 94
V
Žebříček HITS pro země ................................................................................... 95
Kapitola 1
Úvod
1 Úvod Věda, výzkum a poznatky z těchto disciplín plynoucí jsou v současnosti základním hnacím motorem veškerého lidského poznání. Věda se rozvíjí, objevují se nové otázky, které je třeba prozkoumat a ověřit. Tím pádem vychází velké množství vědecké literatury a odborných článků. Z informací o těchto dokumentech je možné vyčíst zajímavá fakta. Například počet publikovaných článků lze vnímat jako ukazatel výkonnosti (produktivity) jednotlivých vědeckých pracovníků nebo celých týmů. Počet citací určitého díla jinými autory zase ukazuje jeho kvalitu. Je jistě zřejmé, že čím více je určitý článek citován, tím bude kvalitnější, převratnější či jiným způsobem přínosný. Sledováním vývoje citací přes více generací lze také do jisté míry odhadnout směr, kterým se může věda dále ubírat. Takovýmto měřením a analýzou vědeckých dokumentů se zabývají vědní obory bibliometrie a scientometrie. Aby však bylo vůbec možné bibliometrická měření provádět, je nejprve potřeba mít k dispozici zdroj bibliometrických dat. Cílem této diplomové práce je vytvořit co nejrozsáhlejší lokální úložiště dat umožňující bibliometrická měření. Data budou uložena v databázi, takže bude možné k nim jednoduše přistupovat příslušnými SQL dotazy. Práce navazuje na předchozí bakalářské práce (*Aug12], [Han12], [Kru12] a [Bou13+), zabývající se problematikou získávání dat z bibliografických databází. Všechny aplikace jsou detailně popsány ve zmíněných pracích, proto zde bude zmíněn pouze jejich aktuální stav a případné opravy. V této práci byl použit meta-vyhledávač, popsaný ve zdroji *Bou13]. V rámci práce bude nad získanými daty provedeno několik měření a výpočtů a dojde ke zhodnocení výsledků, což ukáže, zda je zvolený přístup vhodný k provádění bibliometrických měření.
8
Kapitola 2
Vysvětlení pojmů
2 Vysvětlení pojmů Tato kapitola byla sepsána na základě studia zdrojů *Kri97+, *Kat98+, *Vaš80+, *Vaš93+, *Vin10+, [Moe05], [Tho14] a [His14].
2.1
Bibliografie
Bibliografie se zabývá akademickým studiem knihy, nicméně toto označení bylo používáno již na počátku našeho letopočtu a v průběhu staletí se jeho význam mírně měnil. Označovalo tak nejprve psaní, přepisování či opisování knih (knihopísařské práce), později jejich skladování dle jasně daných pravidel a pořizování seznamů literatury. Dnes se termínem bibliografie označuje bibliografická činnost a nauka, která se bibliografickou činností a jejími projevy zabývá. Cílem bibliografie je dát čtenáři co nejúplnější představu o knize. Nezahrnuje už jen knihy samotné, ale i časopisy, audionahrávky, filmy, obrazy a internetové stránky. Produktem bibliografie jsou například: seznam knih, ze kterých autor čerpal při psaní vlastního díla, tzn. zdroje (uvádí se obvykle na konci knihy), katalogy knihoven (papírové i elektronické), samostatné publikace, věnující se seznamu knih. Rozlišují se dva základní druhy bibliografie: Enumerativní bibliografie Enumerativní neboli systematická bibliografie má společný nějaký faktor – například jazyk, téma nebo období. Může se tedy jednat třeba o klasický přehled zdrojů na konci vlastního díla. Každý takový přehled by měl obsahovat jméno autora, název díla, místo vydání, jméno nakladatelství, rok vydání, ISBN, počet stran dokumentu, pořadí vydání a v případě citace i číslo stránky. 9
Kapitola 2
Vysvětlení pojmů
Analytická bibliografie Analytická neboli kritická bibliografie zkoumá vzhled knihy (vazbu, formát, velikost), historické souvislosti nebo se zaměřuje na textovou kritiku.
2.2
Bibliometrie
Bibliometrie se zabývá měřením a kvantitativní analýzou dokumentů. Dříve se používal termín statistická bibliografie. Zakladateli jsou F. J. Cole a N. B. Eales, kteří v roce 1917 vydali dílo „Statistická analýza literatury“. V tomto díle provedli statistickou analýzu literatury z oboru anatomie, která vycházela v letech 1850 až 1860. Touto prací chtěli ukázat, jak se v čase měnil zájem o anatomickou literaturu, a dále tuto literaturu rozdělili podle zemí, ve kterých byla publikována. Postupně se použití statistické analýzy začalo rozšiřovat. V roce 1923 provedl E. Wyndham Hulme statistickou analýzu historie vědy. Využil při tom záznamy z časopisů v 17 sekcích Mezinárodního katalogu vědecké literatury. Podobně zásadní studii vytvořili v roce 1927 P. L. K. Gross a E. M. Gross. Základem práce byly celkové počty a analýzy citací k článkům v chemických časopisech. Byla to první práce, která stála na citacích, a metoda citací se poté stala velmi rozšířenou. Na výše uvedené průkopníky postupně navazovali další autoři. Postupem času se již bibliometrie dala charakterizovat jako kvantifikace bibliografických informací pro různé typy analýzy. Bibliometrie využívá matematicko-statistické metody, jakými jsou např. statistický odhad, analýza statistických jevů, ověřování statistických hypotéz a další. Vytváří také bibliometrické zákony, které zkoumají zákonitosti růstu, rozptylu a stárnutí publikací. Nejdůležitějším objektem bibliometrických výzkumů jsou ale bez pochyby citace, na základě kterých následně vznikají citační analýzy.
10
Kapitola 2
Vysvětlení pojmů
Informační základnou bibliometrických údajů jsou: citační registry, rejstříky (např. mezinárodní rejstřík Who is Publishing in Science), různé seznamy a katalogy. Citační registr (index) je soupisem publikovaných materiálů citovaných ve sledovaných pramenech v určitém roce. Soupis je seřazen abecedně podle citovaných autorů a práce u jednotlivých autorů jsou uvedeny chronologicky podle roku vydání. Pomocí citačních registrů je možné zjistit citovanost publikovaných dokumentů a také jejich informační hodnotu. Mimo jiné v něm lze najít odpovědi na otázky typu: Byla tato práce někde citována, a pokud ano, kým? Byly využity poznatky z této teorie v praxi, a pokud ano, s jakým výsledkem? Rozvíjel tento návrh někdo další, a pokud ano, zdokonalil ho? Je myšlenka této teorie opravdu původní? Bylo toto téma použito v nějaké nové oblasti? V kolika pracích je tento autor prvním autorem, eventuálně spoluautorem? Jaké další práce tento autor ještě napsal? Za nejvýznamnější citační registr je považován Science Citation Index (SCI), který v současné době zahrnuje časopisecké články ze zhruba 6 900 časopisů, které se zabývají 150 vědními disciplínami. Byl vytvořen v Institut of Science Information (ISI) v roce 1964 a jeho zakladatelem je Eugen Garfield. Jednou z nejrozsáhlejších služeb svého druhu je Web of Science. Je určena především pro univerzity a vědecká pracoviště a poskytuje přístup do těchto sedmi databází: Science Citation Index (SCI), Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index (A&HCI), Index Chemicus, Current Chemical Reactions, Conference Proceedings Citation Index: Science a Conference Proceedings Citation Index: Social Science and Humanities. Zahrnuje nejvýznamnější odborné časopisy a konference z více než 200 vědních disciplín.
11
Kapitola 2
2.3
Vysvětlení pojmů
Scientometrie
Scientometrie se v mnoha oblastech s bibliometrií překrývá a někdy jsou oba pojmy zaměňovány. Zásadní rozdíl mezi nimi je ten, že bibliometrie zkoumá spíše parametry literatury, dokumentů a ostatních komunikačních médií, zatímco scientometrie si všímá hlavně vědecké produktivity a její prospěšnosti. Scientometrie je v podstatě nadstavbou bibliometrie, někdy je pro ni také používán termín věda o vědě. Proto je za zakladatele scientometrie považován již výše zmíněný Eugen Garfield, který zároveň používá metody bibliometrie. Mnohé studie o scientometrii se týkají i bibliometrie (jsou i bibliometrickými studiemi) a to z toho důvodu, že nejdůležitějším objektem v obou těchto disciplínách jsou publikace a v obou disciplínách dochází ke kvantitativnímu zkoumání těchto objektů. Zde je třeba zdůraznit fakt, že obě vědní disciplíny vypovídají především o kvantitě, ale nutně nemusí vypovídat o kvalitě. Věda je totiž složitá tvořivá záležitost a nedá se mechanicky posuzovat. Scientometrické indexy by proto měly být posuzovány jako užitečná pomůcka v rukou vědce, ale nemělo by být zapomínáno na možnost poměrně lehkého zneužití. Problematice scientometrie se věnuje mezinárodní časopis Scientometrics, který vychází od roku 1978. Časopis pravidelně publikuje studie, reporty, krátké zprávy, recenze a podobný materiál z oblasti scientometrie.
12
Kapitola 3
Bibliografické databáze
3 Bibliografické databáze 3.1
Google Scholar
Scholar je služba firmy Google určená k vyhledávání odborných článků a informací o nich. Na rozdíl od většiny podobných služeb se neomezuje pouze na čistě vědecké práce, ale obsahuje například i bakalářské či diplomové práce. Zaměřuje se však především na odborné knihy, recenzované články, abstrakty a podobné publikace od akademických nakladatelství, z vědeckých konferencí a dalších odborných organizací. Kromě základních informací lze u vybraných publikací nalézt i informace o knihovně, v níž jsou k dispozici k půjčení, nebo dokonce stáhnout plný text práce. Mezi silné stránky patří rovněž možnost sledování citací jednotlivých textů [Han12]. Použití této služby je zdarma pro každého a vyhledávání v ní je v podstatě stejné jako klasické vyhledávání na Googlu. Scholar poskytuje uživatelské rozhraní v českém jazyce. Po přihlášení se k účtu Google umožňuje spravovat vlastní knihovnu článků a citací. Vyhledávat lze podle klíčových slov, přičemž je možné určit, zda se ve vyhledaných článcích musí vyskytovat všechna klíčová slova, nejméně jedno či celá fráze. Některá slova je možné z výsledků i vyloučit. Standardně se prohledává celý text článku, ale je možné omezit vyhledávání pouze na titulek článku, což vede k přesnějším výsledkům hledání. Články lze hledat i podle jména autora nebo názvu časopisu, v němž byly publikovány. Dále je možné omezit hledání pouze na dokumenty vydané v určitých letech. Po vyplnění kritérií pro vyhledávání je uživatel přesměrován na stránku s výsledky hledání. Ukázka prvních tří výsledků na dotaz „internet“ je na obrázku 1. Zde jsou o každém článku uvedeny základní informace jako název, hlavní autoři, rok publikování, vydavatel a počet dokumentů, které daný článek citují. Po kliknutí na název článku dojde k přesměrování na jeho plný text. Potřebuje-li uživatel zobrazit citující dokumenty, stačí kliknout na text „Cited by“ u příslušného článku. 13
Kapitola 3
Bibliografické databáze
Získávání dat ze služby Google Scholar pomocí meta-vyhledávače bylo bezproblémové. Program pracoval správně a dával požadovaná data. Jediným problémem bylo zřejmé zpřísnění pravidel Googlu pro přístup k jeho serverům. Limity popsané v pracích *Han12] a [Bou13], tedy hodinová přestávka ve stahování po každých 150 přístupech, již nestačí. Servery Googlu odmítly další dotazy již po 100 přístupech.
Obrázek 1: Ukázka výsledků hledání ve službě Google Scholar
3.2
ACM Digital Library
ACM Digital Library (DL) je rozsáhlá databáze sdružující odborné články a publikace z oboru výpočetní techniky a informačních technologií. Obsahuje více než 390 000 úplných textů odborných článků, přes 5 800 video souborů, osm odborných časopisů a 37 technických časopisů, vydávaných přímo skupinou ACM *ACM14].
14
Kapitola 3
Bibliografické databáze
Tato služba nabízí pokročilé vyhledávání, které uživateli umožňuje vyhledávat podle mnoha kritérií. Kromě standardních klíčových slov lze vyhledávat i podle afiliací, konferencí, identifikačních kódů jako ISBN nebo ISSN. Hledání lze rovněž omezit pouze na publikace vydané v určitém časovém rozmezí nebo publikované v konkrétním časopisu (či pouze jeho typu). Stránka s výsledky hledání obsahuje přehled nalezených publikací se základními informacemi, mezi něž patří název článku s případným názvem časopisu či konference, seznam autorů, počet citací, datum vydání a, je-li k dispozici, krátký popis díla. Ukázka prvních dvou výsledků hledání na dotaz „The Art of Computer Programming“, nacházejícího se v titulku článku, je na obrázku 2.
Obrázek 2: Ukázka výsledků hledání ve službě ACM DL
Získávání dat z této služby nebylo možné, protože ihned po spuštění metavyhledávače došlo k chybové hlášce a příslušný parser byl ukončen, aniž by stáhnul jakákoli data.
15
Kapitola 3
3.3
Bibliografické databáze
SciVerse Scopus
Scopus firmy Elsevier je placená služba pro vyhledávání odborné literatury. Jde o nejrozsáhlejší databázi svého druhu. Obsahuje přibližně 50 milionů záznamů, 21 000 titulů a sdružuje 5 000 vydavatelů *Els13]. Scopus podporuje čtyři druhy vyhledávání podle toho, co chce uživatel hledat. Jsou to Document search, Author search, Affilliation search a Advanced search.
3.3.1 Document search
Document search umožňuje podrobné vyhledávání článků podle názvu, autora, afiliace, konference apod. Vyhledávat lze podle několika klíčových slov, přičemž jsou podporovány i logické operátory AND a OR. Samozřejmostí je možnost nastavit, kde se mají daná klíčová slova vyskytovat. Možnosti volby jsou široké, lze vyhledávat například v titulku dokumentu, klíčových slovech publikace, autorech, abstraktu či podle ISSN. Výsledky lze omezit rokem publikování, typem publikace (například článek, kniha, sborník atd.), ale i datem přidání do databáze Scopusu či oborem, kterému se daná publikace věnuje. Vyhledávací formulář je zobrazen na obrázku 3.
Obrázek 3: Scopus Document search
16
Kapitola 3
Bibliografické databáze
Po vyplnění kritérií pro vyhledávání je uživatel přesměrován na stránku s výsledky hledání. Ukázka prvních tří výsledků na dotaz „PageRank“ je na obrázku 4. Zde jsou o každé publikaci uvedeny základní informace jako název, hlavní autoři, rok publikování, název časopisu či konference a počet dokumentů, které danou publikaci citují. Po kliknutí na název článku se zobrazí jeho detailní popis, odkaz se jménem autora vede na autorův profil s podrobnějšími informacemi. Potřebuje-li uživatel zobrazit citující dokumenty, stačí kliknout na číslo s jejich počtem (na příslušném řádku úplně vpravo). Na této stránce je možné výsledky hledání dále filtrovat podle mnoha kritérií, například podle roku vydání, autora, oboru, typu dokumentu, klíčových slov, země nebo jazyku. K tomu slouží rozsáhlé menu v levé části stránky.
Obrázek 4: Ukázka výsledků hledání ve službě Scopus
3.3.2 Author search
Tento mód slouží k vyhledávání autorů podle jména, příjmení, iniciál nebo afiliace. Stejně jako u dokumentů lze vyhledávání omezit oborem, kterému se daný autor věnuje. Na stránce s výsledky hledání je u každého autora zobrazeno jeho jméno v několika variantách (odkaz vede na autorův podrobný profil), počet jeho publikací (ty lze 17
Kapitola 3
Bibliografické databáze
okamžitě zobrazit), obor, kterému se věnuje, afiliace, město a stát, kde publikuje. Výsledky hledání lze filtrovat podobně jako u dokumentů.
3.3.3 Affiliation search
Zde lze vyhledávat afiliace podle jejich názvu. Žádná další kritéria zadat nelze, vyhledávání je tedy velmi přímočaré. Na stránce s výsledky hledání je u každé afiliace uveden její název v několika variantách (odkaz vede na její podrobný profil), počet publikací, které byly pod touto afiliací publikovány (lze je okamžitě zobrazit) a město a stát, do kterého afiliace patří. Výsledky hledání lze filtrovat podobně jako u autorů.
3.3.4 Advanced search
Pokročilé vyhledávání umožňuje uživateli sestavit vlastní vyhledávácí řetězec s použitím mnoha logických operátorů a interních kódů Scopusu. Stránka s výsledky hledání je totožná se stránkou s výsledky Document search a nabízí i stejné možnosti filtrování.
3.3.5 Omezení
Nevýhodou této databáze je její omezování počtu zobrazených položek při vyhledávání na 2 000. Pokusí-li se uživatel zobrazit více položek, je zobrazena hláška informující ho o celkovém počtu nalezených položek a faktu, že může zobrazit jen 2 000 prvních.
18
Kapitola 3
Bibliografické databáze
3.3.6 Program
Parser pro službu Scopus byl funkční jen částečně. Stahoval základní informace jako název publikace, jména autorů, rok vydání, nakladatelství, číslo svazku, rozsah stran a doplňující informaci. Ovšem téměř nikdy nestahoval afiliace (výjimkou byla pouze situace, kdy byl u článku uveden jen jeden autor s jedinou afiliací) a vůbec nikdy nestahoval citující záznamy ani jejich počet.
3.4
Zvolené řešení
Po analýze problému a dostupných prostředků bylo rozhodnuto, že se tato práce bude zabývat pouze bibliografickou databází SciVerse Scopus, protože je ze všech zmíněných nejkomplexnější a pro naše potřeby nejvhodnější. Obsahuje nejvíce ověřených záznamů a poskytuje pro práci s daty aplikační rozhraní.
19
Kapitola 4
Možnosti získávání dat
4 Možnosti získávání dat 4.1
Parsování HTML
Jedním z možných způsobů získávání dat je parsování HTML kódu. Na tomto principu pracují všechny aplikace z předešlých bakalářských prací (viz *Aug12], [Han12], [Kru12] a [Bou13+). Tento přístup má výhodu v tom, že ho lze použít téměř na jakoukoli službu. Na druhou stranu má několik velmi nepříjemných omezení. V našem případě aplikace k serveru přistupuje jako webový prohlížeč, stáhne zdrojový kód požadované stránky a ten poté zpracovává (parsuje). Tímto způsobem z kódu „vytáhne“ potřebná data a vše ostatní zahodí. Tím však vzrůstá objem zbytečně přenesených dat. Větším problémem je ale fakt, že takovýto parser je závislý na HTML kódu stránky. Jakmile dojde k jeho úpravě, ve většině případů přestává příslušný parser fungovat a je potřeba ho upravit tak, aby správně rozeznával nový HTML kód. Toto omezení odstraňuje použití API (Application Programming Interface), které ale nemusí být vždy dostupné. Ze tří výše zmíněných bibliografických databází poskytuje aplikační rozhraní pouze služba Scopus.
4.2
API
Scopus pro přístup k datům poskytuje dvě aplikační rozhraní, Javascript API a RESTful API. Obě dvě jsou určena k použití výhradně ve webových aplikacích pro získání základních informací o vybraných titulech, případně ke zjištění počtu citujících prací. Obě jsou také dostupná pouze po registraci uživatele na stránkách firmy Elsevier [Dev13+. Po registraci je nutné svoji webovou stránku, z níž bude k API přistupováno, vložit do systému, čímž dojde k vygenerování jedinečného klíče. Ten musí být součástí každého dotazu, jinak na něj API nevrátí žádný výsledek.
20
Kapitola 4
Možnosti získávání dat
4.2.1 Scopus Javascript API
Toto API je možné začít používat ihned po vygenerování klíče. Jde o v celku jednoduché javascriptové API, rozdělené do několika částí podle poskytované funkčnosti. Jde o Document Search, Author Search, Affiliation Search a CitedBy Count Search [API13+. Tato práce se bude zabývat pouze částí Document Search a CitedBy Count Search. Ostatní části staví na stejných principech, jsou však určeny k vyhledávání jiného obsahu. Nevýhodou všech je to, že modifikují přímo kód stránky, ze které byl do API odeslán dotaz. Stránka tak musí vždy obsahovat prvek DIV s konkrétním ID (pro Document Search je to „sciverse“, pro Cited-By Count „citedBy“). Tento DIV je poté měněn tím, že do něj API vloží výsledky dotazu. Z toho vyplývá, že API nelze použít v jiné než webové aplikaci.
Document Search API
Document Search API umožňuje vývojáři vyhledávat dokumenty podle zadaného klíčového slova, např. „pagerank“. Vrací seznam vyhovujících prací a základní informace o nich, jako například název práce, název časopisu nebo konference, kde byl článek publikován, typ dokumentu, ISSN, číslo části, rozsah stran, rok publikování, jméno autora, EID, Scopus ID, DOI a odkaz na detail článku přímo na stránkách Scopusu [Sco13]. Pro použití tohoto API je zapotřebí vytvořit dvě věci, webové rozhraní a skript. Webová stránka slouží pouze k zadání informací, podle nichž se má vyhledávat, a poté k zobrazení výsledků hledání. Skript obsahuje javascriptovou funkci, která informace ze stránky převezme, „zabalí“ do dotazu, přidá API klíč a vše odešle na server.
21
Kapitola 4
Možnosti získávání dat
Příklad záhlaví (musí obsahovat odkaz na externí styly a API) a těla stránky pro Document Search API:
<script type="text/javascript" src="http://api.elsevier.com/javascript/scopussearch.jsp">
Search Form: Returned sciverse Content: None.
Ukázka kódu 1: Scopus Document Search API - HTML
Tělo stránky obsahuje pouze pole pro zadání hledaného textu (prvek
), tlačítko pro odeslání dotazu (prvek
- spustí javascriptovou funkci runSearch ukázanou níže) a HTML prvek , do něhož budou vloženy výsledky hledání vrácené serverem. Následuje ukázka skriptu, který nejdříve zablokuje tlačítko pro odeslání formuláře a poté vytvoří objekt, obsahující nastavení vyhledávání. V tomto konkrétním případě převezme zadaný text pro vyhledávání, nastaví počet vrácených záznamů na deset a určí, že výsledky budou seřazeny sestupně podle počtu citací. Na závěr přidá API klíč a nastaví callback funkci, která je zavolána po obdržení odpovědi ze serveru.
22
Kapitola 4
Možnosti získávání dat
Příklad skriptu pro Document Search API: runSearch = function() { document.sciverseForm.searchButton.disabled = true; var varSearchObj = new searchObj(); varSearchObj.setSearch(document.sciverseForm.searchString.value); varSearchObj.setNumResults(10); varSearchObj.setSort("CitedByCount"); varSearchObj.setSortDirection("Descending"); sciverse.setApiKey("API klíč"); sciverse.setCallback(callback); sciverse.search(varSearchObj); }; callback = function() { document.sciverseForm.searchButton.disabled = false; }; Ukázka kódu 2: Scopus Document Search API - skript
Cited-By Count API
Cited-By Count API vrací počet dokumentů citujících námi hledaný článek. Vyhledávat lze na základě názvu článku, EID, DOI, SCP, PII, ISSN, ISBN, čísla části apod. Výsledek je vrácen ve formě obrázku, který je opět vložen do příslušného DIVu. I zde je potřeba vytvořit HTML stránku a příslušný skript, obdobně jako u Document Search API. Obě tyto části jsou téměř totožné s verzemi z předchozího API, akorát obsahují více prvků pro vstup textu, protože zde lze vyhledávat podle více kritérií.
23
Kapitola 4
Možnosti získávání dat
Příklad záhlaví (musí obsahovat odkaz na externí styly a API) a těla stránky pro Cited-By Count API:
<script type="text/javascript" src="http://api.elsevier.com/javascript/citedby_image.jsp">
Search Form: Returned Image None.
Ukázka kódu 3: Scopus Cited-By Count API - HTML
24
Kapitola 4
Možnosti získávání dat
Příklad skriptu pro Cited-By Count API: runSearch = function() { document.sciverseForm.searchButton.disabled = true; var varSearchObj = new searchObj(); varSearchObj.setEid(document.sciverseForm.eid.value); varSearchObj.setDoi(document.sciverseForm.doi.value); varSearchObj.setScp(document.sciverseForm.scp.value); varSearchObj.setPii(document.sciverseForm.pii.value); varSearchObj.setIssn(document.sciverseForm.issn.value); varSearchObj.setIsbn(document.sciverseForm.isbn.value); varSearchObj.setVol(document.sciverseForm.vol.value); varSearchObj.setIssue(document.sciverseForm.issue.value); varSearchObj.setTitle(document.sciverseForm.title.value); varSearchObj.setFirstPg(document.sciverseForm.firstpg.value); varSearchObj.setArtNo(document.sciverseForm.artno.value); sciverse.setApiKey("API klíč"); sciverse.setCallback(callback); sciverse.search(varSearchObj);
}; callback = function() { document.sciverseForm.searchButton.disabled = false; }; Ukázka kódu 4: Scopus Cited-By Count API - skript
Některé dostupné metody pro Javascript API (kompletní seznam je k dispozici ve zdroji [Sco13]): Metoda
Popis
setSearch(„hledaný text“)
Nastavuje hledaný text.
setNumResults(počet)
Nastavuje počet výsledků vyhledávání. Maximálně 2000 výsledků.
setOffset(počet)
Nastavuje, kolik výsledků bude přeskočeno. Např. jeli hodnota nastavena na 20, budou zobrazeny výsledky od 21. dále.
setSort(sort)
Nastavuje pole, podle něhož budou výsledky 25
Kapitola 4
Možnosti získávání dat seřazeny. Povolené hodnoty jsou: Date (datum publikace), Relevancy (relevance), Authors (autoři), SourceTitle
(název
časopisu/konference),
CitedByCount (počet citujících), LoadDate (datum přidání do Scopusu). setSortDirection(sortDirection) Nastavuje směr řazení. Povolené hodnoty jsou: Ascending (vzestupně) a Descending (sestupně). setApiKey(„API klíč“)
Nastavuje API klíč, použitelný pro vyhledávání. Klíč musí být zadán vždy a musí být validní.
setCallback(Javascript funkce)
Nastavuje metodu, jež bude zavolána po dokončení vyhledávání.
search(objekt)
Spustí vyhledávání a zobrazí výsledky. Poté zavolá callback metodu.
areSearchResultsValid()
Bylo-li vyhledávání úspěšně dokončeno, vrací true, jinak vrací false.
getNumResults()
Vrací aktuálně nastavený počet výsledků. Použitelné pouze pokud areSearchResultsValid() vrací true.
getTotalHits()
Vrací celkový počet vyhovujících záznamů. Použitelné pouze pokud areSearchResultsValid() vrací true.
getSearchResults()
Vrací objekt s výsledky hledání. Použitelné pouze pokud areSearchResultsValid() vrací true.
getField(pozice, pole)
Vrací obsah pole na zadané pozici. Použitelné pouze pokud areSearchResultsValid() vrací true. Tabulka 1: Metody Scopus Javascript API
4.2.2 Scopus RESTful API
Použití RESTful API je o něco komplikovanější než Javascript API. Po vygenerování klíče je nutné ho ještě aktivovat, do té doby je klíč nefunkční. To spočívá v zařazení projektu do jedné ze čtyř kategorií a jeho písemné představení společnosti Elsevier 26
Kapitola 4
Možnosti získávání dat
[Pol13+. Její zástupci následně rozhodnou o tom, zda projekt splňuje veškerá pravidla a klíč může být aktivován. Kategorie projektů podle používání dat ze Scopusu: -
zobrazování publikací ze Scopusu na webu,
-
zobrazování počtu citací na webu,
-
repositáře institucí, výzkumné systémy,
-
federativní vyhledávání (vyhledávání ve více databázích za účelem srovnání výsledků).
REST (Representational State Transfer) je architektura pro webové rozhraní. Používá se k jednotnému přístupu ke zdrojům a jejich modifikaci. Každý zdroj musí mít vlastní URI1 identifikátor, aby k němu bylo možné přistupovat. Zdroj mohou přestavovat data nebo nějaký stav aplikace, který lze těmito daty popsat. REST poskytuje pro manipulaci se zdroji čtyři základní metody: Create pro vytvoření zdroje, Retrieve pro jeho získání, Update pro změnu a Delete pro smazání zdroje. Všechny tyto metody jsou implementovány pomocí metod protokolu HTTP2. K získání zdroje slouží HTTP metoda GET, pro jeho vytvoření metoda POST, pro aktualizaci zdroje metoda PUT a pro smazání zdroje metoda DELETE. Data mohou být klientovi doručena ve formátech XML, ATOM, JSON nebo RSS. Samotné prohledávání Scopusu pomocí tohoto API je vcelku snadné a intuitivní. Vše spočívá pouze ve vytvoření správné URL3 adresy, určující přístup ke zdroji, a nastavení příslušných filtrů. Pro vyhledávání dokumentů, autorů a afiliací je adresa vždy ve tvaru: http://api.elsevier.com/content/search/index:,KDE_HLEDAT-?query=,PODMÍNKYŘetězec „KDE_HLEDAT“ se mění v závislosti na typu hledaného obsahu. Určuje totiž, jaký typ vyhledávání bude použit (Document search apod., viz kapitola 3.3). 1
Uniform Resource Identifier Hypertext Transfer Protocol 3 Uniform Resource Locator 2
27
Kapitola 4
Možnosti získávání dat
V případě hledání dokumentů bude nahrazen řetězcem „SCOPUS“, pro hledání autorů slouží řetězec „AUTHOR“ a při hledání afiliací bude použito slovo „AFFILIATION“. „PODMÍNKY“ představují klíčová slova a další informace, sloužící k omezení výsledků hledání. Lze použít libovolné pole dostupné na Scopusu ve vyhledávacím módu Advanced search (viz kapitola 3.3), včetně logických operátorů. Příklady adres pro různé druhy vyhledávání: Hledání publikací autora s příjmením Novák: http://api.elsevier.com/content/search/index:SCOPUS?query=AUTHLASTNAME(novak) Hledání publikací z oblasti chemie od autora s příjmením Novák: http://api.elsevier.com/content/search/index:SCOPUS?query=AUTHLASTNAME(novak) %20AND%20SUBJAREA(CHEM) Hledání autorů s příjmením Novák a afiliací s identifikátorem „60032114“: http://api.elsevier.com/content/search/index:AUTHOR?query=af-id(60032114) %20AND%20authlast(novak) Hledání afiliací z Plzně (vyhledává se v názvu afiliace a jejím popisu): http://api.elsevier.com/content/search/index:AFFILIATION?query=affil(plzen) Díky REST API je možné na Scopusu nejen vyhledávat, ale dokonce si lze vyžádat plné znění článku, abstrakt, profil autora či afiliace nebo informace o časopisu. Následuje několik příkladů užitečných adres: Plné znění článku s identifikátorem DOI „10.1016/0092-8674(93)90500-P“: http://api.elsevier.com/content/article/DOI:10.1016/0092-8674(93)90500-P?view=FU LL Abstrakt článku s identifikátorem „0027359827“: http://api.elsevier.com/content/abstract/SCOPUS_ID:0027359827
28
Kapitola 4
Možnosti získávání dat
Profil autora s identifikátorem „44372231200“: http://api.elsevier.com/content/author/AUTHOR_ID:44372231200?view=STANDARD Profil afiliace s identifikátorem „60016849“: http://api.elsevier.com/content/affiliation/AFFILIATION_ID:60016849?view=COMPLE TE Informace o časopisu s ISSN „07400551“: http://api.elsevier.com/content/serial/title?ISSN=07400551 Scopus RESTful API je velice robustní, kombinující technologie XML, ATOM a JSON [Con13+. Umožňuje vyhledávat téměř libovolný obsah a velkou část z něj dokonce přenášet k uživateli. Vše je navíc realizováno protokolem HTTP, takže pro práci s ním není zapotřebí žádného speciálního programového vybavení. Bohužel ho nelze vyzkoušet bez aktivovaného API klíče (viz začátek této kapitoly).
Omezení
Aby nedocházelo ke zneužívání přístupu k citlivým datům Scopusu, implementuje toto API (kromě již zmíněné nutnosti aktivovat API klíč) několik omezení v podobě limitovaného počtu hledaných položek či omezeného přístupu k různým částem API. Tato omezení jsou popsána v tabulce 2. Mít aktivovaný API klíč je nutné vždy, proto tento fakt už není v tabulce uveden.
API ScienceDirect Search
Omezení Počet výsledků hledání je omezen na maximálně 200 záznamů.
Scopus (documents) search
Bez Scopus licence maximálně 25 záznamů se základními metadaty ke každému záznamu. S licencí
29
Kapitola 4
Možnosti získávání dat maximálně 200 záznamů se všemi dostupnými údaji.
Author search
Uživatel se Scopus licencí maximálně 200 záznamů. Bez licence nelze použít.
Affiliation search
Uživatel se Scopus licencí maximálně 200 záznamů. Bez licence nelze použít.
Full-text
retrieval Uživatel
(ScienceDirect)
s oprávněním
k tomuto
dokumentu
na ScienceDirect dostane plný text dokumentu. Ostatní dostanou pouze metadata a abstrakt.
Abstract retrieval (Scopus)
Uživatel se Scopus licencí dostane celý záznam včetně referencí a rozšířených metadat. Ostatní dostanou pouze základní metadata.
Author retrieval
Uživatel se Scopus licencí dostane celý záznam o autorovi. Bez licence nelze použít.
Affiliation retrieval
Uživatel se Scopus licencí dostane celý záznam o afiliaci. Bez licence nelze použít. Tabulka 2: Omezení Scopus RESTful API
4.3
Použité řešení
V průběhu práce na projektu bylo bohužel zjištěno, že ani jedno aplikační rozhraní není pro tento projekt použitelné. Žádné z nich totiž neumožňuje získat seznam citujících dokumentů, vždy vrátí pouze jejich počet a odkaz na příslušnou webovou stránku Scopusu. Z tohoto důvodu byla s helpdeskem firmy Elsevier vedena emailové korespondence s žádostí o udělení výjimky a povolení stahování přes API běžně nedostupných dat. Avšak komunikace se zástupci firmy je v tomto ohledu dosti zdlouhavá. Poslední email, upřesňující informace o tomto projektu byl na helpdesk Scopusu odeslán 10. prosince 2013. Tři dny poté přišla odpověď, že žádost byla předána jinému oddělení a čeká se na její posouzení. Ještě 5. ledna 2014 nebyla věc vyřízena, tudíž byla možnost použití tohoto API definitivně vyloučena. 30
Kapitola 5
Příprava datových zdrojů
5 Příprava datových zdrojů 5.1
Úpravy meta-vyhledávače
V této podkapitole jsou rozebírány úpravy meta-vyhledávače, tedy programu pro stahování dat z bibliografických databází Google Scholar, ACM Digital Library a SciVerse Scopus. Tato aplikace byla vytvořena v rámci bakalářské práce Radka Boudy, kde je také blíže popsána *Bou13+. Jak bylo zmíněno v kapitole 3.4, tato práce se zabývá pouze databází Scopus a z tohoto důvodu byly prováděny úpravy pouze v těch částech meta-vyhledávače, které se touto službou zabývají. Aplikace je napsána v programovacím jazyku Java ve verzi 1.6.0_24. K vývoji bylo použito vývojové prostředí eclipse Helios verze 3.6.2. Program byl vyvíjen pod operačním systémem Microsoft Windows 7 Professional 64bit a testován i na operačním systému Microsoft Windows XP Professional 32bit.
Jak bylo napsáno v kapitole 3.3, na začátku program nestahoval afiliace a citující položky. V případě citujících položek to bylo způsobeno změnou HTML kódu na stránkách
Scopusu.
Příslušná
úprava
v kódu
aplikace
je
ve
třídě
DocumentParser.java, v metodě getNodeList. Ukázka je v následujícím rámečku. Na prvním řádku je původní kód, na druhém nový.
filter = new CssSelectorNodeFilter("a[onclick~=\"javascript:submitRecord\"]"); filter = new CssSelectorNodeFilter( "a[href~=\"http://www.scopus.com/record/display.url?eid\"]");
Ukázka kódu 5: Úprava meta-vyhledávače
31
Kapitola 5 S tímto
Příprava datových zdrojů problémem
souvisela
ještě
změna v metodě
addCitations
třídy
Document.java, která se stará o správné rozparsování stažených citací a vložení do příslušných kolekcí. Pro zprovoznění stahování afiliací bylo zapotřebí udělat úpravy kódu na více místech. Program je sice z webu stahoval, ale špatně s nimi pracoval a nevypisoval je do výsledného XML souboru. Kvůli tomu byly prováděny úpravy v metodách parseAuthors třídy Document.java a writeAuthors třídy XmlFileStax.java. Dále byla upravena metoda parseSource třídy Document.java tak, aby v případě, že od serveru nedostane požadovanou stránku, pokračoval dál. V předchozí verzi přestal program při takovémto problému pracovat. V metodě setCitationUrl třídy Document.java je do URL adresy přidáván parametr pro řazení výsledků vyhledávání podle počtu citujících dokumentů. Metoda getNextPage třídy DocumentParser.java byla upravena tak, aby v případě, kdy není možné vypočítat další stránku s výsledky hledání, program nepřestal pracovat. Dočasně nedostupné výsledky prostě ignoruje a pokračuje v činnosti. V metodě printHeader třídy DocumentParser.java byla do úvodního textu přidána kontrolní informace o hledaném textu, počtu generací a počtu záznamů v první generaci. Metoda getResponse třídy DocumentParser.java uspí aplikaci na pět minut v případě, že server vrátí chybový HTTP kód 5xx (chyba na straně serveru) nebo 4xx (chyba na straně klienta). Poté se činnost programu obnoví. V předchozí verzi aplikace v tomto případě skončila chybou. Aplikace měla původně pro komunikaci s uživatelem grafické rozhraní. To muselo být odstraněno, protože byla provozována vzdáleně na linuxovém serveru. Kód grafického rozhraní nebyl úplně odstraněn, ale pouze zakomentován pro případ, že by byl v budoucnu opět potřebný.
32
Kapitola 5
5.2
Příprava datových zdrojů
Data
Bylo rozhodnuto, že úložiště dat bude sestaveno z nejobsáhlejší množiny výsledků hledání na tři různá klíčová slova. Celkově se podařilo nashromáždit 55 578 záznamů s následujícím rozložením: 14 453 na téma internet, 29 599 na téma pagerank, 11 526 na téma telecommunication.
Data jsou uložena v XML souboru, jehož struktura je popsána v kapitole 5.3. V této fázi nebyla data nijak čištěna či zjišťovány duplicity. Vzhledem k tomu, že byl datový základ složen ze tří různých dotazů, je možné, že budou některé položky duplicitní. Také se může stát, že budou tvořit tři nezávislé množiny. Duplicita dat a jejich další čištění proběhne až po exportu dat do databáze, protože se tam s nimi bude lépe manipulovat.
5.3
Zdrojový XML soubor
V rámci oborového projektu bylo rozhodnuto, že XML soubor se zdrojovými daty bude sestaven z nejobsáhlejší množiny výsledků hledání na tři různá klíčová slova. Podařilo se nashromáždit 55 578 záznamů. Z toho 14 453 na téma internet, 29 599 na téma pagerank a 11 526 na téma telecommunication. Data jsou uložena v XML souboru, jehož struktura byla převzata z práce *Bou13]. Ukázka jednoho záznamu ve vygenerovaném XML souboru se čtyřmi autory a dvěma tisíci citujícími položkami (zobrazeno je pouze prvních pět citujících položek, další jsou pouze naznačeny tečkami):
33
Kapitola 5
Příprava datových zdrojů
MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0 Tamura, K. <middlename> Center for Evolutionary Functional Genomics, Biodesign Institute, Arizona State University Department of Biological Sciences, Tokyo Metropolitan University, Tokyo, Japan Dudley, J. <middlename> Center for Evolutionary Functional Genomics, Biodesign Institute, Arizona State University Nei, M. <middlename> Department of Biology, Institute of Molecular Evolutionary Genetics, Pennsylvania State University Ukázka kódu 6: Ukázka XML souboru - začátek
34
Kapitola 5
Příprava datových zdrojů
Kumar, S. <middlename> Center for Evolutionary Functional Genomics, Biodesign Institute, Arizona State University School of Life Sciences, Arizona State University 2-s2.0-74549125386 2-s2.0-84863230041 2-s2.0-52949099119 2-s2.0-77957357555 2-s2.0-58149090404 ..... <sourceType>unknown <journal/> 2007 Oxford University Press 24 8 <pages>1596-1599 <month/> <misc>Molecular Biology and Evolution Ukázka kódu 7: Ukázka XML souboru - pokračování
35
Kapitola 5
5.4
Příprava datových zdrojů
Databáze
Za účelem lepší práce s daty byla vytvořena relační databáze, do níž byla data z původního XML souboru exportována. Struktura databáze byla navržena tak, aby co nejlépe vystihovala zdrojová data a bylo možné do ní uložit i citační vazby. Databáze sestává z následujících jedenácti tabulek: Tabulka publication Tabulka publication je nejobsáhlejší tabulkou v databázi. Obsahuje veškeré informace o publikaci, mezi nejdůležitější z nich patří identifikátor (sloupec id), číslo generace (generation), pořadové číslo (pubnumber), název publikace (title), název časopisu (journal) nebo konference (conferencename), rok vydání (year), nakladatelství (publisher), číslo svazku (volume), rozsah stran (pages), ISBN (isbn) a další. Velká část těchto informací však u většiny položek chybí, protože je při přípravě dat nebylo možné získat. Tabulka však tyto sloupce obsahuje a to z důvodu zachování struktury původního XML souboru. Tabulka author Tabulka author uchovává informace o autorech. Kromě jednoznačného identifikátoru (sloupec id) obsahuje sloupce pro křestní jméno (firstname), prostřední jméno (middlename), příjmení (lastname) a celé jméno (fullname). V aktuálních datech je používáno pouze celé jméno, ostatní položky jsou prázdné. Tabulka affiliation Tabulka affiliation obsahuje data o afiliacích (institucích). Obsahuje pouze položku pro název afiliace (sloupec name). Ten může zahrnovat název instituce (u univerzit ho může tvořit název katedry a/nebo fakulty a/nebo univerzity), její adresu (ulice a/nebo město) a stát, v němž se nachází. Z původního XML souboru se sem ukládá celý obsah atributu
.
36
Kapitola 5
Příprava datových zdrojů
Tabulka country Tabulku country tvoří opět pouze jedna položka, kterou je název země (sloupec name). Obsahuje názvy všech zemí získaných z databáze Scopusu. Zdrojová data u publikací neobsahují explicitně vyjádřenou příslušnost ke konkrétní zemi, ale afiliace autorů státní příslušnost obsahují. Při konverzi dat z XML souboru do databáze bylo proto postupováno následujícím způsobem. V každém afiliačním záznamu každého autora dané publikace byl hledán název nějakého státu z tabulky country. Pokud byl příslušný stát v afiliaci uveden, byl přiřazen k příslušné publikaci (vazba v tabulce publicationcountry). Nebyla-li nalezena žádná shoda mezi afiliací a kterýmkoli státem v tabulce, nebyla publikaci přiřazena žádná země. Seznam zemí pro tuto tabulku byl získán z filtru zemí ve vyhledávání na Scopusu. Byly odeslány tři dotazy na stejná klíčová slova, která byla použita pro vytvoření datového podkladu (viz kapitola 5.2), a z filtru zemí na stránce s výsledky hledání (viz obrázek 5) byl vytvořen seznam, který byl následně importován do tabulky country.
Obrázek 5: Filtr zemí na stránce s výsledky hledání (www.scopus.com)
Tabulka publicationauthor Jde o rozkladovou tabulku mezi tabulkami publication a author. Obsahuje pouze identifikátory položek z obou zmíněných tabulek.
37
Kapitola 5
Příprava datových zdrojů
Tabulka publicationaffiliation Jde o rozkladovou tabulku mezi tabulkami publication a affiliation. Obsahuje pouze identifikátory položek z obou zmíněných tabulek. Tabulka publicationcountry Jde o rozkladovou tabulku mezi tabulkami publication a country. Obsahuje pouze identifikátory položek z obou zmíněných tabulek. Tabulka citationpublication Každý záznam v této tabulce znázorňuje citační vazbu mezi dvěma publikacemi. Obsahuje identifikátor citované (cited) a citující (citing) položky. Tabulka citationauthor Každý záznam v této tabulce znázorňuje citační vazbu mezi dvěma autory. Obsahuje identifikátor citované (cited) a citující (citing) položky. Tabulka citationaffiliation Každý záznam v této tabulce znázorňuje citační vazbu mezi dvěma afiliacemi. Obsahuje identifikátor citované (cited) a citující (citing) položky. Tabulka citationcountry Každý záznam v této tabulce znázorňuje citační vazbu mezi dvěma zeměmi. Obsahuje identifikátor citované (cited) a citující (citing) položky.
Poznámka: Je důležité upozornit, že tabulka publication obsahuje pouze ty záznamy, které byly ve zdrojovém XML souboru reprezentovány tagem . U těchto záznamů je k dispozici různé množství informací, pro jejichž uchování byla struktura XML souboru navržena (název, rok vydání, nakladatelství apod.). Oproti tomu tabulka citationpublication obsahuje pouze identifikátory publikací, a to všech publikací takových, mezi nimiž existuje citační vazba. Nezáleží na tom, zda mají tyto publikace záznam i v tabulce publication. Aby mohla být prováděná měření (viz 38
Kapitola 5
Příprava datových zdrojů
kapitola 6) uskutečněna na co nejobsáhlejší množině dat, bude výsledný graf pro tato měření sestaven právě na základě dat z tabulky citationpublication (neplatí pro žebříček počtu citací). To znamená, že do měření budou zahrnuty i ty publikace, k nimž v databázi neexistují ani základní informace, jako je například název. Tyto publikace budou ve výsledcích měření vystupovat pouze pod svým identifikátorem, na rozdíl od ostatních, které budou mít uveden kromě identifikátoru i název. Model databáze je znázorněn na obrázku 6.
Obrázek 6: Model databáze
Vazby mezi tabulkami nejsou v databázi přímo zaneseny, důvod je popsán v poznámce výše v této kapitole (mnohdy neexistující reference mezi tabulkami publication a citationpublication). Každá tabulka však samozřejmě obsahuje primární klíč a podle potřeby několik indexů pro rychlejší vyhledávání. Export struktury databáze je k dispozici na přiloženém CD. 39
Kapitola 5
Příprava datových zdrojů
5.4.1 Import dat
Import dat z XML souboru do databáze probíhá ve dvou fázích. V první fázi jsou naplněny tabulky publication, author, affiliation, country a příslušné rozkladové tabulky (publicationauthor, publicationaffiliation, publicationcountry). V druhé fázi se plní všechny ostatní tabulky. V první fázi importu jsou totiž používána pouze data z XML souboru, kdežto ve druhé fázi se kombinují informace ze souboru s informacemi z již naplněných tabulek v databázi a plní se ostatní, dosud prázdné tabulky (citationpublication, citationauthor, citationaffiliation a citationcountry). Průběh první fáze importu:
1) START 2) Přečti jeden záznam z XML souboru.
3) Vyparsuj informace ukládané do tabulky publication, tzn. název článku, generaci, identifikátor, rok vydání, stránkování apod. Ulož vše do tabulky publication. 4) Přečti jeden záznam . 5) Ulož jméno autora do tabulky author a vlož příslušné vazby do tabulky publicationauthor. 6) Přečti jeden záznam . 7) Ulož název afiliace do tabulky affiliation a vlož příslušné vazby do tabulky publicationaffiliation. 8) Vyparsuj zemi z afiliace. Je-li informace o zemi nalezena, vlož příslušnou vazbu do tabulky publicationcountry. 9) Existuje-li další afiliace, jdi na bod 6. 10) Existuje-li další autor, jdi na bod 4. 11) Existuje-li další publikace, jdi na bod 2. 12) KONEC Pseudoalgoritmus 1: První fáze importu dat do databáze
40
Kapitola 5
Příprava datových zdrojů
Průběh druhé fáze importu:
1) START 2) Přečti jeden záznam z XML souboru. 3) Získej z databáze identifikátory všech autorů, zemí a afiliací přidružených k citovanému záznamu (z bodu 2). 4) Získej identifikátor jedné citující publikace z elementu citedBy z XML souboru. 5) Jde-li o samocitaci, jdi na bod 4, jinak vlož citační vazbu do tabulky citationpublication. 6) Získej identifikátory všech zemí přidružených k citující publikaci (z bodu 4) a vlož citační vazby do tabulky citationcountry tak, aby existovala vazba mezi každou citující a každou citovanou (z bodu 3) zemí. 7) Získej identifikátory všech afiliací přidružených k citující publikaci (z bodu 4) a vlož citační vazby do tabulky citationaffiliation tak, aby existovala vazba mezi
každou citující a každou citovanou (z bodu 3) afiliací. 8) Získej identifikátory všech autorů přidružených k citující publikaci (z bodu 4) a vlož citační vazby do tabulky citationauthor tak, aby existovala vazba mezi každým citujícím a každým citovaným (z bodu 3) autorem. 9) Existuje-li další citující publikace, jdi na bod 4. 10) Existuje-li další publikace, jdi na bod 2. 11) KONEC Pseudoalgoritmus 2: Druhá fáze importu dat do databáze
5.5
Program pro import dat do databáze
Aplikace je napsána v programovacím jazyku Java ve verzi 1.6.0_24. K vývoji bylo použito vývojové prostředí eclipse Juno. Program byl vyvíjen pod operačním systémem Microsoft Windows 7 Professional 64bit a testován v tomtéž prostředí. Komentované zdrojové kódy jsou k dispozici na přiloženém CD, zde tedy bude jen stručně vysvětlena architektura aplikace a popsány její základní vlastnosti. 41
Kapitola 5
Příprava datových zdrojů
Struktura balíků a tříd projektu: -
app – Main.java, Import.java
-
data – ImportStAX.java
-
db
–
Database.java,
DbAffiliation.java,
DbAuthor.java,
DbCountry.java,
DbPublication.java -
types o dbtypes
–
DbTypeAffiliation.java,
DbTypeAuthor.java,
DbTypePublication.java o xmltypes – XmlTypeAuthor.java, XmlTypePublication.java
Třída Main.java Hlavní třída programu. Spouští import a řídí jeho průběh. Třída Import.java Třída pro import dat do databáze. Obsahuje tři metody: prepareImport(), round1() a round2(). Metoda prepareImport provádí přípravné práce před vlastním importem. Připraví spojení s databází a z tabulky country vytáhne seznam dostupných zemí. Metody round1 a round2 provádí vlastní import dat. Každá metoda je určena pro jednu fázi importu (jednotlivé fáze jsou popsány v kapitole 5.4.1). Třída ImportStAX.java Třída datové vrstvy pro čtení dat z XML souboru technologií StAX. Obsahuje metodu getNextPublication(), která ze souboru vždy přečte jeden záznam typu .
Vrací
objekt
typu
XmlTypePublication
(obsahující
objekt
XmlTypeAuthor). Třída Database.java Třída pro uchování údajů pro spojení s databází. Udržuje informace o databázi a poskytuje ostatním třídám přístup k ní.
42
Kapitola 5
Příprava datových zdrojů
Třída DbAffiliation.java Poskytuje metody pro manipulaci s daty v databázové tabulce affiliation a v tabulkách na ní navázaných (např. citationaffiliation). Třída DbAuthor.java Poskytuje metody pro manipulaci s daty v databázové tabulce author a v tabulkách na ní navázaných (např. citationauthor). Třída DbCountry.java Poskytuje metody pro manipulaci s daty v databázové tabulce country a v tabulkách na ní navázaných (např. citationcountry). Třída DbPublication.java Poskytuje metody pro manipulaci s daty v databázové tabulce publication a v tabulkách na ní navázaných (např. citationpublication). Třída XmlTypeAuthor.java Třída reprezentující záznam typu v XML souboru. Používá se pro přenos údajů o autorech načtených z XML mezi jednotlivými objekty programu. Třída XmlTypePublication.java Třída reprezentující záznam typu v XML souboru. Používá se pro přenos informací spojených s publikací a načtených z XML mezi jednotlivými objekty programu. Třídy balíku dbtypes Balík dbtypes obsahuje tři třídy ekvivalentní k třídám v balíku xmltypes, ale určené k uchování příslušné informace získané z databáze, nikoli z XML souboru. Třídy tohoto balíku byly vytvořeny, ale nakonec nebyly v programu použity. Přesto zde byly ponechány pro případ, že by byly v budoucnu potřeba.
43
Kapitola 5
5.6
Příprava datových zdrojů
JUNG
JUNG (Java Universal Network/Graph Framework) je knihovna pro Javu, poskytující prostředky pro modelování, analýzu a vizualizaci dat, která mohou být vyjádřena grafem nebo sítí. Knihovna je napsána v jazyce Java, což umožňuje aplikacím založeným na JUNG využívat jak rozsáhlé možnosti Javy, tak i již existující knihovny třetích stran. JUNG podporuje různé entity a relace mezi nimi, takže dovoluje modelovat například orientované a neorientované grafy, multigrafy, grafy s paralelními hranami, hypergrafy a obecné grafy. Další metrikou pro výběr vhodné implementace může být hustota grafu. Vrcholy i hrany mohou být standardních datových typů nebo pro ně lze definovat vlastní typy. Balík algorithms obsahuje rovněž velké množství implementovaných grafových algoritmů, vhodných pro analýzy sociálních sítí, optimalizaci, statistickou analýzu, výpočet vzdáleností v grafu, toky v síti a různé důležité grafové míry. Lze zde najít algoritmy jako například Betweenness Centrality, PageRank, HITS, Shortest Path, Dijkstra a další. Tato knihovna byla v práci použita pro vytvoření grafové reprezentace a následné provedení výpočtů, popsaných v kapitole 6. Následuje ukázka kódu s využitím knihovny JUNG pro vytvoření jednoduchého orientovaného grafu se třemi vrcholy (datového typu String) a čtyřmi hranami (datového typu Integer) mezi nimi.
44
Kapitola 5
Příprava datových zdrojů
// Vytvoření orientovaného grafu DirectedGraph<String, Integer> g = new DirectedSparseMultigraph<String, Integer>(); // Přidání vrcholů do grafu g.addVertex("Vrchol1"); g.addVertex("Vrchol2"); g.addVertex("Vrchol3"); // Vložení hran mezi vrcholy g.addEdge(1, "Vrchol1", "Vrchol2"); g.addEdge(2, "Vrchol1", "Vrchol3"); g.addEdge(3, "Vrchol2", "Vrchol3"); g.addEdge(4, "Vrchol3", "Vrchol1");
Ukázka kódu 8: Vytvoření grafu pomocí knihovny JUNG
Následující kód ukazuje, jak na grafu z předchozí ukázky spustit algoritmus PageRank, jehož implementace je také součástí knihovny JUNG.
// Vytvoření objektu typu PageRank nad původním grafem g PageRank<String, Integer> pageRank = new PageRank<String, Integer>(g, 0.15); // Spuštění výpočtu na grafu pageRank.evaluate(); // Zjištění ohodnocení vrcholu pro Vrchol2 double score = pageRank.getVertexScore("Vrchol2");
Ukázka kódu 9: Spuštění algoritmu PageRank nad grafem
45
Kapitola 6
Měření
6 Měření Poznámka: V následujícím textu budou termíny „afiliace“ a „instituce“ brány jako synonyma. Oba budou v našem pojetí představovat katedru, univerzitu či jinou organizaci, pod kterou autor příslušný článek vydal. Také je třeba připomenout, že veškeré domněnky a závěry v tomto textu jsou vyvozeny z omezených datových podkladů a proto jsou platné jen a pouze pro tuto konkrétní množinu dat. Po vyčištění dat od všech duplicit, samocitací mezi publikacemi apod. zbylo v databázi: 47 936 publikací (záznamy v tabulce publication), 97 559 autorů (záznamy v tabulce author), 272 afiliací/institucí (záznamy v tabulce affiliation), 238 zemí (záznamy v tabulce country). V citačních tabulkách byly počty záznamů rozloženy následovně: 645 527 citací mezi publikacemi (tabulka citationpublication), 6 783 304 citací mezi autory (tabulka citationauthor), 173 322 citací mezi afiliacemi/institucemi (tabulka citationaffiliation), 842 976 citací mezi zeměmi (tabulka citationcountry). Jak bylo uvedeno v poznámce v kapitole 5.4, graf pro měření nad publikacemi byl sestaven na základě dat z tabulky citationpublication. Z tohoto důvodu neobsahoval pouze 47 936 vrcholů (publikací), ale plných 291 337. Graf pro měření nad autory obsahoval 97 559 vrcholů a graf pro země 172 vrcholů (což znamená, že ve vstupních datech pochopitelně nebyly obsaženy všechny země světa). Z výše uvedených čísel stojí za povšimnutí zejména dvě zvláštnosti. První z nich je velice malý počet záznamů v tabulce affiliation, což je důsledek malého rozsahu dat skrz různé organizace. Tento fakt vede na domněnku, že při vytváření datové základny sice došlo ke stažení informací o mnoha publikacích, ale jejich autoři pravděpodobně působili ve stejných institucích. 46
Kapitola 6
Měření
Problém nastíněný v předchozím odstavci dává tušit, že spolupráce mezi autory v rámci jedné instituce by mohla být vysoká, ale spolupráce mezi autory napříč různými organizacemi nebude pravděpodobně příliš obvyklá. Nicméně vzorek těchto dat je tak malý, že by nemělo smysl provádět na něm bibliometrická měření, protože by tato neměla prakticky žádnou vypovídací hodnotu. Z tohoto důvodu bylo rozhodnuto, že pro instituce nebudou žádná další měření provedena. Druhou zvláštností je velký počet citačních vazeb mezi autory vzhledem k citačním vazbám mezi ostatními subjekty (desetinásobek oproti počtu citačních vazeb mezi publikacemi). Při studiu datových podkladů a programu pro import dat do databáze se došlo k závěru, že je toto číslo správné, protože v XML souboru nejsou výjimkou publikace, které mají desítky autorů, někdy dokonce hodně přes sto. Absolutním extrémem je publikace „Guidelines for the use and interpretation of assays for monitoring autophagy“, která má 1 269 autorů. Vzhledem k tomu, že u citace dvou publikací, které mají X a Y autorů, vzniká mezi autory X * Y citačních vazeb, lze uvedený celkový počet citací mezi autory považovat za reálný.
6.1
Problém s autory
V průběhu měření se vyskytl problém v datech o autorech. Program pro stahování dat z bibliografické databáze Scopus totiž o autorovi stahuje pouze jméno a afiliaci. Nestahuje tedy žádný identifikátor ani nezavádí žádný vlastní. Jméno je navíc složeno pouze z příjmení a prvního písmene křestního jména. Pod jedním jménem autora se tak může skrývat vícero skutečných osob. Tedy například záznam „Wang, J.“ může zahrnovat autory se jmény „Wang, Jing“, „Wang, Jianping“, „Wang, Jianbo“, „Wang, Jia“, „Wang, Jianmin“, „Wang, Juntao“, „Wang, Jin“ a dalšími podobnými.
47
Kapitola 6
Měření
6.1.1 Možná řešení
Jak bylo řečeno výše, program pro autory nezavádí žádné jednoznačné identifikátory, ty jsou autorům přiřazovány až v průběhu importu z XML souboru do databáze. Při tomto procesu by tedy bylo možné pokusit se autory se stejným jménem rozlišit.
Rozlišení autorů podle afiliace Jedním z možných způsobů odlišení autorů se stejným jménem v XML souboru je analýza jejich afiliace. Tato varianta dělí osoby podle organizace, k níž jsou přiřazeni. Při použití této filtrace by byli rozlišeni například autoři „Wang, J.“ s afiliací „Tsinghua University, Graduate School at Shenzhen, Beijing, China“ a autor stejného jména s afiliací „Hebei Agricultural University, College of Food Science and Technology, Baoding, China“. Pokud by ale měli oba stejnou afiliaci, byli by bráni jako jedna osoba. Další osobu by tvořili autoři se stejným jménem, ale bez afiliace. Překážkou tomuto postupu je nejednoznačnost informace, která se pod afiliací skrývá, a její formát (viz kapitola 5.4 – „Tabulka affiliation“). Není totiž jasně definováno, jaké informace má tento parametr obsahovat a v jakém pořadí. Navíc mají někteří autoři více afiliací, které nemusí být u různých publikací stejné.
Rozlišení autorů podle země Dalším možným řešením je rozlišovat osoby pouze na základě země. Tato informace se v XML souboru sice vyskytuje taktéž v atributu affiliation, ale na rozdíl od jiných údajů je zde uvedena téměř vždy (a navíc pokaždé na konci záznamu, což usnadňuje identifikaci). Ve výsledku je však tato metoda jen zjednodušením metody předchozí. Autoři se stejným jménem a ze stejné země, byť s působností v rozdílné organizaci, by opět byli považováni za tutéž osobu. 48
Kapitola 6
Měření
Poznámka: Metody určování autorství jsou na tento problém nepoužitelné, jelikož jsou k jejich aplikaci potřeba články, u nichž se má rozhodnout o autorovi. Tento problém je však odlišný od problému popisovaného v této kapitole, jelikož ten se žádnými články nezabývá.
6.1.2 Zvolené řešení
Vzhledem k rozsáhlosti této problematiky bylo rozhodnuto, že autoři se stejným jménem budou považováni za jednu osobu. To pravděpodobně zásadně ovlivní výsledné žebříčky v oblasti autorů, především ty, které se týkají produktivity. Prostředky vynaložené na řešení této situace by však byly vyšší než výsledný efekt. Autoři by s velkou pravděpodobností stejně nebyli rozlišeni správně, protože by toto rozlišování probíhalo pouze na základě domněnek, nikoli něčím podložených faktů.
6.2
Žebříčky
Celkem bylo sestaveno 21 žebříčků z různých měření. Jejich přehled zachycuje tabulka 3. Mezi žebříčky HITS a PageRank byl počítán také korelační koeficient (viz kapitola 6.3).
počet publikací
publikace
autoři
instituce
země
relativní počet publikací
49
Kapitola 6
Měření počet
PageRank
HITS
spolupráce
citací relativní počet citací in-deg relativní in-deg
Tabulka 3: Provedená měření
Dále budou jednotlivé žebříčky vyhodnoceny. Z důvodu velkého počtu položek bude vždy zmíněno jen několik prvních míst každého žebříčku. Kompletní žebříčky jsou k dispozici na přiloženém CD.
6.2.1 Spolupráce
Žebříček spolupráce byl sestaven pro autory a země. Prvních pět míst pro autory zachycuje tabulka 4. Počet společných
Pozice
Autor 1
Autor 2
1.
Wang, B.-H.
Zhou, T.
64
2.
Zhang, Z.
Zhou, S.
50
50
publikací
Kapitola 6
Měření
3.
Zhou, S.
Guan, J.
41
4.
Zhang, Z.
Guan, J.
40
5.
Kim, D.
Kahng, B.
39
Tabulka 4: Žebříček spolupráce autorů
Tabulka 5 ukazuje žebříček spolupráce pro země. Při porovnání s žebříčkem pro počet publikací jednotlivých zemí (tabulka 7) je sice zřejmé, že nejvíce spolupracují země s velkým počtem publikací, ale pravděpodobně budou nezanedbatelnou roli hrát i jiné aspekty. Tato domněnka vychází ze spolupráce Číny s Hong Kongem, který se v žebříčku počtu publikací umístil až na šestnáctém místě. Počet společných
Pozice
Země 1
Země 2
1.
China
United States
1 163
2.
United States
United Kingdom
929
3.
United States
Germany
665
4.
China
Hong Kong
550
5.
United States
Canada
532
publikací
Tabulka 5: Žebříček spolupráce zemí
Zajímavostí u tohoto žebříčku je to, že mezi prvními deseti místy se pouze ve dvou případech nevyskytují USA.
6.2.2 Počet publikací
V tabulce 6 je zachycen žebříček počtu publikací jednotlivých autorů. Pod uvedenými jmény se však může skrývat více osob (viz kapitola 6.1). Pozice
Jméno autora
Počet publikací
1.
Wang, J.
449
2.
Wang, Y.
427
51
Kapitola 6
Měření 3.
Zhang, Y.
371
4.
Wang, X.
362
5.
Wang, L.
344
Tabulka 6: Žebříček počtu publikací pro autory
Tabulka 7 představuje žebříček počtu publikací jednotlivých zemí. Není tu nijak zohledněn počet autorů, kteří v dané zemi publikují. Pozice
Název země
Počet publikací
1.
United States
16 182
2.
China
9 645
3.
United Kingdom
4 404
4.
Germany
3 770
5.
France
2 744
Tabulka 7: Žebříček počtu publikací pro země
Tabulka 8 zachycuje žebříček relativního počtu publikací na zemi. Na rozdíl od předchozího žebříčku tento zohledňuje počet autorů, kteří v dané zemi publikují. Relativní počet
Pozice
Název země
1.
Chad
1.00
2.
China
0.77
3.
Macao
0.57
4. – 5.
Barbados
0.50
4. – 5.
Liechtenstein
0.50
publikací
Tabulka 8: Žebříček relativního počtu publikací pro země
Čadu bylo přiřazeno devět publikací a stejný počet autorů, Číně 9 645 publikací a 12 476 autorů.
52
Kapitola 6
Měření
6.2.3 Počet citací
Žebříček, zachycený v tabulce 9, ukazuje jednu zajímavost. Maximální stahovaný počet citujících dokumentů z webu Scopusu byl dva tisíce položek. Jak je vidět, první tři dokumenty se ve zdrojovém XML souboru vyskytly vícekrát a pokaždé byla množina prvních dvou tisíc citujících dokumentů trochu jiná. Pozice
Název publikace
Počet citací
1. – 2.
Complex networks: Structure and dynamics
2085
Finding and evaluating community structure
1. – 2.
in networks The structure and function of complex
3.
networks
4. – 5.
Statistical mechanics of complex networks The anatomy of a large-scale hypertextual
4. – 5.
Web search engine 1
2085
2051 2000 2000
Tabulka 9: Žebříček počtu citací pro publikace
Tabulka 10 představuje žebříček počtu citací autorů. Počet citací je zde reprezentován citacemi na všech publikacích daného autora. Čím více publikací autor vydal, tím má vyšší šanci se v tomto žebříčku umístit na vedoucích pozicích. Počet publikací tu tedy není zohledněn. Pozice
Jméno autora
Počet citací
1.
Newman, M.E.J.
86 704
2.
Barabási, A.-L.
44 208
3.
Sporns, O.
37 120
4.
Bullmore, E.
29 619
5.
Moreno, Y.
27 319
Tabulka 10: Žebříček počtu citací pro autory
53
Kapitola 6
Měření
V tabulce 11 je zachycen žebříček relativního počtu citací autorů. Na rozdíl od předchozího žebříčku tento zohledňuje počet publikací, které autor vydal. Umístění se na předních pozicích v tomto žebříčku je tedy pro autora prestižnější než u předchozího žebříčku, protože tento ukazuje pravděpodobnou vysokou úroveň všech jeho publikací (nebo alespoň většiny), zatímco u předchozího žebříčku stačilo mít vydánu jednu extrémně citovanou publikaci. Například pátý autor žebříčku, Nei, M., měl 14 069 citací na třech vydaných publikacích. Pozice
Jméno autora
Relativní počet citací
1.
Dudley, J.
13 772
2.
Fax, J.A.
10 284
3.
Brin, S.
6 199
4.
Mongru, D.A.
5 755
5.
Nei, M.
4 690
Tabulka 11: Žebříček relativního počtu citací pro autory
Tabulka 12 ukazuje žebříček počtu citací zemí. Počet citací je zde reprezentován citacemi na všech publikacích přiřazených dané zemi a není tu zohledněn počet autorů z příslušné země. Opět zde tedy platí, že čím lidnatější země (více autorů), tím větší pravděpodobnost umístění se na předních pozicích žebříčku. Pozice
Název země
Počet citací
1.
United States
259 532
2.
China
65 143
3.
United Kingdom
58 668
4.
Germany
51 340
5.
Spain
49 489
Tabulka 12: Žebříček počtu citací pro země
54
Kapitola 6
Měření
Žebříček v tabulce 13 představuje relativní počty citací jednotlivých zemí. Na rozdíl od předchozího žebříčku tento zohledňuje počet autorů, kteří publikují pod danou zemí. Pozice
Název země
Relativní počet citací
1.
Chad
9.11
2.
Hungary
9.00
3.
United States
5.88
4.
Hong Kong
5.73
5.
Spain
5.60
Tabulka 13: Žebříček relativního počtu citací pro země
Čad měl 82 citací na publikacích od devíti autorů, Maďarsko 22 077 citací na publikacích od 2 454 autorů a Spojené státy dostaly 259 532 citací na publikacích od 44 144 autorů.
6.2.4 In-deg
In-degree neboli vstupní stupeň uzlu grafu udává, z kolika ostatních různých uzlů grafu vede hrana na tento uzel. Všechny násobné hrany mezi dvojicí uzlů se tedy počítají jako jedna hrana. V tom spočívá hlavní rozdíl oproti žebříčkům počtů citací, neboť ty počítají násobné hrany vícekrát. Tabulka 14 ukazuje žebříček vstupních stupňů pro publikace. Tento žebříček je stejný jako žebříček počtu citací mezi publikacemi (tabulka 9). To je dáno tím, že jedna publikace může být citována jinou publikací maximálně jednou, ne vícekrát. Pozice
Název publikace
Vstupní stupeň
1. – 2.
Complex networks: Structure and dynamics
2085
1. – 2. 3.
Finding and evaluating community structure in networks The structure and function of complex
55
2085 2051
Kapitola 6
Měření networks
4. – 5.
Statistical mechanics of complex networks The anatomy of a large-scale hypertextual
4. – 5.
Web search engine 1
2000 2000
Tabulka 14: Žebříček in-degree pro publikace
V tabulce 15 je zachycen žebříček vstupních stupňů pro autory. Tento žebříček nezohledňuje počet publikací jednotlivých autorů. Pozice
Jméno autora
Vstupní stupeň
1.
Barabási, A.-L.
13 322
2.
Newman, M.E.J.
12 931
3.
Tamura, K.
11 078
4.
Nei, M.
11 071
5.
Kumar, S.
10 964
Tabulka 15: Žebříček in-degree pro autory
Tabulka 16 představuje žebříček relativních vstupních stupňů autorů. Na rozdíl od předchozího žebříčku tento zohledňuje počet publikací, které autor vydal. Například čtvrtý autor žebříčku, Nei, M., byl citován 11 071 autory na třech vydaných publikacích. Relativní vstupní
Pozice
Jméno autora
1.
Dudley, J.
10 855
2.
Brin, S.
4 057
3.
Mongru, D.A.
3 766
4.
Nei, M.
3 690
5.
Fax, J.A.
2 011
stupeň
Tabulka 16: Žebříček relativního in-degree pro autory
56
Kapitola 6
Měření
Tabulka 17 ukazuje žebříček vstupních stupňů zemí. Asi nepřekvapí, že se na prvních dvou místech opět umístily Spojené státy a Spojené království. Pozice
Název země
Vstupní stupeň
1.
United States
162
2.
United Kingdom
148
3. – 5.
France
136
3. – 5.
Germany
136
3. – 5.
Japan
136
Tabulka 17: Žebříček in-degree pro země
Žebříček v tabulce 18 představuje relativní počty vstupních stupňů zemí. Na rozdíl od předchozího žebříčku tento zohledňuje počet autorů, kteří publikují pod danou zemí. Relativní vstupní
Pozice
Název země
1.
Chad
1.88
2.
Burundi
1.69
3.
New Caledonia
1.0
4.
North Korea
0.75
5.
Mauritania
0.71
stupeň
Tabulka 18: Žebříček relativního in-degree pro země
Například Čad byl citován 17 různými zeměmi na publikacích od devíti autorů a Severní Korea byla citována šesti zeměmi na publikacích od osmi autorů.
6.2.5 PageRank
V tabulce 19 je zachycen žebříček publikací podle ohodnocení algoritmem PageRank.
57
Kapitola 6
Měření
Pozice
Název publikace
Ohodnocení
1.
Statistical mechanics of complex networks
0.071
MEGA4: Molecular Evolutionary Genetics
2.
Analysis (MEGA) software version 4.0 The structure and function of complex
3.
networks Hierarchical organization of modularity in
4.
metabolic networks The anatomy of a large-scale hypertextual
5.
Web search engine 1
0.055
0.023
0.019
0.012
Tabulka 19: Žebříček PageRank pro publikace
Tabulka 20 ukazuje žebříček autorů podle ohodnocení algoritmem PageRank. Pozice
Jméno autora
Ohodnocení
1.
Dudley, J.
0.012128
2.
Kumar, S.
0.012121
3.
Tamura, K.
0.012043
4.
Barabási, A.-L.
0.010110
5.
Nei, M.
0.010066
Tabulka 20: Žebříček PageRank pro autory
Tabulka 21 ukazuje žebříček zemí podle ohodnocení algoritmem PageRank. Pozice
Název země
Ohodnocení
1.
United States
0.1031
2.
United Kingdom
0.0325
3.
Germany
0.0247
4.
Spain
0.0214
5.
Italy
0.0211
Tabulka 21: Žebříček PageRank pro země
58
Kapitola 6
Měření
6.2.6 HITS
Žebříček v tabulce 22 představuje ohodnocení publikací algoritmem HITS. Pozice
Název publikace
Ohodnocení
Finding and evaluating community structure
1.
in networks The structure and function of complex
2.
networks Modularity and community structure in
3.
networks
0.422
0.259
0.247
Uncovering the overlapping community 4.
structure of complex networks in nature and
0.243
society Fast algorithm for detecting community
5.
structure in networks
0.227
Tabulka 22: Žebříček HITS pro publikace
Žebříček v tabulce 23 představuje ohodnocení autorů algoritmem HITS. Pozice
Jméno autora
Ohodnocení
1.
Barabási, A.-L.
0.108
2.
Newman, M.E.J.
0.105
3.
Wang, J.
0.100
4.
Li, Y.
0.092
5.
Wang, X.
0.080
Tabulka 23: Žebříček HITS pro autory
Žebříček v tabulce 24 představuje ohodnocení zemí algoritmem HITS.
59
Kapitola 6
Měření Pozice
Název země
Ohodnocení
1.
United States
0.864
2.
Spain
0.206
3.
Germany
0.205
4.
Italy
0.199
5.
United Kingdom
0.185
Tabulka 24: Žebříček HITS pro země
6.3
Korelační koeficient
Není-li u konkrétního odstavce napsáno jinak, byly informace v této kapitole čerpány ze zdrojů [Chr07], [Nyk11] a [Rei04]. Mezi žebříčky PageRank a HITS byl pro publikace, autory a země vypočítán také Spearmanův koeficient pořadové korelace. Jde o bezrozměrné číslo, vyjadřující statistickou závislost mezi dvěma veličinami. Může nabývat libovolné hodnoty z intervalu <-1, 1>. Čím více se korelační koeficient blíží k hodnotě +1, tím více jsou na sobě obě veličiny závislé (oba algoritmy, PageRank i HITS, by vytvořily úplně stejné žebříčky). Je-li koeficient roven nule, pak mezi veličinami není žádný vztah, a pokud se blíží hodnotě -1, potom jsou na sobě veličiny závislé opačně (v tomto případě by jeden žebříček měl prvky uspořádané v přesně opačném pořadí než druhý). Spearmanův korelační koeficient se počítá podle následujícího vzorce:
kde
je hodnota Spearmanova koeficientu, n je počet porovnávaných hodnot
jednotlivých měření a
a
jsou pořadová čísla jednotlivých hodnot obou žebříčků.
Výše uvedený vzorec však předpokládá, že na jednotlivých pozicích žebříčku je vždy právě jeden prvek, tudíž se v žádném žebříčku nesmí vyskytnout více prvků se stejným ohodnocením. To ale pro námi analyzovaná data neplatí, jelikož se na spodních pozicích jednotlivých žebříčků vždy vyskytuje několik prvků na stejné pozici. Z tohoto 60
Kapitola 6
Měření
důvodu je nutné použít upravený vzorec Spearmanova korelačního koeficientu ve tvaru:
Význam všech proměnných je stejný jako u předchozího vzorce.
Vypočítané hodnoty Spearmanova koeficientu pořadové korelace pro algoritmy PageRank a HITS jsou: 0,729 pro publikace, 0,837 pro autory a 0,950 pro země. Podle tabulky kritických hodnot Spearmanova koeficientu jsou vypočítané hodnoty pro všechna tři měření významná na hladině 0,01 [Cri14]. Z uvedených hodnot je zřejmé, že oba algoritmy, PageRank i HITS, poskytují pro naši množinu dat velice podobné výsledky a to zejména v případě žebříčků pro hodnocení zemí, které jsou téměř totožné.
61
Kapitola 7
Závěr
7 Závěr Cílem této diplomové práce bylo vytvořit co nejrozsáhlejší datový zdroj umožňující provádět bibliometrická měření. Práce navazuje na čtyři předchozí bakalářské práce ([Aug12], [Han12], [Kru12] a [Bou13]) a vychází z jejich výsledků. Tito předchůdci zkoumají možnosti stahování dat ze tří bibliometrických databází, Google Scholar, ACM Digital Library a SciVerse Scopus. Byly vytvořeny tři programy, které byly následně integrovány do jednoho meta-vyhledávače. Těmito prostředky se podařilo stáhnout maximálně 16 329 záznamů a uložit je do XML souboru, jehož struktura byla definována v práci *Bou13+. Po prozkoumání všech předchozích prací bylo rozhodnuto, že se dále bude pracovat pouze s databází Scopus. Ze všech tří je nejkvalitnější, nejobsáhlejší a pro přístup poskytuje aplikační rozhraní (API). Pozdějším zkoumáním tohoto API však bylo zjištěno, že je pro účely této práce nepoužitelné, protože pro jeho použití musí být projektu uděleno povolení od pracovníků Scopusu, které se bohužel nepodařilo získat. Z tohoto důvodu musel být pro vytvoření datových zdrojů použit stejný způsob jako v přechozích bakalářských pracích (parsováním HTML stránek). Této problematice se věnuje kapitola 4, která popisuje aplikační rozhraní služby Scopus a vysvětluje, proč ho není možné použít. Další část práce spočívala v úpravě meta-vyhledávače tak, aby ze Scopusu dokázal stáhnout co největší množství dat. Nakonec se podařilo vytvořit zdrojový XML soubor s 55 578 záznamy, složený z výsledků hledání na tři různá klíčová slova: 14 453 záznamů na téma internet, 29 599 na téma pagerank a 11 526 na téma telecommunication. Pro lepší manipulaci s daty při následných měřeních, byla vytvořena relační databáze s jedenácti tabulkami tak, aby v co největší míře respektovala strukturu zdrojového XML souboru. Pro účel importu dat ze souboru do databáze byl vytvořen program v jazyce Java. Import probíhá kvůli potřebě spárovat citující a citované
62
Kapitola 7
Závěr
publikace ve dvou fázích. Celý proces přípravy dat pro následná měření je detailně popsán v kapitole 5. Po vytvoření datové základny bylo pro ověření její funkčnosti provedeno několik měření, z nichž bylo sestaveno celkem 21 různých žebříčků. Tato měření, sledující produktivitu (počet publikací), významnost (počet citací, in-degree a hodnocení dle algoritmů PageRank a HITS) a spolupráci, byla provedena pro autory, publikace a země. Sledování těchto parametrů u institucí nebylo možné z důvodu malého rozsahu jejich výskytu ve vstupních datech. Tato měření by neměla téměř žádnou vypovídací hodnotu, a proto nebyla provedena. Na závěr byl mezi žebříčky, získanými algoritmy PageRank a HITS, vypočítán Spearmanův koeficient pořadové korelace. Veškeré provedené experimenty jsou popsány v kapitole 6. Přílohy B až V ukazují prvních čtyřicet míst z každého sestaveného žebříčku.
7.1
Návrhy pro další práci
Nezbytným základem pro skutečně přínosná měření jsou rozsáhlé a především kvalitní datové zdroje. Primárním cílem pro další podobné práce by proto mělo být zkvalitnění procesu získávání datových podkladů. Především by bylo vhodné upravit program pro stahování dat ze Scopusu tak, aby o autorech a afiliacích nestahoval pouze jména či názvy, ale především jejich jedinečné identifikátory, čímž by bylo zajištěno rozlišení autorů se stejnými jmény. Další výhodou by byl fakt, že by se v případě vícenásobného výskytu autora ve výsledcích hledání nemusely jeho údaje stahovat opakovaně. Studiem služby Scopus bylo zjištěno, že stejně jako má každá publikace svůj jedinečný identifikátor eid, tak i každý autor má své jednoznačné authorId. To lze získat ze stránky s detaily publikace, která je už v současné verzi programem parsována. Dalším možným zlepšením by mohlo být odstranění mezikroku v podobě ukládání dat do XML souboru. V případě, že by program pro stahování dat ze Scopusu dokázal komunikovat přímo s databází (a ukládat do ní data), mohl by z ní získávat informace o tom, jaká data již obsahuje, což by umožňovalo sestavovat podobné dotazy bez toho, 63
Kapitola 7
Závěr
aby se stahovala stejná data vícekrát, protože by program vždy v podstatě navázal tam, kde při předchozím pokusu skončil. Samozřejmě úplně nejlepší variantou by bylo použití Scopus RESTful API, které pro tyto účely poskytuje perfektní podmínky. Avšak jedinou možností, jak získat právo k jeho použití, je vést časově náročný dialog s helpdeskem Scopusu, představit celý projekt a snažit se prokázat jeho užitečnost.
64
Literatura [Aug12] Augusta Rudolf, Import dat ze služby Scopus do formátu XML, Západočeská univerzita v Plzni, 2012, Bakalářská práce [Han12+ Hanke Tomáš, Import dat ze služby Google Scholar do XML, Západočeská univerzita v Plzni, 2012, Bakalářská práce [Kru12+ Krupička Jan, Import dat ze služby ACM DL do formátu XML, Západočeská univerzita v Plzni, 2012, Bakalářská práce [Bou13] Bouda Radek, Vytváření citačních sítí z bibliografických dat, Západočeská univerzita v Plzni, 2013, Bakalářská práce *Kri97+ Krištofičová Eva, Prostriedky hodnotenia knižničných a vedeckoinformačných procesov, Centrum vedecko-technických informácií SR v Bratislave, 1997, ISBN 80-85165-62-7 [Kat98+ Katuščák Dušan, Matthaeidesová Marta, Nováková Marta, Informačná výchova – Terminologický a výkladový slovník, Slovenské pedagogické nakladatelstvo, 1998, ISBN 80-08-02818-1 [Vaš80] Vašák Pavel, Metody určování autorství, ACADEMIA Praha, 1980 *Vaš93+ Vašák Pavel, Textologie – Teorie a ediční praxe, KAROLINUM Praha, 1993, ISBN 80-7066-638-2 [Vin10] Vinkler Péter, The Evaluation of Research By Scientometric Indicators, Chandos Publishing, 2010, ISBN 978-1-84334-572-5 [Moe05] Moed Henk, Citation Analysis in Research Evaluation, Springer, 2005, ISBN 978-1-4020-3713-9 *Chr07+ Chráska Miroslav, Metody pedagogického výzkumu – Základy kvantitativního výzkumu, Grada, 2007, ISBN 978-80-247-1369-4
65
[Nyk11] Nykl Michal, Vyhodnocování informačních sítí, Západočeská univerzita v Plzni, 2011, Diplomová práce [Rei04] Reif Jiří, Metody matematické statistiky, Západočeská univerzita v Plzni, 2004, ISBN 80-7043-302-7 [ACM14] The Digital Library | The ACM Digital Library, nahlíženo 4. 1. 2014, http://librarians.acm.org/digital-library [Els13] Scopus | Elsevier, nahlíženo 27. 12. 2013, http://www.elsevier.com/online-tools/scopus [Dev13] Elsevier | Developers, nahlíženo 27. 12. 2013, http://www.developers.elsevier.com/cms/scopusintegration# [API13+ Scopus API: Home, nahlíženo 27. 12. 2013, http://searchapidocs.scopus.com/ [Sco13] Scopus Search JavaScript API, nahlíženo 27. 12. 2013, http://www.developers.elsevier.com/devcms/scopus-search-javascript-api [Pol13] Content Policies, nahlíženo 27. 12. 2013, http://www.developers.elsevier.com/devcms/content-policies [Con13+ Content APIs, nahlíženo 27. 12. 2013, http://www.developers.elsevier.com/cms/content-apis [Cri14] Critical values of Spearman's rho (two-tailed), nahlíženo 30. 5. 2014, http://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm [Tho14] Web of Science | Thomson Reuters, nahlíženo 5. 5. 2014, http://thomsonreuters.com/thomson-reuters-web-of-science [His14] History of Citation Indexing, nahlíženo 5. 5. 2014, http://wokinfo.com/essays/history-of-citation-indexing
66
Seznamy Tabulky Tabulka 1: Metody Scopus Javascript API....................................................................... 26 Tabulka 2: Omezení Scopus RESTful API ......................................................................... 30 Tabulka 3: Provedená měření ......................................................................................... 50 Tabulka 4: Žebříček spolupráce autorů .......................................................................... 51 Tabulka 5: Žebříček spolupráce zemí .............................................................................. 51 Tabulka 6: Žebříček počtu publikací pro autory ............................................................. 52 Tabulka 7: Žebříček počtu publikací pro země ............................................................... 52 Tabulka 8: Žebříček relativního počtu publikací pro země ............................................. 52 Tabulka 9: Žebříček počtu citací pro publikace .............................................................. 53 Tabulka 10: Žebříček počtu citací pro autory ................................................................. 53 Tabulka 11: Žebříček relativního počtu citací pro autory ............................................... 54 Tabulka 12: Žebříček počtu citací pro země ................................................................... 54 Tabulka 13: Žebříček relativního počtu citací pro země ................................................. 55 Tabulka 14: Žebříček in-degree pro publikace................................................................ 56 Tabulka 15: Žebříček in-degree pro autory .................................................................... 56 Tabulka 16: Žebříček relativního in-degree pro autory .................................................. 56 Tabulka 17: Žebříček in-degree pro země ...................................................................... 57 Tabulka 18: Žebříček relativního in-degree pro země .................................................... 57 Tabulka 19: Žebříček PageRank pro publikace ............................................................... 58 Tabulka 20: Žebříček PageRank pro autory .................................................................... 58 Tabulka 21: Žebříček PageRank pro země ...................................................................... 58 Tabulka 22: Žebříček HITS pro publikace ........................................................................ 59 Tabulka 23: Žebříček HITS pro autory ............................................................................. 59 Tabulka 24: Žebříček HITS pro země ............................................................................... 60
67
Obrázky Obrázek 1: Ukázka výsledků hledání ve službě Google Scholar ..................................... 14 Obrázek 2: Ukázka výsledků hledání ve službě ACM DL ................................................. 15 Obrázek 3: Scopus Document search ............................................................................. 16 Obrázek 4: Ukázka výsledků hledání ve službě Scopus .................................................. 17 Obrázek 5: Filtr zemí na stránce s výsledky hledání (www.scopus.com) ....................... 37 Obrázek 6: Model databáze ............................................................................................ 39 Obrázek 7: Program pro import dat z XML souboru do databáze.................................. 70
Ukázky kódu Ukázka kódu 1: Scopus Document Search API - HTML ................................................... 22 Ukázka kódu 2: Scopus Document Search API - skript ................................................... 23 Ukázka kódu 3: Scopus Cited-By Count API - HTML ....................................................... 24 Ukázka kódu 4: Scopus Cited-By Count API - skript ........................................................ 25 Ukázka kódu 5: Úprava meta-vyhledávače..................................................................... 31 Ukázka kódu 6: Ukázka XML souboru - začátek.............................................................. 34 Ukázka kódu 7: Ukázka XML souboru - pokračování ...................................................... 35 Ukázka kódu 8: Vytvoření grafu pomocí knihovny JUNG ............................................... 45 Ukázka kódu 9: Spuštění algoritmu PageRank nad grafem ............................................ 45
Pseudoalgoritmy Pseudoalgoritmus 1: První fáze importu dat do databáze ............................................. 40 Pseudoalgoritmus 2: Druhá fáze importu dat do databáze ........................................... 41
68
Přílohy
69
A Uživatelská dokumentace Program pro import dat z XML souboru do databáze se nachází na přiloženém CD v adresáři „bin“. Lze ho spustit z příkazové řádky příkazem „java –jar dbImport.jar“. Pro správný běh aplikace je potřeba (kromě nainstalované Javy) mít ve stejné složce i podadresář „lib“ včetně všech knihoven, které obsahuje. Program má textové uživatelské rozhaní a ovládá se velice jednoduše. Po spuštění je uživatel vyzván k zadání informací pro připojení k databázi a cesty ke zdrojovému XML souboru. Poté je zahájen samotný import a uživatel je o jeho průběhu informován po každém tisícím importovaném záznamu. Na obrázku 7 je náhled programu.
Obrázek 7: Program pro import dat z XML souboru do databáze
70
B Žebříček spolupráce autorů
Pozice
Autor 1
Autor 2
1 2 3 4 5–6 5–6 7 8 9 – 10 9 – 10 11 – 12 11 – 12 13 14 – 17 14 – 17 14 – 17 14 – 17 18 19 20 21 – 25 21 – 25 21 – 25 21 – 25 21 – 25 26 – 28 26 – 28 26 – 28 29 – 37 29 – 37 29 – 37 29 – 37 29 – 37 29 – 37 29 – 37 29 – 37 29 – 37 38 – 40 38 – 40 38 – 40
Wang, B.-H. Zhang, Z. Zhou, S. Zhang, Z. Kim, D. Wu, B. Kimura, M. Wang, J. Havlin, S. Duan, Z. Perc, M. Gómez-Gardeñes, J. Saramäki, J. Santos, F.C. Kimura, M. Wang, B.-H. Saito, K. Fu, F. Wang, J. Chen, X. Di, Z. Martin, D.P. Szabó, G. Wang, W.-X. Goh, K.-I. Kajikawa, Y. Li, J. Babiloni, F. Marwan, N. Hahn, B.H. Wang, L. Wang, B.-H. Dorogovtsev, S.N. Wang, Y. Cao, X.-B. De Vico Fallani, F. Kertész, J. Li, X. Cincotti, F. Astolfi, L.
Zhou, T. Zhou, S. Guan, J. Guan, J. Kahng, B. Wang, B. Saito, K. Li, M. Stanley, H.E. Chen, G. Szolnoki, A. Moreno, Y. Kaski, K. Pacheco, J.M. Motoda, H. Wang, W.-X. Motoda, H. Wang, L. Li, Y. Wang, L. Fan, Y. Varsani, A. Szolnoki, A. Lai, Y.-C. Kahng, B. Sakata, I. Wang, J. Mattia, D. Kurths, J. Shaw, G.M. Wang, J. Yang, H.-X. Mendes, J.F.F. Liu, J. Du, W.-B. Babiloni, F. Kaski, K. Wang, X. Mattia, D. Babiloni, F.
71
Počet společných publikací 64 50 41 40 39 39 38 36 35 35 34 34 33 32 32 32 32 31 30 28 27 27 27 27 27 26 26 26 25 25 25 25 25 25 25 25 25 24 24 24
C Žebříček spolupráce zemí
Pozice
Země 1
Země 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 – 30 29 – 30 31 32 33 34 35 36 37 38 39 40
China United States United States China United States Italy France Germany United States Spain United States United Kingdom Italy Switzerland Italy United States China United States Germany China Italy United States United Kingdom United Kingdom China United States United States United Kingdom China Canada Canada Mexico Netherlands Spain Germany Spain Sweden Switzerland Switzerland India
United States United Kingdom Germany Hong Kong Canada United States United States United Kingdom Australia United States Japan France France United States United Kingdom Netherlands United Kingdom Israel France Australia Spain Georgia Spain Australia Germany Brazil South Korea Netherlands Japan United Kingdom China United States Germany France Italy Germany United States Germany United Kingdom United States
72
Počet společných publikací 1 163 929 665 550 532 492 490 482 380 373 295 285 284 272 267 266 263 261 260 254 246 235 233 226 221 209 206 205 194 194 187 184 178 177 176 173 169 164 157 155
D Žebříček počtu publikací pro autory Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 – 23 22 – 23 24 25 26 27 – 28 27 – 28 29 30 31 32 33 34 35 – 36 35 – 36 37 – 38 37 – 38 39 40
Jméno autora Wang, J. Wang, Y. Zhang, Y. Wang, X. Wang, L. Li, Y. Li, X. Liu, Y. Zhang, J. Liu, J. Zhang, Z. Li, J. Wang, H. Wang, Z. Chen, G. Li, H. Zhang, X. Liu, X. Chen, L. Chen, Y. Li, Z. Zhang, L. Zhang, H. Chen, X. Liu, Z. Chen, J. Li, L. Chen, H. Zhou, T. Li, M. Li, W. Wu, J. Yang, Y. Wang, S. Wang, B.-H. Liu, H. Wang, B. Li, S. Wang, W. Chen, Z.
73
Počet publikací 449 427 371 362 344 334 320 319 286 272 247 244 234 223 222 206 203 190 187 185 183 179 179 178 173 162 153 153 150 148 147 145 144 143 140 140 136 136 135 133
E Žebříček počtu publikací pro země Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Název země United States China United Kingdom Germany France Italy Japan Spain Canada Australia Netherlands Switzerland Brazil South Korea India Hong Kong Sweden Belgium Israel Singapore Denmark Taiwan Portugal Finland Mexico Austria Poland Hungary Georgia Greece Norway Russian Federation Ireland New Zealand Argentina Iran South Africa Czech Republic Slovenia Thailand
74
Počet publikací 16 182 9 645 4 404 3 770 2 744 2 666 2 495 2 192 2 074 1 947 1 398 1 272 1 173 1 155 973 932 820 723 647 549 539 531 491 464 464 460 451 444 435 372 343 327 323 314 291 286 286 234 226 215
F Žebříček relativního počtu publikací pro země
Pozice
Název země
1 2 3 4–5 4–5 6 7 8 9 10 11 – 13 11 – 13 11 – 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 – 39 38 – 39 40
Chad China Macao Barbados Liechtenstein Qatar Azerbaijan Yemen Cyprus United States Bahamas Cape Verde Saint Kitts and Nevis Hong Kong Macedonia Japan Armenia Italy Algeria Sri Lanka United Arab Emirates United Kingdom South Korea Germany Jamaica North Korea Spain Romania Canada Venezuela Australia Syrian Arab Republic Switzerland Fiji Oman Cuba Brazil India France Tunisia
75
Relativní počet publikací 1.000 0.773 0.571 0.500 0.500 0.440 0.428 0.400 0.372 0.366 0.333 0.333 0.333 0.320 0.304 0.296 0.285 0.276 0.263 0.261 0.257 0.255 0.253 0.251 0.250 0.250 0.248 0.244 0.238 0.233 0.223 0.218 0.217 0.214 0.213 0.211 0.210 0.207 0.207 0.203
G Žebříček počtu citací pro publikace Pozice 1–2 1–2 3 4–7 4–7 4–7 4–7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Název publikace Complex networks: Structure and dynamics Finding and evaluating community structure in networks The structure and function of complex networks Statistical mechanics of complex networks The anatomy of a large-scale hypertextual Web search engine 1 Network biology: Understanding the cell's functional organization MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0 Consensus and cooperation in networked multiagent systems Social network sites: Definition, history, and scholarship Hierarchical organization of modularity in metabolic networks GENEVESTIGATOR. Arabidopsis microarray database and analysis toolbox Sequencing technologies the next generation Assortative mixing in networks A Protein Interaction Map of Drosophila melanogaster Modularity and community structure in networks Uncovering the overlapping community structure of complex networks in nature and society Complex brain networks: Graph theoretical analysis of structural and functional systems Fast algorithm for detecting community structure in networks Finding community structure in very large networks The spread of obesity in a large social network over 32 years Community detection in graphs A human protein-protein interaction network: A resource for annotating the proteome A survey of trust and reputation systems for online service provision Five rules for the evolution of cooperation 76
Počet citací 2 085 2 085 2 051 2 000 2 000 2 000 2 000 1 906 1 695 1 535 1 467 1 442 1 364 1 357 1 347 1 337 1 229 1 139 1 084 1 064 1 048 977 949 904
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Understanding individual human mobility patterns Hybrid recommender systems: Survey and experiments Flocking for multi-agent dynamic systems: Algorithms and theory Stochasticity in gene expression: From theories to phenotypes Functional cartography of complex metabolic networks The architecture of complex weighted networks The human disease network Mapping the structural core of human cerebral cortex Opinion mining and sentiment analysis Spread of epidemic disease on networks Network motifs: Theory and experimental approaches Hierarchical organization in complex networks Finding community structure in networks using the eigenvectors of matrices Biological robustness Adaptive governance of social-ecological systems Optimizing search engines using clickthrough data
77
897 889 886 879 870 865 842 820 794 757 754 739 727 707 689 683
H Žebříček počtu citací pro autory Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Jméno autora Newman, M.E.J. Barabási, A.-L. Sporns, O. Bullmore, E. Moreno, Y. He, Y. Fortunato, S. Latora, V. Stam, C.J. Arenas, A. Oltvai, Z.N. Boccaletti, S. Wang, J. Kurths, J. Chavez, M. Hwang, D.-U. Chen, G. Zhou, T. Vicsek, T. Albert, R. Tamura, K. Nei, M. Bassett, D.S. Palla, G. Havlin, S. GuimerĂ , R. Kumar, S. Dudley, J. Wang, B.-H. Girvan, M. Christakis, N.A. Szabó, G. Vespignani, A. Wang, L. Olfati-Saber, R. Fowler, J.H. Amaral, L.A.N. Díaz-Guilera, A. Clauset, A. Zhou, C.
78
Počet citací 86 704 44 208 37 120 29 619 27 319 23 009 22 077 21 060 20 617 18 771 18 485 18 160 17 775 16 686 16 608 15 674 15 516 14 940 14 939 14 681 14 077 14 069 14 044 13 977 13 949 13 933 13 926 13 772 13 756 13 566 13 323 13 181 13 142 12 445 12 266 12 117 12 017 11 905 11 866 11 465
I Žebříček relativního počtu citací pro autory Pozice 1 2 3 4 5 6 7 8 9 10 11 12 – 14 12 – 14 12 – 14 15 16 – 18 16 – 18 16 – 18 19 20 21 22 23 24 25 26 27 28 – 32 28 – 32 28 – 32 28 – 32 28 – 32 33 34 35 36 37 38 39 40
Jméno autora Dudley, J. Fax, J.A. Brin, S. Mongru, D.A. Nei, M. Whitcher, B. Farkas, I. Van Wedeen, J. Fáth, G. Paris, D. Lefebvre, E. Shen-Orr, S. Ayzenshtat, I. Sheffer, M. Somera, A.L. Yoon, S.-H. Jeon, Y.S. Won, S. Turtschi, A. Ravasz, E. Concha, L. Favera, R.D. Childs, B. Salvador, R. Guindon, S. Nakarado, G.L. Baliki, M. Polson, H.E.J. De Lartigue, J. Rigden, D.J. Reedijk, M. Urbé, S. Tamura, K. Handsley, M.M. Wiggins, C. Suckling, J. Zwi, J.D. Hwang, D.-U. Gascuel, O. Spirin, V.
79
Relativní počet citací 13 772 10 284 6 199 5 755 4 689 4 686 4 539 4 227 3 901 3 798 3 435 3 321 3 321 3 321 2 946 2 923 2 923 2 923 2 788 2 602 2 548 2 515 2 366 2 357 2 320 2 152 2 090 1 779 1 779 1 779 1 779 1 779 1 759 1 731 1 698 1 631 1 568 1 567 1 546 1 542
J Žebříček počtu citací pro země Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 – 24 23 – 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Název země United States China United Kingdom Germany Spain Italy France Hungary Japan Canada Australia Switzerland Netherlands Hong Kong Israel South Korea Portugal Brazil Belgium Mexico Sweden Finland Denmark Slovenia Russian Federation India Argentina Austria Georgia New Zealand Singapore Greece Poland South Africa Norway Taiwan Ireland Czech Republic Turkey Cuba
80
Počet citací 259 532 65 143 58 668 51 340 49 489 47 548 35 558 22 077 19 875 19 416 18 491 17 794 16 687 16 681 14 511 10 904 9 778 9 431 9 355 8 237 7 502 6 404 6 075 6 075 4 682 3 981 3 715 3 343 3 255 3 231 3 100 2 500 2 415 2 220 2 094 1 864 1 764 1 140 1 126 1 050
K Žebříček relativního počtu citací pro země Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Název země Chad Hungary United States Hong Kong Spain China Cuba Italy North Korea Israel Slovenia Germany United Kingdom Portugal Switzerland Burundi Bahamas France Benin Mexico Ecuador South Korea Japan Albania Canada Netherlands Australia Finland Armenia Belgium Brazil Russian Federation Cyprus Sweden Central African Republic Venezuela Palestine Malawi Argentina Denmark
81
Relativní počet citací 9.111 8.996 5.879 5.732 5.603 5.221 4.929 4.926 3.750 3.682 3.523 3.423 3.403 3.350 3.036 2.875 2.722 2.684 2.678 2.455 2.404 2.395 2.358 2.266 2.235 2.183 2.122 1.996 1.928 1.901 1.690 1.669 1.655 1.622 1.515 1.483 1.454 1.443 1.400 1.395
L Žebříček in-degree pro publikace Pozice 1–2 1–2 3 4–7 4–7 4–7 4–7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Název publikace Complex networks: Structure and dynamics Finding and evaluating community structure in networks The structure and function of complex networks Statistical mechanics of complex networks The anatomy of a large-scale hypertextual Web search engine 1 Network biology: Understanding the cell's functional organization MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0 Consensus and cooperation in networked multiagent systems Social network sites: Definition, history, and scholarship Hierarchical organization of modularity in metabolic networks GENEVESTIGATOR. Arabidopsis microarray database and analysis toolbox Sequencing technologies the next generation Assortative mixing in networks A Protein Interaction Map of Drosophila melanogaster Modularity and community structure in networks Uncovering the overlapping community structure of complex networks in nature and society Complex brain networks: Graph theoretical analysis of structural and functional systems Fast algorithm for detecting community structure in networks Finding community structure in very large networks The spread of obesity in a large social network over 32 years Community detection in graphs A human protein-protein interaction network: A resource for annotating the proteome A survey of trust and reputation systems for online service provision Five rules for the evolution of cooperation 82
Vstupní stupeň 2 085 2 085 2 051 2 000 2 000 2 000 2 000 1 906 1 695 1 535 1 467 1 442 1 364 1 357 1 347 1 337 1 229 1 139 1 084 1 064 1 048 977 949 904
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Understanding individual human mobility patterns Hybrid recommender systems: Survey and experiments Flocking for multi-agent dynamic systems: Algorithms and theory Stochasticity in gene expression: From theories to phenotypes Functional cartography of complex metabolic networks The architecture of complex weighted networks The human disease network Mapping the structural core of human cerebral cortex Opinion mining and sentiment analysis Spread of epidemic disease on networks Network motifs: Theory and experimental approaches Hierarchical organization in complex networks Finding community structure in networks using the eigenvectors of matrices Biological robustness Adaptive governance of social-ecological systems Optimizing search engines using clickthrough data
83
897 889 886 879 870 865 842 820 794 757 754 739 727 707 689 683
M Žebříček in-degree pro autory Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 – 27 26 – 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Jméno autora Barabási, A.-L. Newman, M.E.J. Tamura, K. Nei, M. Kumar, S. Dudley, J. Oltvai, Z.N. Wang, J. Albert, R. Sporns, O. Moreno, Y. Latora, V. Li, Y. Ravasz, E. Fortunato, S. Bullmore, E. Christakis, N.A. Wang, Y. Brin, S. Fowler, J.H. Girvan, M. Boccaletti, S. Guimerà, R. Chavez, M. Somera, A.L. Guindon, S. Gascuel, O. Mongru, D.A. Zhang, Y. Li, X. Hwang, D.-U. Liu, Y. Vespignani, A. Amaral, L.A.N. Wang, X. Li, J. Gouy, M. Vicsek, T. Wang, L. Xu, X.
84
Vstupní stupeň 13 322 12 931 11 078 11 071 10 964 10 855 8 834 5 856 5 224 5 218 4 639 4 589 4 527 4 454 4 380 4 302 4 281 4 125 4 057 4 039 4 026 3 917 3 902 3 842 3 836 3 782 3 782 3 766 3 762 3 698 3 694 3 641 3 623 3 555 3 535 3 531 3 474 3 456 3 451 3 326
N Žebříček relativního in-degree pro autory
Pozice
Jméno autora
1 2 3 4 5 6 7 8 – 12 8 – 12 8 – 12 8 – 12 8 – 12 13 14 – 16 14 – 16 14 – 16 17 18 19 20 21 22 – 26 22 – 26 22 – 26 22 – 26 22 – 26 27 28 29 – 30 29 – 30 31 – 32 31 – 32 33 – 34 33 – 34 35 – 38 35 – 38 35 – 38 35 – 38 39 40
Dudley, J. Brin, S. Mongru, D.A. Nei, M. Fax, J.A. Somera, A.L. Guindon, S. Polson, H.E.J. De Lartigue, J. Rigden, D.J. Reedijk, M. Urbé, S. Ravasz, E. Yoon, S.-H. Jeon, Y.S. Won, S. Handsley, M.M. Whitcher, B. Tamura, K. Kovács, A. Van Wedeen, J. Mauthe, M. Jacob, A. Freiberger, S. Hentschel, K. Stierhof, Y.-D. Robenek, H. Farkas, I. Gascuel, O. Knodler, L.A. Piggott, N. Cook, M.A. Fueyo-Margareto, J. Gewirtz, D. Øverbye, A. Sætre, F. Hagen, L.K. Johansen, H.T. Lefebvre, E. Shen-Orr, S.
85
Relativní vstupní stupeň 10 855 4 057 3 766 3 690 2 011 1 918 1 891 1 605 1 605 1 605 1 605 1 605 1 484 1 428 1 428 1 428 1 427 1 408 1 384 1 327 1 317 1 275 1 275 1 275 1 275 1 275 1 273 1 261 1 260 1 260 1 256 1 256 1 253 1 253 1 252 1 252 1 252 1 252 1 214 1 203
O Žebříček in-degree pro země Pozice 1 2 3–5 3–5 3–5 6 7–8 7–8 9 – 10 9 – 10 11 – 12 11 – 12 13 14 15 16 17 – 18 17 – 18 19 20 – 21 20 – 21 22 – 23 22 – 23 24 25 26 27 28 – 29 28 – 29 30 31 32 – 33 32 – 33 34 35 – 36 35 – 36 37 38 39 – 40 39 – 40
Název země United States United Kingdom France Germany Japan China Australia Canada Italy Netherlands Mexico Spain Brazil Switzerland New Zealand Denmark Belgium Hungary South Korea South Africa Sweden Israel Russian Federation Finland Hong Kong India Norway Singapore Thailand Czech Republic Portugal Ireland Taiwan Niger Argentina Georgia Austria Poland Greece Slovenia
86
Vstupní stupeň 162 148 136 136 136 123 120 120 116 116 111 111 106 105 102 101 96 96 93 91 91 90 90 88 86 81 78 77 77 75 74 72 72 70 66 66 65 61 60 60
P Žebříček relativního in-degree pro země
Pozice
Název země
1 2 3 4 5 6 7 8 9 10 – 11 10 – 11 12 13 14 15 – 16 15 – 16 17
Chad Burundi New Caledonia North Korea Mauritania Cape Verde Botswana Bahamas Nicaragua Sudan Togo Albania Ecuador Palestine Dominican Republic Jamaica Armenia Central African Republic Macao Namibia Seychelles Benin Mauritius Suriname Paraguay Mozambique Mali Djibouti Kuwait French Guiana Virgin Islands (U.S.) Guinea Nepal Cuba Laos Liechtenstein Sri Lanka Panama Malawi Morocco
18 19 20 21 22 23 – 24 23 – 24 25 26 27 28 29 30 31 32 33 34 35 – 36 35 – 36 37 38 39 40
87
Relativní vstupní stupeň 1.888 1.750 1.000 0.750 0.710 0.666 0.636 0.611 0.578 0.566 0.566 0.555 0.516 0.515 0.500 0.500 0.464 0.453 0.428 0.400 0.400 0.392 0.333 0.333 0.326 0.312 0.310 0.307 0.303 0.296 0.285 0.264 0.263 0.253 0.250 0.250 0.246 0.245 0.210 0.198
Q Žebříček PageRank pro publikace Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16 17 18 19 20 21 22 23
Název publikace Statistical mechanics of complex networks MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0 The structure and function of complex networks Hierarchical organization of modularity in metabolic networks The anatomy of a large-scale hypertextual Web search engine 1 Large-scale topological and dynamical properties of the Internet Network biology: Understanding the cell's functional organization Fluctuation-driven dynamics of the Internet topology The spread of obesity in a large social network over 32 years Assortative mixing in networks Highly clustered scale-free networks Hierarchical organization in complex networks Tissue architecture: The ultimate regulator of breast epithelial function Attack vulnerability of complex networks Network dynamics and field evolution: The growth of interorganizational collaboration in the life sciences The first Korean genome sequence and analysis: Full genome sequencing for a socioethnic group Consensus and cooperation in networked multi-agent systems Finding and evaluating community structure in networks Ultrafast consensus in small-world networks A Protein Interaction Map of Drosophila melanogaster Organization, development and function of complex brain networks The ADAM metalloproteinases Optimizing search engines using clickthrough data 88
Ohodnocení 0.07166174 0.05572580 0.02375036 0.01939938 0.01205546 0.01085634 0.00904166 0.00602721 0.00414788 0.00397359 0.00390346 0.00365149 0.00330967 0.00330862 0.00292303
0.00288576 0.00271608 0.00235339 0.00224817 0.00223168 0.00220718 0.00220708 0.00219654
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Network structure and biodiversity loss in food webs: Robustness increases with connectance Scale-free topology of e-mail networks Food-web structure and network theory: The role of connectance and size Modular organization of cellular networks Looking for inspiration: New perspectives on respiratory rhythm Assessing experimentally derived interactions in a small world Inferring genetic networks and identifying compound mode of action via expression profiling Mixing patterns in networks The EigenTrust algorithm for reputation management in P2P networks Spread of epidemic disease on networks Sociology: Team assembly mechanisms determine collaboration network structure and team performance Classification of scale-free networks Flocking for multi-agent dynamic systems: Algorithms and theory Superfamilies of Evolved and Designed Networks Sea view version 4: A multiplatform graphical user interface for sequence alignment and phylogenetic tree building Dynamic network visualization Pseudofractal scale-free web
89
0.00216005 0.00204751 0.00193991 0.00191267 0.00185546 0.00172901 0.00171698 0.00164946 0.00161675 0.00159487 0.00158990 0.00156614 0.00151657 0.00147726 0.00143197 0.00140863 0.00138545
R Žebříček PageRank pro autory Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Jméno autora Dudley, J. Kumar, S. Tamura, K. Barabási, A.-L. Nei, M. Newman, M.E.J. Oltvai, Z.N. Albert, R. Ravasz, E. Mongru, D.A. Somera, A.L. Brin, S. Christakis, N.A. Fowler, J.H. Pastor-Satorras, R. Vespignani, A. Vázquez, A. Roth, F.P. Goldberg, D.S. Gascuel, O. Guindon, S. Eguíluz, V.M. Arenas, A. Vicsek, T. Sporns, O. Girvan, M. Amaral, L.A.N. Guimerà, R. Moreno, Y. Gouy, M. Joachims, T. Fortunato, S. Clauset, A. Palla, G. Watts, D.J. Kahng, B. Latora, V. Moore, C. Alon, U. Olfati-Saber, R.
90
Ohodnocení 0.01212882 0.01212134 0.01204339 0.01011045 0.01006596 0.00650166 0.00616644 0.00533644 0.00426807 0.00422248 0.00395130 0.00379672 0.00312825 0.00311647 0.00250220 0.00247849 0.00203876 0.00198836 0.00197779 0.00179360 0.00179360 0.00121701 0.00120947 0.00118538 0.00117105 0.00116008 0.00115783 0.00113855 0.00111900 0.00111834 0.00109484 0.00106429 0.00104348 0.00102552 0.00101843 0.00099786 0.00097391 0.00096984 0.00092467 0.00091340
S Žebříček PageRank pro země Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Název země United States United Kingdom Germany Spain Italy France China Japan Australia Canada Hungary Netherlands Switzerland Israel Belgium Mexico South Korea Hong Kong Brazil Denmark Finland Portugal Sweden South Africa New Zealand Russian Federation India Argentina Slovenia Georgia Austria Singapore Norway Greece Poland Ireland Taiwan Cuba Czech Republic Niger
91
Ohodnocení 0.10308157 0.03257135 0.02478903 0.02146737 0.02117557 0.01918751 0.01895957 0.01475885 0.01119634 0.01068479 0.00970883 0.00903922 0.00856105 0.00724833 0.00605430 0.00602845 0.00601443 0.00569060 0.00553130 0.00524428 0.00491720 0.00487227 0.00457041 0.00409655 0.00398088 0.00361700 0.00310601 0.00272076 0.00272028 0.00251926 0.00231766 0.00221741 0.00211531 0.00205641 0.00197558 0.00194439 0.00186232 0.00181519 0.00177597 0.00171409
T Žebříček HITS pro publikace Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Název publikace Finding and evaluating community structure in networks The structure and function of complex networks Modularity and community structure in networks Uncovering the overlapping community structure of complex networks in nature and society Fast algorithm for detecting community structure in networks Complex networks: Structure and dynamics Finding community structure in very large networks Statistical mechanics of complex networks Community detection in graphs Functional cartography of complex metabolic networks Resolution limit in community detection Hierarchical organization of modularity in metabolic networks Defining and identifying communities in networks Finding community structure in networks using the eigenvectors of matrices Assortative mixing in networks Community detection in complex networks using extremal optimization Detecting community structure in networks Comparing community structure identification Fast unfolding of communities in large networks Network biology: Understanding the cell's functional organization Complex brain networks: Graph theoretical analysis of structural and functional systems Hierarchical organization in complex networks The architecture of complex weighted networks Benchmark graphs for testing community 92
Ohodnocení 0.42280319 0.25917272 0.24755538 0.24273152 0.22662740 0.22573924 0.22172057 0.21816200 0.18524781 0.17543898 0.15991472 0.15026028 0.14216663 0.13924229 0.12446822 0.12347593 0.11212515 0.11113681 0.11091288 0.10876132 0.08700211 0.07944278 0.07574121 0.07234369
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
detection algorithms Maps of random walks on complex networks reveal community structure Modularity from fluctuations in random graphs and complex networks Statistical mechanics of community detection Detecting fuzzy community structures in complex networks with a potts model Mixing patterns in networks Detecting the overlapping and hierarchical community structure in complex networks Analysis of weighted networks Community detection algorithms: A comparative analysis A resilient, low-frequency, small-world human brain functional network with highly connected association cortical hubs Self-similar community structure in a network of human interactions Synchronization reveals topological scales in complex networks Protein complexes and functional modules in molecular networks Near linear time algorithm to detect community structures in large-scale networks Mapping the structural core of human cerebral cortex Quantifying social group evolution An information-theoretic framework for resolving community structure in complex networks
93
0.07233004 0.07010920 0.06787442 0.06609773 0.06605253 0.06176602 0.05678556 0.05607504 0.05593319 0.05271995 0.05266741 0.05230703 0.04979377 0.04891533 0.04787740 0.04696254
U Žebříček HITS pro autory Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Jméno autora Barabási, A.-L. Newman, M.E.J. Wang, J. Li, Y. Wang, X. Wang, Y. Li, J. Oltvai, Z.N. Li, X. Wang, L. Zhang, Z. Xu, X. Wang, B. Tang, H. Liu, Y. Wang, Z. Moreno, Y. Latora, V. Albert, R. Song, C. Li, Z. Boccaletti, S. Chavez, M. Huang, S. Wang, H. Zhang, S. Ravasz, E. Guimerà, R. Zhang, J. Fortunato, S. Sporns, O. Hwang, D.-U. Girvan, M. Kumar, S. Wu, J. Zhang, Y. Liu, X. Fang, L. Amaral, L.A.N. Arenas, A.
94
Ohodnocení 0.10864902 0.10591641 0.10003369 0.09272973 0.08080426 0.07971531 0.07943527 0.07884347 0.07760623 0.07440698 0.07370787 0.07370483 0.06891008 0.06771861 0.06534580 0.06462013 0.06450631 0.06426180 0.06217509 0.06155805 0.06019284 0.05890592 0.05861800 0.05843620 0.05818071 0.05769161 0.05766462 0.05755507 0.05741092 0.05722371 0.05636722 0.05633668 0.05543889 0.05536213 0.05487551 0.05480609 0.05479232 0.05436193 0.05433690 0.05428060
V Žebříček HITS pro země Pozice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Název země United States Spain Germany Italy United Kingdom France Hong Kong Hungary Switzerland Canada China Japan Australia Israel Netherlands South Korea Portugal Brazil Slovenia Belgium Mexico Sweden Finland Denmark Russian Federation Singapore India Argentina Austria Georgia Greece New Zealand Taiwan Poland Norway Ireland Turkey South Africa Cuba Czech Republic
95
Ohodnocení 0.86436690 0.20653399 0.20569834 0.19908870 0.18500411 0.13605074 0.12218229 0.10654518 0.08043843 0.07912555 0.07867403 0.07190430 0.07154404 0.05784400 0.05596840 0.04892461 0.04333945 0.03846508 0.03741154 0.03639854 0.03550494 0.02863567 0.02343445 0.02173477 0.01814599 0.01670336 0.01511137 0.01478291 0.01331564 0.01316424 0.00949241 0.00918548 0.00904337 0.00888994 0.00715396 0.00624839 0.00531652 0.00501489 0.00404206 0.00325818