Data mining pro Terminologickou databázi knihovnictví a informačních věd (TDKIV) (Projektová dokumentace)
Vojtěch Pudil (Vedoucí projektu) Petr Kohout (Zástupce vedoucího projektu) Dana Čapkovičová (Člen projektového týmu) Kamil Jersák (Člen projektového týmu) Martin Liška (Člen projektového týmu) Libor Musil (Člen projektového týmu)
1
Historie revize dokumentu
Datum
Autor
Úprava Vytvoření dokumentu
5. 4 2010
Dana Čapkovičová
•
Zadání a cíl projektu
•
Technická dokumentace řešení projektu o
Analýza struktury dodaných dat
o
Řešení projektu
PHP webová stránka
4.1.3.2 - Zobrazení nalezených výsledků hledání - přidáno 4.1.3.3 - Zobrazení konkrétního výsledku hledání – přidáno 4.1.5.1. Obecné hledání dat - přidáno 2. 5 2010
Dana Čapkovičová
4.1.5.2. Četnost jednotlivých hledaných výrazů SearchQuery_Type - přidáno 4.1.5.3. Četnost jednotlivých hledaných výrazů ScanQuery_Type - přidáno
9. 5. 2010
Dana Čapkovičová
Technická dokumentace
12. 5. 2010
Dana Čapkovičová
Technická dokumentace - pokračování
13. 5. 2010
Dana Čapkovičová
Finální revize, předáno PM pro doplnění
2
Obsah 1.
Použitá terminologie a zkratky...........................................................................................5
2.
Zadání a cíl projektu .........................................................................................................5 2.1.
Zadavatel ......................................................................................................................5
2.2.
Zadání projektu .............................................................................................................5
2.3.
Cíle projektu ..................................................................................................................5
Harmonogram (postup) řešení projektu - plán a skutečnost .........................................................6 3.
Technická dokumentace řešení projektu ...........................................................................7 3.1.
Analýza struktury dodaných dat .....................................................................................7
3.1.1.
Formát dodaných dat..............................................................................................7
3.1.2.
Primární analýza dat...............................................................................................8
3.1.2.1.
Výstupy od projektového týmu........................................................................8
3.1.2.2.
Výstupy od Zadavatele projektu ...................................................................10
3.1.3.
3.2.
Analýza uživatelského rozhraní vyhledávače ........................................................11
3.1.3.1.
Základní vyhledávání ...................................................................................11
3.1.3.2.
Zobrazení nalezených výsledků hledání .......................................................12
3.1.3.3.
Zobrazení konkrétního výsledku hledání.......................................................12
Řešení projektu ...........................................................................................................15
3.2.1.
PHP webová stránka ............................................................................................15
3.2.1.1.
Práce s uživatelským rozhraním ...................................................................15
3.2.1.2.
Technická dokumentace ..............................................................................17
3.2.2.
„DB storky“ ...........................................................................................................17
3.2.2.1.
Obecné hledání dat......................................................................................17
3.2.2.1.1.
Četnost dle typů vyhledávání pro SearchQuery_Type ..............................17
3.2.2.1.2.
Četnost hledání v jednotlivých bázích (Base) ...........................................18
3.2.2.1.3.
Četnost jednotlivých událostí (Event)........................................................18
3.2.2.2.
Četnost hledaných výrazů v logu pro SearchQuery_Type .............................19
3.2.2.2.1.
Hledání EXACT MATCH ..........................................................................19
3.2.2.2.2.
Hledání dle prvních 5 znaků zleva............................................................19
3.2.2.2.3.
Hledání bez diakritiky ...............................................................................20
3.2.2.2.4.
Rozdělení dne do 30 minutových úseků ...................................................21
3.2.2.2.5.
Počet vyhledávání za každý den, týden, měsíc.........................................23
3.2.2.2.6.
Přiřazení hledaných výrazů k jednotlivým položkám databáze ..................24
3
3.2.2.2.7. v databázi 3.2.2.3.
Četnost hledaných výrazů, které nebylo možné přiřadit k žádné položce 25
Četnost jednotlivých hledaných výrazů - ScanQuery_Type ...........................26
4.
Jmenovitý podíl jednotlivých členů týmu na řešení projektu .............................................27
5.
Problémy, s nimiž se tým setkal při řešení projektu .........................................................38
6.
Přínos projektu pro členy týmu ........................................................................................38
4
1.
Použitá terminologie a zkratky
TKDIV - Terminologická databáze knihovnictví a informační vědy NK – Národní Knihovna
2.
Zadání a cíl projektu
2.1.
Zadavatel
Zadavatelem projektu je Terminologická databáze knihovnictví a informační vědy (TDKIV) ve spolupráci s PhDr. Helenou Kučerovou v Praze. Česká terminologická databáze působící v oblasti knihovnictví a informační vědy. TDKIV vznikla v letech 2001-2002 za podpory grantu Ministerstva kultury ČR. Databáze je spravována Knihovnickým institutem Národní knihovna ČR; obsahuje cca 2800 hesel tvořených cca 4200 termíny, které reprezentují všechny podstatné oblasti knihovnictví a informační vědy a souvisejících disciplín.
2.2.
Zadání projektu
Data mining pro Terminologickou databázi knihovnictví a informační vědy.
2.3.
Cíle projektu
Prvotním cílem projektu je identifikace termínů ve Slovníku TKDIV, které nejsou uživateli vyhledávána a proto by měla být z databáze odstraněna. Kromě prvotního cíle byly v průběhu diskusí se zadavatelem identifikovány následující druhotné cíle projektu: •
Identifikovat výrazy, které byly ve Slovníku vyhledávány, ale nebyly nalezeny (ve Slovníku neexistuje odpovídající záznam, či propojení termínů). Toto by mělo sloužit jako podklad pro možné rozšíření množství výrazů ve slovníku.
•
Identifikovat nejčastěji vyhledávané výrazy
•
Identifikovat nejčastěji využívané způsoby vyhledávání
•
Identifikovat možné chyby v systému
•
Identifikovat kdy je databáze nejvíce vytížená
•
... a mnohé další ...
5
3. Harmonogram (postup) řešení projektu - plán a skutečnost
V první fázi došlo ke kontaktování zadavatele. Byla domluvená schůzka, na které jsme formovali požadavky zadavatele projektu.
V druhé fázi došlo na rozdělení práce podle schopností jednotlivých členů týmu a postup prací na nich.
V polovině projektu jsme řešili drobné problémy se zadavatelem a postupně dodělávaly projekt.
Rozdělení a doba trvání jednotlivých prací je vidět na přiloženém grafu.
6
4.
Technická dokumentace řešení projektu
4.1.
Analýza struktury dodaných dat
4.1.1.
Formát dodaných dat
Data byly Zadavatelem projektu dodána v podobě dat exportovaných z databáze ve formě textového souboru.
Figure 1 - Dodaná data Vzhledem ke strukturovanosti dokumentu, bylo možné data jednoduše importovat do programu MS Excel. Takto importovaná data bylo možno již podrobit jednoduché analýze pomocí použití základních funkcí programu MS Excel (filtrování, vyhledávání…).
Figure 2 - Rozdělená data
7
4.1.2.
Primární analýza dat
Na základě primární analýzy dat, byly nalezeny základní informace o vyhledávaných datech, avšak, objevilo se mnohem více otázek, nežli odpovědí.
4.1.2.1.
Výstupy od projektového týmu
TIMESTAMP •
význam: časová známka
•
přiklad: 2010011320414702 -> RRRRMMDDHHMMSSSS
EVENT •
význam: neznámy (způsob vyhledávání v dané bázi?)
•
použité hodnoty: 21, 22, 25, 29 o
hodnoty 21, 25 se vyskytuji pouze při vyhledávání v bázi KTD
21 - při vyhledávání jako SEARCH_QUERY (Free-text, termín, třídění KKL)
25 - při vyhledávání jako SEARCH_QUERY (vyhledávání dle dvou kritérií) •
Třídění KKL= "s" AND „Free-text= informační and slu“
•
Třídění KKL= "s" AND Třídění KKL= "informační and
o
hodnota 29 - při vyhledávání jako SCAN_QUERY (všechny možnosti) - báze KTD, KTDP
o
hodnota 22 - při vyhledávání jako SEARCH_QUERY (Termín, sys)
termín – malý počet výskytů, pouze 2 vyhledávané řetězce •
termín = Absenční výpůjčka
•
termín = referen? slu? (pouze jeden výskyt)
sys - vždy pouze jako kód / číslo - pouze dva vyhledávané řetězce •
sys= 000001371
•
sys= 1931 (pouze jeden výskyt)
BASE •
význam: neznámý - nejspíše prohledávaná databáze
•
použité hodnoty: KTD, KTDBN, KTDN, KTDP
SEARCH_QUERY •
význam: neznámý
•
struktura výstupu: způsob vyhledávání + hledaný vyraz
•
možnost vyhledávat jako:
8
o
free-text - libovolný text zadaný do vyhledávacího formuláře
o
termín – způsob vyhledávání neznámý
o
term / TERM - způsob vyhledávání neznámý
o
sys / SYS - způsob vyhledávání neznámý
o
třídění KKL - způsob vyhledávání neznámý
HITS •
pravděpodobný význam: počet záznamů odpovídajících danému vyhledávajícímu kriteriu
SCAN_QUERY •
pravděpodobný význam: neznámý
•
struktura výstupu: způsob vyhledávání + hledaný výraz / pojem / jméno ...
•
příklady výstupu: TR = Revize, TR = muzikoterapie etc. o
AU = ; většinou AU = nějaké jméno (-> Autor?)
o
KZ = ; většinou KZ = nějaké jméno (???)
o
LK = ; většinou LK = nějaké jméno (???)
o
TE = ; většinou TE = nějaký technický termín (???)
o
TK = ; většinou TK = nějaká zkratka (???)
o
TR = ; většinou TR = nějaký termín (???)
Otázky •
Jaký je rozdíl mezi Search_Query a Scan_Query?
•
Jakým způsobem vyhledává uživatel v databázi? Jak vypadá uživatelské rozhraní vyhledávače? o
Jaké možnosti vyhledávání má uživatel? Free-text vs. Vyhledávání dle kritérií
o
Může uživatel volit mezi bázemi ve kterých chce vyhledávat?
•
Je k dispozici kompletní seznam pojmů ve Slovníku? Je k dispozici plná verze Slovníku? Ideálně ve formátu jako export z databáze.
•
co konkrétné znamenají následující pojmy / zkratky... o
Event, Base, Search query, Scan query •
Event: 21, 22, 25, 29
•
Base: KTD, KTDBN, KTDN, KTDP
•
Search query: free-text, termín, term, sys, třídění KKL
•
Scan query: AU, KZ, LK, TE, TK, TR
9
4.1.2.2.
Výstupy od Zadavatele projektu
Zjištěné skutečnosti byly diskutovány se Zadavatelem projektu a projektovému týmu byly poskytnuty dodatečné informace, které zodpověděly většinu otázek. TIME_STAMP - časový údaj hledání (rok+měsíc+den+hodina) EVENT - událost; níže jsou uvedeny kódy událostí: •
10 - hledání - záznamy nalezeny
•
11 - hledání - dosaženo limitu
•
12 - hledání - záznamy nenalezeny
•
20 - vyhledávání z více polí (find-a)
•
21 - základní vyhledávání (find-b)
•
22 - vyhledávání CCL (find-c)
•
23 - pokročilé vyhledávání (find-d)
•
24 - vyhledávání z více bází (find-m)
•
25 - zpřesnit dotaz
•
26 - kombinovat dotaz
•
29 - vyhledávání v rejstřících
BASE - v jaké bázi bylo provedeno hledání •
KTD - oficiální báze
•
KTDP - pracovní báze
•
KTDBN - dílčí báze „Termíny bez normativního výkladu“
•
KTDN - dílčí báze „Termíny s normativním výkladem“
SEARCH_QUERY - vyhledávání (kromě vyhledávání v rejstřících - viz SCAN_QUERY); v jakém poli jaké slovo bylo hledáno HITS - v kolika záznamech se hledané slovo vyskytuje; (při vyhledávání v rejstřících jsou HITS vždy nula) SCAN_QUERY - vyhledávání v rejstřících (když je pouze např. TR=, tak dotyčný nenapsal nic nebo napsal mezeru) •
TR - termín/ekvivalent
•
TE - anglický ekvivalent
•
TK - věcná skupina
•
AU - autor hesla
•
RE - redaktor hesla
•
KZ - konzultant hesla
10
•
LK - lektor hesla
•
ZD - zdroj/norma
Od Zadavatele jsme získali několik odkazů na webové stránky, které by nám mohly pomoci v dalším zpracovávání projektu: •
http://sigma.nkp.cz/F/2FLMKB3CLFH4T7R8S84LMYKHPAAN1C3MJ488QAG6D2VFC3 PBVQ-51082?func=file&file_name=find-b&local_base=KTD
•
http://www.nkp.cz/o_knihovnach/Slovnik/index.htm
•
http://vydavatelstvi.vscht.cz/katalog/uid_isbn-80-7080-599-4 (ukázka slovníku)
Dále se nám podařilo od zadavatele získat plný seznam termínů, které slovník obsahuje, což nám dále posloužilo pro další dolování dat.
4.1.3.
Analýza uživatelského rozhraní vyhledávače
Vyzkoušet si na vlastní kůži, jak uživatelé používají Slovník a Vyhledávač jsme vyhodnotili jako nejlepší způsob, jak porozumět datům, které máme doposud k dispozici. Slovník je dostupný na www stránkách Národní Knihovny, konkrétně: http://sigma.nkp.cz:4505/F/?func=file&file_name=find-a&local_base=ktd
Vyhledávač Slovníku umožňuje dva základní způsoby vyhledávání: •
Základní vyhledávání
•
Prohlížení rejstříků
4.1.3.1.
Základní vyhledávání
11
Pro vyhledávání způsobem „Základního vyhledávání“ je třeba vyplnit: •
Údaj pro vyhledávání (způsob vyhledávání: Free-text, Termín / ekvivalent, Třídník, Systémové číslo)
•
Slovo nebo slovní spojení
•
Blízkost slov (vyhledávat přesné či podobné znění výrazu)
4.1.3.2.
Zobrazení nalezených výsledků hledání
Poté co proběhne vyhledávání v databázi, systém zobrazí seznam výsledků odpovídajících zadaným kritériím vyhledávání. Uživatel má možnost si dále ze seznamu výsledků vybrat jeden konkrétní a zobrazit si o něm bližší informace.
4.1.3.3.
Zobrazení konkrétního výsledku hledání
Existují tři druhy zobrazení konkrétního výsledku hledání: •
Standardní o
•
Termín & výklad o
•
Nejpodrobnější zobrazení obsahující veškeré dostupné informace o daném termínu (viz. Ukázka níže)
Zjednodušené zobrazení obsahující pouze název termínu a jeho výklad (plus několik dalších základních informací, které však mají pouze spíše katalogizační charakter)
Termín & angl.ekvivalent o
Zjednodušené zobrazení obsahující pouze český a anglický název termínu (anglický ekvivalent termínu)
12
Termín Termín anglicky
klíčové slovo keyword key word
Výklad termínu
Významové slovo nebo slovní spojení, obvykle ve formalizované podobě, vybrané z názvu nebo textu dokumentu a sloužící jako věcný selekční údaj. [HARROD-1990:346] [KATUŠČÁK,MATTHAEIDESOVÁ,NOVÁKOVÁ-1998:177] [SCHWARZ-1999:11] [SMETÁČEK-1984:88] [ČSN ISO 5127-6,1994:7]
Normativní výklad
Významové slovo převzaté z názvu nebo textu dokumentu s cílem reprezentovat jeho obsah. [ČSN ISO 5127-2003] Slovo nebo skupina slov, případně v lexikograficky standardizované formě, vybraných z názvu nebo z textu dokumentu, charakterizující jeho obsah a umožňující jeho vyhledávání. [výklad z neplatné normy] [ČSN ISO 5127-6,1994]
Zdroj výkladu
HARROD-1990:346
KATUŠČÁK,MATTHAEIDESOVÁ,NOVÁKOVÁ-1998:177
SCHWARZ-1999:11
SMETÁČEK-1984:88
ČSN ISO 5127-6,1994:7 Zdroj norm.výkladu ČSN ISO 5127-2003
13
ČSN ISO 5127-6,1994 Příbuzný termín
deskriptor názvový katalog odvozená indexace předmětový selekční jazyk rotovaný rejstřík uniterm
Autor hesla
Balíková, Marie
Lektor hesla
Hrazdil, Aleš
Redaktor hesla
Schwarz, Josef Burgetová, Jarmila
Systém. číslo
000001563
14
4.2.
Řešení projektu
4.2.1.
PHP webová stránka
Byla vytvořena webová stránka, která umožňuje zobrazit výrazy hledané v určitém časovém úseku. Nejmenší možný časový interval je jedna hodina. Náš jednoduchý vyhledávač neumožňuje vyhledávání podle data, pouze zobrazuje termíny vyhledávané v daném časovém intervalu nezávisle na datu vyhledávání.
4.2.1.1.
Práce s uživatelským rozhraním
Naše webová stránka je dostupná na této adrese: http://projektpis.borec.cz/projekt.php. Existují dvě možnosti vyhledávání:
•
Zobrazení statistiky vyhledávání v určitém časovém intervalu (per hledaný výraz)
•
Zobrazení celkové statistiky vyhledávaní (per hledaný výraz)
Pro zobrazení statistiky pro určitý časový interval, si uživatel musí vybrat počátek časového intervalu – „Od“ a konec časového intervalu – „Do“. Po zadání těchto základních kritérií vyhledávání uživatel potvrdí svou volbu stlačením tlačítka „Vyhledat“, na základě které, webová stránka zobrazí statistiky pro vybraný časový interval.
Webová stránka taktéž umožňuje zobrazení jednoduché statistiky pro všechny časová období (= celý datový vzorek, který jsme dostali k prozkoumání). Pro zobrazení celkové statistiky vyhledávání, uživatel musí zvolit jako oba časové parametry hodnotu „Vše“.
15
Jako výsledek vyhledávání webová stránka zobrazí na prvním řádku výsledku celkový počet výrazů vyhledávaných v daném časovém intervalu.
Níže jsou zobrazeny data pro jednotlivé vyhledávaná slova v daném časovém intervalu.
16
4.2.1.2.
Technická dokumentace
Data byla importována do Excelu, kde byla následně exportována do .csv formátu. Z tohoto souboru byly data následně importovány do tabulky, která již byla připravena v SQL databázi. Tato databáze je napojena na naši webovou stránku a vyhledávání probíhá pomocí dotazů napsaných v jazyku PHP. Vyhledávání funguje na principu dotazu na databázi s dle potřeby upravitelnými časovými parametry, které se předávají z formuláře do PHP části do proměnných, s těmi se pak dále pracuje a provedou se nutné podmínky pro vyhledávání, díky čemuž se pak následný dotaz na databázi stává dynamickým a ne statickým. Tento dotaz nám vrátí jednotlivé výrazy ze sloupce vyhledávání SEARCH_QUERY, které jsou následně předány do proměnné a pomocí PHP spojeny do jednoho textového řetězce, řetězec je následně rozdělen na jednotlivá slova, u nichž je poté spočtena jejich četnost a provádí se seřazení a výpis.
4.2.2.
„DB storky“
Pro data mining bylo definováno zadání uvedené níže. Jelikož nesprávným používáním systému mohly vzniknout duplicitní záznamy, je třeba provést data mining dvojí: •
V potaz budou brána veškerá data v logu
•
V potaz budou brána pouze data očištěná o možné duplicity: o
v případě, že pro ten samý výraz existuje vice záznamů, kde je časový rozestup jednotlivých vyhledávání kratší než 2 minuty, započítej výskyt pouze jednou
Dále v projektové dokumentaci jsou uvedeny pouze některé výstupy a mnohdy pouze jejich části. Kompletní výstupy jsou k nalezení v přílohách projektu.
4.2.2.1.
Obecné hledání dat
4.2.2.1.1.
Četnost dle typů vyhledávání pro SearchQuery_Type
Definice dotazu Počet hledaných výrazů při použití vyhledávání v databázi pro každý způsob vyhledávání typu SearchQuery. Získaná data (ukázka) Search_Query_Type_1 Free-text Term Třídění KKL sys Česky Celkem
Interpretace získaných dat
17
Count 6837 1481 59 30 3 8410
Uživatelé nejčastěji používají jako způsob vyhledávání “Free-text” a “Term” či “Termín”. Četnost ostatních způsobů vyhledávání je oproti těmto způsobům celkem zanedbatelná.
4.2.2.1.2.
Četnost hledání v jednotlivých bázích (Base)
Definice dotazu Počet hledaných výrazů v jednotlivých bázích v databázi vyhledávání typu SearchQuery. Získaná data (ukázka) Base KTD KTDP KTDN KTDBN Celkem
Count 8391 17 1 1 8410
Interpretace získaných dat Uživatelé nejčastěji využívají k vyhledávání dat bázi KTD. Četnost vyhledávání v ostatních bázích je oproti bázi KTD celkem zanedbatelná.
4.2.2.1.3.
Četnost jednotlivých událostí (Event)
Definice dotazu Počet hledání, která končí danou událostí. Získaná data (ukázka) Event 21 22 25 Celkem
Count 8372 22 16 8410
Interpretace získaných dat Jako nejčastější událost při vyhledávání SearchQuery byl nalezen typ „21 – základní vyhledávání (find-b)“. Dále byly nalezeny události „22 – vyhledávání CCL (find-c)“ a „25 – zpřesnit dotaz“. Pro ScanQuery vyhledávání mají záznamy uloženu událost „29 – vyhledávání v rejstřících“. Z toho plyne, že některé typy událostí během námi sledovaného období nebyly zaznamenány. Toto může mít několik důvodů. Dva nejpravděpodobnější jsou: •
Událost opravdu nenastala a proto nebyla uložena.
•
Událost nastala, ale chybou v systému nebyla uložena nebo místo ní byla uložena událost jiná. Pro tuto hypotézu svědčí i následující fakt:
18
o
V logu existují vyhledávání, pro které nebyl nalezen žádný výsledek, avšak ani u takovýchto vyhledávání není uložena událost „12 – hledání – záznamy nenalezeny“.
4.2.2.2.
Četnost hledaných výrazů v logu pro SearchQuery_Type
4.2.2.2.1.
Hledání EXACT MATCH
Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání EXACT MATCH. Získaná data (ukázka) Search_Query_Type_1 akvizice rešerše bibliografie knihovna monografie informace čtenář databáze Internet anotace dokument informační gramotnost digitalizace NULL katalog OPAC citace Digitální knihovna abstrakt akviziční činnost
Count 142 108 87 67 61 56 53 51 44 42 40 40 34 32 31 31 30 29 28 28
Hits_min 5 25 35 79 2 47 5 29 5 11 41 1 1 0 69 1 8 1 9 0
Hits_max 14 40 53 109 9 215 11 73 19 20 212 4 3 1 77 3 15 2 13 0
Interpretace získaných dat Většina nejčastěji vyhledávaných výrazů v databázi existuje (existují Hits). Dále záznam „NULL“ nastiňuje možnost, že uživatelské rozhraní umožňuje vyhledávání prázdných výrazů. Toto by bylo vhodné ošetřit kontrolou obsahu pole pro zadání vyhledávaného výrazu před tím, než samotné vyhledávání skutečně proběhne.
4.2.2.2.2.
Hledání dle prvních 5 znaků zleva
19
Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání stejných 5 znaků zleva. Získaná data (ukázka) Search_Query_Type_1 infor bibli kniho akviz rešer digit elekt dokum monog anota
Count 544 355 233 203 186 138 97 96 73 43
Hits_min 0 0 0 0 0 0 0 0 0 0
Hits_max 598 89 421 14 40 59 62 212 9 20
Interpretace získaných dat Dotazy do databáze se nejčastěji týkají informací. Toto nebylo z předcházejících hledání patrné, jelikož hledání týkajících se informací je sice mnoho, ale slovo „informace“ je použito v různých spojeních a formách (přídavné jméno atd.) na rozdíl ostatních nejčastěji vyhledávaných výrazů, které jsou uživateli většinou vyhledávány ve stejném tvaru.
4.2.2.2.3.
Hledání bez diakritiky
Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání stejných slov zbavených veškeré diakritiky. Získaná data (ukázka) Bez diakritiky Search_Query_Type_1 akvizice reserse bibliografie knihovna monografie informace ctenar databaze informacni system Internet anotace Informacni gramotnost
Count 142 108 87 67 61 56 53 52 44 44 42 42
Vyhledávání s diakritikou Search_Query_Type_1 Count akvizice 142 rešerše 108 bibliografie 87 knihovna 67 monografie 61 informace 56 čtenář 53 databáze 51 Internet 44 anotace 42 dokument 40 informační gramotnost 40
20
dokument digitalizace NULL katalog OPAC akvizicni cinnost citace Digitalni knihovna
40 34 32 31 31 30 30 29
digitalizace NULL katalog OPAC citace Digitální knihovna abstrakt akviziční činnost
34 32 31 31 30 29 28 28
Interpretace získaných dat Uživatelé používají k vyhledávání často i výrazy zbavené diakritiky. Vyhledávání v databázi však vyhledává jak slova s diakritikou, tak bez diakritiky, takže toto zjištění nemá žádné důsledky.
4.2.2.2.4.
Rozdělení dne do 30 minutových úseků
Definice dotazu Počet vyhledávaných výrazů v 30-minutových intervalech. Cílem tohoto hledání je najít dobu, kdy je databáze nejvíce vytížená. Získaná data – seřazeno dle denní doby Time 0:00:00 0:30:00 1:00:00 1:30:00 2:00:00 2:30:00 3:00:00 3:30:00 4:00:00 4:30:00 5:00:00 5:30:00 6:00:00 6:30:00 7:00:00 7:30:00 8:00:00 8:30:00 9:00:00 9:30:00 10:00:00 10:30:00
Count 58 23 12 21 44 46 24 7 8 16 1 3 2 7 20 49 187 135 262 291 328 336
AVG 1,035714 0,410714 0,214286 0,375 0,785714 0,821429 0,428571 0,125 0,142857 0,285714 0,017857 0,053571 0,035714 0,125 0,357143 0,875 3,339286 2,410714 4,678571 5,196429 5,857143 6
Time 12:00:00 12:30:00 13:00:00 13:30:00 14:00:00 14:30:00 15:00:00 15:30:00 16:00:00 16:30:00 17:00:00 17:30:00 18:00:00 18:30:00 19:00:00 19:30:00 20:00:00 20:30:00 21:00:00 21:30:00 22:00:00 22:30:00
21
Count 284 290 266 374 238 300 325 370 366 407 285 250 307 259 220 187 196 181 228 198 166 89
AVG 5,071429 5,178571 4,75 6,678571 4,25 5,357143 5,803571 6,607143 6,535714 7,267857 5,089286 4,464286 5,482143 4,625 3,928571 3,339286 3,5 3,232143 4,071429 3,535714 2,964286 1,589286
11:00:00 11:30:00
300 316
5,357143 5,642857
23:00:00 23:30:00
77 51
1,375 0,910714
Time 19:30:00 8:00:00 20:30:00 22:00:00 8:30:00 22:30:00 23:00:00 0:00:00 23:30:00 7:30:00 2:30:00 2:00:00 3:00:00 0:30:00 1:30:00 7:00:00 4:30:00 1:00:00 4:00:00 6:30:00 3:30:00 5:30:00 6:00:00 5:00:00
Count 187 187 181 166 135 89 77 58 51 49 46 44 24 23 21 20 16 12 8 7 7 3 2 1
AVG 3,339286 3,339286 3,232143 2,964286 2,410714 1,589286 1,375 1,035714 0,910714 0,875 0,821429 0,785714 0,428571 0,410714 0,375 0,357143 0,285714 0,214286 0,142857 0,125 0,125 0,053571 0,035714 0,017857
Získaná data – seřazeno vytížení databáze Time 16:30:00 13:30:00 15:30:00 16:00:00 10:30:00 10:00:00 15:00:00 11:30:00 18:00:00 11:00:00 14:30:00 9:30:00 12:30:00 17:00:00 12:00:00 13:00:00 9:00:00 18:30:00 17:30:00 14:00:00 21:00:00 19:00:00 21:30:00 20:00:00
Count 407 374 370 366 336 328 325 316 307 300 300 291 290 285 284 266 262 259 250 238 228 220 198 196
AVG 7,267857 6,678571 6,607143 6,535714 6 5,857143 5,803571 5,642857 5,482143 5,357143 5,357143 5,196429 5,178571 5,089286 5,071429 4,75 4,678571 4,625 4,464286 4,25 4,071429 3,928571 3,535714 3,5
Získaná data – prodlevy mezi vyhledáváními All rows AVG_SearchDiffTime 568
8:00-20:00 AVG_SearchDiffTime 312
Top10 30MIN interval AVG_SearchDiffTime 110
Interpretace získaných dat Databáze je nejméně využívaná mezi 03:00 a 07:00 ráno. Nejvíce je databáze využívána mezi 10:00 a 22:00. Naprostá špička pak nastává mezi 15:00 a 17:30. To že databáze je značně využívaná i v nočních hodinách svádí k myšlence, že databáze je hojně využívána nikoliv pouze zaměstnanci knihoven, ale také studenty.
22
Průměrná prodleva mezi všemi hledáními činí 568 vteřin. Průměrná prodleva mezi hledáními mezi 8.00 a 20.00 činí 312 vteřin. Průměrná časová prodleva v 10 nejvytíženějších časových intervalech činí 110 vteřin.
4.2.2.2.5.
Počet vyhledávání za každý den, týden, měsíc
Definice dotazu Počet vyhledávání v databázi TKDIV za každý den, týden a měsíc. Získaná data – denní přehled Day 1.1.2010 2.1.2010 3.1.2010 4.1.2010 5.1.2010 6.1.2010 7.1.2010 8.1.2010 9.1.2010 10.1.2010 11.1.2010 12.1.2010 13.1.2010 14.1.2010 15.1.2010 16.1.2010 17.1.2010 18.1.2010 19.1.2010
Count 112 254 148 166 410 306 163 174 98 93 243 190 135 212 125 59 115 190 209
Day 20.1.2010 21.1.2010 22.1.2010 23.1.2010 24.1.2010 25.1.2010 26.1.2010 27.1.2010 28.1.2010 29.1.2010 30.1.2010 31.1.2010 1.2.2010 2.2.2010 3.2.2010 4.2.2010 5.2.2010 6.2.2010 7.2.2010
Count 230 180 78 121 165 167 103 98 165 185 33 40 169 236 141 197 134 135 103
Získaná data – seřazeno dle dne v týdnu Den Po Út St Čt Pá So Ne
Total 1564 1514 1310 1280 974 840 928
Získaná data – týdenní přehled Week
Count
23
Day 8.2.2010 9.2.2010 10.2.2010 11.2.2010 12.2.2010 13.2.2010 14.2.2010 15.2.2010 16.2.2010 17.2.2010 18.2.2010 19.2.2010 20.2.2010 21.2.2010 22.2.2010 23.2.2010 24.2.2010 25.2.2010
Count 226 148 181 93 115 88 201 263 64 101 141 51 52 63 140 154 118 129
2009/53 2010/1 2010/2 2010/3 2010/4 2010/5 2010/6 2010/7 2010/8
514 1410 1079 1173 791 1115 1052 735 541
Získaná data – měsíční přehled Month 2010/1 2010/2
Count 4967 3443
Interpretace získaných dat Databáze je nejvíce využívaná v pondělky a úterky. Databáze byla nejméně využívána těsně po Novém roce a nejvíce využívána během počátku ledna po skončení vánočních prázdnin.
4.2.2.2.6.
Přiřazení hledaných výrazů k jednotlivým položkám databáze
Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání stejných 5 znaků zleva. Získaná data (ukázka) – EXACT MATCH
24
Interpretace získaných dat Dotazy do databáze se nejčastěji týkají informací. Toto nebylo z předcházejících hledání patrné, jelikož hledání týkajících se informací je sice mnoho, ale slovo „informace“ je použito v různých spojeních a formách (přídavné jméno atd.) na rozdíl ostatních nejčastěji vyhledávaných výrazů, které jsou uživateli většinou vyhledávány ve stejném tvaru.
4.2.2.2.7. Četnost hledaných výrazů, které nebylo možné přiřadit k žádné položce v databázi Definice dotazu Počet vyhledávání jednotlivých výrazů, které nebylo možno přiřadit k žádné položce v databázi. Získaná data (ukázka) Search_Query_Type_1 akviziční činnost dokumentografie informační potřeba uživatel rešeršních služeb repozitář reprograficá služba informacni system velká británie dds browse grafie BIBLIO informační profese odborné databáze refektář věcné autority otevřený přístup alerts audiokniha
Count 28 20 18
Hits_min 0 0 0
Hits_max 0 0 0
18 17 17 16 16 14 12 12 11 11 11 11 11 10 9 9
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Interpretace získaných dat Část vyhledávaných výrazů, ke kterým nebyl nalezen žádný výsledek v databázi se nějakým způsobem týkají nejvíce vyhledávaných výrazů, které svůj ekvivalent v databázi mají. Toto svádí k myšlence, že by bylo vhodné revidovat „Ekvivalenty“ termínů v databázi a tyto hledané výrazy přiřadit k termínům jako ekvivalenty.
25
4.2.2.3. •
Četnost jednotlivých hledaných výrazů - ScanQuery_Type
Četnost jednotlivých vyhledávaných výrazů rozdělené dle ScanQuery_Type (vše seřazeno DESC) o
Hledání EXACT MATCH
o
Hledání SOUND LIKE
o
Hledání dle prvních 5 znaků zleva
Hledání bez diakritiky
26
4.2.2.4. •
Četnost hledání v jednotlivých bázích
Četnost jednotlivých vyhledávaných výrazů rozdělený podlé báze
27
4.2.2.5. •
Četnost jednotlivých událostí
Počet hledání, která končí danou událostí
28
4.2.2.6. •
Četnost jednotlivých hledaných výrazů
Nejčastěji vyhledávané výrazy s minimálním a maximálním množstvím nalezených položek
29
4.2.2.7. •
Hledání výrazů bez a s diakritikou
Změny v počtu vyhledaných dotazů, když se nepoužije diakritika
30
4.2.2.8. •
Hledání dle prvních 5 znaků zleva
Počet vyhledávaných výrazů a nalezených položek, pokud bereme v potaz pouze prvních pět písmen
31
4.2.2.9. •
Celková četnost hledání v třicetiminutových intervalech
Rozdělení dne do 30 minutových úseků
32
4.2.2.10. •
Vytížení databáze běhen dne
Vytížení databáze v průběhu dne, rozděleno od nejvyšší až po nejvyšší vytížení
33
4.2.2.11. •
Denní přehled
Celkový počet dotazů v jednotlivých dnech za sledované období
34
4.2.2.12. •
Řazení dle dne v týdnu
Celkové množství vyhledávaných výrazů v jednotlivých dnech týdne
35
4.2.2.13.
Týdenní a měsíční přehled
•
Množství vyhledávaných výrazů v jednotlivých týdnech
•
Množství vyhledávaných výrazů v lednu a v únoru 2010
36
4.2.2.14. Četnost hledaných výrazů, které nebylo možné přiřadit k žádné položce v databázi •
Nejčastěji vyhledávané výrazy, u kterých nebyla nalezena žádná položka v databázi
37
5. Jmenovitý podíl jednotlvých členů týmu na řešení projektu Vojtěch Pudil (Vedoucí projektu) Řízení projektu, organizace, dokumentace, práce v excelu Petr Kohout (Zástupce vedoucího projektu) Práce v excelu, grafy Dana Čapkovičová (Člen projektového týmu) Dokumentace, DB storky, práce v excelu Kamil Jersák (Člen projektového týmu) Práce v excelu, grafy Martin Liška (Člen projektového týmu) Webové rozhraní pro databázi v PHP Libor Musil (Člen projektového týmu) Webové rozhraní pro databázi v PHP
6. Problémy, s nimiž se tým setkal při řešení projektu Občasné problémy při komunikaci se zadavatelem projektu, prvotní rozdělení prací.
7.
Přínos projektu pro členy týmu
Největším přínosem pro členy týmu bylo ověření schopností získaných na této škole, částečně ty schopnosti jak by mohl vypadat projekt v praxi, dále si tým znovu zopakoval práci v programu Excel a to důkladně, procvičení práce s Wordem a databázemi. Zjistili jsme, že databáze je nejméně využívaná mezi 03:00 a 07:00 ráno. Nejvíce je databáze využívána mezi 10:00 a 22:00. Naprostá špička pak nastává mezi 15:00 a 17:30. To že databáze je značně využívaná i v nočních hodinách svádí k myšlence, že databáze je hojně využívána nikoliv pouze zaměstnanci knihoven, ale také studenty. Průměrná prodleva mezi všemi hledáními činí 568 vteřin. Průměrná prodleva mezi hledáními mezi 8.00 a 20.00 činí 312 vteřin. Průměrná časová prodleva v 10 nejvytíženějších časových intervalech činí 110 vteřin.
38