Věcné zpracování v NK ČR
[email protected]
M. Balíková, NK ČR
UISK duben 2010
1
• Stručná charakteristika činnosti oddělení ONVAZ • Věcná katalogizace a věcné autority v současném prostředí • Projekty – metoda Konspektu – Konspektové schéma
– – – – –
sdílená katalogizace Cluster 1 tematická mapa fondů projekt TOC, slova z obsahů M-CAST, UDC/MDT online kooperace s paměťovými institucemi – autority jako nástroj interoperability – věcné autority
M. Balíková, NK ČR
UISK duben 2010
2
1
Cíl: kvalitní popis a zpřístupnění informačních zdrojů •
Efektivní a kvalitní zpřístupnění informačních zdrojů, jejich částí a jednotlivých informací v nich obsažených standardním způsobem
•
Důraz na zpřístupnění informací prostřednictvím obsahových charakteristik
M. Balíková, NK ČR
UISK duben 2010
3
Předpoklady věcné katalogizace • • •
• • • •
Standardizace pravidel, metod, nástrojů Správná obsahová analýza – identifikace témat Řízená a pojmová indexace – Výběr indexačních termínů z předem definovaného jazyka Struktura zápisu věcných selekčních prvků – respekt formátů Sdílená katalogizace Kooperace institucí s univerzálním fondem Kooperace institucí se speciálními fondy
M. Balíková, NK ČR
UISK duben 2010
4
2
Doporučení, principy a zásady věcné katalogizace • • • •
•
Všeobecná dostupnost informací Ohled na uživatele katalogu – cílový uživatel Běžné použití – Výběr termínů, variantní formy jako odkazy Prezentace entit při popisu – omezení formalizace, respekt formy názvu, formy termínu – Přirozený slovosled – Celistvost termínu Správnost popisu informačního zdroje – Bibliograficky významné prvky – neuvádět vycpávková slova – Konzistentní reprezentace tématu
M. Balíková, NK ČR
UISK duben 2010
5
Věcné pořádání informací • součást informačního procesu • proces organizace informací získaných obsahovou analýzou dokumentu • výsledek procesu - uspořádání obsahových údajů do struktury za účelem jejich vyhledání
Informační proces • proces zahrnující získávání, zpracování, uchovávání, přenos a využívání informací • složky informačního procesu z hlediska věcného zpracování – informace, dokument – objekt – subjekt – prostředky=nástroje používané v informačním procesu
M. Balíková, NK ČR
UISK duben 2010
6
3
Sekundární dokument - záznam o dokumentu • souhrn identifikačních a obsahových údajů o primárním dokumentu – sloužících k jednoznačné identifikaci po formální i obsahové stránce • bibliografický či metadatový záznam – struktura selekčních údajů – pravidla a standardy
M. Balíková, NK ČR
UISK duben 2010
7
Subjekt – autor, koncový uživatel autor • měnitelnost informací • šíření informací • požadavek na zpřístupnění informací – účinný, srozumitelný a snadno aplikovatelný nástroj pro zpřístupnění informací autor – Web 2.0 uživatel • získat informace – primární či sekundární dokument • účinný a srozumitelný nástroj pro vyhledání informací • formulace dotazu • účinná rešeršní strategie podílet se na tvorbě informací - tagování
M. Balíková, NK ČR
UISK duben 2010
8
4
Informační pracovník – pořádací nástroje •
• • •
• •
•
obsahová analýza dokumentu – intelektuální analýza – sémantická redukce textu – základní a dílčí témata – vyjádření vlastními slovy převod do lexikálních jednotek informačního jazyka reprodukce přesného obsahu informace – omezit subjektivní přístup (korekce) Selekční jazyky informační jazyky – nástroj reprezentace informací – prostřednictvím komprimace (redukce) informací faktografické dokumentografické – identifikační – věcné selekční jazyky přirozený jazyk jako informační jazyk - plnotextové vyhledávání
M. Balíková, NK ČR
UISK duben 2010
9
Věcné selekční jazyky • podle typu používaných selekčních prvků – věcné selekční jazyky na bázi přirozeného jazyka • lexikální jednotky jsou vybírány z přirozeného jazyka – systematické selekční jazyky DDC DDC_OCLC MDT • lexikální jednotky představují numerické, případně alfanumerické znaky • podle způsobu organizace lexikálních jednotek v procesu indexování a vyhledávání • prekoordinované selekční jazyky – téma dokumentu vyjádřeno sestavou lexikálních jednotek podle předem stanovených syntagmatických a syntaktických pravidel už v průběhu indexování • postkoordinované selekční jazyky – téma dokumentu vyjádřeno sestavou izolovaných jednotek, mezi nimiž nejsou syntaktické vztahy explicitně vyjádřeny
M. Balíková, NK ČR
UISK duben 2010
10
5
Věcné sel. jazyky na bázi přirozeného jazyka • jazyk klíčových slov • z názvů a podnázvů • smysluplná slova v bibliografickém záznamu • jazyky předmětového typu – jazyk předmětových hesel • jazyky deskriptorového typu – oborové tezaury – polytematické tezaury • jazyk neřízených předmětových termínů (klíčových slov tvořených katalogizátorem) – izolované lexikální jednotky • soubor autorit – integrovaný nástroj • lexikum - soubor používaných lexikálních jednotek • struktura tj. vyjádření vztahů mezi lexikálními jednotkami • aplikační syntax – soubor pravidel pro spojování lexikálních jednotek při tvorbě selekčního obrazu dokumentu
M. Balíková, NK ČR
UISK duben 2010
11
Prekoordinace, postkoordinace přiřazení několika indexačních termínů jedné popisné jednotce • prekoordinace – pořadí lexikálních jednotek je stanoveno, fixní – pravidla – řetězce předmětových hesel • malířství české -- rok 1930-1945 -- náměty protiválečné -výstava (Olomouc r. 1985) – katalogy • náměty protiválečné -- malířství české -- rok 1930-1945 -výstava (Olomouc r. 1985) – katalogy • postkoordinace • dokumentu přiděleny izolované lexikální jednotky, nejsou koordinovány • české malířství * česká architektura * náměty, témata a motivy * 18. stol. * • české malířství • česká architektura • náměty, témata a motivy M. Balíková, NK ČR
UISK duben 2010
12
6
Charakteristika jazyka předmětových hesel (JPH) • předmětové heslo – jednoslovné nebo víceslovné formálně upravené vyjádření tematiky, případně formální charakteristiky dokumentu • řetězec předmětového hesla – heslo + podhesla // vstupní prvek + jednotlivá zpřesnění • induktivní metoda • • • • • •
adekvátní vyjádření komplexních témat dominantní prvek - prekoordinace detailní vyjádření předmětu dokumentu maximální informační hodnota řetězce předmětového hesla efektivní servis pro uživatele v tradičním prostředí priorita substantiva • prostředí lístkových katalogů, OPAC 1. generace, rešeršní systémy 1. generace
M. Balíková, NK ČR
UISK duben 2010
13
PH Kafka, Franz (1883-1924 spisovatel něm.): dílo - konference r. 1963, Liblice – materiály - vyd. něm. MDT 92 Kafka. F. (061.3):830(437)-31.09 Kafka, F. (082)=3
M. Balíková, NK ČR
UISK duben 2010
14
7
Nevýhody JPH • věcné údaje – „originální umělecké dílo“ • velikost autoritního souboru • komplikovaná údržba – 50% pracovní doby je věnováno systematickému dotváření pravidel – školení – údržbě autoritního souboru po formální stránce (ne sémantické struktury) • skluz ve zpracování - nevčasnost informací • délka řetězce – ztráta koncových údajů při zobrazení (mizí za obrazovkou, případně na druhé řádce) • nedostupnost pro většinu vyhledávacích služeb • redundantnost informací v bibliografickém záznamu • komplikovaná pravidla aplikační syntaxe – problematické dodržování těchto pravidel M. Balíková, NK ČR
UISK duben 2010
15
Řešení: aplikační syntax • • • • • • •
zjednodušení aplikační syntaxe v bibliografickém záznamu kompaktnost, nerozložitelnost termínu větší míra postkoordinace redukce informací v komplexní lexikální jednotce = řetězci PH přesun tematických informací do vstupní pozice minimální struktura řetězce předmětového hesla fixní pořadí prvků řetězce předmětového hesla
výzkum – věcné selekční jazyky v Česku • preference izolovaných lexikálních jednotek
M. Balíková, NK ČR
UISK duben 2010
16
8
Konvertibilita indexačních systémů
• • •
Prekoordinovaný v postkoordinovaný automatická konverze Postkoordinovaný v prekoordinovaný – „intelektuální“ konverze Předpoklad –
M. Balíková, NK ČR
Standardní postup v jednotlivých systémech
UISK duben 2010
17
Prekoordinovaný a postkoordinovaný systém •
Naše paní profesorka Marie Škaloudová : 29.1.1914-27.1.2002. -- Louny : KDU-ČSL, 2002. -- 8 s. : il., portréty ; 28 cm je v prekoordinovaném systému přiděleno heslo označující kategorii osob • Předm.-Os. jméno Škaloudová, Marie, 1914-2002 • Předm.-Věc. téma učitelky -- Česko – 20. stol. •
• • • •
Při konverzi do postkoordinovaného indexačního systému se všechny údaje konvertují do vstupních pozic, protože tyto systémy nepracují s řetězcem předmětového hesla Předm.-Os. jméno Škaloudová, Marie, 1914-2002 Předm.-Věc. téma učitelky Předm.-Geograf. jm. Česko Předm.-Chronol. ter-. 20. stol.
M. Balíková, NK ČR
UISK duben 2010
18
9
Národní standard pro věcný popis soubor věcných autorit • integrovaný pořádací nástroj • selekční jazyky – jazyk předmětových hesel – systematický selekční jazyk MDT (MDT MRF) • induktivní metoda • dílčí soubory – soubor tematických termínů – soubor geografických termínů – soubor formálních termínů – soubor chronologických autorit
funkce • • • • •
nástroj standardizace věcných selekčních prvků nástroj usnadňující sdílenou katalogizaci nástroj pro aplikaci metody Konspektu integrovaný univerzální nástroj pro indexování a vyhledávání informací podpora vzniku vícejazyčného pořádacího systému
M. Balíková, NK ČR
UISK duben 2010
19
Soubor tematických autorit • verbální termíny propojeny s notacemi MDT • podpora vzniku univerzálního pořádacího nástroje • oblast lexikální jednotky lexikální jednotka • slovní vyjádření určitého pojmu, pokud možno ve formě substantiva nebo substantivního spojení • jednoslovná • víceslovná • dřívější praxe • typická vlastnost- inverze (priorita substantiva) • rozklad víceslovných lexikálních jednotek (výchova dítěte – děti - výchova) M. Balíková, NK ČR
UISK duben 2010
20
10
Jako víceslovné lexikální jednotky se řadí • lexikalizovaná ustálená slovní spojení, která plní terminologickou funkci - termíny • ustálená slovní spojení typu černá skříňka, černá díra • víceslovné lexikální jednotky zařazené na vyšším než posledním hierarchickém stupni (je-li možno utvořit termíny NT) peněžní reforma NT revalvace, devalvace • víceslovné lexikální jednotky, jejichž rozklad by vedl k posunu významu (k nesrozumitelnosti) (filozofie - dějiny = filozofie dějin nebo dějiny filozofie) • důležitá přesnost znění (právo průmyslového vlastnictví)
M. Balíková, NK ČR
UISK duben 2010
21
Víceslovné lexikální jednotky - příklady • • • • • • • • •
bytové právo čtenářská gramotnost elektronická pošta kulturní antropologie komunikační protokoly veřejný sektor čištění odpadních vod ochrana spotřebitele užívání drog
M. Balíková, NK ČR
• daň z příjmů ze závislé • • • • • • •
činnosti péče o zdraví právo na sebeurčení rovné postavení mužů a žen děti a mládež konkurs a vyrovnání
UISK duben 2010
22
11
Soubor věcných autorit a věcné zpřístupnění ve veřejných knihovnách
M. Balíková, NK ČR
UISK duben 2010
23
Katalogizační praxe jednotlivých institucí – indexační systémy • • • •
Specifičnost indexace Řízené slovníky, hesláře, tezaury Volně tvořená klíčová slova Izolované lexikální jednotky versus minimální řetězce PH Náročnost procesu integrace • Selekční termíny – 1. světová válka, 1914-1918 – 2. světová válka, 1939-1945 – Dotaz 311 M. Balíková, NK ČR
UISK duben 2010
24
12
M. Balíková, NK ČR
UISK duben 2010
25
Příklady M. Balíková, NK ČR
UISK duben 2010
26
13
Věcné zpřístupnění vždy zaměřeno na uživatele • Výrazná změna prostředí – Přístup k informacím prostřednictvím sítě Internet – Digitální zdroje – Pokročilé způsoby vyhledávání Uživatelé v prostředí Web 2.0 – Uživatelé (konsumenti obsahu) a zároveň poskytovatelé obsahu • Nutná změna metod věcného zpřístupnění v knihovních katalozích • Respektovat požadavky uživatelů • Poskytnout informace uživatelsky vstřícným způsobem
M. Balíková, NK ČR
UISK duben 2010
27
Soubory autorit Klíčová slova: standardizace, centralizace, hierarchie, striktní pravidla, profesionálové Funkce paměťových institucí – zpracování a zpřístupnění jednotlivých objektů,sbírek/fondů efektivním, rychlým a komfortním způsobem, tj. pomocí standardizovaných selekčních prvků - garantem standardizace jsou soubory autorit Soubor ověřených a unifikovaných jmenných a/nebo věcných selekčních údajů, určených pro zpracování a vyhledávání dokumentů s nezbytným odkazovým a poznámkovým aparátem • nástroj pro autoritní kontrolu, tedy jako • nástroj pro standardizaci a unifikaci věcných selekčních údajů v paměťových institucích (na národní úrovni) • podpůrný nástroj pro sdílenou katalogizaci • nástroj pro integraci a unifikaci věcných selekčních jazyků různých typů • platforma pro tvorbu ontologií - rozvoj sémantického webu • platforma pro případnou standardizaci nástrojů aplikovaných v prostředí Web 2.0
M. Balíková, NK ČR
UISK duben 2010
28
14
M. Balíková, NK ČR
UISK duben 2010
29
M. Balíková, NK ČR
UISK duben 2010
30
15
Tematické autority
Propojení tematických autorit s GEO
M. Balíková, NK ČR
UISK duben 2010
31
Geografické autority
Geographic coordinates in TGN typically represent a single point, corresponding to a point in or near the center of the inhabited place, political entity, or physical feature. For linear features such as rivers, the point represents the source of the feature. M. Balíková, NK ČR UISK duben 2010 32
16
Geografické autority
M. Balíková, NK ČR
UISK duben 2010
33
Aplikace souboru FD
M. Balíková, NK ČR
UISK duben 2010
34
17
M. Balíková, NK ČR
UISK duben 2010
35
Web 2.0, uživatelé 2.0, knihovníci 2.0 Klíčová slova: decentralizace, tvorba obsahu, sdílení, interakce, komunita, komunikace, kolaborace, kontextualizace, uživatelé Uživatelé požadují • rychlé poskytování služeb, rychlé výsledky • dostupnost všech požadovaných informací na webu • podílet se na tvorbě obsahu • změnu v pojetí klasických knihovních katalogů – vizualizace informací – spoluvytváření metadat – tagování, folksonomie Knihovníci 2.0 předpokládají • aktivní zapojení uživatele do vytváření a implementace služeb knihovny pomocí technologií Web 2.0 – modifikace postupů – obohacení služeb – spoluvytváření metadat (uživateli) , soubory autorit
M. Balíková, NK ČR
UISK duben 2010
36
18
OPAC 2.0 Přitažlivý, intuitivní, interaktivní • obohacený o doplňkové funkce - zúžení dotazu, směrování dotazu, RSS kanál • vyhledávání efektivní, jednoduché, umožňující získat relevantní dokumenty • v rámci katalogu nabídnuty podobné relevantní výsledky Snadná orientace – součástí OPACu – funkce prohlížení/listování – kategorie - „šité na míru“ Podíl uživatele na formování obsahu – tagování • vizualizace tagů – tag clouds
– psaní i sdílení recenzí, ohlasů, komentářů, příspěvků – hodnocení uživatelů přímo k jednotlivým dokumentům • publikace mohou mít své stránky, např. wiki, blogy umožňující diskusi
– – – –
zobrazení dalších dokumentů od daného autora zveřejnění obálky knihy, názorné ukázky stránek další tituly vyhledávané uživateli možnost nákupu dokumentu
M. Balíková, NK ČR
UISK duben 2010
37
Ann Arbor District Library
Kategorie: Nové tituly Nejžádanější tituly Formát Oceněné tituly
M. Balíková, NK ČR
UISK duben 2010
38
19
Ann Arbor District Library - pokročilé vyhledávání
Selekční termín: Czech materials Czech language M. Balíková, NK ČR
UISK duben 2010
39
Loves of a blond – Lásky jedné plavovlásky
M. Balíková, NK ČR
UISK duben 2010
40
20
Ann Arbor District Library – tagy v BIB záznamu
Thumbs Up! Honor Book, looking for alaska, printz award, teen, fiction, coming of age, first love, prep school
M. Balíková, NK ČR
UISK duben 2010
41
Tag, tagování, tag clouds/shluky tagů • •
•
relevantní klíčové slovo nebo termín přiřazený digitálnímu objektu (obrázek, videoklip, článek, záznam o dokumentu), popisující objekt nebo jednotlivé informace v něm obsažené tagování – označování obsahu libovolnými popisky – v praxi: kdokoliv může podle svého uvážení označit digitálníobjekt jakýmikoliv tagy za účelem sdílení oblíbených dokumentů s co nejširší veřejnosti – členy komunity tag clouds/shluky tagů – způsob vizualizace tagů, množina důležitých tagů – řazení • abecední • od nejdůležitějšího k měně důležitým (méně používaným) – důležitost tagů, četnost výskytu znázorněna zvýrazněním daného tagu • velikostí písma • barvou
• •
kategorizace obsahu webových stránek nástroj navigace – orientace na stránce
M. Balíková, NK ČR
UISK duben 2010
42
21
Ann Arbor District Library – tag clouds/shluk tagů
african american african americans
M. Balíková, NK ČR
UISK duben 2010
43
LibraryThing – shluk tagů/tag cloud
http://www.librarything.com - oblíbená služba – aplikace web 2.0 umožňující uživatelům vytvořit katalog domácích sbírek knih, CD, DVD sdílet obsah (zkatalogizované položky) s dalšími uživateli M. Balíková, NK ČR
UISK duben 2010
44
22
Folksonomie • „Je výsledkem osobního popisu informací a objektů (čehokoliv s URL) za účelem vyhledání/získání těchto informací. Tagování se uskutečňuje v otevřeném, sdíleném prostředí.“ (Thomas Vander Wal) • „Folksonomie je tagování, které funguje.“ • řazení objektů/informací do kategorií na základě společných vlastností • ad hoc seskupení objektů/informací na základě přiřazených tagů • určena pro osobní organizaci zdrojů na webu a jejich vyhledávání, „objevování netušených možností“ • praktikuje se v sociálním prostředí, čím více uživatelů, tím lépe • představuje neřízený slovník M. Balíková, NK ČR
UISK duben 2010
45
Folksonomie •
• • • • •
inkluzivní – zahrnuje tagy všech uživatelů, subjektivní hledisko induktivní metoda – princip zdola nahoru (nevzniká na základě struktury, schématu) princip demokracie, decentralizace, distributivnosti neexistuje/neuplatňuje se • centrální autorita/správa systému • standardizace • hierarchie používá se více jazyků nedodržuje se hloubka indexace pravidla syntaxe nejsou definována nesprávně použité tagy, např. „archeologie“ pro info zdroj o dinosaurech funkce řízeného slovníku vyjádřeny jinak – často používané tagy (popular tags) – korelační vztahy mezi tagy (statistický výskyt u dokumentu stejného, přibližně stejného obsahu) – kombinace ekvivalentních tagů
M. Balíková, NK ČR
UISK duben 2010
46
23
Nevýhody: nestandardní způsob zápisu tagů • jednoslovné a víceslovné tagy • nejednotnost zápisu víceslovných termínů – výrazy rozděleny do více tagů: „american“ „literature“ – výraz se zapisuje • bez mezery „americanliterature“ • se spojovníkem „american-literature“ • s podtržítkem „american_literature“ gramatická forma tagů – nedodržuje se pravopisná norma, často se vyskytují překlepy – nejsou stanovena pravidla pro používání singuláru a plurálu – používají se substantiva i adjektiva • používají se zkratky (nerozepisují se), neologismy, slangové výrazy • není řešena víceznačnost, synonymie, homonymie M. Balíková, NK ČR
UISK duben 2010
47
LibraryThing: variantní formy zápisu Tag info: american literature Includes: american literature, AmLit, AmerLit, American Lit, American Litr, American Litt., American literatur, American-literature, Amerikaanse literatuur, Amerikansk litteratur, Literatura norteamericana, Literature - American, Literature - American; Literar, Literature -- American, Literature American, Literature— American, "American Literature", am lit, am-lit, am. lit., am.lit., amer lit, american lit., american literatue, american litereature, american literture, american litrature, american litterature, american.literature,
american_literature, americanliterature, amerikanische literatur, letteratura americana, lit.american, literatura americana, literaturaamericana, literature (american), literature / american, literature /american, literature-american, literature. american, literature.american, literature: american, literature:American, literatuur; Amerika, littérature américaine (what?) M. Balíková, NK ČR
UISK duben 2010
48
24
Srovnání tagů a řízených předmětových termínů
• • • • •
tematické termíny geografická jména chronologické údaje označení formy – patří k často užívaným tagům tagy vyjadřující individuální aspekty, závislé na kontextu jako „living room shelf“; „read“; „unread“ • princip postkordinace • koexistence tagů a předmětových hesel (LCSH)
M. Balíková, NK ČR
UISK duben 2010
49
Online zdroje – folksonomie klasické zdroje – řízené slovníky • folksonomie – – – – – –
kategorizace, navigace aktuálnost terminologie finanční dostupnost proměnlivost, neustálý vývoj uživatelská vstřícnost problémy ve vyhledávání
• řízené slovníky/soubory autorit – – – – –
standardizace selekčních prvků, navigace hierarchické vztahy finanční náročnost stálost (terminologie, vyjádření vazeb) v mnoha případech neaktuánost terminologie
• koexistence obou přístupů M. Balíková, NK ČR
UISK duben 2010
50
25
Folksonomie – soubory autorit • oba přístupy se doplňují: • folksonomie pro sdílení a zpřístupnění online zdrojů • subory autorit/řízené slovníky pro zpřístupnění „klasických zdrojů“ • mohou se vzájemně pozitivně ovlivnit • folksonomie – aplikace základních pravidel, odstranění na kontextu závislých tagů • soubory autorit – aktualizace slovní zásoby (zahrnout variantní formy jako odkazy) M. Balíková, NK ČR
UISK duben 2010
51
Význam věcných autorit • vyhledávání - rozšíření dotazu TEL • tagování – standardizace tagů používaných uživateli • sémantický web - tvorba ontologií – AUT • definování konceptů a základních/triviálních vztahů mezi nimi – ontologie • definování konceptů a explicitní vyjádření složitých sémantických vztahů ve strojem čitelné podobě M. Balíková, NK ČR
UISK duben 2010
52
26
Integrace tematických autorit do procesu vyhledávání
Selekční termín: lesní moudrost VAUT: variantní tj. nepreferovaná forma
M. Balíková, NK ČR
UISK duben 2010
53
M. Balíková, NK ČR
UISK duben 2010
54
27
M. Balíková, NK ČR
UISK duben 2010
55
M. Balíková, NK ČR
UISK duben 2010
56
28
Standardizace - tagování
TBR
to read unread
M. Balíková, NK ČR
own
UISK duben 2010
57
-------- Original Message -------Subject: [ACAT] Czech National Library Date: Tue, 16 Feb 2010 11:10:54 -0600 From: David Bade
Reply-To: AUTOCAT , David Bade To: [email protected] I have been working all morning on Czech books and for every one that I have catalogued I have found records by the Czech National Library in the OCLC database. These records are wonderful, every one created by someone who obviously understood the language of the text, knew enough to properly assign subject headings, and gave enough description to positively identify each item. This is always the case with records from the National Library in Prague, and in stark contrast with the material with which I worked yesterday (the nature of that material and the provenance of the bibliographic records found will remain unstated). I would like to say a VERY BIG THANK YOU to those people in Prague whose names I do not know but who understand what metadata is, who it is for and why we need it. And happy new year to all those celebrating Mongolian and Chinese new year. David Bade Joseph Regenstein Library University of Chicago M. Balíková, NK ČR
UISK duben 2010
58
29