Témata této a předchozí přednášky
Důležité pojmy
Organizace informací a znalostí Sémantická a lingvistická problematika zpracování informací a znalostí Indexování Selekční jazyky Pojmový model VOŠIS – ZIZ 10
1
pojem, pojmový model d l kategorie kritérium členění, faseta paradigmatické − syntagmatické vztahy ekvivalence − hierarchie − asociace j reference (sémiotický ( ý trojúhelník) j ) trojúhelník synonymie − homonymie index, indexování lexikální jednotka selekční jazyk řízený slovník VOŠIS – ZIZ 10
2
Typy systémů organizace znalostí klíčová slova, tagy nabídkový seznam (menu, pick list, vyjmenovaná slova) slovník
seznamy termínů
sémiotika sémantika
seznam autorit (authority list/file)
lingvistika
seznam synonym seznam morfologických (gramatických) tvarů negativní slovník (stopwords/stop slova, zakázaná slova) předmětový heslář (subject headings) seznam kategorií (nomenklatury, číselníky) hierarchický sezam (klasifikace, taxonomie) tezaurus pojmová mapa, mapa námětů (topic map)
fonetika
lineární
lexikologie klasifikace, kategorizace hierarchické seznamy vztahů síťové
morfologie jazykové plány
syntax matematická lingvistika
sémantická síť ontologie
pravopis
3
VOŠIS – ZIZ 10
4
1
Systémové pojetí jazyka prvky vztahy
Korpus
lexikální subsystém (slovník)
„přirozený jazyk v počítači“
pravidla (gramatika, syntaxe) paradigmatické
Český národní korpus http://www korpus cz/ http://www.korpus.cz/
syntagmatické poznávací
funkce
komunikační
referenční
jazyk = skutečnost myšlenky emotivní 5
VOŠIS – ZIZ 10
přirozené
formální (umělé)
podle slovníku
informační
technická (ICT)
selekční
jazyky pro definici dat
volné
řízené
dotazovací
VOŠIS – ZIZ 10
6
Lingvistická kategorizace jazyků přirozený jazyk – formální jazyk
Kategorizace jazyků lingvistická
VOŠIS – ZIZ 10
jjazyky y yp pro manipulaci s daty jazyky pro řízení dat 7
Kteří sportovci získali zlaté olympijské medaile na olympiádě v roce 1992? SELECT (sportovci OR sportovec) AND zlatá medaile AND olympiáda AND 1992 VOŠIS – ZIZ 10
8
2
Lingvistická kategorizace jazyků přirozený jazyk – formální jazyk přirozený jazyk jazyk, který se vyvíjí a jehož pravidla vyplývají z jeho používání, takže nemusí být explicitně předepsaná (národní jazyky, např. čeština) umělý (formální) jazyk jazyk vytvořený nebo řízený pomocí souboru pravidel předem stanovených s ohledem na jeho použití (jazyk logiky, matematiky, programovací jazyky, esperanto apod.) 9
Problémy s přirozeným jazykem ženou
substantivum
hnát
smskovat čanit email
VOŠIS – ZIZ 10
10
Lexikální jednotka (lexém, lexical unit, token) obecně sekvence písmen, číslic a dalších specifických znaků používaná pro označení určitého pojmu jednotka jazyka, která je nositelem významu nebo funkce z hlediska významového tvoří jeden nedělitelný celek
verbum
?
Systém S té univerzální (neomezený obsahem sdělení) otevřený, neustále se měnící Vývoj přirozeného jazyka
VOŠIS – ZIZ 10
žena
Přirozený jazyk
?
v selekčním jazyce
VOŠIS – ZIZ 10
11
slovo nebo slovní spojení ve formě buď výrazu přirozeného jazyka, nejčastěji substantiva nebo substantivního spojení klasifikačního znaku VOŠIS – ZIZ 10
12
3
Slovní spojení
Ferdinand de Saussure
též sousloví, sdružené pojmenování, fráze (phrase)
1857 – 1913
Jan Neruda, stavební úřad, postavení mimo hru
Kurs obecné lingvistiky. 1916
ustálené pojmenování ze dvou nebo více slov, které označuje jednu skutečnost a vstupuje do věty jako hotový celek lexikální jednotka, kterou lze rozčlenit na oddělené složky, přičemž každá z těchto složek může být vyjádřena substantivem a nezahrnuje sloveso ve tvaru určitém VOŠIS – ZIZ 10
langage (řeč) langue (jazyk) parole (promluva nebo mluva) označující – označované
13
VOŠIS – ZIZ 10
Trojúhelník reference (sémiotický trojúhelník)
Ivor Armstrong Richards 1893 – 1979
Richards, R h d I. A. A a Ogden, O d Ch. Ch K. The meaning of meaning. 1923
J znak k (jazykový výraz) – lexikální jednotka označení (denotace)
vyjádření
referent reference symbol
smysl S (koncept, pojem) VOŠIS – ZIZ 10
14
15
odraz VOŠIS – ZIZ 10
D denotát (skutečnost, objekt) 16
4
Vztah označující (J) – označované (D)
jazykový jazykový výraz jazykový výraz výraz
jazykový výraz VOŠIS – ZIZ 10
17
Vzájemně jednoznačná korespondence znak – smysl – denotát
synonymie
homonymie
VOŠIS – ZIZ 10
denotát denotát denotát
18
Synonymie
kyselina sírová
pondělí
J1
J2
S1
S2
S
D1
D2
D
VOŠIS – ZIZ 10
denotát
fotbal – kopaná
J1
19
J2
VOŠIS – ZIZ 10
20
5
Kvazisynonymie fotbalista – Jan Kovář
J1
J2
S1
a) lexikální (věcná)
tvrdý – měkký
J1
S2
Typy synonymie
S1
D
"pravá" synonymie (ekvivalence) cesta – silnice – dálnice – vozovka – stezka – pěšina
J2
hierarchická nadřazenost – podřazenost domácí zvíře – kočka – Macek
S2
asociace nevolnost – nemoc
D
b) gramatická (morfologická)
1 slovo ve více tvarech – cesta, cesty, cestě, cestu...
VOŠIS – ZIZ 10
21
Rekapitulace
Hodnocení výsledků vyhledávání
22
Problém synonymie snižuje úplnost (recall): hrozí, že nenajdeme všechny relevantní informace
relevance informační šum úplnost (recall) přesnost (precision)
VOŠIS – ZIZ 10
VOŠIS – ZIZ 10
řešení: tvorba seznamů synonymních termínů, které se automaticky berou v úvahu při použití jednoho z nich
23
a) věcná (lexikální) synonymie: seznamy synonym – např. tezaury, autority b) gramatická synonymie: lematizátor, derivátor c) „nouzové řešení“ – zkracování / maskování koncovek24 VOŠIS – ZIZ 10
6
Řešení problému synonymie – báze autorit
Řešení problému synonymie – Jyxo
Zpracování dotazu vyhledávacím serverem jyxo.cz – zadán termín lingvistika
VOŠIS – ZIZ 10
25
Homonymie – mnohovýznamovost (polysémie)
VOŠIS – ZIZ 10
26
Homonymie – mnohoznačnost
jazyk – jazyk
to je pěkné – to je pěkné
J
J
S1
S2
D1
D2
VOŠIS – ZIZ 10
S D1
27
D2
VOŠIS – ZIZ 10
28
7
Problém homonymie
Typy homonymie
snižuje přesnost (precision): hrozí, že najdeme nerelevantní informace
a) lexikální stát – stát – stát – stát
zvuková (mít – mýt) grafická (email – email)
b) syntaktická vhazování domácích c) sémantická – ironie, metafora to se ti povedlo VOŠIS – ZIZ 10
29
Kontextové řešení problému s homonymy v dotazech zámek AND šlechta volně stojící obytná a reprezentativní budova zámek AND dveře zařízení k dočasnému uzavírání, zajišťování a spojování pohyblivých částí zámek AND puška spouštěcí a odpalovací mechanismus ručních palných zbraní zámek AND třetina uzavření bránícího mužstva v jeho vlastní obranné zóně (např. v hokeji) VOŠIS – ZIZ 10 31
řešení: 1. kontext – buňka v ČNK 2 ří 2. řízený ený slovník slo ník a) homonyma vyloučíme z používání balón viz míč b) jednotlivé významy upřesníme poznámkami balón (míč) 30 VOŠIS – ZIZ 10
Kategorizace jazyků podle slovníku volný jazyk / slovník (free language, natural language) úplnost a specifičnost, přesnost (respektuje se jazyk tvůrce i uživatele) řízený jazyk / slovník (controlled vocabulary/language, vocabulary control) jednoznačná interpretace významu slov vyznačení příbuznosti (vztahů) slov VOŠIS – ZIZ 10
32
8
Co „řídí“ řízený slovník?
Použití řízeného slovníku
Zahrnuté / nezahrnuté lexikální jednotky Význam lexikálních jednotek
2 P 2. Popis i obsahu b h shromažďovaných h žď ý h informací
Formát F át lexikálních l ikál í h jjednotek d t k Vztahy mezi lexikálními jednotkami (paradigmatické) VOŠIS – ZIZ 10
3. Vyjádření obsahu dotazů 33
Index může znamenat:
VOŠIS – ZIZ 10
34
Indexování může znamenat:
latinsky: ukazovatel, ukazatel, udavatel, udavač, oznamovatel, nápis digitus index = ukazováček (ang. index finger)
tvorbu indexu (indexového souboru) pořádání (organizaci) informací
vyzvědač, zrádce, prozrazující něco seznam, obsah, b h k katalog, l rejstřík j řík ukazatel poměru dvou nebo více hodnot rozlišující, identifikační znak VOŠIS – ZIZ 10
1. Organizace shromažďovaných informací (třídění informačních objektů)
vyjadřování obsahu (věcný popis / zpracování) informací 35
VOŠIS – ZIZ 10
36
9
Proces indexování
Typy indexování přidělování indexačních termínů výběr a přiřazení indexačních termínů (bez ohledu na to, zda se vyskytují v textu) tak, aby reprezentovaly informační zdroje podle určitých pravidel
vystižení obsahu dokumentu nebo informačního dotazu prostřednictvím slov přirozeného jazyka nebo znaků umělého jazyka
VOŠIS – ZIZ 10
výběr termínů postup vybírání indexačních termínů z indexovaného zdroje 37
Selekční jazyk (indexing language)
38
Selekční jazyk
jazyk určený k vyjádření obsahu a formy informačního zdroje a dotazu
v širším slova smyslu – přístupové body (slovník termínů, podle kterých lze vyhledávat)
účel: pořádání (indexování) informací vyhledávání informací (výrazy selekčního jazyka slouží jako přístupové body) VOŠIS – ZIZ 10
VOŠIS – ZIZ 10
v užším slova smyslu – řízený slovník
39
VOŠIS – ZIZ 10
40
10
Charakteristiky selekčního jazyka
Obecná struktura selekčního jazyka
formalizace zvláštní syntaktická pravidla řízená slovní zásoba: řízený slovník používání symbolů (notace)
Ale: I přirozený jazyk může plnit funkci selekčního jazyka VOŠIS – ZIZ 10
lexikální jednotky paradigmatické vztahy mezi lexikálními jednotkami
lexikální subsystém
nástroje á j pro vyjádření jádř í (syntagmatických) vztahů mezi více lexikálními jednotkami – koordinace
syntaktický subsystém
41
Příklady lexikálních jednotek selekčního jazyka
VOŠIS – ZIZ 10
Co vyjadřuje lexikální jednotka selekčního jazyka?
klíčové slovo, slovo tag nejdůležitější, nejvýznamnější slova a slovní spojení
konkrétní entity
deskriptor lexikální jednotka tezauru
abstraktní entity
předmětové heslo (subject heading) heslo v předmětovém katalogu třídník (znak) MDT např. 666.155 Vrstvené bezpečnostní sklo VOŠIS – ZIZ 10
42
předměty, věci a jejich fyzické části materiály činnosti a události vlastnosti (věcí, (věcí materiálů, materiálů činností) obory nebo vědní disciplíny měřicí jednotky
individuální entity
43
„jednotkové třídy“ vyjádřené vlastními jmény VOŠIS – ZIZ 10
44
11
Typy selekčních jazyků
Selekčních jazyků je hodně…
paradigmatické vztahy abecední (předmětové)
http://www.webarchiv.cz/generator/dc.php synta agmatické v vztahy
http://info.sks.cz/users/ku/ZIZ/sjazyky.htm
VOŠIS – ZIZ 10
45
Tezaurus
prekoordinované
tezaurus
číselník
fasetová klasifikace monohierarchická klasifikace
VOŠIS – ZIZ 10
46
Roget's Thesaurus
Řízený Ří ý slovník l ík uspořádaný řád ý ttak, k žže explicitně li it ě zachycuje sémantické vztahy mezi lexikálními jednotkami. Deskriptor (preferovaný termín) Lexikální jednotka tezauru užívaná k označení určitého čitéh pojmu. j Vyjadřuje V j dř j sémantickou é ti k dominantu zastupující celou třídu podmíněné ekvivalence: ostatní podmíněně ekvivalentní slova a slovní spojení se považují za nedeskriptory a jsou odkázána na deskriptory. VOŠIS – ZIZ 10
postkoordinované
hierarchické (systematické)
47
Main Entry: cat Part of Speech: noun Definition: feline animal, sometimes a pet Synonyms: bobcat, cheetah, cougar, grimalkin, jaguar, kitten, kitty, leopard, lion, lynx, malkin, mouser ocelot, mouser, ocelot panther, panther puma, puma puss puss, pussy pussy, tabby, tiger, tomcat Zdroj: Roget's New Millennium™ Thesaurus, First Edition (v 1.3.1) Copyright © 2006 by Lexico Publishing Group, LLC. All rights reserved. VOŠIS – ZIZ 10
48
12
Peter Mark Roget
Ukázky tezaurů
1779 – 1869
Anglický polyhistor: lékař, lexikograf, autor četných publikací z oboru medicíny a optiky, přispěvatel do encyklopedií, vynálezce logaritmického pravítka… Thesaurus of English Words and Phrases. 1. vydání 1852 slovník synonym a antonym kategorizace slov VOŠIS – ZIZ 10
a) Tezaurus jazyka českého
b) Český zemědělský tezaurus AGROTERM 49
VOŠIS – ZIZ 10
50
Vyjádření paradigmatických vztahů v tezaurech ekviv valence
odkaz (vztah) nedeskriptor viz USE
deskriptor
hierarrchie asociace
odkaz (vztah) deskriptor nedeskriptor ekv UF use / used for odkaz na nadřazený deskriptor nd BT B broader term odkaz na podřazený deskriptor pd NT N narrower term odkaz na asociovaný deskriptor ad RT R related term VOŠIS – ZIZ 10
51
13