.
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
105
107
Címkézett dokumentum részlet Makró (entity) : egy speciális jelet, vagy egy karaktersorozatot jellegzetes névvel jelölünk. A makró tartalmát a dokumentumba az &makrónév; formában lehet beilleszteni. Figyeljük meg: általános esetben elkerülhetetlen a makrók használata, hiszen pl. a <,>,& karaktereket csak a megfelelő < > és & makrók használatával tudjuk megadni, egyébként a dokumentumot feldolgozó program tévesen címkéknek vagy makró hivatkozásnak értelmezné a speciális karakterek után/előtt levő szöveget. Információ menedzsment / BME VIK / Dr Magyar G.
106
A főszereplők: Rómeó & Júlia
Információ menedzsment / BME VIK / Dr Magyar G.
108
27
Információ feldolgozás
Az XML jelentősége
Hagyományos Információ (ember)
Szövegszerkesztő
Információ (gép,ember)
Digit tárolás
Korszerű Információ menedzsment / BME VIK / Dr Magyar G.
109
Információ (ember)
Papír
Digit feldolgozás
Információ (gép)
Digit feldolgozás
Információ (gép)
Digit feldolgozás
Papír Kép
Információ (ember)
Információ menedzsment / BME VIK / Dr Magyar G.
Információ átadás
Problémák - Megjelenítés
• Szóbeli előadás (prédikáció, rege, ének)
• Gyártó függőség – Sok gyártó (Freelance - Power Point) – Saját formátumok
– Tartalom/Szerkezet/Forma, teljes metakommunikáció
• Gutenberg galaxis (írás, képi megjelenítés)
• Időtállóság
– Tartalom (nincs metakommunikáció) – Szerkezet fontossá válik
– Sok alkalmazás (ChiWriter, Word) – Sok verzió (Word 6, 7, 8, 2000) – HW függés (Commodore, 5.25” FDD)
– Forma (hordozza a szerkezetet, az emberi agy dolgozza fel)
• Egyfolytában konvertálni kell !!!
• Digitális világ
– igen sokat ! általában a legrosszabbkor !
– Tartalom – Forma (WYSIWIG, csábítóan módosítható) – elsikkad a Szerkezet Információ menedzsment / BME VIK / Dr Magyar G.
111
• Részleges megoldások – RTF - szép megjelenés – PS,PDF - lapleíró nyelvek 110
Információ menedzsment / BME VIK / Dr Magyar G.
112
28
(első) Megoldás - SGML
Az SGML hatóköre
• Cél:
Tartalom (Információ)
– kereshető, szűrhető (tartalmi szerkezet) – újrafeldolgozható (időtálló, kereshető) – hosszú életű (időtálló, szabványos)
WO RD
– tervezhető (a struktúra „felélesztése”) – több (multi) média
• Megoldás:
ML G S
• Tartalom, Megjelenés, Szerkezet SZÉTVÁLASZTÁSA Forma (Megjelenítés)
– kb. szöveges adatbázis
• Standard Generalized Markup Language - ISO:1996 Információ menedzsment / BME VIK / Dr Magyar G.
113
Szerkezet (Struktúra)
Információ menedzsment / BME VIK / Dr Magyar G.
SGML
A szerkezet megadása
Szabványos (ISO/IEC 10179:1996)
• Tervezhető dokumentum típus
• Megtalálható benne mindaz, ami a HTML-t és az XML-t jellemzi (címkék, amelyek közé tetszőleges szöveg zárható, DTD, stb.: bonyolult, ami a tömeges használatát gátolta.) Ma is használják profi publikációkkal foglalkozó vállalatoknál, mert gyakorlatilag bármilyen dokumentum leírására alkalmas, és utána a kész eredmény más formátumban (HTML, PDF, PS stb.) előállítható. Információ menedzsment / BME VIK / Dr Magyar G.
114
115
– egységes, szabványos – külön állományban tárolódik a DTD (lásd később) – ellenőrzést tesz lehetővé
• Az elemek szabadon definiálhatók – Típusmegkötések, értéktartományok – Fa struktúra – Előírt sorrend, számosság
• Felhasználás (nagyobb cégek már csak így hajlandók) – szótárak, jogszabályok – ipar (autó, repülő, Pentagon)
Információ menedzsment / BME VIK / Dr Magyar G.
116
29
Példa - Dokumentumszerkezet
Megjelenítés SGML-ben • Az SGML önmagában nem jelenít meg
BOLT
Állandó (tartós)
KÉSZLET
CIKK+
DTD
Tartalom
Forma
NÉV
PDF
DARAB SGML editor
LEÍRÁS+
HTM
CD Információ menedzsment / BME VIK / Dr Magyar G.
117
Megjelenítés kérdései
Előnyök • Tartalom és forma szétválasztása (szöveges adatbázis) • Független (hardver, operációs rendszer, szoftver verzió) • Sokféle médiumra dolgozhat (www, CD, papír, WAP)
sokféleség, változékonyság a szerzői jogok „formához” kötöttek a lényeg nem a kiadás, hanem a „befogadás” a lényeg nem a forma, hanem a tartalom+szerkezet
Hátrányok
• Hagyományos „multimédia” előállítás Word 2
Word 6
papír
119
SGML előnyei/ hátrányai
• Problémák – – – –
Információ menedzsment / BME VIK / Dr Magyar G.
Word 95
HTML
Word 2000 PDF
Információ menedzsment / BME VIK / Dr Magyar G.
?
XML?
Zsákutcák 118
• • • • •
Bonyolult, nehezen integrálható Körülményes terjesztés Speciális szaktudást igényel Drága A megjelenítéshez külön modulok kellenek
Információ menedzsment / BME VIK / Dr Magyar G.
120
30
HTML
Megoldandó problémák Értékes
• 90-es évek eleje -> HTML, SGML alkalmazás a használható címkék halmaza előre definiált, nem változtatható Példa: címke, amely egy új bekezdést kezd, vagy a címke, amely sortörést iktat be.
EDI
SGML
gyors pontos
elérhetőség újrafelhasználhatóság
• Előnyök: – – – –
Egyszerű, jól olvasható, készíthető Szabvány, szoftver független (!? - MS/Netscape) Hivatkozásokat jól kezeli Sok, olcsó szoftver
Rövid távú
XML
Hosszú távú
• Hátrányok: – – – –
HTML
Forma orientált, nem a tartalomra koncentrál Nem jól kereshető (túl sok találat - hiányzik a szerkezet) Túlságosan leegyszerűsített …... Nem fejleszthető már tovább
Információ menedzsment / BME VIK / Dr Magyar G.
121
EDI - Electronic Data Interchange
(Archiválás) „Nem értékes”
Információ menedzsment / BME VIK / Dr Magyar G.
123
XML (eredeti) céljai • Az SGML és a HTML hátrányinak kiküszöbölése, előnyeinek megtartása mellett
Strukturált (feldolgozható) üzleti adatok elektronikus cseréje • Egyezményes üzenetformátumokkal és szabványokkal • Üzleti partnerek között.
– – – – –
Interneten is felhasználható SGML kompatibilis Könnyen integrálható Bővíthető Specifikáció és az adatok könnyű feldolgozása (Az XML specifikáció nincs 40 oldal)
Az adatcsere független kell legyen • az alkalmazott eszközöktől, • az alkalmazói programoktól • és a választott kommunikációs hálózattól. Információ menedzsment / BME VIK / Dr Magyar G.
???
gyorsan készül Internet kompatibilis
– Független (W3C) – Ember által is jól olvasható (ASCII) – Egyszerű ellenőrzés, validálás, Well-formed document
122
Információ menedzsment / BME VIK / Dr Magyar G.
124
31
SGML, XML, HTML
XML - HTML Hasonlóságok • Csak szöveg • Jelölőnyelvek (tag-ek, elemek) • Használhatók attribútumok • Egymásba ágyazható elemek • SGML származékok Különbségek: • Az XML szintaxisa szigorú • Az XML-ben saját elemkészlet definiálható • A HTML a megjelenítést, az XML a szerkezetet írja le.
SGML
XML
HTML
Információ menedzsment / BME VIK / Dr Magyar G.
125
Az XML, HTML, XHTML és az SGML kapcsolata SGML XML
HTML
Honlap
Architektúra
XHTML
MathML
MyML
XHTML honlap n
f (n) = ∑k k
Dokumentumtípus Dokumentum-
Információ menedzsment / BME VIK / Dr Magyar G.
127
XML történet • • • • • • • •
1996.07 1996.11 1997.03 1997.04 1997.12 1998.02 2000.10 2001.
W3C XML munkacsoport SGML’96, első XML tervezet Microsoft CDF, XML alapon XML Working Draft XML Proposed Recommendation XML 1.0 XML 1.0 Second Edition XML 1.1 Candidate Recommendation
példány
• Támogatók: – Sun, IBM, Oracle, Microsoft, Adobe, W3C, SAP, Software AG
Információ menedzsment / BME VIK / Dr Magyar G.
126
Információ menedzsment / BME VIK / Dr Magyar G.
128
32
XML összetevők • DTD, XML Schema • XML • XSL (CSS), XSLT
• • • • • • • • • • • •
Struktúra Tartalom Forma (Transzformálás)
•
Csupán a megjelenítéshez nem kell DTD, csak a szerkesztéshez, ill. ellenőrzéshez!
•
A DTD (és az XSL is) lehet magában a HTML állományban -> Önleíró állomány
• Egyebek (részben kidolgozás alatt): – – – – – –
XLink Dokumentumok közötti kapcsolat XPointer Dokumentumon belüli kapcsolatok DOM XML felhasználása programnyelvekbe XQuery Lekérdező nyelv XUpdate Adatmanipuláció … lásd http://www.w3c.org/xml
Információ menedzsment / BME VIK / Dr Magyar G.
129
Hivatkozások
XPath
• A parser „nem engedi át” a hibás állományt
Sémák Alapok
DOM SAX
• Szigorú szabályok az (Elemekre, Attribútumokra, Megjegyzésekre, Foglalt karakterekre, Feldolgozási utasításokra)
XLink
XQuery
API
Valid:
Schematron
XML névterek XML
Információ menedzsment / BME VIK / Dr Magyar G.
131
• Megfelel az XML szintaktikának
XPointer
Lekérdezés módosítás
XUpdate
Üres elem
Információ menedzsment / BME VIK / Dr Magyar G.
Well formed:
XSLT
XSL-FO
A feldolgozónak (parser) szóló üzenetek Gyökér (root) elem Magyarország> Megjegyzés magyar Gyerek (child) elem Indonézia Attribútum
XML dokumentum ellenőrzése
Transzformáció
XSL
XML dokumentum részei
DTD
• Megfelel a dokumentum sémának: csak a megadott elemeket használja az előre megadott sorrendben, összefüggésben.
Relax NG XML Schema
• Eszközei: DTD (régen), XML Schema 130
Információ menedzsment / BME VIK / Dr Magyar G.
132
33
DTD – Document Type Definition
Példa - DTD
• (SGML örökség, már elavult, de régebbi dokumentumoknál még megjelenhet)
• Elem típus deklarációk • • Attribútum lista deklarációk • • Entitások • Információ menedzsment / BME VIK / Dr Magyar G.
133
Információ menedzsment / BME VIK / Dr Magyar G.
135
A dokumentum + DTD
A DTD korlátai
• Belső (Inline - a dokumentum részeként) •
• Nem (pontosabban csak nagyon korlátozottan) lehet kulcsokat, adatelemek közötti hivatkozásokat megadni
• • • •
• Minden elem globális, nincs lehetőség lokális elemek definiálására
• Nincsenek adattípusok (minden egyszerű szöveg)
… ]>
• Nehézkesen hordozható (a DTD állományt másolgatjuk) • Nem XML alapú
• Külső (external – külön állományban):
Megoldás:
• •
•
Információ menedzsment / BME VIK / Dr Magyar G.
134
(Trex, Schematron, Microsoft XDR), XML
Információ menedzsment / BME VIK / Dr Magyar G.
Schema 136
34
XML Névterek
XML Schema
• Egy dokumentumban többféle sémát használhatunk.
• A DTD hiányosságait kiküszöböli • 2001 májusa óta W3C szabvány • Lehet külső dokumentum is, de az XML dokumentum része is
• A sémákat URI-val jelölhetjük ki (nem kell lokális állomány, mint a DTD-nél), így megkönnyíti különböző XML dokumentumok kombinálását • „Lokális” változók is használhatók (azaz ugyanaz az elemnév más-más névtérben, azaz kontextusban más szabályoknak kell megfeleljen Két alaptípus (de lehet default is):
• <xsd:element name=„nyelv” minOccurs=„0” maxOccurs=„*”>
• Explicit: az érintett elemeknél kifejezetten hivatkozni kell rá 137
Implicit
Riska Implicit / Default
Információ menedzsment / BME VIK / Dr Magyar G.
139
XPath • Az XML dokumentum, mint fa struktúra elemeit, azok attribútumait jelölhetjük ki • Önállóan nem használható, a DOM, az Xquery, XSL, XSLT, XLink, Xpointer használja • Példa: • /orszagok/nev/@foldresz/attribútumra • /orszagok/nev/nyelv/elemre XPointer • Az XPath felhasználásával egy dokumentum régióinak kijelölése végezhető el. XLink • XML dokumentumok összekapcsolása (akár n:m is!)
Explicit
Kovács
Információ menedzsment / BME VIK / Dr Magyar G.
Címzés
Példa: XML névtér
Béla Magyarország
Elemek, attribútumok definiálása Egyszerű és komplex típusok definiálása Hivatkozások (kulcsok) kezelése rugalmas Általános adatséma leírására is alkalmas (relációs is!)
• Példa: • <xsd:schema xmlns:xsd=„http://www.w3.org/2001/XMLSchema”>
• Implicit: csak arra az elemre (és gyerekeire) vonatkozik, melynek attribútumában szerepel Információ menedzsment / BME VIK / Dr Magyar G.
• • • •
138
Információ menedzsment / BME VIK / Dr Magyar G.
140
35
Lekérdezések - XQuery
Programozói interfész
• Az XPath, XML Schema szabványt használja
Document Object Model (DOM) • W3C szabvány • OO felület • Csomópontok elérése, létrehozása Simple API for XML (SAX) • De facto szabvány • Eseményvezérelt (események: XML elemek és attribútumok beolvasása) Példa: C#, .NET
• Filter: Visszaadja az egyező elemeket • Join: Több forrásból érkező adatot egyesít • Group: Meghatározott adatokat gyűjt össze, majd műveleteket végez rajtuk. • Még nem teljes adatmodell! Nincs pl. beszúrás (XUpdate) Információ menedzsment / BME VIK / Dr Magyar G.
141
Transzformációk – XSL, XSLT
Információ menedzsment / BME VIK / Dr Magyar G.
143
XML egyéb felhasználása • XML/EDI
XSL • Az eredeti XML dokumentum szemantikájának megtartása mellett definiálható a megjelenítés. • A megjelenítés és a tartalom szétválik!
– EDI: szabvány, kiforrott, de drága, zárt hálózat – www.bizTalk.org (Microsoft szervezés) – European XML/EDI pilot project: 2000 július • Adatbázis alkalmazások (egyelőre interpreter+RDB)
XSLT • XML dokumentumot egy másik XML dokumentummá (illetve általánosan bármilyen más dokumentummá) konvertál. • Szabályokat definiál, tulajdonképpen programozási nyelv
– Oracle: XSQL servlet IBM: Middleware - Message Broker – Microsoft: XQL és SQL egyformán fontos (SQL 2000)! – Kisvállalatok?
• Kommunikációs nyelv (Prezentációs réteg szabványa) – nem internetes alkalmazások „internetre” integrálása – egységes formátum! (Word 2000: HTML+CSS+XML)
Információ menedzsment / BME VIK / Dr Magyar G.
142
Információ menedzsment / BME VIK / Dr Magyar G.
144
36
•
Példa: EDI dokumentum
XML egyéb felhasználása
ISA**00*0000000000*01*01*PASSWORDME*01*123456789 987654321 890714*2210*U*000000008*O*P*~ GS*IN*012345678*087654321*900509*2210*000001*X*0020 40~ ST*801*0001~74832 BEG*940606*1045*940606*~ N1*BT* RAMONA PUBLISHING~ N3* P.O. BOX 679342~ N4* TX* 77234~ N1*BT* HANSEL PUBLISHING~ N3* 101 APPLE PIE ST.~ N4* NY* 00103~ N1*BT* FIVELAKES PUBLISHING~ N3* 79 RIVER DRIVE~ N4* TX* 74564~ PER*AD* J. DOE*TE* 2104355445~ ITD*01*3*2**10~ IT1** 3* CA* 12.75**VC** 6900~ IT1** 12* EA* 2.99**VC** P450~ IT1** 4* EA* 5.99**VC** 1640~ IT1** 1* DZ* 2.45**VC** 1507~ TDS* 100.54~ CAD*M**** CONSOLIDATED TRUCK~ CTT* 4* 20~ SE*21*000001~ GE*1*000001~ IEA*1*000000008~
• XML/EDI
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
145
Példa: WebEDI dokumentum (részlet) • • • • • • • • • • • • • • • • • • •
- <invoice> - RAMONA PUBLISHING <street>P.O. BOX 679342 <state>TX, 77234 - - J. DOE 2104355445 - - -
3, CA, 12.75,,VC,, 6900 - - <shipper> CONSOLIDATED TRUCK
Információ menedzsment / BME VIK / Dr Magyar G.
– EDI: szabvány, kiforrott, de drága, zárt hálózat – www.bizTalk.org (Microsoft szervezés) – European XML/EDI pilot project: 2000 július
• Adatbázis alkalmazások (egyelőre interpreter+RDB) – Oracle: XSQL servlet IBM: Middleware - Message Broker – Microsoft: XQL és SQL egyformán fontos (SQL 2000)! – Kisvállalatok? • Kommunikációs nyelv (Prezentációs réteg szabványa) – nem internetes alkalmazások „internetre” integrálása – egységes formátum! (Word 2000: HTML+CSS+XML)
147
Példa: Adatbázisok és XML RDBMS előnyei
XML válaszai
• Sebesség • Helykihasználás
• Gyors gépünk van • Nagy a háttértár, RAM
RDBMS hátrányai • Alkalmazásfüggő • Félstrukturált adatokra nem előnyös (változatos, változó séma) • Komoly szakértelmet igényel • Drága
• Alkalmazásfüggetlen • Félstrukturált adatokra ideális • Nem igényel speciális tudást • Olcsó
Példa: Natív XML DBMS-ek: Sofrware AG Tamino, Oracle 10 146
Információ menedzsment / BME VIK / Dr Magyar G.
148
37
XML 10 pontban (W3C reklám)
XML egyéb felhasználása • XML/EDI
1. Strukturált adatok szöveg formátumban
•
2. Hasonlít a HTML-hez, de nem az!
•
3. Olvasható, de gép számára készült
•
4. Nagy terjedelmű, de nem baj
•
5. Az XML elnevezés egy egész szabvány családot takar
•
6. Újdonság, de mégsem egészen az
•
7. A HTML-től XML-en keresztül vezet az út az XHTML-ig
•
8. Az XML moduláris (a névtereknek köszönhetően)
•
9. Az XML az RDF és a Szemantikus Web alapja
•
10. Független, ingyenes, támogatott
–
– EDI: szabvány, kiforrott, de drága, zárt hálózat
–
– www.bizTalk.org (Microsoft szervezés) – European XML/EDI pilot project: 2000 július
–
• Adatbázis alkalmazások (egyelőre interpreter+RDB)
–
– Oracle: XSQL servlet IBM: Middleware - Message Broker – Microsoft: XQL és SQL egyformán fontos (SQL 2000)! – Kisvállalatok?
–
• Kommunikációs nyelv (Prezentációs réteg szabványa) – nem internetes alkalmazások „internetre” integrálása – egységes formátum! (Word 2000: HTML+CSS+XML) Információ menedzsment / BME VIK / Dr Magyar G.
•
149
Példa: Adatcsere formátum
–
Megtekintéséhez nem kell az előállító program Az XML-ben a tag-ek csak határolók, nincs hatásuk a megjelenésre szigorú formai szabályok, nincs lazaság (ld. HTML) jó hatékonyságúak a tömörítő technikák sőt, újabb nyelvek alapja: SMIL, MathML, X3D, CML az SGML elveire, a HTML tapasztalataira épít
Információ menedzsment / BME VIK / Dr Magyar G.
151
4. Tudásmenedzsment
Metaadatbázisok, konfigurációs fájlok formátuma • Dublin Core • MARC Relációs adatbázisok sémája definiálható XML sémával Szövegszerkesztők ideális formátuma • Platform független • StarOffice, Word (?) Új jelölő nyelvek alapja • MathML stb. Információ menedzsment / BME VIK / Dr Magyar G.
150
Információ menedzsment / BME VIK / Dr Magyar G.
152
38
A tudás fajtái
Tudáskonverzió
Tacit tudás:
Explicit tudás:
•Az egyén személyes tudása
•Formalizált
•Tapasztalat
KOMBINÁCIÓ EXPLICIT
•Strukturált
•Nem megfogható
•Könnyen átadható 153
Tudásteremtés és konverzió MIVÉ
155
Egy olyan megközelítés, mely lehetővé teszi
Explicit tudás
Szocializáció
Externalizáció
(pl. mester-inas)
(pl. menedzsment kézikönyvek)
Kifejezett Internalizáció (pl.cselekvéses (explicit) tudás MIBŐL tanulás)
Információ menedzsment / BME VIK / Dr Magyar G.
Tudásmenedzsment
Tacit tudás
Információ menedzsment / BME VIK / Dr Magyar G.
TACIT
SZOCIALIZÁCIÓ
•Leírható
Információ menedzsment / BME VIK / Dr Magyar G.
Hallgatólagos (tacit) tudás
INTERNALIZÁCIÓ TACIT
•Kódolt
•Know-how
EXPLICIT
EXTERNALIZÁCIÓ
• személyek, csoportok, szervezetek számára • hogy tudást rendszerezetten és kollektívan • létrehozzanak, megosszanak és alkalmazzanak • üzleti céljaik elérése érdekében
Kombináció (pl. egyetemi oktatás)
154
Információ menedzsment / BME VIK / Dr Magyar G.
156
39
Tudásmenedzsment megközelítések • Kodifikációs Dokumentált tudás újrafelhasználása
Perszonalizációs megközelítés • Tudást vagyonnak tekinti, melybe be kell ruházni
(rendszerező)
A tudás adatbázisokba rendszerezett, kodifikált, mindenki által könnyen elérhető, visszakereshető. (Tacit – Explicit – Tacit)
• Jó szakembereket alkalmaz
• Perszonalizációs Munkatársak fejében levő tudás felhasználása (kapcsolati)
• Olyan embereket összekötő rendszerek szeretne, ahol a tacit tudás megosztható
• Szerény IT beruházásokat vállal
A tudás a tudás hordozójához szorosan kapcsolódik. A fő prioritás ezen tudás kommunikálása különböző csatornákon keresztül, az egyének együttműködésének támogatása. (Tacit – Tacit) Információ menedzsment / BME VIK / Dr Magyar G.
157
• Közvetlen tudásmegosztást jutalmazza
Információ menedzsment / BME VIK / Dr Magyar G.
159
Kodifikációs megközelítés
Kodifikáció
• Tudást vagyonnak tekinti, melybe be kell ruházni
• Cél: olyan formába önteni a szervezeti tudást, hogy mások számára elérhetővé váljon (pl. jogrendszer), azaz megosztható legyen. • Ezen kívül: tárolható, variálható, sokféle módon kezelhető legyen. • Cél elérésére használható módok:
• Elsősorban módszertan fejlesztésbe fektet be • Komoly IT beruházásokat vállal • Elektronikus dokumentumkezelő rendszert fejleszt ki
– – – –
• Jutalmazza az adatbázist használókat
Információ menedzsment / BME VIK / Dr Magyar G.
158
Feltérképezés Leírás (pl. szabályokba írás) Osztályozás Modellezés
Információ menedzsment / BME VIK / Dr Magyar G.
160
40
Kodifikációs alapelvek
Tudástérkép
• Milyen célt szolgáljon a tudás? (Pl. fogyasztókhoz kerüljön közelebb)
• Dokumentumokra, adatbázisokra és emberekre is utalhatnak
• Tudás azonosítás (melyek köthetők a célhoz)
• Jó tudástérképpel könnyebb eljutni a tudásforrásokhoz
• Tudás értékelése a kodifikáció alkalmasságának és hasznosságának szempontjából (pl. Dow Chemical 29 ezer szabadalma) • A rögzítéshez megfelelő eszköz kiválasztása
Információ menedzsment / BME VIK / Dr Magyar G.
• Szervezeti felépítés <-> Tudástérkép
161
Tudás kodifikációjának dimenziói • Hallgatólagos
• Kifejezhető
• Nem tanítható
• Tanítható
• Tagolatlan
• Tagolt
• Nem észlelhető működés közben
• Észlelhető működés közben
• Árnyalt
• Sematikus
• Összetett
• Egyszerű
• Nem dokumentált
• Dokumentált
Információ menedzsment / BME VIK / Dr Magyar G.
• Nem csak leltár (objektumokat tartalmaz), hanem azt is mutatja, hogy hogyan jutunk el hozzájuk
Információ menedzsment / BME VIK / Dr Magyar G.
163
Tudástérkép összeállítása • Kérdőív, melyben rákérdeznek – a meglevő ismeretekre – kihez fordul segítségért
• Sok kis térképből összeáll a nagy
162
Információ menedzsment / BME VIK / Dr Magyar G.
164
41
Tudástérkép példa
Kompetencia típusok
1. Kompetencia típusok és szintek kidolgozása
• Explicit pl. Excel, SQL
2. Feladatokhoz szükséges tudás meghatározása 3. Egyének teljesítményének minősítése
• Implicit: absztraktabb gondolkodás és következtetőképesség
4. Képességek on-line rendszerbe történő bevitele
• Szakismereti készségszintek: – – – –
5. Tudásmodell összeállítása
Alapszintű Munkához szükséges Vezetői Szakértői
• Pl. Excel szakértői szinten, SQL alapszinten Információ menedzsment / BME VIK / Dr Magyar G.
165
Információ menedzsment / BME VIK / Dr Magyar G.
Kompetencia típusok és szintek
Feladatok és egyének
• Kompetencia szintek
• Feladatokhoz szükséges tudás
– Alapismeretek (bevezető szintű) – Lokális és egyéni kompetencia (pl. egy hálózatelemzőnek hibafelismerő
167
– Pl. minden munka feladat típust 40-60 képesség alapján kell behatárolni
kompetenciával kell rendelkeznie)
• Egyének teljesítményének mérése
– Globális kompetencia (pl. a kontrolling csoportban mindenkinek értenie kell a pénzügyhöz)
– Dolgozókat értékelik a jelenlegi állásukban
– Univerzális képességek (pl. általános üzleti környezet, saját termékek)
• Kompetencia típusok – Explicit - implicit
Információ menedzsment / BME VIK / Dr Magyar G.
166
Információ menedzsment / BME VIK / Dr Magyar G.
168
42
on-line rendszer és modell építés
Tudástranszfer
• On-line tudástérkép (pl. Lotus Notes-ban, interneten, intraneten hozzáférhető)
• Tudásátviteli módok
• Modell építés egy új projekthez (pl. egy vezető megnézi a 2 legjobb képességű dolgozót az egyik, 4 legjobb képességű személy egy másik kompetencia területen.)
és lehetséges megoldási módjai
Információ menedzsment / BME VIK / Dr Magyar G.
• Tudástranszfer akadályai
169
• Tudásátvitel részei • Tudástranszfer sebessége és sűrűsége
Információ menedzsment / BME VIK / Dr Magyar G.
171
Emberi és beágyazott tudás
A tudásátvitel 2 lehetséges útja
• Veszélyek:
INFORMÁCIÓ
HAGYOMÁNYOS
• Szavakba öntött információt ad át.
• Szavakon túl képességeket ad át.
• Független az egyéntől.
• Egyéntől függ.
• Statikus
• Dinamikus
• Gyors
• Lassú
• Nem kodifikált
• Nem kodifikált
• Könnyű a tömeges terjesztés
• Nehéz a tömeges terjesztés
– Tudással rendelkező dolgozó távozik a cégtől
• Beágyazott tudás – Független azoktól, akik létrehozták – Szervezeti stabilitása van – Nehéz megtalálni a határvonalat a beágyazott tudás és emberi tudás között (pl. El Products felvásárolta a Grimes pormentes lámpákat gyártó vállalatot)
Információ menedzsment / BME VIK / Dr Magyar G.
170
Információ menedzsment / BME VIK / Dr Magyar G.
172
43
A tudástranszfer akadályai és lehetséges megoldási módjai (folyt.)
Tudásátviteli módok • Munkakapcsolat
• Hierachia a tudásforrásoknál: gondolatok minőségének felértékelése a forrással szemben
• Kiküldetés
• Intolerancia a hibákkal és segítségkéréssel szemben: együttműködés ösztönzése, hiányosságok tolerálása
• Műhelymunkák • Tréningek • Szakmai beszámolók • Szellemi alkotások használata • (személyes kapcsolat jobb) Információ menedzsment / BME VIK / Dr Magyar G.
173
Információ menedzsment / BME VIK / Dr Magyar G.
A tudástranszfer akadályai és lehetséges megoldási módjai
A tudásátvitel 2 része
• Bizalomhiány: személyes találkozás
• Továbbítás
• Eltérő kultúra, szókincs: közös alap létrehozása eszmecserével, oktatással
• Befogadás
175
– Ismeretforrásban való megbízás – Büszkeség félretétele
• Idő és helyhiány: konferenciabeszélgetés • Tudáshoz jár a jutalom és státus: ösztönző rendszer a tudás megosztására
• (+cselekvés) tudás nem egyenlő a cselekvéssel
• Befogadói képesség hiánya: nyitottá tenni az új ötletekre. Információ menedzsment / BME VIK / Dr Magyar G.
174
Információ menedzsment / BME VIK / Dr Magyar G.
176
44
A tudástranszfer sebessége és sűrűsége
Tudásvállalat tőkéje
• Sebesség
• Látható tőke (könyv szerinti érték): dologi javak
– Milyen gyorsan jut el az információ?
• Immateriális javak:
• Sűrűség (viszkozitás)
– Külső szerkezet: szállítói és vevői kapcsolatok – Belső szerkezet: a vállalat szervezeti felépítése, menedzsmentje, kultúra, K+F – Egyéni kompetencia: képzettség, tapasztalat
– Mennyit tud befogadni, mennyit használ fel? – Tudás sokrétegűségét mutatja
Információ menedzsment / BME VIK / Dr Magyar G.
177
Információ menedzsment / BME VIK / Dr Magyar G.
Tudásvállalatok
Kompetencia 5 eleme
• Dolgozók magasan képzett szakemberek
• Explicit tudás
• Saját kompetenciájuk segítségével teremtenek tudást
• Jártasság
• Immateriális javaik sokkal értékesebbek a dologi eszközöknél
• Értékítéletek
Információ menedzsment / BME VIK / Dr Magyar G.
179
• Tapasztalat • Társadalmi közeg
178
Információ menedzsment / BME VIK / Dr Magyar G.
180
45
A tudásszervezet hatalmi tényezői
A tudás megszerzésének módjai • Fejlesztés • Megvétel (szervezet vagy személy)
Szervezeti kompetencia
• Lízing, bérlés (kut. intézetek anyagi támogat., tanácsadók alkalmazása)
Szakember
• Kevert csoportok létrehozása – különböző tudású és tapasztalatú szakemberek
Szakértői kompetencia Támogató
• Tudás hálózatok – szervezeten belüli informális, önszerveződő csoportosulások Információ menedzsment / BME VIK / Dr Magyar G.
Vezér Menedzser
személyzet 181
Információ menedzsment / BME VIK / Dr Magyar G.
Tudásvállalatok stratégiái
A szakértői magatartás jellemzői
• Információ központú stratégia
• Szeretik komplex problémákat, szabadságot a kutatásban, új eredményeket és ha egyedül dolgozhatnak.
– – – –
Információs technológia fejlődésére épít Tömegpiacokat céloz meg Nincs lehetőség testre szabásra Embereket költségnek tekinti
• Idegenkednek a korlátozásoktól, rutinmunkától, bürokráciától. • Nem törődnek a fizetéssel, szabadsággal, szervezettel, más területen szakértőkkel.
• Tudás központú stratégia
• Ritkán vezetnek vállalatot.
– Immaterális javakra épít – Magas szintű a testre szabás – Embereket bevételnek tekinti Információ menedzsment / BME VIK / Dr Magyar G.
183
• Csodálják a náluk nagyobb szakértőket • Nem szívlelik a hatalomorientált vezetőket. 182
Információ menedzsment / BME VIK / Dr Magyar G.
184
46
A menedzser magatartás jellemzői
A vezér magatartás jellemzői
• A szervezetet adott keretek mellett adott erőforrások felhasználásával a cél felé vezeti.
• Magas szakértői és szervezeti kompetenciával rendelkeznek.
• Feladatuk másuk munkájának irányítása.
• Ugyanahhoz a szakmához tartoznak, mint a szakemberek, de nem kell kiváló szakértőnek lenniük.
• Szeretik ha különböző embertípusokkal dolgozhatnak együtt, szeretnek szervezni. • Tudásszervezetekben kevés csak funkcionális menedzser dolgozik: itt a projektmenedzsment miatt szakértői tudás is szükséges. Információ menedzsment / BME VIK / Dr Magyar G.
185
• Vezetésnél tudnia kell a célt, és rábeszélő képességgel kell bírnia. • Egyéb tulajdonságai: önzetlenség, komm. képesség, határozottság, empátia. Információ menedzsment / BME VIK / Dr Magyar G.
A támogató munkatárs magatartás jellemzői
Kodifikációs – perszonalizációs összehasonlítás
• Szerepük a szakértők és menedzserek munkájának segítése.
•
• Nincs olyan speciális képesítésük, ami kiemelt helyet biztosítana számukra.
•
• Alacsony a szakértői és szervezeti kompetenciájuk. • Alapvetően segítőkészek, de azért megfelelő módon ösztönözni kell még őket.
Információ menedzsment / BME VIK / Dr Magyar G.
186
187
Értékteremtés az ügyfél számára – Kodifikációs megközelítés: Megbízható, minőségi termékek, gyorsaság, alacsonyabb ár – Perszonalizációs megközelítés: személyre szabott, magas szakmai színvonalú, egyedülálló projektek
Profitteremtés – Kodifikációs megközelítés: az újrafelhasználás költséghatékonysága – Perszonalizációs megközelítés: a személyes szaktudás testre-szabott vagy innovatív megoldásokban megjelenő profitteremtő képessége
•
Emberi erőforrás menedzsment – Kodifikációs megközelítés: Megvalósítók, hatékonyságnövelés a cél – Perszonalizációs megközelítés: Innovátorok, mentorálás, on-the-job training
Információ menedzsment / BME VIK / Dr Magyar G.
188
47
Tudásmenedzsment feladatok • Tudástérkép készítés
Kodifikációs megközelítés
• Kompetencia menedzsment rendszer létrehozása • Dokumentumkezelő rendszer kialakítása
Access Health telefonos diagnosztikai központ Adatbázis + algoritmus 500 betegség felismerésére Évi átlag 8000 diagnózis / algoritmus
• Ügyfél információs rendszer kialakítása • Módszertan kidolgozás • Fejlesztés (innováció) • Intranet kialakítás
Dell Olcsó, PC-k összeállítása, eladása közvetlenül a végfelhasználónak Konfigurációs adatbázis: kb 40000 konfiguráció
• Tudásközösség létrehozás • Munkatárs értékelő rendszer kialakítás Információ menedzsment / BME VIK / Dr Magyar G.
189
Tudásmenedzsment területek INFORMÁCIÓ
SZOFTVER
Vevőkről
CRM, adattárház, Internet
Információ menedzsment / BME VIK / Dr Magyar G.
191
Alkalmazási példák 2 Perszonalizációs megközelítés
szállítókról
Inter- intranet, dok. Kezelő
Saját termékekről, szolg. Versenytársakról
Intranet, dok. kezelő Internet, dok. kezelő
munkatársakról
Intranet
Szabályozási környezetről
Inter- intranet, dok. Kezelő
Módszerekről, folyamatokról Inter- intranet, dok. Kezelő, workflow Információ menedzsment / BME VIK / Dr Magyar G.
Alkalmazási példák 1
190
• Memorial Sloan-Kettering Rákgyógyászati Központ – Minden eset egyedi, több terület specialistáját igényli – 17 betegség-specifikus orvos csoport – gyakori szemtől szembeni konzultáció, kommunikáció a tudásáramlás biztosítására
• Hewlett Packard – Innovatív termékek fejlesztése – Folyamatos személyes tudásmegosztás támogatása (pl. céges repülőgép)
Információ menedzsment / BME VIK / Dr Magyar G.
192
48
Felhasznált források
A Szemantikus Világháló
• László János (AAM Vezetői Informatikai Tanácsadó Rt) jegyzetei
• Példa: konferenciára készülünk. A honlapján végig-
• Információ és Tudásmenedzsment Tanszék jegyzetei • Davenport - Prusak: Tudásmenedzsment, Kossuth Kiadó, Budapest, 2001.
Információ menedzsment / BME VIK / Dr Magyar G.
193
5. A Szemantikus Világháló
lépdelünk: regisztráció, szállodakeresés, majd foglalás, utazás megszervezése. "A szemantikus weben ezek az információdarabok be lesznek címkézve. A szoftver felismeri majd a címkéket, egyetlen klikkre automatikusan repülőjegyet és szállást foglal" (Tim Berners-Lee)
Információ menedzsment / BME VIK / Dr Magyar G.
195
Mi kell hozzá? A hálózati tartalom egyértelmű cimkézése.
Vízió: A szemantikus háló a Web funkcionalitására épülő új réteg,
Gépi intelligencia számára is használható adatmodell(ek), amit ember által olvashatóan kell tárolni.
adatai alkalmasak lesznek gépi feldolgozásra, automatizálásra is.
Következtetés-logika.
Szabványos szótárak (a leírt adatok megértéséhez). Bizonyítási szint: a többi rendszerkomponens felé megjeleníti az eredményt. Bizalmi szint: a hálón sok adat rossz, hiteltelen, bizonytalan.
Információ menedzsment / BME VIK / Dr Magyar G.
194
Információ menedzsment / BME VIK / Dr Magyar G.
196
49
A szemantikus háló rétegei
W3C • Technology and Society Domain – Semantic Web activities • RDF Core WG • Web Ontology WG • RDF Interest Group • Semantic Web Coordination Group
Információ menedzsment / BME VIK / Dr Magyar G.
197
Információ menedzsment / BME VIK / Dr Magyar G.
199
A szemantika építőelemei
Specifikációk • RDF Model and Syntax Specification • RDF Concepts and Abstract Data Model • RDF Model Theory (and graph syntax) Az RDF szemantika formális definíciója
• RDF/XML syntax Az XML ábrázolás definíciója
• RDF Schema (and data types) A Vocabulary Definition Language
• Továbbá: – RDF Primer – RDF Text Cases
Információ menedzsment / BME VIK / Dr Magyar G.
198
Információ menedzsment / BME VIK / Dr Magyar G.
200
50
Metaadatok
Alapvető kategorizálás
Adat az adatról
Megkülönböztetjük a – leíró és a – szemantikus
• „Lágy” fogalom: minden adat, ami más adatról szól.
metaadatokat.
(Pl. katalógusadat) Szükségünk van kiegészítő adatokra ahhoz, hogy az adatokat kezelni és értelmezni tudjuk. Ezeket a kiegészítő adatokat nevezzük metaadatoknak.
Információ menedzsment / BME VIK / Dr Magyar G.
201
Információ menedzsment / BME VIK / Dr Magyar G.
203
Leíró metaadatok (descriptive metadata): olyan metaadatok, amelyek jelentése nem közvetlenül kapcsolódik a dokumentum jelentéséhez, hanem a dokumentum keletkezésének és/vagy módosításának a körülményeit írják le.
• Metaadat minden olyan adat, amely más adatokról szól, „adat az adatról”. A metaadatok természetesen önmaguk is adatok, így róluk is lehetnek további metaadatok.
Például: a dokumentum szerzője, a dokumentum hossza, az utolsó módosítás dátuma stb. A Dublin Core metaadat szabvány segítségével ilyen leíró metaadatokat adhatunk meg. Leíró metaadatok nagy számban fordulnak elő strukturált adatbázisok és adattárházak esetén is.
Információ menedzsment / BME VIK / Dr Magyar G.
202
Információ menedzsment / BME VIK / Dr Magyar G.
204
51
Metaadat típusok (2) Szemantikus metaadat: olyan metaadat, amely a dokumentum jelentéséről hordoz információt.
• Megőrzési metaadat: információ megőrzési tevékenységhez
Például: a dokumentum jellegzetes kulcsszavai, témaköre. A szemantikus metaadatok főleg strukturálatlan és félstrukturált adatok esetében hasznosak, ahol az adatok információtartalma csak külön feldolgozás árán nyerhető ki az adatok reprezentációjából. Szemantikus metaadat megadása például könyvtári metaadat szabvány segítségével lehetséges (MARC és más könyvtári metaadat szabványok). Információ menedzsment / BME VIK / Dr Magyar G.
205
(pl. az erőforrás fizikai állapotának leírása, adatfrissítési doku)
• Műszaki metaadat: rendszerműködési jellemzők (pl. hw, sw doku, digitalizálási adat, formátum, kódkulcs, jelszó)
• Felhasználási metaadat: inf. erőforrás felhasználásának szintje, típusa (pl. kiállítási adat, felhasználó regisztrátum, újrahasznosítás) Információ menedzsment / BME VIK / Dr Magyar G.
207
Metaadat típusok
Metaadat attribútumok
• Adminsztratív metaadat: információs erőforrás adminsztrációjához, menedzseléséhez
• Metaadatforrás
Fájlnév, könyvtárszerkezet
• Metaadat előállítási mód
Kulcsszó, index, tranzakciós napló
• A metaadat jellege
MARC, személyes Web oldal
• A metaadat státusza
Statikus, dinamikus
• A metaadat szerkezete
MARC, TEI, EAD
• A metaadat szemantikája
Sztenderd szótáras, ellenőrizetlen
• A metaadat szintje
Gyűjtési szint
(pl. jogok, hozzáférés, digitalizáláshoz szelektálási kritérium)
• Leíró metaadat: információs erőforrás azonosításához és jellemzéséhez (pl. katalógus, keresési segítség, index, hyperlink erőforrások között)
Információ menedzsment / BME VIK / Dr Magyar G.
206
Információ menedzsment / BME VIK / Dr Magyar G.
208
52
Információs rendszer objektumainak életciklusa
content = essence + metadata A tartalmat csomagokba rendezik. A csomagokra így külön-külön sokféle funkció és jellemzés alkalmazható. (Pl. Access Control, Identifiers & Labels, Version Control, IPR Management, Data Access, Essence Tracking, Contribution/Distribution Information, Data Base Management, Play-list-Essence Matching) Információ menedzsment / BME VIK / Dr Magyar G.
209
•
A korszerű médiainformációs rendszerek felépítésének egyik pillére.
•
• Az Európai Műsorszóró Egyesület (EBU) az audiovizuális tartalmat (content) a következő összetevőkre bontja: - videóesszencia
• Audio Essence
- audióesszencia
• Data Essence
- adatesszencia
• Metadata
- metaadat
• • • • • •
Információ menedzsment / BME VIK / Dr Magyar G.
211
Az EBU metaadatok rendeltetés szerinti felbontása
Példa: EBU/SMPTE metaadatok
• Video Essence
Információ menedzsment / BME VIK / Dr Magyar G.
210
Essential Metadata :információ, amely az esszencia dekódolásához szükséges (pl. UMID, videóformátum, a hangcsatornák száma stb.) Access Metadata: a tartalomhoz való hozzáférésre vonatkozó információ (pl. szerzői jog) Parametric Metadata: információ, ami az Essence részletesebb paramétereit határozza meg (pl. kamera-beállítások) Composition Metadata: kötelező információk arról, hogyan lehet a komponenseket egy struktúrába vagy szekvenciába állítani (pl. címinformációk, színkorrekciós oparaméterek, Edit Decision Lists, zoom lens positioning) Relational Metadata: a tartalomkomponensek közötti szinkronizációhoz szükséges információk (pl. timecode) Geospatial Metadata: a forrás térbeli helyzetére vonatkozó adatok Descriptive Metadata: a tartalom adminisztrálásához, a kereséshez, az információeléréshez, a katalogizáláshoz szükséges információk (pl. szerző, hely, a keletkezés ideje, verzióinformáció stb.) Other Metadata: (pl. felhasználó által definiált metaadatok, leíró szövegek)
Információ menedzsment / BME VIK / Dr Magyar G.
212
53
Metaséma-minimálkonszenzus: Dublin Core
MPEG-7
az internetes forrásfeltárási munka megkönnyítése, a források bibliográfiai leírásának egységesítése, a hozzáférés és az egységes értelmezés szabványosítása.
• Cél: a multimédia tartalmak szabványos leírására, szolgáló szabványos - deszkriptorokat, leíró sémákat, deszkriptorleíró nyelvet tartalmazó – keretendszer megteremtése, az abban használatos fogalmak minél pontosabb meghatározása.
15 leíró egység: • title - cím, creator - alkotó, subject - tárgyszavas leírás, description- leírás, publisher - kiadó, contributor hozzájáruló, date - dátum, type - típus, format- formátum, identifier - egyedi azonosító, source - forrás, language – nyelv, relation – forráshivatkozás, coverage - téridő-helyzet, rights - jogok A Dublin Core szabvány specifikációja: Internet RFC 2413 (The Dublin Core Metadata for Simple Resource Discovery).
Információ menedzsment / BME VIK / Dr Magyar G.
213
• Data (a leírni kívánt audiovizuális információ) • Feature (a Data valamilyen megkülönböztető sajátossága) • Descriptor (egy Feature reprezentációja, szemantikai és szintaktikai szabályok révén) • Descriptor Value (egy Descriptor konkrét értéke, előfordulása) • Description Scheme - DS (DSs) (meghatározza a Descriptor-ok és a Description Scheme-k viszonyrendszerének, szerkezetének szemantikáját és szintaktikáját) • Description - D (Ds) (egy DS-ből, azaz struktúrából és Description Value-k egy adott készletéből áll) • Coded Description ("külső" követelményeknek - pl. tömörség, véletlen elérés - megfelelő Description) • Description Definition Language - DDL (Descriptor-ok és DS-ek létrehozására, módosítására alkalmas nyelv) Információ menedzsment / BME VIK / Dr Magyar G.
214
Információ menedzsment / BME VIK / Dr Magyar G.
215
Metaadat és Web Több kezdeményezés: metaadatokkal ellátni a Webet. Felhasználási területek: Katalogizálás (pl. BibTeX) Tartalmi rangsorolás Szellemi tulajdon védelme Személyességi szintek (hozzáférés) e-kereskedelem
Információ menedzsment / BME VIK / Dr Magyar G.
216
54
Az információkereső-nyelvi szótár fogalma
Tezauruszok • Szemantikus metaadat esetében ez bonyolultabb (a mezők tartalmának a jelentése sem feltétlen világos - pl. kulcsszavak esetén). • Tipikus megoldás: a felhasználható kulcsszavak körét egy ún. kontrollált szótárral (controlled vocabulary) adjuk meg (az adott témakör összes
• Információkereső-nyelvi szótáron, illetve szókészleten természetes és mesterséges nyelven alapuló szótárakat, illetve szókészletet értünk: – – – –
osztályozási rendszert, tárgyszójegyzéket, tezauruszt és ún. szabad tárgyszavakat
lehetséges kifejezését, azok magyarázatát és a köztük levő kapcsolatot tartalmazza).
• Ezzel a kulcsszavak jelentése a rendszeren belül egyértelműen rögzíthető. Információ menedzsment / BME VIK / Dr Magyar G.
217
Információ menedzsment / BME VIK / Dr Magyar G.
Tezauruszok
Tezaurusz
• A metaadat akkor (a leg)hasznos(abb), ha jelentése jól definiált. Megállapodások, szabványok szükségesek: az egyértelműség (értelmezésbeli különbségek elkerülésére: pl. szerző, utolsó módosítás dátuma), és a (mező)formátumok egységesítésére (pl. mindig az ISO szerinti dátumformátumot használjuk)
• Ennek egyik megvalósítási módja a tezaurusz: adott szakterület kulcsszavait és azok közti (nyelvtani) kapcsolatokat tartalmazza.
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
218
219
• Tipikusak egy tezauruszon belül a szinonima (synonim), az általánosabb kifejezés (broader term, BT), a specifikusabb kifejezés (narrower term, NT), és az általános „kapcsolatos fogalom” (related term, RT) relációk. 220
55
a reláció
Tezaurusz szabványok
rövid jele
szakmai megnevezése
F
Nemzetközi :
T R A P E X L LV H HV
generikus fölérendelt (nemfogalom) partitív fölérendelt (egész)
• ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri • ISO 5964:1985 Documentation -- Guidelines for the establishment and development of multilingual thesauri Magyar szabvány: MSZ 3418-87 Információ menedzsment / BME VIK / Dr Magyar G.
221
A tezaurusz és más osztályozási rendszerek
A tezauruszban ún. lexikai egységek és a köztük levő relációk vannak. Többféle reláció lehet két lexikai egység között -> ezáltal egy tezaurusz több irányú barangolást tesz lehetővé (mint egy klasszikus osztályozási rendszer, pl. könyvtári osztályozó rendszer). Ez nagyobb kifejező erőt ad, de karbantarthatósága, kezelhetősége nehezebb. Információ menedzsment / BME VIK / Dr Magyar G.
222
laikusok számára megnevezése általánosabb kifejezése
történő
átfogóbb kifejezése, egésze
eredménye, következménye
rendeltetése/oka
generikus alárendelt (faj-fogalom)
fajtája
partitív alárendelt (rész)
része
eredete, kiindulása
eszköze/okozata
egyéb rokonsága, átfedése
rokon kifejezés
deszkriptor
lásd
vagylagos deszkriptorok
lásd vagy
nemdeszkriptor
helyettesített
vagylagos nemdeszkriptorok
vagylagosan helyettesített
Információ menedzsment / BME VIK / Dr Magyar G.
223
ADATBÁZIS M: Adatok elektronikus hordozó rögzített, keresésre alkalmas és forgalmazott, szervezett, összessége F Műszaki dokumentum X Cd-rom ADATHORDOZÓ M: Olyan tároló közeg, amelyen vagy amelyben egy meghatározott fizikai változó adatokat ábrázolhat [MSZ 7788/1] A Filmanyag Hanglemez Hangszalag Képlemez Képszalag Mágneses adathordozó Optikai adathordozó Papírlap T Dokumentum Információ menedzsment / BME VIK / Dr Magyar G.
224
56
DIPLOMA M: Szakképzettséget vagy (cím)adományozást igazoló (díszes) oklevél F Bizonyítvány
Ismert tezauruszok
Diplomamunka L Szakdolgozat
• The Art and Architecture Thesaurus, Getty Institute http://shiva.pub.getty.edu/aat_browser/
DISSZERTÁCIÓ M: Felsőoktatási vagy egyéb keretben tudományos fokozat ill. cím elnyeréséért készített értekezés [MSZ 3424/6] H Doktori értekezés F Tanulmány X Szakdolgozat Tézis
• Union List of Artist's Names, Getty Institute http://shiva.pub.getty.edu/ulan_browser/
Információ menedzsment / BME VIK / Dr Magyar G.
Ének
• British Museum Object Names Thesaurus http://www.mdocassn.demon.co.uk/bmobj/Objintro.htm • NASA Thesaurus http://www.sti.nasa.gov/thesfrm1.htm 225
227
MDC Open Information Model
M: Emberi hanggal megszólaltatott zene L Vokális zene
ÉNEKESKÖNYV M: Énekszövegeket és hangjegyírással lejegyzett énekeket tartalmazó gyűjtemény [VILIRLEX] F Gyűjteményes könyv Hangjegyes tartalmú dokumentum A Daloskönyv Egyházi énekeskönyv Táncdalgyűjtemény X Énektankönyv Népdalgyűjtemény ÉNEKTANKÖNYV H Oktatási énekeskönyv F Zenei tankönyv A Szolfézskönyv X Énekeskönyv Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
226
Metaadat Koalíció (Meta Data Coalition - MDC). Célja: a metaadatok egységes kezelése. Nyílt információs modell (Open Information Model OIM), komponens-alapú, újrahasznosítható alkalmazásfejlesztés támogatása. UML modellező nyelv alkalmazása.
Információ menedzsment / BME VIK / Dr Magyar G.
228
57
Alkotó elemei UML Model
• Analysis and Design Model (UML Extensions, Common Data Types, Generic Elements) • Object and Component Model (Component Description Model)
Formal Specification
• Database and Warehousing Model (Database Schema, OLAP Schema, Data Transformations, Record Oriented Legacy Databases, Report Definitions)
Object Model Interface Def.
Repository
XML Document Type Definition
XML Transfer
Query View
• Business Engineering Model (Business Goal Model, Organizational Model, Business Rule Model, Business Process Model)
Documentation Test, etc.
SQL Schema Definition
• Knowledge Management Model (Knowledge Description Format, Semantic Definitions) Információ menedzsment / BME VIK / Dr Magyar G.
229
231
Az információtípusok jellemzése
Implementációs eszközei • Unified Modeling Language (UML) - az OIM formális specifikációs nyelve
• Jelölő (markup) nyelvek (SGML, HTM, XML) • Szöveg. Szövegformátum, természetes nyelv, hasonlósági modellezés.
• eXtensible Markup Language (XML) - az OIM szabványos csere formátum nyelve • a Structured Query Language (SQL) - az OIM lekérdező nyelve.
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
230
• Multimédia. Formátumok, leíró adatok, tartalomjellemzés.
Információ menedzsment / BME VIK / Dr Magyar G.
232
58
Ontológiák (Tudásreprezentáció) Fogalom
<ez egy>“Jaguár“
Információ menedzsment / BME VIK / Dr Magyar G.
233
A metaadatok szematikai problémája
Ontolológia a filozófiában • ontosz (lenni, létezni) + logosz (tudomány)
Könyvtár Videotéka Yellow Pages WEB ???
• Arisztotelész, Aquinói Szent Tamás (istenérvek) • XX. Század: Husserl, Hartmann, Heidegger, • Érzékfeletti irracionális intuíció útján felfogott lét legáltalánosabb fogalmainak rendszere (Filozófiai kislexikon)
• Eltérő szemantika • uniform metaadat készlet minden forrás számára? – gyakorlatilag nem lehetséges (www. God*.org ?) • RDF: – Megfogalmazza mi a közös a metaadat alkalmazásokban – Egy olyan keretet biztosít, ami lehetővé teszi a metaadat, információ absztrakt, alkalmazás független *** leírását *** = általános szemantika (?) Információ menedzsment / BME VIK / Dr Magyar G.
235
• „a létről szóló tan”
• Metaadat mindenütt használatos – – – –
Információ menedzsment / BME VIK / Dr Magyar G.
234
• Az ontológia a legfontosabb fogalmak és viszonyaik leírása.
Információ menedzsment / BME VIK / Dr Magyar G.
236
59
Fogalmak viszonya
Arisztotelészi kategóriák
• Taxonómia
1. Szubsztancia: a létezőnek tekinthető dolgok
• A fogalmak felosztása, hierarchiába szervezése valamilyen megkülönböztetési szabály alapján.
2. Mennyiség: kvantitatív jellemző 3. Minőség: Kvalitatív jellemző 4. Viszony 5. Hely: térbeli hellemző 6. Idő: időbeli jellemző 7. Helyzet: valamilyen térben elfoglalt pozíció 8. Állapot: ok-okozat, hasonlóság, tartalmazás, részlet stb. 9. Cselekvés 10. Szenvedély Példa: Egy kétméteres [2] gondolkodó [3] ember [1] csapzottan [8] ült [7] a buszon [7] egyik reggelen [6], és lelkesen [10] evett [9].
(Az összes többi kategória a szubsztancia tulajdonságának tekinthető)
– Amit felosztunk: nemek (genus) – Az alárendelt fogalmak: fajok (species) – A fajok között kölcsönös kizárás van – Természetesen mindkettő relatív – Tartalmazási reláció – Fogalmak, melyeknek vannak példányai
Állatok
– Fa struktúra (létezik a legfelsőbb nem) Emlősök
Halak
Információ menedzsment / BME VIK / Dr Magyar G.
Stb. 237
Kategóriák
Információ menedzsment / BME VIK / Dr Magyar G.
239
Az ontológia
• Általában a világ egy kis részének leírásához is kevés egy fa. (pl. a kecskebéka és a gyűlölet nehezen illeszthető össze – nincs közös ősük) • A fa helyett tehát erdő alkalmazható. • A különböző kategóriák független taxonómiát alkotnak, de közöttük kapcsolatok lehetnek.
egyezményes terminológiát állít fel egy közös érdeklődésű közösség tagjai között. • A tagok lehetnek emberek vagy gépi ügynökök.
– Nem párosítható minden fogalom mindennel. – Az egyik fa egy fogalmához a másik fa mely nemének leszármazottjai kapcsolódhatnak (alma-gömb). – Egy fogalom mely másik fogalmak használatát zárja ki (alma-kék). – Példa: Arisztotelészi kategóriák
Információ menedzsment / BME VIK / Dr Magyar G.
238
Információ menedzsment / BME VIK / Dr Magyar G.
240
60
Az ontológia = egy konceptualizáció specifikációja. A konceptualizáció (C) a tudás készítőjének fejében kialakuló fogalmi séma vagy sémák. Megjelenítéséhez nyelvre (L) van szükségünk. (tárgynyelv) A fogalmi séma és reprezentációja között ontológiai elkötelezettség (ontological commitment) (K) teremt kapcsolatot.
C
K
ontológiai elkötelezettség
O N T O L Ó G I A
L nyelv modelljei Információ menedzsment / BME VIK / Dr Magyar G.
241
Ontológia az informatikában • Gruber: „egy adott felhasználói csoport által egy adott témakörben közösen használt világkép formális leírása” • Tehát már nem akarja senki a teljes tudást leírni, részterületeket kell megcélozni (dokumentum típusok, algebra). Elemei: • Fogalmak (concepts) • Kapcsolatok (relation) • Axiómák (axioms)
Információ menedzsment / BME VIK / Dr Magyar G.
243
Ontológia vs. tezaurusz • FONTOS! Fogalmakról van szó, nem kifejezésekről, mint a tezauruszban. Az ontológiákban a nyelvi megjelenés csak egy címke.
Fogalom
felidéz absztakció
Dolog
vonatkozik
felidézés
Fogalom
ontológia Információ menedzsment / BME VIK / Dr Magyar G.
Kifejezés
“Jaguár“
Szimbólum
Dolog
tezaurusz 242
Információ menedzsment / BME VIK / Dr Magyar G.
244
61
Miért
A keresés nyelvi nehézségei 1.
címkézünk, építünk tezauruszt, ontológiát … ?
Azonos (hasonló) jelentésű kifejezések - Példa: • „Egy felest szeretnék!” • „Ide gyorsan egy kupicával!” • „5 cl pálinkát kérek!”
Mert a tipikus felhasználó nem képes jól leképezni igényét az információs rendszer által megkövetelt módra. (Különösen ma, az Internet korában: sok ember keres, intézi ügyeit – speciális előképzettség nélkül, a modellek, a struktúrák, a konvenciók ismerete nélkül, hétköznapi logikával.)
Egy indexelő kereső nem tekinti egyformának! • Szinonimák: feles, 5 cl, kupica • Szórend: (Ide-kérek), (5cl, kupica)
Információ menedzsment / BME VIK / Dr Magyar G.
245
Információ menedzsment / BME VIK / Dr Magyar G.
247
A megoldandó probléma
A keresés nyelvi nehézségei 2.
Információ kereső képesség javítása
Azonosnak látszó kifejezések - Példa:
• Recall (több jó találatunk legyen)
• A mag, amelyik a földbe került, kicsírázott.
• Precision (kevesebb rossz találatunk legyen)
• A Föld magjának anyaga vas és nikkel keveréke.
Lehetőleg közelítsünk a természetes nyelvhez, az emberi gondolkodáshoz!
Egy indexelő kereső azonosnak tekinti! • hominimák: Föld, föld
(Kérdés: milyen kapcsolatban van ez a kettő ?)
• kontextus tévesztés: mag, mag
Információ menedzsment / BME VIK / Dr Magyar G.
246
Információ menedzsment / BME VIK / Dr Magyar G.
248
62
Nyelvi kompetencia
Mire jó, ha ontológiát készítünk?
Honnan tudja az ember a jó megoldást?
• Az információ szerkezete definiálható emberek és szoftver ügynökök számára • A szakterület tudásanyagát újrafelhasználhatóvá teszi • A kiinduló feltételeket kiemeli (axiómák, hipotézisek, posztulátumok, fikciók) • A mindennapi fogalomrendszert megkülönbözteti a logikaitól • Elemezhető általa a tudás teljessége
• Szinonimák ismerete, szórend értelmezése • Önmagában még nem magyaráz meg mindent – Ha rosszul beszélünk egy nyelvet, akkor is boldogulunk – Egy-egy szó is óriási információtöbbletet tud adni („heuréka élmény”) – Felülemelkedünk a nyelv szintaktikáján „A kék alma felszáll a bánya mélyébe” Nyelvileg (szintaktikailag) tökéletes, értelme nincs.
Nem elég önmagában a nyelv logikája !
(bár az is nagyon sokat segíthet, és – különösen magyarul – még nagyon sok megoldatlan probléma van) Információ menedzsment / BME VIK / Dr Magyar G.
249
Információ menedzsment / BME VIK / Dr Magyar G.
251
Háttértudás Ha a számítógépek is rendelkeznének az ember háttértudásával, sokkal ügyesebben dolgoznának.
Korunk informatikájának egyik jellemző trendje: a formalizálás, a formális nyelven történő leírás.
Probléma: • Hogyan tehetjük a számítógép számára is érthetővé? • Hogyan használjuk fel a háttértudást? Információ menedzsment / BME VIK / Dr Magyar G.
250
Információ menedzsment / BME VIK / Dr Magyar G.
252
63
Szabványos szintakszis
Következtetés-gép
Ma: XML alapú leíró nyelvek (hogy egyszerűbb legyen parsert készíteni).
A szematikus hálón található tudás gépi feldolgozására következtetés-gép (inference engine) szükséges.
Példák: SHOE, XOL (Ontology Exchange Language), OML (Ontology Markup Language), RDFS, OIL (Ontology Intechange Language), DAML+OIL Ontológia és metaadat szerkesztő szoftverek (Protégé, Webonto, OilEd, stb.) Információ menedzsment / BME VIK / Dr Magyar G.
253
Információ menedzsment / BME VIK / Dr Magyar G.
Egy probléma megoldása újat hoz …
A következtetés-gép
Ontológia együttműködtethetőség
A már specifikált tudásból új tudást vezet le.
(tudáskompozíció, szemantikus fordító)
Két megközelítés:
255
- általános logkai következtetés-gép - specializált problémamegoldó algoritmus
Információ menedzsment / BME VIK / Dr Magyar G.
254
Információ menedzsment / BME VIK / Dr Magyar G.
256
64
Az RDF
URI Uniform Resource Identifier Az RDF-ben: minősített URI használatos. (URI és egy opcionális részletazonosító: #szöveg) A részletazonosító az URI-val megadott adat jellemzésére szolgál.
Információ menedzsment / BME VIK / Dr Magyar G.
257
Információ menedzsment / BME VIK / Dr Magyar G.
259
Miért nem elég az XML? • Az RDF általános és absztrakt modell amely bármilyen típusú metaadat leírására alkalmas, bármilyen olyan dologról, avagy erőforrásról (resource), amely egyedi, webes azonosítóval (URI) rendelkezik. • Az RDF az alapja a Szemantikus Világhálónak, az összes felhasználható adat ebben az adatmodellben jelenik meg. • Az RDF W3C ajánlás.
miért nem elég XML-ben leírni az adatokat, hiszen az XML általános, rendszerfüggetlen nyelv, amelyben minden leírható? Az XML csak egy adatcsere formátum, és a különböző XML séma nyelvek is csak az adatok struktúráját, megjelenését korlátozzák, de az adatok szemantikáját nem definiálják.
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
258
260
65
Példa1: <Szemely> Fekete Péter Fehér Mária <Munkahely>NevenincsKft. 300000
A példák pontosan ugyanazt az információt kódolják (Fekete Péter, neje Fehér Mária, a Nevenics Kft-nél dolgozik, bruttó fizetése 300000 HUF), mégis jelentősen eltérnek egymástól.
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
261
Fekete Péter <Salary currency="USD„ type="gross"> 1304 Fehér Mária NevenicsKft. Információ menedzsment / BME VIK / Dr Magyar G.
Az RDF olyan modell, amelynek célja, hogy az adatok szemantikája a gépi intelligencia számára is érthető formában megragadható legyen. 263
• Az N3 (Notation3) oktatási nyelvet alkalmazom az alábbiakban. • primer - getting into the semantic web and rdf using n3.htm
262
Információ menedzsment / BME VIK / Dr Magyar G.
264
66
RDF
rövidítéskonvenció
Az RDF-ben az információ állítások együttese, mindegyik alannyal, állítmánnyal és tárggyal - és semmi mással.
ha egy állítmányhoz több állítást kapcsolunk: a pontosvessző (;) másik állítmányt kapcsol ugyanahhoz az alanyhoz, a vessző (,) ugyazon alany-állítmány párhoz másik tárgyat kapcsol.
Példa: <#pat> <#knows> <#jo> .
<#pat> <#child> <#al>, <#chaz>, <#mo>;
Az angol nyelvű RDF irodalomban használatos kategóriák: Alany
<#age> „34" ;
- Subject
<#eyecolor> "blue" .
Állítmány - Verb / Predicate / Property Tárgy
- Object
Információ menedzsment / BME VIK / Dr Magyar G.
265
Információ menedzsment / BME VIK / Dr Magyar G.
267
Alany állítmány és tárgy Egy mondat: <#pat> <#knows> <#jo> . • Minden egyes elemet (alany, állítmány, tárgy) egy URI azonosít. A tárgy lehet egy érték(string) is.
Másképp age eyecolor pat 34 blue
<#pat> <#age> „34" .
• Az állítmány („RDF-ül”: tulajdonság) a másik két elem kapcsolatát fejezi ki.
al
3
green
jo
5
green
<#pat> <#child> <#al> .
<#pat> <#age> „34"; <#eyecolor> "blue" .
<#pat> has <#child> <#al> .
<#al> <#age> "3"; <#eyecolor> "green" .
<#al> is <#child> of <#pat> .
<#jo> <#age> "5"; <#eyecolor> "green" .
Információ menedzsment / BME VIK / Dr Magyar G.
266
Információ menedzsment / BME VIK / Dr Magyar G.
268
67
Közös fogalom A szemantikus web valójában nem képes megadni valamiről, hogy mit jelent. A „cím” (pl. könyvtári katalógusban, weboldalon) egy fogalom, s ha több forrás, dokumentum szeretné ezt használni:
<#pat><#child>[<#age> "4"],[<#age> "3"].
Itt a tárgyat nem azonosítottuk. A [ ] -ben található elemek egy létező objektumra utalnak, de nem szándékozunk - se itt, se más dokumentumban – hivatkozni rá.
– ugyanazt kell érteni rajta – ugyanazt a „szótári elemet” kell használni az azonosítására.
Pontosabban: a [ ] deklarálja, hogy valami létezik az adott tulajdonsággal, de nem ad módot arra, hogy hivatkozzunk rá. Ha meg akarom nevezni, akkor: [ <#name> "Pat"; <#age> "24";
<#eyecolor> "blue"
[ <#name> "Al" ; <#age>
"3";
<#eyecolor> "green" ].
[ <#name> "Jo" ; <#age>
"5";
<#eyecolor> "green" ].
Információ menedzsment / BME VIK / Dr Magyar G.
<> <#title> "Az N3 egyszerű példája".
(Az üres <> a kurrens dokumentumot jelenti. A példában a #title olyan fogalomra vonatkozik, amit maga a dokumentum definiál.)
].
269
Információ menedzsment / BME VIK / Dr Magyar G.
271
Közös fogalom A „pat”, „child” és „age” karakterek URI-k, a gép számára semmi jelentést nem hordoznak ezen kívül ! - amíg azt nem állítjuk:
A Dublin Core (DC)-ban is van elképzelés a cím fogalomról. Ezt használva jobban definiált állítást tehetünk (e tananyag címéről): <> http://purl.org/dc/elements/1.1/title „Információmenedzsment".
<#pat> <#name> "Pat".
Ez túl hosszú, ezért az N3 megengedi az egyszerűsítést: @prefix dc: . <> dc:title „Információmenedzsment".
Információ menedzsment / BME VIK / Dr Magyar G.
270
Információ menedzsment / BME VIK / Dr Magyar G.
272
68
Szótárkészítés Prefix használata esetén : jel a # helyett (a dc és a cím között), nem használ <>-t. A megadott prefix a dokumentum további részében használható. Az RDF honlapról sok fogalom meghivatkozható, és bárki megadhat újakat, készíthet névteret. @prefix rdf: . @prefix rdfs: . @prefix ont: .
Információ menedzsment / BME VIK / Dr Magyar G.
273
Legyen
dc:title = tulajdonság Új szótár vagy ontológia: új osztályok és tulajdonságok megadása. Osztálybasorolás: milyen tipusú az a valami rdf:type amit N3-ban így rövidítünk: a Adjuk meg így személyek egy osztályát::
:Person a rdfs:Class. A dokumentumban aztán: :Pat a :Person. Információ menedzsment / BME VIK / Dr Magyar G.
275
Egy objektum több osztályban lehet. Közöttük nem kell hierarchikus viszonynak lenni.
@prefix : <#> .
– Az alany osztálya: domain (Minek lehet ilyen típusú értéke) – A tárgy osztálya: range (Milyen típusu értékeket vehet fel)
Ezzel :pat :child [ :age "4" ] , [ :age "3" ].
Konvenció (nem szabvány, nem kötelező): – Osztály azonosítót nagy kezdőbetűvel – Tulajdonságot kis kezdőbetűvel
Információ menedzsment / BME VIK / Dr Magyar G.
274
Információ menedzsment / BME VIK / Dr Magyar G.
276
69
Szabályok Szabály =
Megfelelőség :Woman = foo:FemaleAdult . :Title a rdf:Property; = dc:title .
– Egy olyan állítás, ami szerint valami egy előfeltétel következménye – Ezt az állítást aztán valamely mechanizmus feldolgozhatja
– Célszerű, ahol lehet már létező szótárakra hivatkozni – Megőrzi a rugalmasságot
Logikai szabályok definíciója:
• Névtér
@prefix log: .
– Az RDF szótár „azonosítója” – Azonosító
Példa: { sensor:thermostat math:greaterThan "30" . } log:implies { control:furnace
• Ami egyedi • Ami a „kezünkben van” • Ami változatlan, perzisztens – Message-ID – Egy helyi path – URI (pl. purl.org)
Információ menedzsment / BME VIK / Dr Magyar G.
control:setTo "1" . } .
this log:forAll :x, :y. {:x :parent :y} log:implies {:y :child :x}. :parent ont:inverse :child . this log:forAll :p, :q . { :p ont:inverse :q . } log:implies { this log:forAll :x, :y. { :x :p :y. } log:implies { :y :q :x. } } . 277
Információ menedzsment / BME VIK / Dr Magyar G.
Formulák
Szabályok
Egy RDF dokumentum, illetve séma állítások (statements, mondatok) halmaza. • Formula=
@prefix : <#uncle>.
279
:Fred is :father of :Joe. :Bob is :brother of :Fred.
egy állítás, ami – állítások halmaza
@prefix log: .
• Egymástó független állítások (bármelyik kiemelhető) • Tetszőleges sorrendben • Egymást nem fedik át (teljesen)
this log:forAll :who1, :who2. { :who1 :father [ :brother :who2 ] } log:implies { :who1 :uncle :who2 }.
– igaz a saját környezetében (context)
Tehát egy Dokumentum: formulák halmaza
• Euler: http://www.agfa.com/w3c/euler/
<x.rdf> :says { :pat a :Person . } .
Itt az alany nem pat, hanem x.rdf Információ menedzsment / BME VIK / Dr Magyar G.
278
Információ menedzsment / BME VIK / Dr Magyar G.
280
70
Alany, állítmány és tárgy
Szemantikus gráf
• Resource (=forrás)
Gráfstruktúra: amelyben a csomópontok az egyes fogalmakat, az élek a csomópontok közti (bináris) kapcsolatokat jelzik. Mind a csomópontok, mind az élek címkézettek.
– Bármi, amit egy URI azonosíthat
• PropertyType – Egy olyan forrás, ami egy másik forrás jellemzésére használható – egy kapcsolat típus
• Property – Egy forrás vagy egy érték
• Statement – A három kombinációja
• Az RDF állítások leírhatók XML formátumban Információ menedzsment / BME VIK / Dr Magyar G.
281
Elem-hármas és gráf mailto::[email protected]
http://vhol.org/DC/Creator
http://ttt.bme.hu/index.html
mailto::[email protected]
http://vhol.org/DC/Creator http://vhol.org/sema/tartalmaz
http://ttt.bme.hu/photo.html Információ menedzsment / BME VIK / Dr Magyar G.
283
Az RDF gráfban
http://vhol.org/DC/Creator
http://ttt.bme.hu/index.html
Információ menedzsment / BME VIK / Dr Magyar G.
http://vhol.org/sema/egyuttdolgozik
mailto::[email protected] 282
két típusú csomópont van: - erőforrás (resource) - szövegfüzér (literal). Az erőforrás csomópontok az erőforrás URI-jával címkézettek, a szövegfüzér csomópontok a szövegfüzér tartamával. A csomópontokat összekötő éleket tulajdonságoknak (property) nevezik. A gráf irányított (a tulajdonság irányítása lényeges). Információ menedzsment / BME VIK / Dr Magyar G.
284
71
Elem-hármas és gráf http://vhol.org/DC/Creator
A gráfstruktúra egyszerű logikai állításokat kódol. Ha A csomóponttól egy másik B csomóponthoz vezet egy P tulajdonság él: „az A csomópont P tulajdonsága B”.
http://ttt.bme.hu/index.html
TÁRGY OBJECT
Az állítást egy (P,A,B) hármasként reprezentálhatjuk.
mailto::[email protected]
ÁLLÍTMÁNY
ALANY
PREDICATE
SUBJECT
„Az index.html létrehozója netuddki.”
ahol P a tulajdonságot, az állítás állítmányát jelöli, A az alany és B az állítás tárgya. Az állítmány két erőforrás között létesít kapcsolatot. Információ menedzsment / BME VIK / Dr Magyar G.
285
Elem-hármas és gráf TÁRGY
http://vhol.org/DC/Creator
mailto::[email protected]
ÁLLÍTMÁNY
http://vhol.org/DC/Creator
http://ttt.bme.hu/index.html
ALANY
mailto::[email protected]
http://vhol.org/DC/Creator http://vhol.org/sema/tartalmaz
http://ttt.bme.hu/photo.html Információ menedzsment / BME VIK / Dr Magyar G.
287
Elem-hármas és gráf
http://vhol.org/DC/Creator
http://ttt.bme.hu/index.html
Információ menedzsment / BME VIK / Dr Magyar G.
http://ttt.bme.hu/index.html
http://vhol.org/DC/Creator http://vhol.org/sema/tartalmaz
http://ttt.bme.hu/photo.html
http://vhol.org/sema/egyuttdolgozik
mailto::[email protected] 286
mailto::[email protected]
http://vhol.org/sema/egyuttdolgozik
mailto::[email protected]
„Az index.html létrehozója netuddki és nekem (akik együtt dolgoznak). Az index.html tartalmazza photo.html-t.” Információ menedzsment / BME VIK / Dr Magyar G.
288
72
További lehetőségek RDF-ben
RDF alapú ontológiák
Az egyszerű gráf modellen kívül: kollekciók (bag, sequence) megadása, állításokról való állítás („Kati azt mondta, hogy ...”), stb. Ezeket speciális szemantikával rendelkező tulajdonságok segítségével valósították meg, az adatmodell lényegét nem érintik. Az RDF alapú ontológiákban lehet újabb, rögzített szemantikájú tulajdonságokat és csomópontokat definiálni, így tetszőleges bonyolultságú adatokat RDF-ben megjeleníteni. Információ menedzsment / BME VIK / Dr Magyar G.
289
Információ menedzsment / BME VIK / Dr Magyar G.
291
Miért nem egyszerűen XML?
RDF Séma
• Az RDF:
Az RDF szabványhoz szorosan kapcsolódik az RDF Schema (RDFS) nyelv, amellyel egyszerű ontológiákat (csomópontok és tulajdonságok előre definiált halmazát) definiálhatunk.
– Független (bárki implementálhat szótárakat, típusokat, stb – és ha ezt közzéteszi akárki hivatkozhat is rá – nem egy „felülről definiált” szótáron alapszik) – Egyszerűen cserélhető, platform, nyelv, stb… független (XML szerializáció) – Skálázható – világszerte tetszőleges számú XML kifejezés láncolható össze.
• Miért nem egyszerűen XML (önmagában)? – XML elemek esetében számít a sorrend, míg az RDF egyszerűen állítások halmaza – Az XML elemek megengednek kevert típusokat, ahol egy elemnek mind szöveges, mind struktúrált információt tartalmaz
• Az RDF egy XML alkalmazás, XML Schema-val leírható. Információ menedzsment / BME VIK / Dr Magyar G.
290
Információ menedzsment / BME VIK / Dr Magyar G.
292
73
RDF Séma A szabvány csak a legegyszerűbb konstrukciókat tartalmazza, lehetőséget adva osztályhierarchiák megalkotására (subclass – alosztály és subproperty – altulajdonság reláció), az adott osztályba tartozás kifejezésére (type – típus reláció), egy adott tulajdonság értelmezési tartományának (domain) és értékkészletének (range) a megadására.
Információ menedzsment / BME VIK / Dr Magyar G.
293
RDFS ontológia példa Egy múzeumi ontológia. Érdemes megfigyelni: az absztrakt fogalmak, és az egyes nyelvi megjelenéseik különválnak. Így egy új nyelv esetén csak egy új címkét (label) kell hozzáadni az ontológia fogalmaihoz és tulajdonságaihoz. A példában a nyelvek megadására az XML szabványban specifikált xml:lang attribútumot használjuk. Információ menedzsment / BME VIK / Dr Magyar G.
294
Painting Festmény Sculpture Szobor Flemish Flamand festő Cubist Kubista festő Painter Festő
Információ menedzsment / BME VIK / Dr Magyar G.
295
Sculptor Szobrász Artifact Műtárgy Artist Művész last name vezetéknév first name keresztnév Információ menedzsment / BME VIK / Dr Magyar G.
296
74
technique technika has material anyaga sculpts szobrot készít paints fest Információ menedzsment / BME VIK / Dr Magyar G.
Az RDFS ontológia maga is egy RDF dokumentum. W3C filozófia: (lásd XML és XML Schema) a sémák létrehozására és szerkesztésére legyenek használhatók ugyanazok az eszközök, amelyeket az alap adatmodell kezelésére hoztak létre.
297
creates készít
Információ menedzsment / BME VIK / Dr Magyar G.
299
DAML+OIL Az RDFS-re épülő ontológia leíró nyelvek egyik példája a DAML+OIL ontológia leíró nyelv. Két korábbi projekt, a DARPA Agent Markup Language (DAML) és az Ontology Inference Layer (OIL) eredményeit egyesíti. Felhasználja az RDFS konstrukcióit, és további elemekkel bővíti azt. Ilyen bővítések például:
Információ menedzsment / BME VIK / Dr Magyar G.
298
Információ menedzsment / BME VIK / Dr Magyar G.
300
75
Példa: DAML dokumentum ontológia
• A szövegfüzérek felé és erőforrások felé mutató tulajdonságok explicit megkülönböztetése, a tisztább fogalmi modellezés érdekében.
• Communications (communicator, recipient)
• Halmazműveletek definiálása osztályhoz: pl. osztályok uniója, metszete
– Speech – Software (SoftwareDocumentation, SoftwareVersion) – Document (Title, Subject, Author, Publisher)
• Annak megadása, hogy egy osztály „ugyanaz” mint egy másik, ill. egy osztály példányai biztosan különböznek egy másikétól.
• Lecture • Publication – Book – Thesis – Article – Periodical • Homepage • Abstract
• Inverz tulajdonságok, tranzitív tulajdonságok specifikálása. • A tulajdonságok értékkészlet és értéktartomány definíciójának adott osztályra való megszorítása.
Osztályok
– PhoneCall
• DocumentRepresentation
• XML Schema adattípusok használata az egyszerű literálok helyett. Információ menedzsment / BME VIK / Dr Magyar G.
Tulajdonságok
– ElectronicDocument – PaperDocument
303
Példa: Dokumentum RDF séma 1.
DAML+OIL
•
document-ont, v.1.0 An ontology that models documents, particularly publications
A DAML+OIL nyelv teljes értékű ontológia specifikációs nyelv, kifejezőereje elegendő a gyakorlatban is alkalmazható ontológiák specifikálásához.
<subClassOf resource="http://www.cs.umd.edu/projects/plus/DAML/onts/general1.0.daml#Event"/> •
is communicated by <domain resource="#Communication"/>
• ……………….. Információ menedzsment / BME VIK / Dr Magyar G.
Kategóriák
Információ menedzsment / BME VIK / Dr Magyar G.
301
302
Információ menedzsment / BME VIK / Dr Magyar G.
Névterek használata Ontológia definíciója Példa osztály Példa tulajdonság 304
76
Példa: Dokumentum RDF séma 2. •
Példa: Dokumentum RDF séma 4.
……………………………. <subClassOf resource="http://www.cs.umd.edu/projects/plus/DAML/onts/general1.0.daml#Event"/>
•
…………………………….
•
<subClassOf resource="#Communication"/>
•
<subClassOf resource="http://www.cs.umd.edu/projects/plus/DAML/onts/general1.0.daml#Artifact"/>
•
is version <domain resource="#Software"/>
•
<subClassOf resource="#DocumentRepresentation"/> <subClassOf resource="#DocumentRepresentation"/>
• ……………….. Osztályok (kategóriák) Alosztályok Információ menedzsment / BME VIK / Dr Magyar G.
is documented in <domain resource="#Software"/>
Rekurzió (a szoftver dokumentáció Publikáció típusú lehet)
……………….. 305
Információ menedzsment / BME VIK / Dr Magyar G.
307
Példa: Dokumentum RDF séma 3. •
…………………………….
Összefoglalás
<subClassOf resource="#Communication"/> •
has subject <domain resource="#Document"/>
(Helyzetjelentés a szemantikus hálóról)
is written by <domain resource="#Document"/>
is titled <domain resource="#Document"/>
………………..
Tulajdonságok Címke (label) Osztály, amiben értelmezve van (domain) Kitöltési korlátozások (range)
Információ menedzsment / BME VIK / Dr Magyar G.
306
Információ menedzsment / BME VIK / Dr Magyar G.
308
77
Információk a hálózaton:
Alapszabályok • Minden elemet (erőforrást) URI-val azonosíthatunk • Erőforrásoknak és linkeknek lehet típusa • Részleges információ is elfogadható a szemantikus web határtalan, bárki bármit állíthat bárkiről • Nem cél a „teljes bizalom”; bizalmi láncok • Bővíthető • A szabványosítás körének minimálizálása
• természetes nyelveken írt szöveges állományok • adatállományok (szemantikus jelentőségű szerkezetben) • multimédia állományok • vegyes állományok Emberek számára mindez értelmes lehet, de gép számára általában nem.
Információ menedzsment / BME VIK / Dr Magyar G.
309
Emberi és gépi felhasználhatóság • önleíró (adat)források
Információ menedzsment / BME VIK / Dr Magyar G.
311
A szemantikus háló koncepció összefoglalása
metaadatok használata a metaadatot gép által is olvasható formában (pl. XML) reprezentáljuk a metaadathoz definiálni kell a használt szókészletet is gépi (pl. ágensek) következtetési képesség
A szemantikus háló kiterjeszti a web jelenlegi lehetőségeit („globálisan összefüggő adatbázis”) Információ menedzsment / BME VIK / Dr Magyar G.
310
Információ menedzsment / BME VIK / Dr Magyar G.
312
78
A szemantikus háló rétegei
XML réteg lehetővé teszi hogy a felhasználó tetszőleges struktúrába szervezze a dokumentumait, de nem mond semmit arról, hogy mi mit jelent
Információ menedzsment / BME VIK / Dr Magyar G.
313
Információ menedzsment / BME VIK / Dr Magyar G.
315
URI, Unicode réteg
RDF réteg
• URI és Unicode réteg: lehetővé teszik, hogy (nemzetközi karakterkészlettel) egyedi azonosítókat rendelhessünk az objektumainkhoz
a „jelentés-réteg”: hármasok csoportja, minden hármas: alany, ige és tárgy az állításokban
• A forrásokat egyértelműen azonosítjuk ez nélkülözhetetlen a konzisztens állításokhoz • Az URI-k lehetnek Protokoll függőek (http://, mailto:) Protokoll/hely függetlenek (URN-s, PURL) Információ menedzsment / BME VIK / Dr Magyar G.
314
Információ menedzsment / BME VIK / Dr Magyar G.
316
79
RDF Sémák Az ontológia kifejezéseket és összefüggéseket határoz meg egy adott tudásterület leírásához
Az RDF még nem elég, mert • az RDF-ben nincs kapcsolat a (szokásos) adattípusokkal
• A cél: Webontológia nyelv („Web Ontologies Language”), amely a következőkön alapszik:
• meg kell egyeznünk egy adott szókészletben
• RDF és RDF Sémák
• RDF Sémák használata :
• korábbi munkák: DAML (DARPA projekt), OIL (EU projekt)
milyen kapcsolatok használhatók?
DAML+OIL (DAMN és OIL egyesítése)
mely forrásokra érvényesek a kapcsolatok?
Információ menedzsment / BME VIK / Dr Magyar G.
• a logika, tudásreprezentáció, stb., gyakorlati eredményeinek felhasználása 317
Információ menedzsment / BME VIK / Dr Magyar G.
Ontológia réteg
Logikai réteg/szabályzat
A szemantikus hálónak szüksége van ontológiák felépítésére és használatára
• Általános célú szabály nyelvek, amelyek képesek lekérdezni és szűrni
• Az RDF sémák csak az alapmechanizmust adják
• A lekérdezések hasonlóak az SQL-hez
• Nem lehet következtetéseket levonni a szókészlet elemeiről „ha ez az állítás igaz, akkor az az állítás is igaz”
319
Néhány megoldás ma is létezik. Van, aki külön rétegnek tekinti (az ontológia és a logika között).
„ha ez az állítás igaz, akkor az az állítás nem igaz”
• Nincs megfeleltetés a különböző szókészletek között • Nincsenek többszörös szülőosztályok, komplex megszorítások, feltételek ... Információ menedzsment / BME VIK / Dr Magyar G.
318
Információ menedzsment / BME VIK / Dr Magyar G.
320
80
Logikai réteg
Bizalmi réteg
• (Univerzális ?) nyelv kidolgozása a logikai kifejezésekhez
Az állítások valamilyen kontextusban fordulnak elő a weben.
• A szabályok alapján lekérdezéseket valósít meg
Az alkalmazásoknak szüksége van a kontextusra, hogy megállapítsák egy állítás megbízhatóságát.
Nincs egyetlen standard következtetés-gép – a következtetési képességek eltérőek Ma is több következtetés-gép megvalósítás létezik (pl. SQL to KIF, Cycl)
Információ menedzsment / BME VIK / Dr Magyar G.
A szematikus háló szerkezete nem garantálja hogy minden állítás igaz a weben.
321
Információ menedzsment / BME VIK / Dr Magyar G.
323
322
Információ menedzsment / BME VIK / Dr Magyar G.
324
Bizonyosság réteg Általános célú értelmező a szemantikus hálóhoz. A műveletek (kérdés, ellenőrzés, átalakítás, szűrés, stb.) értelmének feldolgozására. Proof language ? A HTTP „GET” tartalmazhat-e bizonyítékot arra, hogy a felhasználónak joga van megkapni a dokumentumot ? A hitelesítési technológián (pl. digitális aláírás) kívül kell e más, kontextusfüggő információ a bizonyossághoz? Pl. Closed World Machine (CWM): Perl implementáció N3 szabályok bizonyítására. Információ menedzsment / BME VIK / Dr Magyar G.
81
Ügynökök
6. Információ keresés és feltárás
• Gépi elemek, amelyek összegyűjtik a web tartalmakat különböző forrásokból, feldolgozzák azt, és más programokkal információt cserélnek • Sok web alapú alkalmazás létezik, amelyet nem tudnak a programok, ügynökök megtalálni • Szolgáltatás-felderítéssel ezek megtalálhatók, ehhez azonban meg kell határozni egy közös nyelvet, amely definiálja a szolgáltatást, és hogy ezt hogyan tudjuk használni • A fogyasztó és a termelő ügynök ontológiák cseréjével megértik egymást, közös szókincset határoznak meg a beszélgetéshez • Az ügynökök be tudnak tölteni új következtetési képességeket, ha új ontológiákat fedeznek fel Információ menedzsment / BME VIK / Dr Magyar G.
325
Információ menedzsment / BME VIK / Dr Magyar G.
327
Információ-visszakeresés • Alapvető feladat: azért rendezünk, tárolunk adatokat, hogy valaki visszakeresse, használja. • Az INFORMÁCIÓ VISSZAKERESÉS feladata: a felhasználó információs igényének minél pontosabb és teljesebb kielégítése.
Információ menedzsment / BME VIK / Dr Magyar G.
326
Információ menedzsment / BME VIK / Dr Magyar G.
328
82
Információ-visszakeresés
Strukturált lekérdezés
• Alapvető feladat: azért rendezünk, tárolunk adatokat, hogy valaki visszakeresse.
Strukturált adatbázisban • Ismert szemantikájú struktúra • Struktúrált lekérdező nyelvek (pl. SQL, OOL)
• Nehézsége: a felhasználó információs igénye sokszor nem áll közvetlenül rendelkezésre (mert nem képes jól leképezni igényét az információs rendszer által megkövetelt módra). Információ menedzsment / BME VIK / Dr Magyar G.
Ezt ma jellemzően • speciális szoftverkörnyezetben, • képzett felhasználó (aki ismeri a DB séma szemantikáját) végzi, => aki képes pontosan megfogalmazni az információs igényt.
(Kutatások: lekérdezés a Deep Web-ben.) 329
Információ menedzsment / BME VIK / Dr Magyar G.
331
Információ-visszakeresés
IR Alapfogalmak
• Különösen így van ez az Internet korában: sok ember („mindenki”) keres – speciális előképzettség nélkül, a modellek, a struktúrák, a konvenciók ismerete nélkül – hétköznapi logikával,
• Információ visszakeresés – information retrieval : az irodalomban félstrukturált és strukturálatlan adatok visszakeresését értik alatta.
IR
[Az adatok csak implicit módon hordoznak információt. A lekérdezést jellemzően szövegesen adjuk meg. ⇒probléma: A dokumentumok információtartalmának megragadása. A lekérdezés pontossága és egyértelműsége. ]
Információ menedzsment / BME VIK / Dr Magyar G.
330
Információ menedzsment / BME VIK / Dr Magyar G.
332
83
Adat és információ visszakeresés • Adat visszakeresés: keresés a dokumentum szintaktikai struktúrájában
felhasználói interfész
szöveg
felhasználói igény
szöveg műveletek a szövegen
felhasználói visszacsatolás
• Információ visszakeresés (IR) : a keresés tárgya a dokumentum által hordozott információ
logikai nézet
lekérdezési eljárás
indexelés
adatbázis-kezelő
kérdés keresés visszakersett dokuk
index
szöveges adatbázis
rangsorolás rangsorolt dokuk Információ menedzsment / BME VIK / Dr Magyar G.
333
Információ menedzsment / BME VIK / Dr Magyar G.
A visszakeresési folyamat
Relevancia
A keresési folyamat specifikus: adott adatbázis(ok)ra vonatkozóan értelmezhető.
• Az INFORMÁCIÓ VISSZAKERESÉS (IR) feladata: a felhasználó információs igényének minél pontosabb és teljesebb kielégítése. „minél pontosabb és teljesebb”: Az adott információs igényt kielégítő dokumentumok: releváns dokumentumok. • Az információ visszakeresés (IR) elvi feladata: a felhasználó számára releváns összes dokumentum visszakeresése.
⇒ A keresési folyamat megkezdése előtt definiálni kell az adatbázis logikai nézetét. A (szöveges) adatbázis logikai nézetének definiálása: - az adatbázisba tartozó dokumentumok megadása, - a szövegeken elvégezhető műveletek megadása, - a szövegmodell (pl. a dokumentumok struktúrája és, hogy mely elemei kereshetők) megadása. Információ menedzsment / BME VIK / Dr Magyar G.
334
Információ menedzsment / BME VIK / Dr Magyar G.
335
336
84
Relevancia
Index és szemantikai tartalom
A relevancia mérésének problémája: kinyerhető-e az összes releváns dokumentum egy adott keresési feltétellel? Modellek, algoritmusok összehasonlíthatósága a relevancia alapján?
Kifejezhető-e a dokumentumok és a felhasználói igény szemantikája index kifejezések készletével? Válasz: Mindenképp van szemantikai veszteség. Az index kifejezések (szemantikailag) pontatlan terében a felhasználói igény és az egyes dokumentumok megfeleltethetőségi vizsgálata is pontatlan lesz.
Információ menedzsment / BME VIK / Dr Magyar G.
337
Információ menedzsment / BME VIK / Dr Magyar G.
339
IR modellezés
Mérés: az IR rendszer teljesítménye
A hagyományos információ kereső rendszerek index kifejezéseket alkalmaznak.
Szokásos mértékegységek: FEDÉS (recall, felidézés):
• INDEX: itt csak szöveges indexekkel foglalkozunk. Index nem csak szöveges kifejezés lehet, hanem bármilyen objektum: kép, hang, string, stb. (az ezekből épített struktúrák is).
• Szöveges index elem bármelyik, a dokumentumhalmazban előforduló karakterkombináció (szó) lehet. Információ menedzsment / BME VIK / Dr Magyar G.
A releváns dokumentumok mennyi százalékát adta vissza a rendszer? PONTOSSÁG (precision): A rendszer válaszának mennyi százaléka releváns?
338
Információ menedzsment / BME VIK / Dr Magyar G.
340
85
Fedés (recall)
Rangsorolás
A releváns dokumentumok halmaza: A kérdésre az IR rendszer által visszaadott összes dokumentum halmaza: A halmazban levő releváns dokumentumok halmaza A releváns dokumentumok száma A visszaadott dokumentumok száma A válaszban levő releváns dokumentumok száma
Fedés =
Rangsorolás (ranking): a relevancia szerinti rendezés.
R A Ra |R| |A| |Ra|
Ra R
Információ menedzsment / BME VIK / Dr Magyar G.
341
Információ menedzsment / BME VIK / Dr Magyar G.
343
Pontosság (precision) A releváns dokumentumok halmaza: A kérdésre az IR rendszer által visszaadott összes dokumentum halmaza: A halmazban levő releváns dokumentumok halmaza A releváns dokumentumok száma A visszaadott dokumentumok száma A válaszban levő releváns dokumentumok száma
Pontosság = Információ menedzsment / BME VIK / Dr Magyar G.
A felhasználói igények különbözőek, pl.
R A Ra |R| |A| |Ra|
a fedés maximalizálása, a pontosság maximalizálása valamilyen kompromisszum a fedés és a pontosság között.
Ra A 342
Információ menedzsment / BME VIK / Dr Magyar G.
344
86
IR modellek absztrakciója
IR rendszerek osztályozása
Felhasználói aktivitás
KLASSZIKUS
Információ menedzsment / BME VIK / Dr Magyar G.
345
KERESÉS ad hoc szűrés
Bool vektor valószinűségi STRUKTURÁLT nem-átfedő listák proximal nodes
BÖNGÉSZÉS
BÖNGÉSZŐ egyszintű struktúravezérelt hypertext
ELMÉLETI fuzzy kiterjesztett Bool ALGEBRAI fuzzy kiterjesztett Bool VALÓSZINŰSÉGI fuzzy kiterjesztett Bool
Információ menedzsment / BME VIK / Dr Magyar G.
347
IR modellek absztrakciója Adott dokumentum információtartalmát (illetve az információtartalmat használó függvényeket - fedés, pontosság, relevancia pontszám) - pontosan értelmezni tudjuk, és információ visszakereső algoritmusokban fel tudjuk használni, szükségünk van egy formális modellre, amelyben az információtartalom, és a függvények leírhatók. Szükségünk van egy absztrakt modellre, a dokumentumok információtartalmának modellezésére.
Az IR modell, a dokumentum logikai nézete (teljes szövegű, index kifejezés készlet) és a felhasználói feladat (keresés, böngészés) egy visszakereső rendszer ortogonális aspektusai. Tehát: habár egyes modellek alkalmasabbak bizonyos feladatokhoz, de általában többféle feladatra használhatók.
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
346
348
87
IR modell: A dokumentumok logikai nézete
Felhasználói aktivitás
keresés
Index kifejezés
Teljes szöveg
Teljes szöveg + struktúra
- klasszikus - elméleti - algebrai - valószinűségi
- klasszikus - elméleti - algebrai - valószinűségi
- strukturált
- egyszintű
- egyszintű - hypertext
- struktúra vezérelt - hypertext
Böngészés
Információ menedzsment / BME VIK / Dr Magyar G.
349
formálisan egy(D,Q,F,R(qi,dj)) négyes, ahol D a rendszerben levő dokumentumok logikai képének (reprezentációjának) a halmaza, Q a felhasználó információs igényei logikai nézeteinek (reprezentációjának) a halmaza (kérdések), F egy keretrendszer a dokumentum reprezentációk, kérdések és a köztük levő kapcsolat modellezésére, R(qi,dj) rangsoroló függvény, amely minden qi∈Q kérdés és dj∈D dokumentumpárhoz egy valós számértéket rendel. Információ menedzsment / BME VIK / Dr Magyar G.
351
A modellek megalapozása A rangsoroló függvény egy adott qi kérdést tekintve egy rendezést határoz meg a rendszerben tárolt dokumentumok között. A keretrendszer definiálja a dokumentumok és a kérdések absztrakt reprezentációján elvégezhető műveleteket - így egy adatmodellt kapunk.
Információ menedzsment / BME VIK / Dr Magyar G.
350
Információ menedzsment / BME VIK / Dr Magyar G.
352
88
A klasszikus IR modellek feltételezik, hogy a dokumentumok (és információtartalmuk) leírhatók (jellemző) kulcsszavak halmazával.
Ezért az egyes index termeket fontosságuk szerint súlyozzuk, és a dokumentumokat az egyes index termek súlyából alkotott vektorral reprezentáljuk.
E kulcsszavakat index kifejezéseknek (index terms) hívjuk. Az index termek tipikusan főnevek, mert a főnevek által hordozott szemantikát könnyebb azonosítani.
Információ menedzsment / BME VIK / Dr Magyar G.
353
Adott dokumentumot leíró index termek közül nem mindegyik egyformán fontos az információtartalom leírásához. Fontosabb lehet pl. amelyik csak az adott dokumentumban fordul elő, és sehol máshol; más kifejezés kevésbé fontos, pl. mert sok más dokumentumban is előfordul, és így az adott kifejezés alapján a dokumentumot nem lehet megkülönböztetni a többitől. Információ menedzsment / BME VIK / Dr Magyar G.
354
Információ menedzsment / BME VIK / Dr Magyar G.
355
Legyen t a rendszerben szereplő összes index term száma, ki egy index term, K={k1, . . . , ki } az összes index term halmaza. Minden dj dokumentumban egy wi,j>0 súlyt rendelünk az index termhez, amely leírja az adott term fontosságát az adott dokumentumban. (Ha egy
adott index term nem szerepel a dokumentumban, akkor wi,j=0.)
Minden dj dokumentumhoz hozzárendelünk egy → d = ( w , w ,...w , ) index term vektort. j 1, j 2, j t, j Legyen továbbá gi olyan függvény, amely bármely t dimenziós vektor esetén visszaadja a ki termhez → rendelt súlyértéket. ⎛ g i ⎜ d ⎞⎟ = w i, j ⎝ j⎠ Információ menedzsment / BME VIK / Dr Magyar G.
356
89
Boolean modell
Egy dokumentum és egy kérdés Boolean modell szerinti hasonlóságának definíciója:
A dokumentum = szavak halmaza
A Boolean modellben az összes súly bináris. wij∈{0,1}
→ A q kérdés egy bool algebrai kifejezés, melynek diszjunktív normálformájú reprezentációja: qDNF → → Legyen qcc a qDNF bármely konjunktív komponense.
A lekérdezés: bool algebrai kifejezés Az eredmény kiértékelése: halmazműveletek segítségével
dj dokumentum q kérdéssel való hasonlósága: r r r r r ⎧⎪1 ha ∃qcc | (qcc ∈ qDNF ) ∧ (∀ ki , gi (d j ) = gi (qcc )) sim(d j , q) = ⎨ ⎪⎩0 egyébként
Nincs rendezés
Ha sim(dj,q)=1, akkor a Boolean modell szerint a dokumentum releváns a kérdés szempontjából, egyébként nem. Információ menedzsment / BME VIK / Dr Magyar G.
357
Információ menedzsment / BME VIK / Dr Magyar G.
Boolean modell
A Boolean modell értékelése
Egy boolean-modell-beli kérdés az egyes index term változók különböző logikai operátorokkal való összekapcsolásából adódik (pl. q=ka∧(kb∨¬kc)), ahol az egyes változók értéke „1” (igaz) ha az adott term megtalálható egy adott dokumentumban, és „0” (hamis), ha nem. A kérdésre adott válasz mindazon dokumentumokat tartalmazza, amelyekre az adott Boolean logikai formula a term változók fenti értelmezése esetén igaz.
• Előny:
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
358
359
– logikailag tiszta, egyszerű (a felhasználó könnyen megértheti, miért pont az adott válaszhalmazt kapta egy adott kérdésre),
• Hátrány: – a tipikus felhasználónak nehézséget okoz kérdését Boolean formulában megfogalmazni. – nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris) – nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni 360
90
vektor modell A (ki,dj) index kifejezés – dokumentum párok wi.j súlyai valós pozitív számok (nem bináris).
A továbblépés: részleges illeszkedést mérő modell szükséges. Alapja: nem-bináris súlyok használata, s ezekkel a hasonlóság fokának megállapítása.
→
A (csökkenő) hasonlóság szerint rangsorolt dokumentumok képezte válasz pontosabb (=jobban illeszkedik a felhasználói információs igényhez), mint a Boolean modell válasza. Információ menedzsment / BME VIK / Dr Magyar G.
361
A dj-t d j = ( w1, j , w2, j ,...wt , j , ) reprezentálja. A kérdés index kifejezései is súlyozottak. Legyen wiq a (ki,q) index kifejezés-kérdés párhoz rendelt súly (wiq pozitív valós szám). A q kérdést a → q = ( w , w ,...w , ) vektor reprezentálja. 1, q 2, q t, q
Információ menedzsment / BME VIK / Dr Magyar G.
363
vektor modell
vektor modell
Egy dokumentum és egy lekérdezés hasonlóságát a hozzájuk rendelt vektorok hasonlóságával mérjük.
E modellben egy dokumentum és egy lekérdezés hasonlóságát a hozzájuk rendelt vektorok által bezárt szög koszinuszával mérjük.
r r dj •q sim(d j , q) = r r = dj × q
Információ menedzsment / BME VIK / Dr Magyar G.
362
Információ menedzsment / BME VIK / Dr Magyar G.
∑ w ×w ∑ w × ∑ t
i =1
i, j
i,q
t
2
t
i =1
i, j
i =1
w2i ,q
364
91
vektor modell
vektor modell
dj
Hogyan mérjük ezt? Egy term mennyire jellemzi jól az adott dokumentumot?
Normalizált term frekvencia: egy term milyen relatív gyakorisággal fordul elő az adott dokumentumban.
θ
Jelölje egy term abszolút előfordulásainak számát az adott dokumentumban freqi,j, a normalizált term frekvenciát fi,j, és freqi , j
q
fi, j =
A θ szög koszinusza adja sim (dj,q)-t Információ menedzsment / BME VIK / Dr Magyar G.
365
Információ menedzsment / BME VIK / Dr Magyar G.
max l freql , j 367
vektor modell
vektor modell
A fő kérdés az egyes vektorokban használt term súlyok megállapítása.
Egy term mennyire képes egy adott dokumentumot megkülönböztetni egy másik dokumentumtól? Inverz dokumentum frekvencia: annak az inverze, hogy milyen gyakran szerepel egy term a rendszer dokumentumai közt. Jelölje N a rendszerben levő dokumentumok számát, ni azoknak a dokumentumoknak a számát, amelyekben a ki term előfordul. A ki term inverz dokumentum frekvenciája idfi és N idf i = log ni
Az egyik szokásos módszer a tf-idf („term frekvencia – inverz dokumentum frekvencia”) Alapja, hogy két dokumentum (két csoport) hasonlósága hatékonyan megállapítható úgy, hogy azokat a termeket emeljük ki a vizsgálat során, amelyek - jól jellemzik az adott dokumentumosztályt (azaz a dokumentum témáját), - az adott dokumentumosztályt, témakört megkülönböztetik más témájú dokumentumoktól. Információ menedzsment / BME VIK / Dr Magyar G.
366
Információ menedzsment / BME VIK / Dr Magyar G.
368
92
vektor modell
A vektor modell értékelése
Ezek alapján egy adott (ki,dj) párhoz tartozó wi.j súly: wi.j= fi,j* idfi.
• Hátrány:
Ennek különböző variációi előfordulnak. Pl. Salton&Buckley jól ismert formulája:
⎛ 0.5 freqi , q ⎞ ⎟ × idf i wi , q = ⎜ 0.5 + ⎜ ⎟ max freq , l l q ⎝ ⎠ Ahol freqi,q a ki term abszolút előfordulási gyakoriságát jelenti a q kérdés szövegében. Információ menedzsment / BME VIK / Dr Magyar G.
369
– Feltételezi, hogy a dokumentumok index termjei egymástól kölcsönösen függetlenek. („számítógép hálózat”: ellenpélda, de lehet más értelme is: az összefüggés esetleges) – Nem lehet explicit módon megadni, hogy egy adott kifejezésnek szerepelnie kell a dokumentumban, vagy fordítva, hogy egy adott kifejezésre nincs szükség. Ezt a hiányosságot a Boolean modellel való kombinációval ellensúlyozni lehet. – Nem mindig érthető a felhasználók számára, hogy egy adott dokumentum miért válasz a kérdésükre, a viszonylag bonyolult rangsorolási függvény miatt. Információ menedzsment / BME VIK / Dr Magyar G.
A vektor modell értékelése
Kiterjesztett Boolean
• Előny:
Szemléltető példa: legyen q=kx∧ky
– A termek súlyozása jó IR minőséget eredményez. – Nem követeli meg a pontos illeszkedést, ez lehetővé teszi nem tökéletesen megfogalmazott kérdésekre is a válaszadást. Tipikusan a válasz egy bizonyos küszöbérték (threshold) feletti hasonlósággal rendelkező dokumentumokat tartalmazza. – A rangsoroló függvénye a dokumentumokat a kérdéshez való hasonlóság szerint rendezi (a leginkább releváns dokumentumok a válasz elején fognak szerepelni). Információ menedzsment / BME VIK / Dr Magyar G.
371
Két index kifejezés esetében még könnyű ábrázolni az index teret:
370
Információ menedzsment / BME VIK / Dr Magyar G.
372
93
Kiterjesztett Boolean (0,1)
(1,1)
(0,1) ky
ky
Kiterjesztett Boolean (1,1)
(0,1)
(1,1)
(0,1) ky
ky
kx or ky
(1,1) kx or ky
dj+1
dj+1 dj
dj+1
dj+1
`
dj (0,0)
`
dj dj
kx and ky
(1,0) (0,0) kx
(1,0)
kx and ky
(0,0)
kx
(1,0) (0,0)
qand = k x ∧ k y
373
kx
qor = k x ∨ k y
Az (1,1) pont a „legkívánatosabb” Információ menedzsment / BME VIK / Dr Magyar G.
(1,0)
kx
a (0,0) pont elkerülendő.
Információ menedzsment / BME VIK / Dr Magyar G.
375
Kiterjesztett Boolean (0,1)
A dj dokumentum pozícióját a térben a [kx,dj], [ky,dj] párokhoz tartozó wx,j, wy,j megválasztásával befolyásoljuk. A súlyokat például számolhatjuk a a tf-idf módon: wx , j
(1,1) kx or ky dj+1
dj
`
dj (0,0)
ahol fx,j a kx normalizált term frekvenciája dj dokumentumban, idfi a ki inverz dokumentum frekvenciája. Jelölje a továbbiakban wx,j-t x, wy,j-t y; és
kx and ky
(1,0) (0,0) kx
qand = k x ∧ k y
vektornak itt a dj=(x,y) pont felel meg.
sim(qand , d ) = 1 − Információ menedzsment / BME VIK / Dr Magyar G.
(0,1) ky
dj+1
idf x = f x, j × max i idf i
→ d = (w , w ) j x, j y , j
(1,1)
ky
374
(1 − x) + (1 − y ) 2 2
(1,0)
qor = k x ∨ k y 2
Információ menedzsment / BME VIK / Dr Magyar G.
sim(qor , d ) =
kx
x2 + y 2 2 376
94
Kiterjesztett Boolean
TREC (értékelés a gyakorlatban)
Ha wij∈{0,1} , akkor a dokumentum a négy sarok valamelyikébe esik és sim(qor,d) értéke 0, 1/ 2 , 1 sim(qand,d) értéke 0, 1-1/ 2 , 1 lehet.
• Workshop – támogatni a state-of-the-art IR-t: infrastuktúra az értékeléshez • Szponzor: National Institute of Standards and Technology (NIST) and the Information Technology Office of (DARPA)
Ha az index kifejezések száma t, akkor a kiterjesztés egy t-dimenziós térben számolt euklédeszi távolságokhoz vezet.
• Különböző task-ok: adhoc, routing, question answering, web entry page • http://trec.nist.gov
Információ menedzsment / BME VIK / Dr Magyar G.
377
A keresés eredményessége collection
Releváns dokumentumok a válasz halmazban |Ra|
Fedés =
Információ menedzsment / BME VIK / Dr Magyar G.
379
TREC | Ra | |R|
Pontosság =
| Ra | | A|
• Gyűjtemények és kiértékelő szoftverek tsztelése • Nagyléptékű nem-angol (spanyol és kínai) tesztek • Tartalom-szerinti visszakeresés (CBR: Content Based Retrieval)
– IR beszédanyagokban – IR videóanyagokban
Visszaadott halmaz Releváns |A| dokumentumok |R|
• IR többnyelvű környezetben Hatékonyság = 1 -
1 ⎛1⎞ ⎝P⎠
α ⎜ ⎟ + (1 − α )
1 R
Információ menedzsment / BME VIK / Dr Magyar G.
378
Információ menedzsment / BME VIK / Dr Magyar G.
380
95
Információ visszakereső rendszerek Különböztessük meg az • ad-hoc visszekeresést • a szűrést • és a böngészést.
Információ menedzsment / BME VIK / Dr Magyar G.
381
Információ visszakereső rendszerek
Információ menedzsment / BME VIK / Dr Magyar G.
383
Információ visszakereső rendszerek Ad-hoc visszakeresés: a felhasználó egy adott kérdésre vár választ a rendszertől. (Ilyen felhasználáskor a rendszer által tartalmazott dokumentumok halmaza közel állandó, míg a felhasználói kérdések folyamatosan változnak.) Szűrés (filtering): a felhasználói információ igény, a kérdés állandó, és az újonnan a rendszerbe kerülő dokumentumok közül szeretnénk azokat kiválasztani, amelyek relevánsak az adott kérdés szempontjából.
Információ menedzsment / BME VIK / Dr Magyar G.
382
Információ menedzsment / BME VIK / Dr Magyar G.
384
96
A lekérdezés módja • Kulcsszavas
A probléma a felhasználói kérdés pontos meghatározása. A laikus felhasználók miatt törekednek automatikusan felvett felhasználói profilokkal segíteni az igény megfogalmazását.
– – – –
Egyszavas Kontextus kérdés logikai kifejezés kulcsszavakból Természetes nyelvű
• Mintailleszkedés (Pattern Matching) • Struturált kérdések – Állandó strktúra – Hypertext – Hierarchikus struktúra
• Lekérdezési protokollok Információ menedzsment / BME VIK / Dr Magyar G.
385
Információ menedzsment / BME VIK / Dr Magyar G.
387
Információ visszakereső rendszerek Ad-hoc lekédezés, böngészés: pull típusú (a felhasználó aktívan kéri az információt a rendszertől) Szűrés: push típusú (a rendszer automatikusan futtat lekérdezést, az eredményt automatikusan eljuttatja a felhasználónak)
Információ menedzsment / BME VIK / Dr Magyar G.
386
Az IR rendszer lelke az invertált állomány (inverted file) vagy invertált lista (inverted list), ez az adatszerkezet minden index termhez tárolja, hogy mely dokumentumokban, melyik pozícióban fordul elő. (Eltérő pontossággal: a dokumentumtól karakterpozícióig.)
Gyorsítás: index, hash-tábla, stb.
Információ menedzsment / BME VIK / Dr Magyar G.
388
97
Példa: 1
4
A visszakeresés problémái 8
13
• Elosztott és időszakos adatok: Előre nem ismert topológia, a csomópontok között nincs garantált sávszélesség, a weboldalak jelentős része csak időszakosan létezik, és tartalma, URL-je változik.
19 doc1 dokumentum
Ez egy igen rövid szöveg.
• Nagy adatmennyiség Szótár
Előfordulások
igen rövid szöveg
doc1:8,... doc1:13,... doc1:19,...
invertált állomány
• Strukturálatlan és redundáns adatok. A (formai és szemantikai) redundancia önmagában is rontja a keresések minőségét. • Adatminőség: megbízhatatlan. • Heterogén adatok: adatformátum, többnyelvűség, stb.
Információ menedzsment / BME VIK / Dr Magyar G.
389
Információ menedzsment / BME VIK / Dr Magyar G.
Az eredményesség javítása
A fenti problémák miatt
• Felhasználói relevancia visszacsatolás
Ma a valós idejű keresés nem reális.
• Automatikus logikai elemzés
A keresők ezért a dokumentumok absztrakt reprezentációi alapján dolgoznak.
• Globális elemzés
Az internet keresők algoritmusa általában nem publikus. Jellemzően a vektor és a Boolean modell valamilyen kombinációját használják.
• Kontrollált szótár (tezaurusz)
Információ menedzsment / BME VIK / Dr Magyar G.
391
390
Információ menedzsment / BME VIK / Dr Magyar G.
392
98
A hiperlink struktúra figyelembe vétele
Keresőmotorok
Ha egy dokumentumra sok link mutat: az oldal népszerű (jó minőségű információt tartalmaz ?).
• Specifikus – Népszerűség szerinti rangsorolás (pl. DirectHit) – Téma-orientált (topic oriented, pl. SearchBroker) – Személyes vagy intézményi
Ha két oldal közt sok a hivatkozás: a két oldal témája hasonló lehet. Ha több oldalra ugyanarról az oldalról történik hivatkozás, az ugyanezt jelentheti. -> Google Page Rank ötlet
Információ menedzsment / BME VIK / Dr Magyar G.
393
Információ menedzsment / BME VIK / Dr Magyar G.
Keresőmotorok
Egy webkereső feladatai
• Portálok: nem csak IR, hanem
• Dokumentumgyűjtés – Indexelésre való kiválasztás
– Szolgáltatás linkek (pl. könyvek az Amazon.com-tól) – – – –
• Dokumentumok indexelése
képeslapküldés Beépített fordítóprogram különböző médiák keresése (metaadat) Nyelvfüggő keresés
– ami a kiválasztott dokumentumok tartalmát reprezentálja – gyakran kétféle: teljes és szűkített (gyakori kereséshez)
• Keresés
– Időjárás, részvényárfolyam, közlekedés, stb.
– a felhasználó információs igényének megfelelő reprezentálása – Keresési eljárás (retrieval process - search algorithms, ranking of web pages)
• Üzleti modell
• Dokumentum és keresési feltétel (query) kezelés
– Célzott hirdetés (látogatottság-modell) – Gyors átfutás, folyamatosság (24 / 7) Információ menedzsment / BME VIK / Dr Magyar G.
395
– Az eredmény megjelenítése – virtuális gyűjtemény (indexeléskor kizárt dokumentumok) vs. fizikai gyűjtemény (indexelés után kezelt dokumentumok) 394
Információ menedzsment / BME VIK / Dr Magyar G.
396
99
Egy webkereső feladatai
Webvadászat (1)
• Dokumentumgyűjtés
• Crawling process – Adott URL készlettel kezd
• Dokumentumok indexelése
• amit felhasználók vagy cégektől kapott • népszerű URL-ek
• Keresés
– Szélességben vagy mélységben (Breath-first or depth-first) – További URL-eket szed fel
• Dokumentum és keresési feltétel (query) kezelés
• n*tízmillió lap naponta • több crawler – Redundancia – Web particionálás ⇒ robot per partíció
Információ menedzsment / BME VIK / Dr Magyar G.
397
Információ menedzsment / BME VIK / Dr Magyar G.
Dokumentumgyűjtés
Webvadászat (2)
• Dokumentumgyűjtés = crawling the web
• Naprakész? (Up-to-date?) – – – –
• Crawler (webvadász) – Robot, spider, wanderer, walker, knowbot, web search agent – Program ami felméri, hogy új vagy módosított (updated) lapok, amiket indexelni kell, feltűntek-e a weben? – A helyi szerveren fut, kéréseket küld a távoli szervereknek
399
A passzív (non-submitted) lapokat <2 havonta indexelik A keresőmotorok tanulják a lapváltási gyakoriságot A népszerű lapokat (sok link vezet oda) gyakrabban Indexelt lapok • 1 nap - 2 hónap régi • érvénytelen linkek: 2-9%
• Robotszokások – A web szerver gyökerébe igyekszik tenni a fájlt – Jelöli a weblapokat, amiket nem kell indexelni – Kerüli a szervers/hely túlterhelést
Információ menedzsment / BME VIK / Dr Magyar G.
398
Információ menedzsment / BME VIK / Dr Magyar G.
400
100
Egy webkereső feladatai
Egy webkereső feladatai
• Dokumentumgyűjtés
• Dokumentumgyűjtés
• Dokumentumok indexelése
• Dokumentumok indexelése
• Keresés
• Keresés
• Dokumentum és keresési feltétel (query) kezelés
• Dokumentum és keresési feltétel (query) kezelés
Információ menedzsment / BME VIK / Dr Magyar G.
401
Információ menedzsment / BME VIK / Dr Magyar G.
Dokumentumok indexelése
Keresés
• Dokumentum indexelés = mutatóállomány építés • Mutatóállományok: változatok lehetségesek
• Querying
– – – –
– – – – –
metaadat elemzés Kihagyások (névelők, elöljárók, számok, stb.) + toldalékok Pozíció adat (kifejezés-kereséshez) súlyok
1 szó vagy minden szó legyen a visszakeresett oldalakon normalizálás (stop words removal, stemming, stb.) összetett query-k (dátum, struktúra, régió, stb.) Boolean kifejezések (advanced search) metaadat
• Rangsoroló (ranking) algoritmusok
• tf x idf; • hosszú URL-ek leértékelése (nem fontosak)
– Hasonlóságmérték alapján – webhely tekintély-elemzés
– elárasztásvédelem
• hyperlink információ
• HITS (Hyperlink Induced Topic Search) • PageRank (Google)
• Számolja a link népszerűségét • A szöveghorgonyt a forrás linkből veszi • Egy lap szerzői (authority) és központi (hub) értéke Információ menedzsment / BME VIK / Dr Magyar G.
403
402
Információ menedzsment / BME VIK / Dr Magyar G.
404
101
A web-linkek fontossága
Algoritmusok • Query független oldalminőség
• Web link: viszony az összekapcsolt lapok között
– globális elemzés
• A standard IR algoritmusok és a web IR között a fő különbség a web-linkek kihasználása
• PageRank (Google): a web véletlenszerű bejárását szimulálja és kiszámolja a lap pontszámát (“score”) – mint a lap elérésének valószínűségét
• Query függő oldalminőség
• web linkek: bizonyosság és zaj forrásai
– Helyi elemzés
– A régi IR hivatkozás-alapú volt – Web-követés a TREC-ben (2000) TREC-9: Small Web task (2GB web adat); Large Web task (100GB web adat, 18.5 millió dokumentum)
Információ menedzsment / BME VIK / Dr Magyar G.
• HITS (Hyperlink Induced Topic Search): olyan témakérdésekre fókuszál, amire túl sok oldal a válasz – Minél több oldal jelöl egy oldalt, annál népszerűbb – A népszerűbb oldalak nagyobb valószínűséggel tartalmaznak releváns információt 405
Szöveghorgony használata
Információ menedzsment / BME VIK / Dr Magyar G.
407
PageRank (1) • Brin és Page (Stanford University). A Google-ban implementálták
• Hivatkozott dokumentumot reprezentál
• Az algoritmus szigorúan őrzött titok. • Alapötlet:
– Miért alkalmazzák? • Pontosabb és rövidebb leírás, mint az oldal maga
– Előre rangsorolunk egy lapot, ha befelé mutató linkjeinek rangsorértéke nagy
• (talán) szignifikánsabb termeket tartalmaz , mint az oldal maga
• p lap befelé mutató linkje: egy másik lapról p-re mutató link • p kimutató linkje: p lapról egy másik lapra
– Képek, programok reprezentálása
• Horgonyzott szövegből állít elő leírást
– a high PageRank page has many in-links or few highly ranked inlinks
• Visszakeresés (retrieval): PageRank értékkel kombinált cosinus szorzat (term súlytényező, tartalom) Információ menedzsment / BME VIK / Dr Magyar G.
406
Információ menedzsment / BME VIK / Dr Magyar G.
408
102
PageRank ≈ népszerűség
PageRank (2)
• A web egy gráf: minden lap egy csomópont, a hyperlinkek élek
Alapfeltételezés: a felhasználó q valószínűséggel választ egy véletlen lapot, és (1-q) valószínűséggel követ egy, a lapon található linket.
• A lap népszerű, ha (akár) kevés népszerű lap mutat rá
A modell feltételezi: a felhasználó sosem megy vissza egy már megtekintett lapra.
• A lap népszerű, ha sok (nem feltétlenül népszerű) lap mutat rá
E feltételezésekkel a felhasználó tevékenységét sztochasztikus Markov folyamatként modellezi (amelynek stacionárius eloszlása számolható). A stacionárius eloszlás megadja, hogy mekkora a valószínűsége, hogy a felhasználó egy adott oldalon tartózkodik. A rendszer ezt a valószínűséget a lap rangsoraként (PageRank) értelmezi, és a keresés eredményének rendezésekor figyelembe veszi.
A oldal
B oldal
NA =2
NB = 1 C oldal
NC = 1 Információ menedzsment / BME VIK / Dr Magyar G.
409
Információ menedzsment / BME VIK / Dr Magyar G.
A PageRank matematikai definíciója
A Google eredményességének okai
a lapom PageRank-je egyenlő az összes rámmutató lap rangsor (rank) értékével
• A hagyományos IR technikák és a PageRank ötvözete
Rank ( v ) Nv v∈ B u
∑
• A PageRank nem egyszerűen hivatkozási index
Rank ( u ) =
• A PageRank-et kiszámoló algoritmus a web link struktúrájától függ, nem az oldal tartalmától!
Bu = lapkészlet , linkkel u − ra
• A link információ azután határozható meg, miután a web-crawlers bejárt minden linket valamennyi oldalon. Információ menedzsment / BME VIK / Dr Magyar G.
411
410
N v = linkszám v − böl
Információ menedzsment / BME VIK / Dr Magyar G.
412
103
A példára felírva az egyenletet: Rank ( A)
=
Rank ( B)
=
Rank (C )
=
0
+
Rank (C ) 1
+
0
+
0
+
Rank ( B ) 1
+
0
+
0 Rank ( A) 2 Rank ( A) 2
A oldal
PageRank = 0.4 A oldal
B oldal
NA =2
NB = 1 C oldal
B oldal
NC = 1
NB = 1
NA =2
PageRank = 0.2
PageRank = 0.4 C oldal
NC = 1 Információ menedzsment / BME VIK / Dr Magyar G.
413
Habár körkörös, számíthatók a rank értékek. Az egyenletet mátrix-vektor szorzatként felírva:
⎛0 ⎛ Rank ( A) ⎞ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜1 ⎜ Rank ( B ) ⎟ = ⎜ ⎟ ⎜ ⎜2 ⎟ ⎜ ⎜1 ⎜ Rank (C ) ⎟ ⎜2 ⎟ ⎜ ⎝ ⎠ ⎝
0 0 1
Információ menedzsment / BME VIK / Dr Magyar G.
415
Megjegyzendő, hogy az együttható mátrix sztochasztikus.
1 ⎞⎛ Rank ( A) ⎞ ⎟ ⎟⎜ ⎟ ⎟⎜ ⎟⎜ Rank ( B ) ⎟ 0 ⎟⎜ ⎟ ⎟ ⎟⎜ ⎟⎜ Rank (C ) ⎟ 0 ⎟⎜ ⎟ ⎠ ⎠⎝
⎛ a11 ⎜ ⎜ a21 ⎜ M ⎜ ⎜a ⎝ n1
a12
a13
L
a22 M
a23 M
L
an 2
an 3
L
n
∑a i =1
ij
a1n ⎞ ⎟ a2 n ⎟ , 0 ≤ aij ≤ 1 M ⎟ ⎟ ann ⎟⎠
= a1 j + a2 j + L anj = 1
A PageRank vektor egyszerűen az együttható mátrix (skalár*vektor = mátrix*vektor) sajátvektora ! (Megj.: a vektort ║R ║1 =1 -el választottuk.) Információ menedzsment / BME VIK / Dr Magyar G.
414
Információ menedzsment / BME VIK / Dr Magyar G.
416
104
A szörfölőkre is gondoltak
HITS (2)
Egy véletlen-böngésző term-et adtak a PageRank formulába:
Rank (u ) =
• Intuíció – A hitelesség forrásai a bemutató linkek – egy hub a kimutató linkjeitől jó
Rank (v ) + E (u ) Nv v∈Bu
∑
– jó hub-ból származó be-link javítja a hitelességet – egy hub jobb lesz hiteles oldalra mutató ki-linkjeitől
Ez egy szörfölő viselkedését modellezi, aki egy másik lapra annak URL-jét közvetlenül beírva (vagy könyvjelzőt használva) ugrik, s nem hyperlink-re kattintva.
Információ menedzsment / BME VIK / Dr Magyar G.
417
HITS: Hypertext Induced Topic Search • Kleinberg, 1997
– a jó „hiteles” lapra sok jó hub mutat – a jó hub sok hiteles lapra mutat Információ menedzsment / BME VIK / Dr Magyar G.
419
HITS algoritmusok (általános elv) • Lap hitelesség-értékének számítása: “hitelességi súly” és “hub
• “The Connectivity Analysis Approach”
súly” iteratív terjedésén
• Általános témájú keresések (broad topic queries) nagy találati listát adnak
• Kezdőérték = 1 • Lap hitelességi súlya --- x(p)
– bőségprobléma ⇒ túl sok releváns dokumentum – újfajta minőségmérés ⇒ megkülönbözteti a „leghitelesebb” (authoritative) oldalakat ⇒ minőségi válasz általános kérdésre
– ha p sok olyan lapra mutat, aminek nagy y értéke van, akkor nagy x értéket adunk
x(p) = Σqi→p y(qi)
• HITS: adott témára megadja
• Lap hub súlya --- y(p)
– a jó forrást
• oldalakat, amik releváns információt tartalmaznak (jó tartalomforrások)
– ha p sok nagy x-értékű lapra mutat, nagy y értéket kap
y(p) = Σp→qi x(qi) • A súlyokat minden iteráció után normalizálják
– a jó csomópontokat (hub-ok) • lapokat, amelyek jó forrásokra mutatnak (jó linkforrások) Információ menedzsment / BME VIK / Dr Magyar G.
• Kölcsönös megerősítés
418
Információ menedzsment / BME VIK / Dr Magyar G.
420
105
Egy webkereső feladatai
HITS: Témaszármaztatás • A ‘jó’ hiteles lap/hub meghatározása szubjektív, a kezdetben megadott felhasználói igénytől függ • HITS kiterjesztések – ARC (Automatic Resource Compilation) • Horgonyzott (& körülvevő) szöveget használ az értékszámításhoz
Host-ok kölcsönös megerősítő viszonya automatikusan generált linkek Nem-releváns nagy-értékű lap-kapcsolatok topic drift: query téma általánosodása
Információ menedzsment / BME VIK / Dr Magyar G.
421
Különbségek: PageRank és HITS
• Keresés
Információ menedzsment / BME VIK / Dr Magyar G.
423
Dokumentum és keresési feltétel kezelés • Eredmények
• PageRank: a bejárható össze web lapból számítják (kérdezés előtt); HITS: egy lekérdezett weblap készleten számítják, minden kérdésre. • HITS: hitelességet és hub értéket számít; PageRank: csak hitelességet • PageRank: nem-triviális kiszámolni, HITS: könnyű számolni, de valós idejű elvégzése drága
Információ menedzsment / BME VIK / Dr Magyar G.
• Dokumentumok indexelése • Dokumentum és keresési feltétel (query) kezelés
– SALSA
• Problémák a HITS-el – – – –
• Dokumentumgyűjtés
– – – – – –
Eredménylista általában 10-20 lapról klaszterezés URL, méret, dátum, kivonat, stb. Többféle válogatási lehetőség Opció: a leghasonlóbb dokumentumok Lekérdezés finomítása (Query refinement)
• Virtuális gyűjtemény vs. fizikai gyűjtemény – a dokumentum változhat az időben – más lehet, mint amit a motor indexelt – eltűnt linkek 422
Információ menedzsment / BME VIK / Dr Magyar G.
424
106
Metakeresés (1) • A Webkeresők problémái: – A nyilvánosan elérhető Web korlátozott lefedése – a Web átfedő részeinek indexelése – különböző IR modellek --- ugyanarra a keresésre eltérő eredményeket adnak
⇒ A felhasználónak sem ideje, sem tudása nincs az információs igénye szerint megfelelő kereső kiválasztásához
• Egy megoldás: metakereső – Web szerver, ami lekérdezéseket küld különböző keresőkhöz, Web katalógusokhoz, adatbázisokhoz
– Gyűjti a válaszokat – és egyesíti (Data fusion)
Hyperwords
• Cél: jobb fedés, jobb hatékonyság Információ menedzsment / BME VIK / Dr Magyar G.
425
Metasearch (2)
Információ menedzsment / BME VIK / Dr Magyar G.
427
Hyperwords
• Működési fázisok
• Kereső-kiegészítés: adott szövegre különböző műveleteket lehet végezni.
– Keresőmotor választás • témafüggő, a múlt lekérdezései, hálózati forgalom, …
– Dokumentum-választás • Mennyiségi szempontok
– Egyetlen szó kijelölése: dupla kattintással, nagyobb részlet kijelölése a szokásos módokon
– Összeillesztő (merging) algoritmus • rank pozíció, dokumentum visszakeresési pontérték, … alapján
Metakereső MetaCrawler
URL www.metacrawler.com
források száma 13
Dogpile SavvySearch
www.dogpile.com www.search.com
25 > 1000
Információ menedzsment / BME VIK / Dr Magyar G.
426
• Parancsok (Search, References, Translate, Go, Copy, Print, Convert, Shop, Email, Tag, Blog, View, Map, About this page, Preferences)
Információ menedzsment / BME VIK / Dr Magyar G.
428
107
Parancsok
References parancs
•
_ Search _ References _ Translate _ Convert
•
Wikipedia 'w‘
•
Wiktionary 'k‘
•
Answers.com 'a‘
_ Go _ Copy _ Print
•
InternetMovieDataBase 'i‘
•
World Factbook 'f‘
•
_ Shop
•
Dictionary.com 'd'
•
_ Email _ Tag _ Blog
•
UrbanDictionary 'u'
•
Acronymfinder 'r'
•
CiteSeer 'c'
•
Google Scholar 's‘
•
Highbeam 'h'
•
•
_ View
•
_ Map _ About This Page
Információ menedzsment / BME VIK / Dr Magyar G.
429
Információ menedzsment / BME VIK / Dr Magyar G.
Search parancs
Translate parancs
• Keresőmotorok meghívása (Google, Alexa, Clusty, Dogpile, MySpace, Yahoo). • Blogkeresés (Technorati, IceRocket, Clusty). • Személyek keresése: (LinkedIn, Addresses.com, Friendster, Peoplefinders.com, Yahoo People, ZabaSearch.com) • Képkeresés (Flick, Google). • Hírkeresés (BBC, CNN, NY Times, Google News, Reuters, Yahoo News).
• Angolról/angolra – egy szó, vagy kifejezés
Információ menedzsment / BME VIK / Dr Magyar G.
430
Információ menedzsment / BME VIK / Dr Magyar G.
431
432
108
Go parancs
email parancs
Direkt ugrás
• A kijelölt lap-részletet a feltételezett levelező alkalmazás szövegtörzsébe emeli. Mellé írja a forrás azonosítását (URL).
• Link-re – URL szerint, akkor is, ha nincs a szövegben aktív link.
• Skype – A szövegben található Skype azonosító alapján, automatikusan
Információ menedzsment / BME VIK / Dr Magyar G.
433
Információ menedzsment / BME VIK / Dr Magyar G.
Shop parancs
tag parancs
• Egy kijelölt szóra hívható meg. Online vásárlási szolgáltatást kínál fel az adott termékre vagy szolgáltatásra.
• Lapok metázását segíti.
Információ menedzsment / BME VIK / Dr Magyar G.
435
• Felkínált szolgáltatások: del.ico.us, Blinklist, Digg, Furl, Newsvine and Spurl.
434
Információ menedzsment / BME VIK / Dr Magyar G.
436
109
blog parancs
About this page parancs
• Blog szolgáltatás kínálata (blog írása)
• Mögöttes adatok: mely linkek mutatnak az adott lapra, mely blogok említik, stb.
• Keresés blogokban
• Alexa ranking • Lehetséges korábbi verziók (Wayback Machine). • Whois és DNS informácó.
Információ menedzsment / BME VIK / Dr Magyar G.
437
map parancs
Információ menedzsment / BME VIK / Dr Magyar G.
439
Hyperwords Toolbar
• map – Cím/irányítószám Æ Google Maps, Yahoo Maps.
• local time
Szöveg beírása a mezőbe --> jobb kattintás a ikonra . (vagy enter+menü, vagy billentyűparancsok) Kijelölt szöveg+ 'enter‘: a szöveget a mezőbe másolja és elindítja a menü-navigálást. Preferenciák beállíthatók
– Városnév alapján.
• weather – Városnév alapján.
• track mail/packages – Megrendelés, levélküldés követése az azonosító alapján. Információ menedzsment / BME VIK / Dr Magyar G.
438
Információ menedzsment / BME VIK / Dr Magyar G.
440
110
Preferenciák
del.icio.us Közösségi könyvjelző (bookmarking) szolgáltatás. Központi erőforrásra lehet „jelzőzni” (tag), menteni, kezelni és megosztani a Web oldalakat.
• _ Invocation _ Results _ Blog/Tag _ Other _ Toolbar _ Edit Menu
• del.icio.us: kedvencek gyűjteménye (a tied és másoké) Mire való? • Linkek a kedvenc cikkekre, blogokra, zenékre, éttermi recenziókra, stb. • Központi tárolás: bárhonnan elérhető a weben. • Megosztás másokkal (család, barátok, munkatársak) • Felfedezés: mások kedvencei, gyűjteménye nekem is érdekes lehet
Információ menedzsment / BME VIK / Dr Magyar G.
441
Információ menedzsment / BME VIK / Dr Magyar G.
Preferenciák
Sitemaps
• Invocation: mikor jöjjön elő a menü
• www.sitemaps.org
• Results: hol jelenjen meg a parancs eredménye
• Egyezményes eljárás: a webmester informálja a crawler-t a webhelyről.
• Blog/Tag: WordPress alapú URL és Del.icio.us account beállítása.
443
• A legegyszerűbb esetben ez egy XML file
(WordPress: blog szolgáltatás; Del.icio.us tagg szolgáltatás)
– URL-ek, hozzájuk tartozó metaadatokkal (utolsó firssítés dátuma, változás gyakorisága, stb.)
• Other: • Toolbar: • Edit Menu: Információ menedzsment / BME VIK / Dr Magyar G.
442
Információ menedzsment / BME VIK / Dr Magyar G.
444
111
Sitemaps XML formátum
Egyszerű példa:
Kötelező:
http://www.example.com/ 2005-01- 01 monthly <priority>0.8
• nyitó címke, záró címke • Ezen belül specifikálni egy névteret (protocol standard) • belépést megadni (entry) mindent URL-hez, mint szülői XML címke. • gyermek belépést megadni az szülői címkénél Minden más címke opcionális. • UTF-8 kódolású Információ menedzsment / BME VIK / Dr Magyar G.
445
Információ menedzsment / BME VIK / Dr Magyar G.
Címkedefiníciók
Információmenedzsment architektúrák
kötelező
A helyzet
kötelező
kötelező opcionális
opcionális <priority>
opcionális
Információ menedzsment / BME VIK / Dr Magyar G.
447
• Inkompatibilis információs szigetek
URL entry. Beljebb alatta: gyerek címkék A lap URL-je
– Eltérő informatikai és kommunikációs megoldások – Sokféle modellezés (a valóság sokszínű leképzése: még ha egyféle reprezentáció, szabványos technikai megoldások lennének is: a szemantikai sokféleség megmarad)
• Hogy a felhasználó egyetlen „ablakon” át sok információforráshozhoz juthasson: Integrációra van szükség
Folyamatos, óránként, naponta, évente, soha 0.0 - 1.0. Alap: 0,5 446
Információ menedzsment / BME VIK / Dr Magyar G.
448
112
7. Információ menedzsment infrastruktúrák
Borítékoló-közvetítő architektúra
• Adattárházak
Borítékoló-közvetítő architektúra (BKA)
• Adatbázis föderációk
Angolul: wrapper-mediator architecture, más néven: I3, Intelligent Integration of Information („információk intelligens egyesítése”) architektúra
•
I3
referencia architektúra
• P2P hálózatok
Az adatok központi adatbázisba szervezése helyett az adatokra vonatkozó lekérdezések továbbítása az információforráshoz, s a válasz visszaadása a felhasználónak.
• Intelligens ügynökök • Mobil ügynökök
Információ menedzsment / BME VIK / Dr Magyar G.
449
Információ menedzsment / BME VIK / Dr Magyar G.
451
450
Információ menedzsment / BME VIK / Dr Magyar G.
452
Adattárház
Információ menedzsment / BME VIK / Dr Magyar G.
113
közvetítő (mediator) Az információforrások heterogenitása itt is probléma. Egy BKA-n belül közös adatmodellt és lekérdező nyelvet kell használni. Egy BKA több közvetítőt, több közvetítő szintet is tartalmazhat.
Információ menedzsment / BME VIK / Dr Magyar G.
453
Feladata: a szemantikai problémák kezelése. azaz egyes borítékolók által eredményül adott, esetlegesen eltérő sémát alkalmazó adatok integrálása.
Információ menedzsment / BME VIK / Dr Magyar G.
455
borítékoló (wrapper)
Borítékoló-közvetítő architektúra
Feladata: a szintaktikai probléma kezelése. A borítékoló fogad egy, a BKA közös lekérdező nyelvén megfogalmazott lekérdezést, átfordítja azt az általa kezelt forrás lekérdező nyelvére, feldolgozza a választ, és továbbítja azt immár a BKA közös adatmodelljét használva. Olyan források esetén, amelyek nem rendelkeznek saját lekérdező nyelvvel (pl. egy weboldal) a borítékoló előre kinyeri a forrás értékes információit, és ezek után képes lekérdezésekre válaszolni.
Előny:
Információ menedzsment / BME VIK / Dr Magyar G.
Információ menedzsment / BME VIK / Dr Magyar G.
454
– viszonylag egyszerűen bővíthető (új borítékoló és közvetítő hozzáadásával, s a többi komponens esetleges minimális korrekciójával). – a felhasználó mindig az aktuális adatokkal dolgozik.
Hátrány: – kevésbé hatékony, mint egy centralizált architektúra.
456
114