INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
Bóta László
MÉDIAINFORMATIKAI KIADVÁNYOK
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
Bóta László
Eger, 2011
Lektorálta: CleverBoard Interaktív Eszközöket és Megoldásokat Forgalmazó és Szolgáltató Kft.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
Felelős kiadó: dr. Kis-Tóth Lajos Készült: az Eszterházy Károly Főiskola nyomdájában, Egerben Vezető: Kérészy László Műszaki szerkesztő: Nagy Sándorné
Kurzusmegosztás elvén (OCW) alapuló informatikai curriculum és SCORM kompatibilis tananyagfejlesztés Informatikus könyvtáros BA, MA lineáris képzésszerkezetben TÁMOP-4.1.2-08/1/A-2009-0005
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
Tartalom 1. Bevezetés ..................................................................................................................... 11 1.1 Célkitűzés ........................................................................................................ 11 1.2 A kurzus tartalma ............................................................................................ 11 1.3 A kurzus tömör kifejtése ................................................................................. 11 1.4 Kompetenciák és követelmények .................................................................... 11 1.5 Tanulási tanácsok, tudnivalók ......................................................................... 12 2. Információ szolgáltató eszközök fejlődése a könyvtáros szakmában .................... 13 2.1 Célkitűzés ........................................................................................................ 13 2.2 Tartalom .......................................................................................................... 13 2.3 A tananyag kifejtése ........................................................................................ 13 2.3.1 Az információfeltáró eszközök története ............................................ 13 2.3.2 A könyvtári adatbázisok típusai .......................................................... 18 2.3.3 Az információfeltárás intellektuális eszközei ..................................... 19 2.3.4 Az információfeltárás informatikai háttere ......................................... 21 2.3.5 Az online tájékoztatás jellemzői ......................................................... 22 2.3.6 Az információfeltárás új eszközei ....................................................... 23 2.4 Összefoglalás................................................................................................... 26 2.5 Önellenőrző kérdések ...................................................................................... 26 3. A keresőszolgáltatásokkal kapcsolatos alapismeretek ............................................ 27 3.1 Célkitűzés ........................................................................................................ 27 3.2 Tartalom .......................................................................................................... 27 3.3 A tananyag kifejtése ........................................................................................ 27 3.3.1 A webes adatelérés története ............................................................... 27 3.3.2 Keresőrendszer fogalma ...................................................................... 28 3.3.3 Webes keresőszolgáltatások ................................................................ 29 3.3.4 Webes keresőszolgáltatások osztályozása ........................................... 31 3.3.5 Rejtett web .......................................................................................... 34 3.3.6 Az online hálózati keresés közvetített módszertana ............................ 34 3.3.7 A keresés önkiszolgálás modellje ....................................................... 35 3.3.8 Napjaink népszerű keresőrendszerei ................................................... 35 3.3.9 Keresés a jövőben ............................................................................... 36 3.4 Összefoglalás................................................................................................... 36 3.5 Önellenőrző kérdések ...................................................................................... 36 4. Keresőrobotok ............................................................................................................ 37 4.1 Célkitűzés ........................................................................................................ 37 4.2 Tartalom .......................................................................................................... 37 4.3 A tananyag kifejtése ........................................................................................ 37 4.3.1 A keresőrobotok története ................................................................... 37 4.3.2 A keresőrobotok fogalma .................................................................... 38 4.3.3 A keresőrobotok működése ................................................................. 39 5
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 4.3.4 Miért a Google a vezető indexelt kereső? ........................................... 41 4.3.5 PageRank algoritmus .......................................................................... 42 4.3.6 A PageRank képlete ............................................................................ 43 4.3.7 A keresőoptimalizálás ......................................................................... 45 4.4 Összefoglalás................................................................................................... 46 4.5 Önellenőrző kérdések ...................................................................................... 46 5. A kulcsszavas keresés technikái ................................................................................ 47 5.1 Célkitűzés ........................................................................................................ 47 5.2 Tartalom .......................................................................................................... 47 5.3 A tananyag kifejtése ........................................................................................ 47 5.3.1 Az online keresés jelentősége ............................................................. 47 5.3.2 Kulcsszavas keresés ............................................................................ 48 5.3.3 Online keresés lépései ......................................................................... 48 5.3.4 Az 1. lépés: a keresőkérdés értelmezése ............................................. 48 5.3.5 A 2. lépés: a keresőfelület kiválasztása ............................................... 49 5.3.6 A 3. lépés: A keresőkérdés összeállítása ............................................. 52 5.3.7 A 4-5. lépés: Stratégia és válasz.......................................................... 53 5.3.8 Keresés és szimbólikus logika ............................................................ 53 5.3.9 Online keresési stratégiák ................................................................... 59 5.4 Összefoglalás................................................................................................... 63 5.5 Önellenőrző kérdések ...................................................................................... 63 6. Google, mint kereső eszköz ........................................................................................ 64 6.1 Célkitűzés ........................................................................................................ 64 6.2 Tartalom .......................................................................................................... 64 6.3 A tananyag kifejtése ........................................................................................ 64 6.3.1 A Google keresőrobot háttértörténete ................................................. 64 6.3.2 A Google indexelő része ..................................................................... 66 6.3.3 Kucsszavas keresési alapok................................................................. 68 6.3.4 Összetett kulcszsvas keresés ............................................................... 70 6.3.5 Vertikális Google keresők ................................................................... 75 6.3.6 Legyőzni a Google-t............................................................................ 77 6.3.7 Google, mint a jövő ............................................................................. 78 6.4 Összefoglalás................................................................................................... 79 6.5 Önellenőrző kérdések ...................................................................................... 79 7. Metakeresők ................................................................................................................ 80 7.1 Célkitűzés ........................................................................................................ 80 7.2 Tartalom .......................................................................................................... 80 7.3 A tananyag kifejtése ........................................................................................ 80 7.3.1 Metakeresők bemutatása ..................................................................... 80 7.3.2 Metakeresők csoportosítása ................................................................ 81 7.3.3 Idegen nyelvű metakeresők ................................................................. 82 7.3.4 Az Ariadnet bemutatása ...................................................................... 83 7.3.5 Az Ariadnet használata ....................................................................... 84 7.3.6 Az Ariadnet keresőmotor .................................................................... 85 6
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 7.3.7 A PolyMeta bemutatása ...................................................................... 86 7.3.8 A PolyMeta keresőmotor .................................................................... 86 7.3.9 A Miner bemutatása ............................................................................ 88 7.3.10 A Miner keresőmotor .......................................................................... 89 7.3.11 Egyéb magyar metakeresők ................................................................ 90 7.4 Összefoglalás................................................................................................... 90 7.5 Önellenőrző kérdések ...................................................................................... 90 8. Speciális keresők ......................................................................................................... 91 8.1 Célkitűzés ........................................................................................................ 91 8.2 Tartalom .......................................................................................................... 91 8.3 A tananyag kifejtése ........................................................................................ 91 8.3.1 A speciális keresők előnyei a könyvtáros számára ............................. 91 8.3.2 Vertikális magyar indexelt keresők ..................................................... 91 8.3.3 Tudományos keresők .......................................................................... 92 8.3.4 Termékkeresők .................................................................................... 94 8.3.5 Felhasználói vélemények keresése ...................................................... 95 8.3.6 Kép- és mozgókép keresők ................................................................. 95 8.3.7 Személykeresők, cégkeresők, településkeresők .................................. 96 8.3.8 Tudástárak ........................................................................................... 97 8.3.9 Humán alapú keresők .......................................................................... 98 8.4 Összefoglalás................................................................................................. 100 8.5 Önellenőrző kérdések .................................................................................... 100 9. Katalógusok .............................................................................................................. 101 9.1 Célkitűzés ...................................................................................................... 101 9.2 Tartalom ........................................................................................................ 101 9.3 A tananyag kifejtése ...................................................................................... 101 9.3.1 Az internetkatalógus fogalma ........................................................... 101 9.3.2 Horizontális katalógusok................................................................... 102 9.3.3 Vertikális katalógusok....................................................................... 103 9.3.4 Digitális könyvtárak .......................................................................... 103 9.3.5 Magyar Elektronikus Könyvtár (MEK) ............................................ 104 9.3.6 Neumann ház és a Webcat ................................................................ 104 9.4 Összefoglalás................................................................................................. 105 9.5 Önellenőrző kérdések .................................................................................... 105 10. Szemantikus web ...................................................................................................... 106 10.1 Célkitűzés ...................................................................................................... 106 10.2 Tartalom ........................................................................................................ 106 10.3 A tananyag kifejtése ...................................................................................... 106 10.3.1 Tudásmenedzsment, tudásprezentáció .............................................. 106 10.3.2 A szemantikus web ........................................................................... 108 10.3.3 A szemantikus web üzleti oldalról .................................................... 111 10.3.4 Ontológia........................................................................................... 112 10.3.5 Az RDF ontológia fogalma ............................................................... 114 10.3.6 Webszolgáltatások ............................................................................ 114 7
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 10.3.7 Tématérképek és RDF ....................................................................... 115 10.3.8 Az RDF ontológia ............................................................................. 116 10.3.9 Az RDFS ontológia ........................................................................... 117 10.3.10 OWL (Web Ontology Language)...................................................... 118 10.4 Összefoglalás................................................................................................. 123 10.5 Önellenőrző kérdések .................................................................................... 123 11. Intelligens rendszerek .............................................................................................. 124 11.1 Célkitűzés ...................................................................................................... 124 11.2 Tartalom ........................................................................................................ 124 11.3 A tananyag kifejtése ...................................................................................... 124 11.3.1 Üzleti intelligencia ............................................................................ 124 11.3.2 Üzleti intelligencia az információellátás folyamatában .................... 125 11.3.3 Az üzleti intelligencia és a könyvtár ................................................. 126 11.3.4 Az üzleti intelligencia jövője ............................................................ 126 11.3.5 Adatbányászat ................................................................................... 126 11.3.6 Az adatbányászat irányzatai .............................................................. 128 11.3.7 Az iteratív folyamat .......................................................................... 128 11.3.8 Webbányászat ................................................................................... 129 11.3.9 Szövegbányászat ............................................................................... 131 11.4 Összefoglalás................................................................................................. 132 11.5 Önellenőrző kérdések .................................................................................... 132 12. Összefoglalás ............................................................................................................. 133 12.1 A kurzusban kitűzött célok összefoglalása.................................................... 133 12.2 Tartalmi összefoglalás ................................................................................... 133 12.3 A tananyagban tanultak részletes összefoglalása .......................................... 133 12.3.1 Információ szolgáltató eszközök fejlődése a könyvtáros szakmában ................................................................................................. 133 12.3.2 A keresőszolgáltatások alapismeretei ............................................... 133 12.3.3 A kulcsszavas keresés technikái........................................................ 134 12.3.4 Google, mint kereső eszköz .............................................................. 134 12.3.5 Keresőrobotok ................................................................................... 134 12.3.6 Metakeresők ...................................................................................... 134 12.3.7 Speciális keresők ............................................................................... 134 12.3.8 Katalógusok ...................................................................................... 134 12.3.9 Szemantikus web............................................................................... 135 12.3.10 Intelligens rendszerek ....................................................................... 135 13. Kiegészítések ............................................................................................................. 136 13.1 Irodalomjegyzék ............................................................................................ 136 13.1.1 Hivatkozások ..................................................................................... 136 13.1.2 Külső URL hivatkozások .................................................................. 139 14. Ábrajegyzék .............................................................................................................. 141 15. Médiaelemek ............................................................................................................. 143 8
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 16. Tesztek ....................................................................................................................... 144 16.1 Próbateszt ...................................................................................................... 144 16.2 Záróteszt A. ................................................................................................... 148 16.3 Záróteszt B. ................................................................................................... 152 16.4 Záróteszt C. ................................................................................................... 156
9
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
1. BEVEZETÉS 1.1
CÉLKITŰZÉS
A kurzus célja, hogy megismertesse a hallgatókat az interneten fellelhető adatok keresésének lehetőségeivel, az online keresés alapvető fogalmaival, a webes keresőszolgáltatások, azon belül a webes keresőrendszerek működési mechanizmusával, a felhasználói felület felépítésével. A tantárgy kiemelten kezeli az online keresés adekvát eszközének kiválasztását, rámutatva arra milyen esetben, és miként érdemes igénybe venni az internetes keresést. Kiemelt figyelmet kap a keresés korszerű, a könyvtáros szakemberek számára nélkülözhetetlen ismeretet jelentő, tudásalapú internet tárgyalása az online keresés vonatkozásában. A jelenlegi és a jövő technológiáit egy bizonyos határig szükséges megmutatni, ugyanakkor nem szerepelnek a tananyagban mély informatikai ismeretek. Cél továbbá a technológiák várható hatásainak ismertetése, hiszen a folyamatos és gyors változás miatt a hallgatóknak néhány év után már egy egészen más közegben kell kiszolgálniuk a könyvtár látogatóit.
1.2 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
A KURZUS TARTALMA
Információ szolgáltató eszközök fejlődése a könyvtáros szakmában A keresőszolgáltatásokkal kapcsolatos alapismeretek A kulcsszavas keresés technikái Google, mint kereső eszköz Keresőrobotok Metakeresők Speciális keresők Katalógusok Szemantikus web Intelligens rendszerek
1.3
A KURZUS TÖMÖR KIFEJTÉSE
A jegyzet gerincét az internetes keresőrendszerek széles közösség által használt részének leírása alkotja. A jegyzetben a hallgató megismeri a keresőrendszerek kapcsolatát a könyvtári tájékoztatással, a mai keresők fajtáit, azok használatát, működési mechanizmusait, valamint kitekintést nyújt a következő évtizedek várható technológiai változásaira. 1.4
KOMPETENCIÁK ÉS KÖVETELMÉNYEK
Megérti a hallgató a könyvtári információ feltárás eddigi szakaszait, nehézségeit, fejlődését, tisztában lesz a keresés új tendenciáival, valamint eszközeivel. A hallgató képes lesz a kurzus elsajátítása után a webes keresőrendszerek előnyeinek figyelembe vételével a keresőkérdéshez a megfelelő keresési stratégiát kidolgozni, az online kereső szolgáltatásokat kiválasztani. A konkrét keresők használatával tisztában lesz, képes lesz azok kezelésére, valamint az összetett keresőkérdés kialakítására. 11
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A hallgató megtanulja a jövő évtized várható változásait a keresési technológiában, képessé válik a későbbiekben bekövetkező változások nyomon követésére.
1.5
TANULÁSI TANÁCSOK, TUDNIVALÓK
A leckék teszőleges sorrendben dolgozhatók fel, bár az első két lecke alapozó jellegű, de az előzetes ismeretek birtokában bármelyik lecke feldolgozható a többi nélkül is. A leckék legtöbbjénél a hallgató próbáljon meg a példákhoz újabbakat keresni, mivel így lesz képes a keresőrendszerek összehasonlítására, ugyanakkor a példák önmagukban értéktelenek, azokat mindenképpen érdemes a gyakorlatban is megtekintenie. A példák mellett a hallgatónak szükséges az új, a jegyzetben nem szereplő keresési lehetőségeket is megnéznie, erre azért kell képesnek lennie, mert az itt leírtak csak 2010-ben maradéktalanul aktuálisak. Az utolsó két lecke jövőbe mutató, azok témakörein el kell gondolkodnia, bár hozzá kell tenni a szemlélet kialakításának kedvéért, hogy a hallgató tanulmányai alatt nem, de munkája során valószínűleg találkozik azokkal.
12
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
2. INFORMÁCIÓ SZOLGÁLTATÓ ESZKÖZÖK FEJLŐDÉSE A KÖNYVTÁROS SZAKMÁBAN 2.1
CÉLKITŰZÉS
A könyvtáros szakma információszolgáltató eszközeinek megismerése, átalakulásának nyomon követése. A hallgató megtanulja, hogy az információkeresés és -szolgáltatás eszköze, lehetősége, tárgya, módszere állandóan változik, ugyanakkor a korábbi, hagyományos apparátus egyes elemei részben megmaradnak, és a korszerű rendszerek kisebbnagyobb mértékben azokra építenek. 2.2
TARTALOM
Az információfeltáró eszközök története Könyvtári adatbázisok típusai Az információfeltárás intellektuális eszközei Az információfeltárás informatikai háttere Az online tájékoztatás jellemzői Az információfeltárás új eszközei
2.3 2.3.1
A TANANYAG KIFEJTÉSE Az információfeltáró eszközök története
A feltárás hagyományos eszközei A régi korok emberéhez ugyan a mainál jeletősen kevesebb információ jutott el, ennek ellenére már az ókortól beszélhetünk azinformáció rendszerezésének igényéről, nyilvánvalóan a későbbi hozzáférés megkönnyítése érdekében. Az ókorból teljes egészében egyetlen könyvtári szakrendszer sem maradt fenn, de katalógustöredékek alapján mégis nyerünk némi betekintést. A sumér fővárosnak, Ur városának romjai között találták meg a legrégebbi ékírásos emléket. A sumérok égetett agyagtáblákból készítették „könyveiket”. A világ első könyvtári katalógusát Ninivében találtak meg. Az első rekonstruálható ókori könyvtár az asszír birodalom uralkodójának, Asszurbanipálnak agyagtábla-gyűjteménye volt. A könyvtár katalógusa két részből állhatott, az egyik a szerzői, míg a másik a szakrendi felsorolást tartalmazta, az agyagtáblákat témakörök szerinti csoportosították. Az ókori görög filozófusok nemcsak könyvgyűjtéssel foglalkoztak, hanem jelentős szerepük van az osztályozással kapcsolatos alapelvek kialakításában. Példaként említhető Platón „hármas tudományfelosztása”, melyet a lelki képességekre alapozva vázolt fel: dialektika-értelem, fizika-érzékelés, etika-érzelem és akarat. Ez a hármas felosztás nagy hatással volt a tudományok osztályozására. Arisztotelész tudományfelosztása Platón gondolatain alapszik, de azt részletesebben tagolja, csoportosítja. Osztályozása alapjául a tudomány célját emelve ki, elméleti és gyakorlati tudományokat különböztetett meg. Az alexandriai könyvgyűjtemény megteremtését az ókori könyvtártörténet legjelentősebb eseményének tekinthetjük a rendszerezés szempontjából is. A gyűjtemény kb. 13
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 700 000 papirusztekercset tartalmazhatott. Az alexandriai gyűjtemény vezetését a tudomány fő embereire bízták, elsőként a grammatikus-filológusra, az epheszoszi Zenodotoszra, ő kezdte meg a könyvállomány rendezését. A történelem első, név szerint ismert könyvtárosa Kallimakhosz volt (i.e. 310–240), aki Pinaches (táblácskák) címmel katalógust készített. Anyagát két fő csoportra osztotta: költőkre és prózaírókra. Ezeken belül hat-hat alcsoportot állapított meg aszerint, hogy az adott szerző mely műfajban jeleskedett (pl. elégikusok, szatírikusok, epikusok, illetve történetírók, filozófusok, orvosok stb.). A leíró katalogizálás módszereinek kialakulása szempontjából is kiemelkedő jelentőségű Kallimakhosz műve: felvette a könyvek szerzőjének nevét, címét, megadta a terjedelmet. Az egyes szerzőkről életrajzi adatokat is közölt. A Pinaches hosszú ideig az ókor későbbi bibliográfiáinak alapjául szolgált. A történeti vonatkozásokat az évszázadokon keresztül hosszasan lehetne még sorolni, lépjünk előre az időben, és következzen egy jelentős mérföldkő, a papír alapú katalógusok széles kürű elterjedése. A papír alapú katalógusok közül elsőként kötetkatalógust használtak, majd ezt követte a cédulakatalógus. Azóta ugyan mindkettő penetrációja, így szerepe is folyamatosan csökkent, de még 2000 után találunk példát az alkalmazásukra. A cédulakatalógus az 19. század végén vált a könyvtárakban a másodlagos információk feltárásának és keresésének fő eszközévé, és ezt a szerepet az 1990-es évekig töltötte be, de egyes kiskönyvtárak a mai napig ezt használják. A cédulakatalógus egy-egy könyvtár állományát tükröző szurrogátumok rendszerezésére, azon keresztül az állomány rendszerezett áttekintésére szolgálnak, szerkesztésének szabványai 1980–86 között jelentek meg. A katalógusok használatának szabályaival sokan, többek között elsőként az ókori görögök is foglalkoztak. Példaként tekintsük át Cutter (1876) megfogalmazásában a katalógusok alapján történő keresés elveit: − tegye lehetővé, hogy az olvasó megtaláljon egy könyvet, amelynek a szerzője, a címe, a tárgya ismert, − mutassa meg a felhasználónak, hogy a könyvtár milyen dokumentummal rendelkezik: adott szerzőtől, meghatározott témában, és egy bizonyos irodalomban, − segítsen az olvasónak egy könyv kiválasztásában annak bibliográfiai, tartalmi jellemzői szerint. Ma az online keresés alapelvei hasonlóak, ugyanis ma is keresünk konkrét elektronikus dokumentumot, objektumot ismert adatok alapján, valamint keressük a dokumentumok, objektumok listáját egy témakörrel kapcsolatban. Az információkresés formai szempontjairól a Bibliográfiai adatfeldolgozás tanegységen belül, míg a tartalmi szempontjairól az Információkereső nyelvek (IKNY) tanegység keretében tanultak részletesebben. Feltárás mágnesszalagon tárolt adatbázisból A mai adatbázisok történeti előzményei az egy-egy szakterület primér irodalmát feldolgozó, bibliográfiai-referáló folyóiratokra épülő adatbázisok, amelyek a kezdetektől fogva kereskedelmi vállalkozásokként indultak az 1960-as években. Az adatbázis a számítógépes adatfeldolgozó rendszer működéséhez szükséges, egymással logikai kapcsolatban levő adatok szervezett halmaza. Segítségével összetett szerkezetű adatmodellt valósíthatunk meg. 14
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A mágnesszalagos bibliográfiai adatcsereformátum szabványa (ISO 2709) 1973-ban, míg az ezen alapuló magyar szabvány 1983-ban jelent meg. Az adatbázisok egyedi nevet kaptak, ami egyértelművé tette a keresés lehetőségeit. Példa: Chemical Abstracts – CAS, ERIC. A referáló lapok többségét már számítógéppel állították elő, és innen már csak egy lépés volt, hogy egy-egy referátum adataiból és a hozzá kapcsolódó információkeresést segítő keresőnyelvi eszközökből kialakuljanak a rekordok, a referáló lapok számítógépes változataiból az adatbázisok. Elsőként az American Chemical Society referálólapja, a Chemical Abstracts (1961-től) és a National Library of Medicine (Bethesda, Wa.) Index Medicusa (1963-tól) éltek az új technikai lehetőséggel. Adatbázisokat a könyvtári munka könnyítése érdekében készítettek, és az adatbázisok neve volt kiemelt jelentőségű. Ejtsünk néhány szót végre magáról a keresésről is. Az adatbázisokban való keresés jellemzői a mai szemmel nézve igen sajátosak a kezdeti mágnesszalagos adattárak közvetített kereséséhez képest. A felhasználó ugyanis a keresésben közvetlenül nem vett részt. A keresést a professzionális kereső szakemberek végezték el, ők fogalmazták meg a keresőkérdést. A keresőkérdés a felhasználó eredeti, feltett kérdésének a számítógépes keresőrendszer szintaktikája szerint átírt karakterlánca. A keresőkérdés lehet egyszerű vagy összetett. Kezdetben a keresőprogram számára kezelhető formában átalakított, természetes nyelvű keresőkérdést a keresőprofil jelentette, de napjainkban a keresőkérdéshez társítjuk ezt a jelentést. Öszszetett keresőkérdés beírásakor általában több szót adunk meg, és Boole-operátorokkal (logikai operátorokkal) kapcsoljuk össze a keresőkérdés szavait. Az összetett keresés számos könyvtári rendszerben parancsszavas formában történik (például CCL nyelven). A keresőprofil használatát az adatbázisok specifikus, bonyolult, elágazó, paranccsal vagy menüvel vezérelt keresőrendszerei indokolták, illetve az, hogy a gépidő és a hálózati kapcsolódás igen drága volt. A keresőprofil szerkesztése a felhasználó által megadott szempontok alapján, a megfelelő segédeszközök (tárgyszójegyzékek, tezauruszok stb.), parancsnyelv és kereséstechnikai eszközök (Boole-operátorok, csonkolás stb.) segítségével történt. Ezt a keresőprofilt hasonlította össze a gép az adatbázisban levő dokumentumok profiljával. A gyakorlatias olvasók számára íme egy konkrét segédlet a keresőprofil összeállításához: http://gep.dialog.com/instruction/workbook/2005_labwb_bluesheets.pdf. Az offline mágnesszalagos adatszolgáltatások a szelektív információterjesztés (SDI) leggyakribb példáinak minősültek. A beszerzett mágnesszalagok alapján a szelektív információterjesztési rendszer munkafolyamatai a következők voltak: a szolgáltatás szervezése, infrastruktúraépítés, az információk számítógépes szelektálása, a felhasználók kiértesítése, a találatok értékelése, a felhasználókkal való folyamatos kapcsolattartás, és igény esetében dokumentumok, másolatok szolgáltatása. E szolgáltatási formának alapvető szerepe volt a nemzetközi információcsere szabványosításában, az egységes szabványos rekordszerkezetek használatában, a szolgáltatási 15
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE rendszerkoncepció elterjesztésében. Az 1970-es években Magyarországon 25 mágnesszalagos szolgáltatás honosodott meg (pl. Veszprémi Vegyipari Egyetem Központi Könyvtára, OMIKK). A matematikai logikai alapokon nyugvó, adatbázisban történő keresés az adatbáziskezelő rendszerek része volt, magát a keresést különösebben nem írták körül, hiszen maga az adatbázis csak a keresővel együtt használható, vagyis az adott adatbázishoz egy kereső volt, és az általában csak egy adatbázisban tudott keresni.
1. kép
Az információfeltárás eszközeinek fejlődése
Feltárás mágneslemezen és optikai tárolón rögzített adatbázisból Az 1980-as évek második felében hazánkban is megjelentek a CD-ROM-os adatbázisok, volt olyan, amelyet például témafigyelésre alkalmaztak (lásd MTA). A témafigyelséhez kapcsolódó példa a PRESSDOK, ami az Országgyűlési Könyvtár hazai politikai, gazdasági és részben jogi témájú sajtófigyelése. Másik példa a HUNDOK, ahol az Országgyűlési Könyvtár állományában megtalálható, hozzávetőleg 50 mértékadó külföldi sajtóorgánum Magyarországról szóló cikkeinek gyűjteménye. Az 1990-es években bontakozott ki a helyi hálózaton keresztül történő keresés, és megjelentek a weben az online könyvtári katalógusok (OPAC). Az online szolgáltatások az ezredfordulóra erőteljes fejlődésnek indultak. Online hálózati szolgáltatóközpontok jöttek létre, amelyek biztosították az online adatbázisok hálózati használatát. A szolgáltatók (pl.: Dialog, DataStar, STN) a szolgáltató-központokban retrospektív adatbázis építés folytattak, ezekben az adatbázisokban parancsnyelv alapján kerestek. Az interneten erősödik az önkiszolgálás, és a keresés technikai eszközei a felhasználó oldalán egyszerűsödnek. Az ezredfordulón a láthatatlan vagy mélységi web keresési 16
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE lehetőségeit tárták fel, ami az altalános, automatikus keresőszolgáltatás által nem indexelt tartalmakra terjed ki, tehát a weben keresztül lekérdezhető adatbázisok adatainak feltérképezését jelenti. A jövőben az intelligens webes keresés fejlődése várható, melynek előszelei már most is megmutatkoznak. Az utóbbi témákról a későbbiekben részletesen is szólunk. A fenti gondolatmenet vázlatosan az 1. ábrán látható. Az alsó szaggatott vonal alatt a papír alapú keresést segítő eszközöket, míg a felső szaggatott vonal felett a keresés hatókörének, illetve a használók körének érdemi változását láthatjuk. A keresés hatóköre a formai adatokról áthelyeződik a tartalmi jellemzőkre. A használók köre pedig egy szűk szakmai réteg (könyvtáros, kutató stb.) helyett egyre inkább hazánk és a világ teljes lakosságának a digitális írástudással rendelkező hányadát jelenti. A felhasználó szempontjából az adatelérés fokozatosan vált nyitottabbá. A felhasználó kezdetben csak a keresőkérdést tehette fel, később maga is használhatta az adatbázishoz kapcsolódó keresőrendszereket. Az internetnek köszönhetően ez kiteljesedett, hiszen az adatok elképesztően nagy tömegéből az egyes kutatóműhelyek, illetve később a cégek egy adatbázist készítettek, amelyben lehetett keresni, és ezekre épültek az online keresőrendszerek, majd ezek egy része később nyitott keresőszolgáltatássá vált. Az említetteken túl, az utóbbi évtizedben váltak jelentőssé az automatikus indexelőmotorra épülő általános keresőszolgáltatások, például a Google, Yahoo, Bing. Az interneten tárolt információk elérése Valaha a könyvtárosok a keresőkérdésre informatikusok nélkül nem kaptak volna választ, mivel a választ általában csak az adatbázishoz tartozó keresővel kaphatták meg. Az informatikusok szerepe a későbbikeben háttérbe szorult, és a könytáros közvetlenül kereshetett az adatbázisokban. Az interneten fellelhető számos keresőrendszer azonban már nem egységesen, nem azonos céllal, és időben is eltérő módon használható. Ennek következménye, hogy az ezredforduló után a könyvtárosok szaktájékoztató eszközei évről évre jelentős változáson mennek keresztül, emiatt a hatékony keresés érdekében érdemes elsajátítani, majd állandóan frissíteni a használatukhoz szükséges ismereteket. Az adatbázisban tárolt és kereshető adatok aktualizálása, frissítése az adatbázisok típusától, illetve a szakterülettől függően változik. Az adatbázisokban először megjelentek a korábban is használt deszkriptorok, tárgyszavak, de később az ún. szabad keresőszavak vagy más néven kulcsszavak is rendelkezésre álltak. A keresés igénybe vehető módszerei, és egyben eszközei az adatbázis keresőfelületén a következők: − két fokozat: egyszerű keresés, haladó (összetett) keresés, − böngészés, − tezaurusz-üzemmód (az adatbázisok számottevő részében). A jelenlegi webes technológia az állandó átalakulás következtében öt–tíz év távlatában jelentős mértékben változik, lehetőségei kibővülnek. A hagyományos és számítógépes technológiák lehetőségeinek kiaknázásával a korszerű könyvtárosi feladatkör kiegészül a tudásfeltárással. Az átláthatatlanul nagy adattömegben a könyvtárosnak nem csupán egy releváns információt kell megtalálnia, hanem a lehető legalaposabb információt kell átadnia a kívánt mélységig. Ehhez elengedhetetlen az új webes technológiák megismerése, a web átalakulásának, fejlődésének megértése, és lehetőségeinek gyakorlati készség szintű elsajátítása. 17
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 2.3.2
A könyvtári adatbázisok típusai
A könyvtárakban az adatelérés szemszögéből a legnagyobb változást elsőként az adatbázisok jelentették. Adatbázisok nélkül nem beszélhetünk elektronikus keresésről sem. Az adatbázisokat a szolgáltatott információk szempontjából a Carlos A. Cuadra által kialakított taxonómia alapján csoportosítjuk. Ez a csoportosítás azért is fontos, mivel az itt felsorolt adatbázis-típusok kezdetben meghatározták a keresés tárgyát. Az adatbázisoknak két jelentős ága ismert: a referensz (másképpen bibliográfiai vagy forrástájékoztató) adatbázisok, valamint a forrás adatbázisok. Referensz adatbázisok Jellemző rájuk, hogy az eredeti, elsődleges forrásokra vonatkozó ún. másodlagos információkat tartalmaznak. A referensz adatbázisoknak két fajtája van: a bibliográfiai adatbázisok és a forrástájékoztató adatbázisok. A bibliográfiai adatbázisok elsődleges forrásai a kiadott vagy meg nem jelentetett dokumentumok (könyvek, időszaki kiadványok, folyóiratcikkek, szabadalmak, térképek, zeneművek stb.). A másodlagos információk a rájuk vonatkozó leírások (bibliográfiai tételek, referátumok, annotációk, tömörítvények stb.). Példa a bibliográfiai adatbázisokra: − könyvtári online katalógusok, − online módon elérhető bibliográfiák (pl.: MNB), − cikkadatbázisok (pl.: MANCI, PRESSDOK), − online szakterületi adatbázisok (pl.: ERIC, MEDLINE). A forrástájékoztató adatbázisok (referral-databases) személyek, szervezetek, szolgáltatások, folyó kutatások adatait tartalmazzák és teszik kereshetővé. A bennük található másodlagos információk a forrásokra vonatkozó rekordok (leírások), amelyek alapján azok elérhetők. Példa forrástájékoztató adatbázisokra: − cím- és céginformációs adatok (név- és címtárak, cégkatalógusok), például a KSH cégnyilvántartása − telefonkönyvek, pl.: „Arany Oldalak” szakmai telefonkönyv a weben − termékinformációs adatbázisok, wapon (mobiltelefonon) és CD-ROM-on elérhető adatbázisok. Megjegyzés: a könyvtári adatbázisok leírásához használt forrással ellentétben a forrástájékoztató adatbázis fogalma azonos a referensz (bibliográfiai) adatbázissal és tovább nem bontható. Ez a három kifejezés: referensz-, bibliográfiai-, forrástájékoztató adatbázis ugyanazt jelenti: csak bibliográfiai adatokat tartalmaz. Forrástájékoztató ugyanis az az adatbázis, azaz bibliográfiai (referensz) adatbázis, amelyekben csak bibliográfiai adatokat lehet keresni. Így a címtárak, telefonkönyvek stb. nem tekinthetők referensz adatbázisnak. Forrás adatbázisok A forrásadatbázisok elsődleges adat- vagy információforrások, amelyek önmagukban tartalmazzák a keresett információt (számszerű, szöveges adat, vagy teljes szöveg formájában). Közvetlen választ adhatnak kérdéseinkre, ezért nevezik forrás típusú adatbázisoknak is. Fajtái: numerikus, szöveges-numerikus, teljes szövegű adatbázisok. 18
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A numerikus adatbázisok eredeti statisztikai vagy más numerikus adatokat (például termelési, ipari, fogyasztási, költségvetési, pénzügyi, választási, demográfiai adatokat) tartalmaznak a legkülönfélébb (például idősoros, területi) rendezettségben. Adatbankoknak is nevezzük őket, melyeknek egy része nem nyilvános. Kérdéseinkre közvetlen választ adhatnak. Példák a numerikus adatbázisokra: a statisztikai hivatalok adatbázisai, a demográfiai adatbankok, a lakossági címnyilvántartás, az igazgatási (miniszteriális és önkormányzati) adatbázisok (például a Defense Data Bank). Az ipari termelés és szolgáltatás adatait tartalmazó adatbankok (például az USA mezőgazdasági adatait heti, havi és negyedéves idősorokban szolgáltató National Agricultural Statistical Service, a termelési, fogyasztási és népességi adatokat tartalmazó PTS Time Series). A szöveges-numerikus adatbázisok eredeti szöveges és számszerű adatokat felváltva tartalmaznak. Életrajzi, vállalati, politikai stb. adatbázisok, olykor kézikönyvként nyomtatott formában is léteznek. llyen adatbázisok, például a Pályázatfigyelő, a CompAlmanach Kft. Ki mit gyárt? vállalati katalógusa, a vegyi anyagokról szóló információkat szolgáltató CHEMSEARCH. A teljes szövegű adatbázisok eredeti szöveges dokumentumokat tartalmaznak, továbbá kiegészülnek keresőnyelvi eszközökkel. A teljes szövegű adatbázisok esetében a dokumentum teljes tartalma, s nem a róla szóló híradás, leírás kerül az adatbázisba, ezután annak minden elemét visszakereshetővé teszik. Példák a teljes szövegű adatbázisokra: jogi adatbázisok (LEXIS), gyógyszerészeti, orvosi (Drug Information Fulltext stb.), gazdasági és műszaki adatbázisok, elektronikus-digitális könyvtárak (például a Magyar Elektronikus Könyvtár), a digitalizált enciklopédiák (például azEncyclopedia Britannica), az elektronikus folyóiratok és lapok cikkeinek adatbázisai (például a Népszabadság, a Figyelő, a Lakáskultúra, a Times archívumai). A multimédiás adatbázisok a teljes szövegű körébe tartoznak, természetesen a „szöveg” fogalmát tágabban értelmezik. 2.3.3
Az információfeltárás intellektuális eszközei
A könyvtári adatbázisok alkalmazásainak kezdeteitől (1960-as évek) azok élen jártak mind az információkereső nyelvek (aspeciális osztályozási rendszerek, tárgyszó rendszerek, tezauruszok) fejlesztésében, mind pedig az igénybe vehető keresési lehetőségek bővítésében (Boole-operátorok, helyzeti operátorok, csonkolás, felhasználói preferencia szerint keresés, mezők szerinti keresés és szűkítés, böngészés lehetősége). A keresés elősegítésére szavas, kifejezéses, kijelöléses, összetett és speciális (programozható) indexelési típusokat fejlesztettek ki. Az indexgenerálásnak köszönhetően sokféle adattípus (szerzők neve, tárgykörök, földrajzi helyek, intézmények neve, nyelv stb.) szerinti keresést tesznek lehetővé, elősegítve a nagyobb pontosság elérését. Az adatbázisok jellegzetessége, hogy többféle kereső nyelv használatát teszik lehetővé, melyek az alábbi alapeseteket jelentik vagy ezekre épülnek: − szabadszavas (kulcsszavas, szövegszavas) keresés, − kötöttszavas (tárgyszavas) keresés, − deszkriptor (tárgyszavak hiearchiájának leírása) szerinti keresés. A szabadszavas keresés természetes nyelven alapuló, nem szabványosított, azaz bármilyen szó szerepelhet a keresőkérdésben, sőt annak a ragozott vagy csonkolt alakjai is. 19
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az online keresőrendszerek a szabadszavas keresést biztosítják, melyek a keresés kulcsszavai, ezért a kulcsszvas kereső elnevés is igen gyakori. A kötöttszavas keresés szabványosított, így csak a szerkesztési szabályoknak megfelelő (például csak alany esetben álló, egyes számban lévő főnév) szavak szerepelhetnek a keresőkérdésben, esetleg azok szinonimái. A deszkriptor szerinti keresésnél csak a megfelelő jelzetek szerepelhetnek a keresésben. Az online könyvtári rendszerek mindhárom keresést, és azok kombinációját is használják, de a tananyagunkban csak a szabadszavas vagy a gyakrabban emlegetett kulcsszavas keresés jelenik meg. A kulcsszavas keresésről, a tárgyszavazásról, a deszkriptorszerkesztés szabályairól tanultakat érdemes felidézni az Információkereső nyelvek (IKNY) tanegység tananyaga alapján. Kereséstechnikai eszközök A bibliográfiai és referáló adatbázisoknál a kereséstechnikai eszközök széles palettája áll rendelkezésre, természetesen a felsoroltak mindegyike nem vonatkozik minden adatbázisra: − a keresőkérdésben fogalmi csoportok (fogalomkörök) kialakítása, megfelelő segédletek alapján (tezauruszok, tárgyszójegyzékek, osztályozási táblázatok), − ezek egymáshoz kapcsolása a Boole-operátorok segítségével (a teljesség növelésére szolgál az OR, a pontosság növelésére az AND és NOT operátor), − a keresőkérdésben helyzeti operátorok használata a keresőszavak egymáshoz viszonyított előfordulásának meghatározására, a pontosság növelésére − a keresőkérdésben a szó csonkolásának különféle változatai (szóvégi egy vagy több karakter, szóközi, szókezdeti stb.) a teljesség növelésére, − a keresés körének, helyének, tárgyának korlátozása stb. a pontosság növelésére (például nyelvi korlátozás). A felsoroltak mindegyike jellemző az online keresésre is, bár az első eszköz még nagyon kevés online kulcsszavas kereső sajátja. Keresési segédeszközök A korábban offline elérhető segédeszközök a keresőrendszer dokumentumai, például parancsnyelv kézikönyve, adatbázisok dokumentumai, az adatbázis információkereső nyelvének dokumentumai napjainkra online hozzáférhetővé váltak. Az online szolgáltatók által a rendszerekhez biztosított „help” üzenetek; weblapjukról lekérhető információk; kezdetekben hirdetőtáblák (BBS) stb. Az adatbázisokhoz megbízható, gyakorlatias tájékoztató felületek (súgó, GYIK – Gyakran Ismételt Kérdések). A tájékoztató felületek jó példa az ERIC adatbázis (http://www.eric.ed.gov/), amelyhez a „blue sheet” segédlet kapcsolódik, amelyek segítséget nyújtanak a felületéről elérhető, de éltérő keresési stratégiákról.
20
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
2. kép 2.3.4
Online segédeszköz a Polymeta keresőrendszernél
Az információfeltárás informatikai háttere
Az adatmodell megvalósítása, az adatbáziselemek és kapcsolatok adatbázisba szervezése adatbázis-kezelő rendszerrel történik. Ez biztosítja alkalmazói szinten az adatbevitellel, karbantartással, kereséssel, kivitellel stb. kapcsolatos műveleteket. Az első adatbázis-kezelők hierarchikus szerkezetűek voltak, ezután a hálós szerkezetű adatbázisok következtek, míg az 1970-es évek közepétől a relációs adatbázis-kezelő rendszerek működtek, és részben ilyen alapon működnek napjainkban is (1980-as évek közepétől: ORACLE, TINLIB), de az utóbbi évtizedben egyre jelentősebb szerepet kapnak az ún. objektumorientált rendszerek. A relációs adatbázis-kezelő rendszerekre (MS Access) jellemző rájuk az adatelemrekord-fájl szerkezet és a mezők közötti, rekordok közötti és fájlok közötti kapcsolat, valamint az adatelemek és rekordok azonosított kezelése (az adatelemet például az adatelemnév/mezőnév, a rekordot a rekordazonosító adatelem azonosítja), valamint az invertált fájlok és a Boole-algebrai műveletek kitüntetett szerepe. Az adatok kezelésére (lekérdezésére, frissítésére, törlésére, hozzáadására) adatkezelő nyelveket dolgoztak ki. Ezek közül a legismertebb, szabványosként elfogadott formátumú az SQL (Structured Query Language). Az SQL-nyelv logikai alapját a Boole-algebra adja. A relációs adatbázisok kiválóan alkalmasak bibliográfiai adatok tárolásra a nem szöveges szurrogátumok szintjéig, ugyanakkor a szöveges információkeresés szempontjainak kevésbé felelnek meg.
21
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Ezért is jelentek meg az objektumorientált adatbáziskezelő rendszerek, melyek képesek a dinamikus változás követésére, s ily módon jól alkalmazhatók az automatikus indexelésre, ahol újabb szöveg bevitele esetén automatikusan aktualizálni kell az indexkifejezések listáját is. Az objektumorientált adatmodellel teljes dokumentum, sőt akár a teljes gyűjtemény is ábrázolható, de a dokumentumon belüli kognitívumok is, mégpedig az eredeti logikai és szemantikai struktúra megtartásával. jövő 2.3.5
Az online tájékoztatás jellemzői
Az értékelés kérdései Az adatbázisok tekintettel differenciált feltáró rendszerükre, egyaránt lehetőséget adnak a nagyobb teljesség, illetve a nagyobb pontosság elérésére, arra, hogy a keresés minél több relevánsabb találatot eredményezzen. Releváns találat: A keresőkérdésekre adott választ tartalmazó pontos találat. A találatok között a témakörhöz nem kapcsolódó, vagy a témakörhöz kapcsolódó, de pontos választ nem szolgáltató rekordok szerepe a keresés szempontjából értéktelen. Teljesség: A kereső rendszer hatékonyságának jellemzésére szolgáló, a releváns találatok kihozatalára jellemző mutató. Az adatbázisok esetében az OR Boole-operátor, a csonkolás fontos eszközei a teljesség biztosításának. Pontosság: megtalált releváns találatok arányára jellemző mutató (releváns találat/összes találat). Nagyobb pontosságot biztosító eszközök: AND Boole-operátor, a különféle indexek generálásának termékei, korlátozási módszerek, valamint az infromáció kereső nyelvek célirányos használata. A fentiek az online kulcsszavas keresés jellemzői is. Kiemelendő azonban, hogy a zaj, a zsákutcás, halott, ismétlődő hivatkozások lehetősége sokkal kisebb az adatbázisok esetében, mint például a csaknem kizárólag szabad szavakat alkalmazó keresőrendszerek esetében. Fejlesztési feladatok Az internetes adatprezentációban egyre fokozott szerepet kap a verseny, a (könyvtári) adatbázisoknak alkalmazkodni kell az internet fejlődéséhez. Az internet megjelenésével fokozatosan megnőtt az igény jó minőségű, ingyenes vagy olcsó, a weben hozzáférhető adatbázisok iránt, ami nagy kihívást jelentett a hagyományos, kereskedelmi online adatbázisok számára. A legtöbb adatbázis alkalmazkodni igyekszik a megváltozott körülményekhez. Egyes adatbázistípusok erősen veszélyeztetettek ebben az új környezetben, de vannak olyanok is, amelyek megerősödhetnek. Az utóbbira jó péla a hivatkozások feltárására épülő Science Citation Index, amelynek jelentősége valószínűleg hosszú időn át megmarad, hiszen használata a tudományos teljesítmények mérésekor nélkülözhetetlen. A szöveges adatbázisok közül a leginkább veszélyeztettek az alacsony feldolgozási fokúak, így jelentőségük hát22
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE térbe szorulhat. Ezek például a csupán bibliográfiai hivatkozásokat és indexelő szakkifejezéseket tartalmazó adatbázisok. A változásokhoz azok az adatbázisok igazodhatnak a legjobban, melyek jelentős számú rekorddal rendelkeznek, figyelési körük – akár egy szűk szakterületen belül is – széles, és anyagukat gyakran, akár naponta frissítik. Ezek közül is csak a felhasználót legjobb minőségben kiszolgáló (például lapozható könyvet kínáló), széles körű keresési sajátságokkal rendelkező kereskedelmi változatok képesek a túlélésre. Az elmondottak igazak a nagyszámú folyóiratot feldolgozó, és a folyóiratcikkek teljes szövegét elérhetővé tevő indexekre, ilyen például a Scopus. Az elektronikus, különösen internetes hálózati környezet jellemző lett az adatbázisokra. Ez segíti és ösztönzi a szellemi és technikai segédeszközök fejlesztését, a nyelvtechnológiai módszerek és az automatizálás integrált alkalmazását. Az online szolgáltatásként általában térítés ellenében lehetett és lehet igénybe venni, ugyanakkor egyre több változat férhető hozzá ingyenesen a világhálón. A feltárás időigénye, költségigénye a láthatatlan weben erősödő automatizálási eljárásoknak köszönhetően jelentősen csökkent, minek következtében növekedhetett az ingyenesség, illetve csökkenhetnek az árak. Az archiválás kérdései Az internetes találatok szakmai hitelessége egyes források esetén megkérdőjelezhető, a találat valósághű voltáról több, akár papírlapú dokumentumból is érdemes meggyőződni. A találatok, és a könyvtári állomány archiválása kiemelt jelentőségű a papíralapú és más hagyományos, nem elektronikus dokumentumokkal szemben, ugyanis a mágneses adattárolókat is beleértve azok biztos tárolóképessége már 4-5 év után megszűnhet, igaz ez csak a rosszabb minőségű és párás, nagy hőmérsékletváltozások között tárolt optikai (CD, DVD, BlueRay) tárolókra igaz. A találatok elektronikus és hagyományos kezelése, archiválása ugyanakkor más akadályokba is ütközhet. A szerzői jog a szellemi alkotások jogának fő részterülete az iparjogvédelem mellett. A szerzői jog az irodalmi, tudományos és művészeti művek (a továbbiakban együtt: szerzői alkotások) oltalmára hivatott. Emellett bizonyos szomszédos jogok oltalmát is biztosítja. A könyvtárosnak tisztában kell lennie, hogy a webes keresőrendszerekkel jogvédett tudományos és művészeti munkák sokaságát érheti el. A mindenki által, könnyen megtalálható adat nem jelenti azt, hogy azt szabad minden esetben másoknak továbbküldeni, tárolni, kinyomtatni, esetleg sokszorosítani, legyen az szöveges-, állókép-, hanganyag-, mozgókép- vagy egyéb más tartalom. A törvények betartása akkor is kötelessége egy állami alkalmazottnak, ha azokat nem írják ezen könnyen elérhető objektumok mellé. 2.3.6
Az információfeltárás új eszközei
Biztosan más eszközök és más fogyasztói réteg között végzi majd 10–20 év múlva könyvtárosok többsége a feladatát. Az információs társadalom polgárai egyre nagyobb mértékben szembesülnek a feléjük áramló információval. Az információ pontos mennyiségét az University of California kutatói mérték meg egy médiafogyasztással kapcsolatos vizsgálat során. 2008-ban összesen 3,6 zettabájt (3,6×1020) adat jutott el az amerikai lakosokhoz, ami nyomtatott változatban majdnem két méter magasan terítené be az USA területét. Az amerikaiak átlagosan naponta 34 gigabájt adathoz jutnak (leginkább televízióból 23
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE és számítógépes játékokból). A 30 évvel ezelőtti állapothoz képest kétszer annyi szó kerül az amerikai átlagpolgár elé, ami napi 100 ezer mondott, halott vagy olvasott szót jelent, míg például Lev Toljsztoj Háború és béke című regényének angol fordítása úgy 460 ezer szót tartalmaz. A fent vázolt mennyiségű adat azt is jelenti, hogy a fogyasztók egyre inkább a számukra szükséges adatokat tekintik csak relevánsnak, így a tájékoztatás kiemelt szolgáltatás lehet a jövőben. A jövő könyvtárosa a tájékoztatás számos útját járhatja majd. Bizonyára lesznek, akik kizárólag a hagyományos, nem elektronikus dokumentumokra alapoznak, de számuk egyre csökken. Vannak olyan kérdések, melyek csak ilyen módon kutathatók, de az igény megvan arra, hogy a régi, többnyire papíralapú dokumentumokat is digitalizálják, így azok keresése is online történhet. Példa: A Magyar Országos Levéltár honlapján (www.mol.arcanum.hu) 2010 tavaszától már 108 000 középkori irat érhető el. Ehhez csatlakozott a Heves Megyei Levéltár, a tárolóiban őrzött, csak a Mohács előtti időkből fennmaradt 996 darab középkori iratot (oklevelek, okmányok, dokumentumok) digitalizálják, és nyilvánossá teszik. A digitalizálás és az internetes hozzáférés önmagában nem elég az iratok dokumentálásához, sőt még az alapos latintudás sem elégséges, ugyanis az oklevelek sajátos, középkori szaklatin nyelvében járatos személyek száma csekély. A Megyei Levéltár szakemberei ezért lefordítják magyarra, hogy tanulmányozható legyen. A könyvtárosok tájékoztató munkájának egy másik részében hétköznapi emberek különféle igényeit elégíthetik ki, melyek lehetnek tudományos, de teljesen átlagos kérések is, de közös bennük, hogy a webes keresők kiemelt szerepet kapnak ebben a munkában. A tájékoztatás harmadik útja pedig a cégek különféle igényeit kielégítő tájékoztatás lehet, mint információbróker dolgozik, így a könyvtár kiemelt bevételhez juthat. Rejtett web A könyvtáros keresési tere jelentősen kitágult, de az internet adathalmaza sokszorosa annak, mint amit a keresőrendszerekkel el lehet érni, így az interneten található dokumentumok egy jelentős része egyáltalán nem vagy csak speciális tudással érhető el. A mélységi réteg a jelenlegi keresőrendszerek számára láthatatlan kereshető adatbázisok hatalmas birodalma. A felületi és rejtett vagy mély web globális integrációja elkezdődött. Az interneten, a „mélységi weben” hozzáférhető adatbázisok feltárásában, keresésében új automatizált technológiák érvényesülnek. A kereső (böngésző) szolgáltatások új minősége valósul meg: új keresési formák kifejlesztése, illetve a hagyományos keresési formák és lehetőségek továbbfejlesztése folyik. Ezek eredményeképpen a szöveges állományokban, a strukturált szövegekben, adatbázisokban és az audiovizuális tartalmakban közös fogalmi térben terjednek az egységesen kiterjesztett kereső alkalmazások (1. ábra). Példa: A könyvtárosok feladata például a magyarság eredetének, vagy egy családfa felkutatásának kapcsán már nem csupán egy régi levéltári dokumentum megkeresése lesz, hanem a történelmi releváns videotartalmak, állóképek, blogok, hírek stb. felkutatása is. 24
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Szemantikus web és a Könyvtár2.0 Az adatbázisokban, mint más internetes szolgáltatásokban egyre nagyobb hangsúlyt helyeznek arra, hogy a visszajelzést kérjenek a felhasználótól, mennyire elégedett a kapott találatokkal. A Web2.0-val jelölt technológiák egyik alapvető jellemezője a címkézés, a vélemények kifejtése például hozzászólások, blogok, vlogok formájában. A könyvtárosok a Web2.0 technikát saját munkájukhoz kötődő weboldalak esetén összefoglaló néven Könyvtár2.0-nak nevezik. Az említett adatok vagy a Könyvtár2.0-hoz kapcsolódó, speciális keresőkkel, vagy pedig a jelenleg még drága és nehezen elérhető intelligens kereséssel érhetők el, melyek az operatív könyvtári munkát az adott korszak technológiája mellett segíthetik. A következő évtizedben a Könyvtár2.0-val jelzett technológia keresési lehetőségei lehetnek relevánsak. Példák: - egy magánszmély személyes, az élete webes tevékenységet összefoglaló weboldaláról (portfóliójáról) feltett kérdésre a könyvtárosok válaszolnak, bloghoz kommentárt fűznek, a Wikipediát ellenőrzik, kiegészítik fontos adatokkal stb. - ugyanakkor a felhasználó cimkézese során részt vehet a katalógusszerkesztésben is, erre kiváló példa az amerikai Darienlibrary - személykeresés közösségi hálókon (osztálytársak, tanárok megkeresése osztálytalálkozóhoz) - vizsgára szabad hozzáférésű online forrásokból adatgyűjtés - válaszolhatnak egyszerűnek tűnő, de intelligens kereséssel megoldható kérdésekre: a) Egy adott termékről mit mondanak az emberek? b) Egy adott termékösszetevő hasznos vagy káros anyagokból áll? c) Egy gyereknevelési problémára milyen megoldások találhatók a weben a cikkek, és a hozzászólások alapján? stb. A Web2.0-hoz hasonlóan szintén az interneten található adatok megjelölésével próbálják az adatokat szemantikailag is kezelhetőbbé tenni, melynek végeredménye az emberi keresőkérdésre adott egzakt találat. A témakört egy későbbi leckében szemantikus web címmel tárgyaljuk. Intelligens webes keresés A fejlődés egyik kulcsa az emberi gondolkodáshoz közelítő keresés (1. kép), amitől ugyan még évtizedekre vagyunk, de a kezdeti szakasz már látható. A keresés eddig tárgyalt eseteiben kizárólag a rögzített adatok prezentálására szorítkoztunk, ritkább esetben azok számított értékeire (például valutaárfolyam, városok távolsága stb.). A nagy mennyiségű adat azonban sajátos jellemzőkkel bír, ami további, a felhasználó elől rejtett információkat is jelent. A nyelvi elemek összehasonlításával például a nyelvcsaládok rokoni szálainak feltárása ma még elképzelhetetlen feladatnak tűnik, de kisebb elemzésekre már most is képesek vagyunk. A könyvtár, mint intézmény bizonyára tisztában szeretne lenni az olvasói szokásaival, a honlapot használók viselkedésével. Az ehhez kapcsolódó adatokat a számítógépes rendszerek rögzítik (mit kölcsönzött, mennyi ideig, milyen szolgáltatást használt, mit nézett a weboldalon stb.), de azok alapján olykor még az egyszerű statisztikai mutatók sem készül-
25
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE nek el, pedig az adatok sokkal több információt hordoznak. Az intelligens rendszerekről később egy külön leckében lesz szó. Üzleti információ A könyvtárak egy része, vagy egyes munkatársai szolgáltathatnak üzleti információt is. Az üzleti információ gyűjtőfogalom, olyan információk halmaza, amely szükséges egy földrajzi területen a vállalkozások sikeres gazdasági szerepléséhez. A cégalapítástól kezdve a stratégiai és az operatív döntések meghozatala a vállalkozás teljes életciklusa során ilyen információk alapján történik. Ide tartoznak a gazdasági szabályozások, a jogi keretek, a pénzügyi-, piaci-, termék-, (konkurens) cég- és műszaki ínformációk (szabványok, szabadalmak). Az üzleti (business) információ sajátos jellemzője, hogy a megrendelő első sorban nem bibliográfiai, szakirodalmi forrásadatokat, hanem meghatározó mértékben tényadatokat, ún. faktografikus információkat, tanácsadást, vagy esetenként elemzést igényel. További lényeges eltérés, hogy az ilyen típusú szükségletek többnyire egyedi válaszokra tartanak igényt, tehát itt nem lehet tömegszolgáltatást nyújtani. A céginformációhoz jutás piaci előnyt jelent az információt birtokló vállalkozás számára. Példa: Céginformáció lehet: a konkurencia dolgozóinak végzettsége, szaktudása, a gyártott termékek köre, a beszállítói lánc tagjai, az értékesítési lánc tagjai (nagykereskedők). 2.4
ÖSSZEFOGLALÁS
A könyvtáros szakma és a szaktájékoztatás eszközének átalakulása, megváltozása az adatbázisok alkalmazásától az online információ-szolgáltató eszközökig. A online keresés modellje. Az internetes találatok szakmai hitelessége. A találati listák elektronikus és hagyományos kezelése, archiválása. A közeljövő operatív könyvtári munka kiegészülhet a Web2.0-val jelzett technológiához köthető szolgáltatások keresési lehetőségeivel és az üzleti információ szolgáltatásával. 2.5
ÖNELLENŐRZŐ KÉRDÉSEK
Mely korábbi kereskedelmi online adatbázisok veszélyeztettek az internetes korszakban és miért? 2. Mutassa be a könyvtári adatbázisok szerepét az információ elérése szempontjából? 1.
26
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
3. A KERESŐSZOLGÁLTATÁSOKKAL KAPCSOLATOS ALAPISMERETEK 3.1
CÉLKITŰZÉS
A lecke célja, hogy egy kellően általános keretrendszeren belül leírja a hálózati keresés tevékenységét. A keresés általános modelljének felvázolása után olyan kérdésekre próbál meg válaszolni, hogy milyen típusú információkat, milyen információs tartományokban lehet keresni, milyen felhasználói felületeken keresztül, milyen módon, milyen nyelvi rendszerre támaszkodva lehet kielégíteni a különböző típusú információs szükségleteket. A láthatalan web fogalma, valamint keresési lehetőségeinek megismerése. 3.2
TARTALOM
A webes adatelérés története. Keresőrendszer fogalma. Webes keresőszolgáltatások Webes keresőszolgáltatások osztályozása Rejtett web. Az online hálózati keresés közvetített módszertana A keresés önkiszolgálás modellje Napjaink népszerű keresőrendszerei. Keresés a jövőben.
3.3 3.3.1
A TANANYAG KIFEJTÉSE A webes adatelérés története
Az internetes keresés az 1940-es, 1950-es évekre, a digitális számítógépek kezdeti idejére vezethető vissza. Amint a számítógépek kezdtek átvenni olyan irodai háttérmunkákat, mint a leltárnyilvántartás, bérszámfejtés, pénzügyi kalkulációk és tudományos adatkutatás, az intézetek nagy mennyiségű adatot gyűjtöttek, és ebben az adatbázisban, az adatok digitális jellegének megfelelően, vissza lehetett keresni az adatokat. Enter Gerald Saltont, a Harward és a Cornell egyetemeken oktató matematikust, gyakran emlegetik a digitális adatkeresés atyjának is. Saltont nagyon izgatta a digitális információ-visszakeresés; így az 1960-as évek végén kidolgozta a SMART – Saltons Magical Automatic Retriever of Text (Salton Mágikus Automatikus Szöveg-visszakeresője) rendszert, ami az első digitális keresőgépnek tekinthető. Salton több olyan, jelentékeny fejlődést elindító elvet vezetett be, amit ma is elerjedten használnak a keresőprogramok, köztük azt is, hogy a keresési szándékot a kulcsszavak feldolgozásából képzett statisztikai, súlyozás és relevanciaalgoritmusok alapján azonosítják. Az első internetes keresőrendszer szinte az internettel együtt született. Az első internetes kereső megalkotásának Alan Emtage egyetemistát, a McGill University hallgatóját illeti, aki 1990-ben létrehozta az Archie-t, az első internetes kereső alkalmazást. Az Archie az internet-fájlátviteli prorokoll (fájl-transfer protocol, FTP) szabványán alapult, ebben
27
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE hasonlított a legtöbb modern webkeresőhöz: végigpásztázta a forrásokat, indexe táblát épített, és volt keresőfelülete, de az a web előtti korszak nem volt felhasználóbarát. Azután kezdtek megjelenni a webes keresők. 1994-ben három, sokáig ismert kereső jelent meg: WebCrawler, Infoseek, Lycos. Az első és az utolsó érdemel az internetes keresés fejlődése szempontjából kiemelt figyelmet. A WebCrawler mivel elsőként tette lehetővé (indexelte) az interneten tárolt dokumentumok teljes szövegét. A Lycos pedig elsőként vette figyelembe az oldalak relevanciájának meghatározásánál azt, hogy hány hivatkozás mutat egy weboldalra. A Lycos lett egyébként 1999-ben a vilg legnépszerűbb online célhelye. Egy évet (1995) kellett várni az első igazán jó keresőrendszerre, a neve AltaVista, ami abban a korban a mai Google szerepét töltötte be. Hivatkozásról hivatkozásra járta be a keresőmotor a honlapokat, és azok teljes tartalmát kereshetővé tette, mindezt egy felhasználóbarát keresőfelülettel. Ehhez a munkához több ezer crawlert alkalmazott, ami keresőmotor azon része, amelyik összegyűjti a webes adatokat. Akkor a legteljesebb index állt elő 10 millió dokumentummal és több milliárd szóval, de 1995. december 15-én már 16 millió dokumentumot talált meg és indexelt. 1997-re naponta több mint 25 millió kulcsszó érkezett, a világháló egyik legfontosabb célhelyévé vált, és szponzori bevételekből 50 millió dollár bevételt könyvelhetett el. Az akkori internetkatalógus Yahoo! és az AOL mellett az internet legkeresettebb helyévé vált. A Lycos és az Altavista is a cégfelvásárlások és eladások süllyesztőjében fokozatosan elvesztette vezető szerepét. Ebben az időben azonban még sokan nem hittek a keresőrendszerek elterjedésében, leginkább az internetkatalógusok szerepe volt jelentős. Közben 1998-ban elindult két egyetemista fiatal révén a Google keresőrendszer. A Google-t akkor még nem tekintették nagy vetélytársnak. Történetéről még több helyen szólunk, előzetesként annyit: több éve a világ vezető keresőrendszere, innovációi révén szinte megelőzhetetlennek tűnik, ma a keresések három negyede a Google segítségével zajlik a világban. Az 5-10 éves távlatok szerint aligha fogj ezt a szerepét elveszíteni. A tisztesség kedvéért említsük meg a mai vetélytársakat is, akik még versenyben vannak. 2004-ben vált a Yahoo! keresőrendszerré a Yahoo! Search révén, a Microsoft cég keresője az MSN Search 2005-ben indult, majd 2009-ben nevet változtattak, így lett Bing keresőrendszer belőle. Az Ask.com 2006-ban indult, és jelenleg még ezt a keresőt is jelentős számú internetező használja. 3.3.2
Keresőrendszer fogalma
A keresőrendszer fogalmát tisztázzuk elsőként, ami a teljes tananyag címének kulcsfogalma. A keresőrendszer a felhasználó szemszögéből egy online vagy offline szolgáltatás. Az informatika szemszögéből megközelítve a keresőrendszer olyan lokális offline vagy online (általában webes felületű) szoftver, ami képes különböző, de meghatározott típusú adatok találati listáját megjeleníteni a felhasználók számára, akik egy szélesebb nyilvánosságot vagy egy szűk csoportot takarnak. A háttérben az alábbi műveletek lehetnek szükségesek: dokumentumok rendszeres (automatizált) vagy kérésre történő gyűjtése, rendezése és esetleges tárolása, a változások nyomon követése, az adatbázis kivonatolása, illetve a kivonatok megjelenítése (2. kép). 28
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
Keresőrendszer
Nem webes programok keresőrendszerei
Webes keresőrendszer (webes keresőmotor indexelt webes kereső webes kulcsszavas kereső)
webpásztázás
weboldalak, dokumentumok
3. kép
indexelés
index
keresés Találati lista (SERP)
A webes keresőrendszer szerepe, kiemelve az alapvető részeit
A megjelenítendő tartalomhoz keresőszóval jut el a felhasználó. A keresőszó vagy kulcsszó a keresőkérdés alapvető eleme. A keresőkérdést a felhasználó a keresőmezőbe írja be a kereső felhasználói felületén. A keresőkérdés a kereső személy által megadott karakterekből álló, összetett nyelvi kifejezés, amelynek részei: egy vagy több keresőszó, logikai operátorok, egyéb attribútumok. A keresőkérdés és a keresőszó fogalmát gyakran szinoníként használják. A webes keresők mellett a keresőrendszerek legfontosabb példái az adatbázis-kezelő programok keresőrendszerei, melyekkel már az olvasó is találkozhatott. A keresőrendszer egy szolgáltatás, amely fizikai valójában egy program, amit keresőmotornak neveznek. A keresőmotor szerepét, fogalmát a későbbikeben részletezzük, előljáróban leszögezzük: az informatikában a felhasználó szempontjából egy olyan program, ami egy adott rendszerkörnyezetben képes adatot keresni a megadott feltételek alapján. A keresőmotor kifejezést a keresőrendszerek szinonímájaként használják. A webes keresőmotorokról, azok részeiről még több leckében lesz szó. A webtől független keresőrendszerek az első leckében már szerepeltek, amikor a az adatbázisok szerepét emeltük ki. A továbbiakban kizárólag a webes keresőrendszereket tárgyaljuk. 3.3.3
Webes keresőszolgáltatások
A weben fellelhető adatok elérésének kiváltképp időigényes módja a website-ok felületein található hiperhivatkozások (linkek mentén történő) böngészése, azaz a web pásztázása. Az online szolgáltatás említett lehetőségét naponta milliók űzik, az agyunk működéséhez ugyanis ez az elektronikus információtároló rendszer igazodott eddig a legjobban. 29
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az internetes szolgáltatások alatt azon szolgáltatások együttesét értjük, melyek az internet struktúráját használva, az adatátvitel szabványait betartva (TCP/IP) nyilvánosan vagy zártan működnek. Internetes szolgáltatásokra példa: ftp, gopher, e-mail, csevegés (chat), (video)telefonálás, webböngészés stb. Az internetes szolgáltatások körének a legnépszerűbb eleme a webböngészés. A weben fellelhető adatok a legtöbb esetben ma már egy böngészőprogram ablakában kerülnek a felhasználó elé. A webes szolgáltatások alatt azokat a szolgáltatásokat érjük, melyek az internet webböngészés szolgáltatása segítségével vehetők igénybe.
Internetes szolgáltatások Telnet FTP Elektronikus levelezés (e-mail) Online szöveges (csevegés) Online (video)telefonálás … Webes szolgáltatások Tartalomszolgáltatók (online újság, tudástár…) Online áruházak Közösségi oldalak … Webes adatkeresés - keresőszolgáltatások Keresőrendszerek Katalógusok
4. kép
A webes keresőszolgáltatások és az internetes szolgáltatások kapcsolata
A webes szolgáltatások köre meglehetősen nagy, ide tartozik online könyvtárak, online képzések- és iskolák, online áruházak, online közigazgatás, de ide tartoznak a webes keresés, az online sajtó, a blogok, és a közösségi oldalak is. stb. A webes keresőrendszer (keresőmotor, indexelt kereső, szabadszavas kereső, címszavas kereső) a felhasználó keresőkérdése alapján a weben keresztül elérhető adatok dinamikus halmazának egy szűk részhalmazán képes automatikusan keresni, és a találati listát egy algoritmus vagy szempont szerint rendezetten a keresőrendszer felhasználói felületén megjeleníteni. A webes keresőrendszert nevezik a keresőkérdés kialakítása alapján kulcsszavas webes keresőnek, informatikai értelemben a programot tekintve webes keresőmotornak, illetve az adatbázis kialakítása alapján indexelt webes keresőnek (3. kép). Az esetek többségében az idő szűkössége folytán a keresőrendszerekhez fordulunk. A webes keresőrendszerek leg30
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE népszerűbb szolgáltatóit a tananyagunk részletesen tárgyalja. Működnek már ún. kérdésválasz rendszerek, ezeket a Speciális keresőknél még megemlítjük. Léteznek továbbá tezauruszok, amelyek az ügyfeleket egy fogalmi térben barangoltatva segítik az eligazodásban. A webes keresőrendszer mellett érdemes egy másik webes keresőszolgáltatást is bemutatni, ez az ún. tematikus webes keresőszolgáltatás vagy más néven, az adatok prezentálása alapján a webes internetkatalógus. A későbbiekben már csak a webes szolgáltatásokon belüli keresési lehetőségeket fejtjük ki, ezért a „webes jelzőt” az elnevezésekből mellőzzük. Az internetkatalógusok (katalógus, directories, browsing services) hierarchikus osztályozási rendszert alkalmazó keresőszolgáltatások. Adatbázisaik többnyire intellektuálisan feldolgozott HTML-dokumentumok rekordjait tartalmazzák, valamint kapcsolatokat más adatbázisokhoz. A tananyag szempontjából az internetkatalógusoknak annyi a szerepe, hogy éteznek olyan internetkatalógusok is, melyek indexelőszolgáltatásként is működnek. (ilyen például a Startlap), bár a Google keresőrendszert veszi igénybe. Van olyan oldal is ami internetkatalógusként indult, majd keresőrendszer lett belőle (Yahoo!, Altaviszla). 1. Startlap: startlap.hu 2. Google: google.hu 3. Yahoo!: yahoo.com 4. Altavizsla: altavizsla.hu (jelenleg működése bizonytalan) A két keresőszolgáltatásra építve a webes adatok elérése számos más módon megvalósítható, ezeket a tananyagban összefoglaló néven speciális keresőknek nevezzük. Ezen speciális adatelérési lehetőségek felsorolása hosszú listát eredményezne, ezért csak az általunk legfontosabbakra térünk ki két külön leckében, mind közül kiemelve a metakeresőket, egy teljes lecke a metakeresők bemutatását célozza meg. Az újabb lehetőségek, technikák iránt érdeklődők többek között a Startlap tematikus keresőn, az egyes keresőrendszerek saját oldalain lévő tájékoztatók, valamint magyarul a Kereső Világ blogon kaphatnak bővebb tájékoztatást, illetve az online is elérhető Könyvtári információkeresés című könyvből. 5. Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés: http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 6. Startlapon: keresogepek.lap.hu 7. Startlapon: kereso.lap.hu 8. Kereső Világ blogon: kereses.blog.hu 3.3.4
Webes keresőszolgáltatások osztályozása
A webes keresőszolgáltatások több szempontból is érdemes csoportosítani. Elsőként a keresőszolgáltatások hatókör vagy lefedettség szerinti csoportosítását nézzük át: − horizontális 31
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
−
– teljes web – adott nyelv szerinti vertikális – szakterület (például orvosi) – témakör (például csengőhang) Horizontális keresők a weben azokat az általános célú keresőrendszereket, amelyek a weben tárolt összes témakör nyilvános adatából álló halmazon képesek találatokat megjeleníteni. Vertikális keresőknek nevezik a weben azokat a keresőrendszereket, amelyek csak adott területre (például képek, blog) specializált keresőmotorral rendelkeznek.
Példa: A magyar Miner vertikális kereső blogok bejegyzéseiben, videomegosztó oldalak videóiban keres és egyéb tartalmak keresését. 9. Miner vertikális kereső: http://miner.hu A csoportosítást alkalmazzák a honlapokra, de ott nem egészen ebben az értelemben. A félreértéseket elkerülendő érdemes áttekinteni a horizontális és a vertikális portál kifejezéseket. Horizontális portál, angolul Horizontal Enterprise Portal (HEP): általános célú felhasználói portál, mely számos témájú és funkciójú elemet tömörít egyetlen weboldalon (például www.index.hu, www.origo.hu ). Egyes szakértők szerint a következő minimumkövetelményeket szükséges egy horizontális portálnak teljesíteni: hírek, internetes vásárlás, email, chat, időjárás jelentés, sport, térképek). Vertikális portál, angolul Vertical Enterprise Portal (VEP vagy VORTAL): témakör köré csoportosított portálszerű szolgáltatások összessége egyetlen honlapon (például www.eco.hu). A keresőszolgátatásokat alapvetően működési mechanizmusuk szempontjából különítik el. A webes keresőszolgáltatások két legnépszerűbb lehetőségét a tananyagunk részletesen tárgyalja, konkrétan az általános célú, kulcsszavas keresőt (indexelt kereső, keresőmotor), valamint a tematikus keresőszolgáltatás (internet-katalógus). A webes adatok elérése azonban számos más módon megvalósítható, ezeket a tananyagban összefoglaló néven speciális keresésnek nevezzük. − indexelt (keresőrendszerek) – egy keresőmotorhoz tartozó horizontális (pl.: Google) – egy keresőmotorhoz tartozó vertikális (pl.: egy OPAC) – több keresőmotorhoz tartozó (pl.: metakeresők) (az adott keresőmotorok kiválasztók vagy sem) – humán alapú (pl. Iglue) − tematikus (katalógusok) – nyilvános fejlesztésű (pl. Startlap) – szakmai fejlesztésű − speciális vagy sajátos működésű keresők 32
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE – – – – –
vegyes működésűek (keresőrendszerek és katalógusok) nem saját keresőket használó kulcsszavas keresők (metakeresők, portálok keresői) vertikális kulcsszavas keresők, ahol a keresés tárgya speciális (blog, kép, videó stb.) vertikális kulcsszavas keresők, ahol a keresés helye speciális, ugyanis képesek egy speciális objektumon szöveget keresni (kép, videó, hang stb.) nem szöveg alapú keresők, melyeknél a keresés tárgya nem szöveges, de az eredmény tetszőleges, példák: a) fénykép alapján személyeket, azok nevét, adatait, telefonszámát, közösségi hálózati oldalait, blogjait megkeresni b) egy rajzról megmondani, hogy mit ábrázol, ki készítette, ha múzeumban örzik, akkor melyikben pontosan c) hang alapján egy videón megkeresni adott személyt, élőlényt d) videorészlet alapján keresni filmet, konferenciaelőadást stb.
A keresett objektum, azon belül a találati lista (SERP) objektumai szerinti csoportosítás: − szöveg – rekordlista (DBMS: database management system), pl. OPAC – a dokumentum elérésnek találati rekordlistája (SE: search engine) – dokumentumrész vagy dokumentumrész-lista (QAS: question answer system – válasz vagy válaszlisták (QAS), pl. időjárás, statisztikai számítások stb. − állókép vagy képlista (IBR: image based retrieval) – kulcsszó szerint (az állomány nevében vagy a weboldalon) – állóképen lévő objektum szerint (szöveg, személy, épület, jel stb.) − hanganyag vagy hanganyag-lista (SBR: sound based retrieval ) – kulcsszó szerint (az állomány nevében vagy a weboldalon) – hangállományban megadott szövegrészlet (pl. Budapest) – hangállomány részlete alapján (pl. egy lejátszott zeneszám szerzője, címe) − mozgókép – kulcszsó szerint (az állomány nevében vagy a weboldalon) – állóképen megadott objektum szerint (szöveg, személy, épület, jel stb.) – mozgókép részlete alapján (pl. a film rendezője, címe, szereplői) A keresőszolgáltatásokat csoportosíthatjuk a találati lista vizuális megjelenítése szerint: − rangsor szerinti szöveges rekord lista (pl. Google) − kulcsszó szerinti grafikus (pl. Google Varázskerék) − kulcsszó szerinti idősíkban megjelenő rekord lista (pl. Google Timeline) − témakör szerinti szöveges link (pl. Startlap) − lista és katalógus alapú (pl. Yahoo!) − Web 2.0-ás, multimédiás felület (pl. Iglue)
33
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A webes keresőrendszereket számos egyéb szempont szerinti csoportosítják, melyről az adott részeknél esik több-kevesebb szó: találati lista megjelenítésének gyorsasága (keresési idő), adott, de népszerű kulcsszóra kapott válaszok mérete (találati lista száma), adott időszak alatt a szolgáltatást igénybe vevő felhasználók vagy keresések száma (népszerűségi toplisták), hol keres pl. blogban 3.3.5
Rejtett web
Az interneten fellelhető adatok jelentősebb részét a felhasználó nem találja meg, mivel még a kereső szolgáltatások sem képesek a web összes adatát „átlátni”. A rejtett web az általános célú kereső motorok által nem található website-ok halmaza. Az angol elnevezés nem egyértelmű, több fogalmat használnak, így magyarul is több fordítása fogadható el: láthatatlan web (invisible web), rejtett web (hidden web), a web mélye (deep web), a világhálózat mélysége (deep net).
5. kép
A rejtett web bemutatása
Egy konkrét felhasználó számára a kereső szolgáltatások alkalmazásának nem kielégítő ismerete is jelentheti a rejtett adatok bővülését, ugyanis hiába kereshető a kívánt adat, ha nem ért hozzá a felhasználó, de ezen ismerethiány mögötti adatok nem részei a rejtett webnek. A web többi adata a rejtett web ellentéteként a látható vagy a nyitott web elnevezést kapta. A nyitott web természetesen az általános célú keresőmotorok számára megtalálható és indexelhető adatokat jelenti, így a felhasználók számára is elérhetővé válik, ha a keresőmotorok webes felületén megjelenő website-ok tételeit kiválasztja. 3.3.6
Az online hálózati keresés közvetített módszertana
A mágnesszalagos, majd a mágneslemezese adattárak közvetített keresésénél a felhasználó nem vett részt közvetlenül a keresésben. Helyette, nevében a keresést a professzionális kereső szakember végezte el. Az adatbázisok specifikus, bonyolult, elágazó, paranccsal vagy menüvel vezérelt keresőrendszerei indokolták, illetve az, hogy a gépidő és a hálózati kapcsolódás igen drága volt. 34
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A keresőprofil szerkesztése a felhasználó által megadott szempontokat alapján, a megfelelő segédeszközök (tárgyszójegyzékek, tezauruszok stb.), parancsnyelv és kereséstechnikai eszközök (Boole-operátorok, csonkolás stb.) segítségével történt. Ezt a profilt hasonlította össze a gép az adatbázisban levő dokumentumok profiljával. Az online hálózati közegben a keresés folyamata interaktívabb lett, már megszokott keresőprofil helyett keresési stratégiáról beszélhetünk, melyről egy külön leckében szólunk. Az online információkeresés soktényezős folyamata két fő fázisra osztható: előkészítésre és végrehajtásra. − Az előkészítés a felhasználói kérdés tisztázásától a keresőprofil megtervezéséig tart. Az online környezetekben a keresőprofilt helyesebben keresési stratégiának nevezik. − A végrehajtás hosszú, több lépcsős folyamat. Ez az új keresési modell rugalmasabb és hatékonyabb: − A hálózati kapcsolattal bármely szükséges adatbázishoz hozzá lehetett férni. − Visszamenőleges, retrospektív keresésre nyílt lehetőség. − A felhasználói témát leíró keresési stratégiák módosítása könnyebbé vált, a felhasználó a professzionális közvetítővel együtt részt vehetett a „terminálülésen”. − Gyorsabb, interaktív és pontosabb keresést tett lehetővé az adatbázisokban. 3.3.7
A keresés önkiszolgálás modellje
A helyi hálózatba kapcsolt személyi számítógépek, és terminálok révén a felhasználók önkiszolgáló módon, tömegesen férhettek hozzá a központi gépen kezelt helyi adatbázishoz, majd a külső országos adatbázisokhoz. Az adatbázisszolgáltatók fokozatosan egyszerűbbé, felhasználóbaráttá tették a kereső felületeket. Ma már a felhasználók az esetek zömében maguk végzik az adatbázisban való keresést, az otthoni, vagy munkahelyi számítógépről. A web gyorsabb, ablaktechnikát alkalmazó grafikus felülete megjelent a helyi rendszerek keresőfelületein is. A keresőkérdés értelmezése, a teljesség / pontosság előzetes meghatározása, aránya, az adatbázis (ok) és szolgáltató (k) kiválasztása. /ehhez szükséges: az adatbázisok minőségének ismerete, használatuk ismerete, a használat esetleges költségeinek ismerete/. Képesnek kell lennie a keresési stratégia megtervezésére: a teljesség/pontosság előzetesen eldöntött viszonyát tekintve a keresendő fogalomkörök, a keresőszavak meghatározására, az operátorok (Boole, helyzeti) alkalmazására, a csonkolásra stb. 3.3.8
Napjaink népszerű keresőrendszerei
A keresőrendszerek népszerűsége több összetevő függvénye. A legfontosabb a keresőmotor technológiája nyomán gyorsan megjelenő releváns találat, de számít a felhasználói felület kezelhetősége, a kiegészítő szolgáltatások, adott nyelvnél, szakmánál a konkrét nyelvi vagy szakmai közeg kiszolgálása. Kezdetben a találati lista nagysága is fontos volt, de napjainkra ez mellőzött szempont.
35
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A legnépszerűbb négy keresőrendszer 2009-ben a web összes keresésének 98 százalékát bonyolítja le. Jelenleg a Google a legnépszerűbb keresőrendszer, angolszász területen már igeként is használják a webes keresésre. A közösségi szolgáltatásoknak, és nem a találatok relevanciájának köszönhetően kiemelkedő a népszerűsége a Yahoo! és a Bing (MSN Search) kulcsszavas keresőknek. A Google már több éve a legelső, amely a 2009. májusi adatok szerint a keresések 74 százalékát, a második helyezett Yahoo! Search a keresések 15,55 százalékát tudhatja magáénak, harmadik a Bing 5,64 százalékkal, míg negyedik az Ask 3,81 százalékkal. A harmadik helyen álló Bing a Microsoft cég keresőrendszere, a márkanévváltás előtt MSN Live Search néven vált ismertté. Érdemes azonban kiemelni, hogy a Yahoo! és a Bing (MSN Search) kulcsszavas keresők a közösségi szolgáltatások miatt népszerűek, és nem a találatok relevanciájának köszönhetően, ami azt prognosztizálja, hogy a Google népszerűsége évről évre növekszik a riválisaival szemben. A népszerű keresők mellett érdemes megemlíteni a legnépszerűbb oldalak keresőit. Ezek olykor meglepőek, ugyanakkor sok esetben tanulságosak is, hiszen nagyon sokat lehet tanulni azok meglátogatásából. A népszerű weboldalakról többek között az Alexa és a MiniRank oldalain tájékozódhatunk, az utóbbi országonként jelenít meg a weboldalak teljes népszerűségi listáját, sőt akár egy konkrét site-ra rá is kereshetünk. 10. A MiniRank Magyarországi listája: http://www.minirank.com/tld/hu/0 11. Az Alexa listája a világ honlapjait tekintve: http://www.alexa.com/topsites 3.3.9
Keresés a jövőben
A keresési igények könyvtárosi szemszögből nézve is folyamatosan változnak. A tárgy, téma szerinti keresés jelentősége egyre növekszik. A mélyebb tárgyi feltárás iránti igény egyszerűen megoldható lehetne, ha a bibliográfiai rekordot kibővítenék, szabványosítanák. A digitális források számának örvendetes növekedése magával hozza azok integrálásának, és keresési integrálásának igényét. A keresőrendszerek használatának kényelmével általában összefüggő igények egyre erősebbek. 3.4
ÖSSZEFOGLALÁS
A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása, tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tematikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén kiemelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a könyvtári menedzsment szemszögéből. 3.5
ÖNELLENŐRZŐ KÉRDÉSEK
Mutassa be a keresés önkiszolgálás modelljét! 2. Jellemezze a népszerű keresőrendszreket! 1.
36
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
4. KERESŐROBOTOK 4.1
CÉLKITŰZÉS
A keresőrobotok mechanizmusának megértése a hatékonyabb keresőkérdés összeállítása érdekében.A PageRank vázlatos bemutatása, szerepének megértése a webes keresésnél. A keresőoptimalizálás attitüdjeinek elsajátítása. 4.2
TARTALOM
A keresőrobotok története A keresőrobotok fogalma A keresőrobotok működése Miért a Google a vezető indexelt kereső? Page Rank – a hivatkozási index A PageRank algoritmusa és kiszámítása A keresőoptimalizálás Vertikális magyar indexelt keresők
4.3 4.3.1
A TANANYAG KIFEJTÉSE A keresőrobotok története
A webes keresőmotorok története igen rövid időszakra, csupán 1993-ra nyúlik vissza, amikor elkészült az első keresőmotor Wandex néven, de ez ma már nem használható. Még ugyanebben az évben készült el az Aliweb, a nevét az Archie Like Indexing for the Web (Archie, mint a web indexe) kifejezésből kapta, napjainkban még elérhető (www.aliweb.com). Egy évvel később jelent meg a Lycos kereső (www.lycos.com), ami már üzleti vállalkozásként működött. A későbbiekben több keresőmotor jelent meg (WebCrawler, Hotbot, Excite, Infoseek, AltaVista...) mind ekkortájt születtek. A következő nagy lépés 1996-ban történt. Larry Page és Sergey Brin elindította a Google-t (google.hu), a Stanford Egyetem két diákjaként. A siker ekkor még távolinak látszott, de egyre népszerűbb lett, és 2001-re a világ legismertebb és leggyakrabban használt keresőmotorjává vált, üzleti vállalkozásként pedig a világ egyik legsikeresebb befektetéseként tartották számon. A Google más módon rangsorolta és jelenítette meg a találati listát, mint a társai, ami valószínűleg a siker alapja. 2002-ben a Yahoo! (www.yahoo.com) megvásárolta az Inktomit, egy évre rá az AlltheWebet és az AltaVistát, majd 2004-ben megindította saját keresőszolgáltatását. A keresés technológiáját tekintve megjelentek újabb keresők is, de nem váltak még széles körben elfogadottá. A 2000-ben megjelent Teoma keresőmotor a tárgyspecifikus hivatkozási népszerűséget (ExpertRank technológia) használja, amit az Ask Jeeves (www.ask.com) keresőszolgáltatás használ. Ez a technológia eltér a Google PageRank technológiájától. A klaszterezés a másik újabb technológia, amit a többek között a Clusty (clusty.com) és a magyar fejlesztésű Polymeta (www.polymeta.hu) metakeresőrendszerek is használnak. 37
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 4.3.2
A keresőrobotok fogalma
A weben a keresőszolgáltatások, így a katalógusok egy része használ keresőmotort, de napjainkban a keresőmotor kifejezést leginkább csak weben történő kulcsszavas keresés, azaz a keresőrendszerek szinonímájaként használják. Léteznek azonban más keresőmotorok is, például az intraneten kereső vállalati keresőmotorok, a személyi számítógép állományai között kereső személyi keresőmotorok. A keresőmotor egy olyan program, amely bizonyos feltételeknek (keresőkérdés) megfelelő információkat keres valamilyen számítógépes környezetben. A keresési feltételek egyediek lehetnek, de a keresőmotorok többségénél a keresőkérdés kulcszsóra épül. A többnyelvű keresések miatt megadjuk a keresőmotor néhány ismert nevét: search engines, web crawler (angol), Suchmaschienen (német). A keresőmotorokkal kapcsolatban nagyon sok szakmai kifejezés olvasható a cikkekben és a könyvekben. Elsőként a fogalmak kapcsolatát tekintjük át. A weben számos keresési lehetőség áll rendelkezésre, azonban a találatok szempontjából az egyik legjelentősebb szolgáltatás a kulcsszavas, vagy más néven szabadszavas kereső. A webes kulcsszavas keresőszolgáltatás keresőmotorra épül, ami a link-alapú pásztázással eléri a weben a tárolt tartalmakat, és indexeli azokat. Nem véletlenül szerepel a kulcsszavas kereső szinonimájaként sokszor a keresőmotor, illetve az indexelt kereső elnevezés. A keresőmortor egy hatalmas gráfnak tekinti a webet, az weben fellelhető dokumentumok jelentik a gráf csomópontjait, míg a linkekkel megvalósított kapcsolatok a gráf éleit. Ugyanakkor a keresőmotor és a kulcsszavas kereső fogalma nem köthető kizárólag a webes kereséshez, hiszen már az internet létezése előtti időktől a programok is rendelkeznek hasonló lehetőséggel. Az indexelt keresés sem csupán az internet sajátossága, hanem egy alapvető eljárás az adatbázis-kezelésnél, ami a rögzített adatok gyorsabb visszakeresését teszi lehetővé. Ezen túl még használják a keresőrendszer kifejezést is, aminek egy részét fedi le a webes keresés. Napjainkra azonban a webes keresés, mint általános tevékenység jelenik meg, így leginkább kizárólag a web leggyakrabban használt, a fentiekben taglalt szolgáltatására használják a keresőmotor, a keresőgép, a kulcsszavas kereső, címszavas kereső és az indexelt kereső kifejezéseket. Ebben a leckében is szinonimaként szerepelnek. A keresőkérdés meghatározása gyakran egy szó, kifejezés megadását jelenti, de kiegészülhet a keresőmotor által értelmezhető operátorokkal (pl. logikai operátorok), valamint egyéb jelekkel, attribútumokkal is. Általában kulcsszavas (címszavas) keresés történik, vagyis a rendszer a weben a bekért kulcsszó ismeretében megjeleníti az általa rögzített rekordokat, vagy más környezetben esetleg mezőket, aggregát mezőket. SERP (Search Engine Results Page): a kereső motorok organikus (rendezett, összefüggő) találati oldala, ami találati rekordokat tartalmaz. A rekordok azon tartalmi egységek, amelyek a keresőrendszer szerint kapcsolódnak a kulcsszóhoz, a rekordok halmaza tulajdonképpen a találati lista. A keresőmotorok ezért kapták a kulcsszavas vagy címszavas kereső nevet is. 38
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Találati rekord: azon honlap adatainak tömör megjelenítése, amelyeket a keresőmotor a felhasználó egy adott keresőkérdése után megtalált. A találati rekordok alkotják a találati listát vagy röviden SERP-et. 4.3.3
A keresőrobotok működése
A teljes keresőszolgáltatás működése összetett tevékenység, hozzátartozik a weben található adatok állandó és automatikus gyűjtése, rendszerezése, prezentálása a felhasználók kérésére, és azok automatikus aktualizálása. Az utóbbira azért van szükség, mivel a weboldalak tartalma és weben fellelhető dokumentumok az idő tényezőt tekintve nem állandóak. Az előbbiek alapján a webes keresőmotorok működése három lényeges részből áll össze: 1. webpásztázás, 2. indexelés és 3. keresés. A webpásztázás (első rész) során összegyűjti az adatokat a weboldalak tartalmáról vagy a weben található állományokról. Ez valójában egy automatizált böngészés, hiszen a weboldalakon található linkeket követve halad az oldalak között, és letölti a tartalmukat. A wbepásztázó rész további feladatai: a már nem létező (halott), illetve a linket nem tartalmazó (zsákutcás) dokumentumra mutató kapcsolatok feltárása, a tükrözések (site(rész) másolatok) felismerése, a szerveren alkalmazott relatív címek átírása abszolút címekké. A webpásztázást az angol kifejezés alapján robot, webrobot, spider (pók), webspider, crawler, web crawler néven is emlegetik, sőt sokszor helytelenül a keresőmotor egészét, a teljes tevékenységét értik alatta. webes keresőrendszer
keresőmotor - (web)robot - (web)spider (pók) - (web)crawler
1. webpásztázás index
indexelt kereső
2. indexelés
kulcsszavas kereső
3. keresés Találati lista (SERP)
6. kép
automatikus (program végzi)
felhasználói kérésre
A webes keresőmotor működésének vázlata 39
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az indexelésnél (második rész) elemzi, rendszerezi a begyűjtött oldalakat tartalmát (szöveg szavai, állókép, videó) beleértve a metaadatokat, újabb metaadatokat társít hozzájuk, végül indextáblát készít, ami egy formális relevancia-ellenőrzést is jelent, így a keresési kritériumok ismeretében gyorsan elkészíthető a hatékony találati lista. A gyorsaság az indexelés miatt, míg a hatékonyság a relevancia-ellenőrzésnek köszönhetően domborodik ki. Az indexelés elképzelhető egy speciális tárgymutatóként, hiszen a gyűjtés után az adatokat visszakereshetővé kell tenni. Az index készítése nem más, mint a dokumentum lexikális elemzése után előállt szavak táblázatai a dokumentumbeli elérhetőségükkel, esetleg egyéb attribútumokkal, kiemelve ezzel a webes dokuementum jellegzetes, fontos kifejezéseit. Az indexelésnél az ún. tiltott szavakat (stop words) figyelmen kívül hagyja, meggátolva ezzel a csaknem minden dokumentumban megtalálható szavak (kötőszavak, névelők stb.) indexelését. A tiltott szavaknak tehát nincs szerepe a találatok kialakításánál, ráadásul még nyelvenként sem teljesen egységesek. Példa: magyar nyelven tiltott szavak lehetnek egy keresőrendszerben: egy, az, a, is, ne... angol nyelven tiltott szavak lehetnek egy keresőrendszerben: the, to, be, and, or... német nyelven tiltott szavak lehetnek egy keresőrendszerben: der, die, das, und... A keresés (harmadik rész) természetesen a felhasználó vagy más program kérésére történik. A keresőmotor ezen részét angolul runtime systemnek is nevezik. Ekkor az indexlistából kikeresi a felhasználó által beírt, vagy más programtól kapott kulcsszóhoz vagy keresőkifejezéshez tartozó website-ok rekordjait, amiket a hozzájuk társított metainformációk alapján állít sorrendbe, amit a jellemzően jelentős számú találati lista megjelenítése zár le. A találati lista (SERP) első néhány rekordja látható a felhasználó számára. Relevancia A keresőszolgáltatást nyújtó weboldalak üzemeltetői számára lehetetlen cél a látható web akár egy jelentős részének a felhasználó számára hasznos, tartalmi szempontból teljes bemutatása, ezért a keresőmotorok nem a találatok mennyiségében, hanem a relevanciájában, azaz informatikai oldlaról a keresőmotorok működésében képesek jobbat nyújtani a másiknál. A szolgáltatásonként eltérő technológia teszi lehetővé, hogy egy keresőszolgáltatás hatékonyabb legyen a másiknál, bár a relevancia a találati listák esetén igen szubjektív. A relevancia kialakítása több úton is megvalósítható: − mikroszint módszer: az egyén explicit módon kinyilvánítja saját preferenciáit, de ez az adatok hatalmas mennyiségére, és a kereső személyek jelentős száma miatt nem alkalmazható a keresőrendszereknél − automatizált rendszerfüggő módszer: a keresőrendszertől függő elemzési szempontok alakalmazása, ez társítható a mai (2010) keresőrendszerek többségéhez, a következőkben erről részletesebben is szólunk. − mezoszint módszer: a közösségek tagjainak hálózati tevékenységében megnyilvánuló erős vélemények kivetítése a közösségre. A módszer egyfelől a közösség tagjai által a weboldalakba beleírt utalásokra, a linkekre, másfelől a közösségi tagjok cselekvéseinek elemzésére épül.
40
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE −
implicit profilhozzárendelés módszere: napjainkban (2010) még nem automatizálható teljesen, az automatizáltság erősebb szintjeit elérve vélhetően a jövő keresőrendszereinek része lesz. Alapelemei: humán osztályozás, gépi klaszterezés, adatbányászat. Az egyénhez közreműködése nélkül próbálnak preferenciaítéleteket kapcsolni. A relevanciát befolyásoló automotizált, rendszerfüggő módszernél három jelentős technikát emelhetünk ki: 1. Kleinberg-féle HITS-modell: a hiperlinkeken alapuló téma szerinti keresés (Hyperlink-Induced Topic Search) egy kapcsolatrendszerből (például weboldalak közötti linkekből) nyer ki információt az egyes csomópontok fontosságáról. Az algoritmust 1998-ban publikálta Jon Kleinberg, eszerint a keresett téma szempontjából a mértékadó (authoritative) és központi (HUB) oldalakhoz két számot rendelünk. A mértékadó oldal lehet például egy szaktekintély weboldala, a központi oldal lehet például hírportál. Az oldalak kapcsolatának feltérképezési folyamata rekurzív: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mértékadó oldalak pedig azok, amikre sok központi oldal mutat. A közösségen belülre vagy azon kívülre mutató linkek elemzésével lehet megállapítani az önszerveződő, egymásra hivatkozó közösségek határait. Eredményként pontos és releváns találatok várhatók, de minden kérdésnél újra kell számolni, így nem hatékony. 2. oldalra mutató hivatkozások számán alapú algoritmus, ami a Google sikerét hozta, és saját nevet is kapott PageRank. Ezt részletesen tárgyaljuk ebben a leckében. 3. klickstream alapú relevanciakivonatolás. A felhasználók kattintásainak sorozatára (clickstream) alapozott adatok elemzésével a felhasználók szokásai, valódi viselkedése tárható fel, ami a következő keresés találati listájánál már felhasználható. Egy primitív módja, ha a felhasználó értékeli a találatot, hogy releváns volt számára vagy sem. A keresőrendszereknél az elemzés makroszintű, azaz a globális hálózati társadalom szintjén történik, tehát igen sok felhasználó viselkédése alapján keletkeznek az új, a találati listát befolyásoló információk. Ez nem önálló keresési módszer, többnyire kiegészítésként alkalmazzák a keresőrendszerek. 4.3.4
Miért a Google a vezető indexelt kereső?
A Google több év óta a legnépszerűbb keresőrendszer, több százmillió keresési kérés érkezik hozzá és társlapjaihoz naponta. Az okokat nem is kell olyan sokáig keresnünk. A rendszer legfontosabb eleme az a gyors, szünet nékül hibátlanul működő, az innováció révén egyre relevánsabb találati listát szolgáltató keresőmotor, amelynek köszönhetően a Google találati listájának első néhány rekordja – a Google osztályozási módszere révén – nagyon gyakran tükrözi a kereső személy elvárásait. Az ún. PageRank osztályozási módszer teljes működési mechanizmusát a cég éppen ezért titokban tartja, ugyanakkor a módszert jogilag védetté tették. A siker másik oka talán az oldal hirdetések nélküli, puritán megjelenésének köszönhető, ami a felhasználók többségének igen vonzó. A Larry Page és Sergey Brin alapította cégre egészen szokatlan, a munkatársak ötleteit tiszteletben tartó munkamódszer jellemző, ami annak köszönhető, hogy egyetemi hallgatóként alapítták a céget. A Google munkahelyein a munkatársak részére különféle termeket rendeztek be, hogy munka közben kikapcsolódhassanak (játéktermek, relaxációs termek 41
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE stb.). A belső fejlesztők minden ötletét megvizsgálják, és vannak olyan napok, amikor csak az új ötleteken kell fáradozniuk. Ezek után nem véletlen, hogy a Stanford Egyetemen végzett két diák olyan cég tulajdonosa, ahol az újítások naponta jelennek meg. Ma már része a Google-nek például a képkeresés, a videokeresés, a fórumtémák keresése, a beépített számológép, a beépített mértékegység váltó, az árucikkek keresése, a földrajzi hely keresése stb. A weblapok tartalmában végzett kereséseken túl lehetőség van azok fordítására, vagy a már nem létező eredeti tartalom megtekintésére a Google tárolt adataiból. A népszerűséget az bizonyítja legjobban, hogy 2003-ban a „google” szóból egy új angol szó keletkezett, a „to google” ige jelentése: keresni az interneten (a Google segítségével). Ezzel egyébként azóta is csak a Google büszkélkedhet. 4.3.5
PageRank algoritmus
A page ranking (e.: pédzs renking) tömören egy olyan algoritmus, amely hiperlinkekkel összekötött dokumentumokhoz számokat rendel azoknak a hiperlink-hálózatban betöltött szerepe alapján a webes keresőrendszereknél. Jelentése magyarul: oldalak rangsorolása. A PageRank a Google internetes keresőmotor alapja, amit a Google alapítói, Larry Page és Sergey Brin fejlesztettek ki 1998-ban a Stanford Egyetemen. A PageRank egy ún. rekurzív algoritmus, de magát a weboldalhoz rendelt számot is PageRanknek nevezik. A PageRank 2001 szeptemberétől a Google bejegyzett védjegye. A PageRank segítségével a Google – szemben az akkori vetélytársaival, amelyek az oldalak sorrendezését kizárólag azok tartalma alapján határozták meg – elemezni tudja a különböző oldalak közötti kapcsolatokat, és ennek segítségével sokkal relevánsabb találatokat tud visszaadni, mint más keresők. A PageRank algoritmus és index. A Google alapítóinak elgondolása szerint a weboldalak készítői a saját lapjukon elhelyezett linkekkel általában a számukra értékes weboldalakra mutatnak, ezáltal az összes hiperlink felfogható egy szavazatként a céloldalra. Minél több szavazatot kap egy oldal, annál fontosabb, de azt is figyelembe kell venni, hogy a szavazatot leadó oldal mennyire fontos. Az algoritmus által előállt valós szám a weboldal PageRank indexe. A definíció rekurzív: az a fontos oldal, amire fontos oldalak mutatnak. Egy adott site PageRank-je havonta változik, mert ennyi időnként a Google újra indexeli az internetes oldalakat. A fenti alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegyezik a kapott szavazatok számával, ami sok esetben nem egész szám. A PageRank képletét később közöljük. A PageRanket az alkotók szinkronizált PageRank nevezték, különlegessége tehát abban áll, hogy képes figyelembe venni mind az adott honlapra mutató hivatkozások számát, mind a hivatkozások forrásoldalára vezető hivatkozások számát. Ez a tudományos cikkek, közlemények idézeteinek előfordulását számláló algoritmus fordítottja volt, de az ötlet működött.
42
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A PageRank egy demokratikus, nehezen manipulálható rendszer, de a technológiának vannak hibái, amit egyesek üzleti célból megpróbálnak kiaknázni, hiszen minden linket működőnek fogad el. A manipulálás egyik kedvelt módszere a tetszőleges felhasználó által szerkeszthető oldalakon (vendégkönyvekben, blogokban vagy wikikben) való spam (comment spam) elhelyezése, ami jelentősen megnövelheti egy weboldal mutatóját. Néhány ilyen link elenyésző mértékben növeli meg a kívánt weboldal PageRankjét, de nagy menynyiségben alkalmazva már jelentős növekedést lehet elérni. A Google emiatt a közelmúltban egy új HTML attribútumot (rel="nofollow") javasolt a weboldalak forrásszövegébe, ezzel kiszűrve a „comment spam” beírásokat. A másik jellemző módszer a linkfarmok használata. A linkfarmok olyan weboldalak, ahol nagyszámú „szolga” oldal van, amelyek egyetlen haszna az, hogy a kezdetben kapott szavazatukat átadják a főoldalnak. A Google a PageRank érték 0-ra csökkentésével sújtja azokat a linkfarmokat, amikről tudomást szerez. Vélhetően számos más módosítást is alkalmaz a Google, de ezeket jelentős részét vélhetően eltitkolja. A Google szemszögéből kivédhetetlen probléma, hogy a magas mutatójú címek értékesek lettek, és ezek eladása folyamatosan zajlik. A technológia igazán nagy vesztesei az új weboldalak, hiszen rájuk biztosan nem mutat egyetlen link sem. 4.3.6
A PageRank képlete
A hibás szavazásos képlet Az alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegyezik a kapott szavazatok számával, ami általában nem egész szám. Az eljárás működőképessége miatt bevezetett d csillapító tényező (damping factor) szerepe: az oldalak a szavazatukból csak d részt osztanak tovább, (1-d)-t pedig megtartanak. A mástól kapott szavazatokat teljesen továbbosztják. Így a PageRankre a következő képlet adódik (7. kép).
7. kép
A PageRank képelete
A 7-es képen szereplő jelölések: − PageRank(i): az i. weboldal PageRank indexe − M(i) az i. oldalra mutató linket tartalmazó weboldalak halmaza − L(j) pedig a j. oldalról kimenő linkek száma. − d a csillapító tényező Normális esetben (a lógó linkek kizárása után), ha a vizsgált hálózat N oldalból áll, akkor az egyes oldalak PageRankjeinek összege N lesz. Így a PageRank szavazás helyett úgy is elképzelhető, mint a kezdetben a weblapok között egyenletesen elosztott fontosság átcsoportosítása. 43
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Sztochasztikus szörföző A PageRanket úgy is felfoghatjuk, mint annak a valószínűségét, hogy odatalálunk az oldalra. A valószínűséget a sztochasztikus szörfözővel modellezzük, aki a weben bolyong, és minden lépésben véletlenszerűen, egyenletes eloszlás szerint kiválaszt egyet az oldalon található linkek közül, és azon halad tovább. (Más szóval véletlen bolyongást végez a hiperlinkek alkotta irányított gráfon.) Hogy ne essen csapdába valamelyik olyan részgráfban, amiből nem vezet kifelé link, a modellt kiegészítjük egy további elemmel: a szörföző minden lépésben 1-d valószínűséggel elunja magát, és egy (egyenletes eloszlás szerint) véletlenszerűen választott weblapra ugrik.
8. kép
Az oldalakon tartózkodás esélyének számai
Így, ha az n.-ik lépésben az egyes oldalakon tartózkodás esélyét a 7. képen látható számok adják meg, akkor a következő lépés utáni valószínűségeket a 19-es képen látható képlettel kapjuk.
9. kép
A PageRank sztochsztikus képlete (valószínűségek alapján)
Az egyes lépésekben felvett pozíciók mint valószínűségi változók sorozata egy irreducibilis és aperiodikus Markov-láncot alkot, tehát létezik határeloszlása. (Ehhez szükséges a csillapító tényező: ha a gráf nem lenne erősen összefüggő – márpedig egy véletlen gráf 1 valószínűséggel nem az –, akkor a lánc reducibilis lenne.) Az oldal PageRankjét a határeloszlásban hozzá tartozó valószínűségként definiáljuk. Ez a következő rekurzív képletet adja a PageRankre:
10. kép
A PageRank rekurzív képlete
Ez nem azonos a szavazásos képlettel: az 1-d tényező itt le van osztva az összes oldal számával, tehát az így definiált PageRank az előzőnek éppen N-edrésze. Brin és Page eredetileg a sztochasztikus szörföző modelljéből vezette le a PageRank képletét, de eltévesztették a képletet, és az N nélküli változatot publikálták. Bár a későbbi cikkekben kijavították, mégis a „hibás” változat terjedt el, mert a gyakorlatban könnyebben számítható: N-t nehéz meghatározni, mert a kereső a folyamatosan változó világhálónak egyszerre mindig csak egy kis részét látja.
44
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A sztochasztikus szörföző modellel definiált PageRank tehát egy valószínűségi eloszlás lesz: egy oldal PageRankje annak a valószínűsége, hogy nagyon sok véletlenszerű kattintás (és ugrás) után éppen arra az oldalra érkezünk. (A PageRank reciproka az oldal várható visszatérési ideje, azaz annak a várható értéke, hogy az oldalról elindulva hány lépés múlva érünk vissza oda.) Lógó linkek A Google a html típusú dokumentumokon kívül más fájlformátumokat is indexel, ezek többsége nem tartalmaz linkeket. Ezen túl a Google a web feldolgozását valós időben végzi, így a letöltetlen vagy feldolgozatlan weboldalakat üresnek látja. A lógó link (dangling link) egy zsákutcára mutató hivatkozás. A zsákutca egy olyan weboldal, amelyen nem szerepel link. Ezek a linkek gondot okoznak a PageRank számításakor, mert ha a zsákutcáknak is adunk PageRanket, akkor a rendszerben levő összes szavazat kevesebb lesz az oldalak számánál. A Google a PageRank-számítás idejére átmenetileg kitörli ezeket a linkeket. PageRank a GoogleBarban A GoogleBar által használt, 10-es skálájú értékelést gyakran összekeverik a PageRankkel. A GoogleBar által mutatott érték jelentése valójában nem ismeretes – sokak szerint a PageRanknek a 0–10 intervallumra logaritmikusan átskálázott és kerekített értékét mutatja. (Ugyanez érvényes a Google Directory által mutatott értékekre is, csak ott 0–7-ig van a skála.) A GoogleBar néha olyan oldalakra is ad eredményt, amik nem szerepelnek a Google indexében. Az ilyen eredmények valószínűleg a közeli oldalak PageRankjeire alapozott találgatások. 4.3.7
A keresőoptimalizálás
A website lehet non-profit vagy üzleti jellegű, a legfontosabb cél ugyanaz, hogy arra minél többen rátaláljanak. A statisztikák szerint a legtöbb weblapot a keresőoldalakon keresztül találják meg, ezért lehet fontos a keresőoptimalizálás, ami a keresőmarketing része. A keresőoptimalizálás (Search Engine Optimization, SEO) az a tevékenység, melynek célja, hogy egy weboldalt a webes kulcsszavas keresők megtaláljanak, és a találati listában a lehető legkedvezőbb helyre sorolják. Informatikai megközelítésben ez a tevékenység a weboldalak szövegének változtatását, többnyire a metaadatok módosítását, illetve hozzáadását jelenti, hogy a kulcsszavak elhelyezésével a találati listán feljebb kerüljön az oldal. Ez a fajta megjelenés ráadásul a legolcsóbb és egyik leghatékonyabb fajtája az oldalak népszerűsítésének. Az is általánosan elismert tény, hogy a keresés eredményei közül az első 10-20 találatnál, vagyis a találati lista néhány első oldalnál többet ritkán néznek meg a felhasználók. A webes keresők adatbázisába ezért nem elég csak bekerülni, ugyanilyen fontos a számunkra lényeges kulcsszavakra rákeresve a találati listában az előkelő helyezés. A kereső optimalizálás egyik szakmai ága az ún. kiemelt keresők optimalizálása, ezek között a Google Optimalizálás az egyik piacvezető irányzat. A Google Optimalizálás azért az egyik közkedvelt szakterület, mert a Google piacvezető szerepéből adódóan a felhaszná45
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE lók jelentős számban használják és üzleti érték, hogy hol található a weboldalunk a Google-ben. Az oldal látogatottságának növelésénél elsősorban arra a Google találatai közötti helyezést érdemes figyelni, amit jelentősen befolyásol, hogy hány és milyen látogatottságú weboldalról oldalról mutat a honlapunkra link. 12. Optimalizálási tippek: http://hungarianseo.com/ 4.4
ÖSSZEFOGLALÁS
A keresőrobotok fogalma, szerepe, működése. A hivatkozási index (page ranking) jelentőségének vázolása a szolgáltató, a felhasználó és a könyvtárak honlapjainak keresése szempontjából. Keresőoptimalizálás. A láthatatlan web fogalma, keresési lehetőségeinek megismerése. 4.5 1. 2.
46
ÖNELLENŐRZŐ KÉRDÉSEK Mutassa be a keresőroborokat! Értelmezze a PageRank algoritmust! Vázolja jelentőségét!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
5. A KULCSSZAVAS KERESÉS TECHNIKÁI 5.1
CÉLKITŰZÉS
A kulcsszavas keresés technikájának megismerése. A keresés hátterének elsajátítása a matematikai logika szemszögéből. Összetett keresések készítése, kifejezések keresése, kulcsszavak összekapcsolása. A kulcsszavas keresők vezető szerepének, korlátainak megértése. 5.2
TARTALOM
Az online keresés jelentősége Szabadszavas keresés Keresés az OPAC rendszerekben Online keresés lépései Az 1. lépés: a keresőkérdés értelmezése A 2. lépés: a keresőfelület kiválasztása A 3. lépés: A keresőkérdés összeállítása A 4-5. lépés: Stratégia és válasz Keresés és szimbólikus logika Online keresési stratégiák
5.3 5.3.1
A TANANYAG KIFEJTÉSE Az online keresés jelentősége
Információt kereshetünk kulcsszavak (szabadszavak) alapján. A kulcsszavas keresők technológiának lényege, hogy lehetővé teszi az indexelt információhalmazban (Például weboldalak, képek stb.) a kulcsszavak, kereső-kifejezések alapján történő keresést. A szabadszavas keresők a Céltudatosan kereső felhasználók által messze leggyakrabban használt keresési formát jelentik. A szabadszavas keresők minőségét elsősorban a kereső adatbázisok mérete, az adatbázisok frissessége és a találati rangsor rangsorolásának minősége határozza meg. Emellett olyan szolgáltatásokkal is segíthetik a keresést, mint a klaszterezés. Az internetes keresés másik gyakori formája a tematikus katalógusok segítségével történő keresés. Nemzetközi szabadszavas kereső programok. Manapság már csak pár cég rendelkezik annyi erőforrással, hogy a rengeteg weboldalon található tartalomról kielégítő méretű és rendszeresen aktualizált adatbázist tarthasson fel. Becslések szerint a Google Inc. több százezer személyi számítógépet használ. Nemzetközi viszonylatban fontos keresőknek tartják a Google kereső, Yahoo! kereső, a Microsoft Bing keresője (régen MSN), Ask.com szabadszavas keresőit. Említésre méltó még a Youtube videokereső, amelyet a Google felvásárolt, illetve az Amazon.com könyvkereső rendszer, ami egyben online könyvesbolt is. Pár éve még szerepe volt a Gigablast vagy a Wisenut keresőnek is.
47
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 5.3.2
Kulcsszavas keresés
A kulcsszavas keresőrendszerek automatikusan (emberi beavatkozás nélkül) osztályozzák a weboldalakat, felkeresik a számukra előírt weboldalakat, majd azok adataiból, objektumaiból, esetleg a teljes szövegük alapján saját maguk készítenek egy adatbázist. Keresés az OPAC rendszerekben A keresési szokások, készségek alapvetően meghatározzák a keresés idejét. Az OPAC hatékony használatához a szükséges technikai készségek mellett fontos az előbb felsorolt lehetőségek ismerete. A kereséssel összefüggő követelmények, a teljesség és pontosság fogalmát, és összefüggéseit, a keresőkérdés, keresési stratégia összefüggéseit, az alkalmazható IKNY-ket, a keresés két fő fázisának – az előkészítésnek és végrehajtásnak az elemeit, teendőit, az igénybevehető kereséstechnikai eszközöket. 5.3.3
Online keresés lépései
Először a keresési folyamat lépésekre bontását kell megismernünk, utána tudunk a stratégiáról beszélni. A folyamat ott kezdődik, hogy elkezdünk érdeklődni téma iránt, választ szeretnénk kapni egy konkrét kérdése mi magunk, vagy egy olvasó, aki tőlünk, könyvtárosoktól várja a segítséget. A lépések röviden: − első lépés: a keresőkérdés értelmezése − második lépés: a keresőfelület kiválasztása − harmadik lépés: a keresőkérdés összeállítása − negyedik lépés: a keresési stratégiája − a stratégia és a keresőkérdés ciklikus módosítása (bővítés, csonkolás, kizárás stb.) − ötödik lépés: a válasz összeállítása 5.3.4
Az 1. lépés: a keresőkérdés értelmezése
Első lépés a keresőkérdés értelmezése, pontosítása. Minél szisztematikusabban közelítünk meg egy kérdést, annál nagyobb esélye van a sikeres találatoknak, ezért tisztázni kell milyen eredményt várunk a kereséstől: − bibliográfiát szeretnénk a témából (például a csecsemőgondozással kapcsolatban milyen műveket érdemes beszerezni), − a témához kapcsolódó cikkeket szeretnénk visszakapni (például a könyvtárunkról megjelent cikkek), − vagy pedig konkrét adatokat várunk (pl. hogy változott az euro árfolyama az elmúlt egy évben?) Ha más számára végezzük a keresést, akkor nagyon fontos további részletek pontosítása: Vannak-e korlátozások: − adott időintervallum érdekli-e? − milyen nyelvű anyagok lehetnek a találatok között? − mit keresünk (a keresés tárgya): pl: szabadszavas metaadat kereső: http://www.terport.hu/main.php?folderID=3108 48
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Magyar nyelvű keresés esetén nem használható több kereső, például az Ask.com illetve más angolszász környezetben népszerű említett feltörekvő kereső (Gigablast,Wisenut), mivel se magyar nyelvű keresőfelületük nincs, se magyar nyelvre nem lehet leszűkíteni a keresést. A Google kereső és a Bing Kereső saját oldalain nyújtja mindezt, de a magyar keresőrendszer (pl. ok.hu) jó választás lehet, ha magyar nyelven keresünk. A saját fejlesztésű a magyar nyelvet figyelembe vevő keresést megvalósító oldalak közül a két legrégebben működő szolgáltatás közül az egyik, a goliat.hu használhatatlanná vált; míg a másik oldal, a heureka.hu használhatóságát is lekörözi sok újabb fejlesztésű rendszer, mint pl. a tango.hu, vagy a kurzor.hu, melyek jobb találatokat és érdekesebb szolgáltatásokat nyújtanak. Sajnos azonban egyik magyar fejlesztésű oldal sem közelíti meg a fontos keresők használhatóságát, kivéve talán a 2005 végén indult új keresőt, a tango.hu-t. 5.3.5
A 2. lépés: a keresőfelület kiválasztása
A keresőkérdés pontosítása után kiválasztjuk a keresőrendszert, a keresés terepét. Figyelemmel kell lennünk a következőkre: − az előfizetett adatbázisok listája. Ha nincs, akkor a keresést elkezdhetjük egy általános keresőrendszerrel (pl. Google, Altavista), de sokkal hatékonyabbak lehetünk, ha: – gondoljuk át, hogy milyen területekhez tartozik a keresett adat, pl gazdasági, pedagógiai, politikai, jogi. Ha biztosak vagyunk az adat szakterületi vonatkozásában, akkor érdemes szakterületi vertikális keresőrendszert felkeresni. – ha híreket, tudományos cikket, térképet, menetrendet stb. várunk találatként, akkor célszerű egy speciális vertikális keresőhöz fordulni. Példa: Keresett témakör: diszlexia Pedagógiai vonatkozásnál: pedagógiai adatbázis (pl: PAD – Pedagógiai Adatbázis, mely cikkek bibliográfiai adatait tartalmazza (http://opac.opkm.hu/index.php?fn=search/osszker )
11. kép
Pedagógiai Adatbázis kereső felülete a diszlexia keresése esetén 49
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Orvostudományi vonatkozásnál: orvosi adatbázis (pl. www.doktor.info.hu „betegség információk” menüpont; vagy drinfo.hu egészségmagazin anyagában)
12. kép
dr.Info oldalán az oldal saját keresőmezője
Fogalom egy tudástárból: pl: Wikipédia Általános áttekintés katalógus alapján: pl. Startlap
13. kép
50
A keresőmező Startlapon keresésre állítva (egyébként a Goggle-t használja)
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Blogok keresése, mások megoldásinak keresése esetén: blogkereső segítségével Valamilyen speciális szempont szerint: általános kulcsszavas kereső (pl. Google), ahol fontos a keresőkérdés: diszlexia ÉS (gyógyítás OR kezelése) a Google esetén Az összetett lépés miatt egy újabb példa következik: Példa: Példa: Keresett témakör: diákhitel maximális összege Hallgatói vonatkozásnál: pl. a felsőoktatási intézmény honlapja, kormányzati portál vagy egy gazdasági hiteles online hírportál, pl. a HVG folyóirat (hvg.hu) lehet a jó kiindulás.
14. kép
HVG találati listájának dátum szerinti szűkításe a „diákhitel” kulcsszó esetén
Jogi vonatkozás: a pontos adathoz a jogszabály (pl. a Jogtár-ban (CD-ROM-os teljes verzióval, vagy annak hiányában a Webjogtárban (ami nem tartalmazza a módosításokat!): http://mkogy.complex.hu/jr/sf/startfrnp.html, ahol kiadjuk a Keres menü Összetett keresés parancsát.
51
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
15. kép 5.3.6
Webjogtár összetett kereső felülete
A 3. lépés: A keresőkérdés összeállítása
Ha tudjuk, milyen felületen fogunk keresést végezni, akkor jöhet a keresőkérdés összeállítása. Először természetes nyelven megfogalmazzuk az igényünket, majd összeállítjuk a keresőkérdést alapelemeit, ezután kialakítjuk a keresőkérdést. Természetes nyelv Elsőként természetes nyelven átfogalmazzuk a felhasználó kérését. Növelhető a hatékonyság, ha a kérdés centrikus gondolkodást elvetjük, és inkább válasz centrikusan gondolkodunk. A keresőkérdésben nem szerencsés kérdőszót használni, hiszen a keresőrendszerek tartalom alapján indexelik az oldalakat. Példa: Hány tanár van Egerben? kérdés helyett gondoljunk a válaszra, ami a weboldalakon előfordulhat. Pl. Tanárok száma Eger iskoláiban… A keresőkérdés alapelemei Kiválasztjuk a keresőkérdésben használt kulcsszavakat. Megkeressük a keresett téma központi fogalmait, ezek lesznek a kulcsfogalmak. A szinonimákat nem mellőzhetjük, jelentőségét az adja meg, hogy a honlapokon egy számunkra releváns oldalnál lehet, hogy éppen azt használják. A következőkre érdemes még ügyelni: − az egyes és a többes szám használatánál az egyes számot preferáljuk, − a helyesírási változatok használatára (file, fájl) − a szóvariációkra (gyerek, gyermek) − ha létezik, akkor a mozaikszó is kulcsszó lehet (Oktatási Minisztérium, OM)
52
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE − − −
a tárgyszavakra (köznyelvben: újság, sajtó, lap, preferált szava: periodikum, tárgyszava: időszaki kiadvány, vagy: szentírás, tárgyszava: biblia) olykor a gyakori gépelési hibákat is érdemes egy kulcsszóban meghagyni, mert sok weboldalon szintén elírhatták (például „telefon” helyett „telfon”) a fiatalokkal kapcsolatos témáknál az SMS-ből átvett összevont szórövidítéseket is érdemes kulcsszóként szerepeltetni, melyeket egy rövidítés szótárból nézhetünk ki.
13. www.rovidites.hu: http://rövidítés.hu/ A keresőkérdés összeállítása Az összeállítás az utolsó lépés a konkrét keresőkérdés kialakításához, ezután a végleges formát a keresőrendszer weboldalán a keresőmezőbe írjuk. A keresőrendszerhez kapcsolódó beszélt nyelv (hazánkban többnyire magyar, esetleg angol) kiemelt fontosságú lehet, különösen a vertikális keresők esetén. A szolgáltató lehetőségeit megismerhetjük a súgó rendszerből. Itt megtudhatjuk, hogy használhatók a logikai vagy a helyzeti operátorok. Mindenképpen tudjuk meg, hogy szükséges a csonkoló jelek használata, vagy automatikus csonkolást használ a rendszer. 5.3.7
A 4-5. lépés: Stratégia és válasz
A negyedik lépés a stratégia kialakítása. A gyorskeresés a keresés legegyszerűbb formája, amikor egyetlen keresőszót írunk be. A keresőkérdést kulcsszavaik bontva az ún. építőkockák segítségével a találatunk már pontosabb lehet. A találatokra alapozó keresés akkor lehet hasznos, ha birtokunkban vannak a keresés tárgyával kapcsolatban releváns adatok. A találati eredmény természetesen még ezután is számtalan módon javítható: a sok találat szűkíthető, egyes elemek a keresésből kizárhatók. Ha kevés találat van, akkor csökkenthető a kulcsszavak száma, használhatjuk a szó szinonimáit stb. Ha nem kapunk ezután sem releváns találatokat, akkor elképzelhető, hogy az egész keresést újra kell kezdeni, egészen más stratégiával. A stratégiákról részletesen szól egy önálló fejezet. Az ötödik lépés a válasz összeállítása. A választ a kérdést feltevő számára közölni kell. alatt értjük a végső anyag összeállítását, melyet befolyásol a kiindulási lépésünk: kinek és milyen céllal végeztük a keresést. Ha bibliográfiai adatokat gyűjtöttünk, akkor a találatainkat egységesíteni, majd rendezni kell. Ha pedig tényadatokat gyűjtöttünk, akkor is érdemes egy anyagban összefoglalni, hogy hol és mit tudtunk kideríteni a témában, ki és hogyan definiálja a fogalmat, pontos hivatkozásokkal ellátva. A legutolsó lépés pedig, ha szükséges, elindítani a találatok alapján az eredeti cikkek, művek beszerzését. 5.3.8
Keresés és szimbólikus logika
A logikai operátorok megalkotása – a 19. század közepén – George Boole nevéhez fűződik, ezért gyakran nevezik Boole-operátoroknak is. A szabatos keresőszó kialakítása ritkán nélközi, a kulcsszavas keresés nélkülözhetetlen részévé vált. Az itt tárgyalt operátorok a szimbólikus logika tárgyalási alapjául szolgálnak. Az operátorok jelentésének szem53
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE léltetésére a halmazelméleti megközelítés a legegyszerűbb, amit a bemutatásnál rendre megteszünk. Egy-egy kulcsszót tartalmazó weboldal vagy más dokumentum keresőrendszerbeli rekordjai egy-egy halmazt jelenteni, ezen halmazokból halmazműveletekkel képezhető, és szemlélesen Venn-diagramon ábrázolható a találati lista rekordjainak halmaza. Az informatikában, így a kulcsszsvas keresésnél is a következő logikai operátorok szerepe hangsúlyos: AND (és), OR (megengedő vagy), NOT (nem), XOR (kizáró vagy). Több kulcsszó is összefűzhető, a kulcsszavak számának korlátai keresőrendszerenként eltérőek lehetnek. A magyar nyelvű keresőrendszerek sem engedik meg minden esetben az angol helyett vagy mellett a magyar nyelvű operátorok alkalmazását, erről a használat előtt szükséges tájékozódni. A felsorolt operátorok használatát és a logikai művet kapcsán azok tuljdonságait fejtjük ki a leckében. AND operátor Az AND operátor a találati lista pontosítására, szűkítésére szolgál. Az AND a keresésnél a leggyakrabban használt logikai operátor, magyarul „ÉS” operátor, mely több kereső szó együttes előfordulását követeli meg. Jelölése két kulcsszó (emlős, tenger) esetén: − angol nyelvű operátorokkal: „emlős AND tenger” − magyar nyelvű operátorokkal: „emlős ÉS tenger”. − gyakran előforduló, rövid operátorral: „emlős + tenger” − operátor nélkül: „emlős tenger” Példa: Kulcsszavak: könyvtár, informatika Keresőkérdés: „könyvtár ÉS informatika” Eredményhalmaz elemei: a könyvtár informatikával kapcsolatos, továbbá az informatikával kapcsolatban lévő könyvtárak (pl. a Windows operációs rendszerben a mappa) weboldalai, dokumentumai. Ugyanakkor a két témakörrel kapcsolatba hozható számos más találatra is számíthatunk, pl. informatikai kiállítás a könyvtárban. Az AND operátor értelmezése halmazelméleti szempontból: két halmaz elemeinek metszete azon elemek halmaza, melyek az első és a második halmaz (esetleg több halmaz) mindegyikének eleme, vagyis az AND operátor megfeleltethető két halmaz közös részének.
16. kép 54
AND operátor találati halmaza
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Több kulcsszó is összefűzhető, a kulcsszavak számának korlátai keresőrendszerenként eltérőek lehetnek. Az AND operátor egyes keresőrendszerek esetén alapértlemezett, így a keresőmezőbe gépelt, szóközzel elválasztott, operátorok nélkül keresőszavak alapértelmezésben AND operátorral összekepcsolt kulcsszavak a keresőkérdésben. Példa: Keresőrendszer: Google Kulcsszavak: drágakő, kiállítás, ár Keresőkérdés: „drágakő kiállítás ár” vagy „drágakő AND kiállítás AND ár” A legtöbb adatbázis keresőkérdésében az AND operátor az alapértelmezett, ami érthető, hiszen a legtöbb esetben használt operátorról van szó. Példa: Keresőrendszer: ScienceDirect adatbázis Kulcsszavak: bone, genetic Keresőkérdés: „bone genetic” vagy „bone AND genetic” Keresőrendszer: ERIC adatbázis Kulcsszavak: knowledge, management Keresőkérdés: „knowledge management” vagy „knowledge AND management” OR operátor Az OR operátor a találati lista bővítésére szolgál. Az OR operátor eredményhalmaza a kulcsszavak közül legalább egyet tartalmazó találatokat szolgáltatja, ebbe beletartoznak azok a honlapok és dokumentumok is, amelyekben több, vagy akár az összes kulcsszó is megtalálható. Magyarul megengedő VAGY operátornak nevezték el, mivel a találalati listába kerüléséhez a dokumentumban elég csak egyetlen kulcsszónak szerepelnie Jelölése két kulcsszó (emlős, tenger) esetén: − angol nyelvű operátorokkal: „emlős OR tenger” − magyar nyelvű operátorokkal: „emlős VAGY tenger”. Példa: Kulcsszavak: könyvtár, informatika Keresőkérdés: „könyvtár OR informatika” Eredményhalmaz elemei: tartalmazzák a könyvtár, vagy az informatika, vagy mindkét kifejezést: - könyvtári vonatkozású találatok - az informatika könyvtáron kívüli ágai pl. informatika oktatás, informatikai biztonság stb. (ha szerepel az informatika szó a weboldalon vagy az oldal metaadatai között) - könyvtár AND informatika találatai Az OR operátor értelmezése halmazelméleti szempontból: két vagy több halmaz uniója azon elemek halmaza, melyek legalább az egyik halmazban megtalálhatók, azaz a halmazok összes eleme.
55
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
17. kép
OR operátor találati halmaza
NOT operátor A NOT operátor a találati lista pontosítására, szűkítésére szolgál. A keresőkérdésben fogalmakat zárhatunk ki a NOT operátorral, így a találati listában a NOT utáni kulcsszót tartalmazó weboldalak, dokumentumok egyáltalán nem szerepelnek. Jelölése két kulcsszó (emlős, tenger) esetén: − angol nyelvű operátorokkal: „emlős NOT tenger” − magyar nyelvű operátorokkal: „emlős NEM tenger”.
18. kép
NOT operátor találati halmaza
Példa: Kulcsszavak: könyvtár, informatika Keresőkérdés: „könyvtár NOT informatika” Eredményhalmaz elemei: azon rekordok, melyekhez tartozó weboldalak vagy dokumentumok tartalmazzák a könyvtár kifejezést, ugyanakkor azokban biztosan nem szerepel az informatika kifejezés. XOR operátor Az XOR operátor az AND operátor helyett a találati lista sajátos szűkítésére szolgál. Az XOR (exclusive OR) operátor azon rekordokat szerepelteti a találati listáján, melyek dokumentumai csak a kulcsszavak egyikét tartalmazzák, de a kettőt együtt nem. Az XOR 56
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE operátor magyar neve kizáró VAGY, mivel kizárja azon weboldalakat, dokumentumokat, melyek a kulcsszavakat együtt tartalmazzák. A kizáró kifejezésnek az OR operátorral öszszevetve értelmezhető. Jelölése két kulcsszó (emlős, tenger) esetén: − angol nyelvű operátorokkal: „emlős XOR tenger”.
19. kép
XOR operátor találati halmaza
Példa: Kulcsszavak: könyvtár, informatika Keresőkérdés: „könyvtár XOR informatika” Eredményhalmaz elemei: olyan rekordok, melyek dokumentumai tartalmazzák a könyvtár, vagy az informatika, de mindkét kifejezést biztosan nem. A keresőrendszerekben nem minden esetben találjuk meg az XOR operátort, mert helyettesíthető a fentebb ismertett három Boole-operátor használatával. Példa: A helyettesítés lehetséges két esete: Kulcsszavak: könyvtár, informatika Keresőkérdés: „könyvtár XOR informatika” Keresőkérdés: „(könyvtár OR informatika) NOT (könyvtár AND informatika)” Keresőkérdés: „(könyvtár NOT informatika) OR (informatika NOT könyvtár)” Operátorok prioritása Ahhoz, hogy helyesen tudjuk használni a logikai operátorokat a kereső kifejezések öszszekapcsolására, fontos ismernünk az operátorok jellemzőit. Legfontosabb jellemző a a prioritás (kiértékelési sorrend). Ha egymás után több azonos operátort használunk, akkor a kiértékelés balról jobbra haladva történik: Példa: Keresőkérdés: „tanulás AND zavar AND kezelés AND középiskola” Operátorok proiritása: elsőként a „tanulás AND zavar” kereső kifejezések metszete ha57
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE tározódik meg, majd ezt szűkíti a keresőrendszer a kezeléssel is foglalkozó találatokra, végül leszűri a középiskola kifejezéseket tartalmazó találatokat. Ha különböző operátorokat használunk, akkor a kiértékelési sorrend: 4. AND operátor és NOT operátor (egyenrangúak), 5. OR operátor. Példa: Keresőkérdés: „felnőttképzés OR pedagógus AND továbbképzés” Operátorok proiritása: elsőként a „pedagógus AND továbbképzés” kereső kifejezések metszetét veszi, ezután annak eredményhalmaza OR felnőttképzés következik. keresőkérdésben először a találatait kapjuk meg, majd ennek az. Példa: Nézzünk meg még egy példát, mely szemléleti miért olyan fontos odafigyelni erre a szabályrendszerre! Keressünk irodalmat a tanulási zavarokkal, problémákkal küzdők kezelésére. Ha a keresőkérdést így írjuk be: tanulás AND zavar OR probléma AND kezelés akkor a kiértékelése a következő: A rendszer leszűri a tanulás AND zavar keresőkérdés találatait; majd leszűri a probléma AND kezelés találatait; ezután veszi a két eredmény halmaz unióját, tehát a találataink tanulási zavarral valamint a problémakezeléssel lesznek kapcsolatosak, melynek része a keresőkérdésünk irodalma is, de mellette a problémakezelés minden válfajának irodalmát is megkapjuk. A kiértékelést felülbírálhatjuk zárójelek használatával! Az előző példa helyesen: tanulás AND (zavar OR probléma) AND kezelés. A kiértékelés sorrendje: a keresőrobot veszi a zavar OR probléma eredményhalmazát, melyhez hozzákapcsolódik a tanulás AND operátorral, és ennek az egésznek eredményét szűkíti a kezelés kifejezést is tartalmazó találatokra. Megjegyzés: Nagyon ritkán előfordulhat olyan adatbázis, mely ettől eltérő kiértékelési sorrendet használ, ezért új adatbázis használat esetén érdemes megnézni a leírását, súgóját a keresőfelületnek. Pl. ScienceDirect-nél a kiértékelési sorrend: 1. Zárójel 2. OR operátor 3. AND operátor 4. NOT operátor Operátorok kommutativitása A kommutativitás (felcserélhetőség) tulajdonság egyező operátorok használata esetén nem befolyásolja az eredményt a kulcsszavak sorrendje. Az AND, OR, XOR operátorok kommutatívak. Legyenek a, b karakterek tetszőleges kulcsszavak, akkor igaz, hogy a OR b = b OR a 58
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE a AND b = b AND a Példa könyvtár AND informatika ugyanazon találatokat adja, mint az informatika AND könyvtár. Operátorok asszociativitása Az asszociativitás (csoportosíthatóság) több kereső kifejezést azonos logikai operátorral összekapcsoló keresőkérdésben tetszőlegesen elhelyezhetünk zárójeleket, anélkül, hogy az eredményt befolyásolná. Az asszociativitás az AND, OR, XOR operátorokra jellemző tulajdonság. Legyenek a, b, c karakterek tetszőleges kulcsszavak, akkor igaz, hogy a OR b OR c = a OR (b OR c) = (a OR b) OR c a AND b AND c = a AND (b AND C) = (a AND b) AND c Operátorok disztributivitása Az AND operátor disztributív az OR operátorra nézve, ami azt jelenti, hogy a AND (b OR c) = (a AND b) OR (a AND c), ha a, b, c karakterek tetszőleges kulcsszavak. Bár a valós számok halmazán csak a szorzás disztributív az összeadásra nézve, a halmazoknál kölcsönös disztributivitásról beszélhetünk, azaz az OR operátor is disztributív az AND operátorra nézve: a OR (b AND c) = (a OR b) AND (a OR c), ha a, b, c karakterek tetszőleges kulcsszavak. Példa: információ AND (visszakeresés OR története) keresőkérdés megfelel a (információ AND visszakeresés) OR (információ AND története) keresőkérdésnek. Érdekel minden történelemmel kapcsolatos mű, de a magyar egyetemek története különösen. Erre megoldást hoz az alábbi keresőkérdés: (magyar AND egyetem) OR történelem Ugyanazt a találati halmazt hozza a (magyar OR történelem) AND (egyetem OR történelem) 5.3.9
Online keresési stratégiák
Melyik keresőt érdemes használni? Ha pontosan tudjuk mit szeretnénk keresni, akkor a Google kereső és a startlap.hu szolgáltatásaival élhetünk. Ha itt nem találtunk rá a keresett információra, akkor próbáljuk meg a Yahoo! keresővel vagy a Bing keresővel. Ha magyar nyelvű közegben keresünk, akkor megfelelő lehet még a tango.hu, kurzor.hu és az ok.hu találati listái is. Az alábbiakra érdemes odafigyelni: − a keresés lépéseinek betartása − a keresőkérdés nem biztos, hogy elsőre megfelelő, hiszen annak finomítása többlépcsős folyamat − több keresőrendszert is igénybe vehetünk
59
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE − −
adott tudományághoz, iparághoz szorosan kapcsolódó keresésnél az adott szakmai keresőket érdemes használni nem minden kereső alkalmas a magyar nyelvű találatok megjelenítésére
Gyorskeresés A keresés legegyszerűbb formája, amikor egyetlen keresőszót írunk be. Ekkor nagy és pontatlan találati halmazra számíthatunk. Ezt a keresési stratégiát briefsearch-nek (egyszerű gyorskeresésnek) nevezik. A módszert akkor érdemes használni, ha ismerkedünk a témával, vagy nincs ötletünk a pontosabb keresésre, így elvégezzük előbb a gyorskeresést, majd a találatok türkében pontosítunk. Keresés egy általunk nem ismert nyelven Az idegen nyelvű kulcsszavak megállapításához, majd a találatok megértéséhez használhatunk szótárat, illetve fordító szolgáltatást. Példa: A Google az angol (és sok más) nyelvű találat fordítását is elvégzi A Morphologic cég webfordítás.hu oldala szótárként és weboldal fordító szolgáltatásként használható A szótárak közül egy fiatalos, kiejtéseket is tartalmazó a dict. sztaki.hu. 14. A Morphologic cég szótár és webfordító szolgáltatása: http://webfordítás.hu 15. A SZTAKI webszótára: http://dict.sztaki.hu.
20. kép
60
A Google fordítási lehetősége a találati lista egy rekordjánál, keresőkérdés „rent a bike”
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
21. kép
A Webfordítás.hu weboldal fordítási lehetősége a találati lista egy rekordjának URL címér átmásolva
22. kép
A SZTAKI webszótára
Fogalmi építőkockák módszere A keresőkérdést kulcsszavaira bontjuk, ezek képeznek egy-egy építőkockát. Minden építőkockán belül összegyűjtjük a kulcsszavak szinonim kifejezéseit, és egyéb előfordulási 61
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE lehetőségeit. A keresőkérdés összeállítása pedig: az építőkockán belül található elemeket OR operátorral kapcsoljuk össze, minden építőkockányi részt zárójelezzük és az egyes építőkockákat kapcsoljuk össze a megfelelő logikai operátorral. Példa: Keresendő: Informatika oktatása a fejlett Egyesült Államokban gyermekek számára. Kulcsszavak: informatika, oktatás, Egyesült Államok, gyerek, mivel a „fejlett” szó nem releváns, a „számára” kifejezést pedig nem hasznos szó. Szinonimák, alternatív kifejezések a kulcsszavakhoz: - informatika kulcsszóhoz: számítástechnika, programozás, algoritmizáslás - oktatás kulcsszóhoz: tanítás, képzés - Egyesült Államok kulcsszóhoz: USA, US, amerikai - gyerek kulcsszóhoz: gyerek, diák Keresőkérdés (csonkolással): (informatika* OR számítástechnika* OR programozás*) AND (oktatás* OR tanítás* OR képzés*) AND (Egyesült (W) Államok OR USA OR US OR Amerika*) AND (gyerek* OR gyermek*) Megjegyzés: acsonkolást a * karakterrel jelöltük, ami keresőrendzsrenként eltérő lehet. Találatokra alapozó keresés Ha találunk egy releváns információt, vagy weboldalt, akkor ezt az információt felhasználva határozzuk meg a következő lépést, abból meríthetünk ötletet. A további keresés kiindulópontja lehet: a mű szerzőjének neve, az oldalon található, a témához kapcsolódó elismert nevek és azok művei. Ezt sok esetben a hivatkozások között találjuk meg, így az új kucsszvakkal pontosítható keresőkérdés és a találat hitelesebb lehet. A találati eredmény javítása A keresés alapvető problémája a túl szűk vagy ellenkezőleg az igen bő találati lista. Nagy mennyiségű találat esetén érdemes a szűkíteni azt a keresőkérdés átfogalmazásával. Néhány ötlet: − a keresőkérdés módosítása új fogalmak hozzáfűzésével az ÉS (AND) operátorral − találatokat kizárása a DE NEM (NOT) operátorral − az operátorokat szerepének átgondolása, például „Minőségbiztosítás az oktatásban, iskolákban” kérdés keresőkérdése lehet: „minőségbiztosítás AND (oktatás OR iskola)”. Zárójel nélkül magas találati számra számíthatunk, hiszen magkapjuk a minőségbiztosítás az oktatásban, valamint az összes iskola témájú művet. − konkrét kifejezések használata (adótörvények helyett pl: SZJA, adókedvezmények 2010, egyéni vállalkozó adója keresőkérdés alaklmazása − tárgyszavak, szakkifejezések alaklmazása a keresőkérdésben, (pl. „bolognai képzési rendszer a felsőoktatásban”, vagy „integrált könyvtári rendszerek”. A találatok csekély száma még módot sem ad a témakörben történő elmerülésre, öteletek a a keresőkérdés bővítéséhez: − a keresőszavak számának csökkentése − újabb keresőszavak a keresőkérdésben VAGY operátorral 62
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE − − −
a kulcsszavak szinonimáinak, más helyesírási változatainak szereepltetése a keresőkérdésben VAGY operátorral csonkolás a fogalmi strúktúra magasabb szintéről egy fölérendelt kifejezés alkalmazása a keresőkérdésben, pl. vadvizi kajakozás helyett extrém sportok
Ha ezután nincs releváns találat, akkor a keresőkérdést részben vagy teljes egészében meg kell változtani, tovább konkretizálhatjuk, illetve a fölérendeléssel cserélhetjük a keresőszavakat. A keresőrendszer váltás különosen a magyar nyelvű találatok esetén hozhat sikert a vertikális keresőrendszerek kipróbálásával 5.4
ÖSSZEFOGLALÁS
Az internetalapú keresések stratégiájának részletes, példákon keresztül bemutatott jelentősége. A találatok szűkítési, bővítési és pontosítási lehetőségei. Összetett keresések bemutatása, kifejezések keresése, kulcsszavak összekapcsolása. Az internetalapú keresés jelenlegi korlátai, a jövőben várható, az emberi gondolkodáshoz jobban igazodó keresők működésének elvi alapjai. 5.5
ÖNELLENŐRZŐ KÉRDÉSEK
Mutassa be a keresés lépéseit! 2. Mutassa be a Boole operátorokat! 1.
63
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
6. GOOGLE, MINT KERESŐ ESZKÖZ 6.1
CÉLKITŰZÉS
A Google, mint az interneten elérhető legösszetettebb keresőszolgáltatás alapvető szolgáltatásainak megismerése, használatának elsajátítása. 6.2
TARTALOM
Google történet és a könyvkereső Google keresőrobot Új index A Google indexelő része A kulcsszavas keresés használata Egyéb kereső szolgáltatások Legyőzni a Google-t Google Map és a Web20. Google, mint a jövő
6.3 6.3.1
A TANANYAG KIFEJTÉSE A Google keresőrobot háttértörténete
Egy kissé szokatlan történet, hiszen nem a Google fő termékéről szól, de ez az alapja a Google keresőrendszer működésének is, azaz a hivatkozások figyelembe vétele a tsalálati lista kialaíkátásánál. A BackRub névre keresztelt projekt a Google alapítása előtt indult. 1996-ban, a Google alapítói, Sergey Brin és Larry Page frissen végzett informatikus hallgatók voltak, akik a Stanford Digital Library Technologies Project által támogatott kutatómunkában vettek részt. Céljuk az volt, hogy működő digitális könyvtárakat hozzanak létre, ötletük pedig a következő: a jövendőben, amikor majd a könyvgyűjteményeket óriási mennyiségben fogják digitalizálni, az emberek egy „feltérképező robotot” fognak használni a könyvek indexelésére, és a közöttük lévő kapcsolatok elemzésére, bármely adott könyv relevanciáját és hasznosságát olyan módon határozva meg, hogy a más könyvekben lévő idézetek számát és minősítését követik figyelemmel. Az elkészült feltérképező robot akkor még a BackRub nevet viselte. A hagyományos idézet-elemzést ez teljesen megváltoztatta, amely a Google PageRank algoritmusait ihlette. Meddig tartana a világ minden könyvét digitálisan beolvasni? Kiderült, hogy senki sem tudta. Larry Page eldöntötte: saját maga fogja ezt kikísérletezni. Egy napon módszeresen átlapozott egy 300 oldalas könyvet, amihez 40 perc kellett. A világszerte folyamatban lévő számos kiemelkedő digitalizálási projekt – a Kongreszszusi Könyvtár American Memory projektje, a Gutenberg projekt, a Million Book projekt és a Universal Library, hogy csak néhányat nevezzünk meg – hatása kapcsán több helyszíni látogatáson tájékozódnak a projektek menetéről. A tényfeltáró küldetés részeként Larry Page kapcsolatba lép a Michigani Egyetemmel, itt végzett ő maga is, és ez az egyetem úttörőnek számít a könyvtár-digitalizálási erőfeszí64
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE tések terén, például a JSTOR és a Making of America révén. Amikor megtudja, hogy a jelenlegi becslések szerint az egyetemi könyvtár hétmillió kötetének beolvastatása 1000 évbe telne, kijelenti a rektornak, Mary Sue Colemannek, hogy szerinte a Google ezt hat év alatt teljesítené. 2003-ban a csapat egyik tagja elutazik egy jótékonysági könyvvásárra Phoenix-be, Arizona államba, hogy könyveket szerezzen be a roncsolásmentes beolvasási technikák teszteléséhez. Számtalan kísérletet követően a csapat kidolgoz egy olyan beolvasási módszert, amely sokkal finomabban bánik a könyvvel, mint az aktuálisan elterjedt nagy sebességű eljárások. A csapat szoftvermérnökei is előbbre lépnek a műszaki problémák megoldása terén. Ezek a problémák akkor merülnek fel, amikor a 430 különböző nyelvű, eltérő formájú, szokatlan betűtípusokkal írott, vagy más, váratlan sajátosságokkal bíró könyvekből származó információkat akarják feldolgozni. 2004-ben a csapat látogatást tesz egy neves könyvtárban, és lenyűgözi őket az a meleg fogadtatás, amelyben részesülnek. Az Oxfordi Egyetemen 1602-ben Sir Thomas Bodley által alapított Bodley-féle könyvtár küldetése mindig is az volt, hogy ne csupán az egyetemi közösséget, hanem az egész világot szolgálja. Mialatt a polcok között sétálnak, a könyvtárosok olyan évszázados „felvágatlan” könyveket hoznak elő, amelyek csak ritkán látták a napvilágot. Mióta Shakespeare a drámáit megírta, először tűnik úgy, hogy az ezen könyvekhez hozzáférő irodalomtudósok szűk köre exponenciálisan bővíthető. A látogatás ihlető erejű, és az azt követő találkozók és megbeszélések formális partnerséghez vezetnek, amelynek keretében három éven belül digitalizálni fogják a könyvtár szellemi köztulajdonban lévő, 19. századi, egymillió kötetes, egyedülálló gyűjteményét. Eközben a világ legnagyobb kiadóival folytatott előzetes megbeszélések sora kezdi meghozni gyümölcsét. Októberben Larry és Sergey bejelenti a „Google Print”-et, a németországi Frankfurti Könyvvásáron. A programhoz elsőként csatlakozó kiadók: Blackwell, Cambridge University Press, a University of Chicago Press, Houghton Mifflin, Hyperion, McGraw-Hill, Oxford University Press, Pearson, Penguin, Perseus, Princeton University Press, Springer, Taylor & Francis, Thomson Delmar és a Warner Books. Decemberben bejelentjük a „Google Print” könyvtárprojekt indulását. Ezt a Harvarddal, a University of Michigannel, a New York Public Libraryval, Oxforddal és Stanforddal kötött partneri megállapodások teszik lehetővé. Ezeknek az egyedülálló könyvtáraknak az összesített gyűjteménye a becslések szerint meghaladja a 15 millió kötetet. 2005-ben a „Google Print” csapat visszatér a Frankfurti Könyvvásárra, és bejelenti, hogy a „Google Print” most már nyolc európai országból is fogad partnereket: Ausztriából, Belgiumból, Franciaországból, Németországból, Olaszországból, Hollandiából, Spanyolországból és Svájcból. Annak érdekében, hogy a világ információinak megszervezésére és általánosan hozzáférhetővé tételére irányuló küldetésünknek megfeleljenek, 3 millió dollárt adományoznak a Kongresszusi Könyvtárnak, hogy segítsék felépíteni a Világ Digitális Könyvtárát, amely bárhonnan hozzáférést fog nyújtani a ritka és egyedi tételekhez. Kiterjesztjük a Könyvtár tesztelési célú beolvasóprogramját, amely most már magában foglalja a Kongresszusi Könyvtár jogi könyvtárában lévő történelmi értékű művek digitalizálását is. A Google átnevezi a „Google Print”-et Google Könyvkeresőre, amely jobban tükrözi használatának módját. A csapat megválaszolja a könyvtárprojekt vitás kérdéseit is, nyilvános vitát vállalva az alapelvekről. 65
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 2006-ban Mary Sue Coleman, a Michigani Egyetemen rektora, az Amerikai Kiadók Szövetségénél (Association of American Publishers – AAP) tartott megindító beszédében elmondja, hogy az egyetem miért döntött a velünk kötött partneri megállapodás mellett a könyvtárprojektben, aláhúzva a könyvek digitalizálásának fontosságát olyan természeti katasztrófák tükrében, mint például a Katrina hurrikán. Röviddel ezt követően felkérték partnereiket, hogy mondják el, kívánnak-e olvasóiknak közvetlenül a böngészőprogramokból teljes online hozzáférést nyújtani a könyvekhez. Ez az első a számos új lehetőségből, amelyet a kiadókkal szorosan együttműködve fejlesztettek ki, segítve őket abban, hogy megtapasztalják a könyvek online eladásának újszerű módjait. Egy sor termékfejlesztést indítunk útjára, hogy a Könyvkeresőt hasznosabbá és könynyebben kezelhetővé tegyük. Először is kiterjesztjük a hozzáférést a már beolvasott, szellemi köztulajdonban lévő művekre úgy, hogy egy PDF-letöltés gombot adunk hozzá a szerzői jog alá nem eső könyvekhez. Néhány hónappal később kiadjuk az új böngészőfelületet, amellyel könnyebb böngészni és tájékozódni a Könyvkeresőben. Az új felülethez új Infó erről a könyvről oldalak is társulnak, amelyek a Google algoritmusait használják fel, hogy az oldalakat a könyvhöz tartozó gazdag tartalommal lássák el – kezdetben a kapcsolódó könyvek, kiválasztott oldalak és a tudományos munkákból származó hivatkozások kerülnek ide. Ősszel négy új könyvtár társul a könyvtárprojekthez: a Kalifornia Egyetem, a madridi Complutense Egyetem, a Wisconsin – Madison Egyetem, valamint a Virginia Egyetem. 2007-ben az új felhasználói felületet kiindulópontként használva új módszereket kísérleteztek ki arra, hogy az emberek a könyvekhez jussanak: − a könyvben lévő földrajzi helyek helyek összekapcsolása a Google Térképekkel, később a fordítottját is tervezik: a felhasználó kiválaszt egy helyet, és megkapja a társított könyveket. − népszerű szakaszok követése a könyvek közötti navigálás új módja, egyetlen szakasz használatát a könyvek egész gyűjteményén keresztül végigkövethetjük − saját könyvtárral a Google keresés a saját könyvgyűjteményükön belül használtó, mivel a felhasználók saját maguk kezdik gondozni és másokkal megosztani személyes könyvtáraikat, ismertetőiket és osztályzataikat. Marissa Mayer az Egyesült Államokban bemutatja az Univerzális Keresőt, és a Könyvkereső a Google keresés még szervesebb részévé válik. Májusban a Lausanne-i Kantoni és Egyetemi Könyvtár, valamint a Genti Egyetemi Könyvtár csatlakozik a Könyvkereső programhoz, nagy mennyiségű francia, német, flamand, latin és más nyelvű könyvvel szaporítva az állományt. Az európai könyvtárpartnerek száma ezzel hatra nő. Júliusban hozzáadtuk a „Megtekintés egyszerű szövegként” hivatkozást az összes, szerző jog hatálya alá nem eső könyvhöz. T.V. Raman elmagyarázza, hogyan nyitja meg ez a könyvet az adaptív technológiák, például a képernyőolvasók és Braille-megjelenítők számára, lehetővé téve a látássérült felhasználóknak, hogy éppolyan könnyen olvassák ezeket a könyveket, mint a látó felhasználók. 6.3.2
A Google indexelő része
A Google számos innovációja a keresőrendszer minden elemét érinti. Az indexelő rész a keresőmotor újításaira alapozva leginkább a rejtett web egyre nagyobb szeletét igyekszik feltárni. Ezek közül felhasználói szemszögből a három legjelentősebbet mutatjuk be, de 66
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE előtte a felhasználók minél teljesebb kiszolgálását célzó törekvések egyik legújabb elemét említjük meg. 2009. márciusi fejlesztésként jelent meg a szemantikus keresés egy próbaváltozata, ahol a Google megpróbálja értelmezni a keresőkifejezést, összefüggést találni a keresőmezőbe írt szavak között, és intelligensen válogatni a találatok között. Az így kapott eredmények egyelőre csak angol nyelvű felület találati listájának alján jelennek meg. Törekvések a rejtett web adatainak feltárására A Google a HTML-en kívül tíznél több állománytípust is rendszerez és tárol. A jelentősebbek: PDF, Word-dokumentumok, Excel-táblázatok, Flash- (SWF) animációk, szövegfájlok stb. A szöveg és SWF fájlok kivételével a tartalmat HTML-re konvertálva tárolja a Google, így azok böngészővel is megtekinthetők. A Google keresési technológiája a legrelevánsabb információkat kutatja fel valamennyi internetes tartalomtípus között, így a találatokban képek, térképek, videók, hírek, könyvek és még sok egyéb megjelenhet, azaz a találati lista egy-egy rekordjában a keresés integrált eredményeit láthatjuk. A cég állandó fejlesztéseinek köszönhetően 2007 májusában vezették be az univerzális keresés funkciót (Google Universal Search), így a Google a weblapok mellett a videók, képek, hírek, blogok, térképek és könyvek között is keres. Google Universal Search A Google alapvető változáson megy keresztül: egybeolvasztja vertikális és horizontális keresőmotorjait, és ezentúl a különböző Google szolgáltatásoknak – Google Hírek, Videó, Kép, Könyv, Térkép stb. – tartalmát egyazon találati listában jeleníti meg. Az egyelőre csak a www.google.com oldalról elérhető Universal Search („egységes keresés”) névre keresztelt vállalkozás tehát átformálja a találatok típusát és sorrendjét, így az eddigi keresőoptimalizálási módszereket is. A fejlesztésre több szempontból is szükség volt. Egy 2005. végén készült felmérés szerint míg az internetes keresők arra jók, hogy az óriási adatbázist rangsorolják relevanciájuk szerint, arra viszont nem, hogy a felhasználónak testreszabott listát biztosítsanak. Hozzávetőlegesen a kereső személyek ötöde képes értelmezni a keresési eredményeket, és még ennél is kevesebben találják meg a számukra fontos információt a legelső találatokban. Ugyanakkor vitathatalan, hogy a keresések harmada eredménytelen. A Google 2001. óta dolgozik új algoritmusokon, szoftvereken és hardvereken, melyek segítségével megoldható lesz a különböző forrásokból származó tartalmak összehasonlítása és osztályozása. Új index A Google 2010 júniusában végre éles üzemre kapcsolta Caffeine kódnevű, következő generációs indexét. Az új index a korábbiaknál relevánsabb és frissebb találatokat ígér a webezők számára. A Caffeine két fontos újdonsággal rendelkezik a Google által korábban használt indexelőhöz képest. Ezek közül az egyik a magasabb fokú párhuzamosság, aminek köszönhetően az új motor a korábbiaknál gyorsabban képes a tartalmakat leindexelni, és ezzel összefüggésben azok szintén előbb jelennek meg a találati listákban is. A Google szerint a Caffeine-nel gyakorlatilag feleződik az új oldalak a keresőbe kerüléséhez szükséges idő.
67
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A másik fontos újítás, hogy az új keresőindex nagyságrendekkel több ún. metainformációt tárol a begyűjtött weboldalakról, mint elődje. Ezek a nem-tartalmi adatok a Google szerint segítenek még relevánsabbá tenni a találatokat. A Caffeine aktiválását a felhasználók nem vehettek észre semmit, csak a megszokott módon kell keresniük a Google segítségével. A változás a találati listát érinti, a találatok frissességének és relevanciájának jelentős javulása várható. 6.3.3
Kucsszavas keresési alapok
A felhasználói felület A Google sikerének egyik titka a fehasználói felület puritán volta. A Google semmi mást, csak a keresés eszközeit jeleníti meg a kezdőoldalo, itt még a hirdetések sem kaphatnak helyet, pedig igen értékes felület lenne.
23. kép
A Google keresőrendszer felhasználói felületén a keresőmező hirdetések nélkül
A Google magyar nyelvű felhasználó felülete a keresőrendszerhez egy igen jó, magyar nyelvű súgóval rendelkezik: 16. Felület súgója: http://www.google.com/support/websearch/bin/answer.py?hl=hu&answer=35891 A fejléc tartalmazza a Google-termékek sávját, a Keresési beállítások és egyéb lehetőségeket. A Keresési beállításokat választva megváltoztatható pl. a keresés nyelve vagy az egy oldalon látni kívánt találatok száma. A Keresősáv tartalmazza a keresőmezőt, a Keresés gombot, a Speciális keresés és a Nyelvi eszközök linket. Mindkét linkról lesz még bővebben is szó. 68
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az oldal alján a Kapcsolódó keresések, a További találatok, a Találatok szűkítése és a Visszajelzés linkek találhatók. A keresés folyamátához szorosan kapcsolódó középső két lehetőség több helyről is elérhető. A felsoroltakat a következőkben kifejtjük. Kapcsolódó keresések: időnként a keresett dologra vonatkozóan a legjobb keresési kifejezések valójában kapcsolódnak a ténylegesen megadott kifejezéshez. Ha rákattintunk ezekre a kapcsolódó keresési kifejezésekre, alternatív keresési találatokat jeleníthetünk meg. További találatok: ha a keresett weboldal vagy információ nem található az első találati oldalon, kattintsunk az oldal alján látható Következő linkre a további találatok megtekintéséhez. Találatok szűkítése: ha a keresési találatok elsőre nem egészen egyeznek meg azzal, amit keresünk, kattintsunk a keresősáv alatt található Találatok szűkítése linkre. Ezután adjunk meg további szavakat a keresés szűkítéséhez. Visszajelzés: ha nem elégedett a Google által végzett kereséssel vagy van egy jó ötlete a keresés fejlesztéséhez, akkor ezeket és minden más véleményt megoszthat a Google munkatársaival a Küldjön visszajelzést! linkre kattintva a keresősáv alatt. Keresőkérdés A Google keresőkérdésének egyes elemei maganyni példában szerepeltek már. Az egyszerű keresés menete minden hallgató számára ismert, így a Google összetett keresését nézzük át aprólékosan. Az egyszerű keresésnél a Google fejlesztései nyomán a keresőkérdés kiegészül újabb keresőszavakkal, ezzel is segítve a találati relevancia növelését (24. kép).
24. kép
Automatikus kulcsszó ajánlatok a Google keresőrendszerben
69
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 6.3.4
Összetett kulcszsvas keresés
A pontosabb keresések érdekében a keresőrendszerek összetett keresést is kínálnak, bár a tapasztalatok szerint ezt a kereső személyek szinte mindegyike mellőzi A Google összetett keresésfunkciója a keresőmezőben az operátorok (speciáliskulcsszavak) begépelésével vagy felhasználóbarát felületen keresztül vehető igénybe. A keresés specifikálásának utóbb említett lehetősége a keresőmező utáni, Speciális keresés (Advance Search) link kiválasztása után megjelenő felületen keresztül érhető el (25. kép).
25. kép
A Google keresőrendszer összetett keresése (a Google-ban a Speciális keresés) párbeszédablakban
Haladó operátorok A keresőkérdésben speciális kulcsszavak használatával adhatunk meg összetettebb lekérdezéseket. A Speciális keresés szűrő funkciója mellett számos könnyen megjegyezhető utasítással könnyíthetünk a keresésen. Az alábbiakban erre adunk néhány megoldást. A leírás nem teljes, a részletekről és a további operátorokról a Google súgójában olvashat. A felhasználói felület felső harmada leginkább a Boole-operátorokkal kapcsolatos: −
− −
70
Tartalmazzák a következő szavak mindegyikét (AND operátor): csak olyan oldalak közül kereshetünk, amelyek tartalmazzák az összes kifejezést, amelyek a keresési mezőben szerepeltettünk. Tartalmazzák a következő kifejezést: csak a pontos kifejezést tartalmazzó oldalak találatai jelennek meg Tartalmazzák a következő szavak egyikét (OR operátor): tartalmaznak legalább egy szót a leírtakból
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE −
Nem tartalmazzák ezeket a szavakat (NOT operátor, jele: -): egyik szót sem tartalmazzák a leírtak közül Oldalon belüli keresés
Ha egy oldalon belül szeretnénk keresni, akkor írjuk be a Speciális keresés Domain mezőjébe a doméin nevét vagy a keresőmezőbe a kulcsszó után a „site:
”kifejezést. - Keresőkérdés: tagok site:mta.hu Ha az MTA tagjai érdekelnek bennünket, a feltétel megadásával gyorsan egy listán láthatjuk a külső, levelező, rendes stb. tagok sorát. Használatakor csak a rögzített honlaphoz (mta.hu) kapcsolódó alsite-okon keres. Speciálisan a site:domain.hu beírásával megtudhatjuk, hogy az adott domainből hány oldalt indexelt be a Google, azaz hány oldalt lát belőle. Sok esetben ez a szám azért alacsony, mert a flashben és képben lévő szöveget a Google nem értelmezi. Ez a magyarázat arra, hogy például az intro-val induló oldalakat a Google nem indexeli. További speciális operátorok Példa: - keresőkérdésben: „link:” Beírása esetén a megadott URL-re mutató weblapok listáját kapjuk. - keresőkérdésben: a „filetype:” Segítségével közölhetjük a keresett fájlok típusát (doc, jpg...): az általunk meghatározott fájl-formátumok jelennek meg - keresőkérdésben: a „define” A define operátorral egy kifejezésnek a leírását kapjuk meg. Ezt akkor érdemes használni, ha értelmezésre, fogalommagyarázatra van szükségünk. A szolgáltatás egyelőre magyarul még nem elérhető, de idegen nyelvű kifejezések megértését segíti. - keresőkérdésben: a „related” Hasonló oldalak elérése. A related:domain név.hu utasítással azokat az oldalakat listázza ki a Google, amelyek az adott domain.hu-hoz hasonlítanak. Például a related:origo.hu kifejezésre olyan oldalak listája kerül elénk, amelyek az origo.hu-hoz hasonlóan híreket közölnek. - keresőkérdésben: a „weather” Ha a speciális kulcszsó után egy várost írunk (pl. Eger), akkor megkapjuk az időjárási adatokat - keresőkérdésben: a „23*477” Számológépként működik, kíírja az eredményt, majd a találati lista következik. Google SERP A Google kereső a kulcsszavak közül az első harminckettőt veszi figyelembe, legfeljebb az első ezer találat jeleníthető meg, ami laponként legfeljebb száz rekordot jelent. A felhasználók beállíthatják az alapértelmezett nyelvet, bekapcsolhatják a biztonságot szolgáló SafeSearch szűrőt (alapértelmezés szerint moderate), és beállíthatják a laponként megjeleníthető találatok számát. 71
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A SERP egy rekordjának felépítése a Google-ben: − cím: a keresési találatok első sora mindig a weboldal címe − részlet: a cím alatt a weboldal ismertetője olvasható, amely egy tényleges szövegrészletet is tartalmazhat az oldalról. A keresési kifejezések vastagon szedve jelennek meg − URL: zöld színben a talált weboldalak internetes címe látható − Csillag: a találati rekordot a felhasználó megjelölheti egy csillaggal, ha a rekord végán álló csillag inkont egy kattintással aktívvá teszi, és a Google elment számára az adott találatot. Ha bejelentkezett a felhasználó egy Google Fiókba, akkor látni fogja a csillaggal megjelölt találatokat, amikor azonos vagy hasonló keresést végez. A SERP manipulálására különféle lehetőségek vannak: − Tárolt változat és Hasonló: a rekord utolsó sorában jelenik meg, de nem része annak. Ha valamilyen okból a weboldal nem töltődik be, a Tárolt változat linkre kattintva a weboldalnak az a változata jelenik meg, amelyet utoljára a Google indexelt. A Hasonló lehetőségre kattintva az adott találathoz kapcsolódó egyéb webhelyek tekinthetők meg. − behúzott találati rekordok: amikor a Google ugyanazon a webhelyen több találatot is talál, a legrelevánsabb találat kerül legfelülre a listában, és behúzva alá kerülnek az adott webhelyről a keresésnek megfelelő egyéb oldalak. Ha ugyanazon a webhelyen kettőnél több találat van, a további találatokat a További találatok megjelenítése innen: linkre kattintva érhető el. − Eszközök és szűrők: a találati oldal szélén található panel dinamikus módon megjeleníti a keresési módokat, és kiszűri az adott keresés esetén leghasznosabbakat. Ezeknek a linkeknek a segítségével szűrheti és személyre szabhatja a kapott találatokat. − Szponzorált linkek: amikor a Google segítségével végzünk keresést, gyakran látunk szöveges hirdetéseket a keresési eredményoldal tetején és szélén. A keresés szempontjából releváns hirdetések jelennek meg, és értékes információkat nyújtanak a keresés témaköréhez kapcsolódva. Ha nincsenek releváns hirdetések, akkor nem jelenik meg hirdetés. A hirdetések révén befolyó összeg segítségével képes a Google ingyenes termékeket kínálni, mint a Keresés, a Gmail, a Google Térkép, a Google Dokumentumok és még sok egyéb. Ha a felhasználó webhelyét szeretné hirdetni a Google keresési eredményoldalán, akkor kiválasztja a Jelenítse meg hirdetését itt feliratú linket, és tájékozódik a Google AdWords programról. A Google kereső a világ minden országában elérhető, az ország sajtá nyelvén megjelenő felhasználó felülettel, így a találati lista minipulációs parancsainak megjelenítése is oszágfüggő. A hazai felhasználók bármelyik nyelv kezdőlapját kiválasztahtják a keresőmező utáni, Nyelvi eszközök menüpontban (26. ábra).
72
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
26. kép
A Google keresőrendszer más országbeli felületének elérése
A legújabb fejelesztések teljes körűen az angol változatban érhetők el, ezért érdemes olykor az angol oldalt használni (27. ábra).
27. kép
A Google keresőrendszer angol nyelvű felülete
73
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A találati lista oldala vizuálisan is több nézetben képes a találati rekordokat przentálni, ha azt a bal oldali menüből kiválasztjuk (29. kép). Az alapeset a Normál nézet (Standard view), választható még a Varázskerék (WonderWheel), és az angol változatban a Timeline (időszalag) nézet. Normál nézetben újabb alnézeti lehetőségeket választhatunk: a weboldalon lévő képek miniatűr nézetét megjelenítő Webhelyek képekkel (Sites with images) alnézetet, a weboldalak teljes kiscinyített képével kiegészített rekordokat tartalmazó Oldalelőnézet (Page previews) alnézetet és a Lefordított keresés (Translated search) alnézetet. A Normál nézeten túli két fő nézetet az alábbiakban részletezzük. 2009 májusában jelent meg a Varázskerék (WonderWheel) funkció, amely konkrét keresőszavak nélkül is lehetővé teszi egymást követő választások útján a navigációt. Ugyanekkor megjelent még a Search Options (keresési lehetőségek) szolgáltatás is, ami a keresési találatok mellé lenyíló menüt jelent, ahol a találati listát anélkül lehet finomítani, hogy újra kellene definiálni a keresést vagy vissza kellene lépni.
28. kép
A Google WonderWheel (csodakerék) szolgáltatása az online könyvtár kulcsszó használatánál
A Timeline (időszalag) szolgáltatással a találatokat megjelenési idejük szerint rendezi, választható egy adott időpontokat, vagy megvizsgálható, hogy mikor milyen aktivitás jellemezte az adott kulcsszóval megadott témát. Az itt leírt lista nélkülözi a teljességet, de vélhetően néhány év múlva újabb elemekkel lehetne bővíteni.
74
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
29. kép 6.3.5
A Google új Timeline (idővonal) szolgáltatása az angol változatban
Vertikális Google keresők
Tudományos kereső Tudományos értekezések, szakdolgozatok és tanulmányok között keres a Google Scholar (30. kép). Az olyan innovatív kísérletek után, mint a Froogle vagy a Google Desktop Search, újabb egyedi Google-kereső jelent meg: az ingyenesen elérhető Google Scholar tudományos témájú, lektorált, online folyóiratok cikkeiben keres, kivéve az Elsevier kiadó folyóiratait, ugyanis ahhoz saját kereső oldallal rendelkezik a kiadó. A Google tudományos keresője, a Google Scholar az alábbi címen érhető el: 17. Google Scholar szolgáltatás: http://www.scholar.google.com ) A Google egyelőre úgy döntött, hogy a Scholaron lemond specialitásáról, a keresőtalálatnak álcázott hirdetések közléséről, azt viszont nem tartja kizártnak, hogy később a tudományhoz valamilyen módon kapcsolódó reklámok megjelennek a találati oldalakon. A keresővariáns újdonsága az „author:” előtag, amely elsősorban egyes szövegek szerzőinek előásását könnyíti meg, de a szerző-írás párosra is könnyebben rátalál, mint ha nem használnánk a prefixumot. Az [author:Einstein] keresőkifejezés például kevéssel több, mint 2000 találatot hoz, ami a Google kereső 8,5 milliós eredményéhez képest szerény, de a Scholar precízen közli a találat fajtáját (hivatkozás; könyv), és az arra vonatkozó további hivatkozások számát is feltünteti. A Google Scholar a fizetős szoftverek piacára is hatással lehet: nagyszerűen alkalmazható ugyanis az akadémiai etikátlan plagizálók (csalók) lebuktatására. Könnyen megeshet, hogy a Scholar elterjedése befolyással lesz az olyan cégek eladásaira, mint a német Mediaphor, amely 125 dollárt kér Plagiarism-Finder nevű programjának 1.09-es verziójá75
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE ért – a szoftver a neten fellelhető PDF és Word dokumentumokban található egyezések alapján igyekszik elkapni a csalókat. Egyik versenytársa, az amerikai Turnitin a dobozos megoldás helyett testre szabható plágiumvadász-szoftvert árul, testre szabott összegért, és ügyfelei között több száz amerikai középiskola és egyetem található.
30. kép
Google SCHOLAR találati oldala
Google, mint képkereső A Google minden naponta próbál ki újabb fejlesztéseket, de nem minden fejlesztés (update) és új kereső ötlet kerül hivatalosan nyilvánosságra. A Google képkeresője ismertté vált új szolgáltatás és a fejlesztések is folyamatosak. A képkereső önmagában nem nagy jelentőségű több keresőrendszer is képes volt előtte a képek szövegkörnyezet alapján tröténő kulcsszavas keresésére. A fejlesztések viszont sokat ígérnek. 2007-ben a Google a Neven Vision nevű teamet felvásárolta, amelynek elsődleges profilja képeken objektumokat tárgyakat felismerő alkalmazások készítése volt a mobil alkalmazásokhoz, és egyéb platformokra. A Google képkereső alkalmazásának fejlesztése alapján a keresési találatokat szűkíthetjük arcokat tartalmazó valamint hírekkel kapcsolatos képtalálatokra „&imgtype=face” valamint „&imgtype=news” kapcsolókat hozzáadva a kereséshez. Példa: http://images.google.com/images?q=neumann+&imgtype=face kevésbé kapunk majd fotókat a Neumann mikrofonokról, varrógépről és egyéb eszközökről, inkább arcokat tartalmazó képek várhatók Nemunann Jánosról és a ma élő Neumann nevű emberekől.
76
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Google, mint videokereső A Google hétfőn (2005. június 28.) elindította legújabb szolgáltatását, a Google Videót , mely egyelőre béta állapotban érhető el a Google számos más szolgáltatásához hasonlóan. Az adatbázisban jelenleg a Unicef, Greenpeace, CNET Networks és más tartalomszolgáltató partnerek április óta megjelent videoállományai kaptak helyett, ezek között lehet keresni. [HWSW, News.com] A Google hétfőn elindította legújabb szolgáltatását, a Google Videót [1], mely egyelőre béta állapotban érhető el a Google számos más szolgáltatásához hasonlóan. Az adatbázisban jelenleg a Unicef, Greenpeace, CNET Networks és más tartalomszolgáltató partnerek április óta megjelent videoállományai kaptak helyett, ezek között lehet keresni. Szövegben is keres A Google új szolgáltatásával nem csak a címekben lehet keresni, hanem a videoállományok mellé feltöltött metaadatokban, például az elhangzott szövegben is. A Google különböző szolgáltatásaiba regisztrált felhasználók (például a Google Mail felhasználói) saját, általuk készített videókat is feltölthetnek egy letölthető segédprogram segítségével a Google szervereire és adatbázisába. A letöltött állományok megtekintéséhez a Google egy saját lejátszóprogramot is biztosít, mely minden Google Videón keresztül letölthető állomány lejátszására alkalmas. A feltöltött videókat MPEG-2 vagy MPEG4 videotömörítéssel és MP3 hanggal fogadják és egyesével ellenőrzik, hogy megfelelnek-e a felhasználási feltételeknek. A jelenleg letölthető állományok ingyenesen elérhetőek, később – feltehetően a PayPal ellenfelének bejelentését követően – azonban arra is lesz lehetőség, hogy az általunk feltöltött anyagok letöltéséért díjat kérhessünk a felhasználóktól. Képek és könyvek után videók. A videók közötti keresés igen felkapott lett az internetes cégek körében, mivel a vállalatok ettől olyan hirdetők megjelenését remélik, akik eddig kizárólag a tévében reklámoztak. A Google mellett az Amazon is lázasan fejleszti saját videókeresőjét, a Yahoo pedig májusban indította el saját szolgáltatását. A szolgáltatások egyik kulcseleme a digitális jogkezelő technológiák (DRM) fejlődése és használata, mely megvédheti a file-ok tulajdonosainak szerzői és tulajdonosai jogait, bár az egyelőre nem ismert, hogy a Google használ-e majd DRM megoldásokat videokereső szolgáltatása fizetős tartalmainak bevezetésekor. A Google ugyanakkor már számos ellenféllel találkozhat ezen a területen, többek például az America Online Singingfish, a Yahoo! és a Blinkx szolgáltatásaival, melyek már élő szerződéssel rendelkeznek például a Reutersszel. A Reuters által biztosított videoanyagokat az említett metaadatokkal is ellátják, melyek a keresőmotorok számára nyújtanak segítséget. Ennek köszönhetően a keresőmotorok a Reuters weboldalára irányítják a videókat kereső felhasználókat. Helyben tárolt tartalom A Yahoo! és más szolgáltatások nem tárolják helyi szervereken az adott videoanyagokat, a Google ezzel szemben tárolni is kívánja az akár értékesítésre is szánt videókat, mely igen komplex kérdéseket vet fel a jogtulajdonosok szempontjából. A klipek tárolásához a filmstúdiók hozzájárulásához van szükség, ezek beszerzését már megkezdte a vállalat. 6.3.6
Legyőzni a Google-t
2008-ban elindult a Cuil webkereső, ami nem kisebb célt tűzött maga elé, mint a Google legyőzését (31. kép). A kaliforniai vállalkozás mögött egy házaspár áll: Tom Costello, a Stanford egyetem professzora korábban az IBM alkalmazásában adattárolási rendszerekkel kapcsolatos kutatásokat végzett, felesége, Anna Patterson 2004 óta dolgozott a Google-nál többek között a weboldalak indexelését végző algoritmuson, valamint azon az eljáráson, amely az oldalakhoz hirdetéseket rendel. A harmadik alapító, Russel Power 77
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE szintén a Google-tól érkezett, emellett a fejlesztőcsapat tagja Louis Monier, aki résztvett az AltaVista és a BabelFish megalkotásában, illetve az eBay keresőjének fejlesztésében. A Cuil kereső a mai napig elérhető az alábbi címen: 18. Cuil általános kereső: http://www.cuil.com A Cuil megalkotói szerint a legnagyobb erősségük, hogy 120 milliárd weboldal tartalmában keresnek, míg a piacvezető Google adatbázisa „csupán” 40 milliárd oldalt ölel fel. A házaspár szerint a Cuil titka, hogy egy minden eddiginél hatékonyabb adatbázist tudtak létrehozni a weboldalak tartalmából, amelynek működése a versenytársakhoz képest kevésbé hardverigényes, így gyorsabb és kevébé költséges is egyben. Az új kereső nem csak a motorját, hanem a megjelenítési felületét tekintve is újszerű: a találatokat nem csak egyszerűen kilistázza, mint a Google, a Yahoo vagy éppen a Microsoft Bing, hanem egy újsághoz hasonlóan, több hasábba rendezve mutatja meg őket. Jobboldalt ehhez társul egy lenyitható menü, ahol további kapcsolódó témák találhatók összegyűjtve.
31. kép
A Cuil kereső felülete
A Cuil kereső nem gyűjt adatokat a felhasználókről, nem őriz meg IP-címeket és az egyes személyekhez kötődő keresések listáját sem tárolja el. Anna Patterson szerint ennek oka, hogy az általuk kifejlesztett algoritmus a weboldalak tartalma, nem pedig a népszerűségük alapján rendezi sorrendbe a találatokat. A Cuil kereső a Google-től mindezek ellenére számos területen elmarad. Egyes kulcsszavakra nem kapunk találatot, olykor a SERP irreleváns weboldalak címét tartalmazza. A Google számos vertikális keresőjével (pl. árkereső, képkereső, hírkereső) szemben a Cuil egy kiszámíthattalanul működő, szimpla webkereső. 6.3.7
Google, mint a jövő
Google szemantikus keresés A Google újabb fejlesztésével bővült az internetes keresés palettája 2009-ben. Az intelligens, személyre szabott kereséshez vezető út következő lépéséhez tartoznak azok az eszközök, amelyek 2009. májusában lettek hozzáférhetők a nyilvánosság számára.
78
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Google Analytics A Google ma már rendelkezik az adatbányászat kezdeti lépéseihez vezető eszközzel. A Google Analytics (GA) a Google ingyenes szolgáltatása, ami a weboldal látogatóiról készít és prezentál részletes statisztikát. A Google Analytics nagyvállalati szintű internetes elemzési megoldás, amely széles körű rálátást biztosít a felhasználó webhelyének forgalmára és a marketinghatékonyságra. A hatékony, rugalmas és könnyen használható funkciók segítségével teljesen új szempontból tekinthető meg, és elemezhető a forgalmi adatokat. Fő célkitűzése, hogy a webmesternek segítsen a reklámkampányok optimalizálásában, azáltal, hogy megmutatja, a látogatók honnan kattintottak át, mennyi időt töltenek a weboldalon, illetve hogy földrajzilag hol találhatók. 19. Google Analytics: http://www.google.com/analytics A Goggle felvásárolt egy szoftvert, majd a saját logóval ellátott változat 2005. novemberében jelent meg, először korlátozás nélkül, majd a hatalmas érdeklődés miatt a regisztrációkat kénytelenek voltak felfüggeszteni alig néhány nappal később. Kapacitásbővítés után a Google egy várólistát hozott létre, a feliratkozottak közül sorsolják a meghívókat a szolgáltatásra. 2006. augusztus 16. óta a szolgáltatás bárki számára hozzáférhető. A Google gondot fordított a kezdeti teljesítményproblémák kiküszöbölésére, jelenleg a riportok általában kevesebb mint 1 óránként frissülnek (pl. milyen böngészővel, melyik településről történt a honlapunk látogatása). Minden felhasználó legfeljebb 5 weboldalon használhatja a szolgáltatást, az ingyenessé tétel előtti felhasználók legfeljebb 50 oldalon. A Google Analyticsben sokfajta nézet létezik: egy egyszerű áttekintő nézet, és számos (több mint 80 különböző) részletes riport kérhető le, amik valamelyest testre is szabhatók. Három fő nézet létezik: az Executive, a Marketer és a Webmaster nézet. A szolgáltatás az angol mellett még jó néhány nyelven hozzáférhető, 2007 végétől már magyarul is használható a program. 20. Google Analytics magyar súgója: http://www.google.com/intl/hu/analytics/
6.4
ÖSSZEFOGLALÁS
A Google, mint az interneten elérhető legösszetettebb keresőszolgáltatás alapvető szolgáltatásait ismeréstük meg. A Google-kereső keresőrobotjának háttértöénete után a indexelő és a kereső részre is kitértünk. Külön foglalkoztunk a Google összetett keresésével, a Speciális kereséssel. A vertikális Google keresők közül szó volt a Google Scholar tudományos keresőről, a képkeresőről és a videokeresőről. A többi vertikális keresőt a jegyzet korlátai miatt nem tárgyaltuk. Megemlítettünk egy keresőt, amely megpróbálkozott a Google-al versenyre kelni, eddig ezt sikertelenül tette. A Google jövőjét taglaló részben pár szót szóltunk a szementaikus web alaklmazásáról a Google-ban, és részletesebben a már több éve jól működő webanalatikai eszközről, a Google Analytics-szel. 6.5
ÖNELLENŐRZŐ KÉRDÉSEK
Mutassa be a horzintális Google keresőt! 2. Mi véleménye a Google keresőkről? Milyen személyes tapasztalatai vannak? 1.
79
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
7. METAKERESŐK CÉLKITŰZÉS
7.1
A matekereső szolgáltatás alapvetű működési elvének felhasználó szempontú megismerése. A magyar metekeresők működési hátterének megértése, szolgáltatásainak elsajátítása készség szinten.
TARTALOM
7.2
Metakeresők bemutatása Metakeresők csoportosítása Ismert idegen nyelvű metakeresők Az Ariadnet bemutatása Az Ariadnet használata Az Ariadnet keresőmotor A PolyMeta bemutatása A PolyMeta keresőmotor A Miner bemutatása A Miner keresőmotor Egyéb magyar metakeresők
7.3 7.3.1
A TANANYAG KIFEJTÉSE Metakeresők bemutatása
A világháló egészének indexelése megoldhatatlan probléma. Az eddigiek alapján ismert tény, hogy az összes adat nem érhető el az interneten, de az eltérő indexelési mód miatt az első találatok eltérhetnek az általános célú kulcsszavas keresésnél. Egyetlen általános célú kulcsszavas kereső tudományos cikkek kereséséhez, könyvtári és más adatbázisok eléréséhez elégtelen. A felsorolt problémák egy részének megoldását célozza egy speciális webes keresőmotor. Egy kulcsszavas kereső nem minden esetben adja meg a keresett választ, emiatt egyszerre több keresési keresőmotort is munkára foghatunk anélkül, hogy azokat egyenként kellene meglátogatnunk. A metakeresőket akkor is érdemes használni, ha szükség van az egyes metakeresők plusz szolgáltatásaira, mint például a klaszterezés, pl. a Clusty nevű metakereső a különböző keresőkből származó találatokat csoportokba is rendezi. A metakereső informatikai értelemben egy olyan keresőmotor, amely továbbküldi a felhasználó kérését több más keresőnek vagy adatbázisnak, és az azokból visszakapott találatokat összegzi. Metakeresőnek nevezzük azt a keresőszolgáltatást, amely több más, nem minden esetben ismert kulcsszavas keresőszolgáltatás találatait felhasználva készíti el a találati listát, saját adatbázist nem használ. A többnyelvű keresések miatt megadjuk a metakereső néhány ismert nevét: meta search engines (angol), Meta Suchmaschienen (német), métamoteur, métecheurcher (francia). 80
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Előnye, hogy a felhasználónak a kulcsszót vagy keresőkérdést csak egy alkalommal kell megadnia, mégis egyszerre több keresőt ér el. További előnye, hogy a legnagyobb keresők számára nem elérhető speciális adatbázisokban is képes keresni. Sok esetben hasznos az is, hogy segítségükkel körülhatárolható a keresett források köre, ami a megbízhatóságot növeli. Hátránya a találati lista lassú megjelenítése. Kedvelt felhasználási területe a tudományos élet (pl. orvostudomány), ahol az információk nagy része a hagyományos keresőprogramok által elérhetetlen adatbázisokban van (például publikációs adatbázisok). Megjegyzendő, hogy a később sorra kerülő meta tag (ejtsd: teg) kifejezéshez nincs szorosan kötődése, a hasonló hangzás ellenére a meta tageket nem a metakeresők miatt jöttek létre.
32. kép 7.3.2
A magyar Ariadnet metakereső weboldala
Metakeresők csoportosítása
A metakeresők virtuális adatbázist hoznak létre. Nem katalogizálják önmaguk a webet, hanem elküldik a felhasználó kérését több különböző forráshoz, és aztán az eredményekből 81
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE egy egységes találati listát készítenek valamilyen algoritmus alapján, de nem azonosak a metakeresők sem. A metakeresők két nagy csoportját, csak a legnépszerűbb keresőket használó horizontális, és az adott területre (pl. képek, blog) specializált vertikális keresőket tekintjük át. Beszélhetünk külön magyar horizontális és vertikális metakeresőkről is, bár ezek száma csekély, de jelentőségük kiemelkedő. A metakeresők két nagy csoportja (horizontális, vertikális) mellett elméletben elkülöníthetünk még egy olyan speciális csoportot a metakeresőkön belül, amely felajánl ugyan több keresőszolgáltatást, de azokból mindig csak egyet választhatunk ki. Ezt e keresőrendszert nevezzük gyűjtőszolgáltatásnak, amivel nem foglalkozunk a leckében. Létezik olyan, ami csak a legnépszerűbb keresőket használja, mások kevésbé ismert forrásokra is hivatkoznak, ezek a vertikális metakeresőknek. A találatok megjelenítésében szintén jelentős különbség van köztük. A redundancia kezelése, a forrásonként fontossági (relevancia) sorrend teszi jobban és kevésbé használhatóbbá azokat. A metakeresők közül még a szűkebb körben keresők is az internet jelentős területét teszik kereshetővé azáltal, hogy több kereső adatbázisát kombinálják. A világ metakeresőit nézve a magyar keresők a nyelvi korlátozottság miatt csak a magyar nyelvi közegre vonatkozóan horizontálisak. A leckében magyar metakeresők hangsúlyosabban jelennek meg, de néhány angol példával is találkozhatunk. Magyar nyelvi közegben horizontális kereső az Ariadnet. A magyar készítésű vertikális metakeresők: PolyMeta, Miner, valamint a PolyMeta-ra épülő Informed és Orvosoknak metakeresők. 7.3.3
Idegen nyelvű metakeresők
Az angol nyelvű általános metekeresőket használják a világon a legtöbbször, de természetesen magyar közegben a magyar nyelven kereső szolgáltatásoknak kiemelt a szerepe. Az angol nyelvű metakeresők száma rendkívül nagy, ezért az itt kiválasztottak egy erősen leszűkített, szubjektív képet adnak. Az első webes metakeresők egyike volt 1996-tól a Mamma, 2007-től a Mamma.com Inc. céget a Copernic Inc. nevezték át, a névváltozás előtt a webes keresők anyja szlogennel hirdette magát. 21. Mamma metakereső: http://mamma.com A Clusty egy ismert keresőmotor, képes az eredmények klaszterezésére, és ugyanannál az egyetemnél fejlesztették, ahol egy évtizeddel ezelőtt a Lycos keresőmotort. 22. Clusty metakereső: http://clusty.com 1994-ben, a Washington Egyetemen fejlesztették ki a MetaCrawler metakeresőt. A MetaCrawler napjainkban a leggyakrabban használt kulcsszavas keresőkre alapozza tevékenységét, mint Google, Yahoo!, Live Search (korábban MSN Search), Ask.com, About.com, MIVA, LookSmart, és egyéb népszerű keresőmotor. A MetaCrawler ezen kívül a felhasználóknak az alábbi szolgáltatásokat nyújtja: képkeresés, hangkeresés, videokeresés, hírkereső, cégkereső (yellow pages and white pages). A MetaCrawler az InfoSpace Inc. bejegyzett névjegye. 23. MetaCrawler metakereső: http://www.metacrawler.com
82
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az Ixquick metakereső 17 nyelven képes keresni (angol, kínai, japán, török és több más európai nyelven) 1998-ban a New Yorkban alapította a Surfboard Holding BV holland cég, a keresőmotort 2005-ben felújították. 24. Ixquick metakereső: http://www.ixquick.com
33. kép 7.3.4
A 17 nyelven kereső Ixquick metakereső angol nyitóoldala
Az Ariadnet bemutatása
Az Ariadnet a magyar nyelvű web egyetlen horizontális metakeresőrendszere. 25. Ariadnet metakereső: http://ariadnet.hu Az Ariadnetet a Hungary.Network Rt. fejlesztette ki 2001–2002-ben, a Miniszter Elnöki Hivatal (MEH) Informatikai Kormánybiztossága által a Széchenyi terv keretében kiírt pályázaton elnyert támogatásával. Az Ariadnet üzemeltetése és továbbfejlesztése szintén a Hungary.Network munkatársainak feladata. Az Ariadnet metakereső szolgáltatás természetesen ingyenes, továbbá a programjai is szabad-felhasználásúak, azaz ingyenes programok. A szolgáltatás a nevét Ariadné fonaláról kapta. Az interneten, mint egy labirintusban szükséges egy vezérfonal ahhoz, hogy oda jusson el a felhasználó, ahova a legjobban szeretne. Az Ariadnet alapnyelve a magyar, és magyar nyelvű vagy magyar vonatkozású információkat keres, beépített szótőelemző programja és szinonimaszótára a magyar nyelv szabályaira épül, és olyan keresőkkel dolgozik együtt, amelyek a magyar nyelvű honlapok közötti keresésre specializálódtak, vagy abban sikeresnek bizonyultak. Az alkalmazott keresők egy része ugyanakkor számos idegen nyelven képes keresni, illetve sok olyan magyar és magyar vonatkozású honlap létezik, melyek tartalmaznak idegen szavakat is, ezért ezek szintúgy megtalálhatók az Ariadnet segítségével. 83
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az Ariadnet egyedülálló, felhasználóbarát szolgáltatása az a szótőelemző eljárás, amely a ragozott szóalakokból képzi a szótöveket, ami a keresés alapja lesz. A felhasználót segíti továbbá egy beépített szinonima-szótár, amely felajánlja a keresett kifejezéssel jelentéstani kapcsolatban álló szavakat. 7.3.5
Az Ariadnet használata
Az egyszerű keresésnél egy vagy több keresendő szót lehet megadni a keresőmezőben. A szavak között alapértelmezésben „és” kapcsolatot feltételez a rendszer, de használhatók az „and” (és), „or” (vagy), „not” (kivétel) logikai operátorok is. A kereséshez ki kell választani azokat a keresőprogramokat, amelyeket használni szeretnénk, minél több keresőt választunk, annál tovább tart a keresés. Az összetett keresés abban különbözik az egyszerű kereséstől, hogy külön keresőmezőkben lehet megadni a keresőszavakat, amivel a következőket kérhetjük: nem feltétlenül közvetlen egymás mellett, de mindegyik szerepeljen a keresett oldalon, vagy a megadottak közül legalább az egyik szó szerepeljen, vagy szó szerint szerepeljen, vagy pontosan a megadott sorrendben, egymás mellett szerepeljenek, vagy ne szerepeljenek a találati lista eredményei között. Mindezek a funkciók együttesen is használhatók. A keresés pontosítására és szűkítésére a rendszer az összetett keresés funkción túl az alábbi lehetőségeket kínálja: a „Keresőnként legfeljebb ... találatot kérünk” opcióban megadhatjuk, hogy keresőnként maximálisan hány találatot kérjen a program a keresés során. Beállíthatjuk továbbá, hogy legfeljebb milyen idős oldalak kerüljenek a találati listára: legfeljebb 3 hónapos, legfeljebb 6 hónapos, legfeljebb 9 hónapos, avagy bármilyen korú oldal. A „Keresett szavak helye az oldalon” funkció segítségével megadhatjuk, a keresett kifejezés hol szerepeljen az oldalon: bárhol, a címben, a szövegben, az URL-ben. A „Csak a ... doménen” belüli keresés során leszűkíthetjük a keresést, pl. az oszk.hu domén alatti oldalakra. Beállítható az is, hogy hány találatot kérünk egy oldalra. A szinonimaszótár akkor segít a keresésben, ha a keresett kifejezésnek szinonimái is előfordulhatnak egy oldalon. Ha például bibliotékával kapcsolatos információkat keresünk, a szinonimaszótár hasonló jelentésű szavakat, esetünkben pl. a könyvtár szót adhatja viszsza. A keresés során a keresett kifejezés begépelése után meg kell nyomni a „szinonimaszótár” gombot. Az ekkor előugró panel felkínálja a választható szinonimákat, ha rákattintunk, akkor az bekerül a keresőmezőbe. Egymás után több szinonimára is választható.
84
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
34. kép 7.3.6
Az Ariadnet metakeresőben a gyermek szóra felajánlott szinonimák
Az Ariadnet keresőmotor
Az Ariadnet az alábbi magyar keresőket használja: Altavizsla, Góliát, Hálóvilág, Heuréka, Hírkereső, Hudir, Index kereső, KincsKereső, Magyar Címtár, Magyar Honlap Katalógus, Sharelook, Wahoo. Az Ariadnet az alábbi külföldi keresőket használja: AltaVista, Excite, Fast Search, Google!, HotBot, Lycos, Metacrawler, Metager, Northern Light, WebCrawler. Mindezek közül bármelyik külön kiválasztható vagy letiltható. A keresés folyamán az Ariadnet keresőmotor sorban felkeresi a kijelölt keresőket, és lekéri mindegyiktől ugyanazt a keresőkérdést, majd a beérkező találatokat feldolgozza és sorba rendezi. A keresés sebessége részben függ attól, hogy hány keresőt használunk egyszerre, részben attól, hogy milyen gyorsan reagál a leglassabb közülük. Először célszerű csak néhány keresővel próbálkozni. A keresés akkor ér véget, amikor az összes kijelölt kereső válaszolt a lekérésre. Az ekkor kapott találati lista oldalai között a lépegetés már sokkal gyorsabb lesz, mint az első keresés. Ennek az az oka, hogy a rendszer eltárolja a találati listát, és a további oldalak megjelenítésekor már nem fut le újabb keresés. Az Ariadnet metakereső egy kidolgozott algoritmus alapján a keresők által visszaadott listák találatait relevancia szerint rendezi. Az algoritmus figyelembe veszi a több kereső által is ajánlott ismétlődéseket, a lapok méretét, az időpontokat, továbbá a felhasználó kattintásait és osztályzatait. A lapok méretvizsgálatánál a rövidebb lapon megtalált szó lesz a relevánsabb találatot. Az időpontokat vizsgálva a frissebb oldalakon értékesebb, kevésbé elavult információ van. Az Ariadnet keresőmotor a relevancia megállapításához alkalmaz egy, a felhasználók által megadott szavazati számot. A találati listán minden találat mellett szerepel egy legördülő menü, 1-től 10-ig terjedő számokkal. A felhasználó szavazhat arra, hogy a megadott 85
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE keresőkérdésnek mennyire felel meg az adott link. Ha úgy találja, hogy egyáltalán nem olyan dologról szól az oldal, mint amit keresett, akkor az 1-es, ha releváns, akkor a találat, akkor 10-es osztályzatot ad. Az így összegyűjtött osztályzatokat arra használják, hogy az újabb kereséseknél a találatokat a felhasználói minősítés szerint is súlyozzák. Tehát minél többen használják a szavazás funkciót, annál jobb találatokat fognak kapni a következő alkalommal a felhasználók. Az Ariadnet keresőmotor szolgáltatásai regisztrált felhasználóként is igénybe vehetők, ekkor belépésnél a felhasználói nevet és a jelszót meg kell adni. A regisztrált felhasználók által megadott beállításokat megjegyzi a rendszer, így új belépéskor a legutóbb használt beállítások maradnak meg, azaz nem kell újra beállítani a keresés feltételeit. 7.3.7
A PolyMeta bemutatása
A PolyMeta egy vertikális metakereső, a WebLib Kft. fejlesztése. 26. PolyMeta metakereső: http://polymeta.hu Magyar és nemzetközi keresőket lekérdező, toldalék-felismerésre képes metakereső. A keresési eredmények javasolt altémák szerint szűkíthetőek. Lehetőséget nyújt tetszőleges számú, interneten keresztül elérhető keresőrendszer egyidejű keresésére. Az eredményekből közös találati lista készül, amelyben az elemek fontossági sorrendbe rendezettek. A PolyMeta segítségével lehetővé válik tetszőleges számú adatforrás egyidejű keresése, jelenleg közel ezer kereshető forrás (tudományos adatbázisok, általános keresők, metakeresők, híroldalak videó, kép, hírforrások, rejtett web források: könyvtári katalógusok, publikációs oldalak...) érhetők el vele. Egyetlen egyszerű keresőfelület jellemzi, amely áttekinthető eredménylistát ad, akár különböző típusú találatok esetén is (szöveg, kép, videó), és az eredményhalmaza többféleképpen rendezhető. A találati listához megjeleníthető egy tartalomjegyzék, ami fejlett nyelvi elemzőtechnológia felhasználásával készül. A nyilvános Internet tartalom rohamos növekedése mellett, a közzétett információ egy igen jelentős része az általános Internet keresőkkel nem elérhető. A rejtett web csak olyan forrásokon keresztül válik kereshetővé és „láthatóvá", amelyek keresési kérésre válaszolva, adatbázisokból, dinamikusan állítanak elő tartalmat. Egy intézményénél több költséges forrásra (PubMed, Web Of Science, Biomed Central, EMBASE, Merck Manual...) előfizethetnek a látogatóik, a munkatársaik, a kutatóik érdekében, a PolyMeta ezekhez a információelérésekhez nyújt segítséget. 7.3.8
A PolyMeta keresőmotor
A Polymeta keresőmotorja széleskörűen testreszabható szolgáltatásokkal rendelkezik: létező honlapba illeszkedő megjelenés, különböző eredmény sorrendezés, találat előnézet, duplikáció kezelés és további számos opció, amivel egyszerű vagy épp összetett, kutatói keresőfelület konfigurálható. A PolyMeta keresőmotorhoz kapcsolódó legújabb fejlesztéseket egy fejlesztési blogban olvashatjuk (www.weblib.hu/feed/blog). A kutatói felületi kialakításához a felhasználó építheti a keresőt, melynek fontosabb elemei: a felhasználó maga kijelölheti a keresendő forrásokat, elgépelésellenőrzés (angol), becsatolható keresőszó javaslat, elérhető a keresett források eredeti találati oldala is, felhasználó által kiválasztható rendezés, előnézeti ablak a találati listán belül, duplikált talála86
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE tok szűrése és megjelenítése. Statisztikák, jelentések generálhatók a keresésszámról és a keresett kifejezésekről, források változásainak automatikus detektálása és további, automatikus öndiagnosztika. Bibliográfiai adatbázisoknál nem csak témakörök, hanem szerzők vagy publikálási dátum alapján is szűkíthetjük a találatokat. A nyelvi elemzéshez a MorphoLogic cég csúcstechnológiájú nyelvi eszközkészletét alkalmazzák. Nyelvi elemzésen alapuló tartalomjegyzék („clustering”) segítségével, a keresőtémával kapcsolatos kifejezésekkel szűrhető a találati lista. Ezen altémák mentén azonnali áttekintést kapunk az eredmények tartalmáról. Egy kattintással elérhetők egy kapcsolódó fogalomról szóló találatok anélkül, hogy a teljes listát magunknak kellene végigböngészni. A metaadatok alapján tartalomjegyzék építése lehetséges a Dublin Core ajánlás (www.dublincore.org) szerint. Megfelelő adatot szolgáltató forrásoknál egyéb szempontok alapján is építhető tartalomjegyzék. Például szerzők nevei, vagy publikációs dátum szerint. Végülis mire jó a tartalomjegyzék? − Elsősorban a virtuálisan láthatatlan eredmények megtalálására. A felhasználok nagy része csak a keresők első, néha a második találati oldalát nézik át. A többi gyakorlati szempontból láthatatlan a felhasználó számára. A tartalomjegyzék segítségével viszont egyszerűen megjeleníthető minden olyan eredmény amiben az adott szó szerepel, függetlenül attól, hogy sorrendben hányadik helyen volt. − Másodsorban a keresésünk pontosítására, szűkítésére. A tartalomjegyzék megmutathat olyan, a keresett témához kapcsolódó (asszociált) kifejezést, ami jobban leírja mit is szerettünk volna igazából megtalálni (példa: „Neumann János” > „játékelmélet” > „Herman Goldstein” > „Atomic Energy Comission”). Esetleg csak hallunk valamit és szeretnénk rákeresni, de nem ismerjük a pontos kifejezést, vagy épp nem tudjuk hogyan írják. Mint például a betegségeknél vagy tudósok nevei esetén. − Harmadsorban a tartalomjegyzék ismeretnövelésre is kiváló. Sokszor a tartalomjegyzék olyan kifejezéseket tartalmaz, ami új összefüggéseket tár fel a keresett szóval kapcsolatban. Például egy személy kapcsán a szervezet neve, ahol dolgozik vagy a foglalkozása, illetve egy alkotás címe kapcsán az alkotók neve, vagy egy helyszín neve (példa: „piramis” – „Egyiptom”, „Révész Sándor”).
87
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
35. kép
A PolyMeta metakereső oldalán a „katalógus” kulcsszó esetén a tartalomjegyzék megjelenése az ablak bal oldalán
Sok esetben a megtalált információk megbízhatósága kérdéses, amit a keresésben résztvevő források szakértők általi kiválasztásával lehet kontrollálni, ilyen például az egészségügyi keresés. Nagyon sok lap tartalmaz egészségügyhöz kapcsolódó információkat, de nem lehet tudni mi igaz a leírtakból. A Dokim tematikus kereső (dokim.hu) Magyarországon ami a PolyMeta keresőre épülve, megbízható egészségügyi forrásokban keres csak, elkerülve a kétséges megbízhatóságú tartalmakat. 7.3.9
A Miner bemutatása
A Miner (miner.hu) egy magyar vertikális metakereső. A Miner kereső szolgáltatásait a Wish Internet Consulting cég fejlesztette. A Miner metakereső a blogok bejegyzéseiben, videomegosztó oldalak videóiban keres, illetve egyéb tartalmak keresését végzi. A Miner metakereső blogkereső szolgáltatása a magyar nyelvű blogoszférában egyedülálló mennyiségű blogot ismer, és azok bejegyzéseiben keres. A Miner metakereső videokereső szolgáltatása a hazai videomegosztó oldalak tartalmában, a Twitter-kereső szolgáltatása a Twitter (twitter.com) magyar tartalmában keres. A Twitter egy ismeretségi hálózat és mikroblog-szolgáltatás, mely lehetővé teszi a felhasználóknak, hogy rövid bejegyzéseket vagy egymásnak szánt üzeneteket írjanak SMS-ben. A Miner metakereső fotókereső szolgáltatása a hazai fotóblogokból, illetve a blogszféra egy adott téma köré szerveződő blogjaiban kereső aloldalakból meríti az adatokat, mint
88
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE például gasztroblog kereső, webkettő és webfejlesztés témájú blogok keresője, marketing témájú blogok keresője. A Miner ugyan az internetnek csak egy-egy szegletében keres, specializáltsága miatt jelentősen hatékonyabb, adott tartalomtípusban az általános kulcsszavas keresőknél mélyebben az adatmerítés, és a friss információk hamarabb jelennek meg a rendszerében. Az oldalhoz társul egy saját szerkesztésű blog (blog.miner.hu) is, itt folyamatosan teszik közzé az oldallal kapcsolatos fejlesztésekről és egyéb témákról szóló beszámolókat, híreket.
36. kép 7.3.10
A Miner metakereső weboldala
A Miner keresőmotor
A Miner fejlesztése a webkettes fejlesztésekben megszokott „release early, release often” metódus jegyében zajlik, azaz legtöbbször korai állapotukban teszik közzé az újabb lehetőségeket, szolgáltatásokat. A Miner keresőmotor fedi le legteljesebben a magyar nyelvű blogok bejegyzéseit, magyar nyelvterületről a Miner kínálja a legfrissebb és a legtöbb találatot. A blogkeresője ráadásul nem csak blogokban, de az összes RSS/Atom formátumban közzétett információban keres. A Miner blogkeresőbe az egyes blogok automatizált folyamat során kerülnek be, az utolsó lépés azonban adott esetben emberi szűrőn keresztül történik meg. A hazai blogszolgáltatóknál regisztrált blogokat tartalmuktól függetlenül minden esetben automatikusan magyar nyelvűnek, és blognak minősíti. A független és a külföldi blogszolgáltatóknál létrehozott blogok egyedi elbírálás után, azok tartalmi és nyelvi, ember által történő ellenőrzése után kerülnek be a rendszerbe. 89
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Blognak a vélemény jellegű bejegyzéseket időpont szerint rendezve közzétett információforrást nevezik. A Miner RSS és Atom formátumú hírforrások alapján dolgozik, így technikai okokból csak azokat a blogokat tudja felvenni rendszerbe, amelyek ennek megfelelnek. Jellemzően a hazai blogszolgáltatóknál nyitott blog az első bejegyzés megjelenése után szinte azonnal, automatikusan bekerül. A blogok egy részét a keresőrobotok derítik fel, melyek hatékonysága változó, így bekerülésük nem minden esetben történik meg. Független blog, vagy külföldi szolgáltatónál létrehozott blog esetén a blog írói jelezhetik a Miner üzemeltetői számára, ehhez az oldalon található kérdőívet kell kitölteni. 7.3.11
Egyéb magyar metakeresők
Magyarországon érdekes módon a Miner metakereső kivételével kizárólag orvosi témájú vertikális metakeresőket hoztak létre. A két orvosi metakereső az Orvosoknak (orvosoknak.hu) és az Informed (http://www.informed.hu). Az Orvosoknak oldal ingyenes, de regisztrációhoz kötött, elsősorban praktizáló orvosoknak szól. Az Orvosoknak a világháló válogatott magyar és nemzetközi orvosi tartalmai között képes keresni, a szakemberek számára optimalizálták a keresőeszközöket. A keresések a PolyMeta metakeresőn alapulnak. Az Informed valójában egy egészségügyi portál, melynek az egyik menüjében találjuk a metakeresőt, ami teljes weboldalként jelenik meg. Az Informed metakereső a Dokim keresőmotorját használja. 7.4
ÖSSZEFOGLALÁS
Metakeresők működési elvét a magyar és külföldi metakeresők használatának és működésének elsajátításával ültettük át a gyakorlatba. Az Ariadnet, a PolyMeta és a Miner használatának és a keresőmotor működését részletes bemutatása kapcsán tapasztalatot szereztünk a metakeresők működséséről, alkalmazásának lehetőségeiről. Ezen kívűl beszéltünk még néhány magyar metakereső szolgáltatásról. 7.5
ÖNELLENŐRZŐ KÉRDÉSEK
Értelmezze a metakereső fogalmát! 2. Mutassa be a tanult metakeresőket! 1.
90
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
8. SPECIÁLIS KERESŐK 8.1
CÉLKITŰZÉS
Kitekintés nyújtása a keresők nagy választékából. A könyvtárosi munka szempontjából jelentős keresők bemutatás, azok jellemezése. A keresőrendszerek és a specializált keresések összehasonlítása, azok előnyei és hátrányai a könyvtáros szakma tükrében. 8.2
TARTALOM
A speciális keresők előnyei a könyvtáros számára Tudományos keresők Termékkeresők Felhasználói vélemények keresése Kép- és mozgókép keresők Személykeresők, cégkeresők, településkeresők Tudástárak Humán alapú keresők
8.3 8.3.1
A TANANYAG KIFEJTÉSE A speciális keresők előnyei a könyvtáros számára
Információkeresés elsősorban a kulcsszavas keresőkkel és katalógusokkal valósul meg, de számos más, a két nagy keresőlehetőséget részben használó kereső létezik. A speciális keresőket sokszor úgy definiálják, hogy segítségükkel lehet a rejtett weben (deep web) keresni, ezek szinte mindegyike ún. vertikális kereső. A hagyományos webes keresőktől eltérő profilú keresőrendszerek, információforrások gyűjtőhelye. A speciális keresőket nagyon nehéz csoportosítani, mert a legtöbb csoportosítás csak nagy átfedésekkel oldható meg. Az ilyen adatbázisokban való keresést tárgyszójegyzékek és hagyományos osztályozási rendszerek segítik, különösen a tudományos adatbázisok esetében. Ezek az adatbázisok olykor jelentős értékkel bírnak, így gyakran fizetnünk kell a használatukért. Tágabb értelemben ezek közé a szolgáltatások közé sorolhatjuk az online menetrendeket, telefonkönyveket és a többi hasonló szolgáltatást is. A speciális keresőkről egy gyűjteményt találunk a Startlap oldalán: 27. Startlap: kereso.lap.hu. Az egyetlen honlaphoz (site) kapcsolódó keresési lehetőségek tárgyalását a tudományos élethez kapcsolódó keresőkkel kezdjük. 8.3.2
Vertikális magyar indexelt keresők
A kulcsszó alapú szolgáltatások között is vannak adott tárgykörre specializált. Az egyedi témakör szerint keresők, azaz vertikális keresők. Ezek a speciális keresők egy, esetleg néhány területet fednek le, de azt igen mélyen.
91
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Példa: A HEUREKA magyarországi, és magyar vonatkozású weboldalakat indexeli automatikusan. 28. A Heuréka kereső www.heureka.hu Természetesen vannak egyéb dokumentumtípusra, térképekre, személyekre, telefonszámokra stb. specializált keresők. Példa: Vertikális keresők lehetnek: a személykeresők, a kapcsolat alapú rendszerek keresői, a térképek keresői, az online újságok keresési lehetőségei, szoftverkeresők, forráskód keresők, a jogszabályok keresése, a vezetékes és a mobil telefonszámok keresése és annak korlátai, a cégek, intézmények saját keresői, illetve a szervezeteket kereső oldalak 8.3.3
Tudományos keresők
A tudományos keresők alatt a tudományos publikációkkal, kutatókkal, és a tudományos élettel kapcsolatos témaköröket tárgyaljuk. A Google tudományos keresőjéről már a Google-ről szóló leckében volt szó. Tudományos indexek A tudományos indexben általában sok száz neves tudományos szaklap cikkeit lehet böngészni. A cikkek adatai, sok esetben a teljes szövege, azok idézettsége is kereshető. Ezek a weblapok dinamikusan jönnek létre, és szűnnek meg a megtekintés után, így a keresőmotoorok számára eléhetetlenek. Az adatbázisok keresőrendszerei a webes keresőknél sokkal szabatosabb keresést tesznek lehetővé. A legkomolyabb adatbázisok nem ingyenes nyújtják szolgáltatásaikat. Tekintsünk meg ezek közül négyet! A Scopus (www.scopus.com) egy adatbázis, mely a tudományos folyóirat cikkek kivonatait és a hivatkozásokat tartalmazza. Megközelítőleg 18 ezer bejegyzés található benne, több mint 5 ezer nemzetközi kiadótól több tízezer nemzetközi folyóirat a természettudomány, a technika, az orvostudomány és a társadalomtudomány területeiről. A WebOf Knowledge egy, a tudomány egész területére kiterjedő bibliográfiai adatbázis. Tartalma tudományos szempontok szerint rendszerezett. A cikkek bibliográfiai adatain kívül a szerzői hivatkozások is megtalálhatók benne. Heti rendszerességgel frissítik. Adatbázisa három fő részből áll: − Science Citation Index: Természet- és műszaki tudományok indexe. Több mint 160 tudományterület közel 8000 folyóiratát dolgozza fel részben vagy teljes egészében. Hetenként kb. 20 000 új rekorddal bővül. − Social Sciences Citation Index: A társadalomtudomány kb. 50 ágának 1700 folyóiratát dolgozza fel teljes egészében, de több ezer további tudományos folyóirat kapcsolódó cikkeit is tartalmazza. Hetente közel 3000 új cikkel bővül. − Arts & Humanities Citation Index: Bölcsészettudományi és művészeti index. 25 tudományág 1144 folyóiratát indexeli, de tartalmazza további 5700 folyóirat vonatkozó cikkeit is: A SCIRUS (www.scirus.com ), mely az Elsevier Kiadó 2000 folyóiratának teljes szövegéből, illetve a kiadó által épített szabadalmi, disszertációs és egyéb adatbázisaiból merí92
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE ti a találatokat, azonban a találatok megjelenítése után a teljes szöveghez sok esetben csak előfizetéssel férhetünk hozzá. A Directory of Open Access Journals (www.doaj.org) egy ingyenes szolgáltatás, amely teljes szövegű hozzáférést biztosít lektroált folyóiratokhoz. Megpróbálják az össze studományterületet lefedni Most 5140 folyóirat szerepel a rednszerben, ebből jelenleg 2122 folyoirat kereshető a cikkek szintjéig. Az összes cikk száma 400 ezer fölött van. Magyar Tudományos Akadémia A Magyar Tudományos Akadémia (MTA) honlapja (www.mta.hu) a könyvtárosok számára egy kiindulópont lehet egy tudományág, szakterület megismeréséhez, jeles képviselőihez. A honlap a tudósok, az eredmények, a cikkek, hírek és pályázatok kereséshez egyaránt segítséget nyújt, de mindezt több, egymástól megjelenésben és használatban is eltérő módon. A megismerést kezdjük a személykeresőknél. Az MTA tagjai és az MTA doktorai a bal oldali menüben a megfelelő menüpont segítségével kereshetők. Az MTA tagok közötti kereséshez a jobb oldali Keresés nevű rész is alkalmas. Itt lehetőség van továbbá a Tudós adatbázisban keresni, ami az előző személykeresőknél sokkal bővebb, mintegy 15 ezer kutató neve szerepel az akadémiával kapcsolatban lévő kutatók adatbázisában. A személykeresők használata nem egységes, de kezelésük magától értetődik. Az MTA tagok és doktorok keresői a megfelelő szakterület kiválasztása után a nevek teljes listáját mutatják meg. A kutatási lehetőségek és a tudományos eredmények valójában nem jelentenek valódi keresést, egy-egy menüpontban megtalálhatók. A tudományos eredmények a felső menüsor az MTA kutatóhálózata menüjében az MTA kutatóhálózatának eredményei menüjének Az MTA kutatóhálózatának eredményei almenüjében tekinthetők meg. A pályázati lehetőségek, munkalehetőségek a jobb oldali Pályázatok nevű rész menüpontjainak kiválasztása után lesz látható. A kutatatók publikációi két adatbázisban kereshetők a bal oldali Publikációs adattárak menüpont választása után: Köztestületi publikációs adattár, Tudományos publikációs adattár. A köztestületbe a tudományos fokozattal rendelkező kutatók, oktatók tartoznak, melyhez MTA tagság nem szükséges. Napjainkban, 2010-ben közel tízezer hazai és ezer határon túli tagot számlál. A Köztestületi publikációs adattár feladata a köztestületi tagok publikációinak és azok idézettségére vonatkozó adatok tárolása. A Tudományos publikációs adattár az MTA kutatóhelyein dolgozó kutatók által közölt tudományos és ismeretterjesztő publikációk, valamint az ezekre érkezett idézetek bibliográfiai adatait tartja nyilván. Videotorium A Videotorium (videotorium.hu) a felsőoktatás és kutatás céljait szolgáló videó-megosztó portál, amely helyet és különleges megjelenési formát biztosít a felsőoktatási intézményekben, kutatóintézetekben és közgyűjteményekben keletkező videó-tartalom számára. A szolgáltatás ingyenesen hozzáférhető a NIIF tagintézmények felhasználói számára. A Nemzeti Információs Infrastruktúra Fejlesztési Intézet (NIIF Intézet) a magyarországi felsőoktatási és kutatói hálózat fejlesztéséért és működtetéséért felelős szervezet. Az Intézet az országos NIIF Program keretében a teljes magyarországi kutatási, felsőoktatási és közgyűjteményi közösség számára biztosít integrált országos számítógép-hálózati infrastruktúrát, valamint erre épülő kommunikációs, információs és kooperációs szolgáltatásokat, élvonalbeli alkalmazási környezetet. A tartalomban megtalálhatók a tudományos kon93
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE ferenciák, szemináriumok, órarendi előadások, tréningek/képzések, szakmai rendezvények, tudományos kísérletek előadásai. A kulcsszavas keresés az előadások címére, az előadó nevére és a videóhoz társult rövid, szöveges leírásra támaszkodik, de mód van a Kategóriák menüben tudományterületenként is keresni, így egyfajta tematikus tudományos videokeresőként használható. 8.3.4
Termékkeresők
A termékkeresők közül a Google könyvkeresőjét érdemes megemlíteni, melyet a http://books.google.com/ találunk meg, és a könyvek szövegében is képes keresni, mivel a Google a könyveket digitalizálta. A könyvkereső történetével a Google történetéről szóló fejezetben már megismerkedhettünk. Most néhány friss adatot tekintsük csak meg. 2010 decemberére a Google Könyvkereső felület több mint 35 nyelven érhető el a japántól a cseh és a finn nyelvekig, természetesen magyarul is. Száznál is több ország 10 ezernél is több kiadója és szerzője vesz részt a Könyvkereső partnerprogramban. A Könyvtárprojekt 28 partnerre terjed ki, beleértve hét nemzetközi könyvtárpartnert: Oxfordi Egyetem (Egyesült Királyság), a madridi Complutense Egyetem (Spanyolország), a katalán Nemzeti Egyetem (Spanyolország), a Lausanne-i Egyetemi Könyvtár (Svájc), Ghenti Egyetem (Belgium) és a Keio Egyetem (Japán). Termékkeresés Az arukereso.hu (www.arukereso.hu) egy internetes termék- és szolgáltatás-kereső, ami lehetővé teszi, hogy a vásárlók magyarországi hagyományos és internetes áruházak kínálatát egy helyen böngészhessék, keresett termékek forgalmazóit megtalálják. Ha friss találatokat szeretne egy vállalkozás webshop szolgáltatásáról, akkor ezt kérheti, de saját keresőrobottal is rendelkezik, ami hetente látogatja meg a webáruházakat. A Netkereső egy címszavakra épülő internetes cég és weboldal kereső adatbázis. A Netkeresőbe a regisztráció ingyenes, a bekerülés azonban függ a feltöltöttségi kapacitástól. www.kalauz.hu Információs közösségi oldal, ami sok tízezer termék és szolgáltatás elérhetőségét, sok ezer vállalkozás, üzlet, cég és intézmény adatait, híreit, ajánlatait tartalmazza. Ezekben regisztráció nélkül, szabadon kereshetünk. A keresés lehetőségeit: szabadszavas és kulcsszavas keresés. A szabadszavas keresésnél a „Mit keresel?” feliratú mezőbe gépelhetünk egy teszőleges szót vagy összetett kifejezést. A találati lista az összes olyan cég és intézmény nevét tartalmazni fogja, amelynek nálunk levő weboldalán a keresett kifejezés előfordul. A „Hol keresed?” mező kitöltése nem kötelező, de beírhatunk településnevet, irányítószámot, vagy például azt, hogy „Budapest XIII. kerület”. Ebben az esetben az adott település, kerület cégei, intézményei kerülnek a találati lista élére. Így kereshető meg a legközelebbi szolgáltató, üzlete, intézmény. A kulcsszavas keresés esetén a legnépszerűbb kulcsszavak (találati oldalakon a kapcsolódó kulcsszavak) közül elég bármelyikre rákattintani, máris az adott kifejezést tartalmazó oldalaink listája jelenik meg. A találati lista szűkítéséhez a kulcsszó előtti „+” jelet kell kiválasztani, így újabb kulcsszó adható hozzá a keresési feltételekhez. Etávolítás a „-” jellel történik. 94
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 8.3.5
Felhasználói vélemények keresése
Blogkeresők A metakeresőkről szóló leckében szóltunk a Miner keresőrendszerről, ami többek mellett a blogok bejegyzéseiben is keres. A Miner metakereső a magyar nyelvű blogokat kutatja. A Miner mellett említést érdemel két katalógus szolgáltatás a Blogsearch.hu (www.blogsearch.hu) és a Blogkatalogus.net (www.blogkatalogus.net/), a Startlap katalógus blogokkal kapcsolatos oldala (http://blog.lap.hu/), illetve a magyar nyelven is elérhető Live Journal, ami az érdeklődési körök szerinti blogokat, személyeket is képes megmutatni (www.livejournal.com/interests.bml), de igazán angol nyelven használható. Keresés fórumok hozzászólásaiban A Fórumkereső (http://forumkereso.hu/) rendszer indulásakor az Index, a HWSW, a Nők Lapja Café, a PC WORLD és a Terminal oldalak fórumainak hozzászólásaiban kereset, ami azóta bővült. A találati rangsorban az adott hozzászólás kiegészítő adatai is megjelennek, mint például dátum, szerző és kategória. A kereső Főoldalán kulcszavas keresőként, míg a Célzott keresésnél katalógusként is használható. 8.3.6
Kép- és mozgókép keresők
A témakörre specializált keresők közül a kép- és mozgókép keresők kapnak kiemelt figyelmet. A keresést élesen el kell különíteni két, a keresés szempontjából egészen eltérő feladatot jelentő részre. Az egyik esetben egy témával kapcsolatban, kulcsszó alapján magát az objektumot keressük, míg a másik esetben a képen vagy a videón keresünk feliratot, személyt vagy tárgyat. Objektum keresése A Google kép- és videókeresőjével már megiserkedtünk. Nézzük meg, hogy milyen más keresők vannak még ebben a témakörben. Kezdetben a Yahoo.com volt az elsők egyike, majd később a Bing (MSNSearch) és sok más kereső is kínálta ezen vertikális keresési szolgáltatását. A képet a fájl neve és a weboldalon található, a kép közelében elhelyezett kulcsszó alaján találták meg. Manapság egyre erőteljesebb, különösen a felhasználó által feltöltött képek esetén a cimkézés (pl. személyek), és a személyeket az adott rendszer ezután már más, a személyt tartalmazó állólpen is felismeri, és automatikusan felajánlja cimkézésre (pl: Picasa, de ez nem keresőrendszer). Objektumon keresés Ha a képen vagy a videón keresünk feliratot, személyt vagy tárgyat az utóbbi sokkal pontosabb találatot szolgáltatna, de a keresések ezen módjának online változata jelenleg még kezdeti stádiumban érhető el, ebből a legnépszerűbb az arcfelismerés. Az egyik legkedveltebb web 2-es alkalmazás az internetes fotóalbum. A kiélezett harc miatt a userek joggal várják el, hogy ingyenes szolgáltatásként, csupán regisztráció után is szinte korlátlan mennyiségben tölthessenek fel képeket. Fizetni azért hajlandóak csak, ha
95
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE ennél valamivel többet: könnyű használhatóságot, vagy valamilyen extra szolgáltatást kapnak a pénzükért. A Riya nevű internetes cég 2006-tól tette lehetővé, hogy a weboldalára feltöltött fotóalbumunkon kijelölhetjük, és beazonosíthatjuk a fotókon szereplő személyeket. A kezdeti tanítás után a Riya felismete a fényképeken látható embereket és a hosszadalmas manuális felcímkézés helyett, automatikusan címkézte (taggelte) a fotókat. A Facebook fejlesztése nagy mértékben egyszerűsíti a fotók felcímkézését. Egy arcfelismerésre alkalmas technológia intergrálásának köszönhetően a közösségi oldal ugyanis automatikusan képes megállapítani a fotókon hol szereplnek emberi arcok, és automatikusan felkínálni azokat felcímkézésra a felhasználó számára. Az arcfelismeréssel kapcsolatos érdekes oldalak: 29. http://www.myheritage.hu/hiressegek 30. http://www.pictriev.com/facedb/fs2.php 31. http://www.avinashtech.com/hu/internet/search-similar-faces-web-face/ A Google Goggles szövegfelismeréséről. A technológia impozánsnak tűnik, ám még nehezen alkalmazható valós szituációkban. A lényeg röviden: a fotó alapján felismertetjük a szöveget és azt automatikus lefordítjuk a kívánt nyelve, pl. mobiltelefonnal. A Google Goggles fordítótulajdonsága valószínűleg még nehézkesebben működne például köztéri szövegek esetében. A problémát a sokféle betűtípus, a fényviszonyok (pl. egy éttermi asztalnál), a változó képminőség és persze a nyelvi fordítás nehézségei jelentik. A törekvés arra, hogy a környezetünkben megjelenő idegen nyelvű szövegeket a helyszínen azonnal le tudjuk fordítani egy mobilkészülékkel mindenesetre kedvező lépés a szolgáltatás valódi elterjedéséhez. 8.3.7
Személykeresők, cégkeresők, településkeresők
Az első bemutatandó magyar személykereső a Drótposta (http://dpl.drotposta.hu/). A magyar személyekről ez a kereső tartalmazza a legrészletesebben megtekinthető információt. Megbízható személykereső, mivel időszakonként levelet küld a bejelentkezetteknek és válasz hiányában törli őket a nyilvántartásból. Az ellenőrzés során pedig a nyilvántartott adatmódosítást kérhet. Ezek alapján ez a személyi nyilvántartás megbízhatóbb, mint a szokványos telefonkönyv, mivel a bejegyzett személyektől időszakonként megerősítést kér. A Magyar Internet Ki Kicsoda kizárólag személyes lapok listázására szolgál. Az önkéntes jelentkezési lapjának vagy törlési lapjának kitöltése nem feltétlenül jelenti a listázás azonnali megkezdését vagy megszüntetését, erre várni kell olykor. Az adatbázisban szereplő címek nem használhatók fel levelezési listákhoz, illetve nem használhatók fel kereskedelmi célra Személykeresést még végezhetünk a telefonkönyvekben, a közösségi portálokon (Iwiw) és a munkahely honlapján, a tudományos élet képviselőit az MTA, az oktató- és kutató intézmények honlapján. A vállalat vagy szervezet listázására a Hungary.Network más helyein van lehetőség. Az ACCOONA (www.accoona.eu ) egy európai irányultságú keresőgép, melyben ingyen elérhető több mint 25 millió európai vállalat üzleti adata. A keresőmotor fejlettségére utal, 96
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE hogy a beírt keresőkérdés szinonim kifejezéseire is rákeres. A magyar cégek adatait mutatja térképpel a Cégtár (www.cegtar.hu) Magyarország első honlapja (megyék, városok, intézmények); webhelye: 32. Magyarország első honlapja: http://www.fsz.bme.hu/hungary/homepage_h.html Magyarországi települések, utcák kereshetők több keresővel is az alábbi webhelyeken: 33. Településkereső: www.telepuleskereso.hu 34. Utcakereső: utcakereso.hu 35. Google Maps (bármilyen földrajzi egység kereshető): maps.google.com 36. Google Maps (Magyarországra fókuszálva): www.terkep.google.hu 8.3.8
Tudástárak
A tudástárak a könyvtár tájékoztatás új, de nem minden esetben elfogadható elemei. Hazánkban is a legelterjedtebb online szótár a Wikipédia (wikipedia.hu ), mely egy többnyelvű, nyílt tartalmú, az internethasználók közössége által fejlesztett, webes enciklopédia. Nagy előnye, hogy magyar nyelven is elérhető. A tudástárakra jelentős igény van, így a ami egyre erősödik, a hazai szakmai adaptációi is ezt támasztják alá: pl. létezik magyar nyelvű könywiki (http://konyvtar.hu/wiki/Kezdőlap ), mely több ezer könyvtár adatait gyűjtötte össze, illetve szakmai fogalomtár építést is folytat. Rövidítés szótár (rövidítés.hu) a rövidítések páratlan, az inetrnetes közösség által fejlesztett gyűjteménye. A tudományos rövidítések mellett érdekessége, hogy segítségével az egyedi SMS és chat nyelvi rövidítéseket így is meg lehet érteni. A tudástárak új generációját képviseli a számításokat is végző Wolfram Alpha (www.wolframalpha.com ). Az olyan jellegű kérdéseknél hasznos, ha például arra vagyunk kíváncsiak „Mekkora Magyarország GDP-je?” A Google keresőt használva több oldalon keresztül kell keresgélni, hogy megkapjuk a választ, mert elsősorban definíciókat, a kifejezést tartalmazó oldalakat kapjuk meg találatként, ezzel szemben Wolfram Alpha-nál, ha beírjuk a GDP szót, akkor adatként és szövegesen is megjeleníti az országok GDP értékét. Nagyon jól használható az oldal, ha árfolyamdiagramokra, függvényábrázolásokra, matematikai feladatok megoldására szeretnénk használni a keresést, mert rögtön a megoldást adja vissza találatul. Példa: Keresőkérdés:100 $ +25% Eredménylista: 37. kép
97
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
37. kép 8.3.9
A Wolfram Alpha tudástár
Humán alapú keresők
A legújabb kezdeményezés a humán alapú keresők megjelenése, melynél az indexelést vagy a keresőkérdést emberek segítségével válaszolja meg a rendszer. Az ún. kérdés-válasz rendszerek (pl. a Webclopedia vagy az AskJeeves) nem a találati listát szolgáltatnak, hanem a feltett kérdésre próbálnak valódi választ adni. A kérédés-válasz keresők egyik első és magyar képviselője az IGlue, melynél a keresőkérdésekhez eleve elkezdték az igen releváns oldalak csatlakoztatását. Ha a keresőkérdést válaszolják meg emberek, akkor azt társadalmi keresőknek nevezik. A trásadalmi keresők esetén a keresőkérdést elküldik egy szakértői csoportnak, vagy baráti körnek, és a választ a felkért személyek tudása alapján kapjuk meg. IGlue Elindult a magyar fejlesztésű iGlue tartalomszervező és kereső eszköz ingyenesen hozzáférhető verziója. A szöveges tartalomban való keresés hagyományos megoldása a keresett kifejezést reprezentáló karaktersorozat felismerése. A találatok megjelenítése egyedi: releváns képek, videók, linkek a keresőszóval kapcsolatban. 98
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Példa: Gépelje be keresőszónak: Dr. Antall József Ezzel szemben az iGlue nem szóalakokat azonosít, hanem azok jelentését. Így a keresett információt akkor is megtalálhatjuk, ha nem ugyanabban a formában szerepel. Az iGlue keresője tehát egy ilyen alapokon megvalósított adatbázis, részletes keresési opciókkal.
38. kép
Az iGlue szolgáltatás találati oldala
A tárolt információk között kereshetünk általánosan, melynek eredményeit kategóriákba rendezve kapjuk, vagy már kiindulásként szűkíthetjük a keresés hatókörét a számunkra érdekes kategóriára. A nagy részletességgel kidolgozott adatbázisnak köszönhetően egyegy kategória tulajdonsága alapján is kereshetünk, kiválasztva akár, hogy az 1950-ben született, később Kossuth-díjjal kitüntetett személyeket, illetve hozzájuk kapcsolódó információkat szeretnénk megtalálni. A szemantikai adatbázis jelenleg több mint 20 millió adatbejegyzést tartalmaz különböző formátumban tárolva, legyen az kép, videó, személy, intézmény, weboldal, földrajzi hely, vagy bármilyen objektum, melyek között természetesen megjelennek a szemantikai kapcsolatok is. Bővülni fog az adatbázis mind emberi (humán) mind mesterséges intelligencia alkalmazásával, a weboldalakon található entitások és a közöttük lévő szemantikai kapcsolatok automatikus azonosításával folyamatosan, kiterjesztve a jelenlegi hiányos lefedettséget. A keresésnél figyelembe kel venni, hogy a keresés az adatbázisban található entitásokra terjed ki (személyek, földrajzi helyek, intézmények, képek stb.), azaz zárt kulcsszavas kereső.
99
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 8.4
ÖSSZEFOGLALÁS
A témakörre specializált (vertikális) vagy egyetlen honlaphoz (site) kapcsolódó keresési lehetőségek bemutatása. A témakörre specializált keresők közül a keresők kapnak kiemelt figyelmet. A honlap saját keresési lehetőségeinek tárgyalása során bemutatjuk a Magyar Tudományos Akadémia honlapjának keresőjét. Ezen kívül az alábbi témakörök keresőiről, és azok korlátairól lesz szó: tudományos adatbázisok, tudástárak, szótárak, művészeti tárak, rövidítésszótár, személykeresők, kapcsolat alapú rendszerek, kép- és mozgókép, térkép, online szakmai újságok folyóiratok, jogszabályok, vezetékes és mobil telefonszámok, szervezeteket kereső szolgáltatás. 8.5
ÖNELLENŐRZŐ KÉRDÉSEK
Mutassa be a tudományos keresőket! 2. Hasonlítsa össze a kép- és mozgókép keresőket! 1.
100
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
9. KATALÓGUSOK CÉLKITŰZÉS
9.1
A katalógusok használatának és a működési mechanizmusának vázlatos bemutatása, a katalógusokban elérhető kulcsszavas keresők megismerése.
9.2
TARTALOM
Az internetkatalógus fogalma Internetkatalógus Hudir és Heuréka Neumann ház és a Webcat Horizontális katalógusok Vertikális katalógusok Digitális könyvtárak
9.3 9.3.1
A TANANYAG KIFEJTÉSE Az internetkatalógus fogalma
Az internetkatalógus a keresőszolgáltatások másik jelentős szolgáltatása a keresőrendszerek mellett. A katalógusoknál az üzemeltetők kiválasztanak, majd felkérnek embereket, akik kategorizálják a weboldalakat. Az eredmény egy hierarchikus struktúrájú tematikus lista. A hierarchia szintjei a témakörök egyre mélyebb szintjeit jelentik, melyek kiválasztásával kaphatjuk meg témához kapcsolódó weboldalak linkjeit, melyek vélhetően a kérdésünkre is választ adnak. A keresés lépései alapján nevezik könyvtárakon alapuló keresésnek, vagy internetkatalógusnak. Az internetkatalógusok (katalógus, directories, browsing services) fogalma már szerepelt a tananyag elején, de itt érdemes átismételni. Az internetkatalógus olyan hierarchikus osztályozási rendszert alkalmazó webes keresőszolgáltatás, amelyek adatbázisai többnyire intellektuálisan feldolgozott HTML-dokumentumok rekordjait tartalmazzák, valamint kapcsolatokat más adatbázisokhoz. Az osztályozást és a tartalmi kivonatok megfogalmazását szerkesztőségben végzik. A katalógusokban az osztályok alapján – „lapozgatva” – végezhető böngészés, de lehetőség van arra is, hogy a keresőszó megadásával, célzott kereséssel érjünk el a kívánt osztályig. Az internetkatalógusok adatbázisai lényegesen kisebbek, mint az indexelőszolgáltatásokéi, de a keresés az intellektuális feldolgozás, a gondos osztályozás jóvoltából sokkal kisebb zajjal jár. A megjelenített tételek jobban tájékoztatnak a dokumentum tartalmáról, mert a tételekhez a feldolgozók vagy a beküldők (akiknek érdekében áll, hogy a katalógusba bekerüljön a weblapjuk) szövegezik meg a tartalmi kivonatot. Ahhoz képest, hogy egy
101
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE indexelőszolgáltatásban mi mindent kell ismerni a pontos részletes kereséshez, az internetkatalógusokban sokkal egyszerűbb az eljárás, noha kevesebb a találat. Léteznek olyan katalógusok is, melyek indexelőszolgáltatásként is működnek. A keresőszót megadva egyrészt megjelennek az indexelőszolgáltatás segítségével nyert találatok, másrészt a rendszer fölkínálja a releváns osztályokat is. Ezen katalógusok némelyikének elérhetősége: 37. Altavizsla http://www.altavizsla.hu 38. Goliat http://www.goliat.hu 39. Yahoo! http://www.yahoo.com Ritkán tezaurusz is kiegészíti az osztályozási rendszert (pl.: AltaVizsla). A tezaurusz lexikai egységeit az AltaVizslában összekapcsolták a katalógus osztályaival is; bármelyik deszkriptort megadva ugyancsak lejátszódik a keresés az indexelőszolgáltatás segítségével, ugyanakkor azoknak az osztályoknak a találatai is megjeleníthetők, melyekre a deszkriptor mint mutatószó utal. 9.3.2
Horizontális katalógusok
A könyvtári katalógussal szemben itt más az értelme. Az online könyvtári katalógusuk (OPAC) már többször szóba kerültek, de a keresésnek ez módja egészen mást takar. Az internetkatalógus hatékony segítséget nyújt a hálózati dokumentumok keresésében. Az internetkatalógus (tematikus kereső) esetén az indexelést emberek, jellemzően szakemberek munkája révén készül el. Általános célú katalógusok sokak által ismert és használ katalógusok, melyek erősen építkeznek az emberi intelligenciára. Előnye, hogy a találatok minősége igen magas szintű, ennek az a következménye, hogy lerövidülhet a keresésre szánt idő. Hátrányként említhetjük a találati lista alacsony számát, mivel az emberek az automatikus indexelőkkel szemben hamar elérik a teljsítőképességük korlátait. Ez az oka sok szolgáltatónál az engedménykenek: a weblap gazdái kérvényezhetik a megjelnésüket a kereső megfelelő oldalain és a felhasználók maguk is jelentkezhetnek a szakterületükhöz kapcsolódó oldalak szerkesztéséhez. Mindkettőt a szolgáltató engedélyezi. A keresés során egy hierarchikus felépítésű oldalon haladunk a keresett téma felé, így közelíthetünk a számunkra szükséges találati listához. Természetesen van lehetőség keresőkérdés feltevésére is. A tematikus keresők közül a Startlap az egyik legnagyobb magyar nyelvű vállalkozás: 40. Startlap általános témájú kereső: http:// www.startlap.hu A Wyw egyedi megjelenítés mellett még az oldalak PageRang számát is kiírja: 41. Wyw tematikus kereső: http://directory.wyw.hu/Internet/Katalogusok_Linkek/ Vannak viszonylag fiatal katalógusok, melyeknek pár éve építkeznek: 42. Hun-web: http://www.hun-web.hu/Internet/Linkgyujtemenyek/ 43. Linkpark 2005-től: http://www.linkpark.hu/
102
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Hudir és Heuréka Az igényekhez alkalmazkodva a Hungary.Network két egymástól független kereső szervert fejlesztett ki és állított üzembe: a HuDir tematikus katalógust 1995-ben, és nem sokkal utána a Heuréka keresőt 1996-ban. A két keresőt, amelyek kizárólag a magyar vonatkozású oldalakon keresnek, és amelyek már a beüzemelésüket követően óriási sikereket arattak, naponta több tízezer látogató használja Magyarországról és külföldről egyaránt. 44. HuDir horizontális katalógus: http://www.hudir.hu 9.3.3
Vertikális katalógusok
A szakterületekre specializálódott keresőszolgáltatások többsége internetkatalógus. Egy részüket neves kutatóintézetek gondozzák, más részük kereskedelmi szolgáltatás. Mindkét esetben jó minőségű találatokra lehet számítani. Az osztályozási rendszerek között nemcsak az általánosan elterjedt, természetes nyelven alapuló hierarchikus osztályozási rendszerek fordulhatnak elő, hanem az ETO (az Egyesült Államokban pedig a Dewey-féle TO) is. Kultúrával foglalkozó vertikális katalógus: 45. Port.hu: http://port.hu 46. RighrHealth egészségügyi tematikus katalógus: http://www.righthealth.com/ Vannak olyan katalógusok, melyeknek még nem nagy az adatbázisa, de népszerű lehet: 47. Jó tudni: www.jotudni.hu A vertikális katalógusok adott témakört lefedő, sokszor személyes katalógusok. A tematikus internet-katalógusok egyike a Válas György-féle tudományos ismeretterjesztés kedvelőinek szánt rövid, de sajátos katalógusa. 9.3.4
Digitális könyvtárak
A könyvtári online katalógusoknak (OPAC) ugyan kevés köze van az internetes katalógusokhoz, de néhány szóban azért beszéljünk róluk, viszont az azokban történő keresés bemutatása más tanegységek feladata. Magyarország meglehetősen korán csatlakozott az internetközösséghez. Az első könyvtári adatbázist a szegedi egyetemi könyvtárban kezdték építeni 1975-ben. A Magyar Nemzeti Bibliográfia 1976 óta készül számítógéppel az Országos Széchényi Könyvtárban.2002 elején töltötték fel a Magyar Országos Központi Katalógus (MOKKA) adatbázisát, amelybe a legnagyobb 15 könyvtár állományát integrálták. Magyarországon a 80-as évek végén már online elérhető adatbázisok álltak a felhasználók rendelkezésére. A hálózaton a 90-es évek első felében jelentek meg az első magyar nyelvű digitalizált művek. A Magyar Elektronikus Könyvtár 1994, a Neumann János Digitális Könyvtár 1997 óta szolgálja ki a magyar nyelvű szép- és szakirodalom iránt érdeklődőket. Azóta a két kizárólag virtuális könyvtár mellett sok száz könyvtár, múzeum és levéltár kapcsolódott be a nemzeti kulturális örökség digitalizálásába. A magyar szervereken hozzáférhető dokumentumok tanulmányozására és elemzésére kiváló lehetőséget ad a Neumann Könyvtár WebKat.hu adatbázisa, amely 2002. február közepén 100 000 rekordot tartalmazott.
103
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 9.3.5
Magyar Elektronikus Könyvtár (MEK)
1994 tavaszán Drótos László, Kokas Károly és Moldován István, felajánlották munkájukat annak érdekében, hogy megalapítsák a Magyar Elektronikus Könyvtárat (MEK), amelynek célja elsősorban a digitális formában létrejövő szellemi termékek összegyûjtése és ingyenes szolgáltatása. Alig öt év elmúltával a nemzeti könyvtár saját szervezeti keretei közé integrálta a MEK-et. 9.3.6
Neumann ház és a Webcat
A Neumann-ház, bővebben a Neumann János Digitális Könyvtár és Multimédia Központ funkciója szerint online könyvtár és web-index szolgáltatás, magyar CD-ROM diszkográfia, folyóiratok elérését biztosítja (39. kép). A kulturális kormányzat már az 1997. évben hatályba lépett kulturális törvényben – amelynek egyik fejezete a könyvtári ellátásról szól – előírta a Neumann János Digitális Könyvtár és Multimédia Központ létrehozását. Az intézmény küldetése, hogy az audiovizuális dokumentumok nemzeti gyűjtő- és szolgáltató helye legyen. A Neumann-ház katalógusa tartalmilag jelentősen kibővült a kezedetekhez képest. Az új, nagykapacitasú szerver munkába állításával egyidejűleg elérhető a magyar interneten publikalt elektronikus dokumentumok adatait tartalmazó adatbázis is. A katalógus WebKat.hu nevet kapott, ami egyben az URL címe is. Jelenleg mintegy 12 ezer tételt tartalmaz a szépirodalomtól a speciális szakirodalomig. Természetesen az adatbázis folyamatosan növekszik, de ehhez nem keresőrobotokat alkalmaznak, hanem az internetet jól ismerő könyvtáros szakreferensek közreműködesével, azaz humán kereső technológiával bővül. A katalógus az alábbi URL címen, a „keresés” feliratú ikonra kattintva érhető el. 48. Neumann-ház oldala: http://www.neumann-haz.hu Webkat.hu, a magyar internetes források online katalógusa. A Neumann Könyvtár WebKat.hu adatbázisa egyedülálló vállalkozás az egész közép-kelet-európai térségben. Egyéves előkészítő munka után 1999 szeptemberében indították útjára a magyar kulturális örökség körébe tartozó internetes dokumentumokat feldolgozó, online elérhető katalógusukat. Elsősorban azokat a magyar nyelven, magyar szolgáltatónál elérhető elektronikus dokumentumokat dolgoznak fel, amelyekre igazak a következő megállapítások: önálló szellemi termék, független információegység, melynek célja az információ közlése, a tudás átadása. A Neumann-ház részletes fő tevékenységei: − a magyar kulturális örökség digitalizálása − a közgyűjteményekben folyó digitalizálási tevékenység koordinálása − a magyar internetforrások katalogizálása − a közgyűjteményi adatbázis építése − adatgyűjtés a magyar CD-ROM és DVD lemezekről A Neumann-ház gyűjteményei: − Digitális Irodalmi Akadémia − Bibliotheca Hungarica Internetiana 104
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE − − − −
a klasszikus költők összes verse kortárs művei a magyar tudománytörténeti dokumentumok az Educatio néhány évfolyama
39. kép
9.4
A Digitális Irodalmi Akadémia (DIA) nyitóoldala
ÖSSZEFOGLALÁS
A katalógusok megismerése mellet egyéb más, a katalógusok és a kulcsszavas keresők egye jellemzőit viselő tartalomszolgáltató oldalát ismertük meg. A katalógusok működési mechanizmusa mellett a katalógusokban elérhető saját belső vagy külső kulcszsvas keresőket mutattuk be. 9.5 1. 2.
ÖNELLENŐRZŐ KÉRDÉSEK Értelmezze a horizontális és a vertikális internetkatalógusokat! Mutassa be az internetkatalógusok szerepét!
105
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
10. SZEMANTIKUS WEB 10.1
CÉLKITŰZÉS
A szemantikus web lehetősegeinek megismerésén keresztül a hallgató megismeri a jövő évtizedek keresését megváltoztató lehetőségeket, a fejlődés szükségességét, elsajátítja a kapcsolódó alapfogalmakat.
10.2
TARTALOM
Tudásmenedzsment, tudásprezentáció A szemantikus web A szemantikus web üzleti oldalról Ontológia Az RDF ontológia fogalma Webszolgáltatások Tématérképek és RDF Az RDF ontológia Az RDFS ontológia OWL (Web Ontology Language)
10.3 10.3.1
A TANANYAG KIFEJTÉSE Tudásmenedzsment, tudásprezentáció
Az intranetek szerepe az egyértelmű és a nem egyértelmű tudás kiaknázásában egyaránt kiemelt. Az explicit tudás esetén az intranet technológia a szervezetek tudásbázisához egy igencsak elterjedt interfészt ad, felhasználva a nyílt szabványokat. Az információ megfelelő kontextusa lényeges, vagyis ahhoz, hogy információ érthetővé váljon, magának az információnak kell a világos eseményekhez, cselekményekhez vezetnie. Ha ez így történik, abban az esetben az információ időben jut el ahhoz, akinek valóban éppen szüksége van arra. Az emberek közti egyszerű kapcsolatokhoz intranetalapú eszközöket használhatunk nem explicit tudás esetén, ami segíti a párbeszéd, a tudáscsere létrejöttét, de a szükséges információk a webes és intranetes források esetén egymástól távol, rendezetlenül, kapcsolataik leírása nélkül találhatók meg (pl. Ady verseinek elemzése). A webes keresőrendszerek egy olyan rendezett listát adnak vissza, amely egyáltalán nem vagy csak igen kevés információt ad a dokumentumok szemantikus kapcsolatáról, ilyen kezdeti próbálkozás például a Google webes keresőszolgáltatás Varázskerék alszolgáltatása. A tudásmenedzsment egy eszköz, amellyel az eltérő szinten strukturált vagy a teljesen strukturálatlan információ szerves egésszé szervezhető, egy új tudásszint létrehozásával. A tudásból kizárólag az adott döntéshez vagy egy adott tevékenység előkészítéséhez szükséges elemeket tárják fel a tudásmérnökök.
106
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A tudásmérnökök munkájának jelentős része abból áll, hogy böngészve, olvasasva megpróbálják feltárni a dokumentumok viszonyát. A jelenlegi tudásmenedzsment rendszereknek négy jelentős gyengéje van: 1. információkeresés: a jelenlegi kulcsszó alapú keresések számos esetben lényegtelen információkat szolgáltatnak, 2. információkinyerés: ma még emberi böngészés és olvasás szükséges az információforrásokból történő érdemi információ kinyerésére, 3. karbantartás: az alacsony szinten strukturált szövegforrások karbantartása nehéz és időpazarló tevékenység, 4. dinamikus weboldalak: az automatikus dokumentumgenerálás engedélyezhet olyan weboldalakat, melyeket a felhasználói profilhoz vagy egyéb fontos aspektushoz igazítva dinamikusan újrakonfiguráltak. A szervezetek, különösen a profiorientált cégek versenyképessége az ezredforduló után egyre erősebben függ a belső tudásbázisának kihasználtsági szintjétől. A tudásmenedzsment-eszközöknek szükségük van a weben szétszórt készleteknek az egymáshoz kapcsolódó információk koherens egységeibe történő integrálására. Azokat a tárgyköri ismereteket, amelyeket egy feladat megoldása során felhasználunk, alapvetően két kategóriába lehet sorolni. Az elsőbe tartoznak a vizsgált világ összefüggéseit leíró elsődleges vagy lényegi vagy érdemi ismeretek, míg a másikba a következtetés hatékonyságát növelő ún. heurisztikus ismeretek. Az érdemi ismeretek ábrázolása: a tudásreprezentáció A tudásreprezentációs módszereknek eltérő ábrázolási technikájuk van az ismeretek kifejezésére, lehet az egy logikai formula, lehet az egy „ha, akkor” szerkezetű szabály, de lehet egy hálórészlet is stb. Ez a reprezentáció egyik oldala. Minden ábrázolási módhoz szorosan hozzátartozik egy következtető eljárás, amely úgymond „életre kelti” a reprezentált ismereteket. Általa olyan újabb tudáshoz jutunk, amely a feladatmegoldás kiinduló ismereteiből következik. A reprezentáció módszereitől azt is elvárjuk, hogy legyen lehetőség a következtetést hatékonyan vezérlő heurisztikus ismeretek ábrázolására is. A szemantikus web működéséhez viszont a számítógépeknek strukturált információ csomagokhoz és bizonyos szabályokhoz kell hozzáférniük. Az utóbbiakat automatizált gondolkodáshoz, következtetések levonásához lehet használni. A mesterséges intelligencia kutatói már a web kifejlesztése előtt tanulmányoztak ilyen rendszereket. A tudásreprezentációnak van ugyan néhány nagyszerű példája, de nem változtatta meg a jelenlegi rendszereket. A benne rejlő lehetőségek teljes kiaknázásához egy önálló globális rendszerhez kellene hozzákapcsolni. A hagyományos tudásreprezentáló rendszerek további hátránya a központosítottság, így a növekvő méretet miatt irányíthatatlanná válhat. További hátrányuk, hogy gyakran korlátozák azoknak a feltehető kérdéseknek a körét, melyekre a számítógép biztonsággal, vagy egyáltalán válaszolni tud. A leírtakból következik, hogy a rendszerek összeillesztése nehezen valósítható meg. Példa: családfák leszármazási rendszere (adatbázisa) tartalmazhat olyan szabályt, hogy „a nagybácsi felesége a nagynéni”. Az adatok ilyen esetben némi programozói háttérsegít107
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE séggel átvihetők az egyik rendszerről egy másikra, de a teljesen más formában meglévő szabályokkal igen gyakran nem tehetjük meg mindezt. A szemantikus web kutatói tudják, hogy a sokoldalúság elérése érdekében a paradoxonokkal, és a megválaszolatlan kérdésekkel kell szembenézniük. A nyelv ugyanakkor biztosan felkészíhető a lehető legkifejezőbb szabályokra, ezáltal megvalósítható a szélesebb körű következtetés-levonás. Ez hasonló a konvencionális web korai szakaszához, amikor az ellenzők állították: a web sohasem lesz jól szervezett könyvtárrendszer, hiszen hiányzik a központi adatbázis és fastruktúra, ami az adatok megtalálását lehetetlenné teszi. Részben volt csak igazuk volt, valóban vannak nem működő linkek, de a másfél évtizede még megvalósíthatatlannak tűnő keresőmotorok már megbírkóznak a növekvő webes adatmennyiséggel, és már rengeteg adatot képesek megmutatni, azonban sok kérdés megválaszolatlan marad. A szemantikus web egy olyan általános webstruktúrára és a hozzá kapcsolódó infromációkereső-szolgáltatás kialakítása irányuló törekvés, melyben az adatok és a közöttük lévő szabályok is rögzíthetők, így lehetővé válhat adott szabály kinyerése bármely létező tudásreprezentáló rendszerből, így az a saját rendszerünkből egyszerűen exportálható lesz a web struktúrájához. 10.3.2
A szemantikus web
A szemantikus web szükségességét akkor érezzük igazán, ha a jelenlegi (2010-ben létező) web főbb jellemzőit áttekintjük. A mai web egy vagy több természetes nyelven (angol, magyar, német stb.) fejezi ki az információt szöveg elemek, multimédiás elemek és az oldalstruktúra segítségével. Az adatok megtalálása nehéz feladat, de azok feldolgozása egyszerű, hiszen a tényekre részinformációkból következtetünk, ehhez a weben különféle feladatok elegyítése szükséges. A példából érezhetjük, hogy egy speciális keresőmotorral a választ könnyen elérhetjük, de saját magunknak fáradtságos munka összegyűjteni az összes adatot. Példa: egy szállásajánlat, az útvonaltérkép a szálláshoz, illetve a környék látnivalói más-más weboldalról származnak, ezeket különböző digitális könyvtárakban találjuk. Egy adat (információ) jelentése minden esetben az adott környezettől függ. A felhasználók elvárásai erősen megemelkedtek, azt szeretnék, ha a számítógép megértené őket. Ennek egyik bizonyítéka, hogy a keresőrendszereknél meglehetősen ritkán használják a lassan egy évtizede jól működő összetett keresést. Az informatikai (kereső)rendszerek a szemantikus technológiák üzemszerű alkalmazásával egészülnek ki a következő évtizedben (2010–2020 között), amelyek az emberi elme jelentésátadó és -kezelő mechanizmusaira emlékeztetnek, és várhatóan áttörést fognak hozni e rendszerek lekérdezhetősége, karbantarthatósága és együttműködő képessége terén. A 2000 utáni években az informatika tudományágon belül kialakult egy új kutatási terület, a kognitív informatika (Cognitive Informatics, CI). A CI az ötven éve folyó mesterséges intelligencia kutatások folytatása helyett az agy szerkezetének feltérképezésére teszi a hangsúlyt. Az agy működésének és belső információhordozó mechanizmusainak mélyebb megismerésén keresztül törekszik az informatikai rendszerek teljesítményét növelni, haté108
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE konyságát javítani. A kereső személyek igényeinek hatékonyabb kielégítéséhez az információk jelentésének kezelése és jelentésük szerkezete egyre fontosabbá válik. A kognitív rendszerek számára mindezt a szemantikus (jelentésalapú) technológiák biztosítják. A jelentésalapú (szemantikus) technológiák szoros kapcsolatban állnak a meta- és háttéradatok kezelésével. Fontos feladatuk az információ automatikus feldolgozásába egyre hatékonyabban bevonni azokat az általános asszociációkat és háttérismereteket, amelyeket a kereső személyek agyában egy adott kontextusban egy-egy információ tipikusan kivált, valamint maguk is képesek legyenek ilyen asszociációk, ismeretek létrehozására és kezelésére. A szokásos adatbázis technológiákhoz képest rugalamsabban kezelik az olvasást és az írást: távolinak tűnő információkat automatikusan összekapcsolnak, az adat új típusa esetén a rendszer újratervezésére nincs szükség. A jelentésalpú technológiáknak ma két kontextusa létezik: − a web szélesebb kontextusa, ami voltaképpen a szemantikus web, valamint − a szervezetek információellátó tevékenységének szűkebb, de igen fontos kontextusa. A leckében csak az első kontextussal foglalkozunk. Gondoljunk csak arra, milyen hatalmas ugrást jelentene a web fejlődésében és mindennapi életünkben, ha ezeket az adatokat a nagy teljesítményű, villámgyors számításokra képes gépek is megértenék, és szervezni tudnák. Az egyik legnevesebb nemzetközi piackutató cég, a Gartner Group úgy véli a szemantikus web olyan jelentős mértékű mérdföldkő lesz az internet tröténetében, mint a World Wide Web volt közel húsz évvel ezelőtt. A szemantikus web kialkításával tehát a szemantikus dokumentumokban képesek leszünk az emberi agy gondolkodásának egyes elemei alapján keresni, de még nem lesz képes önállóan az emberi beszéd vagy írás értelmezésére. A szemantikus web (semantic web) célja a weben fellelhető információk egységbe rendezése, egy olyan hálózat létrehozása, ahol az adatokat nemcsak az ember, hanem az automatizált eszközök is képesek egymással megosztani és feldolgozni. Mindezek eléréséhez elsőként a webet logikai úton is elérhetővé kell tenni, azaz a következtetésekhez szabályokat szükséges használni, hogy keresőmotorok is értelmezni tudják a szemantikus dokumentumokat és adatokat. Az adott logikával egyértelműen le kell írni az objektumok bonyolult tulajdonságait, de nem annyira egyértelműen, hogy az ágenseknek olyan kérdéseket kelljen feltenni, amelyek ellentmondásokhoz vezetnek. Egyszerűsíti a feladatot, hogy az általunk kifejezésre szánt információk többsége a „szék egy bútorfajta” logikán vonul végig, és ez a ma létező nyelveken, kis szókinccsel könnyedén leírható. A szemantikus web a weboldalakon található adatokhoz leíró címkéket rendel, és azokat összekapcsolja, újfajta asszociációs kapcsolatokat létesítve a különböző adatok között. Eredménye egy globálisan elérhető adatbázis kialakítása. Példa: 1) A digitális könyvtárak hasonlóak a webes keresőkhöz. Tulajdonképpen nem mások, mint webes katalógusok, melyekkel a következőket lehetne megvalósítani: - internetes könyvtárak létrehozása, - adatok kiterjesztése a multimédiás adatok területére,
109
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE - a szoftver ágensek (tehát olyan programok, melyek viszonylag autonóm módon, a felhasználó vagy a számítógép helyett hajtanak végre feladatokat) lehetnének a könyvtárosok: segíthetnek a megfelelő dokumentum, publikáció megtalálásában. 2) Webszolgáltatások szemantikája: a webszolgáltatások (WebServices) teljes mértékű elterjedésekor a felhasználók is többet várnak el egy keresőrendzsertől: - keressük az elegáns matematikai levezetését a Heisenberg-féle határozatlansági összefüggésnek. De mit jelent az, hogy elegáns? Egy elméleti fizikus vagy matematikus számára egyértelmű az, ami a gépek számára értelmezhetetlen, felfoghatatlan. A szemantikus web definícióját a következőképpen is meghatározhatjuk: a szemantikus web metaadat-alapú infrastruktúra weben történő következtetéshez. Milyen változásokra van szükség a továbbfejlesztett világháló megvalósításához? Szükség van tehát a szolgáltatások karakterizálására, mégpedig nem csupán input és output paraméterek szintjén, hanem azok szemantikai szintjén is. A szemantikus web ugyanakkor nem cseréli le a mai webet, nem mellőzi a World Wide Web képességeit, hanem továbbfejleszti azokat. Az imént lerírtakon túlmenően szükségünk van olyan forrásra, amely saját magáról ad információt. Ezt hívjuk metaadatnak. Az ágensnek, pedig következtetéseket kell levonnia erről a metaadatról, ami tulajdonképpenö számára adat. Ehhez metaadat-szókészletet kell definiálni. A metaadatot gép által értelmezhető formában kell leírni, amihez a következők szükségesek: 1. egyértelmű forráselnevezés (URI – Universal Resource Identifier), 2. közös adatmodell a metaadat kifejezéséhez (RDF – Resource Description Framework), 3. ontológiák: szókészlet, köztük lévő kapcsolatok, szókészleten végezhető műveletek, axiómák, következtetési szabályok, 4. módszer a metaadat weben történő eléréséhez. Leegyszerűsítve a fenti összetevőkből áll a szemantikus web, ezeket az összetevőket fejtjük ki részletesebben a következőkben. Az olvasóban felmerülhet a kérdés, hogy a leírtak csupán elméleti fejtegetések vagy léteznek már a valós, a szemantikus webre épülő technológiák? A szemantikus web internetre történő teljes implementációja még valóban csak a jövőben valósulhat meg, ugyanakkor a szemantikus web építőelemeit kisebb tartományokra és prototípusokra már telepítik. Az elmúlt tíz évben láthattuk, hogy az általános paradigma az egyedi, ún. cilinder rendszerektől a nyílt szabványokra tolódott át. A W3C, az IETF (International Engmeering Task Force), az OASIS (Organization for the Advancement of Structured Information Standards) szabvány felügyeleti szervezetek együttműködése széles körben támogatott úgy a világcégek, mint az akadémiai intézetek részéről. A szemantikus web fejlesztések első jelentős fázisa, az alapinfrastruktúra kialakulása 2005-re befejeződött. Az implementáció szakasz jelenti a második fázist, így a felhasználók számára szükséges szoftverek, az információs rendszerek fejlesztése, könyvtárak és digitális tárak építése stb. folyik. A második fázis a szemantikus web és más technológiák hatékony kölcsönhatásának időszaka is egyben, ami leginkább a szemantikus webszolgáltatások, szemantikus webbányászat és hitelesítés témaköröket ölelei fel. Az XML támogatása maga után vonta az XML-alapú technológiák támogatását, így olyan SOAP-alapú webszolgáltatásokat, melyek egymással együttműködni tudó interfé110
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE szeket adnak az alkalmazásokhoz az interneten keresztül. Az XML (Extensible Markup Language) egy metanyelv más XML-alapú jelölőnyelvek létrehozására. Az RDF az információk összekapcsolásának mikéntjét nyújtja, melyről később részletesen szólunk. Miközben az XML-t, mint általános szintaktikát alkalmazzuk, addig az RDF a szemantikus web minden egyéb ontológiaalapú nyelvének alapját képezi. A tématérképek, így az XML Tématérképek (XML Topic Maps) egy másfajta megoldást szolgáltatnak az információk taxonómiáinak adatosztályozásba való átvitelére. A W3C irányvonala szerint a tématérképek és az RDF együttműködése mindenképpen előnyére válna a szemantikus webnek. A webszolgáltatások egy olyan megoldást adnak a szoftverekhez, mely segítségével azok egymással kommunikálni képesek. Az ontológiai nyelvek (pl. az OWL, mely W3C ajánlás) készen állnak arra, hogy kiemelt figyelmet kapjanak, több cég alkalmazza már ezeket arra, hogy egyesített tudásbázisaihoz szemantikákat adjon. A webszolgáltatások esetében a következő lépés a szemantikát engedélyező webszolgáltatások elterjedése, ahol a különféle cégek webszolgáltatásaitól jövő információval lehet egyesíteni, összehangolni a szolgáltatásokat. Az akadémiai kutatási programok (pl. a Stanford Egyetem TAP programja: http://tap.stanford.edu/) hidat képeznek az eltérő webszolgáltatás-alapú adatforrások és az összefüggő (de több forrásból táplálkozó) szemantikus web létrehozása között. 10.3.3
A szemantikus web üzleti oldalról
Foglalkozunk most a szemantikus web üzleti oldalával. A cégek döntéshozói tudják, hogy a legjobb információ birtoklása üzleti előnyt jelent, ugyanakkor ez az előny kizárólag úgy érhető el, ha ismeri az információ helyét, és annak hatékony felhasználását. Nyilvánvalóan ennek elérése minden vezető célja. A cégek vezetőinek azzal mindenképpen tisztában kell lenniük, hogy milyen üzleti haszonnal jár a szemantikus web alkalmazása, vagy fordítva: milyen hátránnyal járhat, ha a cég nem foglalkozik ezzel a kérdéskörrel. Az online tradicionális tudásmenedzsment-technikáknak manapság meg kell küzdeniük az információ mennyiségének jelentős bővülésével, a kulcsszavas keresés elégtelenségével, az információ hitelességének igazolásával, valamint a természetes nyelvfeldolgozó rendszerek hiányával. Az informáciözönben útjelző táblaként szerepel majd a szemantikus web által kiépítendő struktúra. Már elégtelen az információk állományokban és adatbázisokban tárolása, oly módon szükséges címkézni az információinkat, hogy a programok a jelölés alapján képesek legyenek azt feldolgozni, és a felhasználó tudomására hozni, hogy mely információ megbízható. Az új információban meg kell bíznunk, de össze kell hasonlítani azt a többi információnkkal. Ehhez egy olyan van szükségünk, amely az új technológia előnyeit képes kiaknázni, ugyanis a cégek a birtokukban lévő információ jelentős részét sohasem használják fel. Az információ megosztása és a kommunikáció minden cégnél fontos, ám ahogy a legtöbb cég egyre nő és egyre több információt gyűjt, ez a feladat egyre nehezebbé válik, és inkább küzdelemmé alakul át. Amikor a cégek, szervezetek nagyobbakká válnak, a kommunikációs rések létrejötte kikerülhetetlen lesz. Egy kis fáradsággal egy egyesített tudásbázis minimálisan a projektek leírásainak nyilvántartását tartalmazza, valamint azt, hogy az egyes cégek miképpen épülnek fel. Képzeljük el, milyen jó lenne, ha az adott cég al111
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE kalmazottai el tudnák érni a lényeges információkat. A szemantikus web által engedélyezett webszolgáltatások lehetővé teszik, hogy olyan nyilvántartásokat tudjunk létrehozni, amelyben az alkalmazottak képes elérni a munkájukhoz szükséges friss és fontos információkat. Nézzünk minderre egy példát! Ha egy építőipari cég üzletkötőjének egy bekötőúttal kapcsolatos tárgyaláson például azt mondja az ügyfele, hogy üvegbetont szeretnének a cég új épületének építéséhez használni, akkor az üzletkötő a megfelelő adatok elérésével azonnal válaszolhat, hogy az építőipari cége mikor, milyen formában foglalkozott a kérdéssel. Miután ezt közli, akkor már biztosan felajánlhat egy üzleti tárgyalást az üvegbetonnal kapcsolatban egy másik időpontban. Az amerikai, az ázsiai és az európai cégek beruházása jelentős a szemantikus web technológiáiba. Az Adobe például az RDF köré szervezi szoftverei metaadatait, és webontológiai szintű képességeket használ a dokumentumok menedzseléséhez. A változtatás értelme: „A PDF állományban lévő információ még akkor is értelmezhető más szoftverek segítségével, ha az adott szoftver nem tudja azt, hogy egyáltalán mi is egy PDF dokumentum, vagy miként lehet azt megjeleníteni." 10.3.4
Ontológia
A meteadatokat összehasonlító vagy kombináló programnak tudnia kell megállapítani, hogy két, külön adatbázisban vagy webhelyen tárolt alkalmazott fogalom ugyanazt a dolgot jelenti vagy csak hasonló alakú szavak. Ez azt jelenti, hogy a programot fel kell készíteni az adatbázisok belső jelentéseinek felkutatására. A probléma megoldását a szemantikus web harmadik alapeleme adja, melyet információk gyűjteményének vagy ismertebb néven ontológiáknak hívunk. Gruber 1993-as definíciója alapján: Az ontológia egy formális, explicit leírása egy elosztott koncepciónak. Az „explicit” azt jelenti, hogy a fogalmak típusai használat alatt állnak, és felhasználásuk megszorításai egyértelműen, explicit módon definiáltak. Az „elosztott” szó azt fejezi ki, hogy egy ontológia olyan belső tudást foglal magába, melyet nem szűkítenek le adott egyének, viszont egy adott csoport elfogad. Pontosítva a fenti definíciót manapság az ontológiát a következőképpen határozhatjuk meg: Az ontológia egy olyan dokumentumot vagy állományt jelent, mely formálisan definiálja az adott kifejezések közti kapcsolatokat. A webbel összefüggő legtipikusabb ontológiatípusnak egy taxonómiája vagy osztályozása, valamint egy következtető szabálycsoportja van. A taxonómia objektumok osztályait és a köztük lévő relációkat határozza meg. Példa: Egy címet például definiálhatunk földrajzi helytípusként, így a városkódokat meghatározhatjuk úgy, hogy csak a földrajzi helyeket alkalmazzuk. Az osztályok, az alosztályok és az egyedek közti relációk a web használatának alapvető eszközei.
112
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Képesek vagyunk óriási mennyiségű reláció kifejezésére azáltal, hogy osztályokhoz rendelünk tulajdonságokat, és lehetővé tesszük az alosztályoknak, hogy örököljék ezeket a tulajdonságokat. Példa: Amennyiben a városkódok egyfajta várostípusok, s ha a városoknak van weboldaluk, akkor beszélhetünk weboldallal összefüggő városkódról (még abban az esetben is, ha nincsenek adatbázislinkek közvetlenül a városkód és a weboldal között.) Az ontológiák következtető szabályai további képességet nyújtanak. Példa: Egy adott ontológia kifejezhet például egy ilyen szabályt: „Ha a városkód összefüggésben van a megye kódjával, és a cím használ városkódot, akkor a cím tartalmazza a megye kódját.” Konrétan egy program ezután könnyedén levezetheti azt, hogy az egri Eszterházy Károly Főiskolának Heves megyében kell lennie, ami pedig Magyarországon van, és ezáltal a címet magyar szabvány szerint kell formázni. A program nem értelmezi ténylegesen, emberi módon ezeket az információkat, de hatásosan tudja úgy manipulálni a kifejezéseket, hogy azok az emberi felhasználó számára használhatóak és értelmezhetőek legyenek, azaz megfeleljenek a humán elvárásoknak. Az ontológiák többféle módon terjesztik ki a web működési hatáskörét. A legkézenfekvőbb ezek közül a keresőrendszerek pontosságának fejlesztése, így keresőrendszer nem az összes, a kulcsszavakat tartalmazó, de a keresett témakörhöz nem vagy lazán tartozó weboldalakat, hanem csak a pontos fogalomra hivatkozazott oldalakat szerepeltei a SERP-ben. Az ontológiaalapú eszközkörnyezet három fő területet fog át: 1. Ontológiák keresése és azok (nagy mennyiségű) adatokkal történő összekapcsolása. A skálázhatóság céljából ezt a folyamatot automatizálni kell az információkinyerő és a természetes nyelvfeldolgozó technológiák alapján. A minőség érdekében ehhez a folyamathoz szükség van az emberre, aki az ontológiaszerkesztökön keresztül felépíti és kezeli az ontológiákat. 2. Ontológiák és példányaik tárolása és karbantartása. Az RDF Schema a web információforrásain keresztül adatbázis technológiát és egyszerű érvelési formát nyújt. 3. Szemantikailag támogatott információforrások lekérdezése és böngészése. Leírhatunk szemantikailag kiegészített kereső motorokat, böngészhetünk és tudásmegosztó támogatást nyújthatunk, mely az adatszemantikát teheti gépi feldolgozásra alkalmassá. Ágensek A szemantikus web igazi előnye akkor mutatkozik meg, amikor olyan programokat készítünk, melyek különféle forrásokból gyűjtik egybe a webtartalmat, feldolgozzák az információt és kicserélik az eredményeket más programokkal. Az ágensek jól meghatározható határokkal és interfészekkel rendelkező, egyértelműen azonosítható problémamegoldó egységek. A szoftver ágensek hatékonysága exponenciálisan megnő, amint egyre több gép által olvasható webtartalom és automatikus szolgáltatás (benne egyre több ágens) válik hozzáférhetővé. A komplex elosztott számítástechnikai
113
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE rendszereket egyre inkább ágensek hálózataként modellezik, és a tervezésükben egyre több ágenstechnológiai módszert alkalmaznak. 10.3.5
Az RDF ontológia fogalma A szemantikus web egyik alaptechnológiája az RDF (Resource Description Framework), ez egy olyan adatmodell, aminek a szemantikája gráfokkal írható le.
Egy RDF-alapú dokumentum olyan állításokat készíthet, melyek bizonyos dolgokról (emberek, weboldalak stb.) tulajdonságokkal (pl. „lánya valakinek”, „szerzője valaminek”) és adott értékekkel (egy adott személy, egy adott weboldal) rendelkeznek. Ezzel a szerkezettel egy olyan természetes módszer alakítható ki, mely a gépek által feldolgozott adatok döntő hányadát képes leírni. RDF által történő jelentéskifejezés ún. hármasok csoportjaiba kódol. Minden egyes hármas egy elemi mondat alanyát, állítmányát és tárgyát szimbolizálhatja. Az alanyt és a tárgyat az URI úgy azonosítja, mintha linkek lennének egy weboldalon. (Az URI-k között az URL-ek (Uniform Resource Locator) a legáltalánosabban használt URI-típusok.) Az állítmányokat szintén URI-ken keresztül lehet identifikálni, s ezzel lehetővé válik, hogy új kifejezést, új állítmányt definiáljunk. Megjegyzés: az RDF-et kifejezhetjük XML tagek alkalmazásával, ez az RDF/XML forma, de N3, N-Triples, Turtle (Terse RDF Triple Language) stb. formában is, vagyis az XML nem kötelező, hanem egyik lehetséges kifejezőeszköze az RDF-nek (a W3C eddig csak XML formátumot definiált az RDF-hez). RDF hármasai az egymással összefüggő dolgokról szerzett információk hálózatát formálják meg. Mivel az RDF az URI-ket használja fel ezeknek az információknak dokumentumban való azonosítására, ezért az URI-kkel lehetővé válik, hogy a kifejezés nem csupán egy dokumentum szavait jelentse, hanem olyan egyedi információkhoz is köthető, melyeket a weben bárhol megtalálhatunk. Képzeljük el, hogy személyek információihoz (pl. címeihez) tudunk hozzáférni különféle adatbázisokon keresztül. Amennyiben meg akarunk keresni egy élő embert adott irányítószám alapján, meg kell tudnunk, hogy az adatbázisokban mely mezők fejezik ki a neveket és melyek az irányítószámokat. Az RDF ki tudja ezt jelölni nekünk, felhasználva mindezekhez az URI-ket: például: [4. mező az „DB” adatbázisban] [mezőtípus] [irányítószám]. 10.3.6
Webszolgáltatások
A webszolgáltatások olyan internetes szoftverszolgáltatások, amelyeket URI-k segítségével azonosítunk, és melyek webprotokollok segítségével leírhatók, felkutathatók és elérhetők. A webszolgáltatások alaptulajdonsága, hogy XML-t alkalmaznak és XML-t nyújtanak. A HTML-hez hasonlóan az XML is tageket használ az adat kijelöléséhez, de az adat megjelenítésével (pl. karakter- és bekezdéskformák) szemben az adat jelentését jelöli ki. Ebből következik, hogy az XML nem rendelkezik előredefiniált tag készlettel. Az elsődleges módja a webszolgáltatások szemantikus webhez való illesztésének az, hogy elősegítjük az XML adoptálhatóságát. A webszolgáltatások felkutatása viszont elég bonyolult, ezért a szemantikus web technológiáival kell ezt a problémát megoldani.
114
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 1.
Amit ígér:
Jelenlegi korlátok:
Ami kihívást jelent:
táblázat A szemantikus web, a webszolgáltatások és az intelligens ágensek öszszehasonlítása. Szemantikus web
Webszogáltatások
Intelligens ágensek
Az érem egyik oldala: Adatközpontú, adat által irányított kommunikáció.
Az érem másik oldala: Aktív eljárások által megvalósuló, XML-alapú kommunikáció.
- Kulcsszótól a fogalomig. Az információ kinyerésétől a kérdés-válasz érzékelésalapú megvalósításáig. - Nyitott szemantikus réteg harmadik résztvevős ágensek által értelmezve. - A tartalom metaadattal való manuális annotációját nehéz nagy méretekre alkalmazni.
- „Új” rendszerek konfigurálása meglévő elosztott rendszerekből.
Az érem: Intelligens ágenseken keresztül a gépek kommunikálnak egymással. - Feladatdelegálás (task delegation). - Aggregáció és az elosztott tartatom koherens kifejezése.
- A metaadatok automatikus annotációja, ontológiával. - Biztonság és hitelesítés.
- A rendszer adatcserére képes, de nem értelmezi azt. - A kommunikáció alacsony, szintaktikai szinten áll. - Az embereknek kell elvégezni a konfigurációt. - A webszolgáltatások automatikus felkutatása és hangolása üzleti szolgáltatásokba.
- Teljesen tiszta definiálás szükséges. - A felhasználó profilok – üzleti szemszögből – még elég szegényesek. - A szemantikus web tartalmának kiaknázása.
A fejlett webszolgáltatást használó alkalmazásoknak az összehasonlítás, az összeállítás és az összehangolás automatizált összekapcsolásához mindenképpen szükségük lesz a szemantikus web technológiáira. Másrészről a webszolgáltatások lehetővé tesznek elosztott szemantikus webalkalmazásokat (pl. Inference Server: adott egy ontológia és egy kérdés, amely az ontológiára is hivatkozik, válaszold meg a kérdést). A webszolgáltatások szemantikus webbe ágyazásának egy másik lehetősége a webszolgáltatások más webszolgáltatásokkal történő kapcsolatba lépésének megvalósítása. 10.3.7
Tématérképek és RDF
A tématérképek (topic maps) és az RDF leírják a webobjektumok tartalmát, a forrás (resource) vagy téma (topic) kifejezésével. Mindkét kezdeményezés azért született, hogy metaadatot hozzon létre webobjektumokból, és hogy ezeket az objektumokat, valamint tartalmukat könnyen elérhetővé tegye. A tématérképeknél a téma a webobjektum. A webobjektum rendelkezik előfordulással. A téma tárgyát a téma egy adott előfordulása fejezi ki, mely lehet címezhető is. A címezhető tárgy a webobjektum, a nem címezhető nem webobjektum. A témák asszociációkon (tárgyak közti összefüggéseken) keresztül kapcsolódnak egymáshoz, s egy asszociáción belül található minden téma megadott szerepet játszik.
115
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az RDF-et a metaadatok leírására és a webobjektumokhoz kapcsolódására tervezték, a tématérképeket a dokumentumok összetett tartalomalapú indexelésére fejlesztették. Az eltéréseket nem feledve megállapítható, hogy a tématérképek és az RDF egymást kiegészítő paradigmák. Amennyiben az indexelés (vagy más néven a témastruktúra lefedése) kifejezi a tárgyak összekapcsolódását, akkor az RDF az olyan állítások csoportját fejezheti ki, melyek az említett tárgyak értelmét próbálják képezni. A tématérképek és az RDF egymás erősségeinek és céljainak kölcsönös és egyidejű kiegészítőiként kell, hogy létezzenek. Megjegyzés: a W3C-n belül létrejött egy aktív munkacsoport, amely a két paradigma formális kapcsolatát hivatott leírni. 10.3.8
Az RDF ontológia
„M. C. Daconta, a Java World nevű jeles amerikai magazin kolumnistája az RDF elterjedését a kínai bambuszfa növekedéséhez hasonlítja. A kínai bambuszfát négy évig kell úgy művelni és kezelni, hogy bármifélejelét is látnánk a növekedésének, majd az ötödik év első három hónapjában 30 métert nő. Nos, az RDF esetében már túl vagyunk az alapos kezdeti művelésen, eljött az idő, hogy egyre elterjedtebb és népszerűbb legyen.” (Gottdank Tibor, 31. oldal) Az adatokhoz kapcsolódó olyan jelentés szolgáltatása volt az RDF kifejlesztésének a célja. A szolgáltatás egyik kiemelt eleme, hogy mindezt a programok által értelmezhető formátumban végezze, így egyre hatékonyabban biztosítva az adatcserét, a keresést, a katalogizálást, a navigálást, az osztályozást stb. Az RDF egyértelműen W3C Szemantikus web irányvonalának tagjainak alapelemeként aposztrofálható. Az RDF egy jól-definiált szabályhalmazon alapul, mely ezen adatmodell formázását, érvényesítését és használatát is vezérelni képes. Az RDF bemutatása két alapdokumentuma alapján történik. Az első az RDF fogalmak és absztrakt szintaktika (RDF Concepts and Abstract Syntax), míg a második az RDF szemantika (RDF Semantics). A dokumentum webes elérhetőségét az alábbiakban közüljük. Az RDF Concepts and Abstract Syntax a http://www.w3.org/TR/2004/REC-rdf-concepts2004021O/ oldalon érhető el. Az RDF Semantics URL címe: http://www.w3.org/TR/2004/REC-rdf~mt~2004021O/ Az RDF általánosan egy, az erőforrások leírására szolgáló adatmodell. Erőforrás alatt a weben elérhető állományt értünk, amely URI-n keresztül érhető el. Ez utóbbi teszi lehetővé a gráf formájú ábrázolást, ami az erőforrásokhoz kapcsolódó állításokat jelent az RDF-ben. Ebben a gráfban a csomópontok és az élek testesítik meg az erőforrásokat, az erőforrások tulajdonságait, valamint a talajdosnágok konkrét értékeit. A gráf szintaktika leírható az alany és a tárgy csomópontjai közötti éllel, ahol az él jelenti a tulajdonságot. Az RDF adatmodell az alany, állítmány, tárgy hármasból áll. A két csomópont a gráfban a forrás és az érték, melyet a tulajdonság mint él kapcsol össze. Az előbbi hármast állításként leírva: a forrás csomópont jelenti az alanyt, az állítmány a tulajdonság, míg az érték csomópont a tárgy. Az RDF kifejlesztésének fő célja az erőforrásokhoz kapcsolódó metaadatok ábrázolása. Metaadat lehet az elektronikus dokuementum publikálós szervezete, a címe, a szerzője, az utolsó módosítás időpontja, a szerzői jogi- és licenszinformációi, sőt akár a közös erőforrások hozzáférhetőségi időrendje.
116
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az erőforrás kifejezés tágabb értelmezése révén az RDF képes közvetlenül el nem érhető információ ábrázolására is, ha az a weben azonosítható formában található meg. Ilyen információ lehet például az elektronikus kereskedelemben forgalmazott áruk specifikációja, ára és hozzáférhetősége, vagy ilyen információ lehet egy webfelhasználó információtovábbítási preferenciáinak a leírása. Az RDF-et olyan esetekre tervezték, amelyekben az információkat nem (csak) emberek számára kell megjeleníteni, hanem számítógépprogramok segítségével (is) fel kell dolgozni. Az RDF olyan egységes keretet biztosít az ilyen adatok kifejezésére, amelyben azok információveszteség nélkül átvihetők egyik alkalmazásból a másikba. Mivel ez a keret általános, az alkalmazások fejlesztői kihasználhatják a közös RDF szintaxiselemző és feldolgozó eszközök előnyeit. A különböző alkalmazások közötti információ csere lehetősége, pedig azt jelenti, hogy nemcsak azok az alkalmazások használhatják az információt amelyek számára azt eredetileg ábrázolták, hanem a más célokra készült, későbbi alkalmazások is hasznosíthatják. 10.3.9
Az RDFS ontológia
Az RDF ugyan megteremti a lehetőséget az erőforrásokról szóló kijelentések megfogalmazására, névvel rendelkező tulajdonságok és értékeik segítségével. Ugyanakkor előre definiálható szókészletekre (szakkifejezéseinket) is szükség van. Az említett szókészleteket szeretnénk majd a kijelentésekben használni. Erre azért van szükség, mert az RDF forrásokat olyan csoportokra szeretnénk osztani, a melyek maguk is források. Mivel források, így az azonosításuk URI-vel történik, és RDF tulajdonsággal írhatók le. Meg kell határozni tehát az általunk később leírni kívánt erőforrások specifikus csoportjainak, azaz osztályainak definícióit, valamint azokat a specifikus tulajdonságokat, amelyekkel majd ezeknek az osztályoknak az egyedeit kívánjuk jellemezni. Példák: a) Azok az emberek, akik bibliográfiai erőforrások leírásában érdekeltek, nyilván szeretnének definiálni olyan osztályokat, mint „Könyv” vagy „Folyóiratcikk” és olyan tulajdonságokat, mint „szerző”, „cím” és „téma”, amelyekkel később a könyveket és a folyóiratcikkeket leírhatják. b) egyes cégek szeretnének definiálni olyan osztályokat mint „Személy” és „Cég”, valamint olyan tulajdonságokat, mint „életkor”, „beosztás”, „részvény-jel” és „az alkalmazottak száma”. A példában is említett alkalmazásfüggő osztályok és tulajdonságok definiálásához az RDF nem elégséges, nem találunk benne ehhez eszközöket. Az ilyen osztályokat és tulajdonságokat, egy RDF szókészlet elemeiként, csak az RDF nyelv kiterjesztésének, az RDF Szókészlet Leíró Nyelvnek (RDF Vocabulary Description Language) a segítségével definiálhatjuk, amelyet röviden RDF Schema-nak (a továbbiakban RDFS-nek) nevezünk. Az RDFS a szabványos RDF források és tulajdonságok egy egyszerű halmaza, mellyel saját RDF szókincset hozhatunk létre. Az RDFS-hez tartozó adatmodellel adatosztályokat tudunk létrehozni.
117
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Példa: Nézzünk a definícióhoz egy infromatikai alapokon nyugvó analógiát. A relációs adatbázisséma objektumai, szabványai és előírásai jelentik azokat a metaadatokat, melyeket a táblák, oszlopok elnevezésű metaadatok definiálásához és leírásához használnak. Ez utóbbi metaadatokat pedig doménspecifikus adatok leírásához és kezeléséhez alkalmazzák. Az RDFS tulajdonképpen ugyanazt a funkciót tölti be, mint a relációs adatbázisséma. A relációs adatmodell alaptulajdonsága, hogy az adat logikailag és nem fizikailag jelenik meg. Az adat saját tartalmában van jelen és nem fizikai tárolási módjában. Az RDFS azokat a forrásokat adja meg, melyek egy doménspecifikus séma objektumainak és jellemzőinek leírásához szükségesek. Ez a doménspecifikus séma egy olyan szókészlet, melyet adott terület, érdeklődési kör objektumainak, azok attribútumainak és kapcsolatainak leírására használnak. (Gottdank, 47. oldal) Van azonban egy lényeges különbség az objektumorientált típusrendszerek és az RDFS elvi megközelítése között: az RDFS az osztályokat rendeli hozzá a tulajdonságokhoz és nem a tulajdonságokat az osztályokhoz. Ennek az a következménye, hogy szabadon növelhető marad az egy osztályhoz tartozó tulajdonságok sora. Az RDFS teszi tulajdonképpen lehetővé, hogy az általunk használt mondatokhoz jelentést társítsunk, mivel a program ezen segítség nélkül nem tudná értelmezni azokat. Az RDFS a következőket formalizálja az RDF-ben: − tipizálás (typing): egy egyed adott osztályhoz tartozik, pl: A Skoda egy autómárka, − alosztályozás (subclassing): valaminek egy példánya egyben egy másiknak is példánya, pl. Minden kígyó hüllő.). 10.3.10
OWL (Web Ontology Language)
Az RDFS sem képes azonban leküzdeni az összes problémát. A következtetések levonása sem bizható csak a számítógépes programokra, ha ehhez nem rögzítjük a következtetésekhez szükséges összefüggéseket. Példa: Ha Egerszalók balra van Egertől a térképen, és Eger balra van Noszvajtól, akkor Egerszalók balra van Noszvajtól? Számunkra magától értetődik a válasz, egyértelműen igen, de ezt a programok már nem képesek megválaszolni a számukra leírt szabály nélkül. A programok nem képesek a következtetések levonására, az állítást mint adatot csak egy másik adattal képesek összehasonlítani, majd a választ ezután közlik. A kifejezéscsoport meghatározásánál is hasonló történik, csak mi emberek az adott nyelvhez és szakmához kapcsoltan vagyunk képesek meghatározni azokat. Az osztályok megalkotása során azonosítót, vagyis nevet rendelünk az osztályokhoz. A névadáson túl a tulajdonságok hatókörének szűkítésére is szükség van egy specifikus osztálynál. A szemantikus web ehhez veszi igénybe az ontológiákat, így jön létre a fogalmak és a kapcsolatok meghatározása, amelyeket tudás leírásához és kifejezéséhez használunk. Az ontológiák tárgyalásához a taxonómia jelentése is szükséges. Az életünk elképzelhetetlen taxonómiák nélkül, nem tudnánk létezni nélkülük. A taxonómia a bennünket körül118
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE vevő tárgyak, fogalmak, élőlények csoportba foglalásának az egyik lehetséges útja. A taxonómia esetén az osztályozás hierarchikusan történik, amit a háttértárolókon tárolt állományok mappákban történő elhelyezésénél, vagy a nemzetközi könyvtári osztályozórendszernél, az Egyetemes Tizedes Osztályozásnál (ETO) már megismerhetett az olvasó. A fastruktúra képes a legszemléletesebben ábrázolni ezt a hierarchiát. A fastruktúra is egy speciális gráf, amelynek az elágazási pontjai a csomópontok, míg a csomópontokat összekötő vonalak az élek. Taxonómia: az információs entitások osztályozása hierarchikus formában, megfelelve a valós világ azon entitásai között feltételezett viszonynak, melyeket kifejez. A taxonómia kedvelt ábrázolása, amikor az összes csomópontba vezető éleket összegyűjtő csomopont, az ún. gyökérelem a gráf képenek a tetején, csúcsként szerepel. A háttértárakon ezt a szerepet a főkönyvtár tölti be. A taxonómia minden csomópontja olyan információs entitásnak minősül, mely a valós világ valamely entitását jelképezi. A csomópontok közti linkek speciális viszonyt, a reláció alosztályozását (amikor a link szülő csomópontra mutat) vagy szuperosztályozását (amikor a link gyermek csomópontra mutat) jelentik. Objektumorientált környezetben az osztály az általános entitás (Gottdank, 76. oldal). Példa: Ahogyan egyre feljebb haladunk a gyökér felé, az entitások egyre általánosabbá válnak (pl. az Adózó általánosabb, mint a), ha pedig lefelé haladunk a gyökértől, az entitások specializáltabbak lesznek (pl. a Könyvtáros specializáltabb, konkrétabb, mint a Személy). Az említett osztályozási rendszereket általánosításnak, specializálásnak is nevezik. A taxonómia szempontjából a legfontosabb tanulság a példa alapján az, hogy mindenhol, minden alosztálynál találunk egy kitüntetett tulajdonságot, továbbá az, hogy a specializáltság növekszik, ahogy a taxonómián belül egyre lejjebb és lejjebb megyünk. A taxonómiák az információs entitások osztályozására alkalmasak. Kifejezik azt a minimális mértékű szemantikát, mely az objektumok közti megkülönböztetéshez szükséges az információs térben. A taxonómiák módszert adnak tartalmi metaadataink strukturálásához és karakterizálásához. Mivel a taxonómiák fák, ezért időnként redundáns információkat is találunk bennük. Hiszen minden egyes gyermek csomóponthoz csak egyetlen szülő csomópont tartozik, így néha eltérő szülőknél duplikálódhat a gyermek csomópont. Példa: Ha Vezető és Alkalmazott nevű alosztályaink vannak, amelyek a Személy alatt találhatók, akkor bármely vezető elhelyezkedhet mindkét csomópontnál, hiszen azok alkalmazottak és vezetők is lehetnek – vagyis duplikáció következik be. Tehát a taxonómia strukturáltságától függ a redundancia. Az alosztályok taxonómikus rendje jelenti az ontológiák csontvázát, ám az ontológiák ehhez hozzáteszik még az izmokat és a belső szerveket – kapcsolatok és tulajdonságok formájában. A taxonómiák az alapszerkezetet nyújtják, az ontológiák pedig a hiányzó többi részt (Gottdank, 77. oldal). 119
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A taxonómia megismerése után következzen az ontológia bemutatása. Az ontológia megegyezésen alapuló fogalmi rendszer formális, egyértelmű leírása (Thomas Gruber, 1993). Részletesen vizsgáljuk meg a definícióban rögzített részeket: − megegyezésen alapul: az ontológiák a taxonómiákhoz hasonlóan szemantikai szabályrendszerek, melyek dolgok rendezésére használhatók, − fogalmi rendszer: osztály-alosztály szerkezetű, melynek fő jellemzője az öröklődés, − formális leírás: axiómák és meghatározások biztosítják a megkülönböztető tulajdonságok öröklődését. Egy ontológia egész pontosan a következőkből áll (Gottdank, 78. oldal): − Osztályok (általános dolgok) − Példányok (adott dolgok) − Osztályok és példányok közti kapcsolatok − Osztályok és példányok tulajdonságai (és tulajdonságértékei) − Osztályok és példányok függvényei és eljárásai − Osztályok és példányok megkötései és szabályai Ontológiákat használhatnak emberek, adatbázisok és olyan alkalmazások, melyeknek doméninformációk megosztására van szükségük. Itt a domén vagy értelmezési tartomány egy specifikus tárgyterület vagy tudásterület, mint pl. szociológia, integrált könyvtári rendszerek, villanyszerelés, a Bükk-hegység geológiája stb. Az ontológiák tehát az értelmezési tartomány alapvető fogalmainak számítógép által használható definícióit és a köztük lévő kapcsolatokat tartalmazzák. Szükségünk van még ontológia nyelvre is ahhoz, hogy definiálni lehessen − még több mindent a terminológiában az adott kontextuson belül, − még több megszorítást a tulajdonságokon, − a tulajdonságok logikai karakterisztikáját, − a kifejezések azonosságát több ontológián keresztül (Gottdank, 78. oldal). E nyelvnek egyensúlyra kell jutnia az értelmes alkalmazásokhoz tartozó gazdag szemantikák között, valamint a megvalósíthatósági kérdések között. A fő technológiai irányvonal az RDFS-ből ered, képességeinek kiterjeszthetőségére koncentrálva. Számtalan projekt indult (40. ábra), köztük a SHOE projekt, mely egy korai kísérlet volt arra, hogy szemantikát adjunk a HTML-hez, vagy az amerikai DARPA, amely a DAML-ONT nyelvet produkálta, vagy egy EU projekt az OIL nyelv kifejlesztésével, és egy negyedik, amely az utóbbi két nyelv összefésülésére tett kísérletet (DAML+OIL). Az ontológianyelvek piramisát a láthatjuk. Ezen kívül több koordináció történt az alap RDF fejlesztések között is. (Gottdank, 79. oldal)
120
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
34_K40.jpg 40. kép
A webalapú nyelvek és az ontológianyelvek „piramisa"
Az OWL egyébként a Web Ontology Language (webes ontológianyelv) kifejezés kezdőbetűiből adódik, de a jelentés miatt nem az eredti sorrenben. Ha ugyanis felcseréljük a kezdőbetűket, akkor az angol owl, azaz magyarul bagoly szót kapjuk. A DAML+OIL-ból kifejlődött OWL a jelenlegi ontológianyelvek közül a leginkább illik a szemantikus web elképzelésbe. Az OWL célja túlmutat az információ számunkra történő bemutatásán, a fő cél az információ tartalmának programokkal történő feldolgozása. Az OWL nyelv nagyobb mértékben segíti a webtartalom automatizált értelmezését, mint az RDF és az RDFS, mert bővített szókészletet, illetve formális szemantikát kínál. Az OWL nyelv a W3C támogatását élvezi. A W3C Webontológia Munkacsoport 2001 novemberében jött létre, az OWL első verziója 2003 elején jelent meg, 2003 augusztusában szabványnak jelölték, és 2004 februárjára már teljes értékű szabvánnyá is vált. A témakörhöz két honlap is kapcsolódik: http://www.w3.org/2001/sw/WebOnt http://www.w3. org/2004/OWL/). Végezetül ismerkedjünk meg az OWL konkrét létezésének alapjaival. A már megismert RDFS-ben képesek vagyunk a létező osztályok alosztályait képezni, de tovább nem tudunk lépni. Az OWL alkalmas ugyanis a már létező osztályok alapján új osztályokat készítsünk, ehhez meg kell határozni a tartalmát. A tartalom meghatározása a halmazelméletből ismert metszet, unió, komplemens képzéssel, a tulajdonság szűkítésével történhet. Az OWL-ben ehhez saját osztályok és egy Thing (Dolog) osztályt vezettek be, így képes megkülönböztetni az egyedeket az osztálytól (41. kép).
121
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
34_K41.jpg 41. kép
RDFS és OWL osztálykapcsolat
Az imént említettük, hogy az osztályok felsorolása az OWL-ben egyszerűbb, mint az RDFS-ben. Ha egy tulajdonság lehetséges értékeit rögzíteni szeretnénk az RDFS-ben, akkor egy viszonylag bonyolult XML Schema leszármaztatott típust kell definiálnunk (pl. egy autóTipus típust), és erre kell hivatkoznunk. Vagyis az RDF világából kell kilépnünk, ami sok nehézséggel jár. Ehhez nyújt egy, egyszerűbb megoldást az OWL az „owl: oneOf” bevezetésével. Ezzel az osztályok felsorolhatók lesznek. A 42. ábrán egy olyan megtekinthetünk egy példát, itt a lehetséges tartalom explicit módon (egyértelműen) listázott. A gráf alatt annak az XMLben történő megvalósítása is látható
42. kép
122
Példa az OWL-ben az „owl:oneOf”szerepére és annak megvalósítása XML-ben
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A következő példa az uniót mutatja be gráf és XML formában. Ehhez az OWL-ben az „owl:unionOf” alkalmazása szükséges (43. ábra). Hasonlóan képezhető az OWL-ben a komplemens (owl:complementOf) és a metszet (owl:intersectionOf) is.
43. kép
10.4
Példa az OWL-ben az „owl:unionOf” szerepére és annak megvalósítása XML-ben
ÖSSZEFOGLALÁS
A szemantikus web az internet egy lehetséges jövője, mely a jelenlegi webet olyan többlet információkkal egészíti ki, hogy a leírtakat ne csak egy személy, de a számítógép is megérthesse. Egy egységes leíró nyelv segítségével az alkalmazások emberi beavatkozás nélkül képesek kommunikálni, információt megosztani. Teljesen automatikusan működő programok nyújtanak segítséget vagy szolgáltatást, így a weboldalak tematikus leírását kihasználó keresők sokkal hatékonyabban működhetnek. 10.5
ÖNELLENŐRZŐ KÉRDÉSEK
Hasonlítsa össze az RDF és az RDFS ontológiákat! 2. Mi véleménye a szemantikus web elterjedéséről? 1.
123
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
11. INTELLIGENS RENDSZEREK 11.1
CÉLKITŰZÉS
Az adatbányászat mögöti fogalmak megértése. Az adatbányászat folyamatának, céljának, csoportosításának megtanulása. A leckében cél a tájékozódás, de nem cél még a gyakorlat tevékenység kipróbálás sem, ahhoz sokkal komolyabb alapozó ismeretre lenne szükség. 11.2
TARTALOM
Üzleti intelligencia Üzleti intelligencia az információellátás folyamatában Az üzleti intelligencia és a könyvtár Az üzleti intelligencia jövője Adatbányászat Az adatbányászat irányzatai Iteratív folyamat Webbányászat Szövegbányászat
11.3
A TANANYAG KIFEJTÉSE
Intelligens rendszerek bemutatása. Az üzleti intelligenciából vett eszközök, mint az adatbányászat (webbányászat) stb. vázlatos szerepének kifejtése. A jövő könyvtári tevékenységeinek bemutatása az információforrás szemszögéből, mint pl. a szövegbányászat. Az eszközöket kifejezetten az információ-szolgáltató oldala felől közelítjük meg, azok működését, matematikai hátterét itt nem tárgyaljuk. A profitorientált szféra tőkeerős cégeinek menedzsmentje számára elérhető információk kinyerése a jövőben majd a könyvtár eszközei között is szerepel. 11.3.1
Üzleti intelligencia
A fogalom pár éves múltra tekinthet vissza, ezért a megalkotásánál fontos, hogy milyen szemszögből vizsgáljuk. Egy tanulmányban az üzleti oldalról megközelített meghatározása szerepel (Krauth:2008): Az üzleti intelligencia olyan technológiák és alkalmazások öszszessége, amelyek adatok gyűjtésével, hozzáférhetőségével és elemzésével foglalkoznak egy vállalatban, hogy vezetői jobb üzleti döntéseket hozhassanak. A fogalom megközelíthető az informatika oldaláról (Mozsik:2008): „Az üzleti intelligencia (Business Intelligence, BI) gyűjtőfogalom, ami számos, az elemzéssel kapcsolatos területet magában foglal, mint a vállalati adatvagyon összegyűjtését szolgáló adattárházak, a lekérdezések és a jelentések készítésére szolgáló szoftvererek, a multidimenzionális adatok nagy sebességű kezelésére szolgáló OLAP-eszközök vagy a rejtett összefüggések feltárására és előrejelzésekre matematikai-statisztikai módszereket alkalmazó adatbányászati megoldások.” 124
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 11.3.2
Üzleti intelligencia az információellátás folyamatában
A hazai vállalatok működésében az informatika hálózatra épülő struktúrája, és az informatika alkalmazási rendszerei egyre fontosabb szerepet töltenek be. Több évtizede az operatív szintű termelő-szolgáló folyamatok meghatározó elemét képezi, később egyre jobban teret nyert a stratégiai szintű irányítási-döntési folyamatokban is. A vállalatok tipikus, a vállalati információelőállítás szemszögéből adatelőállító szerepű alkalmazási rendszerei jól ismertek: ERP, CRM, SCM és egyéb alkalmazások. Az ERP (Enterprise Resource Planning) az operatív vállatirányítási rednszert, a CRM (Customer (Relationship Management) az ügyfélkapcsolati rendszert, az SCM (Supply Chain Management) a beszállítói lánc rendszerét jelenti. Ezek és az egyéb alkalmazások azonban az operatív folyamatokat támogatják, azaz a cég szervezeti hierarchiájának alsó és középső szintjén dolgozók napi tevékenységeihez kapcsolódnak. A vállalati stratégiai döntések a felső vezetőkre, esetenként a középvezetők felső szintjére hárulnak, ezen döntések hatása befolyásolja és meghatározza a cég jövőjét, gazdasági pozícióját, eredményeit, ezekhez a tevékenységekhez másfajta támogató rendszerek szükségesek, amit összefoglaló néven üzleti intelligencia rendszereknek (BI) neveznek.
44. kép
Az üzleti intelligencia szerepe a vállalati információellátásban
A vállalati információellátásban az üzleti intelligencia szerepe az információelőállító rendszerek után jelenik meg, melynek alkalmazása napjainkban csak a profitorientált, jelentős tőkeerővel bíró szervezeteknél mindennapos. Az információellátás ciklusának a rendszerezés, elemzés és hasznosítás szakasza kapcsolódik az üzleti intelligenciához. A rendszerezés szakasza ma a vállaltoknál leginkább az operatív adatok összegyűjtését, majd azok jól strukturált adattárakba, adattárházakba történő elhelyezését jelenti, és az adatok konzisztenciáját egy, az adott eszközre specializált megoldással biztosítják. Kisebb vállalatok még adattárházat sem fejlesztenek ki. Az adattárház az általános adattártól leginkább abban különbözik, hogy az adatok idősorait is tárolja, nem csak az aktuális értéket. Az adatelemzés az adatok megjelenítését vagy a vállalati adatok eseti vagy feltáró jellegű stratégiai szintű elemzéséig terjed, melyhez adatbányászati technikákat használnak a cégek. A kisebb válallatoknál az adatelemzés leginkább a pénzügyi adatok jelentéskészítő vagy táblázatkezelő alkalmazással történő összesítését jelenti. A hasznosítás szakasza a 125
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE vállalat teljesítményalapú irányításából (CPM), a döntéstámogatásból (DSS), és az üzleti folyamatok felügyeletéből áll. Az üzleti intelligencia az informatikai tevékenységek szemszögéből a fentiek alapján a vállalati adatgyűjtő-, tároló-, elemző eljárások és alkalmazások együttese, ide tartoznak többek között a vállalati információs rendszerek, döntéstámogató rendszerek, vezetői információs rendszerek, adatbányászat, adatmegjelenítés, geográfiai információs rendszerek stb. 11.3.3
Az üzleti intelligencia és a könyvtár
Az üzleti intelligencia alkalmazása a könyvtárban, – mivel nonprofit szervezet – szinte példa nélküli, leginkább az operatív munkát támogató integrált rendszerek egyes moduljait alkalmazzák, de ehhez más, az intézmény tevékenységében jelentős rendszerek (pl. a katalógus rendszer, a kölcsönzési rendszer stb.) nem integrálódtak, és ez a folyamat középtávon nem is várható. A könyvtárban ezért ilyen irányú rendszerezést és elemzést legfeljebb néhány kutató végezhet, de nem minden esetben hasznosítja az eredményeket a könyvtár vezetése. Az Európai Unió ugyanakkor elvárja az összemérhetőséget, a fejlődést, így 2010-től a Európai Tudásalapú Térség létrehozása a cél, melynek két fő pillére az Európai Kutatási Innovációs Térség és az Európai Oktatási térség létrehozása. A fejlődés sok más terület mellett elképzelhetetlen a felhalmozott, és a folyamatosan gyűjtött adatok hasznosítása nélkül. 11.3.4
Az üzleti intelligencia jövője
Az üzleti intelligencia alkalmazása az eddigi elsődleges használók, a specializált szakértők kezéből fokozatosan kikerül, és a BI a vállalatok teljes információgazdálkodási tevékenységének egésze lesz. A vállalatirányítási döntések várhatóan nem különülnek majd el az előkészítéshez használt üzleti intelligenciától. A BI nem marad meg a nagyvállalati keretek között, hanem a kisebb vállalkozások, költségvetési és közigazgatási szervezetek használják majd integráló, rendszerező, döntéselőkészítő funkcióit. Keresés oldalról a szövegbányászat egyre hangsúlyosabb szerepet kap, és az alkalmazott adatbányászati tevékenységeken belül megnő a szerepe, de a két lehetőség integrációja is elképzelhető. A mesterséges intelligencia elmozdulást mutat az emberközpontúság felé, ami nagyobb felhasználói beavatkozás mellett együttműködést és rugalmasságot tesz lehetővé, az együttműködés alapja az interaktivitás. Az adatokat kisebb szervezetek, így könyvtárak is képesek lesznek saját igényeik szerint feldolgozni, a problémákra önmaguk adhatják meg a választ, mellőzve ezzel az adott szervezetre előre konfigurált, tehát költséges rendszereket. 11.3.5
Adatbányászat
Az adatbányászat az üzleti intelligencia része, azon belül a vezetés döntéstámogató eszköze. Az adatbányászat (data mining) jelentősége az 1990-es években nőtt meg. Az adatbányászat egy folyamat, amelynek során intelligens műveleteket, műveletsort hajtunk végre az adatminták kiemelése érdekében, vagyis az érdeklődésre számot tartó tudás nagy mennyiségű adatból történő feltárása. 126
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Az adatbányászat egy olyan iteratív folyamat, amelynek célja – intelligens műveletek, műveletsorok végrehajtása során – a kezdeti, sokszor struktúrálatlan adathalmazból adatminták kiemelése, azaz a menedzsment döntéseit támogató tudás nagy mennyiségű adatból történő feltárása. Az intelligens műveletek különféle statisztikai alapú elemző technikákat jelentenek, pl. neurális hálózat, faktoranalízis stb. Az adatbányászat a statisztika elemeit használja ugyan, de messze túlmutat azon, egy igen mélyreható matematikai és informatikai alapot igényel. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-technológián alapuló eszközökkel felfedezhetetlen. A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más információtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázistechnológián alapuló eszközökkel felfedezhetetlen.
45. kép
Tipikus adatbányászati-rendszer architektúrája
Jelenleg két piacvezető adatbányász programcsomag létezik. Az IBM-SPSS cég Modeler nevű programja és a SAS Enterprise cég Miner elnevzésű programja. A termékek jelenlegi árfekvése nem teszi elérhetővé a kis- és középvállakozások (kkv) számára. Tudomásunk szerint a Modeler rendszert már használják a következő hazai vállalatok: OTP Bank, TÁRKI DATA RESEARCH, Millward Brown (piackutató), T-Mobile, Bi Consulting. Szükséges megemlíteni a nehézségeket is. Az első probléma, hogy az adatbányász, és az azokat kiegészítő szövegbányász-, webbányász stb. programcsomagok az üzleti szférához szabott, kiemelten magas áron érhetők el. A másik probléma a használathoz kötődik, ugyanis a rendszer működtetésének elsajátítása jelentékeny szellemi erőfeszítést igényel, tehát jelenleg még nem lehet önálló menedzsment támogató informatikai eszköz. További gond, hogy egy adatbányászban jártas szakértő alkalmazása csak hosszabb távon hozza meg a kívánt eredményt, hiszen kiválóan kell ismerni az elemzett vállalat vizsgált folyamatait, belső kommunikációs rendszerét. 127
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 11.3.6
Az adatbányászat irányzatai
Az adatbányászat minden olyan területen használható, ahol a tevékenység során nagy mennyiségű adat keletkezik (pl. üzleti, államigazgatási, egészségügyi, oktatási, tudományos stb.). − adatbányászat a gazdaságban: hiteltörlesztési hajlandóság előrejelzése és hitelbírálati irányelvek elemzése; fogyasztók célzott marketing szempontú osztályozása és klaszterezése; pénzügyi bűncselekmények felderítése; reklámhadjáratok hatékonyságvizsgálata; vevőmegtartás: lojalitás-vizsgálat − adatbányászat a távközlésben − orvostudományi és DNS-adatok stb. Az adatbányászathoz elengedhetetlen a hatalmas adathalmaz, akár a vállalat életciklusa során tárolt összes adata, hiszen csak akkor bukkanhatunk értékes összefüggésekre. Az ilyen adatok, – emberi léptékkel felfoghatatlan – halmazának adatbányászat nélküli feldolgozása a menedzsment számára információban szegény, költséges, időigényes, előítéletekre épített, félrevezethető tudást eredményezhet. Az adatbányászat, mint multidiszciplináris tudomány az alábbi területekre támaszkodik: − adatbázis-technológia, információ-visszakeresés, − mesterséges intelligencia, neurális hálók, − számítógépes tanulás, − statisztika, − alakfelismerés, − tudás alapú rendszerek, tudásmegerősítés, − nagy teljesítményű számítások, − vizuális adatmegjelenítés. Az adatbányászati feladatok két osztályba sorolhatók: − leíró – az adatok általános jellemzőit tárja fel, − előrejelző – meglévő adatokból következtet, prognosztizál. 11.3.7
Az iteratív folyamat
Az adatbázisokban végzett tudásfeltárást (KDD – Knowledge Discovery in Databases) az adatbányászat szinonimájaként vagy annak részeként használják. Jelen munkában a KDD szinonimája az adatbányászat. Az adatbányászat iteratív folyamatának lépései: − adattisztítás – zajos, inkonzisztens adatok eltávolítása − adatintegrálás – több adatforrás összekapcsolása − adatkiválasztás – adatok kiolvasása az adatbázisból az elemzéshez − adat-transzformáció – az adatok olyan formájának előállítása, hogy az bányászható legyen − adatbányászat – az adatminták kiemelése érdekében végzett eljárás − minta kiértékelése – tudást reprezentáló, valóban érdekes minták meghatározása
128
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE −
tudásmegjelenítés – a kinyert tudást tudáskifejező technikákkal tárja a felhasználó elé Az előállított, érdekes minta tudást reprezentál, de mikor lesz értékes a minta? Ha egyszerűen érthető, bizonyos megbízhatósággal érvényes új vagy kísérleti adatokon, potenciálisan hasznos, újszerű. Egy minta akkor is értékes, ha olyan hipotézist igazol, amelyet a felhasználó bizonyítani szeretne. A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más információtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázistechnológián alapuló eszközökkel felfedezhetetlen. Az előállított, érdekes adatminta, vagyis az eredmény tudást reprezentál, de az adatminta kizárólag akkor lesz érdekes, ha egyszerűen érthető, bizonyos megbízhatósággal érvényes új vagy kísérleti adatokon, potenciálisan hasznos, újszerű. Egy adatminta akkor is érdekes, ha olyan hipotézist igazol, amelyet a felhasználó bizonyítani szeretne. Példa: Egy online hírportálnál rendkívül fontos a látogatók viselkedése, mert a hirdetéseket így lehet a megfelelő áron és meggyőzően értékesíteni. Az adatbányászat (webbányászat) során kapott, egy lehetséges értékes adatmintára példa: a hétköznapokon 9.-11.00 közötti látogatók 60%-ka nem a portál főoldaláról indul, de megnézi átlagosan 10 percig a baba-mama oldalakat, 2-3 percig a bulvár rovatot, 1 percig az időjárást és a TV műsort. A látogatók 25%-a a sportot nézi meg, esetleg a friss politikai híreket. A látogatók 10%-a tudományos oldalakat, azon belül is leginkább informatikai híreket olvas ebben az időben, és ők gyakran megnézik az Autó-motor rovatot is. A látogatók 5% pedig teljesen kiszámíthatatlanul viselkedik ebben az idősávban, de többnyire a híreket ők is megnézik. 11.3.8
Webbányászat
A látogatók szokásainak minél alaposabb megismerése állandó kihívás. Az online kommunikációs csatornákat használó látogatók magatartását a hagyományos eszközökkel nem, vagy nagyon nehezen lehet megismerni. Azonban ez a felhasználói réteg nagyon sok nyomot hagy maga után, a kiszolgáló számítógépeken rögzített adatok kincset érnek, melyek „felszínre hozhatók” a webbányászati eszközökkel. A látogatók igényeit kielégítő, individualizált szolgáltatás csak abban az esetben valósítható meg, ha az online szokásaikat, magatartásukat elemezzük a weboldalakon található linkeken át bejárt útvonalak alapján. A webbányászat az adatbányászat része. A webhasználat-bányászattal tanulmányozhatjuk a látogatók szokásait, magatartásmintáit. A webhasználat-bányászat nevezhető webnapló bányászatnak is, hiszen ma még többnyire a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. Jelen dolgozat vizsgálatait a webhasználat-bányászat eszköztárát alkalmazva végeztük el. Az azonosíthatatlan felhasználók online tevékenységét a látogatásuk alkalmával rögzítjük, az adatgyűjtés az adott fogyasztóról a látogatás befejezéskor zárul le. Ez azt jelenti, hogy a legközelebbi látogatás alkalmával ő már más fogyasztónak számít. Ha a látogatók száma nagy, akkor a marketingmenedzsment honlappal kapcsolatos döntéseihez a vizsgálatok elégséges bemenetet jelentenek, hiszen minden elemzés az online látogatók teljes populációjára alapul. A vizsgálatokat néhány említésre méltó tény nehezíti (Han, Kamber, 2004): 129
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE − a web túlságosan bőséges tárolt adathalmaza, − a weboldal strukturálatlansága, bonyolultsága, − a weboldal dinamikusan változásai, − a felhasználók azonosítási anomáliái stb. A webbányászat feladatköre a vizsgálat tárgya szerint három területet fog át: − webtartalom-bányászat (web content mining), − webstruktúra-bányászat (web structure mining) és − webhasználat-bányászat (web usage mining). A webhasználat-bányászat használatával a látogatók szokásainak, magatartásmintáinak tanulmányozása válik lehetővé. A webhasználat-bányászat nevezhető webnapló bányászatnak is, hiszen a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. A webnapló-bejegyzések (weblog fájl) vizsgálata során a weblapok hozzáférési mintáit lehet feltárni, így a látogatók számára az interneten keresztül nyújtott szolgáltatások minősége javítható, akár a webet kiszolgáló számítógépek (webszerverek) teljesítménye is növelhető. Egy adott webnapló-bejegyzés mezői eltérőek lehetnek, de mindegyik webszerver tárolja a következőket: − a kérés kiindulási helyének IP címét, − a kérés pontos idejét, − a kért URL címet, − és ezen kívül még néhány adatot. A webnapló-bejegyzéseknél gyakorta a túlságosan is sok adat jelenti a nehézséget. A rögzített adatokból, – amelyek leginkább technikai jellegűek – kell megtalálni a relevánsakat. A felhasználók hozzáférési mintáinak ilyen osztott információs környezetben történő kigyűjtését nevezik hozzáférési útvonalminta bányászatnak is. A webbányászat eszköze egy adatbányász szoftverre épül. A két piacvezető adatbányász programcsomag rendelkezik webbányász kiegészítéssel is. A kutatásoknál használt IBM-SPSS Modeler esetén ezt nevezik WebMining CAT modulnak. A webbányászati technikák alkalmasak a felhasználók alaposabb megismerésére. Természetesen az eddig elvégzett vizsgálatok, webstatisztikák, a látogatásokról, kattintásokról szóló összesítések szükségesek, azonban az online vásárlók, látogatók igényeit individuálisan kielégítő szolgáltatás csak abban az esetben valósítható meg, ha felhasználók szokásait, magatartását elemezzük, például a weboldalakon található linkeken át bejárt útvonalak alapján. A vizsgálatok előnye, hogy a teljes populáción történik, azaz nincs vizsgált minta. A rendszertervezés tökéletesítése során elérhető pl. az erősen korreláló objektumokhoz történő hatékonyabb hozzáférés, de a fogyasztók individualizált, online kiszolgálása is tökéletesedhet pl. egy hírszolgáltató website-nál. Webbányászat: az üzleti szféra Internet-alapú szegmensében kidolgozott igen erőteljes speciális adatbányászati megközelítés, az adatbányászat alkalmazása a webhelyek forgalom-elemzésének speciális területére.
130
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A módszer a webhelyek üzemeltetőjének a szerverén képződő, a forgalomra jellemző naplófájlok (az ún. logfájlok) kifinomult elemzésére épül és az adott webhelyek hatékonyságának a fokozását tűzi célul. A különböző típusú naplófájlok (ún. weblog-ok) elvben a felhasználók tevékenységére vonatkozó igen gazdag információ-források. Itt a probléma a szokásosnak éppen a fordítottja: itt nem kevés, hanem túlságosan is sok információ áll rendelkezésünkre. A naplófájlok mérete ugyanis az üzleti szférában – a látogatók számától és elemzett időszak hosszától függően – gyakran a több száz MB vagy a GB nagyságrendjébe esik. Ezt a nagy mennyiségű – és nagymértékben pusztán technikai jellegű – információt kell célszerű módon megszűrni, átalakítani, feldolgozni úgy, hogy a kezdeti technikai információból a felhasználó viselkedését és motivációját megalapozottan jellemző információkat nyerjünk. Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag hatékonyságára, illetve a hatékonyság konkrét akadályaira. A web-bányászati technikák ezért a tananyag fejlesztésének a folyamatában – mintegy az ipari gyártásközi minőségellenőrzés analógiájára – az egzakt közbenső „mérések” lehetőségét nyújtják: a fejlesztés minden „mintavételezés” után attól függő irányokat vehet, hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre bocsátott verzióját. A menet közben azonosított szakmai, didaktikai, használhatósági, szoftver-ergonómiai (leggyakrabban a navigációval vagy az információmegjelenítéssel kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az így kialakított verzió egy újabb ciklusban tesztelhető. Ez a megközelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók és a tananyag vonatkozásában nem egyfajta mintavételezésről van szó, hanem valamennyi tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűleütések és egér-kattintások szintjének megfelelő finomságú felbontásban. Az elemzés tehát nem a célpopulációból vett többé-kevésbé reprezentatív mintákra épül, hanem a célpopulációra nézve teljes körű. A sikeres web-bányászati elemzés feltétele, hogy a különböző modellekkel nyert eredményeket az elemző képes legyen a felhasználói szintű élményekkel, illetve tapasztalatokkal összekapcsolni. Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a webbányászati elveket és eszközöket, mind az elemzett konkrét anyagot, mind pedig a felhasználókat eléggé mélyen ismeri. 11.3.9
Szövegbányászat
Az előzőekben kifejtett (webes) szövegen alapuló keresésnél jóval többet hivatott nyújtani a szövegbányászat egyes speciális keresőkérdés esetén. Míg a szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállományban (korpuszban), csak indirekt módon, a szöveg közé rejtve. A teljes szövegű keresés ugyan része a szövegbányászatnak, a szövegbányászat a keresésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél.
131
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE A szövegbányászat (angolul text mining) a strukturálatlan vagy kis mértékben strukturált szöveges állományokból kinyert ismeretek feltárásával foglalkozik. Az új információ kinyerése olyan, különböző pl. webes dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. A gép számára azonban a humán segítség elengedhetetlen. Példa: Szeretnénk megtudni, hogy a fogyasztóknak mi a véleménye egy könyvről az interneten megtalálható blogok, fórumok, hozzászólások szöveges anyagai alapján. Ehhez definiálnunk kell, hogy milyen karakterekből áll a könyv címe, szerzője, mit nevezünk jónak, és mit nevezünk rossznak, mi lehet a jelző a leírt mondatokban. Ezután a tudásfeltárás automatikusan történik, azaz megkapjuk, hogy hányan főnek volt pozitív, illetve negatív véleménye, hányan bánták meg a vásárlást, hányan ajánlják másoknak stb. Ezt a tudást indexelt keresőkkel csak hatalma emberi munkaráfordítással lenne elérhető, hiszen olyat is megtudhatunk, hogy akik ezt a könyvet dicsérték, azok mit dicsértek még stb. A szövegbányászat nagymértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. 11.4
ÖSSZEFOGLALÁS
Információkeresés magas szinten, intelligens rendszerek bemutatása. A profitorientált szféra jelentős cégeinek menedzsmentje számára elérhető keresés a jövőben a könyvtár, így a könyvtárosok eszközévé válik. Az eszközöket kifejezetten a tájékoztatás oldala felől kezelítjük meg, hiszen azok működése, matematikai háttere egyetlen tárgy résztémakörénél teljesíthetetlen. Megismertük az üzleti intelligenciából vett eszközök, mint az adatbányászat (webbányászat) stb. vázlatos szerepét. 11.5
ÖNELLENŐRZŐ KÉRDÉSEK
Értelmezze az adatbányászatot! 2. Hasonlítsa össze a webbányászatot a szövegbányászattal! 1.
132
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
12. ÖSSZEFOGLALÁS 12.1
A KURZUSBAN KITŰZÖTT CÉLOK ÖSSZEFOGLALÁSA
A kurzus célja, hogy megismertesse a hallgatókat az interneten fellelhető adatok keresésének lehetőségeivel, a keresés alapfogalmi felépítésével, a webes keresőszolgáltatások, azon belül a webes keresőrendszerek működési mechanizmusával. A tananyag kiemelten kezelte az online keresés adekvát eszközének kiválasztását, rámutatva arra milyen esetben, és miként érdemes igénybe venni az internetes keresést. Kiemelt figyelmet kapott a keresés korszerű, a könyvtáros szakemberek számára nélkülözhetetlen ismeretet jelentő, tudásalapú internet tárgyalása az online keresés vonatkozásában. A jelenlegi és a jövő technológiáit egy bizonyos határig szükséges volt bemutatni mellőzve a mély informatikai ismeretek. Cél volt ezen túlmenően a technológiák várható hatásainak ismertetése, hiszen a folyamatos és gyors változás miatt a diploma megszerzése után várhatóan évről-évre változó technikai- és szolgáltatás hátérrel kell kiszolgálniuk a könyvtár személyes- és virtuális látogatóit. 12.2
TARTALMI ÖSSZEFOGLALÁS
A jegyzet gerincét az internetes keresőrendszerek egy szűk, de széles közösség által használt részébe próbált betekinteni. A jegyzetben megismerte a keresőrendszerek kapcsolatát a könyvtári tájékoztatással, a mai keresők fajtáit, azok használatát, működési mechanizmusait, valamint kitekintést nyújtott a következő évtizedek várható technológiai változásaira.
12.3 12.3.1
A TANANYAGBAN TANULTAK RÉSZLETES ÖSSZEFOGLALÁSA Információ szolgáltató eszközök fejlődése a könyvtáros szakmában
A könyvtáros szakma és a szaktájékoztatás eszközének átalakulása, megváltozása az adatbázisok alkalmazásától az online információ-szolgáltató eszközökig. A online keresés modellje. Az internetes találatok szakmai hitelessége. A találati listák elektronikus és hagyományos kezelése, archiválása. A közeljövő operatív könyvtári munka kiegészülhet a Web2.0-val jelzett technológiához köthető szolgáltatások keresési lehetőségeivel. Üzleti információ. 12.3.2
A keresőszolgáltatások alapismeretei
A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása, tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tematikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén kiemelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a könyvtári menedzsment szemszögéből.
133
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 12.3.3
A kulcsszavas keresés technikái
A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása, tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tematikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén kiemelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a könyvtári menedzsment szemszögéből. 12.3.4
Google, mint kereső eszköz
A Google a keresőrendszerek között az utóbbi évtizedben egy külön fogalmat jelent az utóbbi évtizedek alapján. A lecke bemutatta a megszokott, weboldalak és szöveges alapú dokumentumok keresését biztosító keresőmotor sokszínű, állandóan fejlődő lehetőségeit különböző aspektusból. A Google ezen kívül a speciális keresés terén is páratlan fejlődést mutat, melyekre részletesen kitértünk. Külön boncolgattuk a Google a keresőrendszerek használatában kivívott elsőségét. 12.3.5
Keresőrobotok
A keresőrobotok mechanizmusának megértése a hatékonyabb keresőkérdés összeállítása érdekében.A PageRank vázlatos bemutatása, szerepének megértése a webes keresésnél. A keresőoptimalizálás attitüdjeinek elsajátítása. 12.3.6
Metakeresők
Metakeresők működési elve. A magyar és külföldi metakeresők használatának és működésének leírása. Az Ariadnet használatának és a keresőmotor működésének részletes bemutatása. A PolyMeta használatának és a keresőmotor működésének részletes bemutatása. A Miner használatának és a keresőmotor működésének részletes bemutatása. Egyéb magyar metakereső szolgáltatások. 12.3.7
Speciális keresők
A témakörre specializált (vertikális) vagy egyetlen honlaphoz (site) kapcsolódó keresési lehetőségek bemutatása. A témakörre specializált keresők közül a keresők kapnak kiemelt figyelmet. A honlap saját keresési lehetőségeinek tárgyalása során bemutatjuk a Magyar Tudományos Akadémia honlapjának keresőjét. Ezen kívül az alábbi témakörök keresőiről, és azok korlátairól lesz szó: tudományos adatbázisok, tudástárak, szótárak, művészeti tárak, rövidítésszótár, személykeresők, kapcsolat alapú rendszerek, kép- és mozgókép, térkép, online szakmai újságok folyóiratok, jogszabályok, vezetékes és mobil telefonszámok, szervezeteket kereső szolgáltatás. 12.3.8
Katalógusok
A katalógusok megismerése mellet egyéb más, a katalógusok és a kulcsszavas keresők egye jellemzőit viselő tartalomszolgáltató oldalát ismertük meg. A katalógusok működési
134
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE mechanizmusa mellett a katalógusokban elérhető saját belső vagy külső kulcszsvas keresőket mutattuk be. 12.3.9
Szemantikus web
A szemantikus web az internet egy lehetséges jövője, mely a jelenlegi webet olyan többlet információkkal egészíti ki, hogy a leírtakat ne csak egy személy, de a számítógép is megérthesse. Egy egységes leíró nyelv segítségével az alkalmazások emberi beavatkozás nélkül képesek kommunikálni, információt megosztani. Teljesen automatikusan működő programok nyújtanak majd segítséget vagy szolgáltatást. A weboldalak tematikus leírását kihasználó keresők pedig sokkal hatékonyabban működhetnek. 12.3.10
Intelligens rendszerek
Információkeresés magas szinten, intelligens rendszerek bemutatása. A profitorientált szféra jelentős cégeinek menedzsmentje számára elérhető keresés a jövőben a könyvtár, így a könyvtárosok eszközévé válik. Az eszközöket kifejezetten a tájékoztatás oldala felől kezelítjük meg, hiszen azok működése, matematikai háttere egyetlen tárgy résztémakörénél teljesíthetetlen. Megismertük az üzleti intelligenciából vett eszközök, mint az adatbányászat (webbányászat) stb. vázlatos szerepét.
135
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
13. KIEGÉSZÍTÉSEK 13.1 13.1.1
IRODALOMJEGYZÉK Hivatkozások
Könyv DÖMÖLKI BÁLINT (szerk.): Égen-földön informatika. Az információs társadalom technikai távlatai. Tanulmánykötet. Bp., Typotex, 2008. GEOszkóp. Médiatúladagolás? GEO. A világot felfedezni és megérteni. 2010.június p. 14. GOTTDANK TIBOR: Szemantikus web. Bevezetés a tudásalapú internet világába. Bp., Computerbooks, 2005. KISZL PÉTER: Üzleti információ, céginformáció és a könyvtárak. Bp., ELTE, 2005. KOVÁCS JÁNOS: Interneten a középkori oklevelek. In.: Heves megyei Hírlap 2010. május 13. 5. oldal MIKULÁS GÁBOR (SZERK.): Információból üzleti érték. Magyar Információbrókerek Egyesülete. Bp., MIBE, 2006. MISKI GÁBOR: Adatbányászat – közérthetően.In.: ItBusiness 2010. április 6. 10. oldal UNGVÁRY RUDOLF – VAJDA ERIK: Könyvtári információkeresés. Bp., Typotex, 2002. Elektronikus dokumentumok, források A Google története. Webma, analitikus marketing. Cikk elérése: webmarketing>keresőmarketing tudásbázis>keresők>google története [online dokumentum] URL: http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_tortenete.html (letöltve: 2010. június 10.) Ady Krisztián: Elindult a Google videokereső szolgáltatása. HWSW Online Informatikai Hírmagazin. Eco@TECH rovat. 2005. június 28. [online dokumentum] URL: http://www.hwsw.hu/hirek/29238/elindult-a-google-videokeresoszolgaltatasa.html (letöltve: 2010. június 10.) Alexa. The Web Information Company. (online webstatisztikai adatok) URL: http://www.alexa.com/ Arcfelismerés a weben. Riya. Index.hu, Tech rovat. 2006. május 27. [online dokumentum] URL: http://index.hu/tech/net/riya2931/ (letöltve: 2009. szeptember 15.) Bodnár Ádám: A Google babérjaira tör az új kereső, a Cuil. HWSW Online Informatikai Hírmagazin. Web rovat. 2008. július 28. [online dokumentum] URL: http://www.hwsw.hu/hirek/36542/cuil_google_web_kereses.html (letöltve: 2009. szeptember 15.) Boros Klára: Digitális könyvtárak szerepe. Irodalom – internet – napló. 2005. október 13. [online dokumentum] http://krono.inaplo.hu/index.php/inter/recenzio/273-digitalis-koenyvtarak-szerepe(letöltve: 2010. május 26.) Csónaki Bogi: Katalogizálás az ókorban. Irodalom – internet – napló. 2009. január 19. [online dokumentum] 136
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE URL: http://krono.inaplo.hu/index.php/inter/weblibrary/632-katalogizalas-azokorban (letöltve: 2010. május 26.) Elindult az iGlue szemantikus kereső. Kereső Világ: minden a keresésről, keresőkről. 2009. november 12. [online dokumentum] URL: http://kereses.blog.hu/2009/11/12/elindult_az_iglue_szemantikus_kereso (letöltve: 2010. április 23.) ERIC [online dokumentum] URL: http://gep.dialog.com/instruction/workbook/2005_labwb_bluesheets.pdf (letöltve: 2010. június 18.) Google Goggles: lefordítani magyarra a szöveget, amit a mobil kamerája lát. Webisztán. 2010. február 19. [online dokumentum] URL: http://webisztan.blog.hu/2010/02/19/google_goggles_avagy_leforditani_magyarra_a _szoveget_amit_a_mobil_kameraja_lat (letöltve: 2010. június 10.) Google képkeresés – fejlesztés alatt. SEO blog – LONGHAND. Cikkek keresőoptimalizálásról, tanácsok webfejlesztéshez. [online dokumentum] URL: http://longhand.hu/google-cikkek/google-kepkereses-fejlesztes-alatt.php (letöltve: 2007. június 11.) Google Scholar szócikk. Wikipédia. A szabad enciklopédia. [online dokumentum] URL: http://hu.wikipedia.org/wiki/Google_Scholar (letöltve: 2010. április 10.) Google szemantikus keresés. Webma, analitikus marketing. Cikk elérése: webmarketing>keresőmarketing tudásbázis>keresők [online dokumentum] URL: http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_szemantikus_ kereses.html (letöltve: 2010. március 25.) Google Unviersal Search. Webma, analitikus marketing. Cikk elérése: webmarketing>keresőmarketing tudásbázis>keresők>google universal search [online dokumentum] URL: http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_Universal_Sea rch.html (letöltve: 2010. június 10.) Google webcímtár. [online dokumentum] URL: http://www.google.com/Top/World/Magyar/Tudomány/ (letöltve: 2010. április 10.) Google: valós idejű keresés magyarul is. HVG.hu IT/Tudomány rovat. 2010. március 19. [online dokumentum] URL: http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses (letöltve: 2010. június 10.) Google: valós idejű keresés magyarul is. HVG.hu, IT tudomány rovat. 2010. március 19. [online dokumentum] URL: http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses (letöltve: 2010. április 10.) Jároli József: Metakeresők. [online dokumentum] http://webni.innen.hu/SzabadszavasKeres_c5_91k Katalógusok. Országos Széchényi Könyvtár [online dokumentum] URL: http://www.oszk.hu/hun/konyvtar/szervfel/kulongy/zenemutar/zenemutar_katal_hu. htm (letöltve: 2010. június 7.) Magyar Elektronikus Könyvtár (MEK). URL: www.mek.hu 137
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Netbusiness Europe: Online marketing szótár [online dokumentum] URL: http://www.netbusinesseurope.com/online-marketing-szotar Online adatbázisok. [online dokumentum] URL: http://www.baf.hu/guglesz/data/html/dbase.html (letöltve: 2010. május 15.) Startlap termék. Sanoma Media. Cikk elérése: Termékek/Új média/Startlap. [online dokumentum] URL: http://www.sanomamedia.hu/termekek/startlap_hu/4978/?fid=391 (letöltve: 2010. június 12.) Startlap.hu. [online dokumentum] URL: keresogepek.lap.hu STING: Elérhető a Google új keresőindexe, a Caffeine. PC Fórum – On-line Informatikai Magazin. [online dokumentum]. URL: http://pcforum.hu/hirek/12057/Elerheto+a+Google+uj+keresoindexe+a+Caffeine.ht ml (letöltve: 2010. június 9.) Sting: Már képes az arcokat is felismerni a Facebook. PC Fórum – On-line Informatikai Magazin. 2010. július 5. [online dokumentum] URL: http://pcforum.hu/hirek/12108/Mar+kepes+az+arcokat+is+felismerni+a+Facebook.h tml (letöltve: 2010. május 11.) Szakadát István: Keresőrendszerek a weben. [online dokumentum] URL: http://mokk.bme.hu/archive/keres_pki_2003/pdf (letöltve: 2010. március 10.) Szemantikus e-dosszié: metainformációk kinyerését és ontológiai alapú kezelését lehetővé tevő, elektronikusan hiteles dossziékat kezelő rendszer fejlesztése. [online dokumentum] URL: http://www.scriptum.hu/static/edosszie.html (letöltve: 2010. május 15.) The Free Dictionary by Farlex. [online dokumentum] URL: http://encyclopedia.thefreedictionary.com Tószegi Zsuzsanna: A hazai digitális könyvtárak szerepe a kulturális örökség digitalizálásában és hozzáférhetővé tételében. Tudományos és műszaki tájékoztatás. Könyvtár- és információtudományi szakfolyóirat. 49. évfolyam (2002) 4. szám [online dokumentum] URL: http://tmt.omikk.bme.hu/show_news.html?id=611&issue_id=40 (letöltve: 2010. június 15.) Új tudományos kereső a Google-től. Index.hu, Tech rovat. 2004. november 23. [online dokumentum] URL: http://index.hu/tech/net/scholar1123/ (letöltve: 2010. június 1.) Ungváry Rudolf – Vajda Erik: Az információkeresés szavai. Tudományos és Műszaki Tájékoztatás. Könyvtár és információtudományi szakfolyóirat. 50. évfolyam (2003) 12. szám [online dokumentum] URL: http://tmt.omikk.bme.hu/show_news.html?id=3451&issue_id=446 (letöltve: 2010. június 14.) Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés. Typotex, 2002. Kempelen Farkas Digitális Tankönyvtár. Könyvek/Könyvtártudomány/Könyvtári információkeresés [online dokumentum] URL: http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 (letöltve: 2010. május 5.) 138
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE Zubreczki Dávid: A Google mint tudományos kereső. Tudományos és műszaki tájékoztatás. Könyvtár- és információtudományi szakfolyóirat. 51. évfolyam (2004) 7. szám [online dokumentum] URL: http://tmt.omikk.bme.hu/show_news.html?id=3663&issue_id=452 (letöltve: 2010. április 10.)
13.1.2 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
Külső URL hivatkozások
Altavista: http://altavista.com ............................................................................... 22 Startlap: startlap.hu ............................................................................................... 25 Google: google.hu................................................................................................. 25 Yahoo!: yahoo.com............................................................................................... 25 Altavizsla: altavizsla.hu (jelenleg működése bizonytalan) ................................... 25 Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés: http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 ................. 25 Startlapon: keresogepek.lap.hu ............................................................................. 25 Startlapon: kereso.lap.hu....................................................................................... 25 Kereső Világ blogon: kereses.blog.hu .................................................................. 25 Miner vertikális kereső: http://miner.hu ............................................................... 26 A MiniRank Magyarországi listája: http://www.minirank.com/tld/hu/0 .............. 29 Az Alexa listája a világ honlapjait tekintve: http://www.alexa.com/topsites ....... 30 A Heuréka kereső www.heureka.hu ..................................................................... 39 www.rovidites.hu: http://rövidítés.hu/ .................................................................. 48 A Morphologic cég szótár és webfordító szolgáltatása: http://webfordítás.hu ..... 55 A SZTAKI webszótára: http://dict. sztaki.hu. ...................................................... 55 Ariadnet metakereső: http://ariadnet.hu ................................................................ 78 PolyMeta metakereső: http://polymeta.hu ............................................................ 80 Startlap: kereso.lap.hu........................................................................................... 86 http://www.myheritage.hu/hiressegek .................................................................. 90 http://www.pictriev.com/facedb/fs2.php .............................................................. 90 http://www.avinashtech.com/hu/internet/search-similar-faces-web-face/ ............ 90 Magyarország első honlapja: http://www.fsz.bme.hu/hungary/homepage_h.html .............................................. 91 Településkereső: www.telepuleskereso.hu ........................................................... 91 Utcakereső: utcakereso.hu .................................................................................... 91 Google Maps (bármilyen földrajzi egység kereshető): maps.google.com ............ 92 Google Maps (Magyarországra fókuszálva): www.terkep.google.hu .................. 92 Jó tudni: www.jotudni.hu...................................................................................... 97 Linkpark 2005-től: http://www.linkpark.hu/......................................................... 97 Port.hu: http://port.hu............................................................................................ 97 HUDIR (www.hudir.hu) általános témájú kereső................................................. 98 STARTLAP (www.lap.hu) általános témájú kereső............................................. 98 RIGHRHEALTH (www.righthealth.com/ ) egészségügyi tematikus kereső. ...... 98 GOLIAT (www.goliat.hu) .................................................................................... 98 YAHOO (www.yahoo.com) ................................................................................. 98 139
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE 36. 37. 38.
140
Neumann-ház oldala: http://www.neumann-haz.hu ............................................. 99 (http://directory.wyw.hu/Internet/Katalogusok_Linkek/) ..................................... 99 http://www.hun-web.hu/Internet/Linkgyujtemenyek/ .......................................... 99