Informatika
1. előadás Keresőmotorok használata Füleki Dániel Egyetemi adjunktus
Budapesti Corvinus Egyetem Informatikai Intézet (Számítástudományi Tanszék, E-Business Kutatóközpont) Szociológiai és Társadalompolitikai Intézet
2007.02.22.
1
…ismét adminisztráció Témakör (jelleg)
Intervallum
Keresőmotorok, dokumentumok és kutatási kampány (előadás)
1-3. óra
Excel (géptermi gyakorlat)
4-6. óra
Keresőhasználat (Google, géptermi gyak.)
7-9. óra
Előfizetett adatbázisok használata, keresők találatainak alkalmazása (géptermi gyak.)
10-11. óra
Online kérdőíves kutatás (géptermi gyak.)
12-13. (14.?) óra
2007.02.22.
2
Elvárások » A tárgy gyakorlati jeggyel zárul » Minden géptermi órai munkát pontozunk » A félév során minden gyakorlati anyagrészből lesz zárthelyi (összesen 3, az utolsó két blokk összevont zárthelyi tárgyát képezi) » Pontozási terv (nem végleges!): » 11 géptermi óra * 5 pont = max. 55 pont » 3 zárthelyi * 15 pont = max. 45 pont » Extra teljesítményekért max. + 10 pont 2007.02.22.
3
1
Mi az, hogy keresőmotor? Információ-visszakereső rendszer: » Jellemzően az internet, egy portál, egy intranet vagy egy számítógép tartalmát rendszerezi és teszi kereshetővé » Dokumentumokat „indexel” » Kulcsszavakat (esetleg műveleti jeleket) vár a felhasználótól (Æ kereső-kifejezés) » „Találati listát” készít azokból a dokumentumokból, amelyek a kereső-kifejezés elemeit az elvárt módon tartalmazzák 2007.02.22.
4
Hogyan működik egy webkereső? Három munkafázist végez el: 1. Bejárás (és aratás) 2. Indexelés (feldolgozás) 3. Keresés (kiszolgálás) »
» »
A bejárás során végiglátogatja az összes elérhető weboldalt és a saját tárhelyére lementi azokat (vagy egy részüket) Az indexelés során kiemeli a különféle kulcsszavakat és fontosabb formai elemeket (pl. kifelé mutató linkeket) A felhasználó lekérdezésére találati halmazt állít össze » »
Releváns találat előre kerül Relevancia ~ kulcsszó-gyakoriság, közelség, beérkező linkek száma stb. (Æ Google PageRank)
2007.02.22.
5
Egy szinttel feljebb: metakeresők » Gyűjtő- és többszörösen indexelő szolgáltatások (metakeresők) Párhuzamos keresés Eredmény-összefésülés, többszörözések kezelése Logikai operátorok értelmezése Információveszteség nélküli működés Forrásrendszer-elfedés: a felhasználónak nem kell semmit tudnia az egyes indexelő szolgáltatások egyedi tulajdonságairól » Teljesség: a keresésnek addig kell tartania, amíg a megjelölt szolgáltatásokból találatok nyerhetők
» » » » »
Példa: nigma.ru, kartoo.com (Æ „címkefelhő”) 2007.02.22.
6
2
Keresőmotor-történet » » » » » » » » »
Archie (1990) Gopher (1991) Veronica, Jughead Wandex, AliWeb, Webcrawler (1993) Lycos (1994) InfoSeek, AltaVista (1995) Google (1998) Yahoo! Search (2004) Windows Live Search (2006)
2007.02.22.
7
Kihívások a mai keresőmotorok előtt » A weblapok száma túl gyors ütemben nő – egyre kisebb hányaduk indexelhető » A weblapok jelentős része frissül – ezeket újra és újra be kell járni » Sok a hamis találat (a keresett kulcsszavak rendkívül messze vannak egymástól) » Adatbázis-kapcsolatos oldalak indexálása túlterhelést okozhat (tömeges „oldal-kimerevítés”) » Jelszóval védett, vagy űrlapkitöltést követő lapok nehezen indexelhetők » Sokszor a legjobb szándék mellett is irrelevánsak a találatok » Néhány keresőmotor találati sorrendje attól függ, melyik keresett lap tulajdonosa fizet többet az előresorolásért… » Linkspam, tartalmi spam: klónozott vagy automatikusan szindikált weboldalak tartalmai „relevánsabbak”, mint ami valóban az… » A biztonságos oldalak tartalmát (https protokollal járhatók be) általában nem lehetséges, vagy nem szabad aratni 2007.02.22.
8
Hol keresnek a leggyakrabban? 2006 december: a legforgalmasabb keresőmotorok Szolgáltató
Keresések száma (ezer)
Éves forgalomváltozás (%)
Részarány (%)
Google
3,035,617
22.6
50.8
Yahoo
1,412,904
30.1
23.6
Windows Live Search
499,946
-9.7
8.4
AOL Search
362,140
7.8
6.1
My Way
141,527
4.7
2.4
Ask.com
128,452
17.2
2.1
EarthLink Search
31,930
17.6
0.5
Dogpile
30,487
2.1
0.5
Comcast Search
26,931
N/A
0.5
NexTag Search
26,835
123.2
0.4
2007.02.22.
Forrás: Nielsen//NetRatings, 2007
9
3
Miért éppen Google? » Milton Sirotta (Edward Kasner matematikus 9 éves unokaöccse) ejtette ki a száján a „googol” szót először » A „googol” jelentése: 10100, nyílt formában leírva borzasztóan hosszú szám » A jelentés áttétele: a Google szinte mérhetetlenül sok weboldalt jár be és tesz kereshetővé 2007.02.22.
10
A Google lehetőségei (1) » Kulcsszavas keresés, ezen belül: » Prefixek, » Operátorok, » Helyettesítő karakterek, » Szűrők használata
» Képkeresés (környező szavak alapján) » Összetett keresés menütámogatással » Katalógus (directory) 2007.02.22.
11
A Google lehetőségei (2) » Specializált keresés » » » » »
Scholar Technikai (Microsoft, UNIX, Mac stb.) Egyetemi kereső (USA) Áru- és árkereső (Froogle, USA) Hírcsoport-kereső (egyúttal levelezőlista-szerver – Groups)
» Számológép, valutaváltó, mértékegység-átváltó » Portletek (nem kereső, hanem főleg hírszűrő funkciót látnak el) 2007.02.22.
12
4
2007.02.22.
13
2007.02.22.
14
A Google korlátai » Csak a világnyelveket támogatja sokrétűen » Szótövezés (implicit!) » Helyesírási tanácsadás » A legtöbb kísérleti funkció csak angolul érhető el
» Nincs explicit szótövezés (kereső-kifejezésben nem „rendelhető meg”) » Az általános helyettesítő karakter [*] csak teljes szavak helyett állhat » A kereső-kifejezés első 32 szavát értelmezi a keresőmotor (a Google Groups esetén ez a szám csak 10!) » Célszerű a legritkább szavakat meghagyni » Helyettesítő karakterek nem számítanak bele
» A találatok száma hozzávetőleges adat, valójában 2-3000-szer kevesebb tényleges találat is adódhat, mint amennyit a számláló mutat! 2007.02.22.
15
5
Egyszerű keresés (1) » Konkrét keresőszavak előfordulásaira keres a motor, NEM témákra (szinonimák szerint) » Nincs különbségtétel kis- és nagybetű között » Minden keresőszó között alapértelmezett „ÉS” logikai kapcsolat van (mindnek elő kell fordulnia a találatban) » A VAGY-kapcsolatot külön jelezni kell (OR közbeiktatásával)
2007.02.22.
16
Egyszerű keresés (2) » Kötőszavakat figyelmen kívül hagyja (ha az egyik világnyelven vannak a keresőkifejezésben) » A keresőszavak sorrendje a felhasználói relevanciát tükrözi, azaz az első kapja a legnagyobb súlyt » Világnyelven megadott főnevek esetén a többes számú alak nem ad azonos eredményt az egyes számúval » A legrelevánsabb találat megjelenítésére külön parancsgomb (I’m feeling lucky/Jó napom van) 2007.02.22.
17
Alapvető vezérlőkarakterek » [+szó]: azok a találatok sorolódnak előre, amelyekben a szó gyakrabban fordul elő. Egyszerre több kereső-kifejezés elé is írható. » [„szó1 szó2… szón”]: az idézőjelek közé foglalt kereső-kifejezés pontos mása kell, hogy előforduljon a találatokban » [-szó]: a találati listából kimarad minden olyan dokumentum, amelyben a szó legalább egyszer előfordult 2007.02.22.
18
6
Néhány definíció a továbblépéshez » URL: Uniform Resource Locator, azaz dokumentumok (általában: erőforrások) teljes címe a világhálón. » Első része az eléréshez használt protokollt adja meg: pl. http://, https://, ftp:// » Második része a konkrét domainnevet és az elérési útvonalat (esetleg fájlnevet) adja meg (ahol a dokumentum van)
» Domainnév: egy internetre kapcsolt gép IP-címének szöveges „fordítása” (pl. 146.110.2.4 = bors.uni-corvinus.hu) » IP-cím (internet-cím): egy internetre kapcsolódott gép egyedi elérési száma » Protokoll: kommunikációs szabályok pontos leírása (pl. HTTP – megadja, hogy egy böngésző és egy webszerver hogyan kommunikáljanak egymással) » Böngésző (browser): internetes tartalmak lefordítására és megjelenítésére hivatott szoftver
2007.02.22.
19
Beépített speciális keresés Ezt a felületet a keresődoboztól jobbra lévő linkre kattintva hívhatjuk elő. » Tartalmazzák a következő szavak mindegyikét: „sima” keresés, nincs operátor » Tartalmazzák a következő kifejezést: idézőjellel veszi körül » Tartalmazzák a következő szavak egyikét: OR operátort illeszt a szavak közé » Nem tartalmazzák ezeket a szavakat: mínuszjelet tesz a szavak elé 2007.02.22.
20
Beépített speciális keresés (2) » Nyelv: csak itt lehet a dokumentum nyelvét előre rögzíteni! (Nincs rá beírható szűrő) » Fájlformátum: a találat csak bizonyos fájltípusú lehet (pl. pdf, xls…) – szabadszavas keresésben rugalmasabban használható! (= filetype: operátor) » Dátum: a megtalált weblap frissességét lehet elvárni (szűkíteni) » Előfordulások: a keresett oldal bizonyos formai elemein belül zajlik csak a keresés » » » »
Az oldal címében: = allintitle: operátor Az oldal szövegében: = allintext: operátor Az oldal URL-címében: = allinurl: operátor Az oldal címében: = allinanchor: operátor
» Domain: = site: operátor 2007.02.22.
21
7
Beépített speciális keresés (3) » Hasonlóság alapján: egy domainnév tartalmához hasonlókat listáz. Elérési út megadásával szűkíthető a találatok halmaza (= related: operátor) » Linkek alapján: milyen oldalak hivatkoznak a keresett domainnévre? (= link: operátor)
2007.02.22.
22
Speciális szűrők Manuálisan összeállított kereső-kifejezések részei lehetnek. » Intitle: a keresett lap címében szerepel a szűrő után álló keresőszó » Allintitle: minden szó, ami a szűrő után áll, csak a címben fordulhat elő
» Inurl: a keresett lap URL-jében szerepel a szűrő után álló keresőszó » Allinurl: minden szó, ami a szűrő után áll, csak az URL-ben fordulhat elő
» Intext: a keresett lap szövegtörzsében szerepel a szűrő után álló keresőszó » Allintext: minden szó, ami a szűrő után áll, csak a szövegtörzsben fordulhat elő
» Inanchor: a keresett lap linkre rakott szövegeiben szerepel a szűrő után álló keresőszó » Allinanchor: minden szó, ami a szűrő után áll, csak a linkre rakott szövegekben fordulhat elő 2007.02.22.
23
Speciális szűrők (2) » Site: az eredményeket csak bizonyos domain(ek)ről listázza a kereső » Daterange: a Google által bizonyos időintervallumon belül indexelt oldalakon keres (julián-naptári napokkal kell megadni a korlátokat… Átszámító itt) » Filetype: ld. beépített speciális keresés » Link: ld. beépített speciális keresés » Related: ld. beépített speciális keresés 2007.02.22.
24
8
Speciális szűrők (3) » Info: pársoros leírást ad egy adott doménnév alatt található tartalmakról (ha annak tulajdonosa gondoskodott erről). Többféle operátort automatikusan felajánl további (szűkítő) keresésre. » Cache: főként „leszedett”, eltűnt vagy időközben dinamikusan átcímzett oldalak megtalálására jó: a keresett lap pontos címét kell beírni az operátor után, amely a lapnak a Google weblap-tárolójában szereplő másolatát adja eredményül » Define: fogalommeghatározást kérhetünk (a Google munkatársai által gyűjtött glosszáriumokból). Többnyelvű funkció! 2007.02.22.
25
Google Scholar (1) Tudományos szövegek vagy citációk (idézetek, kivonatok) keresésére szolgáló specializált keresőmotor. Pluszfunkciók: » Idézettséget számol » Kapcsolódó cikkeket keres » Előfizetett elektronikus adatbázisokban is keres » Képes tudományágankénti leválogatásra » Megmutatja egy írás valóságos könyvári elérhetőségét » A lezárt változat előkészületi folyamatában készült írásokat is megtalálja (konferencia-beszámoló, műhelytanulmány, kivonat stb.) » „Sima” keresést is indít » Megjelenési időpont szerint rendezi a találatokat » Hasonló munkákat jegyző szerzőket listázza » Képes referenciamenedzserekbe rekordokat exportálni 2007.02.22.
26
Google Scholar (2) A Scholar saját szűrői és vezérlőkarakterei: » Írás címére idézőjellel kell keresni » Használható az intitle: operátor is
» Szerzőre az author: operátorral lehet keresni
Minden egyéb az „Advanced” keresésből állítható be.
2007.02.22.
27
9
Google API-k » API = Application Programming Interface (Alkalmazásfejlesztési felszín, esetleg „ráépülő felület”) » Lehetővé teszi, hogy külső szoftverfejlesztők saját alkalmazásokat alkossanak, amelyek a Google egyes szolgáltatásait használják a háttérben » A felhasználó személyes adatait (pl. felhasználónév, jelszó, API-kulcs) is megadhatja rajtuk keresztül, ezeket az adatokat az API-t alkalmazó megoldás tulajdonosa nem látja 2007.02.22.
28
Amikor a Google nem jó választás » Nincs csonkolás (explicit szótövezés) » Szinte az összes többi keresőmotor képes erre
» Nem menthetők a korábbi keresések (erre jó pl. az Amazon.com keresője » Bizonyos adattípusokat nem képes hatékonyan előkeresni » E-mail címek » Rövidítések
» A Google nem a weboldalak „időgépe”, erre szakosodott szolgáltatás a WayBackMachine 2007.02.22.
29
Klaszterező keresőmotorok » Clusty.com » Témaköröket, kapcsolódó szerzőket és egyéb releváns, szintezett csoportokat képez a találatokból » Több keresőmotort használ fel (metakereső) » Csoportosítja a forrásokat TLD szerint
» Kartoo.com » Grafikus témacsoportokat alakít ki („szigetek”) » A szigetek között az összeköttetést kulcsszavak adják » Menti a kereséseket (kiemelve a sikereseket!) » A Google-t NEM használja (más keresőket igen)
» Nigma.ru 2007.02.22.
30
10
A kérdezés művészete » A világról mindig kevesebb tudásunk van, mint amennyi még hiányzik » Csak a részben ismeretlen dolgokra tudunk rákérdezni » Ha már tudunk kérdezni, azt jelenti, hogy az adott témában már „benne vagyunk” valamennyire
» A célzott internetes keresés abból indul ki, amit kérdezni tudunk és akarunk » Ha nem tudunk semmit egy témáról, nem leszünk képesek kérdést feltenni vele kapcsolatban » Ha egy témában tudunk valamit, de mégsem kérdezünk rá, akkor a téma nem érdekelt bennünket 2007.02.22.
31
Zárszó Ez a tantárgy mindazoknak érdekes és hasznos lesz, akiket a világon föllelhető összes téma közül legalább egy érdekel… Köszönöm a figyelmet!
2007.02.22.
32
11