.HALÁCSY PÉTER.
.Kapcsolatok. mint információforrások
M
ár egy jó ideje motorkerékpárt szeretnék vásárolni, de fogalmam sincs, hogy hol és milyet vegyek, nem értek a motorokhoz. Természetesen el√ször megpróbáltam racionálisan dönteni. Gondoltam, megismerem a különböz√ motortípusokat, azok minél több jellemz√jét. Több tucat kereskedés árlistája, ajánlata áll rendelkezésre, három-négy magazin is segít a tájékozódásban. Jönnek az ismer√sök, mindenki elmondja véleményét, javaslatát. Szerencsére szélessávú internetkapcsolat is rendelkezésemre áll: legalább 10 tematikus portál több száz felhasználójának véleménye is segíthet, nem beszélve a rengeteg tesztr√l, beszámolóról. A döntés mégsem egyszer∫. Az id√ szorít (jó lenne tavasszal már motorozni), és hát kiderül, hogy egészen ellentmondó információkat sikerült begy∫jtenem. Egyik helyen azt mondják, hogy hosszabb utakhoz természetesen a túramotorok felelnek meg. Máshol óriásrobogókat ajánlanak, mert azok sokkal kényelmesebbek. Egyik barát a biztonságot hangsúlyozza, ezért szerinte csak egyféle típus jöhet szóba, egy másik régi motoros viszont azt a márkát egyértelm∫en elutasítja: „tudod, rengeteg ismer√sömnek volt gondja vele”. Na és az árak. Mennyit ér egy biztonságosabb fékrendszer, egy újfajta benzin-befecskendez√? Miért drágább az egyik márka, mint a másik? Mennyit ér egy új motor, és mennyit ér egy egyszer „megborított”? Jó lenne valamilyen egzakt ár-haszon képletet felállítani.
KORLÁTOZOTT RACIONALITÁS
M
iel√tt döntésképtelenségem miatt kétségbe esnék, eszembe jut Herbert Simon, aki 1979-ben közgazdasági Nobel-díjat kapott azért a meglátásáért, hogy gazdasági döntéseinknél valójában nem a legkisebb ráfordítás mellett elérhet√ legnagyobb hasznot célozzuk meg. Ennek oka egyszer∫: az optimális döntéshez minden elérhet√ információt be kellene gy∫jtenünk, és ehhez annyi id√re lenne szükségünk, hogy értelmét vesztené a közben idejétmúlt döntés. Az optimális döntés helyett ezért megpróbáljuk az els√ olyan opciót kiválasztani, amely kielégít√ haszonnal kecsegtet. A Simon el√tt uralkodó, racionalitást feltételez√, hagyományos optimalitás és haszonmaximalizálás elméletét még megmentheti, ha figyelembe vesszük az információ költségét és az információfogyasztás tranzakciós költségeit is. Az összes szaklapot végigolvasni és azokat egyenként értékelni egy ideig ugyan szórakoztató, de nagyon költséges,1 ezért el√nyösebb valamilyen módszerrel az információt megsz∫rni, kiválasztani a számunkra mértékadó forrásokat, a hiteles és releváns információkat. A szükséges információ beszerzéséhez, vagy másképp a releváns információ kisz∫réséhez a valóságban mindenféle heurisztikát2 alkalmazunk. Itt csak néhány olyat említek meg, amelyek segíthetnek meg-
67
Halácsy Péter
Egy információforrásnak érdeke, hogy a fogyasztók mértékadónak tartsák. Ezért szoktak a hírekben „tekintélyes lapokra”, „megbízható forrásokra” hivatkozni, és ezért hirdetik magukat különböz√ sajtótermékek „meghatározónak”, „leghitelesebbnek”, „legolvasottabbnak”. A New York Times plagizáló és hamisító újságírójának lebukása azért kavart akkora vihart a médiában, mert a lap tekintélyét és hitelességét kezdte ki.5 Megjegyezzük, hogy vannak olyan esetek, amikor egyszer∫en a heurisztika alkalmazása a legésszer∫bb lehet√ségünk. Például egy lakásfelújításnál a megfelel√ iparos kiválasztásakor csak a barátaink, ismer√seink (kiscsoportunk) ajánlásaira, véleményére hagyatkozhatunk, annak ellenére, hogy e választás – a nagy kockázat miatt – nagyon kritikus döntés.
érteni a kés√bb bemutatandó internetes információsz∫rési technológiák hátterét. Egyik mindannyiunk által alkalmazott egyszer∫sít√ módszer a többség utánzása. E mögött az a feltételezés húzódik meg, hogy bizonyára mások racionálisan döntöttek, így spórolhatunk azzal, ha a többséget követjük. Ez a stratégia segíthet az információforrás kiválasztásában (csak a legolvasottabb szaklapot vesszük meg, a leglátogatottabb weboldalakat nézzük át), egy információ hitelesítésében (mindenki elhiszi/elfogadja, így mi is), illetve egy termék kiválasztásában. Az egyik motortípusról a gyártó közölte, hogy tavaly már 300 darabot adtak el Magyarországon. Ez nagyon jó hír, hisz bizonyára jó oka van annak, hogy ilyen hamar sikeres lett a modell. Ha a többség véleménye nem ismert vagy nem elfogadható, akkor hagyatkozhatunk barátaink, kollégáink véleményére. Ilyenkor egy olyan kis csoport tagjaitól szerzünk információt, akikben megbízunk, ez teszi hitelessé számunkra az információt. Ráadásul feltételezhetjük, hogy a kis csoport hozzánk hasonló emberekb√l áll, így személyre szabottan képesek az információt megsz∫rni. Példánknál maradva a barátaink véleménye a legrelevánsabb abban a kérdésben, hogy melyik motortípus áll jól nekünk. Az el√z√höz nagyon hasonló heurisztika, amikor olyan csoportot kezdünk el követni, amelynek tagjaira hasonlítani szeretnénk: ez a referenciacsoportunk. Hasonlítani szeretnénk hozzájuk, ezért döntéseiket, választásaikat követjük. Óriásrobogót a kényelemre vágyó, jómódú, üzletemberek vesznek általában. Vagy inkább vagány, veszélyt nem ismer√, bevállalós férfinak tartjuk magunkat? Akkor gyorsasági motort érdemes választani. A leghatékonyabb heurisztika valószín∫leg megtalálni a pontos, megbízható és jó min√ség∫, azaz mértékadó információforrásokat, és az ezekt√l származó információt minden további ellen√rzés nélkül elfogadni.3 Ha találtunk egy mértékadó kereskedést, magazint vagy portált, akkor a választás már sokkal könynyebb. Az ott ajánlott motort kell választani. Egyik megbízható helyen néhány kérdés után „a Neked legmegfelel√bb motort” mutatják be. Kell ennél több? A kérdés csak az, hogy mi alapján dönthetjük el egy forrásról, hogy mértékadó. A forrás megítélése szintén származhat egy bizalmi kiscsoporttól (barátaink is ezt a híradót nézik), egy referenciacsoporttól vagy utánzásból (a legtöbben ezt az újságot olvassák). Egy szakmai folyóirat impact factora4 is lényegében azt jelzi, hogy a folyóiratot hányan tartják mértékadónak.
MINDENT EGY HELYR◊L
M
a már az internet nemcsak egy rendkívül gyors hírforrás vagy újfajta kommunikációs csatorna, hanem egy mindenre kiterjed√ információforrás. Szinte azonnal (majdnem) mindenr√l található információ aránylag kis költséggel. Ráadásul az internet megjelenése magával hozta az információtermelés, -értékelés és -sz∫rés egy teljesen új módját: a közösségi információkezelést. Hamar kiderül azonban, hogy épp az alacsony költség∫ információtermelés és elérés lehet√sége miatt ugyanabba a problémába ütközünk: túl sok és nehezen ellen√rizhet√ információ áll rendelkezésre, valahogyan ki kell sz∫rni a releváns tartalmakat. A következ√kben néhány olyan információkeres√ és -sz∫r√ módszert mutatok be, melyek könnyebbé és pontosabbá teszik az információkeresést az internet két területén: a keres√k által belátható weben és a tematikus portálokon.
HÁLÓZATI KERES◊K
M
ikor leülök a webböngész√ elé, hogy egy újonnan felmerült témáról információt gy∫jtsek, els√ lépésként egy webkeres√höz fordulok,6 ahol általában csak nagyon általános keres√kérdést tudok megfogalmazni. Jelen esetben begépelem a motor szót, ami több százezer oldalon szerepel. Ezek közül meg kell találni a jó szakportálokat, a forgalmazók oldalait,
68
Kapcsolatok mint információforrások
értékét, saját elnevezésük szerint PageRankjét, úgy definiálták, hogy az annál magasabb, minél több nagy PageRank érték∫ weboldal mutat rá. (Page–Brin– Motwani–Winograd, 1998) Nagy PageRank érték eléréséhez vagy nagyon sok hivatkozásra vagy kevesebb, de magasabb érték∫ hivatkozásra van szükség. A definíció rekurzív,10 ezért els√re nehezen befogadható. Ugyanakkor a mindennapi életben (vagy inkább a szociometrikában) is elfordul ehhez nagyon hasonló meghatározás: fontos ember, mert fontos ismer√sei vannak. Nem egyszer∫en a kapcsolatok száma, hanem azok min√sége határozza meg a fontosságot. A Motorrevü oldalára eljuthatunk az [origo]-ból és a startlapról, tehát a magyar weben meghatározó, sok látogatóval rendelkez√ és – ami fontos – nagy PageRank∫ weboldalakról.11 Mivel több nagy érték∫ oldal mutat a www.motorrevu.hu-ra, ezért annak PageRank értéke nagy lesz. A definíció rekurzivitásának feloldásával és a PageRank érték kiszámításának algoritmusával nem foglalkozunk, a definíció ismerete elég ahhoz, hogy néhány tulajdonságát megértsük: • A PageRank érték nem vesz figyelembe semmi mást, csak a Web hiperlink struktúráját, nem foglalkozik a weboldalak tartalmával, ismertségével vagy látogatottságával. • Bármely oldal PageRank értékének kiszámításához szükséges ismerni a teljes web struktúráját, hiszen ismerni kell az oldalra hivatkozó oldalak PageRankjét, de ahhoz tudni kell, az azokra hivatkozó oldalak értékét és így tovább. • Ha egy adott weboldalra hivatkozó többi weboldal PageRank értéke ismert, akkor a weboldal PageRankje könnyen kiszámítható.
vagy legjobb lenne egy kézzel szerkesztett tematikus linkgy∫jtemény. Néhány másik motoros véleményét is érdemes elolvasni, sok értékes információt éppen a szubjektív beszámolókból, értékelésekb√l lehet kihámozni. De vajon a több százezer weboldalból hogyan lehet kisz∫rni a ténylegesen értékes oldalakat, és egyáltalán mi alapján mondhatjuk, hogy egy oldal értékes? Legegyszer∫bb lenne tapasztaltabb motorosok véleményére hagyatkozni. Jó lenne, ha a többiek egyenként értékelték volna a weboldalakat, ezzel segítve az újonnan érkez√k eligazodását. Sajnos ehhez a web (mai) technológiája egyáltalán nem nyújt segítséget. Kizárólag egy módon tudunk másoknak weboldalt ajánlani: az általunk értékesnek ítélt és ezért másoknak ajánlott oldalra mutató linket helyezünk el. Ezek alapján feltételezhetjük, hogy ha egy oldalra sok más webhely hivatkozik, akkor az feltehet√leg releváns és mértékadó, hiszen a webhelyek szerkeszt√i a linkek elhelyezésével fejezik ki, hogy szerintük a hivatkozott weboldal értékes (de legalább egy látogatásnyit megér).7 Van azonban egy kis gond: amikor betöltünk egy oldalt a böngész√nkbe, semmi információnk sincs arról, hogy az oldalra hányan hivatkoznak. Akkor hogyan használhatnánk ezt a módszert egy oldal értékének megítéléséhez? A következ√ fejezetben bemutatott Google webkeres√8 els√ként adta meg e kérdésre a választ.
PAGERANK – A WEBOLDALAK RANGSORA
A
Google keres√be a motor szót begépelve, közel 200000 magyar weboldalt találunk. Ugyanakkor els√ helyen egy – általam – mértékadónak tartott szakfolyóirat, a Motorrevü magazin weboldala szerepel.9 Vajon hogyan keresett ki a Google a több százezer weboldalból pont egy jól szerkesztett, értékes weboldalt? A Google a fent vázolt módszert alkalmazza: azoknak a tartalomszerkeszt√knek a véleménye számít, akik a www.motorrevu.hu oldalra mutató linket helyeztek el oldalukon. A Google a találatok rendezésekor figyelembe veszi a weboldalak értékét, amit kizárólag a weboldalra mutató hivatkozások száma és min√sége határoz meg. A Google webkeres√t létrehozó Page és Brian, a Stanford Egyetem két PhD-hallgatója egy weboldal
KATTINTGAT ÖSSZE-VISSZA
T
együk fel, hogy létezik olyan ember, aki webezés közben mindig véletlenszer∫en választja ki, hogy egy oldalról merre megy tovább. Letölt egy weboldalt és – az eddigi választásaitól függetlenül – a kimutató linkek közül véletlenszer∫en választ ki egyet, minden linknek ugyanakkora esélyt ad. Belátható, hogy egy weboldal PageRank értéke megegyezik annak valószín∫ségével, hogy egy ilyen találomra kattintgató szörfös (random surfer) megtalálja az adott weboldalt.12
69
Halácsy Péter
oldalakat, amelyeket az emberek mértékadónak találnak. A PageRank a többség véleményét számszer∫síti, így egy témára keresve a többség szerint értékes oldalakat ismerjük meg el√ször.
Ha egy ilyen szörfös egy oldalra gyakran jut el, akkor az oldal által hivatkozott többi oldalra is gyakrabban fog eljutni. Tehát azokat az oldalakat találja meg gyakrabban, amelyekre gyakran látogatott oldalakról hivatkoznak. El√bbiek alapján a PageRank és a látogatottság egymásnak (kölcsönösen) megfeleltethet√k. Fontos megjegyezni, hogy ez a látogatottság csak a találomra kattintgató szörfösök esetén igaz. Persze az emberek a weben általában nem véletlenszer∫en kattintgatnak, de sok különböz√, egymástól független ember jó közelítéssel modellezhet√ véletlen szörfösökkel. Tehát az [origo] nagy PageRank értéke valószín∫síti, hogy sok ember fogja megtalálni, hiszen odamutató link sok helyen található.13 Az [origo]-ról a hivatkozott www.motorrevu.hu oldalra az [origo] látogatóinak egy része el fog jutni, tehát a link miatt az oldal látogatottsága megn√. Kijelenthetjük tehát, hogy egy oldal látogatottságának növekedését jelenti, ha egy nagy PageRank érték∫ oldal hivatkozik rá.
CIP◊T A CIP◊BOLTBÓL
A
PageRank egy abszolút érték. Tulajdonképpen azt fejezi ki, hogy a weboldalt hányan tartják általában fontosnak, nem függ attól, hogy milyen témáról és ki keres információt. Ugyanakkor a valóságban egy információforrást egy adott témában mértékadónak tarthatunk, egy másik témában pedig nem. A kismamáknak szánt www.babanet.hu webhely egy nagyon jó min√ség∫ portál, sokan szeretik, PageRank értéke is elég magas. Ugyanakkor nem biztos, hogy a legmegfelel√bb információforrás egy chopper motor megvásárlásához. A Google-t használva el√fordulhatna, hogy a Babanet oldalt kapjuk eredményként, mert szerepel az oldalon a motor szó. (Például a kisgyermekeknek szánt lábbal hajtható nyuszi formájú motorok kedvez√tlen hatásáról beszélgetnek.14) Jon Kleinberg, a Cornell University informatikaprofesszora a PageRank publikálásával közel egy id√ben dolgozott ki egy másik, a keresést támogató, linkstruktúra elemzésen alapuló, úgynevezett HITS (Hyperlink-Induced Topic Search) algoritmust (Kleinberg, 1999), ami már figyelembe veszi, hogy egy információforrást általában csak valamilyen meghatározott témában tartunk mértékadónak (autoritívnek). Kleinberg abból indult ki, hogy vannak központi (hub) és autoritív (authoritive) weboldalak, ezen utóbbiakat továbbra is mértékadónak nevezem. A központi oldalak gy∫jtik össze a mértékadó oldalakat. Mondjuk egy motorokkal foglalkozó tematikus link gy∫jtemény (weboldal-katalógus) központi oldalnak számít. A mértékadó oldalak jó min√ség∫, megbízható információforrások. A pontosabb definíció itt is rekurzív: azok az igazán mértékadó oldalak, amelyekre sok központi weboldal mutat, és a jó központi weboldalak sok jó min√ség∫ mértékadó weboldalt válogattak ki és helyeztek el rájuk mutató linket. A központi és a mértékadó oldalak kapcsolatát szemlélteti a következ√ ábra. Ha a d, e és f weboldalak egy témába tartoznak, akkor valószín∫, hogy az a, b és c oldalak ezen téma gy∫jt√, központi oldalai. És onnan tudhatjuk, hogy a jobb oldali oldalak egy témába tartoznak, hogy ugyanazok a gy∫jt√ oldalak hivatkoznak rájuk.
PAGERANK ÉS AZ UTÁNZÁS
A
Google-n keresve – kicsit leegyszer∫sítve a dolgot – a keres√motor el√ször kiválogatja azokat az oldalakat, amelyeken a megadott keres√kérdés szavai szerepelnek. Eddig úgy m∫ködik, mint sok Google el√tti klasszikus webkeres√ (mint a valamikor leglátogatottabb altavista.com). Az újdonság a Google-ban az volt, hogy a találatok rendezésekor nemcsak a szövegek és a keres√kérdés hasonlóságát veszi figyelembe, hanem az oldalak PageRank értékét is: az a találat kerül el√rébb, amelynek PageRank értéke magasabb. A szóegyezés többé-kevésbé biztosítja, hogy olyan dokumentumokat kapjunk, melyek a megfogalmazott témáról szólnak. A PageRank figyelembevétele pedig biztosítja, hogy azok az oldalak kerüljenek el√bbre, amelyeket a weboldal-készít√k (akik a linkeket helyezik el) értékesnek találnak. Azt mondhatjuk, hogy egy weboldal PageRank értéke, egy közösségi döntés eredménye, mert minden egyes linkkészít√ egy kicsit hozzátesz az értékeléshez. A Google volt az els√ keres√, amely kihasználta, hogy a weboldalak nem egyszer∫ dokumentumok, hanem egy hipertextuális hálózat csomópontjai. A hálózatot mindenki építheti, nincs kitüntetett szerepl√. A hálózat elemzésével a Google azonban képes különbséget tenni az értékes és a nem értékes oldalak között, az egyenl√k közül kiemeli azokat az
70
Kapcsolatok mint információforrások
Kleinberg algoritmusa abból a feltételezésb√l indul ki, hogy ha bizonyos oldalak mind ugyanazokra az oldalakra hivatkoznak, akkor biztos ugyanazzal a témával foglalkoznak. A sok ugyanazzal a témával foglalkozó oldal közösen meghatározza, hogy a téma iránt érdekl√d√knek melyik oldalakat érdemes meglátogatni, ezek lesznek a mértékadó oldalak. a
Ha száz olyan oldalból indulunk ki, amelyek többé-kevésbé a motorokról szólnak, és tudjuk, hogy a központi és mértékadó oldalak hozzájuk közel találhatóak, és a min√ségi központi oldalak jó min√ség∫ mértékadó oldalakra hivatkoznak (tehát t√lük egy távolságra vannak), és ez fordítva is igaz, akkor belátható, hogy a heurisztika elég jó eredményt ad.
f HITS – PAGERANK ÉS AZ IMPACT FACTOR
b c
e
V
együnk észre egy nagy különbséget a PageRank és a Kleinberg-féle mértékadóság érték között. A PageRank egy abszolút érték, és még azel√tt kiszámolható, hogy tudnánk mit is keresünk. Ezzel szemben a mértékadóság csak egy adott témában érvényes. El√ször a témát meghatározó alap weboldalakat összegy∫jt√ listára van szükség.18 Egy szerény ismertség∫ tematikus szakportál PageRank értéke valószín∫leg kisebb lesz, mint az [origo] portálé. De könnyen lehet, hogy az adott témán belül a témához ért√k mértékadóbbnak tartják. Ugyanígy az [origo] a magyar web jelent√s központja (gondoljunk csak a több tízezer linket tartalmazó katalógusára), de egy sz∫k témára összpontosító katalógusnál nem lesz jobb, ha minket csak az a téma érdekel. Kleinberg definíciója szerint, egy adott témában nem jó központ az, amin rengeteg link közül csak néhány jelöl meg mértékadó oldalt. Lehet, hogy az [origo] katalógusában van néhány jó link motorokkal foglalkozó weboldalakra, de ezeket nehéz megtalálni a többi tízezer hivatkozás között. A tudományos munkát végz√ olvasó bizonyára észrevette, hogy a PageRank és a mértékadóság értéke nagyon hasonlít a tudományos folyóiratok befolyását, rangját kifejez√ impact factorhoz. Az impact factort már közel 30 éve használják arra, hogy a különböz√ folyóiratok között valamiféle abszolút sorrendet állítsanak fel. Számítása nagyon egyszer∫: egy folyóirat aktuális impact factora megadja, hogy az elmúlt két évben a folyóiratban megjelent cikkeket hányan idézték (citálták). A folyóiratokra tekinthetünk úgy, mint a tudományos háló csomópontjaira. Két csomópont között akkor található link, ha az elmúlt két évben jelent meg olyan cikk, amely hivatkozott egy, a másik folyóiratban megjelent cikkre. A PageRank, a HITS és az impact factor is a linkstruktúrát használja fel arra, hogy az információforrások értékét, megbízhatóságát, min√ségét meghatá-
d
1. ábra: Központi és mértékadó oldalak közti linkek
A MÉRTÉKADÓ-KERES◊
A
zt már láttuk, hogy mit jelent a mértékadó és központi weboldal, most megmutatom, hogy a gyakorlatban hogyan használható ez a két fogalom információkereséshez. Vegyünk néhány oldalt (mondjuk egy egyszer∫ szöveghasonlóságon alapuló keres√vel), amelyek a motorokról szólnak. Vegyük hozzá ehhez az alap weboldal készlethez a t√lük egy egységnyi távolságban15 lév√ oldalakat is, tehát azokat az oldalakat, amelyekr√l link mutat az eredeti lapokról és azokat, amelyek hivatkoznak a kiinduló oldalakra. Így néhány lapból kiindulva gyorsan megtalálunk néhány ezer oldalt, amelyek között nagy valószín∫séggel mind központi, mind mértékadó oldalak is szerepelnek. Ezután nincs más hátra, mint hogy erre a néhány ezer oldalra kiszámoljuk, hogy melyik mennyire mértékadó vagy központi, és a találatokat – mondjuk – a mértékadóság mértéke alapján rendezzük. Vajon mi a biztosíték arra, hogy sok jó min√ség∫ központi, illetve mértékadó oldalt kapunk néhány száz olyan oldalból kiindulva, amelyekr√l csak annyit tudunk, hogy tartalmazzák a motor szót? Egzakt bizonyítás nem létezik, csak arra próbálhatunk magyarázatot adni, hogy miért m∫ködik a heurisztika. A web struktúrájára jellemz√, hogy a weboldalak nagyon közel vannak egymáshoz, azaz egy oldalról a linkeket követve csupán néhány kattintással eljuthatunk bármelyik másik oldalra.16 Ezt a jelenséget hívják az emberek kapcsolathálózatában „kis világ”-nak.17
71
Halácsy Péter
nosíthattunk. Nem kell vizsgálni a weboldalak tartalmát, a hálózati struktúra alapján feltételezhetjük, hogy összetartoznak. Azt is említettem már, hogy a mértékadó oldalak általában nem hivatkoznak egymásra (talán, mert nem akarnak látogatót, vásárlót veszteni), de még arra sincs szükség, hogy a központok egymáshoz kapcsolódjanak. A központok és a mértékadó oldalak kölcsönösen határozzák meg egymást. Valamiféle tematikus közösség alakul ki, ahol az összetartó er√ a linkek és az ezekb√l kikövetkeztethet√ implicit kapcsolatok. Két mértékadó oldal közötti kapcsolat implicit, mert tulajdonképpen nem hivatkoznak egymásra. A Weben nagyon sok ilyen csoport alakult ki. Kumar és mások megmutatták (Kumar–Raghavan– Rajagopala–Tomkins, 1999), hogy a weboldalak körülbelül 5%-a tagja ilyen közösségnek. Érdekes hasonlattal élnek: az ábrám hat weboldala közül a baloldali csomópontok egy olyan rajongói kiscsoportot alkotnak, melynek sztárjaik (példaképeik) a jobb oldali csomópontok. Nézzük meg újra az el√bb bemutatott ábrát! Vegyük észre, hogy a c csomópont nem hivatkozik d oldalra, ugyanakkor van két olyan kapcsolata, ami alapján nyugodtan egy csoportba vehetjük az a, b csomópontokkal (egy rajongói csoport). A c csomópont nem ismeri a, b (a csoport másik két tagját) és d (az egyik a csoport által kedvelt sztárt) csomópontokat, de mi – egy lépést hátrébb lépve – a teljes struktúra ismeretében kijelenthetjük: a c csomópontot feltehet√leg érdekelné d. Vegyünk egy kevésbé formális példát. Egy újságárus észreveszi, hogy vannak emberek, akik minden héten megvásárolják az ÉS-t, a HVG-t és a Magyar Narancsot. Más emberek a Heti Választ és a Demokratát választják együtt. Az újságárus ezek alapján arra következtet, hogy az ÉS-nek, a HVG-nek és a Magyar Narancsnak valami köze van egymáshoz. A Heti Válaszban és a Demokratában is lehet valami közös. Fontos megjegyezni, hogy egyáltalán nem szükséges, hogy az újságárus ismerje a lapok tartalmát, stílusát (bármilyen tartalmi jegyét), elég, ha csak az emberek együtt-vásárlási (vö. co-citáció a bibliometrikában) szokásait észreveszi. Ha a Heti Válasz és a Demokrata közti hasonlóságot felfedezi, akkor a két lapot együtt választó emberek közti hasonlóságra is következtethet, akiket megkülönböztethet a másik három lapot (együtt) kedvel√kt√l. Az újságárus logikája elvezet bennünket az úgynevezett közösségi ajánló/sz∫r√ rendszerekhez. Visszatérve formális ábránkhoz, tegyük fel, hogy
rozzuk. Ezen hálózatok fontos jellemz√je, hogy a két csomópont közti linket tulajdonképpen maguk a csomópontok hozzák létre (ezt nevezzük alulról építkez√ hálózatnak), azáltal, hogy hivatkoznak egymásra. Ugyanakkor két fontos különbséget ki kell emelnünk. Az impact factor csak a hivatkozások számát veszi figyelembe, és mindegy, hogy milyen min√ség∫ csomóponttól származik a link: minél több, annál jobb. A PageRank és a HITS finomabb ennél: nem csak a linkek száma, hanem azok min√sége is mérvadó. Ha egy weboldal értékét annak alapján becsülnénk meg, hogy hányan hivatkoznak rá, akkor kapnánk meg az impact factor webes megfelel√jét. A PageRank rekurzivitása biztosítja, hogy az értékes oldal hivatkozása többet ér, és ez min√ségileg más sorrendet képes eredményezni. Az algoritmus a nagy PageRank oldalnak valamiféle tekintélyt ad, mert a PageRank értékét maga oszthatja szét az általa hivatkozott oldalaknak. Azt mondtam, a weben minden oldal egyenl√. Pedig ez nem igaz. A nagyobb PageRank oldalt nemcsak többen fogják látogatni (mert például többen találnak rá a Google segítségével), hanem megszerzett tekintélye alapján oldalakat emelhet ki a sok egyenl√ közül.19 Egy másik különbség a HITS és az impact factor között, hogy a HITS két (nem diszjunkt20) csoportra bontja a weboldalakat, mértékadókra és központokra, míg az impact factor (és a PageRank) nem tesz különbséget a csomópontok között. Kleinberg észrevette, hogy sok, valamilyen témában mértékadó weboldal, mondjuk motorkereskedések oldalai, nem hivatkoznak egymásra.21 Ez a tudományos m∫vek esetén nem szokott elfordulni: a meghatározó publikációk általában idézik egymást. Viszont a weben szerencsénkre vannak olyan oldalak – a központi oldalak – amelyek összegy∫jtik a témában mértékadó oldalakat. Kicsit olyan ez, mintha a mértékadó oldalak közti implicit kapcsolatot (linket) abból származtatnánk, hogy ugyanazok a központok hivatkoznak rájuk. Ilyen implicit kapcsolatokkal operálnak a következ√ fejezetben bemutatott közösségi ajánló rendszerek.
KÖZÖSSÉGI AJÁNLÁS/SZıRÉS
A
Kleinberg-féle algoritmus kapcsán láthattuk, hogy egy témát körbejáró központi (a korábban bemutatott ábrán a bal oldali 3 oldal) és mértékadó oldalakat (jobb oldalt) kizárólag a linkek elemzésével azo-
72
Kapcsolatok mint információforrások
a-c csomópontok embereket jelölnek, akik d, e és f dolgot kedvelik,22 legyenek ezek akár weboldalak, motortípusok, információforrások vagy általánosan entitások. A bal oldali és a jobb oldali csomópontok közti linkek jelöljék ezt a „kedvelés” relációt. Az el√bbiek alapján van egy olyan algoritmusunk, aminek segítségével az egymást nem ismer√, de hasonló ízlés∫23 emberek csoportját azonosíthatjuk. A csoporttagság alapján pedig egy embernek javasolhatunk egy esetleg eddig számára ismeretlen, de feltehet√leg releváns entitást. Motort akarunk vásárolni, de nem ismerjük a különböz√ modelleket. Megnézünk néhány típust, és két túrázásra alkalmas, kényelmes motor nagyon szimpatikus. Vannak még hozzánk hasonló emberek, akik inkább a kényelmet, mint a lóer√ket részesítik el√nyben. Nekik is szimpatikus volt ez a két motor, ennek alapján hasonlítunk egymásra. Ha van még további olyan típus, amely még elnyerte a tetszésüket, de mi nem ismerjük, akkor érdemes azt is megnézni. Hiszen hasonlítunk egymásra, √k alkotják a mi virtuális referenciacsoportunkat. Az, hogy a hasonló emberek feltehet√leg hasonló dolgokat preferálnak, nem újdonság. Ezt a felismerést már régóta használja a marketing. Az újdonság az, hogy az emberek közti hasonlóságot preferenciájuk (választásaik, értékeléseik) közti hasonlóságon keresztül definiálhatjuk. Azok a hasonló emberek, akik hasonló dolgokat választanak, és azok a hasonló dolgok, amiket hasonló emberek szoktak választani. Újra egy rekurzív definíció. Gyakorlatban képzeljünk el egy motoros portált, ahol különböz√ típusok leírásai találhatóak meg, amelyeket a regisztrált felhasználók szabadon olvashatnak.24 Mondjuk elindulhatnak egy katalógusban márka alapján, majd különböz√ kategóriákból (chopper, túra, speed stb.) választhatnak. Végül is konkrét modellek leírásaihoz jutnak. Eddig egy hagyományos vertikális, azaz egy témát részletesebben körbe járó portált írtunk le. A portál azonban szeretne valamilyen közösségi ajánló rendszert bevezetni. Valahogy meg kellene ismerniük a különböz√ felhasználók preferenciáit. A legegyszer∫bb megoldás, hogy minden modell esetén megkérdezzük, mennyire tetszik az a látogatónak. Mondjuk 1–5 pontot adhatunk minden modellnek, csakis a személyes vélemény alapján. Id√vel minden felhasználó preferenciáját megismeri a portál. Azzal, hogy egy látogató megjelöli a számára szimpatikus motortípusokat, megismerteti magát a rendszerrel, ami képes ezután kikeresni a hozzá hasonló
többi felhasználót (tehát azokat, akik ugyanazokat a motorokat találták szimpatikusnak). A többiek által nagyra értékelt, az új látogató számára azonban eddig ismeretlen motorokat a rendszer személyre szabottan ajánlhatja. A leghíresebb ilyen rendszer az amazon.com elektronikus könyvkereskedés, amely majdnem minden könyvhöz kiírja: „azok, akik ezt a könyvet megvásárolták, megvették még a következ√ tételeket:” és ezután következik egy olyan lista, amelyben tényleg csak az adott könyvhöz témában kapcsolódó ajánlatok szerepelnek. A vásárlások közti kapcsolatok (korreláció) alapján képes az Amazon rendszere például Habermas és Foucault könyveit, vagy Jung Az ember és szimbólumai és Freud Álomfejtés cím∫ könyvét összepárosítani.25 A közösségi sz∫rés/ajánlás alapja a felhasználók közti hasonlóság mérése. Az internet adta meg annak a lehet√ségét, hogy nem a felhasználók explicit bemutatkozása, hanem az információfogyasztásuk megfigyelése alapján kapcsoljunk össze két embert. Természetesen sokféleképpen lehet felhasználók közti hasonlóságot mérni, ez akár függhet a konkrét rendszert√l is. Két tudós hasonlíthat egymásra, ha ugyanazokat a cikkeket idézték saját munkáikban. Két fórumhasználó közel kerülhet egymáshoz, ha ugyanazokhoz a témákhoz szóltak hozzá. Két mobilel√fizet√ közelségét jelentheti, ha egymással sokat sms-eznek, vagy ha ugyanazokkal az emberekkel szoktak üzenetet váltani. Az eddigiekre gondolhatunk úgy is, hogy a közösségi sz∫rés kapcsán bemutatott módszer a könyvek, motorok, információk, emberek stb. között lév√ implicit kapcsolatokat hozza felszínre. Az Amazon rendszerében Habermas és Foucault közé egy linket képzelhetünk el (hisz egy kattintással átléphetünk egyikük könyveir√l a másikéra). Egy link két (általánosan fogalmazva) entitás közé sok ember független döntése/választása alapján kerül. Egy hipertextuális teret építünk tovább minden egyes döntésünkkel. Nagyon sok helyen lehetne és (érdemes is lenne) a közösségi sz∫rést alkalmazni, hogy csak két példát említsek: a Budapesti M∫szaki Egyetemen több száz szabadon választható tárgy közül kell a hallgatóknak néhányat választaniuk tanulmányaik során, és a választásokat egy informatikai rendszerben hosszú ideig rögzítik. Nagyon kevés költséggel létre lehetne hozni egy olyan programot, amely a hallgatóknak tárgyakat ajánlana: „Eddig felvettél 2 tantárgyat, ami tetszett. Ennek alapján még a következ√ tárgyakat ajánljuk Neked.”
73
Halácsy Péter
teremteni: egyéni döntések sorozatából kialakuló közösségi értékelés segít a releváns információ, a mértékadó információforrás kiválasztásában. Az ilyen (és ezeknél jóval fejlettebb) módszerek alkalmazása elengedhetetlen az olyan ún. közösség alapú szolgáltatásoknál, amelyek lényege, hogy a felhasználóktól származó információt helyezik el√térbe. Az ilyen szolgáltatások száma a jöv√ben várhatóan tovább fog növekedni, ennek egyik okát már említettem: vannak olyan esetek, amikor szinte csak az ismer√seinkt√l (kiscsoportunktól) származó információra hagyatkozhatunk. Ilyen esetekben egy tematikus közösség alapú tartalomszolgáltatás teljesen új lehet√ségeket teremt: lehet√vé teszi, hogy a hasonló érdekl√dés∫ emberek egymásra találjanak, és egymással közvetlenül kommunikáljanak.26 Az adatvédelmi biztos által bezárásra ítélt halapenz.hu webhely iránt is azért volt akkora az érdekl√dés, mert lehet√vé tette egy olyan diskurzus létrejöttét, amilyen eddig nyilvánosság el√tt nem zajlott (hiszen a tömegmédia nem vállalta a közvetít√ szerepét).27 Ugyanígy minden olyan szolgáltatás, amely biztosítja, hogy egy téma iránt érdekl√d√ emberek egymásra találjanak és információt cserélhessenek, min√ségi változást hoz az információtermelésben, -elosztásban és -fogyasztásban. Véleményem szerint például a fogyasztóvédelem, a fogyasztók információs önvédelme teljesen átalakulhat az új média elterjedésével.28 Az információhiányból fakadó kiszolgáltatottságunk csökkenhet azzal, ha sokkal több rendelkezésre álló információból (ami f√leg más fogyasztóktól érkezik majd) intelligens módszerekkel személyre szabottan ki tudjuk választani a megbízhatót, mértékadót és relevánst. A közösség alapú szolgáltatásoknak van azonban egy komoly problémája. Nincs még kidolgozott és bevett mód az ott megjelen√ információk hitelesítésére, relevanciájuk meghatározására. Ugyanakkor az el√bbiekben éppen arra hoztam három példát, hogy maga a közösség hogyan tudja az információkat és a forrásokat közösen értékelni. Véleményem szerint azok a szolgáltatások fognak hosszú távon fennmaradni, amelyek képesek az itt tárgyalt módszerekhez hasonló módon az információ intelligens sz∫rését megvalósítani.
A csillagpontos kábelhálózatok és a digitális televíziózás elterjedése lehet√vé tenné a személyre szabott, közösségi televíziózást: megfigyelt m∫sorválasztási szokások alapján (valamiféle értékelés lehet√ségének bevezetése után) a készülék személyre/csoportra szabott m∫sorajánlatot állíthatna össze.
A KÖZÖSSÉGI SZıRÉS JELLEMZ◊I
A
közösségi sz∫rés fent bemutatott módja teljesen új lehet√séget ad a személyre szabott információsz∫résre. Három jellemz√jét szeretném kiemelni. • Az egymáshoz hasonló felhasználók nem ismerik egymást, erre nincs is szükség. (Persze elképzelhet√ olyan alkalmazás, amelynek célja éppen az ilyen rejtett közösségek felszínre hozása.) • A csoportok nem el√re rögzített kategóriák alapján alakulnak ki. A motoros-portál példánknál maradva a hagyományos módszer az lenne, ha megkérdeznénk a felhasználót, hogy milyen csoportba tartozik: chopperes, robogós vagy túramotoros. Azonban nem tudjuk el√re, hogy mi alapján alakulnak ki a közösségek, mi lesz az a közös, ami közel hozza az embereket. Lehet, hogy vannak emberek, akik minden bordó motort nagyra értékelnek, mások a szögletes formák iránti vonzalmuk miatt kerülnek egy csoportba. • Tulajdonképpen nincsenek is konkrét csoportok, f√leg nem diszjunktak. Két felhasználó közti hasonlóság (választásaik korrelációja) egy folytonos mérték.
AHOL MINDEN ÖSSZEÉR – A KÖZÖSSÉG ALAPÚ TARTALOMSZOLGÁLTATÁSOK
A
z el√z√ekben bemutattam, hogy a közös téma iránt érdekl√d√ felhasználók hogyan tudnak a különböz√ információk és információforrások között hierarchiát
74
Kapcsolatok mint információforrások Hivatkozott irodalom
Jon M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5): 604–632, 1999. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, and Andrew Tomkins. Trawling the Web for emerging cyber-communities. Computer Networks (Amsterdam, Netherlands: 1999), 31(11–16): 1481–1493, 1999.
Stanley Milgram. The small world problem. Psychology Today, 1(61), 1967. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford Digital Library Technologies Project, 1998.
Jegyzetek
1. Még ha a szaklapok vagy az internetezés tényleges költségét nem említem is. 2. A heurisztika az algoritmussal nehezen vagy nem megoldható feladatok esetén alkalmazott általános elv. Gyakorlati tapasztalatokból, egyszer∫sítésekb√l, mérnöki megfogalmazásban „ökölszabályokból” indul ki, és az algoritmussal szemben általában csak közelít√ eredményt ad, s√t néha tévútra is vezethet. 3. A mértékadó információforrást az angol nyelv∫ szakirodalomban gyakran hívják autoritív forrásnak (authoritive source) vagy autoritásnak. Ezt a terminológiát használja a kés√bb bemutatott algoritmusa kapcsán Kleinberg is. Én ebben a cikkben a mértékadó szót használom. 4. Az impact factor és a keres√k által mért relevancia közötti összefüggéseket részletesebben kés√bb tárgyaljuk. 5. Az [origo] internetes portál így számolt be az eseményr√l 2003 májusában: „A neves New York-i lap 27 éves riportere, Jayson Blair lemondott, mivel egy bels√ vizsgálat megállapította, hogy cikkei hemzsegnek a valótlanságoktól, és gyakran idegen tollakkal ékeskedett.” A neves jelz√ jelen esetben mit jelent? Mértékadó? Sokak által ismert és elfogadott? 6. Ilyen például a kés√bb tárgyalt www.google.com vagy a vizsla.origo.hu 7. A tudományos világban teljesen elfogadott heurisztika, hogy az az értékes m∫, ami hivatkozást (felhasználást) vált ki. Ezt számszer∫síti a citációs index és a kés√bb még tárgyalt impact factor. 8. http://www.google.com 9. Lehet, hogy pár hét múlva már nem ez az oldal lesz a befutó, mert mint kés√bb látni fogjuk, a Google találati listája a web változásával együtt változik. 10. Azaz önmagára hivatkozó. 11. Az origo.hu és a startlap.com oldalak PageRank értéke 7/10 (a PageRank minden esetben egy 0–1 közötti szám), ami a magyar oldalak között nagyon jónak számít. 12. Az egzakt bizonyításhoz egy elég er√s matematikai alapra lenne szükségünk. 13. Ezen a ponton például rá tudunk mutatni a közelítés hibájára is: az origo.hu PageRankje megegyezik az index.hu és a www.bme.hu oldalak PageRankjével, pedig valódi látogatottságuk szignifikánsan eltér. 14. Az ortopéd orvos szakért√ szerint nem árt, ha a gyermek kipróbálja a motorozást, a lényeg az, hogy sokféle mozgásformát tapasztaljon meg. 15. Két oldal távolsága megadja, hogy az egyikr√l hány kattintással/lépéssel lehet eljutni a másikra. Ha két weboldal között van egy közvetlen link, akkor a távolságuk egy.
16. Ez például köszönhet√ a nagy linkkatalógusoknak, a központoknak, amelyekhez gyorsan el lehet jutni (mert sokan ismerik ezeket, és sok link mutat rájuk), ezekr√l viszont majdnem minden elérhet√. 17. Stanley Milgram szociálpszichológus híres kísérletében az 1960-es évek végén számszer∫síteni is tudta e „kis világ”-nak nevezett jelenséget. Mérései szerint átlagosan hat lépésben bizonyosan kapcsolat teremthet√ két, véletlenszer∫en kiválasztott amerikai ember között (Milgram, 1967). 18. Kleinberg ezen lista elállításához az akkori Altavista keres√motort használta. Természetesen a témát reprezentáló alap weboldal-készletet máshonnan is származtathatjuk, mondjuk a téma iránt érdekl√d√ emberek (kézi) gy∫jtése alapján. Ilyen például a motor.lap.hu, ahol több száz motorral foglalkozó weboldalt gy∫jtöttek össze (az oldal kiváló központi oldal). 19. A tekintély pedig ma már egyszer∫en megvásárolható. Kezd kialakulni a nagy PageRank oldalak piaca. Vannak vev√k, akik egy egész webhelyet hajlandók azért megvásárolni, mert a nagy PageRankjét kihasználhatják arra, hogy ismeretlen oldalakat felfuttassanak. 20. Azaz egy weboldal egyszerre lehet mértékadó és központi is. 21. Kleinberg eredeti példájában magukat a keres√ket említi. A keres√k általában nem linkelnek egymásra, s√t nem nagyon szerepel rajtuk az a szó, hogy keres√. 22. Mértékadónak tartják, jó min√ség∫nek, megbízhatónak, szépnek stb. A kapcsolat tényleges tartalmával most ne foglalkozzunk. 23. Egy bizonyos témában hasonló dolgokat választó embereket nevezzük itt hasonló ízlés∫eknek. 24. Természeten egy jó tematikus portálon ennél sokkal többnek is kell lenni. 25. Itt egy egybites értékelést adhatunk: (ha) egy könyvet értékesnek találunk, akkor és csak akkor megvásároljuk. 26. Ez a klasszikus tömegmédia struktúrájának szöges ellentéte: a tömegmédiában egyirányú, nem interaktív, egy forrástól származó kommunikáció jellemz√. Egy közösség alapú szolgáltatásnál, aminek legegyszer∫bb megvalósítása egy fórum, mindenki információforrássá válhat. 27. Ugyanitt példaképp említhetnénk a bizonyára kevésbé ismert Lányok-Házak-Vendégek (lhv.hu) nev∫ szolgáltatást, ahol lányok hirdetéseit és vendégek értékeléseit/beszámolóit olvashatjuk. 28. Például minél el√bb létre kéne hozni egy közösség alapú, lakásfelújítással foglalkozó webhelyet, ahol mindenki, akinek meggy∫lt a baja valamilyen szakival, m∫vezet√vel vagy csak háromszor kellett kivésetnie a villanyvezetéket, leírhatná tapasztalatát (hívhatjuk közösségi tudásbázisnak), értékelhetné a szolgáltatókat.
75