Orosz Katalin - Vicsek András - Pollner Péter „Influenza” a tudomány szolgálatában: információterjedés bloghálózaton Internet and online communication have become an integrated part of our everyday life. This new type of communication call for new forms of information sharing and spreading. Consequently, there is an emerging need for analyzing and modeling such information sharing and spreading processes. In our work, we analyzed the data provided by Happy flu information spreading experiment, carried out in the blogosphere. We analyzed the structure, the growth, and the categories (topics) in the network in order to uncover the spreading mechanisms. We found, that categories in close relationship with the character of the experiment are frequent and spread along the main nodes in the branches. Propagation is not uniformly distributed in time: time intervals with intense and rare propagation events are present. Time intervals with intense propagation are in coincidence with the appearance of one or more new categories. 1. Bevezetés A társadalmi kapcsolatok alakításában egyre nagyobb szerepet játszik az internet. A weboldalakon található információ, az internetes kommunikáció, például messenger és chat programok használatával, vagy e-mail formájában, valamint online fórumok és blogok segítségével egyre nagyobb mértékben járul hozzá a társadalom résztvevői közötti kapcsolatteremtéshez, kommunikációhoz. Ennek köszönhetően az interneten terjedő információnak fontos szerepe van a társadalmi kapcsolatok alakításában, új irányzatok (trendek) kialakulásában és terjesztésében. A hálózattudomány segítségével a társadalmi kapcsolatok rendszere és az információterjedés hatékonyan vizsgálható. Fontos szerephez jutnak a dinamikai jelenségekkel kapcsolatos kutatások (Barrat–Barthélemy–Vespignani 2008). Egyre több kutatás foglalkozik blog hálózaton bekövetkező információterjedéssel (Stewart et al. 2007: 46-54), blogok időfejlődésével (Kumar et al. 2003: 568-576), vagy témafejlődésével (Mei et al. 2007: 171-180), e-mail hálózatokkal (Newman–Forrest– Balthrop 2002: 035101). Az internetes információterjedés vizsgálatakor nagy jelentőséggel bírnak a jól dokumentált terjedési kísérletek. A Happy flu projekt során egy meghatározott információt indítottak útjára a blogtérben. Az információ blogokon való terjedése kapcsán számos adatot regisztráltak, amely lehetővé teszi a terjedési hálózat rekonstruálását és hálózathoz kapcsolódó mennyiségek nyomon követését (Friggeri– Cointet–Latapy 2009). Munkánkban ezen adatok felhasználásával vizsgáltuk a terjedéskor kirajzolódó hálózat időfejlődését, valamint azt, hogy egy adott információ hogyan terjed az egyes témakörök között. 2. A Happy flu projekt és eredményei Az internetes információterjedésnek, információterjesztésnek egyik, napjainkra igen jelentőssé vált formája blog (web napló) vezetése. A blog tulajdonosa a blog oldalára bejegyzéseket ír, amelyhez általában a bejegyzést olvasók rövid megjegyzéseket fűzhetnek. Míg a honlapok általában lassabban változnak, hosszabb ideig hordozzák ugyanazt az információt, a blog az újabb bejegyzések és hozzászólások nyomán gyorsan frissül, így naprakész információval szolgál a világról. Emiatt speciálisabb közösség
látogatja a blogokat, mint a honlapokat. A Happy flu kísérletben a résztvevők egy flash grafikát tettek fel a blogjukra/weboldalukra, amelyet bárki átmásolhatott a saját oldalára. Így ha egy oldalon megjelent a grafika és annak valamely látogatója részt kívánt venni a kísérletben, akkor átmásolhatta a grafikát a saját oldalára. A flash grafika terjedéssel kapcsolatos információkat küldött egy központi számítógépre az adott weboldalról, amin megjelent. Rögzítésre került az oldal neve, címe (url), amin megjelent, hogy honnan és mikor vették át, kik (IP cím alapján), milyen url-ről és mikor látogatták (jelenítették meg böngészőjükben) az oldalt. A terjedési kísérlet 2008. július 8-tól szeptember 18-ig tartott. A létrejött 492 oldalból (csúcsból) álló hálózat vizsgálata alapján megmutatták, hogy bár arra számítanánk, hogy minél több látogatója van egy oldalnak, annál nagyobb hatása lesz a terjedésre, még sincs korreláció a látogatók száma és a weboldal oldalterjedésre gyakorolt hatása („befolyása”) között. Megfigyeléseink szerint az érintett témakörök segítségével viszont feltérképezhető, mi okozhatja, mivel jár együtt a terjedés intenzitásának változása. 3. A hálózat időfejlődésének vizsgálata A Happy flu terjedési kísérlet adatai alapján rekonstruáltuk a terjedés végén kialakult hálózatot. (A felhasznált adatok letölthetők a http://www.happyflu.com/ oldalról.) Csak azokat a csúcsokat vettük figyelembe, amelyeknek legalább egy látogatója volt. Az így kapott hálózatban 492 darab weboldal található, amelyek között irányított élek vannak. Az él iránya a terjedés irányának felel meg. A terjedés jellegéből következik, hogy a hálózatban minden csúcsnak egy darab bemenő éle van, és annyi darab kimenő éle, ahány blog átvette tőle a flash grafikát, ezek a „megfertőzött” csúcsok. A kezdő oldal (1-es azonosítóval) a fent említett Happy flu oldal. Innen öt blogot vezető ismerőst kértek fel a szervezők a Happy flu terjesztésére. Három nap elteltével a terjedés elősegítése érdekében közleményben értesítették a SOCNET levelezési lista olvasóit a Happy flu kísérletről. A bloghálózat egyszeri események visszacsatolás nélküli sorozataként alakul ki, idővel fa szerkezet jön létre (1. ábra), ezért jellegét tekintve eltér például egy elektronikus levelezésből származó hálózattól, hiszen ott a kommunikáló felek között több levélváltás is történhet, nem egyszeri és nem egyirányú esemény az információterjedés. Ha egy látogató úgy dönt, hogy átveszi a Happy flu-t egy oldalról, akkor a lehetséges Happy flu-t terjesztő oldalak egyikéről tudja ezt megtenni. Ezért rendelkezik minden hálózati csúcs egy bemenő éllel. Amint átvette a grafikát, ő is terjesztővé vált, tőle akárhányan átvehetik, persze csak akkor beszélhetünk továbbterjedésről, ha olyanok veszik át, akik korábban nem fertőződtek meg. Ha a grafikát levették az oldalról, azt a rendszer már nem követte nyomon, így a felvett adatokban nincs különbség azok között az oldalak között, amiken nem történt látogatás és azok között az oldalak között, amikről levették a grafikát. Az újonnan csatlakozott oldalak számának időbeni alakulását nyomon követhetjük a 2. ábrán, ahol a terjedés kezdetétől eltelt idő függvényében nyolc órás időintervallumokra ábrázoltuk az időintervallumban a hálózathoz csatlakozó blogok számát. A terjedés intenzitását két maximum jellemzi, az első az induláskor, a második egy hosszabb szünetet követően jelenik meg. A kísérlet vége felé pedig erősen csökkent az egységnyi idő alatt csatlakozók száma. Az 1. ábrán jól látszik, hogy három domináns irányban történik a terjedés. A felső ágban
három, a középső ágban kilenc és az alsó ágban egy domináns oldalt, azaz hálózati csúcsot választottunk ki, amelyeket a hálózat „vázának” tekintettünk, hiszen ezek mentén haladva fel lehet térképezni a főbb terjedési irányokat. A kiválasztott oldalak a hálózatban rendszerint nagy köztiség centralitással (betweenness centrality) jelennek meg, tehát viszonylagosan sok legrövidebb út vezet rajtuk keresztül, a hálózatban összekötő szerepük van, így joggal vettük őket figyelembe váz csúcsként. A 3. ábrán nyomon követhetjük, hogy az egyes ágak váz csúcsai mikor csatlakoztak a hálózathoz, illetve kitől vették át a Happy flu-t. Az ágak váz csúcson kívüli csúcsainak csatlakozását egy adott időintervallumban csatlakozó csúcsszámmal vettük figyelembe, ahol az időintervallumokat csakúgy, mint korábban nyolc órának választottuk.
1. ábra. Blogok hálózata a terjedési kísérlet végén. A hálózati csúcsok (blogok) mérete arányos a leszármazottak számával. Az ábrán lévő nyíl a Happy flu kezdő oldalt jelöli, ahonnan a terjedés elindult. A számok a három fő terjedési ágat sorszámozzák, amelyeket
be is karikáztunk.
2. ábra. A hálózat növekedése: a hálózathoz csatlakozó csúcsok száma az idő függvényében. A hálózathoz csatlakozó csúcsokat nyolc órás időintervallumokba osztottuk, egy időintervallumhoz az időintervallumba eső oldalak számát rendeltük. Látható, hogy a terjedési kísérlet első szakaszában nagymértékű a hálózat növekedése és később, egy hosszabb szünetet követően egy újabb lokális maximumot találunk. Az idő múlásával, ahogy közeledünk a kísérlet vége felé, csökken a hálózathoz csatlakozó újabb oldalak száma. A darabszámoknak megfelelő vonalak (beütések) mintázata az idő tengely mentén jól mutatja az aktívabb és a kevésbé aktív terjedési időszakokat. Mindhárom ág elején egy aktív terjedési időszak figyelhető meg, majd a terjedés lecseng. A középső ágban azonban a lecsengést követően hosszabb idő elteltével egy újabb terjedési „hullám” veszi kezdetét, amely persze az idő előrehaladtával szintén lecseng. A terjedési mintázatban gyakran jelentkeznek kisebb-nagyobb beütés csoportok. Ez azt jelzi, hogy sokszor a terjedés időben nem homogén, sűrűbb csomagok formájában valósul meg.
3. ábra. A három fő terjedési irány csúcsainak születése. Felülről lefelé haladva a három ág (1, 2, 3 az 1. ábra jelölése szerint) időbeni alakulását látjuk. A váz csúcsokat világosabb vagy sötétebb színű pontokkal jelöltük. A sötét színű pontok olyan weboldalakat jelölnek, amelyek a kísérlet egyik szervezőjéhez tartoznak. A függőleges vonalak magassága az adott időpontban (pontosabban nyolc órás időintervallumban) megjelenő csúcsok számával arányos az adott ágban. (A beütésszámok számolásakor a váz csúcsokat nem vettük figyelembe.) Például a felső ág elején, a 3, 32, 80-as, ponttal jelölt csúcsok környékén láthatunk egy sűrű és nagy beütésszámokat mutató terjedési maximumot. Hasonló maximumra lehetünk figyelmesek a második és harmadik ág elején, valamint a második ágban a 728-as csúcs környékén. 4. Terjedés a témakörök mentén Eddig a hálózatban szereplő oldalainkról a hálózatban elfoglalt helyük, illetve csatlakozási időpontjuk alapján beszéltünk. Az oldalak kapcsolatrendszerét, információfolyamba ágyazottságát minden bizonnyal befolyásolják azok a témakörök, amelyekkel az oldal foglakozik. Mivel a Happy flu egy tudományos kísérlet, amely erősen kötődik a társadalom és kommunikáció területéhez, joggal tehetjük fel a kérdést, hogy a terjedés során vajon mennyire dominánsak ezek a témakörök. Végig megmarad-e a hálózat fejlődése során a tudományos, a társadalmi, a kommunikációs vonal? Milyen újabb témakörök jelennek meg, jellemző-e hirtelen változás a témakör együttesben a terjedés során? Visszavezethető-e témakörökkel kapcsolatos okokra a terjedési hullámok kialakulása? A kísérlet során összegyűjtött adatok között minden oldalhoz szerepelt a hozzá tartozó url. Így lehetőség nyílt a blogok szövegének megtekintésére. A váz csúcsok esetében megnéztük, hogy a blog milyen témákkal foglalkozik. A témaköröket elsősorban a blogon feltűntetett kategóriák, címkék alapján azonosítottuk. Esetenként a blog, a blogot vezető személy profilját vagy néhány bejegyzés átolvasásából kapott információt is figyelembe vettünk. A kísérletben különböző nyelvű oldalak vettek részt, ezért a Google fordító segítségével szükség esetén angolra fordítottuk az oldal szövegét. A témakörökbe sorolás automatizálása nehezen megoldható feladat, mert az oldalak nagyon eltérő jellegűek lehetnek. Egyes blogok feltűntetik a népszerű, esetleg az összes címkét és a kategóriákat is. Van, ahol csak a címkék vagy csak a kategóriák szerepelnek. Előfordul az is, hogy kategóriát és címkét sem találunk az oldalon. Ha rendelkezésre áll is a kategória,
címke információ, akkor is nagyon eltérő módon jelenhet meg a html szövegben, ezért úgy döntöttünk, hogy az automatizált feldolgozás helyett manuális módszerrel nézzük végig az oldalak egy részét, állapítjuk meg a megjelenő témaköröket. Még így is néha trükkökhöz kellett folyamodni, hogy a blog egészének átolvasása nélkül témakörökhöz jussunk. Ekkor jó támpontot adhatott a blogot vezető profiljának megtekintése, az oldal rövid bemutatkozása vagy a bejegyzések egy részének cím, címke, esetleg szöveg szempontjából történő gyors áttekintése. Természetesen az eltérő nyelvek, szóhasználatbeli különbségek, rokon vagy átfedő témaköröket tartalmazó blog kategóriák és címkék, címke alapján nehezen beazonosítható témák, nem vagy csak részlegesen elérhető témakör információ miatt besorolásunktól azt reméljük, hogy ha nem is sikerült az oldalon szereplő minden témakört pontosan feltérképezni, illetve nem volt lehetőség kategóriák hierarchikus rendszerén keresztüli részletes besorolást készíteni, jó közelítéssel azonosítani tudtuk az oldalak által tárgyalt, felvetett főbb témákat. Először a következő általánosabb kategóriákat rendeltük az egyes blogokhoz a blog oldalról gyűjtött információ alapján: arts + culture + history; business; entertainment + sport; food; health; nature + environment; politics + governance; religion; s cience + technology; society + communication; war A food, war és health kategóriák ritkán fordultak elő, ezért ezeket elhagytuk és a maradék kategóriák között még elvégeztünk néhány összevonást. Ekkor a következő nagy témaköröket kaptuk: arts + culture + history , religion business entertainment + sport nature + environment politics + governance science + technology, society + communication A besorolás után a váz csúcsokra kapott kategóriák és a terjedés a 4. ábrán látható. A science + technology és society + communication témaköröket azért vettük közös nagy kategóriába, mert a váz csúcsok esetén egy csúcs kivételével együtt szerepelt a két kategória. Láthatjuk tehát, hogy a kísérlethez (a kísérlet jellegéből adódóan) szorosan kapcsolódó témakörök nagyrészt megmaradnak a terjedés során, így az újabb csúcsok valamilyen módon kapcsolódnak a tudomány és technikához, valamint a társadalom és kommunikációhoz.
4. ábra. A Happy flu terjedése a váz csúcsok általános kategóriái mentén. Felülről lefelé haladva látható a három ág, melyekben minden egyes oszlop egy váz csúcsnak felel meg, az oszlopban lévő egyes betűk pedig az adott oldalnál megjelenő kategóriákat jelölik. Ehhez hasonlóan a váz oldalak első szomszédjai közül kategóriákat rendeltünk jó néhány (közel hetven) oldalhoz. Ekkor azt tapasztaltuk, hogy a terjedés során a leszármazott csúcshoz szinte mindig rendelhető olyan kategória, amely a szülő csúcsnál megtalálható. Ez azt jelenti, hogy a kategória változások nem egy témakör halmaz eltűnésével és egy új, az előzőtől teljesen különböző halmaz létrejöttével következnek be, hanem a közvetlen leszármazott csúcsnál jellemzően csak a kategóriák egy része változik meg. Egy oldal leszármazottainak száma lehet nagy sok kategóriával és kevés kategóriával rendelkező oldal esetén is. A témakörökre vizsgált csúcsoknak mindhárom ágban legalább a fele rendelkezik a society + communication és a science + technology témakörrel, míg a felső ágban az entertainment + sport, a középső ágban az entertainment + sport, arts + culture + history, politics + governance, a harmadik ágban pedig az entertainment + sport és a business kategóriával. 5. Következtetések A Happy flu hálózat időfejlődésének és témaköreinek elemzésével eljuthatunk néhány terjedésre jellemző tulajdonsághoz. Azt tapasztaltuk, hogy az információterjedés nagyrészt terjedési hullámokban következik be. Egy-egy hullámban rövid idő alatt sok oldal veszi át az információt, majd a terjedés lecseng. A hálózat fejlődése során több terjedési hullám követheti egymást. A kísérlet során a tudomány, technológia, társadalom és kommunikáció témakörök dominánsak maradnak. A jellemző kategória együttes kategóriái általában nem egyszerre cserélődnek le, van átfedés a szülő és a leszármazott csúcs kategóriái között. Nem feltétlenül a sok témakört felsorakoztató oldalak tesznek szert sok követőre, kevés témakör esetén is lehet sok követő, de az is előfordulhat, hogy egy sok témakörrel rendelkező oldalnak kevés követője akad. Ha viszont egy új témakör jelenik meg a terjedés során, hamarosan egy új terjedési hullám kialakulása várható
Köszönetnyilvánítás Köszönjük Vicsek Tamás professzornak a munka során nyújtott segítséget és ötleteket. Köszönjük továbbá a kutatáshoz nyújtott támogatást a Nemzeti Kutatási és Technológiai Hivatalnak (NKFP_07_A2 (2007)/TEXTREND), az Országos Tudományos Kutatási Alapprogramoknak (OTKA K68669), valamint az ELTE Fizika Doktori Iskolának. Irodalom Barrat, A.–Barthélemy, M.–Vespignani, A. 2008. Dynamical processes on complex networks. Cambridge: Cambridge University Press. Friggeri, A.–Cointet, J.-P.–Latapy, M. 2009. A Real-World Spreading Experiment in the Blogosphere. DIME International Conference on the Formation and the Evolution of Social and Economic Networks. http://www.icfsn.net/docs/latapy.pdf Kumar, R. et al. 2003. On the bursty evolution of blogspace. In WWW ’03: Proceedings of the 12th international conference on World Wide Web. New York: ACM. 568-576. Mei, Q. et al. 2007. Topic sentiment mixture: modeling facets and opinions in weblogs. In WWW ’07: Proceedings of the 16th international Conference on World Wide Web. New York: ACM. 171-180. Newman, M. E. J.–Forrest, S.–Balthrop, J. 2002. Email networks and he spread of computer viruses. J. Phys. Rev. E. 66: 035101. Stewart, A.–Chen, L.–Paiu, R.–Nejdl, W. 2007. Discovering information diffusion paths from blogosphere for online advertising. In ADKDD ’07: Proceedings of the 1st International Workshop on Data Mining and Audience Intelligence For Advertising. New York: ACM. 46-54.