´g technolo ´ giai A Google jelense ¨ gbo ˝l szemszo Hal´acsy P´eter
2006. okt´ober
˝ k mu ˝ko ¨ de ´se Kereso
Search engines I
I I I
Crawler: egy program, ami folyamatosan let¨olti a weboldakat. Sz¨ovegek kinyer´ese (html eldob´as). Adatb´azis ´ep´ıt´ese. Keres´es, rangsorol´as.
Probl´ema: hatalmas adatb´azis: 109 ∗ 105 = 101 4
1995, Digital Corp. elind´ıtja az Altavista-t
altavista 1996 1996 m´ajus´ara I t¨ obb mint 30,000,000 weboldal I 12 milli´ o keres´es naponta I 4 g´ ep k¨oz¨ul az egyik: AlphaServer 8400 5/300, 10 processors, 6 GB memory, 210 GB RAID disk. I This model is the most powerful computer built by Digital. I 800,000 USD
´retha ´boru ´ indul Me I I I
az AltaVista a piacra bel´epve mindenkin´el nagyobb elkezd˝odik a ,,kinek nagyobb az indexe” verseny ´esszel j¨on a Northern Light
´retha ´boru ´ II. Me I I
a fiatal Google 2000-ben f¨ol´enyesen elh´uz az´ota is a legnagyobb ´es a legels˝o (kb 8 milli´ard weboldal)
´tte ´r egy kis ha
¨ rte ´nik kerese ´skor? Mi to
I I I
kikeresni minden sz´ot a t´abl´azatban minden sz´ohoz tartoz´o dokumentumlist´at ¨osszef˝uzni rendezni relevancia szerint
sok adatod van? vagy nem Te vagy a Digital?
I
I I I
oszd sz´et a dokumentumokat k´et g´epre mindegyikben keress k¨ul¨on a v´eg´en f˝uzd ¨ossze a list´at nem is lesz lassabb
haszn´alj sok olcs´o g´epet, egy dr´aga helyett
blue sky?
¨ rte ´nik egy kerese ´skor? mi to I
I
els˝o f´azisban a terabyte m´eret˝u invert´alt indexb˝ol ki kell keresni a dokumentumokat (p´arhuzamos´ıt´as) a docid-b´ol a let¨olt¨ott web alapj´an kikeresni: c´ım, url, kivonat, stb. (p´arhuzamos´ıt´as)
´ me ´g? fokozhato I
a k¨ozpontban egy helyi eloszt´o v´alaszt egy webszervert
elosztó
´ me ´g? fokozhato I I
a k¨ozpontban egy helyi eloszt´o v´alaszt egy webszervert DNS felold´askor a vil´ag valamely Google k¨ozpontj´aba megy a keres´es
elosztó
´s Rangsorola
I
I I
Eddig: melyik oldalon szerepel az a sz´o, hogy ”h´azi k´av´ep¨ork¨ol´es” Megj: bag of words modell (v¨o. D´aniel ´ertelmes g´epei) Rendezni kell a tal´alatokat relevancia szerint I I I
Min´el ritk´abb egy sz´ o, egyez´ese ann´al ´ert´ekesebb Min´el t¨obbsz¨ or van egy sz´ o a sz¨ ovegben, ann´al t¨obb pont Hossz´ u sz¨ovegben val´ o egyez´es nem ´er annyit
PageRank Nem csak a sz¨oveg sz´am´ıt. Minden weboldalnak van egy apriori ´ert´eke. I Egy j´ o weboldalra sokan hivatkoznak. I Ha egy j´ o weboldal hivatkozik valakire, akkor az is feltehet˝oleg j´o. X PageRank(j) PageRank(i) = (1 − d) + d , L(j) j∈M(i)
ahol M(i) azoknak az oldalaknak a halmaza, amik tartalmaznak linket az i. oldalra, L(j) pedig a j. oldalr´ol kimen˝o linkek sz´ama.
´ske ´pp PageRank ma A v´eletlen sz¨orf¨os v´eletlenszer˝uen kattintgat I Minden oldalon egyenletes val´ osz´ın˝us´eggel v´alaszt a kimen˝o linkek k¨oz¨ott. I De a hurkok elker¨ ul´es´ere v´egett 1 − d val´osz´ın˝us´eggel teleport´al I Az oldal PageRankje ¡- annak val´ osz´ın˝us´ege, hogy egy weboldalt megtal´al. X P(j) P(i) = (1 − d) + d , L(j) j∈M(i)
´rtelmeze ´se PageRank e I I
Kev´es, de ´ert´ekes link is sz´am´ıthat. Kb. n´epszer˝us´eg.
´ la ´zhato ´ sa ´g google - minden a ska amir˝ol nem besz´elt¨unk I crawlernek p´ arhuzamosan kell sok g´epr˝ol let¨oltenie I online fel kell dolgozni a dokumentumokat I pagerank sz´ amol´as CPU ig´enyes (a teljes gr´af a mem´ori´aban?) I index ´ ep´ıt´es sokkal nehezebb, mint a keres´es de tudjuk I olcs´ o PC-ket haszn´altak a Standfordon I j´ o programoz´ok´ent megoldott´ak az adatok t¨om¨or´ıt´es´et I hackerk´ ent m´odos´ıtott´ak a linuxot I mindent elosztotottan, p´ arhuzamosan csin´altak
´ppark: szege ´nyek vagy Google ge okosak? Boltban kaphat´o, olcs´o, ak´ar megb´ızhatatlan PC-kb˝ol ´ep´ıtkezve 2001-ben
CPU Mem Disk ´ar ´ar/h´onap
80 db. PC 160 160Gb 6,4TB 278,000$ 7,700$
egy nagy g´ep 8 64Gb 8Tb 758,000$ 21,055$
´ppark: szege ´nyek vagy Google ge okosak? Boltban kaphat´o, olcs´o, ak´ar megb´ızhatatlan PC-kb˝ol ´ep´ıtkezve 2001-ben
CPU Mem Disk ´ar ´ar/h´onap P fogyaszt´as
80 db. PC 160 160Gb 6,4TB 278,000$ 7,700$ 10kW 10MW-h
egy nagy g´ep 8 64Gb 8Tb 758,000$ 21,055$ 1kW 1MW-h
´ppark: szege ´nyek vagy Google ge okosak? Boltban kaphat´o, olcs´o, ak´ar megb´ızhatatlan PC-kb˝ol ´ep´ıtkezve 2001-ben
CPU Mem Disk ´ar ´ar/h´onap P fogyaszt´as
80 db. PC 160 160Gb 6,4TB 278,000$ 7,700$ 10kW 10MW-h 1500$
egy nagy g´ep 8 64Gb 8Tb 758,000$ 21,055$ 1kW 1MW-h 150$
´ny no ˝ , de a fogyaszta ´s is teljes´ıtme
´rom e ´v mu ´lva az elektromos mu ˝vek ha ´pet adja a ge
¨ zpont a google dance, 64 adatko ´gon vila
Mit tud a google? I I I I
I I
mindent, ami p´arhuzamos´ıthat´o, eloszthat´o amihez nagy t´arol´okapacit´as kell olcs´on, gyorsan sk´al´azhat´o az ig´enyeknek PageRank, keres´es, AdWords, vide´o, google maps, stb. nem jelent probl´em´at becsl´esek szerint 150,000-170,000 g´epe van izomb´ol lenyom mindent: l´asd gmail c´elunk a vil´ag minden adat´anak ¨osszegy˝ ujt´ese ´es kezel´ese, bele´ertve a szem´elyes inform´aci´okat is
´ge ´n 2005 ve I I I
5000 CPU, 3.5 petabyte disk egy ´ejszaka alatt kipakolhat´o feltehet˝oleg a 300 legnagyobb internetcsom´opontra
Google OS + google box I I I
egyszer csak a Google lesz a vezet˝o telefont´arsas´ag vide´o ´es mozi szolg´altat´o a sz´eless´av´u u¨zlet tartalom disztributora
´r - video.google.com 2006 janua
I I I
ingyenes ´es fizet˝os vide´ok u¨zletet k¨ot¨ott sok tartalomgy´arossal (pl. AOL) ugyanakkor mindenki t¨olthet fel
Mi a Google?
I I I I I
keres˝o? tartalomszolg´altat´o? m´edia c´eg? az u´j m´edia k´abelc´ege? disztributor? c´elunk a vil´ag minden adat´anak ¨osszegy˝ ujt´ese ´es kezel´ese, bele´ertve a szem´elyes inform´aci´okat is
˝l e ´l a google? 1. re ´sz mibo Az Adwords
adwords
I I I
szavakra c´elzott hirdet´es megadhat´o, hogy mennyit ´er egy kattint´as mennyit akarunk naponta k¨olteni
adwords
I I I
szavakra c´elzott hirdet´es megadhat´o, hogy mennyit ´er egy kattint´as mennyit akarunk naponta k¨olteni
minden keres´esre I a sz´ o´ert verseng˝oket online sorbarendezi I figyelembe veszi a napi limitet I kattint´ as eset´en sz´aml´az, amennyit a hely¨unk megtart´as´ahoz kell
´s: adsense szemantikai elemze
adwords - adsense I I I
mindenkinek lehet c´elzott hirdet´esi fel¨ulete akarm´alyin kicsi k¨olts´egvet´essel lehet hirdetni ak´arhol min´el jobb a keres˝o, ann´al t¨obbet fizetnek a hirdet˝ok
adwords - adsense I I I
mindenkinek lehet c´elzott hirdet´esi fel¨ulete akarm´alyin kicsi k¨olts´egvet´essel lehet hirdetni ak´arhol min´el jobb a keres˝o, ann´al t¨obbet fizetnek a hirdet˝ok
gmail vs. freemail I gmailen 100x annyi t´ arhelyet kapok I helyes´ ır´as-ellen˝orz´es I interakt´ ıvabb, jobban haszn´alhat´o I nem k´ erdezi meg az ´erdekl˝od´esi k¨or¨omet, koromat, nememet I no akkor mib˝ ol ´el?
gmail chat nincs t¨obb´e k¨ul¨onbs´eg a chat kliensek ´es a webb¨ong´esz˝ok k¨oz¨ott
google suggest figyelj¨unk a technol´ogi´ara! nincs t¨obb´e k¨ul¨onbs´eg a saj´at g´epemen t´arolt adat ´es a google-n´el t´arolt adat k¨oz¨ott
interakt´ıv weboldalak
interakt´ıv weboldalak mindent a b¨ong´esz˝ob˝ol I adatok interakt´ ıv megjelen´ıt´ese, navig´aci´o, keres´es (google finance) I adatok szerkeszt´ ese mindent ak´arhonnan I I I
gmail chat mobiltelefonr´ol google map taxis gps-ben google news a google finance-ben
ak´ar kollaborat´ıvan is I I I
k¨oz¨os calendar k¨oz¨osen szerkesztett dokumentum k¨oz¨os v´arost´erk´ep
´ gia AJAX technolo
Asynchronous JavaScript and XML I a hagyom´ anyos weben, minden kattint´askor v´arni kell I a b¨ ong´esz˝o nem tud m´as, mint megjelen´ıteni I a webes programok fapadosok voltak
´ gia - hagyoma ´nyos AJAX technolo HTTP
´ gia AJAX technolo
google map API
google map API b´arki fejleszthet programot, ami google map-t haszn´al
google map API
google calendar
google calendar API
b´arki fejleszthet programot, ami google calendar-t haszn´al I fodr´ aszn´al id˝opontfoglal´as weboldalr´ol I kultur´ alis programok a calendaromban megjelennek (´es t´erk´epen mutatja a helyet) I iskola ´ orarend, v´altoz´asokr´ol google talk api-n ´ertes´ıtenek I aut´ om szervizben id˝opontot foglal
mash up
I I I
a szolg´altat´asok m´as programokb´ol is haszn´alhat´oak u´j szolg´altat´asok ¨osszerakhat´ok, mixelhet˝ok web mint plattform, web os
blog, mail, calendar, word, map, video, adwords, homepage (flickr, ebay, yahoo local stb.)
´leme ´nye wired ve I I
I
a keres´es csak a kezdet ´es nem a v´egc´el r´aj¨ottek, hogy a Google u´jfajta felhaszn´al´asait nem ˝ok, hanem a felhaszn´al´ok fogj´ak kital´alni ez´ert adnak ki API-kat, ami lehet˝ov´e teszi, hogy fejleszt˝ok u´j alkalmaz´asokat ´ep´ıtsenek. ”We get clever hacks, educational uses, and wacky stuff,” says Nelson Minar, who runs the API effort. ”We love to see people do creative things with our product.”
http://www.wired.com/wired/archive/12.03/google.html?pg=10
Mi a Google?
egy hardver ´es szoftver c´eg I ahol okos m´ ern¨ok¨ok saj´at g´epparkot, plattformot ´ep´ıtettek I tartalom infrastrukt´ ur´at ´ep´ıtettek fel egy szolg´altat´o c´eg I az infrastrukt´ ur´at kihaszn´alva szexi alkalmaz´asok I de az infrastrukt´ ur´aj´at odaadja mindenkinek I l´ enyeg: n´ala legyen az adat, ˝o ahhoz ´ert