Teljesen elosztott adatfeldogozás és adatbányászat Vinkó Tamás SZTE
Jelen kutatást a futurICT.hu nevű, TÁMOP-4.2.2.C-11/1/KONV-2012-0013 azonosítószámú projekt támogatta az Európai Unió és az Európai Szociális Alap társfinanszírozása mellett.
Bevezetés peer-to-peer grid és felhő
okostelefonok
szenzorhálózatok
Olyan algoritmusok, mechanizmusok és protokollok kifejlesztését, vizsgálatát és prototípus szintű megvalósítását tervezzük, amelyek az okostelefon hálózatokban keletkező nagy mennyiségű adat teljesen elosztott feldolgozását teszik lehetővé az adatvédelmi szempontok figyelembevételével. Teljesen eloszott adatfeldolgozás és adatbányászat
2
Feladatok • Felhasználói környezet modellezése • Algoritmusok tervezése és elemzése • Kollaboratív 3D rekonstrukció • Kollaboratív panorámakép készítés • Kollaboratív szintetikus nézet generálása • Teljesen elosztott optimalizálás • Elosztott konkurrens modellezés • Centralizált tanuló algoritmusok • Skálázható architektúrák kutatása
Teljesen eloszott adatfeldolgozás és adatbányászat
3
Feladatok • Felhasználói környezet modellezése • Algoritmusok tervezése és elemzése
Jelasity Márk (SZTE)
• Kollaboratív 3D rekonstrukció • Kollaboratív panorámakép készítés
Kató Zoltán (SZTE)
• Kollaboratív szintetikus nézet generálása • Teljesen elosztott optimalizálás
Vinkó Tamás (SZTE)
• Elosztott konkurrens modellezés
Maróti Miklós (SZTE)
• Centralizált tanuló algoritmusok • Skálázható architektúrák kutatása
Teljesen eloszott adatfeldolgozás és adatbányászat
Jelasity Márk (SZTE)
4
Feladatok bemutatása Felhasználói környezet modellezése
• tervezett algoritmusok hatékony és realisztikus szimulációja • különböző szintű kommunikációs modellek kifejlesztése • mérési eredmények gyűjtése • Eredmény: algoritmusok alkalmazási területeinek azonosítása, modellezése és szimulációja • PeerSim - többmagos gépekre adaptálás • több alfeladat is épít(het) az itt született eredményekre Teljesen eloszott adatfeldolgozás és adatbányászat
5
Feladatok bemutatása Algoritmusok tervezése és elemzése
• egy nagy hálózat eszközeiről folyamatosan áramló adathalmaz hatékony és adatvédelmi szempontból megfelelő elemzését végzik el • pletyka tanulás - adatmodell véletlen sétája
• Eredmény: eloszott adatbányászati és tanuló algoritmusok könyvtára, amely az okostelefon középréteg alprojektben implementálható Teljesen eloszott adatfeldolgozás és adatbányászat
6
Feladatok bemutatása Kollaboratív 3D rekonstrukció
• adott objektumról több nézőpontból készült mobil (telefonos) képek megosztása • képek közötti geometriai megfeleltetése keresése, jellemzők kinyerése, transzformációk, stb • Eredmény: új algoritmusok, amelyek egy terület 3D modelljét a mobil készülékek kapcsolatai alapján, kollaboratív módon készítik el • Erősen épít az okostelefon középréteg implementációjára Teljesen eloszott adatfeldolgozás és adatbányászat
7
Feladatok bemutatása Kollaboratív panorámakép készítés
• a mobil készülékek egymásnak küldött képeiből panorámakép készíthető • átfedés detektálás, geometriai jellemzők vizsgálata
• Eredmény: új algoritmusok, amelyek kollaboratív módon állítanak elő szélesebb látószöget biztosító panoráma nézetet • Erősen épít az okostelefon középréteg implementációjára Teljesen eloszott adatfeldolgozás és adatbányászat
8
Feladatok bemutatása Kollaboratív szintetikus nézet generálása
• több kamera képéből mesterséges kép generálható • virtuális nézőpontok (pl. felülnézet) • nagy tömeget érintő eseményekről áttekintő kép készítése
• Eredmény: új algoritmusok, amelyek kollaboratív módon állítanak elő szintetikus nézeteket 3D rekonstrukcióból vagy több kamera nézetéből
Teljesen eloszott adatfeldolgozás és adatbányászat
9
Feladatok bemutatása Teljesen elosztott optimalizálás
• optimalizálási feladat a felhasználók által támogatott rendszerekben (“peer-assisted systems”) • ösztönző mechanizmusok vizsgálata • erőforrások elosztása különböző feltételek mellett • Eredmény: p2p algoritmusok, amelyek önszervező módon találják meg az optimális teljesítményt és/vagy robusztusságot a fenti feladatkörökben • általánosabban használható szimulációs környezetek kifejlesztése Teljesen eloszott adatfeldolgozás és adatbányászat
10
Feladatok bemutatása Elosztott konkurrens modellezés
• több kis erőforrással rendelkező eszköz által létrehozott nagy adatbázisok és ezeken végzett műveletek • elosztott, hibatoleráns gráf alapú adatbázis megvalósításának kérdése
• Eredmény: olyan algoritmus könyvtár és elosztott adatbázis, amely nagyméretű adatmodellek olvasását és konkurrens módosítását teszik lehetővé kis erőforrású eszközökön Teljesen eloszott adatfeldolgozás és adatbányászat
11
Feladatok bemutatása Centralizált tanuló algoritmusok
• elosztott, azonban centralizált környezetben gráf algoritmusok (PageRank, szinguláris felbontás, stb) hatékony megvalósítása • a centralizált algoritmusok kutatása során megvizsgálhatóak a teljesen elosztott környezet problémái, azokat egyszerűsített feltételek mellett vizsgálhatjuk • Eredmény: új gépi tanulási módszerek, amelyek tárigény (közelítéses módszerek) és kommunikáció (lokalitás kihasználása) szempontjából egyaránt hatékonyak Teljesen eloszott adatfeldolgozás és adatbányászat
12
Feladatok bemutatása Skálázható architektúrák kutatása
• nagyméretű hálózatok elemzése • gépi tanulás, optimalizálás és felhasználók által generált tartalom kezelése által igényelt methodológiai és szoftver környezet kutatása • elosztott rendszerek (MapReduce, Apache Mahout), online tanulás, GraphLab • Eredmény: nagy adatmennyiségek gyors, skálázható vizsgálatát szolgáló eszközök kifejlesztése.
Teljesen eloszott adatfeldolgozás és adatbányászat
13
Kapcsolat más alprojektekkel
Teljesen eloszott adatfeldolgozás és adatbányászat
14
Kapcsolat más alprojektekkel
Teljesen eloszott adatfeldolgozás és adatbányászat
15
Összefoglalás • A projekt egyik célja, hogy a mindennapi életben keletkező, eddig soha nem látott adatmennyiséget intelligens, hatékony és etikus módon tegyük elérhetővé • eloszott algoritmusok kulcsszerepe • okostelefonok milliárdjai hasznos információval szolgálhassanak a felmerülő tudományos kérdések modellezésében
• Okostelefon Középréteg alprojekthez szorosan kapcsolódunk • Planetary Nervous System, Global Participatory Platform Teljesen eloszott adatfeldolgozás és adatbányászat
16