Ember a végtelen térben…Spontanitás vagy Tervezés?
Adatbázis rendszerek
A jelenidejűség meghaladása, a bizonytalanság csökkentése:
BMEEOFTMLT3
-> Mérnöki tervezés, modellezés … Adat, Információ, Tudás, Képesség
1. Bevezetés Adatsokaságok, Adatbázis kezelők a mérnöki gyakorlatban, A Petabájtok világa, és a 4. paradigma Dr. Szabó György, egyetemi docens ,
[email protected]
egy repedés a gáton… Objektum
Észlelés
Durva azonosítás
Pontos azonosítás
Elemzés
Gát
6,0
3,0
0,6
0,2
Az antikvitás megoldása
Észlelés: objektum felfedése Durva azonosítás: objektum felismerése Pontos azonosítás: objektum osztály felismerése Elemzés: részletes jellemzők azonosítása
Atlasz majd vállára veszi a terhek nehezét…
Kolontár vörös iszap tározó – Telecopter ortofotó 2010.10.08
A tér feletti „uralom” megszerzésének szintjei – térszerveződési szintek
A feladat ma is ugyan az - Urrá lenni a téren Ember a végtelen térben … -> A környező világ megismerésének, modellezésének igénye, de hogyan? • • • • •
Atlasz szerepét vegye át az állam -> A „védelem ára” állami adat monopólium Segíthetne valaki Atlasznak (Lásd: Héraklész és az aranyalma) –> Üzleti, technológiai szereplők a téradat piacon, profit érdek, természetes monopóliumok, outsourcing Tartja még valaki az eget? -> Környezet tudatosság, Nonprofit világ Biztos hogy az istenekre tartozik ? Segítsünk mi ! -> Kooperáció, Információs társadalom, WEB2 Nem lesz ebből anarchia? - > Állami szabályozás jelentősége, Adatvédelem és információ szabadság
Térbeli kontroll • • • • •
Globális terek: Föld, országok Regionális terek: régiók, megyék, kistérségek Lokális terek: település, lakókörzet Közvetlen lokális terek: szomszédság Mikro terek: háztartás, munkahely, egyén
A technológiai fejlődés hozadéka: -> Egyén: emberi élettér kitágulása -> Állam: térhasználat és tér feletti kontrol megszerzése !!! Egyén és Állam közötti információs aszimmetria Emberi élettér kitágulása
Adatbázis rendszerek -1.
1
Regisztrálni és megosztani tapasztalatainkat…. An accurate description is needed . . .
These features contain . . .
Modellek X=Y-Z NaCl 2
Nyelv Írás
Hieroglifák
Adatgyűjtés egykor…
Matem./Tudomány
Statisztika
Statisztika
leküzdeni a jelenidejűség korlátait, távolságot, időt ...
Zene/ Művészet
Kulcs elem: Kitüntetett diszkrét jelenségek regisztrálása Célfüggvény:
Rajzok
Képek
Térképek
Költséges, élőmunkaigényes regisztrálás, tárolás minimalizálása
7
Mi itt tulajdonképpen a feladat?
Adatgyűjtés napjainkban
II. Szenzor - típus - felbontás - eszköz hibák - zaj, mérési hibák - tárolási, közlési hibák -
Tervezés
Adattárház
IV. Információ - észlelés - érzékelés - felfogás - értelmezés
Kulcs elem:
I. Tárgy tér - napállás - atmoszféra - terep felszín - tárgy geometria
Környezeti jelenségek közel folytonos tömeges regisztrálása, szubjektivitás csökkentése
III. Feldolgozásr - konverziós hibák - algoritmus hibák - feldolgozási hibák - személyi hibák
Célfüggvény: Közel valós idejű szemantikus feldolgozás, információ kinyerés
Döntési kockázat csökkentése, tervezés: adat->információ->új ismeret->akció
Mire is vagyunk kíváncsiak a világban: Tér, Idő, Hely?
A tér feletti „uralom” megszerzésének szintjei – térszerveződési szintek Térbeli kontroll
Idő, T “Mikor?” Map 1
Karte 1
C
Map 2
Karte 2
D “Hol?” Tér, S “Mi?” Attribútum, A
Adatbázis rendszerek -1.
Map
Ergebnis
• • • • •
Globális terek: Föld, országok Regionális terek: régiók, megyék, kistérségek Lokális terek: település, lakókörzet Közvetlen lokális terek: szomszédság Mikro terek: háztartás, munkahely, egyén
•
Holt város: makett -> Élő város: jelenségek, akciók
A technológiai fejlődés hozadéka: -> Egyén: emberi élettér kitágulása -> Állam/Szervezet: térhasználat és az egyén pozíciója, kapcsolatai feletti kontrol megszerzése !!! Egyén és Állam/Szervezet közötti információs aszimmetria
Emberi élettér kitágulása
2
Globális, regionális, lokális terek
És a mikro terek? Mobil, GPS, RFID: minden lépésünk regisztrálódik…
Az egész teret uraljuk ?
A digitális univerzum napjainkban Személyes aktivitás / Céges aggodalom !
*2006: a gyártott félvezető elemek száma (26 * 10**15) meghaladja a termett rizsszemekét (410 M tonna – 1,2 *10**15)
15
Az információ áradat… • Hogy rögzítsük tapasztalatainkat, tudásunkat?
Hogyan nyerünk információt egy strukturált adatrendszerből?
Tapasztalat tények Egyéb források Irodalom tények
kérdések
?
válaszok
Szimuláció
Az alapvető problémák • • • • • •
Adat reprezentáció nehézségei Petabájtok kezelése Hogy strukturáljuk? Hogy szervezzük újra? Hogyan osszuk meg másokkal? Tudni miért v. tudni hogyan?
Adatbázis rendszerek -1.
• • • • •
Lekérdező és megjelenítő eszközök hatékonysága Modell építés nehézségei Adat integráció komplexitása Tapasztalatok leképezése Karbantartás, hosszú távú archiválás
3
Hogyan nyerünk információt egy nem strukturált adatrendszerből?
Hogyan segít rajtunk az információtechnológia?
És az Internet?
Hogyan képzelték el a RAND Co. tudósai 1954-ben a 2004-es év„home computerét”…
Popular Mechanics, 1954???
A mai (tegnapi?) helyzet • Mintegy 2 milliárd felhasználó • 5 milliárd csatlakoztatott eszköz • Évi 1,8 Exabyte adat forgalom • 500 millió host node • 255 millió WEB site • Napi 290 millió email • Napi 2 milliárd videó letöltés Szociális média • Napi 20 millió Facebook appl. • Évi 36 milliárd kép feltöltés • 152 millió blog • Évi 100 millió új Twitter user
A Google majd segít, de… A Föld szárazföldi felszíne mintegy 148 millió km2 A Google Maps heterogén 2D lefedése jelenleg mintegy ->100-150 TeraByte 15 cm-es pixel felbontással -> 20 PetaByte Kilo Utca szintű felbontás 2 cm Mega -> 1 ExaByte 2D objektum szintű felbontás < 0,5cm Giga -> 18 ExaByte Tera Emberi környezet: felszín 15 cm, közterület 2cm, épület belsők Peta 0,5cm -> 1 ExaByte (10x redundancia) Exa és ez még fokozható: 3D, idősorok, dinamikus jelenségek… Zetta Yotta
Hogyan legyünk ezen úrrá?
Adatbázis rendszerek -1.
4
Székesfehérvár: Geodézia, Fotogrammetria, Lidar integráció
Lidar pontfelhő (2x 45 millió pont, 5-10 pont/m2), Ortofotó (20Mpixel, 0,5m RGB, NIR), Földmérési alaptérkép (3Mbyte), Földi lidar (25M pont/ha 2500 pont/m2)
Hogyan lehet ennyi adatot kezelni? Valaki csak gondoskodik róla!
Google serverpark a kezdetektől (1998) napjainkig
… vagy az enyészeté lesz…
Tanulságok: 1. A jóslás mindig kockázatos ! 2. Mindig kételkedj az Interneten talált forrásokba! A kép egy 2004-es képszerkesztési verseny eredménye. Az eredeti kép 2000-ben készült az U.S. Navy egyik tengeralattjáró vezérlő termének modelljéről. IBM 604 gyártósor 1948
http://www.snopes.com/inboxer/hoaxes/computer.asp Kínai elektronikus hulladék megsemmisítés
HW->SW – > Adat -> Kommunikáció
Komplex adat tárház rendszerek komponensei, számítási felhők Forrás adatok
Térkép és adatbázis szerver Alkalmazás-szerver
PDA Kliensek
Integrált, konszolidált adatbázisok (Adattárház)
Mobil Kliensek
Rendszeradminisztráció Windows Desktop Kliensek
Web Kliensek
Desktop & Enterprise & Internet & Mobile workers & Wireless
Adatbázis rendszerek -1.
5
És mindez az üzleti folyamatokba integrálva ERP (Enterprise Resource Planning) FELHASZNÁLÓI réteg
• • • • •
Web & Application Services
Összeköti az üzleti folyamatokat Fenntartja az ellenőrzési kényszerpályát Egy közös információs rendszert hasznosít A megvalósítása együttjár egy BPR (Business Process Reengineering) használatával Nehéz korrekten megvalósítani – „kényszerpályák”
WEB és ALKALMAZÁS SZOLGÁLTATÁSI réteg
Data Management Services
INTEGRÁLT ADAT és TÉRKÉP SZOLGÁLTATÁSI réteg
Ember és környezete: adat, információ, tudás, modellek és a humán gondok…
Az építőmérnök és környezete • Környezettel való gazdálkodás - Környezetünk megismerésének segítése, a térbeli viszonyok valósághű modellezése • A vizuális kommunikáció térnyerése – Az információ modellezése, rögzítése, továbbítása, értelmezése • Bitek helyett - Szemantikai tartalommal bíró komplex elemek • Specialisták, réteg tudás <> Tömeg felhasználók, közérthetőség • A technológiák versenye -> Automatizálás, mobilitás és korlátai • Tömeges adatgyűjtés, petabájtok • Gazdasági, jogi megfontolások - Adatpolitika, monopólium, piac • Szakmai tradíciók – Áldás vagy átok?
Mi itt a gond? • Változó világ • Változó modellek • Változó feladatok • Változó technológia • Változó felhasználók • Változó szabályozók • …
Az „adatbázis” mint a szubjektív észlelés, elemzés, emlékezés kilengéseit korrigáló kommunikációs közeg Információ forrás
Adó Küldött üzenet
Vett jel
Fogadott üzenet
Zajforrás
Külső mentális reprezentáció - > szubjektív kognitív térkép
Adatbázis rendszerek -1.
Rendeltetési hely
Vevő
Jel
Mesterséges „csatorna”: Kép- > objektív Képi/nyelvi reprezentáció
Belső mentális reprezentáció – szubjektív vizuális térérzet
6
Megfigyelt adat - > Tudás
Adat, Információ, Tudás, Bölcsesség
Alkalmazott tudás
Képesség – AI
Kontexusba ágyazott információ Logikailag kapcsolt adatok Nyers, megfigyelt adatok
Gassem Asrar (NASA)
Tudás - Leképezés Információ - Design Adat - Vizualizáció
A 4. paradigma (Jim Gray)
Milyen a jó modell?
• Egy ezred éve: a tudomány empirikus volt
Valóság
->természeti jelenségek leírására koncentrált
• Néhány évszázada: teoretikus modellek megjelenése
Ikonikus Modell
Szimbolikus Modell
->modellekre, általánosításokra épített
• Néhány évtizede: szimuláció megjelenése
2
. a 4πGρ c2 a = 3 −Κ 2 a
-> komplex jelenségeket szimulál
1+1=2 Cél: egy kritikus probléma kezelehetőségének biztosítása
Lásd: Google Traffic élő adat és predikció
• Napjainkban: adatfeltárás (e-tudomány) – – – –
->empíria, teória és szimuláció integrálása Adatnyerő szenzorok, szimulátorok Szoftveres adatfeldolgozás Adat/Információ/Tudás számítógépes tárolása Petabájtos adatbázisok tudományos elemzése
de a szemünknek és a Google-nek sem hihetünk …
és a Microsoft-nak? Google Maps / Microsoft Virtual Earth http://thenextweb.com/2008/08/07/google-plants-forests-in-holland-amateurish-censorship-in-maps/
Adatbázis rendszerek -1.
7
Lássunk egy bonyolultabb példát ! Az afganisztáni stabilitás stratégia összefüggéseinek vázlatos áttekintése (PPT)
Áttekinthető? Kaotikus? „…Ez a diagram ráadásul szépen rendezett, a színkódok értelmesek, a kapcsolati vonalak jól követhetők, és egy pár perc nézelődés után már fel is tűnik, hogy nem is olyan bonyolult ez. Nagyjából 100 entitást látunk 13 csoportba sorolva, és a legbonyolultabb csomópont sem kapcsolódik 10-nél több másik csomóponthoz. Hol itt a gond? Amilyen összefüggéseket (és amennyit) ez a diagram egy oldalon jelölni képes, azt prózában oldalak tucatjain keresztül kellene sorolni: senkinek se legyen kétsége afelől, hogy AZT sokkal nehezebb lenne intellektuálisan feldolgozni. Pont erre találták ki a diagramokat….” Vakablak hozzászólása a PPT veszélyeit boncolgató honlapon
Beregi gátszakadás 107 m-es vízállás szimulációja (2001.03.06)
Adatbázis alkalmazások
Repülési útvonal elemzése (1995)
Adatbázis rendszerek -1.
3D város modell
8
A szematikus információk jelentősége CityGML: Komplex objektum, szemantikus jellemzőkkel Szematikus jellemzők
„Multi-scale” modellezés LOD 0 – Regionális modell 2.5d Digital Terrain Model
Geometria
LOD 1 – City / Site modell „Blokk modell“ tetőszerkezet nélkül
LOD 2 – City / Site modell Részletes Tetőszerkezet LOD 3 – City / Site modell
– Geometria: helyzet, kiterjedés jellemzése – Szemantika: funkcionális, kvalitatív jellemzők
Részletes építészeti modell, homlokzati elemek
LOD 4 – Belső modell „Bejárható“ építészeti modell
Ebédidőbeli aktivitás Salt Lake Cityben mobiltelefonok út-idő függvénye alapján
Budapest Stratégiai Zajtérképe
Layar – Kiterjesztett valóság
Ügyfelek bankfióktól való távolsága Bankfiók ellátási körzetébe eső kiemelt ügyfelek
Adatbázis rendszerek -1.
239 Layers, by Category:
Eating and Drinking ( 22 ) Entertainment & Leisure ( 40 ) Games ( 0 ) Government ( 6 ) Health Care ( 9 ) Local search & Directory service ( 14 ) Other ( 13 ) Real Estate ( 26 ) Retail ( 22 ) Schools & Universities ( 10 ) Social networks & communities ( 20 ) Tourism : Places to stay ( 6 ) Tourism : Tours / Guides ( 26 ) Transportation ( 24 ) Weather ( 1 )
9
Layar – Kiterjesztett valóság
Digitális TV besugárzás elemzés
239 Layers, by Category:
Eating and Drinking ( 22 ) Entertainment & Leisure ( 40 ) Games ( 0 ) Government ( 6 ) Health Care ( 9 ) Local search & Directory service ( 14 ) Other ( 13 ) Real Estate ( 26 ) Retail ( 22 ) Schools & Universities ( 10 ) Social networks & communities ( 20 ) Tourism : Places to stay ( 6 ) Tourism : Tours / Guides ( 26 ) Transportation ( 24 ) Weather ( 1 )
Ügyfelek bankfióktól való távolsága Bankfiók ellátási körzetébe eső kiemelt ügyfelek
A jövő ígéretei és veszélyei
Szép új világ…
Az adatbázisok és az IT „áldásai” napjainkban Szó szerint bevitte a ˝sűrűbe˝ a navigációs rendszer azt az észt kamionost, akinek kiszabadításához a hansági lápból egy kamionmentő, két traktor és négy ember megfeszített munkája kellett:
?
Az észt rendszámú, nyersanyaggal megrakott Scania nyerges vontató pár napja éppen Fertődre tartott, amikor Jánossomorjánál eltévedt. A sofőr elmondása szerint még nem járt erre, a navigációs rendszeren pedig vélhetően a legrövidebb útvonalat állította be. A rendszer a tervezéskor valószínűleg figyelembe vette a gyalogos- és kerékpáros utakat is, így a Hanság kellős közepére irányította a kamiont. A mintegy 40 tonnás, megrakott járműszerelvény Jánossomorján tért le a 86-os főútról, majd a kisváros közepén rákanyarodott egy földútra. Azon körülbelül hat kilométert haladt, míg aztán arról is letért az ottani vízzel teli csatornák közé, ám ekkor már megfordulni nem tudott. Végül pedig a lápos területen megsüllyedt és elakadt. A kamion ekkor már több mint tíz kilométerre volt minden lakott területtől, az észt sofőrnek pedig fogalma sem volt arról, hol is van pontosan. A férfi gyalog indult segítségért. Napokig bolyongott és „etette" a szúnyogokat a Hanság közepén. Végül szerencsére visszatalált a járművéhez és néhány nap után segítséget is szerzett. •
Adatbázis rendszerek -1.
www.kisalfold.hu, 2010.07.01
10
Változások: Adat -> Elemzés 5% Térbeli
Térbeli elemzés elemzés
10-15% Geokódolás
75% Adatkonverzió
Múlt
Múlt – Jelen - Jövő
Statikus megjelenítés: Mi volt? (esetleg Mi van?) -birtokviszonyok -erőforrások Web portálok statikus adatkészleteket közölnek
Vizuális szimuláció, virtuális valóság: Valós idejű megjelenítés: Mi van? és Mi lehetne? -árvíz -közlekedés A WEB portálok valós idejű szenzor kapcsolatokból levezetett információt közölnek
MÚLT
JÖVŐ
Ikonikus modellek: a valóság „kicsinyitett mása”
Szimbolikus modellek: matematikai, statisztikai alapú logikai kapcsolatok
Adatkonverzió
Jelen/Jövő
Az információrobbanás kihívásai – IDC 2020
Leírás, ábrázolás -> szimuláció, modellezés A kép, térkép többet ér mint ezer szó:
Geokódolás
• • • • •
Adatmennyiség 44 szeresére nő Adategységek száma 67 szeresére nő Tárolási kapacitás csak 30 szorosára nő Toxikus petabájtok -> adat detoxikálás! Nem védett felhasználói adatmennyiség 10 Zettabájt • IT humán erőforrás kapacitás csupán1,4 szeresére nő !
A digitális univerzum csökkenő fajlagos költségei
Köszönöm a figyelmet ☺
-> Paradigmaváltás szükségessége !
Adatbázis rendszerek -1.
11