Ministerie van Verkeer en Waterstaat
RIJKSWATERSTAAT Meetkundige Dienst
Ministerie van Verkeer en Waterstaat
RIJKSWATERSTAAT Meetkundige Dienst
Trend Analyse Data Management ten behoeve van het WADI-project
25 juni 2002
Trendanalyse Datamanagement juni 2002
Versie informatie Versie
Datum
Bijzonderheden
Auteur
1.0
5 juni '02
Opmaak volgens huisstijl
H. Fugers
1.1
10 juni '02
Tekstuele correcties na review
H. Fugers
1.2
25 juni '02
Toevoeging ViNT-beschrijving
H. Fugers
1.3
8 jan ‘03
Kleine aanpassing vormgeving
Trendanalyse Datamanagement
Verzendlijst
Ministerie van Verkeer en Waterstaat Directoraat Rijkswaterstaat Meetkundige Dienst – afd. IBS Dhr. A.W.M. Vermetten Dhr. J.D. v.d. Woude
VerkenningsInstituut Nieuwe Technologie (ViNT) ViNT helpt organisaties bij het volgen van ontwikkelingen op IT-gebied, door verkenningen uit te voeren op IT-gebied en hierover te rapporteren. Hierbij zoekt ViNT een middenweg tussen de beschrijving van de technologie en de toepassing van die technologie. Vanuit breed perspectief draagt ViNT een visie aan en reikt opties aan voor keuzes op IT-gebied. Op deze manier wil VINT organisaties inspireren om nieuwe technologieën te overwegen of zelfs toe te passen. ViNT wordt aangestuurd door de Commissie van Aanbeveling (CvA). De onderzoeksonderwerpen worden aangedragen door de CvA. Tevens bepaalt de CvA of een onderzoek geschikt is voor publicatie. ViNT rapporteert door middel van het publiceren van boeken, waarin een bepaald onderzoeksonderwerp wordt uitgewerkt. Sinds enkele jaren werkt ViNT samen met het gerenommeerde Amerikaanse onderzoeksinstituut Forrester Research Inc. Forrester Research doet onderzoek naar de impact van nieuwe technologie op grote ondernemingen, consumenten en de samenleving. De invulling van de samenwerking tussen ViNT en Forrester krijgt gestalte in de uitwisseling van onderzoeksgegevens en ervaringen op het gebied van informatietechnologie. Dit past in het streven van IQUIP om het interne kennisniveau continue te verbeteren.
pagina v
Trendanalyse Datamanagement
Inhoudsopgave Versie informatie ...................................................................................................................... iv Verzendlijst.................................................................................................................................v VerkenningsInstituut Nieuwe Technologie (ViNT) ...................................................................v Inhoudsopgave.......................................................................................................................... vi 1
Managementsamenvatting.................................................................................................1
2
De opdracht .......................................................................................................................2 2.1 Algemeen.................................................................................................................2 2.2 Doel van dit document.............................................................................................2 2.3 Opzet onderzoek ......................................................................................................2
3
De technologietrends in isolatie ........................................................................................4 3.1 Algemeen.................................................................................................................4 3.2 XML ........................................................................................................................4 3.3 Real-time..................................................................................................................4 3.4 Web-enabling...........................................................................................................4 3.5 Kosten/baten ............................................................................................................5 3.6 CPU-power-groei.....................................................................................................5 3.7 Storage-capacity-groei.............................................................................................5 3.8 Services/Middleware ...............................................................................................6 3.9 Metadata ..................................................................................................................6 3.10 Handheld devices / Mobile & Wireless ...................................................................6 3.11 Grid Computing .......................................................................................................7 3.12 IPv6..........................................................................................................................7 3.13 SAN/NAS/etc.. ........................................................................................................8 3.14 Agent Technology ...................................................................................................9 3.15 in-memory-dbms......................................................................................................9 3.16 OO-dbms..................................................................................................................9
4
Gegevenslogistiek met trends .........................................................................................10 4.1 Gegevenslogistiek algemeen .................................................................................10 4.2 Gegevenslogistiek in andere organisaties..............................................................11 4.3 ICT-Trends per fase...............................................................................................13
pagina vi
Trendanalyse Datamanagement
Managementsamenvatting juni 2002
1
Managementsamenvatting
Bij de Meetkundige Dienst van de Rijkswaterstaat (MD) wordt op dit moment een verkenning uitgevoerd om op termijn het DONAR-systeem te vervangen. DONAR wordt gebruikt om de zogenaamde "natte gegevens" te registreren en archiveren. Hierbij gaat het onder andere over waterstanden en –kwaliteit. Het Verkenningsinstituut Nieuwe Technologie (ViNT) van IQUIP Informatica B.V. kreeg in dit kader de opdracht om een beknopt onderzoek uit te voeren naar een aantal relevante ITtrends. Dit onderzoek focust op trends in informatietechnologie en hun impact op de gegevenslogistieke processen. De trends zijn afkomstig van onderzoeksinstituten als de Butler Group en Gartner Group, naast interviews met ervaren experts en industriepartijen, als Oracle, IBM en Microsoft. Belangrijke trends met een hoge zekerheid zijn: de wereldwijde adoptie van XML als uitwisselingstaal, Web-enabling, de real-time-response behoefte, en de groei in cpu/opslag/bandbreedte bij gelijkblijvende kosten. De onderstaande tabel geeft een overzicht van trends gerelateerd aan de processen uit de gegevenslogistiek.
Impact trend op gegevenslogistiek Trends XML Real-time Web-enabling Kosten/baten CPU-power Storage=cap. Services/Middleware Metadata Handheld devices Mobile/Wireless Grid-computing IPv6 Cultuur/verwachtingen SAN/NAS/etc.. Agent-technology Overheidsregulering in-memory-dbms OO-dbms
Transformatie Archivering/ Hardheid Capture/ Onderhoud trend (1..10) Toelevering 10 8 10 9 10 10 7 4 7 7 5 8 8 7 4 8 4 1 1..10
5 5 3 3 3 3 4 5 5 5 2 4 3 3 5 1 4 0
5 5 2 2 1 0 3 5 0 0 3 0 0 0 2 0 0 4
5 5 2 5 3 3 0 5 0 0 5 0 0 3 2 0 0 5
Distributie
Score (AVG * hardheid)
5 5 5 3 4 3 4 3 5 5 3 4 5 3 5 5 4 3
Score 1..5
Let op dat technologie slechts een middel is om een doel te bereiken. Een goede modellering en afstemming met de klantenbehoeftes blijven boven alles van belang met datawarehouses.
pagina 1 van 18
50 40 30 29 28 23 19 18 18 18 16 16 16 16 14 12 8 3
Trendanalyse Datamanagement
De opdracht juni 2002
2
De opdracht
2.1
Algemeen
Bij de opdrachtgever is op dit moment het systeem DONAR in gebruik om allerhande "natte"gegevens te registreren en te archiveren. Deze gegevens omvatten alleen natte meetgegevens die nodig zijn ten behoeve van water beheren (kwaliteit en kwantiteit) en water keren. DONAR zal pas op een termijn van 5 jaar zijn verouderd en deze verkenning is van belang om tijdig vervangingsplannen te kunnen maken. Tijdens onze contacten en het nalezen van WADI-documentatie (www.wadi.nl) zijn een aantal te onderzoeken thema's naar voren gekomen: 1. Gegevenslogistiek: hoe gaan vergelijkbare organisaties om met deze materie en welke ontwikkelingen zijn te verwachten. 2. Metagegevens; bijv. MDA-ontwikkelingen van het OMG 3. Koppelingen met Geografische systemen / Spatial-data storage 4. Algemene ICT-trends die van toepassing zijn op het gebied van Datamanagement, als XML, Standaards, Services, SAN's, etc.. 5. Toegang tot gedistribueerde data en meerdere bronnen Na een eerste opzet is besloten om primair op de onderdelen: Gegevenslogistiek; ICT-trends en Gedistribueerde data te focussen, dus onderdeel 1,4 en 5. De twee andere gebieden: Metadata en Geografische systemen worden in andere onderzoeken uitgewerkt.
2.2
Doel van dit document
Het doel is een aantal trends te beschrijven rondom deze thema's, zodat er op ICTontwikkelingen rondom datawarehouses als DONAR/WADI een beeld gevormd kan worden naast de eigen waarnemingen. Dit beeld is nodig om tijdig te kunnen anticiperen op relevante ontwikkelingen bij de definitie en realisatie van een nieuwe opzet van DONAR in het WADI-project. Op 12 juni 2002 wordt er een workshop georganiseerd waar de resultaten van dit rapport worden gepresenteerd.
2.3
Opzet onderzoek
Het is een kortlopend en pragmatisch onderzoek, dat op basis van algemene ICT-trends zoals deze gedurende jaren binnen het Verkenningsinstituut Nieuwe Technologie (ViNT) van IQUIP worden beschouwd. Als bronnen worden de waarnemingen bij andere organisaties ingezet. Een aantal experts uit de eigen organisatie en bij klanten worden kort geïnterviewd over trends, problemen, pagina 2 van 18
Trendanalyse Datamanagement
De opdracht juni 2002
aanpakken en verwachtingen rondom de onderzoeksthema's Verder hebben wij toegang tot de research van Forrester Research, CBDi-forum, delen van Meta Group, Gartner Group en Butler Group. Deze bronnen kunnen worden ingezet bij eerste verdieping van het onderwerp. Ook toegang tot de bijbehorende analisten over specifieke onderwerpen is hierbij mogelijk. Naast puur technologische trends is het ook van belang dat men zich realiseert dat door individualisering, thuiswerken, openheid van bestuur, terugtredende overheden, etc. ook andere invloeden van belang zijn. Verder verwachten mensen in toenemende mate andere diensten en serviceniveaus van bedrijven en overheden.
pagina 3 van 18
Trendanalyse Datamanagement
De technologietrends in isolatie juni 2002
3
De technologietrends in isolatie
3.1
Algemeen
Het is van belang om de trend op snijvlak van Datawarehousing kort in isolatie te beschrijven en een algemene indruk te geven van de termijn waarop dit relevant wordt in de "gewone" wereld.
3.2
XML
XML staat voor "eXtensible Markup Language" en is een veelzijdige standaard methode om gegevens uit te wisselen. Het vormt in toenemende mate het fundament onder websites en bij de communicatie tussen geautomatiseerde systemen. Zowel het formaat als de data-inhoud zelf worden vastgelegd in een XML-bericht. XML is een formele standaard van het World Wide Web Consortium (www.W3C.org), net als HTML, die de basis voor het World Wide Web vormt. Op dit moment is er geen leverancier of communicatiegereedschap dat niet XML ondersteunt of dat in de volgende release doet. Deze trend is reeds volop aanwezig en de algemene verwachting is dat deze nog lang zijn invloed zal uitoefenen.
3.3
Real-time
Real-time is een niveau van verwachtingen over reactietijd. Als een beeldscherm na een klik op een button niet binnen een fractie van een seconde reageert kan dat als traag worden ervaren. Doen we dat via de browser dan vinden we 1 à 2 seconden nog wel goed. Real-time besturingen van apparatuur spreekt over milliseconden reactietijd. In vroeger tijden waren computer processen duidelijk gescheiden in Batch en On-Line waarbij batch 's nachts werkte als niemand er last van had en on-line het werken met beeldschermen vertegenwoordigde, waarbij real-time gegevens worden verwerkt en antwoorden werden gepresenteerd. Met de steeds voortschrijdende technologie is de verwachting van veel mensen dat dingen sneller kunnen en ook moeten. Was vroeger 60 seconden wachten op het opstarten van Windows 3.1 nog acceptabel, nu moet dat met Win-XP eigenlijk wel in 15 seconden klaar zijn. Ook door het gebruik van mobiele apparatuur en de komst van GPRS en UMTS is de verwachting dat alles NU en SNEL moet plaatsvinden.
3.4
Web-enabling
De komst van het Internet en het World Wide Web heeft iedereen een idee gegeven over een Grafische user interface, die veel kan tonen (tekst, beeld, geluid, etc.) en toch simpel en makkelijk te bedienen is. Verder werkt de GUI ook nog via de beperkte bandbreedte van een telefoonlijn. Veel organisaties zien verwebbing als een manier om de kosten van werkplekken te reduceren pagina 4 van 18
Trendanalyse Datamanagement
De technologietrends in isolatie juni 2002
en als mogelijkheid om thuiswerken met centrale systemen te faciliteren. Dit alles leidt ertoe dat steeds meer organisaties deze web-interface als vereiste stellen bij de aanschaf van systemen en als basis voor het samenwerken met partners. Op dit moment zie je web-interfaces in allerhande apparatuur verschijnen, zoals printers, scanner en fotokopieerapparaten. Deze zijn via een netwerkaansluiting met een browser in te stellen en te onderhouden.
3.5
Kosten/baten
In het licht van de huidige stemming van de economie is in zeer veel organisaties de kosten/baten-analyse een primair instrument om investeringsbeslissingen te nemen. Zeker binnen de ICT geldt dat vele systemen als infrastructuur worden aangeschaft waarmee een potentieel vermogen wordt gecreëerd. De waarde van dit vermogen wordt pas duidelijk als het wordt uitgenut en is dan veelal niet te meten. Wat is bijvoorbeeld de waarde van een netwerkfax of het hebben van een nieuwe versie van het operating system van de server? In de databasewereld zijn er een beperkt aantal spelers, die grote databases kunnen herbergen. Enerzijds is er het Unix-platform met spelers, die komende vanuit de grote systemen proberen ook kleine omgevingen te bedienen, als IBM, Oracle, Sybase, etc.. en anderzijds is er Microsoft op het Wintel-platform, die oprukt naar steeds grotere (enterprise) systemen. Grote organisaties keizen voor hun Datawarehouse veelal voor IBM of Oracle.
3.6
CPU-power-groei
De wet van Moore laat zien dat CPUpower uitgedrukt in MIPS elke 18 maanden verdubbeld en totnogtoe blijft de toename intact. (Oorspronkelijk was de wet op 12 maanden gezet.) Dit betekent dat computerkracht beschikbaar komt voor steeds meer apparaten. De middenklasse BMW heeft er al meer dan 50 aan boord voor het regelen van allerlei besturingsprocessen en er zijn al volop chip-sets te koop voor het opvoeren van motorvermogen van auto's en motoren. De component Software neemt in steeds meer producten een grotere rol in. Ubiquitous Computing wordt hierdoor een bereikbaar doel. Hiermee wordt uitgedrukt dat steeds meer producten van computers worden voorzien, die in een netwerk kunnen samenwerken.
3.7
Storage-capacity-groei
Net als de cpu-capaciteit groeit ook de opslagcapaciteit in een gelijk tempo. Op dit moment wordt een middenklasse PC uitgeleverd met 40 tot 80 Gigabytes aan diskruimte. !0 jaar geleden waren dat nog Megabytes. Niet alleen disks worden groter maar ook de opslag op "gewone" chips binnen een computer nemen sterk toe. Dit gaat zo hard dat er in de databasewereld ook over in-memory oplossingen wordt nagedacht, om de prestaties op te voeren, door het elimineren van mechanische bewegingen en beperkingen van de diskdrives. pagina 5 van 18
Trendanalyse Datamanagement
De technologietrends in isolatie juni 2002
Een extrapolatie van de groeigetallen laten zien dat over 10 jaar iedereen de groei in muziektitels opgeslagen in MP-x formaat op een verloren hoekje van zijn PC(-equivalent) zal kunnen bijhouden. In het boek "The Age of Spiritual Machines; when computers exceed human intelligence" van Ray Kurtzweil wordt een moment bepaald waarop de home-PC de verwerkingscapaciteit van onze hersenen overschrijdt en hoe dat een impact kan hebben op onze samenleving.
3.8
Services/Middleware
Alle industrie-aandacht gaat op dit moment volledig uit naar web-services en middleware om systemen te koppelen. Integratie is het toverwoord van dit moment en services zijn daarbinnen een belangrijk concept. Binnen het rijtje: Hardware, Middleware en Software heeft Middleware een speciale functie. Middleware zijn onderdelen en systemen, die op zich geen functie vervullen, maar veelal functies mogelijk maken, Hierbij kunnen we denken aan operating systems, application servers, databases, messaging systems, integration brokers, etc.. Software-systemen worden gerealiseerd op basis van de aanwezigheid van deze middleware. Het begrip service is daarbij ontstaan uit de begrippen vanuit de Object object Oriëntatie. Een object vervult een bepaald gedrag, dat met interfaces naar buiten wordt aangeboden. Daar dit op een gegeven moment erg complex werd zijn er grotere onderdelen met interne samenhang bedacht en die worden dan componenten genoemd. Deze kunnen dan op een Component lossere manier aaneengeregen worden voor de uitvoering van allerhande taken. De volgende stap in deze evolutie zijn web-services, waarbij de WebService communicatie tussen onderdelen via SOAP-messages wordt geregeld en werken via internet-protocollen. Op deze manier worden stukken functionaliteit wereldwijd beschikbaar via een eenvoudig systeem van aanroepen. Zoals vaak klinkt dit eenvoudiger dan het in de werkelijkheid is. Echter er is een enorm momentum in de industrie om, gebaseerd op open standaards, functies aan te bieden en te gebruiken. De integratie tussen systemen van organisaties zal hierdoor een enorme vlucht kunnen gaan nemen, zeker in het licht van real-time werkingen door ketens van organisaties.
3.9
Metadata
Meta in een prefix dat bij gebruik in de informatietechnologie meestel "een onderliggende definitie of omschrijving" aanduid. Metadata in de Database-wereld wordt vaak omschreven als "gegevens over gegevens". Naast definities van structuren en relaties tussen structuren worden er ook gegevens over het gebruik en de inrichting opgenomen in metadata. Dit onderwerp wordt in een ander onderzoek uitgebreid toegelicht, dus daarom wordt hieraan verder geen aandacht meer geschonken
3.10
Handheld devices / Mobile & Wireless
In de wereld van mobiele communicatie worden handheld apparaten steeds belangrijker. Voor vele processen wordt er reeds lange tijd van handheld devices gebruik gemaakt. Hierbij kunnen we denken aan magazijntoepassingen, met laserscanners, etc..
pagina 6 van 18
Trendanalyse Datamanagement
De technologietrends in isolatie juni 2002
Naast de GSM, palmpilot, en handcomputers, worden combinaties van deze apparaten voorzien van always-online technologie als GPRS en UMTS. De trend is dan dus altijd bereikbaar en overal. Ongetwijfeld zal dit eerst door specifieke professionals en door jeugdigen worden opgepakt, alvorens het gemeengoed wordt. De droom is de martini-wereld, waar any-time, any place anyhow de real-time informatie te bereiken is. Het is de vraag of dit een breed gevoelde wens is, maar dat is erg cultureel bepaald. En wellicht dat de rattenrace ons voortdrijft in deze of vergelijkbare richtingen.
3.11
Grid Computing
Grid computing of het gebruik van een Computational grid is het toepassen van de capaciteiten van een reeks computers in een netwerk om gezamenlijk een enkel probleem op te lossen. Veelal zijn dit wetenschappelijke of technische problemen. Een bekend voorbeeld is het SETI (Search for Extraterrestrial Intelligence) @Home project waarbij duizenden personen de rekencapaciteit van hun PC in screen-saver-stand ter beschikking stellen voor het zoeken naar rationele signalen vanuit de radiotelescopen, die zoeken naar buitenaardse intelligentie. Grid computing vereist een opdeelbaar probleem dat in parallelle verwerking sneller tot een oplossing komt. Echter ook peer-to-peer oplossingen als Napster en Gnutella om gedeelde informatie uit te wisselen is een andere vorm van grid-computing. Hierbij zou de centrale opslag en verwerking een enorme infrastructuur hebben vereist en op de huidige manier is het met een minimale inspanning te realiseren. Zowel IBM, SUN als Microsoft steken veel onderzoeksinspanning op dit gebied. Zeker als er alom aanwezige computers zijn, is dit een uitstekende manier om deze ook goed te gebruiken.
3.12
IPv6
IPv6 (Internet Protocol Version 6) is het laatste level van het Internet Protocol (IP) wat deel uitmaakt van elk zelfrespecterend operating system. Op dit moment gebruiken wij IPv4 en daarbij is het probleem dat de internetadressen te kort worden voor alle computers en netwerken in de wereld. De lengte is 32 bits en dus zijn er 232-1 adressen voor computers om onderling te communiceren. In IPv6 wordt die 128bits, waarmee er een groot aantal adressen per m2 beschikbaar komen. Ook worden problemen rondom encryptie, beveiliging en prioritering van berichten veel beter opgelost. Het is een technologische trend, maar het is belangrijk je voor te bereiden op deze trend in de vorm van netwerkapparatuur die vroeger of later moet worden vervangen en dan IPv6compatibel moeten zijn.
pagina 7 van 18
Trendanalyse Datamanagement
De technologietrends in isolatie juni 2002
3.13
SAN/NAS/etc..
De hoeveelheid data die gegenereerd, opgeslagen en gebruikt wordt door een organisatie is in de laatste jaren enorm gegroeid.1 Informatie wordt bijvoorbeeld opgehaald van de Internet of gecreëerd door grote bedrijfsbrede applicaties zoals ERP en CRM. Ondanks compressie technologie zijn er steeds meer grote databestanden die opgeslagen moeten worden, bijvoorbeeld multimedia-bestanden met video-fragmenten. Ook de manier waarop gegevens worden opgevraagd verandert. Gegevens worden vaker gebruikt op afstand ('remote' usage) en "mobile" gebruikers eisen/verwachten 'real-time' of bijna real-time datasynchronisatie. Daar gegevensopslag complex wordt en open systemen en 'gemengde' platform omgevingen steeds meer voorkomen, worden keuzes rondom opslag van gegevens / opslagarchitectuur steeds belangrijker. Er zijn momenteel naast de traditionele opslag nog een aantal nieuwe methoden beschikbaar, namelijk SAN en NAS. Traditionele methode: Direct attached storage (DAS) De traditionele methode van gegevensopslag, DAS, houdt in dat de opslagcapaciteit direct aangesloten wordt op de computer of server. Pc's gebruiken harde schijf, Cd-rom's tape drives en floppy disks voor de opslag van data en bij servers worden meestal harddisks gebruikt. Er zijn een aantal beperkingen bij DAS. De data wordt over het LAN/ WAN vervoerd en deze heeft een impact op de prestatie van het LAN. Applicatie servers worden geclusterd rondom een applicatie of een groep applicaties. Echter sommige applicaties zijn meer data-intensief dan anderen. Hierdoor kan een deel van de opslagcapaciteit onderbenut blijven. In een DAS oplossing kan dit probleem alleen worden opgelost door een fysieke verbinding te leggen tussen de opslag van de verschillende servers. Onderhoudskosten bij DAS zijn hoog doordat elke server individueel moet worden behandeld bij dagelijkse onderhoud, back-ups etc. Ondanks de bovengenoemde nadelen blijft DAS de meest aantrekkelijke opslagmethode met name voor kleinere bedrijven. Dit komt door de lage kosten van schijven en de eenvoudige en kosteneffectieve uitbreidingsmogelijkheden. Storage area netwerk (SAN) Een SAN is een verzameling van opslagapparaten (bijv. databaseservers, applicatieservers) die aan elkaar aangesloten zijn via een apart netwerk en worden gebruikt door een groep cliënt servers. Het opslagnetwerk SAN wordt los van het LAN/WAN opgezet. SAN's zijn geschikt voor grote en complexe databases, waar behoefte is aan hoge beschikbaarheid, snelheid en gedeeld gebruik van bestanden en applicaties. Het is geschikt voor organisaties waar het een overtuigende business case kan worden gemaakt voor de hoge initiële investering. Bijvoorbeeld in organisaties waar geavanceerde e-business applicaties (transactionele applicaties) worden gebruikt met een globale 24x7 beschikbaarheideis. Met technologische ontwikkelingen is de verwachting dat kosten van SAN verder gaan afnemen. Omdat de behoefte aan betere methodes voor dataopslag steeds groeit en bereikbaarheidseisen hoger worden, zal er meer belangstelling komen voor SAN. Afhankelijk van behoefte kan er worden gekozen voor een centrale SAN of voor een aantal locale SANs aan elkaar verbonden via een super-san. Netwerk attached storage NAS is een tussenoplossing tussen DAS een SAN. Het heeft voordelen over DAS maar het is minder duur en minder complex dan SAN. In DAS wordt de data op de computer zelf opgeslagen. In SAN wordt de data in een separate netwerk van opslagapparatuur opgeslagen. De NAS oplossing bestaat uit een NAS opslagapparaat (NAS server) direct aangesloten op het 1
With take-up of e-commerce total enterprise data doubles every 9 months. Digital data will grow from 3000 PentaBytes in 2001 to 10000 PB in 2003 (Butler group Inc. 2001) pagina 8 van 18
Trendanalyse Datamanagement
De technologietrends in isolatie juni 2002
LAN/ WAN. De data wordt opgeslagen op de NAS server en wordt door de client-machine bereikt via het LAN/WAN. NAS biedt mogelijkheid tot delen van data en bestanden. Gebruikers krijgen toegang tot data zonder interventie van de server, deze leidt tot betere prestatie. Echter omdat de data over het LAN/WAN wordt vervoerd, het heeft een negatieve impact op WAN/LAN. NAS heeft de capaciteit om meerdere platforms te ondersteunen.. NAS apparatuur biedt opslag tot een aantal terabytes en kunnen worden gebruikt door enkele duizenden gebruikers. NAS apparatuur is eenvoudig uitbreidbaar en schaalbaar. Points of failure zijn verminderd waardoor robuustheid en betrouwbaarheid is hoger.
3.14
Agent Technology
De agent of intelligent agent is een zelfstandig opererend stuk software, dat zich soms zelfstandig kan verplaatsen over netwerken, zoals het internet. Dit soort software wordt ook wel met Bot of Robot aangeduid. Het wordt typisch gebruikt voor het verzamelen van informatie of het uitvoeren van taken. Op basis van informatie uit de buitenwereld (sensordata) worden dan zelfstandig acties ondernomen. Hierbij wordt dan vaak van een agenda gebruik gemaakt als sensordata. De Postvak-In-manager is een zo'n agentfunctie die vaak ingezet wordt om ongewenste berichten te weren, of om speciale type berichten een bewerking te geven (door naar SMS of beantwoorden met standaard-bericht; etc..) Ook zijn er agents die zelfstandig een aantal Internet-bronnen onderzoeken op bepaalde nieuws-items. In onderzoeksland neemt het MIT hier een vooraanstaande positie in en tijdens de internet hype was er bijvoorbeeld veel aandacht gericht op onderhandelings-agents die met behulp van onderhandelingsregels dan op veilingen gewenste goederen zo goedkoop mogelijk proberen in te kopen. Een andere droom is de agent die mij volgt en mijn berichtenverkeer selectief doorgeeft afhankelijk van de situatie. Dus bijv. mijn e-mail voorleest via de autoradio als ik toch in de file sta.
3.15
in-memory-dbms
Het is al even gemeld in eerdere passages. Door de daling van chipprijzen is het steeds beter mogelijk onderdelen van databases in geheugen te laden en de vragen dan in het geheugen af te wikkelen. Het is natuurlijk een speciale soort van caching, die de prestaties op kritisch punten kan verbeteren, door het elimineren van de vertragingen van communicatie met en de mechanische bewegingen van een disk of ander opslagapparaat. Het is slechts een technologietrend die onder water dingen mogelijk maakt zoals betere prestaties.
3.16
OO-dbms
Een object-oriented database management system (OODBMS) is een database-management systeem, dat het mogelijk maakt om objecten te modelleren en creëren. De aandacht die deze ontwikkeling een aantal jaren heeft gehad is sterk aan het afnemen. Toch worden er successen gemeld door de aanhangers in bepaalde niche-gebieden, maar voor dit onderzoek van weinig belang. pagina 9 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
4
Gegevenslogistiek met trends
4.1
Gegevenslogistiek algemeen
In dit onderdeel worden wat algemene trends en vragen beantwoord als: Hoe gaan vergelijkbare organisaties om met deze materie en welke ontwikkelingen zijn te verwachten? Daarna wordt per procesonderdeel een aantal ICT-ontwikkelingen in een verband gezet. De term Logistiek geeft aan dat er procesmatig wordt gewerkt, waarbij normen voor kwaliteit, efficiëntie en effectiviteit worden gehanteerd voor het inrichten van deze processen. Bij de processen kan een viertal gebieden worden onderscheiden: ·
Toelevering / Capturing o Meetmethodes o Vorm; betekenis o Homoniemen; synoniemen
·
Transformatie o o o o
·
Consistentie; compleetheid Fouten; controles Dubbele berichten Uitblijven van berichten
Archivering en Onderhoud o Modelleringvormen o Opslag o Prestaties; openingstijden
·
Ontsluiting o Vormen; papier; datamart; services; helpdesk o Centraal/decentraal o Standaard/speciaal
In een overalview is het van belang culturele en externe (overheids-)invloeden te beschouwen. In de werksituatie gaat privé en zakelijk steeds vaker vermengen. Werkplekken en werktijden liggen minder vast en we worden overspoeld met nuttige en overtollige informatie. Het effect is steeds vaker dat mensen pas dingen gaan (onder)zoeken als het direct nodig is. Dus just-intime en just-enough informatie wordt de norm de komende jaren. Mobiliteit en communicatiemiddelen bieden mogelijkheden en scheppen verwachtingen. De gemiddelde thuis-PC is vaak al completer en sneller dan de zakelijke PC op het werk. Mobiele oplossingen met UMTS of GPRS komen volop in het nieuws en de mogelijkheden zijn in hun isolatie vaak niet moeilijk en extreem duur, pas in de integratie en gedurende de onderhoudsfase komen de echte kosten en problemen naar boven.
pagina 10 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
De klanten van de WADI-gegevens krijgen dus gaandeweg hogere verwachtingen over bereikbaarheid en snelheid van informatie. De terugtredende overheid is een trend die al jaren aan de orde is, waarbij privatisering van diensten regelmatig voor komt. Zou het beheer van de WADI-database ook niet kandidaat zijn voor uitbesteding? Het is in ieder geval een model dat het overdenken waard is. Verenigd Europa komt stapje voor stapje dichterbij en de uitwisseling en integratie van informatie zal daarbij zeker een rol spelen. Allereerste zullen er standaards worden bepaald voor de uitwisseling van gegevens en daarna kan ook een meer integrale benadering worden mogelijk gemaakt. Door openheid en transparantie van de overheid worden steeds meer bronnen publiekelijk bereikbaar, zeker voor belangengroeperingen. Dit zal waarschijnlijk ook met de WADIgegevens aan de hand zijn. Hoe dit georganiseerd wordt is een issue voor de komende tijd, maar dat het internet daar een grote rol in speelt staan buiten kijf.
4.2
Gegevenslogistiek in andere organisaties
Er is geen heilig concept alleen een soort van gemeenschappelijkheid van oplossingen Veel organisteis zijn georganiseerd, zoals in het volgende plaatje:
Vanuit een reeks van productieomgevingen wordt een centrale opslag en archief gevuld en bijgewerkt. Op dit warehouse worden dan specifieke rapportages gemaakt en een klein aantal specialistische gebruikers toegelaten, die vrijuit vragen kunnen formuleren. De meerderheid van klanten krijgen toegang tot onderdelen van het centrale warehouse via datamarts of workgroup datawarehouses. Dit zijn extracties van de centrale. Hierop worden zogenaamde multidimensionale kubussen gedefinieerd, waarmee gebruikers door middel van tools als Business Objects, Inforay, Impromptu, etc.. een reeks van begrippen in verband kunnen brengen, dus het verloop van waterstanden in de tijd gezien, of per regio, pagina 11 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
of gemiddeld nitraatgehalte per regio, etc. De gebruikers kunnen dan naar eigen inzicht informatie over goed gedefinieerde begrippen combineren. Deze werkwijze en methode van modelleren is afgestemd op het gebruik van de gegevens. Zo is bij het Rijksinstituut voor Volksgezondheid en Milieu (RIVM), waar allerhande milieudata wordt opgeslagen gekozen voor decentrale opslag voor de diverse specialistische omgevingen. Hierbij zijn veelal meetnetten voor de diverse aspecten in gebruik. De integrale blik wordt dan licht gewaarborgd door middel van metadata (gegevens over gegevens). De ratio hierachter is dat alle onderzoeken intensief van de eigen gegevens gebruikmaken en dat integraal gebruik veel minder voorkomt. Als dat al voorkomt is het vaak in de vorm van rapporten en tabellen die dan worden bewerkt alvorens de publicatie plaatsvindt. Interessant is dat men werkt aan real-time gegevens via het internet. Een meetnet (bijv. luchtkwaliteit in het Botlek-gebied) wordt op dat moment "life" te volgen via de website van het RIVM. De platforms die bijna alle organisaties kiezen zijn gebaseerd op Unix en IBM of Oracle als DBMS-leverancier. In bedrijfsmatige omgevingen is Microsoft met hun SQL-producten een duidelijke groei aan het doormaken, waarbij kosten/baten de doorslag gevende factor zijn. De producten zijn minder compleet, maar voldoen zeker voor 90 tot 95% aan alle eisen en wensen die heeft ten aanzien van grote opslagomgevingen.
pagina 12 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
4.3
ICT-Trends per fase
4.3.1
Algemeen
Door een aantal trends in relatie te brengen met de gegevenslogistiek wordt duidelijk gemaakt hoe deze zijn invloed uitoefent. Niet alle trends zijn even helder qua toekomst en hebben op alle fasen uit de logistiek invloed. In de onderstaande tabel heb ik een weging gemaakt van trends in de diverse onderdelen van de gegevenslogistiek. Dit is een privé-mening toegespitst op het onderliggende rapport en gebaseerd op eigen waarnemingen in de markt en uit gesprekken die zijn gevoerd. Voor een betere afweging moet een preciezere afbakening worden gemaakt van alle begrippen en kan met een panel (Delphi-aanpak) een meer gewogen tabbel worden opgesteld. Daar was in de korte onderzoeksperiode geen tijd voor. De onderstaande tabel geeft een overzicht van trends gerelateerd aan de processen uit de datalogistiek.
Impact trend op gegevenslogistiek Trends XML Real-time Web-enabling Kosten/baten CPU-power Storage=cap. Services/Middleware Metadata Handheld devices Mobile/Wireless Grid-computing IPv6 Cultuur/verwachtingen SAN/NAS/etc.. Agent-technology Overheidsregulering in-memory-dbms OO-dbms
Transformatie Archievering/ Distributie Hardheid Capture/ Toelevering Onderhoud trend (1..10) 10 8 10 9 10 10 7 4 7 7 5 8 8 7 4 8 4 1 1..10
5 5 3 3 3 3 4 5 5 5 2 4 3 3 5 1 4 0
5 5 2 2 1 0 3 5 0 0 3 0 0 0 2 0 0 4
5 5 2 5 3 3 0 5 0 0 5 0 0 3 2 0 0 5
Score (AVG * hardheid)
5 5 5 3 4 3 4 3 5 5 3 4 5 3 5 5 4 3
Score 1..5
Door per fase de impact en de waarschijnlijkheid of hardheid van de trend in te schatten wordt met een gemiddelde impact en de hardheid een score opgesteld. Echter er zijn trends die in één fase van belang zijn en dus lager scoren, maar wel relevant voor het inrichten van WADI.
pagina 13 van 18
50 40 30 29 28 23 19 18 18 18 16 16 16 16 14 12 8 3
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
4.3.2
Toelevering / Capturing
Hiermee wordt de fase van het ontstaan van gegevens tot de aanlevering aan het centrale Datawarehouse aangegeven. Dit is niet altijd direct van belang voor WADI in het geval van bijvoorbeeld de waterschappen die dit proces grotendeels zelfstandig beheren. Het verkrijgen van data uit metingen en meetnetten zal in toenemende mate kunnen worden uitgerust met kleine apparaten, die zelfstandig voldoende en groeiende processing-kracht en opslag-capaciteit hebben. De bijbehorende kreet hiervoor is "Ubiquitous Computing", wat de alom aanwezige computers in allerhande apparatuur aangeeft. Deze apparaten kunnen ook vaker via wireless-netwerken worden aangesloten voor on-time verwerking van de gegevens in de centrale systemen. Het nieuwe IPv6 protocol is nodig om de overvloed van nieuwe apparatuur een eigen unieke identificatie te geven. Dit heeft impact op allerhande netwerkapparatuur voor vaste en wireless infrastructuur, die hierop moet zijn of worden voorbereid. Een ultieme vorm is dat elk meetpunt een self-containing meetstations is, die gezamenlijk in een Grid opereren, waardoor backup's onderling geregeld worden. Elke informatievraag kan dan real-time door dit Grid worden beantwoord. Deze techno-droom zal de komende periode van 5 jaar waarschijnlijk nog niet worden gerealiseerd. Met behulp van zelfstandig opererende software agents is het ook mogelijk om in een netwerk van meetstations-gegevens (het grid) te verzamelen, onderhoud te plannen, of queries uit te laten voeren. Wellicht kan SW-onderhoud dan automatisch worden uitgevoerd door deze bezoekende agenten. Een meer haalbaar scenario is dat meetpunten op basis van (web-)services worden opgezet, die actief vanuit de centrale worden ondervraagd over de gegevens en instellingen. Door meetstations web-enabled te maken kan vanuit de centrale een polling worden opgezet om de gegevens en status op te vragen. Deze trend is nu reeds te zien in allerhande moderne randapparatuur als copiers, scanners en printers die vaak al web-enable-de interfaces hebben. Daar er veel gegevens uit metingen in het veld worden opgeslagen is het goed mogelijk dat mobiele apparatuur met directe koppelingen (GPRS/UMTS/etc) in de informatievergarende functie in belang zullen toenemen. Mobiele oplossingen bieden andere oplossingen met andere processen en oplossingen, die zo hun weerslag hebben op de aanlevering, tijdigheid en consistentie van de gegevens in de centrale opslag. Hiermee wordt Real-time verwerking dus steeds meer een feit. De uitwisseling van gegevens tussen organisaties, systemen en zelfs softwareroutines wordt in toenemende mate gebaseerd op XML. De algemene verwachting is dat dit de komende jaren de algemene benadering wordt voor gegevensuitwisseling. Helaas is XML slechts de omhullende van een bericht. Op basis van XML kan de inhoud samen met de structuur van het bericht worden verstuurd. Uitbreidingen van berichten en structuren zijn dus eenvoudig. Helaas hebben we nog geen definitie voor de semantiek van berichten (wordt aan gewerkt) dus de definitie van standaarden en de betekenis van informatie (onderdeel van metadata) overdragen is vooralsnog mensenwerk. De metadata in de database geeft o.a. de structuur en onderlinge verbanden tussen gegevens weer. Dit moet bijvoorkeur in één lijn liggen met de XML-berichten die men wenst te ontvangen en versturen van respectievelijk de leveranciers en de klanten. Ongetwijfeld zijn er reeds allerhande communicatieberichten en -formaten in omloop. De verwachting is dat deze op termijn allen worden omgezet naar XML-geformateerde berichten. Hierbij moet de communicatie binnen de hele keten bij voorkeur gebaseerd zijn op één set standaard berichten, waarbij naast XML-syntax ook de semantiek moet worden vastgelegd. pagina 14 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
Hiervoor zijn ontwikkelingen á la BizTalk van Microsoft van groot belang. De aanlevering van gegevens zal dus XML-georiënteerd moeten kunnen werken, zonder de huidige situatie nu te blokkeren. Op basis van metadata van de database is het mogelijk om bij onderhoud conversies te genereren. Zeker daar er voornamelijk elementen en structuren zullen worden toegevoegd. Vooralsnog ontbreekt het aan open standaarden op dit gebied, zodat de grote spelers als Oracle, IBM en MS daarin een monopolie zullen behouden.
4.3.3
Transformatie
Gezien de ervaring met archivering en bedrijfszekerheid zijn deze onderwerpen geen onderdeel van deze trendanalyse. XML als trend heeft invloed daar er ook in de transformatie van gegevens en de beschrijving van gegevens XML-standaards van toepassing zijn. Ook voor de transformatie van gegevens zijn XML-standaards beschikbaar en de trend is dat alle ETL-gereedschappen (ETL = Extration, Transformation & Loading) volledig XMLgebaseerd kunnen werken. Traditioneel is de verwerking van gegevens naar en distributie uit het datawarehouse een batchgeoriënteerde aangelegenheid. Real-time-verwerking betekent dat ook de transformatie van deze gegevens naar de centrale opslag ook real-time zal geschieden. Hierbij zal een geleidelijk pad aannemelijk zijn, waarbij de behoefte aan real-time stukje bij beetje zijn weg zal vinden in de gehele keten van aanlevering tot distributie. Niet alles moet continue veranderen en het is soms ongewenst dat er veranderingen plaatsvinden. Zo is dit bijvoorbeeld het geval tussen het produceren van rapportages over hetzelfde domein. De trend die bij de klant waarschijnlijk wordt is het verschuiven van werkuren, waardoor er regelmatig mensen eerder beginnen of veel later stoppen. Thuiswerken vereist ook specifieke infrastructuur en kan grote invloed hebben op de openstellingsuren.
4.3.4
Archivering en Onderhoud
XML zal ook zijn weg weten te vinden naar de databases. Vooralsnog is er nog weinig invloed van pure-XML-DBMS-sen als Tamino van Software-AG. De grote leveranciers worden in toenemende mate XML-enabled, waarbij er twee variaties van mogelijkheden zijn: ten eerste zijn het vaste XML-structuren, waarbij de XML-data 1-op-1 te relateren is aan tabellen en relaties uit het relationele model en de tweede benadering is de benadering, waarbij in een open structuur (Blob, etc.) een XML-stream wordt opgeslagen. Het bevragen van de XML-database kent nog geen standaard. Elke grote leverancier heeft zo zijn eigen extensies boven op SQL gemaakt. Oracle, IBM en Microsoft zijn in aflopende volgorde volwassen met XML bezig op hun eigen DBMS-platform. Oracle heeft bijvoorbeeld in de vorige versie 8i al mogelijkheden om XML in een blob-structuur op te slaan en te bevragen. In de laatste release 9i wordt ook de gestructureerde opslag mogelijk. IBM werkt nog aan deze laatste optie en Microsoft heeft nog geen eenduidig omschreven beeld, maar kan het ook wel opslaan en ontsluiten. Er is een trend die niet echt van de grond komt met betrekking tot Object georiënteerde DBMS-sen (OODBMS). Zeker voor grote schaal databases worden deze niet gezien als een oplossingsrichting. Alleen in niche-omgevingen worden enthousiaste verhalen gehoord, maar de bladen en goeroes spreken er niet echt lovend over als ze er al over spreken.
pagina 15 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
Het real-time beeld van de gegevensverwerking zal grote impact geven op de inrichting en keuzen voor het platform. Het creëren van back-up’s moet zorgvuldig worden ontworpen en bewaakt in een continue veranderende databasesituatie. De groei van processing-kracht, opslag-capaciteit en bandbreedte voor gelijkblijvende prijzen maakt het realiseren van steeds snellere systemen mogelijk, dat wordt in de praktijk weer gecompenseerd door stromingen om veel meer en intensiever en rijkere informatie op te slaan. Zo wordt er bij call-centers en CRM-systemen al aan gedacht om gesprekken in MP3formaat op te slaan, zeker waar deze gesprekken juridische waarde hebben. De trend van in-memory-databases is van groot belang voor deze prestaties. Met de daling van chipprijzen wordt het mogelijk vele mega-bytes aan gegevens in het werkgeheugen van computers te houden. Door nu veel geraadpleegde tabellen te laden in het geheugen kan dit de prestaties enorm verbeteren. Meta-data kan worden gebruikt om deze kern-set van tabellen en gegevens te identificeren. Het kan dus van belang zijn die ontwikkeling van in-memorydatabases bij de leveranciers van de grote DBMS-sen goed te volgen. Grote leveranciers (Oracle/IBM) hebben als visie Scaling-up om grotere databases te herbergen, terwijl Microsoft een farmingout-strategie volgt, waarbij een cluster van goedkopere systemen dezelfde functie vervuld. Beide benaderingen hebben in specifieke gevallen voordelen, echter het vereist een goed inzicht in de structuur en het gebruik van gegevens om te bepalen wat de "beste"oplossing is. Het plaatje bij deze tekst geeft aan dat de kosten-batenanalyses duidelijke voordelen van de laatste optie (MS) laten zien. Echter in de geïnterviewde organisaties was een duidelijke om keuze voor de grote gevestigde database-leveranciers te werken in de komende periode. MS heeft een visie waarbij men de tuning van de database ook dynamisch maakt. Het wordt dan een kwestie van installeren van de database en het toewijzen van servers en de rest gebeurt automatisch op basis van statistiek uit de metadata en door middel van een autonoom proces (agent-technologie). Hierdoor wordt aanzienlijk bespaard op database-administratoruren. We weten dan ook niet meer wat er aan de hand is als er opeens een andere performance ontstaat door een interne reorganisatie en de vraag is of dat wenselijk is. Metadata (gegevens over gegevens) is bij toenemende complexiteit en intensiever gebruik van toenemend belang. Niet alleen de structuren en onderlinge relaties worden hiermee transparant en communiceerbaar, maar ook het daadwerkelijk gebruik kan worden geanalyseerd, wat voor de prestaties en optimalisering van groot belang is. De databaseadministratie heeft dus een belangrijke rol in deze analyses en het aangeven van de grens tussen standaardrapportages en specifieke meer free-format-queries. Trends in opslag worden aangeduid met termen als DAS, SNA of NAS. Op dit moment worden opslag apparatuur direct aan de computers verbonden. Dit wordt aangeduid met "Direct Attached Storage" of DAS. Dus in cluster en netwerken moeten back-up's van decentrale systemen worden georganiseerd en onderhoud is specifiek voor elk type apparaat. Een "Storage Area Network" of SAN is een verzameling van opslagapparatuur (bijv. database-servers, applicatie-servers) die aan elkaar gesloten zijn via een apart netwerk. De opslagnetwerk SAN wordt los van het LAN/WAN opgezet. SAN's zijn geschikt voor grote en complexe databases, waar behoefte is aan hoge beschikbaarheid, snelheid en gedeeld gebruik van bestanden en applicaties.
pagina 16 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
"Netwerk Attached Storage" of NAS is een tussenoplossing tussen DAS een SAN. Het heeft voordelen over DAS maar het is minder duur en minder complex dan SAN. In DAS wordt de data op de computer zelf opgeslagen. In SAN wordt de data in een separate netwerk van opslagapparatuur opgeslagen. De NAS oplossing bestaat uit een NAS opslagapparaat (NAS server) direct aangesloten op het LAN/ WAN. De data wordt opgeslagen op de NAS server en wordt door de cliënt servers bereikt via het LAN/WAN. NAS biedt mogelijkheid tot delen van data en bestanden. Gebruikers krijgen toegang tot data zonder interventie van de server, deze leidt tot betere prestatie. Echter omdat de data over het LAN/WAN wordt vervoerd, het heeft een negatieve impact op WAN/LAN. NAS heeft de capaciteit om meerdere platforms te ondersteunen, biedt opslag tot een meerdere terra-bytes en kan worden gebruikt door enkele duizenden gebruikers. Het is in de infrastructuur in ieder geval de moeite waard om een gedegen overweging te maken welke opslagarchitectuur van belang is. 4.3.5
Distributie
Vrijwel alle datawarehouses zijn georganiseerd rond een centraal datawarehouse met een reeks van decentrale datamarts waarbij de informatiekubussen worden gebruikt door de gebruiker om meerdere soorten gegevens tegen elkaar uit te zetten en te vergelijken. Er is een ontwikkeling gaande waarbij het mogelijk wordt om dan weer virtuele kubussen samen te stellen op basis van een verzameling lokale kubussen. Dus decentrale datamarts worden dan virtueel weer in één plaats samengebracht. Dit lijkt mij natuurlijk ook van belang om externe bronnen te combineren met de eigen gegevens. Op deze manier zouden de weergegevens van het KNMI en de emissiegegevens samen met waterkwaliteit in één view kunnen worden samengebracht. De efficiënte opslag van gegevens is niet altijd effectief en begrijpelijk voor gebruikers. Daarom zal er voor de diverse klanten data-mining-kubussen worden opgezet om deze 80% vragen flexibel in te kunnen vullen zonder zwaar op de performance van de centrale database te drukken. SW-Gereedschappen voor deze kubussen zijn tegenwoordig uitgerust met allerhande web-based uitgangen, zodat deze via allerhande apparatuur kunnen worden opgevraagd en weergegeven. De modellering van de gegevens wordt geoptimaliseerd voor het doel van deze onderdelen. De datamarts moeten snel gegevens in een reeks van combinaties en samenstellingen kunnen produceren. De centrale database moet de gegevens transparant opslaan en de prestaties kunnen leveren voor het laden en opleveren van vaste rapporten. Deze modelleringmethoden zijn standaard en voorlopig nog niet aan verandering toe. Als ontwikkeling is in de ontsluiting van gegevens het intra- en internet een must die alle leveranciers van dit soort gereedschappen steeds meer ondersteunen. Plaatjes en rapporten worden in een "downloadable"-formaat gepresenteerd en de echte kenners kunnen de drilldown-gegevens in pagina's (XML) of andere formaten ophalen. Het thuiswerken is een vaker voortkomend fenomeen, zodat de toegang vaker beschikbaar zal worden gesteld via de publieke infrastructuur als het Internet of via lage snelheidsmedia als telefoonverbindingen. Verder worden mobiele applicaties (handhelds) in toenemende mate mogelijk zowel voor de aanlevering van gegevens als de opvraging. De uitlevering dient op maat naar de gebruiker te worden aangeboden. Voor een bepaalde categorie van gebruikers zou het mogelijk betekenen, dat deze gegevens in allocaties of op eigen websites willen kunnen presenteren. Dan kan het ontsluiten met webservices een aangewezen weg zijn. Op basis van en herkenning van de aanvragende partij en de vraag (query) zullen er antwoorden op basis van XML/SOAP worden teruggestuurd.
pagina 17 van 18
Trendanalyse Datamanagement
Gegevenslogistiek met trends juni 2002
De komst van XML waarbij meer dynamische opslag mogelijk wordt en XML-queries nodig worden, kunnen wel invloed hebben, echter op dit moment is daar nog geen duidelijke structuur in te onderkennen en de strijd om de standaards wordt volop gestreden. Duidelijk is echter wel dat de grote DBMS-leveranciers dit gebied zullen domineren. De volgorde van invloed is: 1. Oracle; 2. DB2-IBM en: 3. SQL-server van Microsoft. Trends die men kan onderkennen zijn steeds meer real-time laden en beschikbaar stellen van gegevens. Deze snelheid van verwerken wordt steeds beter mogelijk met voortschrijdende technologie en heeft zeker invloed op de technische architecturen voor de komende jaren. De stellingname uit de opdracht is dat de WADI-gegevens aansluiten bij de werkprocessen van de klanten. Dit zal ongetwijfeld voor de eerder genoemde 80% zo zijn. Het vraagstuk spitst zich dan toe op de specialistische vragen. In ander organisaties worden veel gegevens verzameld in het kader van CRM en Tracking&Tracing van goederen. Voor de analyse van specifieke vragen is er dan veelal een soort tweedelijns helpdesk die dit soort vragen afhandelt en tevens sturing geeft aan de ontwikkeling van de database daar de "nieuwe vragen" een nieuwe ontwikkeling in de database kunnen triggeren. Ook bij de combinatie van meerdere bronnen moeten experts in actie komen om de precieze betekening van de éne en de andere gegevens in samenhang te kunnen brengen. De inrichting van de ontsluiting kan op vele manieren, van papieren of digitale rapporten tot vrije toegang tot de database. Idealiter kan iedereen zich zelf helpen zonder tussenkomst van helpdesk of deskundige en voor 80% van de vagen is dat ook wel het geval. Door middel van metagegevens over de vragen/queries is het ontwikkelen van standaardrapporten op basis van veel gesteld vragen te ontdekken. Wat veelal niet gebeurt is het opheffen van rapportages, maar dat kan net zo belangrijk zijn als het nieuw aanmaken, zeker als er onderhoud op de "oude" structuren en rapporten plaatsvindt. Een aantal specialisten (ontdekkingsreizigers) kunnen vrij browsen door de database. Dan blijft er natuurlijk een categorie gebruikers zonder voldoende kennis en/of autorisatie die via een helpdesk vragen kunnen stellen of begeleid kunnen browsen.
pagina 18 van 18