Voorstel Aquarama,de Route naar Realisatie
Inhoud
Pagina
1.
Inleiding
2
2.
Resultaat inventarisatie wensen
2
3.
Beschouwing van de verschillende opties
3
3.1
Het decentrale model
4
3.2
Het centrale model
6
4.
Wat doen de grote leveranciers
7
5.
De keuze voor Autonomy nogmaals bekeken
7
6.
Uitwerking decentrale model
8
7.
Kostenraming
9
8.
Vervolgstappen
9
9.
Informatiebronnen
10
Advies Aquarama
~1~
25 augustus 2008
1. Inleiding
Aan Joop van Otterloo van Cemotion is gevraagd het advies in het eerste haalbaarheidsonderzoek “Van lezen naar zappen’ (ref. 1) betreffende de ontwikkeling van het beheer en de uitwisseling van digitale informatie op het gebied van water te beoordelen. Daarbij is de vraagstelling om de daarin als enige geboden oplossing van de compleet beoordeelde , maar kostbare oplossing ‘Autonomy” (ref. 2) af te zetten tegen mogelijke alternatieven gegeven de ontwikkelingen op search engine gebied op middellangere termijn. daarbij komt naast Autonomy een groot aantal andere spelers op de markt inclusief een aantal open source aanbieders.
Besloten is, dat allereerst met de initiatiefnemers STOWA, NWP, DGW, UNIE van Waterschappen en Leven met Water gepraat zou worden om tot een inventarisatie van wensen en randvoorwaarden te komen. Daarbij zij aangetekend, dat deze inventarisatie gedurende de eerste haalbaarheidsstudie te veel gericht is geweest op een gewenste uitkomst, met name de Autonomy oplossing.
2.
Resultaat inventarisatie wensen en randvoorwaarden Uit de gesprekken (ref. 3) kwamen op hoofdlijnen de volgende wensen naar voren:
1.
Digitaal informatiemateriaal omvat rapportages, presentaties, video- en foto-materiaal en combinaties hiervan (rich media bestanden);
2.
De wens tot samenwerken in een ten dele afgeschermd domein onder de titel Aquarama;het moet mogelijk zijn om een gedeelte van het informatiemateriaal voor buitenstaanders af te schermen;.
3.
De informatie in het systeem wordt zodanig intelligent geïndexeerd, dat het zelf moeten meegeven van zgn. metatags en/of schrijven van samenvattingen niet noodzakelijk is;
4.
Onderkend wordt dat gekeken moet worden naar de sociale en culturele (gebruikers)randvoorwaarden om een dergelijke opzet te laten slagen. Bij systemen zoals de STOWABASE en de Hydrotheek blijkt dat de STOWA zelf veel eigen inspanning moet plegen om deze collectief gedachte informatiebestanden actueel te houden. Men veronderstelt dat dit samenhangt met het bedieningsgemak, maar wellicht is het ook de attitude (proactief delen van informatie);
5.
Bedieningsgemak van het systeem. Een vinkje plaatsen zou voldoende moeten zijn om informatie klaar te zetten voor het Aquaramasysteem. Het beeld: “informatie wordt bij de voordeur van een site neergezet, de robot van het Aquaramasysteem haalt deze informatie op en het Aquaramasysteem zorgt ervoor dat geïnteresseerden de informatie op hun verzoek bezorgd krijgen;
6.
Het deelnemen aan Aquarama mag voor de deelnemers geen grote extra inspanning vereisen. Bestaande sites vergen al veel onderhoud. Idealiter zou de extra inspanningen voor het vullen van het Aquaramadeel tot een minimum beperkt moeten blijven.
7.
Aan Aquarama moet kunnen worden deelgenomen zonder grote ingrepen in de ICT situatie van de deelnemers, zoals de noodzaak tot installatie van software op PC’s, servers, e.d.
8.
Forse investeringen bij de start, maar vooral jaarlijkse grote onkosten voor licensies en onderhoud zijn onwenselijk, gezien te verwachten ontwikkelingen op de markt met veel open source programma’s en internetontwikkelingen.
De vraag verbreedde zich van het mogelijk inzetten van een zgn. enterprise search engine (te gebruiken op een centrale server of binnen het netwerk van een company) zoals Autonomy naar de mogelijkheden van internet search engines (te gebruiken via de websites van de deelnemers).
Advies Aquarama
~2~
25 augustus 2008
Op basis van de inventarisatie en de aanvulling hierop van Job Corsmit (TAUW) (ref. 4) is aan Cemotion verzocht de volgende vragen te benatwoorden:
1.
Is het mogelijk dat de informatie binnen de website van de deelnemer blijft, echter voor het Aquarama systeem in een apart gedeelte (een zgn. digitale uitschuifla, waar de zoekmachine in mag snuffelen) wordt klaargezet en dat een intelligente internet zoekmachine deze informatie indexeert?
2.
Is het mogelijk daarbinnen onderscheid te maken tussen informatie die door iedereen gevonden moet kunnen worden en informatie, die alleen na een inlog door de deelnemers gevonden wordt?
3.
Wat doen de grote leveranciers Google, Microsoft en IBM op dit terrein en in hoeverre zouden deze bereid zijn een pilot op te zetten binnen de Nederlandse waterwereld?.
3.
Beschouwing van de verschillende opties
Er kan onderscheid gemaakt worden in twee modellen: 1.
Het centrale model; daarbij worden alle aquarama bestanden naar een centrale server gebracht en vandaar uit via een enterprise search engine ter beschikking gesteld aan de gebruikers; Autonomy maakt met de zogenaamde enterprise search engine gebruik van het centrale model. Een enterprise search engine wordt gekenmerkt door het feit dat deze search engines worden toepast binnen de “muren” van een organisatie op de eigen servers. Zou Autonomy als middel voor Aquarama worden gekozen dan houdt dat in dat de deelnemers hun informatie moeten uploaden naar een centraal systeem. Overigens is Autonomy niet de enige leverancier van enterprise search engines (zie voor een uitputtend overzicht ref. 5 en 6).
2.
Het decentrale model; daarbij blijven de aquarama-bestanden op een speciaal gedeelte van de website van de deelnemers staan. Aquarama krijgt een eigen homepage op internet en vanaf deze homepage doorzoekt een internet search engine gedeeltes van de sites van de aangemelde deelnemers en wordt een kopie ter beschikking gesteld aan de gebruikers.
Het is van belang voor het advies de modellen tegen elkaar af te zetten. Zoals zal blijken is het decentrale model qua kosten en andere eigenschappen aantrekkelijk. Daarom als eerste dit model.
Advies Aquarama
~3~
25 augustus 2008
3.1
Het decentrale model
Figuur 1 Het decentrale model
Eigenschappen 1.
Gedeeltes van de sites van deelnemers, de zgn. uitschuiflades worden geïndexeerd door een dedicated search engine, te bereiken vanaf de gemeenschappelijk homepage Aquarama (bijvoorbeeld http://www.aquarama.nu/). Voor de herkenbaarheid zouden deze gedeeltes url’s moeten hebben als: www.aquarama.levenmetwater.nu , www.aquarama.nwp.nu, www.aquarama.stowa.nu , etc. Uiteraard is dit afhankelijk van het al of niet handhaven van de naam Aquarama. De Homepage Aquarama (www.aquarama.nu) zou verder gebruikt kunnen worden voor informatie over de deelnemers, hoe deel te nemen, etc.
2.
Het plaatsen van informatie binnen de uitschuiflades is een bewuste handeling door de deelnemers, bij voorkeur door een vinkje te plaatsen. Daarmee verklaart men, dat het bestand interessante informatie bevat voor de doelgroep en deze informatie rechtenvrij ter beschikking te stellen aan de doelgroep. Men kan er voor kiezen om de gehele site van een deelnemer te laten indexeren, maar de kans op vervuiling van informatie is dan aanwezig.
3.
Iedere deelnemer kan zijn of haar uitschuiflade naar eigen inzicht inrichten.
4.
Het is aan de deelnemer om metatags/vlaggetjes/kernwoorden en/of korte samenvattingen bij de digitale informatiebestanden, e.d. naar eigen inzicht aan de informatie mee te geven. Anders gezegd het is aan de deelnemer de afweging te maken tussen het beter gevonden worden door de search engines en de mate van inspanning, die men hiervoor over heeft.
Advies Aquarama
~4~
25 augustus 2008
5.
Er is een beheerorganisatie nodig, die de Home page van Aquarama op een aantal niveau’s beheert; t.w.
6.
a.
Onderhoud dedicated internet search engine en home page;
b.
Beheer van de Helpdesk.
De internet search engines worden steeds slimmer en zijn nog volop in ontwikkeling. (ref. 7 en 8). Op dit moment is het de trend dat ontwikkelaars de Google indexen gebruiken om daar bovenop intelligentie te zetten in de vorm van zoekwolken, visualisaties, e.d. (In dit verband is heel belangrijk om na te gaan hoe goed een site wordt geïndexeerd, anders kan niet van deze ontwikkelingen – veelal in de open source sfeer - geprofiteerd worden).
7.
Het model is makkelijk met andere deelnemers uitbreidbaar.
8.
De kosten zijn te overzien, bestaande uit het onderhoud van de centrale homepage Aquarama; het opnemen van deelnemers in het concept en het uitbreiden van de sites van de deelnemers met een Aquarama deel.
9.
Dat het nu al kan werken is te zien onder de volgende url: http://waterinthenetherlands.topicle.com/. De search engine van Topicle is een zogenaamde dedicated search engine. Daarbij wordt opgegeven om alleen een bepaald aantal websites te gaan indexeren en zoeken en wel op de websites van de aangesloten deelnemers, zoals NWP, Leven met Water en STOWA. Als in Google de term Bagger wordt ingevoerd, krijg je 20.000 hits, echt bagger dus. Als je met een dedicated search engine dat doet krijg je een beperkt aantal relevante hits van de aangesloten waterpartners.
De nadelen van het decentrale model •
Het model voorziet niet in het kunnen afschermen van informatie achter een inlog. Dat is binnen dit model uitermate moeilijk te realiseren. o
Een internet search engine kan niet zomaar achter een inlog “kijken”;
o
Het is niet mogelijk (omdat de informatie op verschillende servers en binnen verschillende domeinen staat) aan de deelnemers één login te verstrekken, waarmee zij toegang hebben op alle besloten delen van de uitschuiflades. M.a.w. als er 10 deelnemers zijn, dan is er sprake van 10 verschillende logins voor de betrokkenen. Het universele individuele internet paspoort is nog in ontwikkeling.
•
Er moet genoegen genomen worden met de kwaliteit, die internet search engines op dit moment bieden. Maar naar verwachting zitten hier de snelle ontwikkelinmgen richting semantische zoekmachines.
Advies Aquarama
~5~
25 augustus 2008
3.2
Het centrale model
Figuur 2 Het centrale model
Eigenschappen
1.
Alle deelnemers plaatsen hun informatie op een deel van de Aquaramaserver; hoe makkelijk dat gaat (bijvoorbeeld door een eenvoudige upload) is afhankelijk van de eisen die het centrale systeem stelt;
2.
Een centrale homepage Aquarama geeft toegang op deze Aquaramaserver, die vrij toegankelijke en besloten delen kent.
3.
In dit model kan wel volstaan worden met een “single login” voor elke deelnemer op de besloten delen. In het centrale beheerssysteem is bekend, welke rechten elke deelnemer heeft (bijvoorbeeld redacteur met mutatierechten, deelnemer met alleen maar bekijk- en downloadrechten, etc.).
4.
Na de inlog worden de zoekresultaten uit de “besloten” delen zichtbaar.
5.
De zoekmachine kan voor het eigen doel in hoge mate worden aangepast.
6.
Er is een beheerorganisatie nodig, die de Aquarama server op een aantal niveau’s beheert; t.w. a.
Technisch (updates, beveiliging, software, etc.).
b.
Onderhoud enterprise search engine.
c.
Beheer (Helpdesk, rechten, content en inrichting). Bovenstaande zaken kunnen ook voor een deel worden uitbesteed.
Advies Aquarama
~6~
25 augustus 2008
7.
Er is een afsprakenstelsel nodig over wie vanuit de deelnemende organisaties de redactierechten op de Aquarama server mogen hebben.
8.
De kosten zijn aanzienlijk en bestaan uit: a.
De harde kosten voor de ICT infrastructuur (webservers, licentiekosten voor de enterprise search engine);
b.
Het oprichten van de Aquarama beheerorganisatie;
c.
Daarnaast zijn investeringen nodig om het systeem te “verkopen”, evangelisering, voorlichting, etc.
4.
Wat doen de grote leveranciers
In de afgelopen maanden is contact gezocht met Microsoft, Google en IBM. IBM is benaderd via de contactpersoon van NWP. Microsoft is benaderd via persoonllijke contacten. Met Google is geen contact gekregen.
Noodgedwongen is via andere kanalen (o.a. ref. 10, 11, 12) bekeken wat de ontwikkelingen bij deze leveranciers zijn. Het is belangrijk hierbij in acht te nemen dat de grote leveranciers actief zijn met zowel enterprise als internet search engines.
Microsoft heeft naast Sharepoint (het samenwerkingsplatform) onlangs het enterprise search engine produkt ‘Search server 2008’ gelanceerd. Het product is gratis en Microsoft lijkt hiermee de strijd met de topspelers zoals Autonomy, Conveo en Fast aan te gaan. De engine is goed ontvangen (ref. 13). Het interessante van dit produkt is dat ook IBM formats geïndexeerd worden. Zoals bekend is Google de topspeler op Internet. Google heeft een groot aantal tools (Google Search Appliances), die als enterprise search engines kunnen worden ingezet.
IBM heeft een groot aantal produkten (onder de vlag IBM websphere), die binnen het centrale model kunnen worden ingezet. IBM is minder actief op het internet zelf.
Kijkend naar de grote leveranciers moet worden geconstateerd dat zij als concurrenten gezien moeten worden van Autonomy.
5.
De keuze voor Autonomy nogmaals bekeken
Autonomy is nog steeds de topspeler in de enterprise search engine wereld. Het is echter een zeer duur product. De oorzaak hiervoor is dat het nemen van een licentie op Autonomy betekent het nemen van een aantal licenties, die onzichtbaar deel uitmaken van de Autonomy omgeving. In het oorspronkelijke advies zijn ook een groot aantal bijkomende kosten buiten de beschouwing gebleven. Hierbij moet gedacht worden aan consultancy, het dimensioneren van Autonomy voor het gewenste doel, opleiding, het stichten van de ICT infrastructuur, het onderhoud, etc.
Dat de universiteitsbibiotheek van Utrecht (ref. 14) voor dit product gekozen heeft is logisch omdat een bibliotheek als primaire taak het ontsluiten van informatie heeft dus een hele groep mensen zorg kan dragen voor een succesvolle implementatie. Een kleine prijsvergelijking: •
Autonomy kost kaal: € 290.000,- en daarna op jaarbasis € 45.000,
Advies Aquarama
~7~
25 augustus 2008
•
Een Google search appliance begint bij € 30.000.
•
Zylab, een zich goed ontwikkelend product, zit ook in de range van € 30.000. (www.zylab.nl). Bij Tauw wordt hier serieus naar gekeken als alternatief voor Autonomy.
6.
Uitwerking decentrale model
In de discussie met de stuurgroep op 12 juni j.l. over de verschillende modellen heeft de stuurgroep zich op het standpunt gesteld dat alle aan te bieden informatie binnen Aquarama in beginsel openbaar is en dat daarom het decentrale model in de Aquarama opzet kan volstaan. (zie paragraaf 3.1). Besloten is het decentrale model nader uit te werken.
Figuur 3 uitwerking decentrale model
Eigenschappen •
Alle aangeboden informatie (rapporten, foto’s, video’s e.d.) in Aquarama is openbaar.
•
De informatie blijft op de site van de deelnemers, maar wordt aangeboden in het zgn. Aquaramadeel.
•
De aangesloten aanbieders maken zelf uit welke informatie zij op deze wijze beschikbaar willen stellen. De kwaliteit van het zoekresultaat wordt in deze situatie bepaald door het informatieaanbod en niet door de “intelligente” search engine.
•
De search engine (een aangepaste Google) indexeert de inhoud van deze Aquaramadelen en maakt deze voor de waterwereld toegankelijk.
•
De home page van Aquarama zal mogelijk via Waterland worden aangeboden.
Advies Aquarama
~8~
25 augustus 2008
Wat moeten de deelnemers doen? •
In de eigen website dient een folder/map/directory Aquarama te worden aangemaakt;
•
Deze folder dient minimaal een substructuur te kennen in de subfolders: foto’s, video’s, documenten. Hoe geavanceerd men verder het Aquaramadeel van de website wil maken is ook aan de deelnemer;
•
De map Aquarama moet via internet toegankelijk worden gemaakt via de url’s: www.aquarama.levenmetwater.nu,
Fout! De hyperlinkverwijzing is
ongeldig.www.aquarama.stowa.nu, www.aquarama.nwp.nu, etc. Bovenstaande is noodzakelijk om te voorkomen dat de search engine de gehele site van een deelnemer indexeert i.p.v. alleen de aquaramadelen. •
Het is onvermijdelijk om aan video’s en foto’s e.d. bij het plaatsen in het Aquarama deel extra informatie te moeten meegeven. Een search engine indexeert vooralsnog niet de foto of de video zelf , maar de bijbehorende omschrijving.
•
Omdat rapporten, e.d. zelf wel in de tekst veelal metadata bevatten (auteurs, titel, etc.) is het meegeven van nieuwe metadata niet noodzakelijk; tenzij, en dat is aan de deelnemer, men een rapport wil verbinden aan bijvoorbeeld projecten, thema’s, etc.
•
Alle aangeboden informatie binnen Aquarama (behalve de foto’s en de video’s) behoort als Pdf te worden aangeboden; het Pdf formaat is namelijk universeel “leesbaar”.
•
Aan de webredacteuren van de “eigen” website moet een tool worden aangeboden, die hen in staat stelt op een eenvoudige wijze informatie (liefst via een keuze menu) binnen zowel de eigen website als het Aquaramagedeelte te kunnen publiceren.
•
Het moet mogelijk zijn voor de webredacteuren om aan de multimedia bij publicatie een omschrijving mee te geven.
Wat moet de centrale beheerder doen? •
Het opzetten c.q. aanbieden van de (homepage Aquarama + evt. Subpagina’s); de inhoud hiervan kan bestaan uit: hoe werkt het?, overzicht van de deelnemers, hoe aan te melden als deelnemer, de voorwaarden, etc.
•
Het “ontwikkelen” en aanbieden van de Google customized internet search engine;
•
(Eventueel) het laten ontwerpen van een beeldmerk Aquarama.
Vooralsnog wordt NWP geacht het centrale beheer en de eindredactie te gaan leveren, omdat dat het beste bij de positionering en missie van deze organisatie past.
Advies Aquarama
~9~
25 augustus 2008
7.
Vervolgstappen 1.
Het opzetten van de projectgroep Aquarama, bestaande uit NWP (projectleiding, communicatie, Waterland, adviseur). Deze projectgroep zal rapporteren aan de stuurgroep Aquarama (Leven met Water, NWP, STOWA).
2.
8..
`
Het informeren en adviseren van de webredacties en de webbouwers van de deelnemers.
3.
Het andere partijen geinteresseerd maken van deelname in het initiatief.
4.
Het maken van een werkende demo op basis van het decentrale model.
Informatiebronnen
1.
Van lezen naar zappen, voorstel voor versterken van communicatie binnen de watersector.
2.
Virage VS Archive Product Brief.
3.
Gespreksverslag en aanbevelingen, 20 februari 2008.
4.
Gespreksverslag met Job Corsmit (Tauw), 20 februari 2008
5.
Enterprise search, vol. 4, 2008. Link
6.
Search tools for websites and intranets. Link
7.
Conference papers World Wide Web 2008, april 21 – 25, Beijing. Link
8.
Altsearchengines; www.altsearchengines.com, The top hundred 2008
9.
Contactpersoon IBM, Bram Havers, IT Architect Integration & Water Management.
10.
Research.microsoft.com
11.
De onmisbare Google Gids, uitgave 2008, Chip Special
12.
Papers SIGIR’07; Industry event: search, 23 juli 2007, Amsterdam (link)
13.
Microsoft the latest disruptor in Enterprise search, Forrester Group, November 6 2007.
14.
Van PVE via RFI langs POC en RFQ naar finish. Eric Sieverts en Monique Teuber. InformatieProfessional | 05 | 2006 (implementatie Autonomy).
Advies Aquarama
~ 10 ~
25 augustus 2008