.
innovation for life
Virtuele muis Haalbaarheidstudie naar hergebruik browsertechnologie voor effectieve webcrawl ing
Offerte
Deze offerte is uitgebracht aan: NCTV Postbus 16950 2500 BZ Den Haag Klantcontact Naam contactpersoon: Telefoonnummer: E-maiI:
~L~g @~geId~1~
Copyright © 2011 TNO Alle rechten voorbehouden. Niets uit deze uitgave mag worden vermenigvuldigd en/of openbaar gemaakt door middel van druk, foto-kopie, microfilm of op welke andere wijze dan ook, zonder voorafgaande toestemming van TNO. Offe,temodel vl.4, kwa, mei2011
• innovation for life Offertenummer 125948
Vlrtuele muis voor NCTV
Inhoudsopgave 1
INTRODUCTIE 1.1 1.2 1.3
2
ACHTERGROND PROBLEEMSTELLING DOELSTELLING
HET AANBOD 2.1 2.2 2.3
2.4 2.5 3
3
-
OMSCHRIJVING OPDRACHT
RESULTAAT ACTIVITEITEN PLANNING VERANTWOORDELIJKHEDEN OPDRACHTGEVER GEEN ONDERDEEL VAN DEZE OFFERTE
PRIJS EN FACTURE RING 3.1 3.2
4
PRIJS FACTURERING
LEVERINGSVOORWAARDEN 4.1 4.2 4.3 4.4
VOORWAARDEN GELDIGHEID VAN DE OFFERTE CONTACTPERSONEN ONDERTEKENING
@2011 TNO Datum offerte:
Pagina2van8 20 september 2011
3 3 4 4
4 5 6 7 7 7 7 7
7 7 7 8 8
innovation for life 0ffertenummer~ 125948
Virtuele muis voor NC1V
1 In roductie Wij danken u voor de uitnodiging aan TNO om op het gebied van internettechnologie haar diensten aan t bieden. Deze offerte is gebaseerd op gesprekken tussen van NCTV en van TNO. Daarnaast is deze offerte gebaseerd op resultaten van het project FlashReader.
1.1
Achtergrond
Verschillende diensten zoeken of monitoren specifieke websites. Door middel van een crawler worden websites automatisch geïndexeerd en vervolgens wordt op basis van de verkregen informatie vastgesteld of de website relevant is, dan wel of er relevante ontwikkelingen hebben plaats gevonden in een bepaalde periode. De informatie die crawlers verwerken is voornamelijk gebaseerd op de tekst die wordt gescheiden van de HTML. Indien de informatie wordt gepresenteerd in de vorm van een Flash object (SWF) of beeldmateriaal, dan lukt het veelal niet om deze sites automatisch te indexeren. Deze problematiek is onderzocht in het project FlashReader. In dat project zijn verschillende oplossingsrichtingen in kaart gebracht om Flashwebsites te indexeren. Het project concludeerde dat de volgende oplossingsrichting erg kansrijk is. Een virtuele muis wordt ontwikkeld die is gebaseerd op webbrowsertechnologie. Deze muis doorloopt vervolgens de hele website. Deze oplossing is kansrijk, omdat onder andere Adobe zelf ook een dergelijke oplossingsrichting heeft onderzocht, maar stelt deze niet beschikbaar. Naast Flash wordt nog een aantal nieuwe technieken gebruikt, (zoals Figuur 1 presenteert) die gebruik van dynamische maakt content of steeds meer Rich Internet Applications (RIA). Dit maakt de vraag naar een meer creëert generieke virtuele muis, dle een nieuwe vorm van webcrawling kan faciliteren, alleen maar relevanter. De NCTV (opdrachtgever) heeft in het programma genaamd ~‘HERKENNING DIGITALE INFORMATIE EN FINGERPRINTINc3” bovenstaande problematiek als relevant onderwerp aangemerkt Deze relevantie wordt tevens herkend door het Intemnet Service Centre van de Belastingdienst Daarnaast is de centrale stakeholder in dit project het IRN (internet recherche netwerk).
N1ML
5,
PDF
~.
StT~rhght Rich Internet Applications
JAVA
Figuur 1. Technologieën waarop Ricli lnternet Appilcations zijn gebaseerd, deze webpagina’s zijn lastig te indexeren.
1.2
Probleemstelling
Veel gebruikte crawlers, zoals HTtrack, zijn niet in staat om RiA’s te indexeren. Een mogelijke oplossing zou zijn voor iedere RIA een specifieke crawler ontwikkelen, maar dat is erg kostbaar en betekent dat voor iedere update een nieuwe versie ontwikkeld moet worden. Probleem van de bestaande crawlers is dat zij niet door de pagina’s kunnen lopen die gebaseerd zijn op deze technologie. Dat betekent bijvoorbeeld dat een website die begint met een Flash filmpje niet geïndexeerd kan worden omdat deze crawlers geen Flash kunnen interpreteren.
© 2011 TNO Datum offerte:
Pagir~a 3 van 8 20 september 2011
i nnovation for life Offertenummer: 125948
1.3
Virtuele muis voor NCTV
Doelstelling
Browsertechnologie wordt steeds meer gebruikt, krijgt steeds meer functionaliteit, en biedt de mogelijkheid om als alternatieve crawler te gaan dienen. Doe! van het project is de haalbaarheid te toetsen van een virtuele muis die is gebaseerd op deze technologie. De belangrijkste onderzoeksvragen die daartoe beantwoord worden zijn: Kan browsertechnologie gebruikt worden als crawler door voor dit doel een specifieke plugin te ontwikkelen of bestaande plugins, zoals Firebug, te hergebruiken? Wat is een geschikte open source webbrowser? Is deze crawler generiek toepasbaar voor verschillende RIA’s en tevens robuust voor updates van deze RIA’s? Kan een virtuele muis een website volledig doorlopen, door alle clickable regions aan te klikken? Geldt dit ook voor de RIA’s? Hoe kan een toestand van een website gedefinieerd worden, zodat de crawler deze pagina niet bij herhaling blijft indexeren? Wordt daarmee een generieke crawler ontwikkeld die verschillende technologieën als HTML5, Flash en Silverlight kan indexeren? -
-
-
-
DLIE 0
eb
OS heet Internet Figuur 2. Er zijn verschillende punten In de Flash keten, waar de virtuele muis kan aanhaken. Het FlashReader project concludeert dat de webbrowser het meest belovende aanhaakpunt Is.
2 Het aanbod 2.1
—
omschrijving opdracht
Resultaat
De resultaten van dit project zijn: Proof-of-concept van de virtuele muis die getest kan worden en tevens beschikbaar is voor de stakeholders van de NCTV. Rapportage en presentatie met de bevindingen van het proof-of-concept op basis waarvan de haalbaarheid van de virtuele gebruiker als alternatieve webcrawler getoetst is. -
-
02011 TNO Datum offerte:
Pagina 4 van 8 20 september 2011
• innovation for life Offertenummer: 125948
Virtuele muis voor NCTV
Dit resultaat stelt de stakeholders van de NCTV in staat te besluiten of uitontwikkeling van deze oplossing zinvol is en hoe deze oplossing praktisch gebruikt kan gaan worden. Het eindrapport is voor intern gebruik en door stakeholders van NCTV. Voor elk ander gebruik is voorafgaande toestemming van TNO benodigd. 2.2
Activiteiten
Om tot het bovenstaande resultaat te komen, omvat het project de volgende activiteiten: Al. A2. A3. A4. A5. A6.
Deskresearch Ontwerpen van een prototype Ontwikkeling proof-of-concept Kwalitatieve test proof-of-concept Rapportage schrijven en resultaten presenteren Projectmanagement
Al. Deskrosearch Om vast te stellen welke functionaliteit van de webbrowser precies gebruikt kan worden, wordt door middel van deskresearch een inventarisatie gemaakt van de mogelijkheden die de verschillende browsers te bieden hebben. Resultaat van deze inventarisatie is de keuze voor de browser die het meest geschikt is voor het doel van de virtuele muis. Er wordt vanuit gegaan dat dit een open source webbrowser is, omdat daarvoor relatief eenvoudig technologie ontwikkeld kan worden. Naast de browser zelf is het ook belangrijk inzichtelijk te maken wat relevante bestaande plugins zijn en hoe die gebruikt kunnen worden. Hierbij kan gedacht worden aan een plugin als Firebug voor de open source webbrowser Firefox. A2. Ontwerpen van een prototype Op basis van de mogelijkheden die geïdentificeerd zijn binnen de geselecteerde webbrowser wordt een functioneel ontwerp gemaakt van de virtuele muis. Om de haalbaarheid van het ontworpen prototype te toetsen wordt als proof-of-concept alleen de essentiële componenten ontwikkeld, zodat de virtuele muis getest kan worden. A3. Ontwikkeling proof-of-concept Om de haalbaarheid te toetsen wordt het proof-of-concept ontwikkeld. Dit zal gebeuren in samenwerking met expertise uit de open source community. De inzet van deze expertise is een projectrisico. Dit risico wordt beheerd, doordat deze inzet in het algemene kleine bedragen betreffen (maximaa wat inhoudt dat een dergelijk experiment ook kan mislukken en nogmaals uitgevoerd kan worden. e bevindingen, over de inzet van de open source community, vormen ook resultaat van dit project. De integratie van deze componenten tot het proof-of-concept wordt door TNO uitgevoerd. ,
A4. Kwalitatieve test proof-of-concept Door middel van een kwalitatieve test van het proof-of-concept wordt de praktische potentie van de virtuele gebruiker getoetst. Dit wordt bereikt door een aantal websites enkele weken te volgen. Daarnaast wordt een vergelijking gemaakt tussen het aantal kilobytes en files die een traditionele crawler kan verzamelen en de hoeveelheid materiaal die deze nieuwe crawler kan verzamelen, Dit levert een indicatie op van de winst van deze nieuwe benadering. A5. Rapportage schrijven en resultaten presenteren Om de bevindingen van dit project goed te delen met stakeholders en derden worden alle relevante bevindingen gepresenteerd in de vorm van een rapportage. Daarnaast worden de resultaten gedeeld door middel van een presentatie voor stakeholders van de NCTV. A6. Projectmanagement Benodigd projectmanagement voor het realiseren van het projectresultaat, afstemming met NCTV afstemming met stakeholders en Organisatie omtrent presentatie van de projectresultaten. © 2011 TNO Datum offerte:
Pagina 5 van 8 20 september 2011
• innovation for life Offertenummer: 125948
2.3
Virtuele muis voor NCTV
Planning
Tabel 1 presenteert de doorlooptijden van het haalbaarheidsonderzoek. Tabel 1. Doorlooptljd per activiteIt --
Al A2 A3 A4 A5 A6 Totaal
4 weken 4 weken 12 weken 8 weken 25 weken 30 weken 30 weken
Voor de totale projectuftvoerlng is een doorlooptijd begroot van 30 weken zoals de projectplanning in Tabel 2 laat zien.
Tabel 2. ProJectplannlng 1 2 3 4 5 6 7 8 9 1011 12131415161718192021 222324252827282930
‘
d
(J
Ontwerp delen met stakeholcier Afstemming met stakeholder over uit te voeren testen Presentatie uitkomsten haalbaarheid Projectoverleg met Projectafronding
De werkzaamheden kunnen starten in oktober 2011, maar pas nadat wij uw schriftelijke opdracht hebben ontvangen. De projectorganisatie ziet er als volgt uit. De beoogd projectleider is _f~ TNO is de uitvoerder van de activiteiten Al tot en met A6. Activiteit A3 zal gedeeltelijk uitgevoerd worden door extemen uit de open source community. De participerende stakeholder is lid van het projectteam door ervanng in te brengen, en anderzijds het beoordelen van de bruikbaarhejd van het behaalde resultaat in activiteit A5. Na afronding van het project zal acceptatie worden gevraagd middels het TNO Protocol van Oplevering —
02011 TNO Datum offerte:
Pagina 6 van S 20 september 2011
1 nnovation for life Offertenummer 125948
2.4
VMueIe muis voor NCTV
Verantwoordelijkheden opdrachtgever
De opdrachtgever js verantwoordelijk voor de organisatie van het disseminatie proces. Dit betreft afstemming over de invulling, locatie en de uit te nodigen stakeholders voor de presentatie van de resultaten. Daarnaast is de opdrachtgever verantwoordelijk voor de selectie van de relevante stakeholders om de eindrapportage mee te delen.
2.5
Geen onderdeel van deze offerte
De offerte voorziet niet in: • Oplevering van productie software • Documentatie en support bij proof-of-concept software • Organisatie van disseminatie proces
3 Prijs en facturering 3.1
Prijs
De prijs van de werkzaamheden zal worden gebaseerd op de werkelijk bestede uren en de werkelijk gemaakte materiële kosten. De richtpr)js bedraagt L exclusief BTW, prijspeil 2011. Het bedrag zal alleen na toestemming vooraf door de opdrachtgever worden overschreden. Bij 70% benutting van de rtchtprijs zal er overleg met de opdrachtgever plaatsvinden over de afronding (wat nog te doen, tegen welke kosten). Afhankelijk van de wensen van de opdrachtgever kan er een nieuwe richtprijs worden bepaald. Voor inhuur van expertise uit de open source communfty is exclusief BTW begroot
3.2
Facturering
De werkzaamheden zullen maandelijks in rekening worden gebracht op basis van de werkelijk gemaakte uren en kosten. Betalingscondities: binnen 30 dagen na factuurdatum onder vermelding van het factuumummer.
4 Leveringsvoorwaarden 4.1
Voorwaarden
Op deze offerte is het NCTb-TNO protocol van toepassing. Zie hiervoor het schrijven van NCTb van 11 juli 2008 met kenmerk 5555228/08. Indien de NCTV wordt verzocht (in het kader van een WOB verzoek) het eindrapport of andere documenten van belang voor dit project te publiceren, zal de NCTV alvorens tot publicatie over te gaan TNO in de gelegenheid stellen de betreffende documenten te reviewen. Reviewen houdt in dat TNO eigennamen en commercieel vertrouwelijke gegevens onleesbaar maakt
4.2
Geldigheid van de offerte
De offerte is geldig tot 19 oktober 2011.
02011 TNO
Datum offerte:
Pagina 7 van 8 20 september 2011
innovation for life Offerten ummer: 125948
4.3
— w. — W~
—i———
Virtuele muis voor NOW
~w. ~W..
Wij verzoeken u vriendelijk om vragen over deze offerte te richten aan de volgende personen:
Commercieel contactpersoon
4.4
InhoudelIjk contactpersoon
Ondertekening
Wij danken u voor het in ons gestelde vertrouwen en zien graag uw opdrachtbevestiging of een ondertekend exemplaar van deze offerte tegemoet, ter attentie van TNO, Ir. A.C. van Tol, postbus 96864, 2509 JG Den Haag.
Voor NCTV (voor acceDtatle)
Voor TNO (offerte)
/~
Is
/~1 Naam
Naam
Functie
Functie
.
Datum en plaats
~i9~%
L1
© 2011 TNO Datum offerte:
Datum en plaats 24_Lj..’(s
%
J~44.%
2~tj
Pagina 8 van 8 20 september 2011
~