Nr. 1 2
Paragraaf Général Général
3
paginanr.
taal Fr Fr
Vragen – Questions Quelle est la version de CSC qui prime : la version néerlandaise ou la version française ?
Général
Fr
Combien de modèles SPSS sont opérationnels et doivent être migrés ?
4
Général
Fr
Pouvons-nous consulter la documentation d’un modèle représentatif ?
5
Général
Fr
6
Général
Fr
7
Général
Fr
8
1.1.1.2
7
Nl
Combien de modèles Clementine sont opérationnels et doivent être migrés ?
Antwoorden - Réponses Aucune. AREC Dir III/4 moins de 10 CEL DATA MINING BTW 11 modèles TVA-audit et 1 modèle restitutions TVA DCU: Actuellemnt moins de 10 modèles mais évolution en cours tenant compte des activités qui seront prises en charges par ce service dans le futur AREC Dir III/4 Environ 3000 lignes de syntaxe SPSS (soit environ 20 modèles) sont utilisées de manière répétitive chaque mois. Il s'agit essentiellement de manipulation de données et de cubes olap.
AREC Dir III/4 Généralement, tout se trouve dans la syntaxe. La consultation d'une syntaxe est possible. Combien de ces modèles tournent aujourd’hui en production ? Comment l’intégration de ces modèles AREC Dir III/4 en production est-elle aujourd’hui implémentée ? Les syntaxes chez AREC Dir III/4 créent des fichiers au format SPSS (avec mise à jour hebdomadaire ou mensuelle). Ces fichiers sont ensuite utilisés pour consultation et analyse statistique élémentaire. CEL DATA MINING BTW à ce moment 10 modèles RISICOBEHEER PATRIMONIUM DOCUMENTATIE - nombre de modèles Clementine : 0 - nombre de modèles SPSS: 5, pas intégrés (stand alone PC), 2 fois par année DCU: Pas de modèles en production actuellement mais un nombre de modèles est en phase de développement Pouvez-vous clarifier ce qu’englobe la « préparation de données » ? Et quel est son scope ? AREC Dir III/4 Chargement de données flat file, tri, fusion de fichiers (horizontal et vertical), filtres, transformation de données, calculs sur montants, dates, manipulation de string. Utilisation de macros pour les tâches répétitives. Toutes les préparations de données et tous les modèles sont-ils documentés ? Non, certains modèles ne le sont pas encore, ou pas de façon complète “De analyse van de Datamining-modellen die momenteel bestaan bij de FOD Financiën, alsook hun Nee. eventuele aanpassing of migratie (met inbegrip van data preparation en deployment). ” Moet er naast overzetten van de huidige datamining functionaliteit ook nog aanvullende functionaliteit geleverd worden (bijv. verbetering of uitbreiding van bestaande functionaliteit, performance verbetering).
9
1.1.7.1
15
Nl
Inschrijvers moeten een overzichtstabel opmaken m.b.t. de selectiecriteria. Kunt u de aangeven waar Er moet een overzichtstabel gemaakt worden van de deze selectiecriteria beschreven zijn? (pagina 25 t/m 27 geeft een lijst van selectie criteria. Sectie 2.2.2 gunningscriteria en niet van de selectiecriteria. Het lastenboek (pagina’s 61 t/m 66) geeft een andere lijst van technische en functionele criteria. Is er een wordt in deze zin aangepast. Er is geen template beschikbaar. voorgedefinieerd template van deze overzichtstabel beschikbaar die ingevuld kan worden?
10
1.1.8.1.
16-18
Fr
Nombre d’utilisateurs : nous avons noté dans l’appel d’offre la mention de 3 environnements de Datamining :
a) 30 datamanipulation et 18 datamining b) Comme dans le CSC : 5 data-manipulation et 2 datamining
a) Un environnement de Production (pp 16 à 18), avec 35 (ou 30 ? cfr. p. 17) utilisateurs « data manipulation » en option et 20 (ou 18 ? cfr. p. 18) utilisateurs « datamining » de base, b) Un environnement de Développement / Test (Option : p. 17), avec 5 utilisateurs « data manipulation » en option et 2 utilisateurs « datamining » de base,
c) Pas d'environnement de formation prévu par le CSC, suivant le lieu de formation, les formations se donnant au choix dans les locaux de l'adjudicataire ou du SPF Finances d) Pas relevant.
c)
Et enfin un environnement de formation (p. 38), sans mention du nombre d’utilisateurs ?
d) Par ailleurs, nous n’avons pas trouvé dans l’appel d’offre la mention du nombre d’utilisateurs plus « techniques » pour chaque environnement (administration et tâches système) ? è QUESTION : Pouvez-vous nous donner le nombre de chaque type d’utilisateur, et ce par environnement?
11
1.1.8.1 2.2.4.1
17 71
Nl
12
1.1.8.1
17
Nl
Er wordt een mogelijke “site-licentie” genoemd, wat wordt hieronder verstaan? Er worden 35 en 20 interne gebruikers genoemd voor een concurrente licentie, zijn dit “echt concurrent” users (d.w.z. op ieder moment kunnen er maximaal 35 of 20 gebruikers actief zijn, afkomstig uit een grotere gebruikersgroep) of “named” users (er zijn maximaal 35 of 20 gebruikers waarvan er op ieder moment een deel actief kan zijn). Doen de data-manipulation users alleen aan recalibratie, of hebben zij nog andere taken? Kunt u omschrijven wat de recalibratie activiteiten inhouden? Wat wordt verstaan onder de “periodieke aanmaak van de produktie-basis”? Welke tools worden op dit ogenblik door de data-manipulation users gebruikt?
Een site-licentie is een licentie die geldt voor alle gebruikers van de gevraagde software binnen Fod Financiën. Het zijn concurrent users en geen named users.
AREC Dir III/4 Data-manipulation : transformatie, merge, berekening,... Samenvattend, alles wat de voorbereiding van gegevens en analyses die niet gespecifieerd zijn door datamining analyes. Dus ETL-behandeling, statistische analyses,... De periodieke aanmaak van de productie-basis is het punt stellen van de productiemodellen, zonder aanpassing van deze modellen (bvb. verandering van enkele variabelen om aan te passen aan nieuwe voorwaarden), ook het gedeelte laden van ETL. De volgende tools worden momenteel gebruikt door de datamanipulatie gebruikers: SPSS Base, Microsoft Excel, IBM Datastage, soms Java routines en VB routine om taken te automatiseren.
13
1.1.10.1.1
21
Nl
“door eenvoudig deel te nemen aan de procedure tot gunning van een overheidsopdracht verklaart de Deze attesten zijn niet online beschikbaar en vereisen dat de inschrijver dat hij zich niet in één van de uitsluitingsgevallen bevindt....De aanbestedende overheid administratie hiervoor een aanvraag doet bij de verificatie van de onderzoekt de juistheid van de impliciete verklaring op erewoord”. Toch wordt gevraagd onder het verklaring op erewoord van de inschrijver. derde uitsluitingscriterium op pagina 23 : “De Belgische inschrijver moet bij zijn offerte een recent...attest van de Administratie der Directe Belastingen voegen en een recent...attest van de btwadministratie”; Is dat geen tegenstrijdigheid?
14
1.1.10.1.3
24
Nl
Eerste criterium met betrekking tot de capaciteit van de inschrijver: Twee equivalente referenties worden aangevraagd (zoals te detailleren in Bijlage 3 (formulier voor de voorstelling van de referenties) samen met gedetailleerde omzet cijfers. Wat is de impact van dit criterium als de inschrijver deze informatie alleen gedeeltelijk mag geven?
15
1.10.1.4 1.1.7.1
24-26 14
Fr
« Le soumissionnaire inclura dans son offre tous les renseignements qui permettront d'évaluer l’offre par rapport aux critères d'attribution et aux critères partiels ci-dessous »
16
1.1.10.2.1.1
26
Nl
17
1.1.10.2.1.3
28
Nl
18
1.2.3.3
31
Nl
19
1.2.3.5
32
Nl
20
2.1.2.
54
Nl
Een minimum van twee gelijkwaardige referenties is vereist, bij gebrek zal de inschrijver niet geselecteerd worden. De aanbestedende overheid moet in staat zijn de referenties te verifiëren met behulp van de details bezorgd in bijlage 3. Als de bezorgde details onvoldoende blijken te zien, dan kan de aanbestedende overheid de inschrijver eventueel niet selecteren.
Il s'agit de tous les renseignements demandés explicitement par le cahier spécial des charges et tout ce qui peut s'avérer utile pour évaluer l'offre par rapport aux critères d'attribution. Les è QUESTION : Qu’ attendez-vous exactement comme type de réponse? soumissionnaires doivent établir un tableau récapitulatif par rapport aux critères d'attribution reprenant les points relevant de è QUESTION : Est-ce la même demande que « Les soumissionnaires doivent établir un tableau leur offre en regard des différents critères. Le cahier spécial des récapitulatif par rapport aux critères de sélection, reprenant les points relevant de leur offre en regard charges sera adapté. Il n'y a pas de template. des différents critères ». Voorstel voor de migratie van de bestaande projecten (o.a. modellen, deployment, reporting) binnen AREC Dir III/4 de FoD Financiën op het vlak van BI Migratie: Onze vraag: ook al is er een gedetailleerde beschrijving gegeven aangaande de activiteiten van de - omzetting van alle SPPS syntax (zie het aantal in het lastenboek) betreffende diensten in Deel 2, punt 2.1.1.3, pagina 50-54, kan u de doelstellingen van de migratie voor en Clementine streams. deze diensten in meer detail omschrijven? - omzetting van alle bestanden in het SPSS formaat - omzetting van reporting procédures. wegingsformule voor Prijs: Is de factor Pmax het getal “35” zoals genoemd op pagina 25 in de wegingstabel onder het deelcriteria “Prijs”? FOD Financien gaat binnen 30 dagen na kennisgeven van voltooiing (van een realisatiefase) over tot controle. Kan u aangeven hoeveel dagen deze controle nodig heeft (om tot de voorlopige oplevering te komen). “de definitieve opleveringen zullen vastgelegd worden op verzoek van de leverancier, na afloop van de garantietermijn”; Wat houdt deze garantie in? Wat is de omvang van de financiële verantwoordelijkheid van de aannemer gedurende deze garantieperiode? Overlap met Heracles project: komen de modellen hier uit overeen met de 38+1 modellen waar later wordt over gesproken?
Ja
Maximum 30 dagen.
Wat betreft de software, zijn de verplichtingen van de aannemer tijdens de garantieperiode dezelfde als tijdens de periode van het onderhoud.
De 38+1 modellen komen niet voor in het Herakles project als dusdanig. Zij maken enkel gebruik van de datamining software die ter beschikking gesteld wordt vanuit het Herakles project.
21
2.1.2
54
Nl
Fr
Rapportering en OLAP tools zitten niet in de scope van het project? Wat is de impact van migratie van de DM naar de traditionele reporting toe?
Er wordt geen OLAP software gevraagd in het lastenboek maar het is het noodzakelijk om de eenvoudige reporting procedures te converteren. A ce moment les processus datamining n'utilisent pas les sources de DB2. Dans le futur les processus datamining vont avoir directement accès aux sources DB2 mais pas avec un middleware.
22
2.1.2.1
55
23
2.1.2.1
55+fondeme Fr nts ICT
QUESTION : Nous comprenons qu’un système d’identification des utilisateurs et de sécurisation d’accès via LDAP est suffisant dans le cadre de ce projet. Est-ce exact ?
Le système d’identification des utilisateurs (via un utilisateur proxy) et de sécurisation d’accès via LDAP (ex. via des groups ldaps) est suffisant pour une solution full-client. Concernant une solution webbased il faut une integration avec Identity Mangement.
24
2.1.2.2.1
56
« Quelques streams utilisent des scripts » :
CEL DATA MINING BTW La programmation d'un loop pour exécuter un stream 150 fois par exemple. DCU: idem comme la Cel Datamining BTW CEL DATA MINING BTW semblable au question "Quelques streams utilisent des scripts. Pouvez-vous spécifier la nature de ce script" : les tables en MS SQL Server 2000 qui sont utilisées par le feedback PHP sont créées par des streams Clementine. Alle datamining processen beschreven in § 2.1.2.2 maken gebruik van SPSS / Clementine software die ter beschikking worden gesteld door het Herakles project maar ze maken geen gebruik van de SANDBOX.
Fr
QUESTION : Nous comprenons que l’accès aux données se fait directement dans la base DBMS DB2 SandBox. Est-ce correct ? Et dans le négative, pouvez-vous préciser le middleware à utiliser ?
AREC Dir III/4 Op dit ogenblik gebruikt deze afdeling OLAP tools die inbegrepen zijn in SPSS Base, en Excel (reporting). CEL DATA MINING BTW De tabellen in MS SQL Server 2000 welke gebruikt worden door MS Reporting Services en Visual Studio .NET worden aangemaakt door middel van Clementine-streams. DCU: momenteel gebruikt de dienst OLAP tools die inbegrepen zijn in SPSS clementine. Er wordt geen OLAP software gevraagd in lastenboek maar eveneens noodzaak om eenvoudige reporting procedures te converteren.
è QUESTION : Pouvez-vous spécifier la nature de ces scripts ? 25
2.1.2.2.1
56
Fr
« PHP feedback » : è QUESTION : Pouvez-vous fournir de l’information additionnelle sur la nature de ces « PHP feedback streams »
26
2.1.2.1.
57
Nl
Welk proces wordt er precies geimpacteerd door het project op de figuur van pagina 57?
27
2.1.2.2
58+59
Nl
Deze sectie beschrijft (in afzonderlijke sub-paragrafen 2.1.2.2.1 t/m 2.1.2.2.7) details van de bestaande datamining applicaties van de 7 afdelingen. Voor enkele diensten worden de aantallen modellen genoemd (zoals voor OCS en Dienst Risicobeheer binnen PatrimoniumDocumentatie), voor andere diensten aantallen streams en syntax scripts (zoals DCU/DSU en AREC Directie III/4), voor anderen wordt alleen gemeld dat er data-manipulatie gedaan wordt. Kan er voor iedere dienst aangegeven worden wat het aantal gebruikte mining modellen is in de dienst, het aantal streams (en aantal nodes) t.b.v. data-mining, het aantal syntax scripts, het aantal data-mining users? Kan de te migreren data-manipulatie functionaliteit ook worden omschreven per dienst (incl. een kwantitatieve aanduiding, zoals het aantal data-manipulatie scripts, en het aantal data-manipulatie users). Welke versies van de (te migreren) data-mining tools worden er momenteel gebruikt, en op welke operating systemen (versie)? Welke tools (en welke versie) worden ingezet voor data-manipulatie (en voor welke van de genoemde afdelingen?)
AREC Direction III/4 Deze directie werkt niet echt op basis van DM modellen. Het gebruik van Clementine is zeldzaam bij deze afdeling. De gevraagde cijfers (53 streams en 682 nodes) zijn een historisch totaal. Bij gevolg kunnen in deze afdeling de 10 aangegeven gebruikers gelijkgesteld worden aan data-manipulations gebruikers. De andere cijfers zijn aangegegeven in het lastenboek. Gebruik SPSS Base: ongeveer 1200 syntaxes data-manipulation (geen script met objecttaal) SPSS: 14.0.2 op Sun OS Clementine : 10.1.1 op Sun OS RISICOBEHEER PATRIMONIUM DOCUMENTATIE 5 gebruikte mining modellen, 0 streams, 117 syntax-scripts, 1 datamining user; 4 data-manipulatie scripts, 1 data-manipulatie user; SPSS 14.2 sur Sun OS. - aantal modellen Clementine : 0 - aantal modellen SPSS : 5, niet geïntegreerd (stand alone PC), 2 x per jaar CEL DATA MINING BTW voor de AOIF gaat het om 3 users; Clementine 10 Client op Windows 2000 en Clementine 10 Server op Sun-Solaris; § 2.1.2.2.1. voor de overige info DCU: 6 users; 53 syntaxen en 40 streams
28
2.1.2.2
58-59
Nl
duurtijd : de range gaat van enkele seconden tot bijna 3 dagen! 80 tabellen : 10 % toename geen tekortkoming voor security neuraal netwerk, logistische regressie, C&RT, C5.0 en CHAID
29
2.1.2.2
58-59
Nl
30
2.1.2.2
58-59
Nl
2.1.2.2.1 CEL DATAMINING BTWCEL DATAMINING BTW Wat is de gemiddelde duurtijd van 1 stream. Wat is de huidige maximale looptijd van zo'n stream. Wat is de verwachte groei van deze 80 tabellen voor de volgende 5 jaar. Welke IT security constraints zijn tijdens de ontwikkeling van de 11 modellen van belang geweest en waar schoot de keuze van SPSS hierin tekort? Welke type data-mining modellen worden hier gebruikt, DOCUMENTATIE en hoe geadvanceerd zijn deze? 2.1.2.2.4 DIENST RISICOBEHEER BINNEN PATRIMONIUM In welke mate heeft de matching tussen de verschillende data bronnen (Cadnet, rijksregister, FOD Justitie) zoals opgesomd op blz 52 en 53 een effect op de effectiviteit van de reeds aanwezige modellen. Wat zijn de belangrijkste huidige hiaten tussen de verschillende databronnen en hoe gaan de huidige modellen en data preparatie processen daar nu mee om. 2.1.2.2.3 OCS Welke type data-mining modellen worden hier gebruikt (predictieve modellering, segmentering, ...)? Wat is het volume van data. Is er data beschikbaar van Europese landen voor deze modellen of gaat het enkel om binnelandse gegevens?
Voor DAVO werd nog geen dataminingmodel gerealiseerd.
Het gebruikt model is van een voorspellend type. De gebruikte gegevens zijn BTW aangiftes (ongeveer 5 miljoen aangiftes per jaar die een maximum van 45 cases bevatten). Er zijn geen gegevens van andere lidstaten die gebruikt worden.
31
2.1.2.2
58-59
Nl
32
2.1.2.2
58-59
Nl
2.1.2.2.5 DCU/DSU Wat is de gemiddelde duurtijd van 1 stream. Wat is de huidige maximale looptijd van zo'n stream. Wat is de verwachte groei van deze 80 tabellen voor de volgende 5 jaar. Welke IT security constraints zijn tijdens de ontwikkeling van de 11 modellen van belang geweest en waar schoot de keuze van SPSS hierin tekort? Welke type data-mining modellen worden hier gebruikt, en hoe geadvanceerd zijn deze? 2.1.2.2.6 DOUANE EN ACCIJNZEN Met betrekking tot blz 54. Over welke open source databaseomgeving gaat het hier en welke open source tools worden hier gebruikt? Wat is de frequentie en de data load van deze ETL processen?
Vraag 80 tabellen en 11 modellen : zie DM cel Datamining BTW
open source databaseomgeving : MySQL database geëxploiteerd met de administration tool van MySQL. Veel databanken worden ook beheerd en onderhouden aan de hand van batch files die 's nachts SQL commando's lanceren op de server. We praten dan over het updaten van databanken met de gegevens die gedurende de dag zijn ingegeven. Deze gegevens komen van verschillende bronnen : ofwel on line (via php-web omgeving), ofwel met gegevens uit bestanden die worden ge-upload naar onze FTP-server of die via andere digitale kanalen in de loop van de dag tot de CDIB komen en werden klaargezet voor batch-verwerking gedurende de nacht. Bovenstaande datastromen beschrijven de gegevens die bij de CDIB toekomen. De ETL gebeurt dagelijks, soms wekelijks of maandelijks, afhankelijk van over welke gegevens het gaat. De datastroom vanuit de CDIB naar het datawarehouse verloopt via de FTP-server van het datawarehouse. De CDIB levert TXT-bestanden (flatfiles) aan en de ETL-tools van het datawarehouse verwerken die in het datawarehouse.
33
2.1.2.2
58-59
Nl
2.1.2.2.7 AREC DIRECTIE III/4 Wat is de gemiddelde duurtijd van 1 stream. Wat is de huidige maximale looptijd van zo'n stream. Wat is de verwachte groei van deze 80 tabellen voor de volgende 5 jaar. Welke IT security constraints zijn tijdens de ontwikkeling van de 11 modellen van belang geweest en waar schoot de keuze van SPSS hierin tekort? De sectie noemt de wens om 5 tot 400 dagen assistentie af te nemen gedurende de voorziene 5 jaar, naast het invoering/migratie traject. Wordt voor deze assistentie ook specifieke data-mining expertise gevraagd (naast de genoemde systeembeheer, ontwikkeling, en architectuur expertise)?
Gemiddelde duurtijd van 1 syntaxe: 1 uur maar een grote afwijking. Maximale duurtijd van 1 syntax : 1 dag Vraag 80 tabellen en 11 modellen : zie DM cel Datamining BTW
34
2.2.1.4
61
Nl
35
2.2.2.2
62
Nl
Wat zijn de verwachtingen ivm data manipulation? Is dit standaard en ad hoc of moet dit industrieelbaar zijn?
Nl
Is text mining een 'nice to have' of een vereiste?
Ad hoc AREC Dir III/4 Voor de analyse wordt een soepele en gemakkelijk manipuleerbare oplossing verwacht. Voor het updaten van de databanken: een krachtige oplossing is soms noodzakelijk (omvangrijke bestanden) DCU: idem dan voor AREC Dir. III/4 Nice to have
36
2.2.2.2.2
63
Er wordt ook specifieke datamining expertise gevraagd.
37
2.2.2.2.2
65
Nl
Er wordt een lijst van 7 aspecten aangegeven (“Hij zal een duidelijke en nauwkeurige bescrhrijving… 1. toegang tot de Data Mining oplossing …”) en Identity Management genoemd, waar een beschrijving gevraagd wordt. Wordt dit specifiek gevraagd voor een web-based interface, of ook voor een fullclient?
De interactie tussen Identity Management en een web-based interface dient besproken te worden. Bij een full-client is een integratie met Identity management een voordeel maar dienen toch de lijst van 7 aspecten besproken te worden.
38
2.2.3.1.1
68
Nl
Er moet assistentie gegeven worden tijdens de kantooruren.
39
2.2.3.2
69
Nl
Wat wordt verstaan onder het woord “permanent” in “een permanente assistentie tot de oplossing van het probleem”? Lopen de modellen (hoeveel) momenteel in real-time of niet?
40
2.2.4.2.1
70
Fr
QUESTION : Combien des utilisateurs internes vont utiliser à un moment donné la plate-forme logicielle de manière concurrente ? Est-ce l’entièreté ou un sous-ensemble de ces utilisateurs ? Et si c’est un sous-ensemble combien au maximum ?
41
2.2.4.1
71
Nl
42
2.2.4.1
71
Nl
Is er een indicatieve opgave van het budget? Hoeveel keer worden de modellen effectief gebruikt (per ICT maand / kwartaal / jaar) De indicatieve opgave van het budget is 1,5 mio euro (btw inclusief). RISICOBEHEER PATRIMONIUM DOCUMENTATIE: effectief gebruik van modellen : 2 x per jaar. CEL DATA MINING BTW BTW-audit : jaarlijks BTW-teruggaven : trimestrieel AREC Dir III/4 dagelijks OCS dagelijks DCU: Dagelijks Wat zijn de interne skills? Opdeling in experts / end users? Geen specifieke competentie voor het personeel dat gerecruteerd wordt. De training gebeurt "on the job".
Geen real-time modellen op dit ogenblik en geen model voorzien op dit ogenblik. Il est difficile d'évaluer avec précision le nombre d'utilisateurs à un moment donné, nous nous basons sur les chiffres suivants: 30 datamanipulation et 18 datamining utilisateurs sur l'environnement de production.