Centraal Bureau voor de Statistiek
Inleiding Op donderdag 25 januari 2007 vond een CBS Microdatagebruikersmiddag plaats, de eerste georganiseerd door het Centrum voor Beleidsstatistiek. Binnen het CBS faciliteert het Centrum voor Beleidsstatistiek het werken met microdatabestanden door externe gemachtigde onderzoekers. De doelgroep van de middag bestond uit onderzoekers die in 2006 On Site of via remote access met CBS microdata hebben gewerkt. Tevens waren er CBS-ers die de microbestanden aanleveren, uitgenodigd. Tijdens de gebruikersmiddag heeft een aantal onderzoekers een presentatie gegeven over hun eigen onderzoek(smethode) en over hun ervaringen met de microdataservices en de microdata zelf. De middag werd afgesloten met een paneldiscussie waarin een drietal door de panelleden geponeerde stellingen door hen en door het publiek werden bediscussieerd. De aan de bijeenkomst voorafgaande “walkaround lunch” en afsluitende borrel boden de gelegenheid om op een informele wijze ervaringen uit te wisselen. Vantevoren was duidelijk dat in één middag niet alle thema’s waarop het afgelopen jaar onderzoek is gedaan aan bod zouden kunnen komen. Zo waren er bijvoorbeeld op deze eerste gebruikersbijeenkomst helaas geen presentaties door onderzoekers op medische microdata (zoals statistiek doodsoorzaken en landelijke medische registratie). Verslag presentaties De eerste spreker was Marloes de Graaf-Zijl van de Stichting voor Economisch Onderzoek (SEO) van de Universiteit van Amsterdam. In opdracht van de Raad voor Werk en Inkomen (RWI) heeft zij onderzoek gedaan naar de doorstroom tussen WW, bijstand en werk. SEO heeft hiervoor zeer veel verschillende bestanden aan elkaar gekoppeld. Op basis van deze gekoppelde data konden mensen vanaf 1999 gevolgd worden. Tijdens haar onderzoek is Marloes een aantal problemen tegengekomen, zowel op technisch als op inhoudelijk gebied. Zo heeft SEO creatieve oplossingen moeten bedenken (zoals het opknippen van de bestanden) om op de On Site computers met de zeer grote hoeveelheden data te kunnen werken. Op bestandsinhoudelijk gebied kwam het probleem naar voren dat in de bestanden verschillende datumvariabelen voorkwamen. Uit het documentatierapport werd niet direct duidelijk welke variabele gebruikt moest worden. Ook bleken 70 duizend personen (onverwacht) niet in het GBA te zitten. Marloes zou ervoor willen pleiten dat de opgedane kennis over een bestand wordt bewaard voor andere onderzoekers. Vanuit het publiek werd de vraag gesteld of het CBS bestanden (zoals SSB) eerder beschikbaar zou kunnen stellen dan nu het geval is? Gerhard Meinen (CBS) lichtte toe dat je bij geïntegreerde bestanden zoals het SSB afhankelijk bent van de laatst beschikbare bron. Zelfstandigen hebben twee jaar om hun aangifte te doen en zorgen op deze wijze voor vertraging. De vraag is of je moet wachten op deze laatste bron voor je het hele bestand beschikbaar stelt. De tweede presentatie van de middag werd verzorgd door Boris Lokshin van de United Nations University en Maastricht Economic and social Research and training centre on Innovation and Technology (UNU-MERIT, voorheen MERIT) van de Universiteit Maastricht. Boris presenteerde zijn resultaten van de evaluatie van de subsidieregeling Wet Bevordering Speur- en Ontwikkelingswerk pagina 1
Centraal Bureau voor de Statistiek (WBSO). In dit onderzoek naar de evaluatie van de effectiviteit van R&D subsidies in opdracht van het Ministerie van Economische Zaken (EZ) werd gebruik gemaakt van verschillende complexe datasets zoals de Productiestatistieken, Innovatie-enquêtes, R&D enquêtes en een bestand afkomstig van SenterNovem. Complicerende factor hierbij is het feit dat bedrijven in de CBS data worden geïdentificeerd met een ‘bedrijfseenheid’ (de statistische eenheid voor bedrijven van het CBS), terwijl het bestand van SenterNovem fiscale eenheden bevat. MERIT heeft gebruik gemaakt van een ‘ruggengraat’ waarmee bedrijfs- en fiscale eenheden aan elkaar konden worden gekoppeld. Deze complexe koppeling en het opschonen was in korte tijd alleen te realiseren door de mogelijkheden die Remote Access biedt. MERIT kon voor de beantwoording van de onderzoeksvraag uitgaan van twee modellen: gebaseerd op de data of op de theorie. Bij de data als uitgangspunt was het probleem: hoe isoleer je het effect van de WBSO; bij de theorie als uitgangspunt wordt veel gevraagd van de data en blijven er weinig gegevens over. De conclusie van het onderzoek was dat de WBSO succesvol is: de subsidie leidt tot meer R&D dan zonder deze subsidie het geval zou zijn geweest. Eric Bartelsman (VU) vroeg Boris of het feit dat er geen controlegroep beschikbaar was geen problemen opleverde en of Boris vond dat de resultaten betrouwbaar waren. Hoewel in de data grote bedrijven oververtegenwoordigd zijn, heeft Boris wel vertrouwen in de resultaten. Mickey Folkeringa van het Economisch Instituut voor Midden- en Kleinbedrijf (EIM Onderzoek voor Bedrijf & Beleid, nu onderdeel van Panteia) presenteerde voor de koffiepauze zijn lezing over het belang van CBS-microdata voor onderzoek naar Ondernemerschap en MKB. EIM doet naast eigen onderzoek ook contractonderzoek bij het CBS. Veel onderzoek van het EIM vindt plaats in het door EZ gefinancierde onderzoeksprogramma MKB en Ondernemerschap. Zo ook het onderzoek naar inkomens van ondernemers dat door Mickey is uitgevoerd. Voor dit onderzoek heeft Mickey onder andere gebruik gemaakt van data van het Inkomenspanelonderzoek. Uit de resultaten van het onderzoek is de trend af te leiden dat het besteedbaar inkomen van ondernemers de afgelopen vijftien jaar is gedaald. Mogelijke oorzaken hiervoor zijn onder andere de toename van het aantal starters (die beginnen met een lager inkomen) en een toename van de heterogeniteit van de starters (zoals meer vrouwen, die wellicht vaker in sectoren gaan werken waar minder winst valt te behalen). Vervolgonderzoek moet meer inzicht geven in de verschillende hypotheses. Het verklaren van de gevonden verschillen vraagt om echt microdata-onderzoek. Gedacht wordt om een monitor te ontwikkelen voor de inkomensontwikkeling van ondernemers, mogelijk in samenwerking met het CBS. In het publiek stelt iemand de vraag of de dalende trend ook te zien is bij individuele ondernemers. Het IPO is immers een panelonderzoek, dus zou je het inkomen van een ondernemer door de tijd kunnen volgen. Dit blijkt inderdaad zo te zijn. Wim Bos (CBS) vraagt zich af waarom de massa aan zelfstandigen werd teruggebracht tot percentielen. De reden die Mickey daarvoor aanvoerde was het feit dat de output op basis van onderzoek op individuele data niet identificerend mag zijn.
pagina 2
Centraal Bureau voor de Statistiek Na de koffiepauze werd het woord gegeven aan Ben Kriechel van het Researchcentrum voor Onderwijs en Arbeidsmarkt (ROA) van de Universiteit van Maastricht. Ben heeft samen met Lex Borghans een internationaal comparatief onderzoek gedaan naar loonstructuur en mobiliteit in Nederland. Hiervoor hebben ze gebruik gemaakt van de banenbestanden van het Sociaal Statistisch Bestand (SSB). Het onderzoek is On Site begonnen, maar inmiddels wordt gewerkt via een Remote Access aansluiting. De internationale beschikbaarheid van data is in drie groepen te verdelen: - Landen waarin integrale administratieve data beschikbaar zijn. - Landen waarin alleen administratieve data beschikbaar zijn over bepaalde deelgroepen. - Landen waarin alleen steekproefgegevens van werknemers aanwezig zijn. Op het eerste gezicht lijkt de beschikbaarheid van data in Denemarken het best. Data zijn over een zeer lange periode beschikbaar: 1980-2001. Maar ook hier zijn problemen zoals alleen observaties van het jaarsalaris als geheel. Het voordeel van de Nederlandse data is de event-history opzet. Elke verandering is een nieuwe observatie. Dit geeft de onderzoeker meer mogelijkheden. Anderzijds betekende dit wel dat ROA, net als SEO, trucs heeft moeten bedenken om On Site met de grote hoeveelheden data te kunnen werken. Ook de ROA liep tegen het probleem aan van de aansluiting van de verschillende datums bij de administratieve data. De conclusies: SSB is een rijke databron voor verschillende doeleinden, maar wel een databron die je moet leren kennen. Een groot pluspunt is de mogelijkheid om andere data zoals de Enquête Beroepsbevolking (EBB) toe te voegen, zodat in de breedte informatie beschikbaar is. De kwaliteit van het SSB is goed, de beschikbare tijdsperiode relatief kort vergeleken met andere landen. Het valt echter te verwachten dat dit verbeterd zal worden. Ben spreekt de hoop uit dat andere onderzoekers mee gaan doen met comparatief onderzoek om de methodologie te verbeteren. Het werken met integrale bestanden werpt namelijk andere methodologische vragen op, omdat het behalen van een zeer hoge statistisch significantie is zeer gemakkelijk. Rolf Hut (CBS) vraagt of, en zo ja hoe het CBS hierbij kan helpen. Ben is vooral blij met de data. Hij zou graag gebruik maken van de expertise van het CBS maar beseft dat we nog in een overgangssituatie zitten. De laatste spreker Eric Bartelsman van het Tinbergen Instituut van de Vrije Universiteit Amsterdam (VU) presenteert zijn Internationaal comparatief onderzoek naar de harmonisatie van PS en bedrijvenregistraties. Voor een internationale vergelijking vormden de bijzondere omstandigheden voor de toegang tot microdata in de verschillende landen soms een probleem. Daarom is het van belang zoveel mogelijk te harmoniseren tussen landen. Eric pleit voor distributed microdata analysis in een netwerk van experts. Hiervoor is uitgebreidere metadata nodig met unieke records, classificaties, ‘economische variabelen’ en beschikbare datasets. De documentatie moet worden opgesteld vanuit de microdata zelf om ontbrekende codes te voorkomen, dus niet vanuit de theorie. Voor veranderingen in de tijd moeten schakellijsten beschikbaar zijn. Op grond van de codeboeken en schakellijsten kunnen onderzoekers pro-
pagina 3
Centraal Bureau voor de Statistiek gramma’s schrijven voor analyses. Deze programma’s zouden vervolgens voor hergebruik door andere onderzoekers beschikbaar moeten worden gesteld. Paneldiscussie Tijdens de paneldiscussie onder leiding van Frans Hoeve werd een aantal stellingen besproken door de panelleden Eric Bartelsman, Lex Borghans (ROA), Peter Doorn (DANS) en Erwin Latuheru (SZW). Het centrale thema dat in de discussie naar voren kwam was het belang van goede metadata en het delen van kennis. Erwin: de beschikbare CBS microdata is voor andere doeleinden verzameld dan waar ze voor gebruikt worden bij On Site onderzoek. De REOS documentatie is eigenlijk te beperkt want opgedane kennis ontbreekt. Dit verhoogt het risico op onjuiste waarneming, analyses en conclusies. Erwin zou graag een voorziening zien voor gebruikers waarin ze van elkaar kunnen leren: een bundeling van kennis. Administratieve data kan geen vervanging zijn van traditionele enquêtes omdat veel aanvullende informatie ontbreekt. Het delen van kennis, belang van documentatie, kennis vastleggen in de metadata wordt door alle panelleden benadrukt. Nu wordt alleen het minimum vastgelegd. Peter pleit voor het achterlaten van publicaties inclusief opmerkingen voor datakoppeling tussen al deze informatie. Frans vertelt de zaal dat MCB de rapporten al heeft opgevraagd en dat begonnen is met het project Kennisdelen Microdata. Hier blijkt echter nog weinig gebruik van te worden gemaakt, waarschijnlijk omdat dit bij het doen van onderzoek weinig prioriteit heeft. De hoop is echter dat zodra er een basis is, de prikkel om eigen informatie toe te voegen zal groeien. Het onderlinge contact tussen onderzoekers verdwijnt bij de mogelijkheid van Remote Acces, aldus Eric. Hoewel RA heel mooi is, verdwijnt kennis delen op informele wijze en verwatert samenwerking. Hij oppert het idee om regionale centra te openen. In de praktijk gebeurt dit al, aldus Frans. Sommige instituten nemen gezamenlijk een RA aansluiting. Lex stelt voor andere mogelijkheden te onderzoeken om kennis uit te wisselen. In de VS laten onderzoekers op Internet veel kennis en programma’s achter om door anderen gebruikt te worden (bijvoorbeeld op de website van NBER). Volgens Peter is het CBS in de positie kennis delen verplicht te stellen. Ook opdrachtgevers zoals SZW zouden het als eis in hun onderzoeksopdracht kunnen stellen. Erwin stelt dat dit in de praktijk ook wel gebeurt. Hij stuurt onderzoekers door naar andere instellingen om vragen te stellen. Hij beseft wel dat kennis en ervaringen opschrijven bij contract-onderzoek een probleem is, omdat het veel tijd kost een logboek bij te houden. Volgens Ben Kriechel heeft verplichten ook weinig zin, omdat de kwaliteit van het documenteren dan vast beperkt zal zijn. De vraag is waarom het in de VS wel werkt. Onderzoekers moeten een prikkel krijgen om hun kennis te delen, zoals bijvoorbeeld citaties. Eric beaamt dit; in de VS heeft een gebruikersgroep elkaar veel geleerd en gezorgd dat hergebruik mogelijk is. Hiervoor moet wel een cultuuromslag komen. Het CBS zou wellicht eerst zelf een basis aan gedocumenteerde tools beschikbaar moeten stellen. Dit zou On Site onderzoekers kunnen stimuleren hetzelfde te doen.
pagina 4
Centraal Bureau voor de Statistiek
Evaluatie en conclusies De gebruikersmiddag lijkt positief te zijn ontvangen en nuttige informatie te hebben opgeleverd. Zo werd de behoefte aan kennisdelen door velen onderschreven. Het CBS-project Kennisdelen Microdata sluit hier goed op aan, maar behoeft wel een nieuwe impuls. Sommige bezoekers kwamen met suggesties hoe het CBS dit zou kunnen aanpakken. Ten aanzien van het programma kunnen we opmerken dat een middag kort is, en zoals aangekondigd, niet alle mogelijke onderzoeksthema’s aan bod konden komen. Een langere dag met veel meer sprekers zou echter ook nadelen hebben gehad. In de huidige opzet was de tijd voor discussie echter wel zeer beperkt. Hoewel we na afloop al de nodige feedback hebben gekregen, willen we op korte termijn een evaluatie vragen van de bezoekers. De samenvatting van de belangrijkste uitkomsten van deze evaluatie, een verslag van de bijeenkomst en onze plannen voor de toekomst zullen aan de gebruikers worden teruggekoppeld. Een deel daarvan (inclusief de presentaties) zullen op de website beschikbaar worden gesteld. Ook intern zouden we het een en ander moeten terugkoppelen om de betrokkenheid van de statistische sectoren bij de microdataservices te vergroten. Een van de kanttekeningen die Peter Doorn bij de dag maakte, was dat de sprekers zich wel heel erg beperkten tot hun eigen onderzoek. Hoewel dat ook wel toegestaan was binnen het doel van deze middag, is de opzet van deze gebruikersmiddag in de toekomst waarschijnlijk minder geschikt. Een van de alternatieve mogelijkheden is het organiseren van een hele dag met in de ochtend een plenaire bijeenkomst, in de middag gevolgd door themagerichte workshops met bijdragen van en discussies tussen externe onderzoekers en CBS-ers van statistische afdelingen. De werkwijze van benaderen van potentiële bezoekers heeft in principe het gewenste aantal deelnemers bereikt. Ruim vantevoren zijn de uitnodigingen verstuurd, twee weken voor aanvang is herinnerd en kort voor de middag hebben we een bevestiging van deelname gestuurd. Slechts een enkeling heeft zich wel aangemeld maar is uiteindelijk niet op komen dagen zonder zich af te melden. De logistieke organisatie was in handen van de taakgroep communicatie (CCO). Deze samenwerking is zeer goed bevallen.
pagina 5