Centrum voor Beleidsstatistiek en Microdata Services
Voorschriften bestandsformaat en uploadprocedure
1
Centrum voor Beleidsstatistiek en Microdata Services Opmerkingen vooraf
Let op: Het is mogelijk dat uw instelling voor andere doeleinden en op al of niet reguliere basis databestanden levert aan het CBS. Daarvoor dienen altijd de daarvoor overeengekomen procedures te worden gevolgd.
Deze voorschriften zijn bedoeld voor onderzoekers die binnen de beveiligde omgeving van het CBS werken, of gaan werken, en eigen data willen importeren. Dit om deze data koppelbaar te maken met de beschikbare microdatabestanden op persoons-, adres-, of bedrijfsniveau in de beveiligde omgeving van het CBS.
U dient er rekening mee te houden dat u de projectovereenkomst gaat ondertekenen, of ondertekend hebt, waarin de volgende passage is opgenomen: “Indien Contractant eigen microbestanden aanlevert, verklaart Contractant dat de gegevens rechtmatig zijn verkregen en dat ook de verstrekking van de gegevens aan het CBS voldoet aan de eisen van de Wet bescherming persoonsgegevens en, voor zover het gaat om gezondheidsgegevens, (mede) aan de eisen van afdeling 7:5 van Boek 7 van het Burgerlijk Wetboek (Wet geneeskundige behandelingsovereenkomst, WGBO). Het CBS kan hierover nadere informatie opvragen”.
De hier beschreven dienstverlening en de daarbij komende kosten zijn gebaseerd op het per keer verwerken van bestanden. Het laten koppelen van data aan al eerder verwerkte bestanden is níet een onderdeel van deze dienst. Het verdient de aanbeveling om zoveel mogelijk data in een bestand te zetten zodat alles in één keer verwerkt kan worden.
Bij het uploaden van data is het vanwege het beveiligingsbeleid niet toegestaan om executables (.exe) mee te sturen.
Wegens beveiligingsrisico’s is het absoluut niet toegestaan om bestanden per mail op te sturen.
2
Centrum voor Beleidsstatistiek en Microdata Services Inhoudsopgave
Opmerkingen vooraf ............................................................................................... 2 Inleiding .................................................................................................................. 4 1.
2.
Voorschriften van sleutelvariabelen ............................................................... 5 1.1
Personen ............................................................................................................. 5
1.2
Adressen ............................................................................................................. 6
1.3
Bedrijven ............................................................................................................ 7
1.4
Overige sleutelvariabelen ................................................................................. 7
1.5
Resultaten ná koppeling ................................................................................... 8
Uploadprocedure ............................................................................................. 9 2.1
Bestandseisen ..................................................................................................... 9
2.2
Bestandsoverdracht......................................................................................... 11
2.3
Doorlooptijd ..................................................................................................... 11
3
Centrum voor Beleidsstatistiek en Microdata Services
Inleiding Het komt regelmatig voor dat onderzoekers een eigen bestand met persoons- of bedrijfsgegevens willen koppelen aan bestanden uit de catalogus met beschikbare microdatabestanden van het CBS. Het Centrum voor Beleidsstatistiek biedt hiervoor de mogelijkheid om deze data te uploaden via het Internet. Na het ontvangen van de data zal het CBS de identificerende variabelen versleutelen zodat deze data met de catalogusbestanden van het CBS kunnen worden gekoppeld. Daarbij worden óf de direct identificerende data verwijderd óf op verzoek versleuteld. De koppeling kan plaatsvinden met variabelen over personen, adressen of bedrijven.
4
Centrum voor Beleidsstatistiek en Microdata Services 1. Voorschriften van sleutelvariabelen 1.1 Personen De meeste onderzoekers willen hun eigen bestand koppelen op persoonsniveau. Dit is mogelijk door de personen uit het eigen bestand op te zoeken in de GBA en deze vervolgens te voorzien van een ‘RINPERSOON-nummer’ (RIN-nummer). Het proces van het omzetten van persoon identificerende kenmerken in het eigen bestand naar het RINPERSOON-nummer noemen we het ‘verrinnen’ van een bestand. Veelal gebeurt dat op BSN, op A- nummer, of op onderwijsnummer. Het is ook mogelijk om met een combinatie van geslacht, geboortedatum, postcode en/of adres of overlijdensdatum personen binnen de GBA te identificeren. Bij adresgegevens is het essentieel dat een peildatum van het moment dat de desbetreffende persoon daar heeft gewoond bekend is. Bij het verrinnen van een bestand verwijdert het CBS de identificerende variabelen uit het bestand en alleen RINPERSOON wordt teruggegeven. Ook unieke nummers die mogelijk naar personen zijn te herleiden, bijvoorbeeld een intern nummer, worden verwijderd. De reden hiervan is om te voorkomen dat gebruikers van deze data direct vertrouwelijke persoonsgegevens uit gekoppelde CBS-bestanden kunnen halen. Op verzoek kunnen identificerende variabelen versleuteld terugkomen in het bestand. Dit verzoek kan gericht worden aan de desbetreffende relatiebeheerder. Voorschrift waaraan de essentiële koppelvariabelen moeten voldoen: Veld
Formaat
Voorbeeld
Bijzonderheden
Geslacht
A1
M of V
of 1 (M) of 2 (V)
Geboortedatum
A8 of F8.0
19590202
JJJJMMDD
Overlijdensdatum
A8
20591126
JJJJMMDD
Postcode6
A6
2498CM
Letters als hoofdletter
Postcode4
A4
2498
Huisnummer
A5 of F5.0
Huisletter
A1
A
Huisnummertoevoeging
A4
IIH of fl01
Jaar van geldigheid
A4 of F4.0
2010
Mag ook numeriek
Peildatum
A8 of F8.0
20050320
JJJJMMDD
1051
Rechts aangeschoven met voorloop spaties Hoofdletter
5
Centrum voor Beleidsstatistiek en Microdata Services 1.2 Adressen Op basis van het volledige adres; postcode, huisnummer, huisletter, huisnummertoevoeging en jaar (peildatum) van geldigheid adres, kan een versleuteling plaatsvinden naar RINADRES. Dit versleutelen kan alleen voor adressen waarop personen ooit in de GBA ingeschreven stonden (vanaf 1995). Voorschrift waaraan de essentiële koppelvariabelen moeten voldoen: Veld
Formaat
Voorbeeld
Bijzonderheden
Postcode
A6
2498CM
Geen spaties
Huisnummer
A5
00001
Mag ook numeriek
Huisletter
A1
A of a
Huisnummertoevoeging
A4
IIH of fl01
Geen voorloopnullen
Jaar geldigheid adres
A4
2010
Mag ook numeriek
Buurtcode Via de postcode (cijfers en/of letters) en het jaar van geldigheid van die postcode, kunnen de data voorzien worden van de buurtcode of wijkcode van dat betreffende jaar. Voorschrift waaraan de essentiële koppelvariabelen moeten voldoen: Veld
Formaat
Voorbeeld
Bijzonderheden
Postcode
A6
2498CM
Geen spaties
Jaar
A4
2010
Mag ook numeriek
6
Centrum voor Beleidsstatistiek en Microdata Services 1.3 Bedrijven Bij bedrijven kan de koppeling met CBS bestanden direct gelegd worden via het Kamer van Koophandelnummer (KvKnr) of het fiscaal identificatienummer (FI-nr). Het KvKnr en/of FI-nr wordt daartoe versleuteld zodat deze via het microdatabestand ‘Algemeen Bedrijven Register’ (ABR) gekoppeld kan worden aan een Bedrijfseenheid (BE), de statistische eenheid voor veel bedrijfseconomische statistieken. Doel van die versleuteling is tevens om te voorkomen dat direct vertrouwelijke bedrijfseconomische gegevens uit gekoppelde CBS-bestanden gehaald kunnen worden. In tegenstelling tot persoonsstatistieken, waar voor het verrinnen altijd sprake is van een 1-op-1 relatie, ligt de situatie met bedrijven een stuk ingewikkelder. Een ‘bedrijfseenheid’ (BE) in het ‘Algemeen Bedrijven Register’ (ABR) kan meerdere Kamer van Koophandel (KvK)-nummers en/of Fiscale (FI)-nummers omvatten. Ook kan het voorkomen dat een KvK- of FI-nummer niet in een BE komt, bijvoorbeeld omdat deze feitelijk niet economisch actief is. Voor verdere details wordt verwezen naar de documentatie, en met name naar de bijlagen van deze documentatie, van het ABR. Voorschrift waaraan de essentiële koppelvariabelen moeten voldoen: Veld
Formaat
Voorbeeld
Bijzonderheden
Kvknr
A8
Met voorloopnullen
FI-nr
A9
Met voorloopnullen
1.4 Overige sleutelvariabelen In voorkomende gevallen kunnen ook andere identificerende variabelen uit eigen bestanden worden gebruikt om koppelingen te maken met CBS bestanden. Te denken valt aan schoolgegevens, onderwijsnummers. Neem hiervoor contact op voor afstemming van het formaat van de koppelvariabelen (
[email protected]).
7
Centrum voor Beleidsstatistiek en Microdata Services 1.5 Resultaten ná koppeling De kwaliteit van de koppeling hangt af van de kwaliteit van de aangeleverde data, en met name van de sleutelvariabelen. Er vanuit gaande dat dit in orde is, kunnen we onderstaande percentages verwachten van het verrinnen van persoonsbestanden:
Op BSN (of bijv onderwijsnummer) is in principe 100% te verrinnen. In de praktijk kan dit echter een paar procent minder zijn, bijvoorbeeld door verschillen in peilmoment en/of populatie (niet in de GBA ingeschrevenen)
Op geboortedatum, geslacht, postcode6 en jaar van geldigheid van de postcode is meer dan 90% te verrinnen;
Op geboortedatum, geslacht, en postcode4 en jaar van geldigheid van de postcode is meer dan 80% te verrinnen.
Van elke koppeling wordt een rapport opgesteld dat ter beschikking wordt gesteld. KvKnummers en FI-nummers versleutelen lukt altijd, maar of er een corresponderende bedrijfseenheid (BE) te vinden is, is niet te voorspellen. Hiervoor verwijzen we u naar de documentatie over het ABR.
8
Centrum voor Beleidsstatistiek en Microdata Services 2. Uploadprocedure 2.1 Bestandseisen De gegevens kunnen in drie formaten worden geüploadet: 1. SPSS systemfile (.sav ) Zorg ervoor dat alle variabelen, en indien van toepassing ook de waarden, voorzien zijn van labels. Vermijd het gebruik van DATE field voor datumvelden, maar sla datumvelden op als string variabele of numerieke variabele in de vorm JJJJMMDD. 2. Tekstbestand met scheidingstekens tussen de velden (.CSV) In regel 1 dienen de namen van de velden vermeld te staan. Wees er verder alert op dat het scheidingteken niet als teken in een veld voorkomt. 3. ASCII fixed format Zorg voor een goede beschrijving van de data. Het bestand mag bovendien niet te breed worden (maximale recordlengte van 8000). Gebruik dit bestandsformaat alleen als de dataset slechts weinig (<20) variabelen bevat. Indien u van deze drie formaten wilt afwijken, dient u dit vooraf te overleggen. Vermeld altijd in kort wat het bestand inhoudt, wat de identificerende variabelen zijn, welke variabelen de versleutel variabelen zijn en, indien van toepassing, bij decimalen of het scheidingsteken een komma of een punt is. De bestandsbeschrijving graag in een txtof word formaat mee leveren. Bij de aanlevering in ASCII fixed format is het van belang om een bestandstoelichting te leveren waarin een recordbeschrijving is opgenomen, een omschrijving per variabele (label) en indien van toepassing een codeboek (de mogelijke waarden van de variabele met een omschrijving). Zonder deze bestandstoelichting kunnen we de data niet duiden en wordt de dataset niet geaccepteerd.. Voorbeeld van een recordbeschrijving (te leveren in txt formaat): Variabele
Beginpositie
Eindpositie Lengte
Type
Decimalen
Postcode
1
6
6
A
0
Huisnummer
7
11
5
A
0
Huisletter
12
12
1
A
0
Huisnummertoevoeging 13
16
4
A
0
Soort adres
18
2
A
0
17
9
Centrum voor Beleidsstatistiek en Microdata Services enzovoort
Voorbeeld van een codeboek: Variabelen omschrijvingen: Postc: Postcode van het adres. Huisnr: Huisnummer Huisltr: Huisnummerletter Huisnrtoe: Huisnummertoevoeging Soortadres: Typering van een adres naar woningtype: Soortadres: Typering van een adres naar woningtype: Voorbeeld codeboek Variabele: Soortadres: Code
Omschrijving
00
Hoekwoning
01
Rijtjeswoning
02
Twee onder één kap
03
Vrijstaand enzovoort
Het CBS wil bij het uploaden van data geen namen van personen, bedrijven of andere instellingen ontvangen; dit om zichtherkenning (het -onbedoeld- herkennen van namen tijdens het werken met de bestanden) te voorkomen. Voor het verrinnen/versleutelen/koppelen zijn namen niet relevant.
10
Centrum voor Beleidsstatistiek en Microdata Services 2.2 Bestandsoverdracht Voor het opsturen van bestanden maakt u gebruik van de beveiligde uploadfaciliteit van het CBS. De procedure is als volgt: Zip het bestand en het codeboek en geef het zipbestand de naam die uw relatiebeheerder in een e-mail aan u heeft opgegeven. Alle geüploade bestanden worden in een centrale map geplaatst. Door de naam weten we bij welk project het bestand hoort. Desgewenst kunt u de ZIP beveiligen met een wachtwoord, dat u later met een mail doorstuurt naar
[email protected]. Een bestand dat via de upload wordt verstuurd mag niet groter zijn dan 1 GB, én het mag geen executables (.exe bestanden) bevatten. Het is uiteraard mogelijk meer dan één bestand te uploaden. U kunt het bestand naar het CBS uploaden door op onderstaande link te klikken: http://www.cbs.nl/bestandslevering
Bij het invullen van de internet pagina dient u de volgende codes te gebruiken: Enquêtecode: CVB Correspondentienummer: 2008-111-401 Controlenummer: 817808 Voor de rest wijst het zich vanzelf. Altijd een e-mail te sturen naar
[email protected] als u iets in de upload hebt geplaatst met de naam van het zip bestand. Het bestand komt doorgaans binnen een werkdag bij ons binnen. 2.3 Doorlooptijd Wij streven ernaar om het verrinnen van bestanden binnen 2 weken af te hebben. Vaak kan het iets sneller en soms duurt het iets langer. De doorlooptijd is met name afhankelijk van de kwaliteit van de door u aangeleverde metadata en van de data zelf.
11