Uitleg bij de verschillende velden in het metadata-systeem I. Inleiding Zoals de naam duidelijk maakt, bevatten metadata data over data, meer specifiek gaat het hier over bijkomende informatie over statistische gegevens. Het voorzien van een adequate documentatie bij de statistische informatie moet gebruikers informeren over welke vergelijkingen mogelijk zijn op basis van statistische gegevens en welke statistische analyses geschikt zijn voor bepaalde data. De beschrijving van de kwaliteit van de statistische informatie die vervat zit in de documentatie is belangrijke informatiebron op basis waarvan zulke afwegingen gemaakt kunnen worden. Zowel het statistisch productieproces als de uiteindelijke statistische informatie moeten voldoende gedetailleerd beschreven worden om elke foutieve interpretatie uit te sluiten. Om deze functies waar te maken bevat het metadatasysteem: - een beschrijving van de data - een beschrijving van de bron(nen) - een bescrhijving van de kwaliteit - enkele bijkomende velden
II. Beschrijving van de data Terminologie is altijd een kwestie van conventie. De terminologie die gebruikt wordt in het metadata-systeem is dat ook, maar het is wem een internationaal vaak terugkerende terminologie, zoals ook blijkt door de referenties. Data worden beschreven a.d.h.v. eenheden, variabelen en waarden. Een eenvoudige en duidelijke omschrijving van deze termen wordt uitgelegd adhv een voorbeeld. We gaan daarbij uit van volgende eenvoudige dataset. Dit zou een VDAB of RSZbestand kunnen zijn, maar ook het resultaat van een survey. Eenheid
Geslacht
Leeftijd
Tewerkstellingssituatie
Gemeente
1 2 3 4 5 6 7 8 9 10 11 …
man man vrouw vrouw vrouw man vrouw man vrouw man man …
25 36 30 32 66 49 48 45 41 57 54 …
werkzoekend voltijds werkend voltijds werkend deeltijds werkend gepensioneerd voltijds werkend werkzoekend voltijds werkend voltijds werkend bruggepensioneerd voltijds werkend …
Antwerpen Antwerpen Boom Aartselaar Boechout Boechout Brasschaat Brasschaat Edegem Essen Essen …
In deze dataset geldt: Eenheid
persoon
Variabelen geslacht leeftijd tewerkstellingssituatie gemeente
categorisch of nominaal metrisch of numeriek categorisch categorisch
Waarden geslacht
man vrouw
leeftijd
aantal jaren (minimum 25 - maximum 66)
tewerkstellingssituatie
werkzoekend voltijds werkend deeltijds werkend gepensioneerd bruggepensioneerd
gemeente
Aartselaar Antwerpen Boom Aartselaar Boechout Brasschaat Edegem Essen
Bij categorische/nominale variabelen (zoals geslacht en tewerkstellingssituatie) worden de waarden vaak ook categorieën genoemd.
Zodus: Bij de eenheid "meet" je één of meerdere variabelen en die variabelen kunnen een bepaalde waarde aannemen.
Als we die atomaire data (een veel grotere dataset dan) zouden gebruiken om volgende tabel samen te stellen: Gemeente
aantal werkzoekenden
Aartselaar Antwerpen Boechout Boom Borsbeek Brasschaat Brecht Edegem Essen Hemiksem Hove Kalmthout ...
200 20.000 200 400 300 800 500 500 300 200 200 300 ...
verandert de beschrijving. Eenheid
gemeente
Variabele aantal werkzoekenden
metrisch
Waarden aantal werkzoekenden
minimum 200 - maximum 20000
De eenheden zijn nu gemeenten. Bij de gemeenten onderzoek je het aantal werkzoekenden en die variabele kan de waarden 200 tot 20000 aannemen. Soms wordt er bij de eenheden een onderscheid gemaakt tussen waarover/over wie weet je iets en bij wat/wie heb je gemeten. Dat wordt dan aangeduid door het verschil meeteenheid / onderzoekseenheid. Zo is voor dit laatste voorbeeld de onderzoekseenheid de gemeente, maar omdat de meting bij personen plaatsvond, is de "meeteenheid" nog wel de persoon. Dit onderscheid meeteenheid / onderzoekseenheid maakt dus eigenlijk duidelijk op welk niveau de data beschikbaar zijn.
Na het voorbeeld een formele omschrijving In de hierna volgende verduidelijkingen baseren we ons geregeld op de SDMX Metadata Common Vocabulary, een resultaat van een project rond de uitwisseling van statistische data en metadata van enkele internationale organisaties (BIS, ECB, European Community, IBRD, IMF en OECD).
Eenheid Eenheid komt van het Engelse Statistical Unit, soms letterlijk vertaald als statistische eenheid. Definitie volgens SDMX An object of statistical survey and the bearer of statistical characteristics. The statistical unit is the basic unit of statistical observation within a statistical survey. De eenheid is dus de drager van de eigenschappen, de observatie waarbij je eigenschappen onderzoekt. Je "onderzoekt" bij een persoon wat zijn/haar tewerkstellingssituatie is. Je "onderzoekt" het aantal werklozen bij een gemeente. Om verwarring uit te sluiten is het belangrijk een onderscheid te benadrukken met het alledaagse taalgebruik. Als we statistische data beschrijven en we hebben het over eenheden, bedoelen we daarmee dus zeker niet de "eenheid" waarin iets gemeten wordt, zoals bvb. euro, vierkante meter, liter... In het Nederlands, wordt vaker onderzoekseenheid gebruikt dan statistische eenheid. Dat benadrukt dan ook het onderscheid met meeteenheid. Bij meeteenheid is de mogelijke verwarring van hierboven misschien nog iets groter. Maar ook een meeteenheid heeft hier de betekenis van een drager van eigenschappen. Het onderscheid kan soms relevant zijn, omdat bij wie of bij wat je meet, soms verschilt van de eigenlijke interesse van het statistisch onderzoek (statistical survey). Dat is gebeurd in het laatste voorbeeld. De "drager" van de eigenschap "aantal werkzoekenden" is duidelijk de gemeente. Gemeenten zijn dus onze onderzoekseenheden. Maar we hebben die eigenschap berekend door eerst bij personen te gaan observeren of zij al dan niet werkzoekend waren. Dus zijn de personen de meeteenheden. Definitie volgens SDMX van Unit of Measure A unit of measure is the actual unit in which the associated values are measured. Als we rechtstreeks aan gemeenten hadden gevraagd hoeveel werkzoekenden zij tellen, dan waren de gemeenten de meeteenheden geweest.
Bemerk dat voor een metadata-bestand de omschrijving van de meeteenheden eigenlijk van minder belang is dan de omschrijving van de onderzoekseenheden. Bij de beschrijving van de kwaliteit van de data, moet immers ook duidelijk worden hoe bepaalde variabelen gemeten zijn. Een beschrijving van de kwaliteit veronderstelt een beschrijving van het "meetproces" en moet bijgevolg het duidelijk maken wat de meeteenheden waren. Een correcte omschrijving van de onderzoekseenheden is nuttig om gericht op zoek te gaan naar statistische informatie. Stel bijvoorbeeld dat iemand de vraag stelt: "Hoeveel gemeentelijke statistieken staan er op de website van APS?". Die vraag kan je dan vertalen in "Hoeveel statistieken staan er op de APS-website, waarbij gemeente de onderzoekseenheid is?" en die vraag zou eenvoudig beantwoord moeten worden door het nieuwe metadatasysteem. Gewoon zoeken op trefwoord, zou in dit geval ook data opleveren waarbij gemeente een variabele is, en dat is niet de bedoeling van de vraag.
Variabelen en waarden Definitie volgens SDMX van Variable A variable is a characteristic of a unit being observed that may assume more than one of a set of values to which a numerical measure or a category from a classification can be assigned (e.g. income, age, weight, etc. and 'occupation', 'industry',' disease', etc. Variabelen zijn dus eigenschappen van de onderzoekseenheden en die variabelen kunnen verschillende waarden aannemen. Die waarden kunnen getallen zijn of categorieën. In het eerste geval spreken we over numerieke (of metrische) variabelen, in het tweede over categorische (of nominale) variabelen. Deze terminologische uitklaring en het voorbeeld zouden moeten duidelijk maken dat elementen van een databestand verschillende rollen kunnen hebben. Zo is gemeente de ene keer een variabele en de andere keer de omschrijving van de onderzoekseenheden. Aartselaar is de ene keer een waarde voor een variabele en de andere keer één welbepaalde onderzoekseenheid. Deze concepten worden nogal dikwijls intuïtief en door elkaar gebruikt, mede als gevolg van de verschillende mogelijke rollen. Meestal leidt dat ook niet direct tot misverstanden, maar voor een metadata-systeem is zo'n uitklaring nu eenmaal noodzakelijk. Een consequente opvolging van deze regels maakt zoeken in het systeem achteraf veel eenvoudiger en efficiënter.
III. Omschrijving van de bron Ook bij de beschrijving van de oorsprong van data moeten enkele keuzes gemaakt worden. Ook hier is er voor een stuk sprake van conventie. Bij deze keuze baseren we ons op de Dublin Core Metadata Element Set, een initiatief dat internationale standaarden voor metadata (niet alleen voor statistische informatie) beoogt. Uit de lijst van te beschrijven elementen die de Dublin Core opsomt, nemen wij Creator, Publisher en Source over. Dublin Core definities Creator An entity primarily responsible for making the content of the resource. Publisher An entity responsible for making the resource available. Source A reference to a resource from which the present resource is derived. Wij hebben dat vertaald als Producent (wie of wat heeft de data gemaakt, de brongegevens bewerkt,…?), Verspreiding (wie of wat heeft de data verspreid?) en Bron (wie of wat heeft het oorspronkelijke materiaal verzameld waaruit de data gedistilleerd zijn?). Ook dit onderscheid kan best verduidelijkt worden met een voorbeeld. In interactieve databank met gemeentelijke en regionale indicatoren vinden we bijvoorbeeld de gemeentelijke werkzaamheidsgraden. Deze worden berekend door het Steunpunt WAV en dat is bijgevolg ook de producent. Steunpunt WAV verspreidt die cijfers ook via zijn website en is bijgevolg ook verspreidingsinstantie. Omdat APS de cijfers ook opgenomen heeft in die databank, kan APS eveneens onder verspreiding vermeld worden. De data van de werkzaamheidsgraad zijn gebaseerd op cijfers afkomstig van het Nationaal Instituut voor de Statistiek, de Rijksdienst voor Sociale Zekerheid, de Rijksdienst voor Sociale Zekerheid van de Provinciale en Plaatselijke Overheidsdiensten, de Rijksdienst voor de Sociale Verzekering der Zelfstandigen en het Rijksinstituut voor Ziekte en Invaliditeitsverzekering. Zij worden dus allemaal vermeld als bron.
IV. Beschrijving van de kwaliteit Voor een beschrijving van de kwaliteit van statistische informatie kiest het metadata-systeem voor kwaliteitsdimensies zoals gedefinieerd door Eurostat: relevantie, accuraatheid, tijdigheid en stiptheid, toegankelijkheid, vergelijkbaarheid, coherentie, volledigheid. Deze worden alle zeven uitgebreid besproken in de brochure Kwaliteitszorg Statistisch Productieproces. Een korte recapitulatie hier:
relevantie De relevantie van statistische informatie wordt bepaald door de behoeften van gebruikers. Statistieken zijn relevant als zij voldoen aan die behoeften. Bij de bespreking van de kwaliteit van data in het metadata-systeem is het onder deze hoofding de bedoeling te verwijzen naar beleidseffecten in beleidsnota's, beleidsbrieven, reguliere monitoringsrapporten zoals Pact van Vilvoorde, Top van Lissabon… "Waarvoor worden deze data gebruikt en door wie?"
accuraatheid De accuraatheid van een statistiek wordt gedefinieerd als de mate van overeenstemming tussen de geschatte waarde ervan en de (niet gekende) echte populatiewaarde. Accuraatheid wordt geëvalueerd door het gebrek eraan te onderzoeken. Het idee is dat geen enkele statistiek 100% juist is. Elke statistiek bevat een zekere fout. De totale fout van een statistiek wordt traditioneel onderverdeeld in steekproeffouten en andere fouten (dekkingsfouten, meetfouten, procesfouten, nonresponse fouten en modelassumptiefouten). Concreet hoort er onder accuraatheid een min of meer gedetailleerde beschrijving van het meetproces thuis. "Is er gebruik gemaakt van een survey of van administratieve registraties. Werd hierbij een steekproef gebruikt of is de volledige populatie bevraagd?" De volledige lijst met vragen die beantwoord kunnen worden onder accuraatheid is te vinden op pagina 20-21 van de brochure. Alleen de vragen relevant voor deze data moeten natuurlijk beantwoord worden. Bij survey data moeten zeker de responsratio's vermeld worden.
tijdigheid en stiptheid Gebruikers willen de statistische informatie frequent en op tijd, liefst op een vooraf bepaalde datum. Dat is dus een kwaliteitskenmerk. In de metadata moeten volgende vragen beantwoord worden: "Wanneer wordt de informatie beschikbaar gesteld? Wat is de doorlooptijd (de duur van de tijdsperiode tussen de registratie of enquête en de publicatie van de resultaten)? Wordt de informatie op vooraf bepaalde data beschikbaar gesteld?"
toegankelijkheid en duidelijkheid Statistische informatie moet eenvoudig toegankelijk zijn, in een voor zoveel mogelijk gebruikers gemakkelijk hanteerbare vorm én goed gedocumenteerd. Idealiter is er ook assistentie bij het gebruik en de interpretatie van de statistieken. Te beantwoorden vragen voor deze kwaliteitsdimensie: "Hoe ruim wordt de statistische informatie verspreid? Wordt de toegankelijkheid beperkt? Is er documentatie beschikbaar?" (Voor een stuk komt de metadatafiche zelf hieraan tegemoet natuurlijk.)
vergelijkbaarheid Statistieken zijn het bruikbaarst als ze betrouwbare vergelijkingen in tijd (tussen bepaalde periodes, tijdstippen...) en ruimte (tussen regio’s, landen...) toelaten. Concreet: "In welke mate kunnen we vergelijken? Over de jaren heen, tussen landen, regio's…"
coherentie De coherentie van statistieken wordt op twee manieren bepaald, al naargelang zij voortkomen uit dezelfde of uit verschillende bronnen. Statistieken die voortkomen uit één bron zijn coherent als de elementaire concepten op een betrouwbare manier kunnen samengevoegd worden tot meer complexe maten. Statistieken die voortkomen uit verschillende bronnen zijn coherent als ze gebaseerd zijn op gemeenschappelijke definities, classificaties, methodologische standaarden,… Coherentie leidt tot vergelijkbaarheid van verschillende statistieken die oorspronkelijk met verschillende bedoelingen en voor verschillend gebruik of voor verschillende gebruikers gemaakt zijn. Een voorbeeldje kan dit verder verduidelijken. Er zijn werkloosheidscijfers op basis van VDAB-cijfers en op basis van de EAK/LFS (Enquête naar de Arbeidskrachten/Labour Force Survey). Als de VDAB-registratie omwille van wetgeving of om een andere reden door de jaren heen veranderd is, moet dit vermeld worden onder vergelijkbaarheid. Als de cijfers van de VDAB een andere evolutie laten zien dan deze van de EAK moet dit onder coherentie vermeld worden (en moeten mogelijke oorzaken hiervoor aangegeven worden). Concreet horen hier verwijzingen naar andere data en fiches die gelijkaardige, maar niet dezelfde informatie bevatten, alsook een verklaring voor mogelijke verschillen. Ook beschrijvingen van herzieningen van data (als er eerst voorlopige cijfers werden vrijgegeven) worden door Eurostat onder coherentie ondergebracht.
volledigheid De vraag naar de volledigheid van statistische informatie gaat na in hoeverre tegemoet gekomen kan worden aan de behoeften en prioriteiten zoals bepaald door de gebruikers. Concreet: "In welke mate is de informatie die noodzakelijk is om uitspraken te doen over een beleidsdoelstelling, een (verplichte) rapportering… beschikbaar?"
V. Bijkomende velden Er zijn nog 2 bijkomende velden, in te vullen in FRED: definities en referenties. Definities moeten de duidelijkheid ten goede komen. Zij dienen om voornamelijk de variabelen en/of waarden van de variabelen te verduidelijken. Referenties zijn links naar de data en (eventueel) naar verdere informatie over de data.