HISSTAT Voorstelling Kritische analyse bronnen
Brussel, FOD Economie, 20 juni 2012
Workshop 20 juni 2012
1
Inhoud
1. 2.
Voorstelling van HISSTAT
3.
Demonstratie van de website “Census 1900”
Toepassing: kritische analyse van de volkstellingen (18001970)
Workshop 20 juni 2012
2
1. Voorstelling van HISSTAT
Workshop 20 juni 2012
3
1. HISSTAT - voorstelling
•
Beschrijving – Infrastructuur voor historische statistieken • Databanken voor de opslag en het beheer van primaire, originele data • Instrumenten voor de analyse van de gegevens (o.a. GIS) • Metadatabank en bronnenkritiek
– Scope: • Volledige Belgische grondgebied – op microniveau (gemeenten of lager)
• Periode 1800-1970
Workshop 20 juni 2012
4
1 HISSTAT - voorstelling
•
Doelstellingen – Bewaring van het statistisch erfgoed – Wetenschappelijk potentieel van oude bronnen valoriseren • Door data exploiteerbaar te maken • Gebruik van moderne technieken mogelijk maken • Potentieel wordt nog onvoldoende benut
– Stimuleren van interdisciplinaire samenwerking – Brug slaan tussen micro-onderzoek en onderzoek op nationaal en internationaal niveau – Coördinatie van expertise in België
Workshop 20 juni 2012
5
1. HISSTAT - voorstelling
•
Verschillende aanpak door toestand bronnenmateriaal – 1801-1970 alleen geaggregeerde data • op het niveau van de gemeenten (ca. 2500) • alleen beschikbaar op papier (bibliotheken, archieven) • digitalisering en ontsluiting door de UGent, Lokstat
– Vanaf 1961 data beschikbaar op individueel niveau • in machine-leesbare vorm • afkomstig van overheidsinstellingen • ontsluiting door de VUB, Interface Demography
Workshop 20 juni 2012
6
1. HISSTAT - voorstelling HISSTAT: Research Infrastructure for Historical Statistics based on Microdata in Belgium Databases
(TRANSCENS)
Population statistics
LOKSTAT: database of local statistics
(HISGIS )
1961- 2001
1970 - 2001
1800 - 1970
1800-1961
VUB
UGent
UGent
GIS
VUB
Digital datasets from the Belgian gov. Institutions (Censuses ADSEI,...)
GIS
Data from non digital sources: Books, archives
Database
Raw Data source
Tool
Data available at individual level
Workshop 20 juni 2012
Quantitative Database of the Belgian Municipalities
Digital collections from external depositors
Data available at local level (municipalities)
7
1. HISSTAT - voorstelling
•
LOKSTAT – Selectiecriteria van de microstatistieken • Graad van detail – moet volledig Belgische grondgebied beslaan – moet teruggaan tot op het niveau van de gemeenten
• Relevantie en bruikbaarheid van de variabelen • Beschikbaarheid van de bronnen • Mogelijkheid tot vergelijking in de tijd
– Voornamelijk klassieke tellingen van de bevolking, landbouw, handel en nijverheid – Occasionale statistieken (stemrecht, kadaster)
Workshop 20 juni 2012
8
1. HISSTAT - voorstelling
•
LOKSTAT/HISSTAT – Project gefinancierd door de Herculesstichting – Duur 2009-2013 – Toegang tot de data • data komen vrij op het einde van het project • staan ter beschikking van het wetenschappelijk onderzoek – met inachtneming van de privacywetgeving – via website Census 1900 (www.lokstat.ugent.be) – op eenvoudige aanvraag bij ploegen VUB en UGent
Workshop 20 juni 2012
9
2.
Voorbeeldtoepassing
Kritische analyse van de volkstellingen in België 1800-1970
Workshop 20 juni 2012
10
2. Kritiek volkstellingen 1800 - 1970
•
Kritische evaluatie van Lokstat-data – Vraag naar de kwaliteit van oude statistieken Tellingen zijn vatbaar voor vertekening en fouten Relatief weinig bekend over de betrouwbaarheid, door → onvoldoende data in digitale vorm → gebrek aan evaluatietechnieken
– Kritische doorlichting met de volkstellingen 1800- 1970 1. 2.
Principes van de Wet van Benford Analyse van de officiële uitslagen
Workshop 20 juni 2012
11
2. Kritiek volkstellingen 1800 - 1970
•
De Wet van Benford – Artikel “The Law of Anomalous Numbers” (New York, 1938) – Principe: frequentie van de begincijfers van getallen uit bepaalde datasets beantwoordt aan vaste verhoudingen • geen uniforme verdeling zoals intuïtief wordt aangevoeld
– Vast percentage begincijfers • 1 → 30,1 % • 2 → 17,6 % • 3 → 12,5 % • 4 → 9,7 % • 5 → 7,9 % • 6 → 6,7 % • 7 → 5,8 % • 8 → 5,1 % • 9 → 4,5 % Totaal 100 %
Workshop 20 juni 2012
12
Workshop 20 juni 2012
13
2. Kritiek volkstellingen 1800 - 1970
•
De Wet van Benford – Empirisch aangetoond in zeer uiteenlopende domeinen – Wiskundige verklaring volgt pas laat (Hill 1996 ) – Datasets onderhevig aan de wet: • op basis van waarnemingen • geen onder- of bovengrens • niet ontsproten aan de menselijke brein of random gekozen – geen telefoonnumers, lotto-uitslagen; …
• Voldoende aantal waarnemingen – bij voorkeur minstens 10.000
Workshop 20 juni 2012
14
2. Kritiek volkstellingen 1800 - 1970 Sambridge e.a. 2010
Workshop 20 juni 2012
15
2. Kritiek volkstellingen 1800 - 1970
•
De Wet van Benford: praktische toepassingen – Opsporing bias in datasets – Fraudebestrijding • • • •
Boekhouding, financiële audits Macro-economische statistieken (bv. begrotingscijfers Eurozone) Verkiezingsuitslagen (Iran) Officiële statistieken van broekasgasemissies
– Vnl. toepassingen in V.S. • Minder in Europa, weinig in België
– Toepasbaar op bevolkingsstatistieken (Benford 1938, Sakai 1991)
Workshop 20 juni 2012
16
2. Kritiek volkstellingen 1800 - 1970
•
De Wet van Benford: – Onderzochte LOKSTAT- datasets • Volkstellingen: – Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)
• Bevolkingsverloop: – Geboorten, sterfte, in- en uitwijking per geslacht en per jaar, 1841-1976 (N = 2.500.000)
– Artikel • “De macht van het getal: een kritische analyse van de bevolkingsstatistieken in België (1801-1970)” In: Belgisch Tijdschrift voor Nieuwste Geschiedenis (31 blz., ingestuurd mei 2012)
Workshop 20 juni 2012
17
2. Kritiek volkstellingen 1800 - 1970 % Aandeel van de eerste cijfers Bevolkingsstatistieken van de Belgische gemeenten, 1800-1975 35%
Bevolking naar geslacht en burgerlijke staat (tellingen); Geboorten, sterften, migratie (Mouvement)
30%
25%
20%
Volkstellingen Mouvement Wet van Benford
15%
10%
5%
0% Workshop 1 20 juni 2012 2
3
4
5
6
7
8
9
18
2. Kritiek volkstellingen 1800 - 1970 Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
χ² 100
10 MAD χ²
90
MAD
9
80
8
70
7
60
6
50
5
40
4
30
3
20
2
10
1
0
0 1801
1806
1818
Workshop 20 juni 2012
1830
1846
1856
1866
1880
1890
1900
1910
1961
1970
19
2. Kritiek volkstellingen 1800 - 1970
•
De Wet van Benford: – Criteria van conformiteit (first digit, Drake & Nigrini 2000) • Gemiddelde Absolute Afwijking – 0 – 4 : grote gelijkenis met het patroon van Benford » Verschillen toe te schrijven aan toeval » Tellingen 1800 - 1818 – 4 – 8: duidelijke afwijkingen, maar acceptabel » Tellingen 1830-1846, 1890-1971 – 8 en meer: aanzienlijke afwijking » Tellingen 1856 - 1880
Workshop 20 juni 2012
20
2. Kritiek volkstellingen 1800 - 1970 Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
χ² 100
10 MAD χ²
90
MAD
80
9 8
3
70
2
7
60
6
50
5
40
4
1
30
3
20
2
10
1
0
0 1801
1806
1818
Workshop 20 juni 2012
1830
1846
1856
1866
1880
1890
1900
1910
1961
1970
21
2. Kritiek volkstellingen 1800 - 1970
Standaard telformulieren -1818
Workshop 20 juni 2012
1830-
22
2. Kritiek volkstellingen 1800 - 1970
Standaard telformulieren 1818
Workshop 20 juni 2012
1830
23
2. Kritiek volkstellingen 1800 - 1970 Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
χ² 100
10 MAD χ²
90
MAD
9
80
8
70
7
2 60
6
50
5
40
4
30
3
20
2
10
1
0
0 1801
1806
1818
Workshop 20 juni 2012
1830
1846
1856
1866
1880
1890
1900
1910
1961
1970
24
2. Kritiek volkstellingen 1800 - 1970
Fr.
0,50
Kostprijs van de volkstellingen (Fr. per inwoner – geïndexeerd, basis 1914)
0,45 0,40 0,35 0,30
0,25 0,20 0,15 0,10 0,05 0,00 1846
Workshop 20 juni 2012
1856
1866
1880
1890
1900
1910
1920
1930
1947
1961
25
2. Voorbeeldtoepassing Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
χ² 100
10 MAD χ²
90
MAD
80
9 8
3
70
7
60
6
50
5
40
4
30
3
20
2
10
1
0
0 1801
1806
1818
Workshop 20 juni 2012
1830
1846
1856
1866
1880
1890
1900
1910
1961
1970
26
2. Kritiek volkstellingen 1800 - 1970
•
Organisatie volkstellingen 1880 - 1890 Verschillen Significant Niet-significant X X X X X
Scope Richtlijnen Uitvoering Resultaten Controle
Controle van de gemeentelijke telformulieren – 1880: geringe controle – beperkte controlemechanismen
– 1890: oprichting van een telbureau in de schoot van Binnenlandse Zaken • 37 000 tabellen nagekeken – 4 829 tabellen voor rectificatie teruggestuurd naar gemeenten – 3 970 aanmaningen en rappels gestuurd naar gemeenten
Workshop 20 juni 2012
27
2. Kritiek volkstellingen 1800 - 1970 Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
χ² 100
10 MAD χ²
90
MAD
9
80
8
70
7
60
6
50
5
40
4
30
3
20
2
10
1
0
0 1801
1806
1818
Workshop 20 juni 2012
1830
1846
1856
1866
1880
1890
1900
1910
1961
1970
28
2. Kritiek volkstellingen 1800 - 1970
•
Volkstellingen 1801-1818 – Geen afwijking met de verdeling volgens Benford • Datasets die de verdeling volgen zijn niet noodzakelijk betrouwbaar – Alleen systematische cijfervertekening is detecteerbaar
• Redenen voor grote conformiteit met de verdeling van Benford – Afwezigheid van centrale instantie die teluitkomsten kon bijwerken – Telformulieren waren niet complex
Workshop 20 juni 2012
29
2. Kritiek volkstellingen 1800 - 1970
•
Conclusie – De Wet van Benford biedt een bruikbaar referentiekader om datasets kritisch te wegen • bepaalde vormen van systematische afwijkingen detecteerbaar • Voorzichtigheid is geboden bij de interpretatie van de resultaten – De toepassingsvoorwaarden van de wetmatigheid zijn niet altijd duidelijk
– Artikel • “De macht van het getal: een kritische analyse van de bevolkingsstatistieken in België (1801-1970)” In: Belgisch Tijdschrift voor Nieuwste Geschiedenis (31 blz., ingestuurd mei 2012)
Workshop 20 juni 2012
30
2. Kritiek statistieken bevolkingsverloop 1841-1976 Aantal geboorten geregistreerd per jaar en per geslacht in de Belgische gemeenten, 1841-1976 (uitgezonderd 1851-1879) Conformiteit met de frequentieverdeling van Benford (eerste cijfer)
160 χ² 140 Trend
120 100 80 60 40 20 0
Workshop 20 juni 2012
31
2. Kritiek statistieken bevolkingsverloop 1841-1976 Aantal sterften geregistreerd per jaar en per geslacht in de Belgische gemeenten, 1841-1976 (uitgezonderd 1851-1879) Conformiteit met de frequentieverdeling van Benford (eerste cijfer)
χ²
160 Trend
140 120 100 80 60 40 20 0
Workshop 20 juni 2012
32
3. Voorstelling van de website “Census 1900”
Workshop 20 juni 2012
33
3. Voorstelling website
•
Website Census 1900 – www.lokstat.ugent.be – Ontwikkeld in samenwerking van Vakgroep Geografie UGent – Bronnen: • Landbouwtelling 1895 • Nijverheidstelling 1896 • Volkstelling 1900
– Structuur: • Toelichting bronnen • Tabellen • Kaarten
– Technische achtergrond: • HTML • PHP • MySQL Workshop 20 juni 2012
34