Wiskunde in Actie
1 november 2001
Schatting voor het aantal tanks: is statistiek beter dan de geheime dienst? dr. H.P. Lopuha¨a UHD Statistiek Opleiding Technische Wiskunde Faculteit Informatietechnologie & Systemen Technische Universiteit Delft
[email protected]
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Inhoud
• Introductie
Wiskunde in Actie
1 november 2001
Inhoud
• Introductie • Mogelijke schattingsmethoden
Wiskunde in Actie
1 november 2001
Inhoud
• Introductie • Mogelijke schattingsmethoden • Onderzoeken en vergelijken van de verschillende methoden
Wiskunde in Actie
1 november 2001
Inhoud
• Introductie • Mogelijke schattingsmethoden • Onderzoeken en vergelijken van de verschillende methoden • Wat heeft dit met Wiskunde te maken?
Wiskunde in Actie
1 november 2001
Inhoud
• Introductie • Mogelijke schattingsmethoden • Onderzoeken en vergelijken van de verschillende methoden • Wat heeft dit met Wiskunde te maken? • Resultaten voor de 2e wereldoorlog
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Introductie
Begin 1943: Economic Warfare Division van de Amerikaanse ambassade in Londen begint een samenwerking het Britse Ministry of Economic Warfare waarbij men merktekens en serienummers analyseert op buitgemaakt Duits oorlogsmateriaal
Wiskunde in Actie
1 november 2001
Introductie
Begin 1943: Economic Warfare Division van de Amerikaanse ambassade in Londen begint een samenwerking het Britse Ministry of Economic Warfare waarbij men merktekens en serienummers analyseert op buitgemaakt Duits oorlogsmateriaal Doel: beter inzicht te verkijgen in de Duitse oorlogsproductie (hoeveel, wanneer en waar) en oorlogsterkte
Wiskunde in Actie
1 november 2001
Introductie
Begin 1943: Economic Warfare Division van de Amerikaanse ambassade in Londen begint een samenwerking het Britse Ministry of Economic Warfare waarbij men merktekens en serienummers analyseert op buitgemaakt Duits oorlogsmateriaal Doel: beter inzicht te verkijgen in de Duitse oorlogsproductie (hoeveel, wanneer en waar) en oorlogsterkte Eerst banden van trucks, auto’s en vliegtuigen Later tanks, trucks, kanonnen, raketten
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Banden
n serienummers werden gedecodeerd en vertaald naar een steekproef van n getallen uit 1, 2, . . . , N De onbekende N interpreteren we als het totaal aantal banden
Wiskunde in Actie
1 november 2001
Banden
n serienummers werden gedecodeerd en vertaald naar een steekproef van n getallen uit 1, 2, . . . , N De onbekende N interpreteren we als het totaal aantal banden Doel: schat N op basis van de n buitgemaakte serienummers
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Statistisch model
• de gedecodeerde serienummers X1, X2, . . . , Xn vatten we op als trekkingen zonder teruglegging uit 1, 2, . . . , N
Wiskunde in Actie
1 november 2001
Statistisch model
• de gedecodeerde serienummers X1, X2, . . . , Xn vatten we op als trekkingen zonder teruglegging uit 1, 2, . . . , N • elk getal uit 1, 2, . . . , N heeft evenveel kans om getrokken te worden
Wiskunde in Actie
1 november 2001
Statistisch model
• de gedecodeerde serienummers X1, X2, . . . , Xn vatten we op als trekkingen zonder teruglegging uit 1, 2, . . . , N • elk getal uit 1, 2, . . . , N heeft evenveel kans om getrokken te worden • het resultaat van een bepaalde trekking heeft geen invloed op het resultaat van andere trekkingen
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden
1. Methode gebaseerd op het gemiddelde van de steekproef
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden
1. Methode gebaseerd op het gemiddelde van de steekproef 2. Methode gebaseerd op het maximum van de steekproef
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden
1. Methode gebaseerd op het gemiddelde van de steekproef 2. Methode gebaseerd op het maximum van de steekproef 3. Methode gebaseerd op onderlinge tussenafstanden in de steekproef
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
1. Schatter gebaseerd op het gemiddelde Merk op dat voor het gemiddelde van alle getallen geldt 1 N (N + 1) N + 1 1 + 2 + ··· + N =2 = N N 2
Wiskunde in Actie
1 november 2001
1. Schatter gebaseerd op het gemiddelde Merk op dat voor het gemiddelde van alle getallen geldt 1 N (N + 1) N + 1 1 + 2 + ··· + N =2 = N N 2
Dit suggereert voor het gemiddelde van de getallen in de steekproef, dat ¯ n = X1 + X2 + · · · + Xn ≈ N + 1 X n 2
Wiskunde in Actie
1 november 2001
1. Schatter gebaseerd op het gemiddelde Merk op dat voor het gemiddelde van alle getallen geldt 1 N (N + 1) N + 1 1 + 2 + ··· + N =2 = N N 2
Dit suggereert voor het gemiddelde van de getallen in de steekproef, dat ¯ n = X1 + X2 + · · · + Xn ≈ N + 1 X n 2 Neem als schatter voor N ¯n − 1 T1 = 2X
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
2. Schatter gebaseerd op het maximum Merk op dat voor Mn = maximum van X1, X2, . . . , Xn geldt n Mn ≈ N n+1
Wiskunde in Actie
1 november 2001
2. Schatter gebaseerd op het maximum Merk op dat voor Mn = maximum van X1, X2, . . . , Xn geldt n Mn ≈ N n+1
zodat
n+1 Mn ≈ N n
Wiskunde in Actie
1 november 2001
2. Schatter gebaseerd op het maximum Merk op dat voor Mn = maximum van X1, X2, . . . , Xn geldt n Mn ≈ N n+1
zodat
n+1 Mn ≈ N n
Merk echter ook op dat voor alle getallen (n = N ) geldt N +1 N +1 MN = ·N =N +1 N N
Wiskunde in Actie
1 november 2001
2. Schatter gebaseerd op het maximum Merk op dat voor Mn = maximum van X1, X2, . . . , Xn geldt n Mn ≈ N n+1
zodat
n+1 Mn ≈ N n
Merk echter ook op dat voor alle getallen (n = N ) geldt N +1 N +1 MN = ·N =N +1 N N Dus neem als schatter T2 = TU Delft
n+1 Mn − 1 n Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
3. Schatter gebaseerd op tussenafstanden Definieer de tussenafstand Di als het aantal ontbrekende nummers tussen het i-de en het (i + 1)-de steekproefnummer in volgorde naar grootte
Wiskunde in Actie
1 november 2001
3. Schatter gebaseerd op tussenafstanden Definieer de tussenafstand Di als het aantal ontbrekende nummers tussen het i-de en het (i + 1)-de steekproefnummer in volgorde naar grootte Merk op dat het aantal ontbrekende nummers tussen het maximum en N ongeveer gelijk is aan de gemiddelde tussenafstand: D1 + · · · + Dn−1 N − Mn ≈ n−1
Wiskunde in Actie
1 november 2001
3. Schatter gebaseerd op tussenafstanden Definieer de tussenafstand Di als het aantal ontbrekende nummers tussen het i-de en het (i + 1)-de steekproefnummer in volgorde naar grootte Merk op dat het aantal ontbrekende nummers tussen het maximum en N ongeveer gelijk is aan de gemiddelde tussenafstand: D1 + · · · + Dn−1 N − Mn ≈ n−1 Dus neem als schatter T 3 = Mn +
TU Delft
D1 + · · · + Dn−1 n−1 Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden 1. methode gebaseerd op het gemiddelde:
¯n − 1 T1 = 2X
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden 1. methode gebaseerd op het gemiddelde:
¯n − 1 T1 = 2X 2. methode gebaseerd op het maximum
T2 =
n+1 Mn − 1 n
Wiskunde in Actie
1 november 2001
Mogelijke schattingsmethoden 1. methode gebaseerd op het gemiddelde:
¯n − 1 T1 = 2X 2. methode gebaseerd op het maximum
T2 =
n+1 Mn − 1 n
3. methode gebaseerd op tussenafstanden
D1 + · · · + Dn−1 T3 = Mn + n−1
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Onderzoeken van de drie methoden
Wordt schatting beter als n toeneemt?
Wiskunde in Actie
1 november 2001
Onderzoeken van de drie methoden
Wordt schatting beter als n toeneemt? Hoe snel komt schatting dichter bij N ?
Wiskunde in Actie
1 november 2001
Onderzoeken van de drie methoden
Wordt schatting beter als n toeneemt? Hoe snel komt schatting dichter bij N ? In hoeverre speelt de getrokken steekproef een rol?
Wiskunde in Actie
1 november 2001
Onderzoeken van de drie methoden
Wordt schatting beter als n toeneemt? Hoe snel komt schatting dichter bij N ? In hoeverre speelt de getrokken steekproef een rol? Neem als voorbeeld N = 100 000 Trek zonder teruglegging n getallen uit 1, 2, . . . , 100 000
Wiskunde in Actie
1 november 2001
Onderzoeken van de drie methoden
Wordt schatting beter als n toeneemt? Hoe snel komt schatting dichter bij N ? In hoeverre speelt de getrokken steekproef een rol? Neem als voorbeeld N = 100 000 Trek zonder teruglegging n getallen uit 1, 2, . . . , 100 000 Gedrag bij toenemende steekproefomvang n Plot de waarde van de schatter als functie van n
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Gedrag bij herhaalde steekproeven van vaste omvang
Is de schatting ‘gemiddeld genomen’ in de buurt van N ?
Wiskunde in Actie
1 november 2001
Gedrag bij herhaalde steekproeven van vaste omvang
Is de schatting ‘gemiddeld genomen’ in de buurt van N ? Neem als voorbeeld N = 100 000 en n = 500
Wiskunde in Actie
1 november 2001
Gedrag bij herhaalde steekproeven van vaste omvang
Is de schatting ‘gemiddeld genomen’ in de buurt van N ? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000
Wiskunde in Actie
1 november 2001
Gedrag bij herhaalde steekproeven van vaste omvang
Is de schatting ‘gemiddeld genomen’ in de buurt van N ? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000 2. Bereken de schatter
Wiskunde in Actie
1 november 2001
Gedrag bij herhaalde steekproeven van vaste omvang
Is de schatting ‘gemiddeld genomen’ in de buurt van N ? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000 2. Bereken de schatter 3. Herhaal stap 1 en 2 een groot aantal malen, zeg 1000 keer
Wiskunde in Actie
1 november 2001
Gedrag bij herhaalde steekproeven van vaste omvang
Is de schatting ‘gemiddeld genomen’ in de buurt van N ? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000 2. Bereken de schatter 3. Herhaal stap 1 en 2 een groot aantal malen, zeg 1000 keer Plot een histogram van de 1000 herhaalde schattingen
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Onderling vergelijken van de drie methodes
Hoe erg verschilt de mate van spreiding?
Wiskunde in Actie
1 november 2001
Onderling vergelijken van de drie methodes
Hoe erg verschilt de mate van spreiding? Neem als voorbeeld N = 100 000 en n = 500
Wiskunde in Actie
1 november 2001
Onderling vergelijken van de drie methodes
Hoe erg verschilt de mate van spreiding? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000
Wiskunde in Actie
1 november 2001
Onderling vergelijken van de drie methodes
Hoe erg verschilt de mate van spreiding? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000 2. Bereken alledrie de schatters
Wiskunde in Actie
1 november 2001
Onderling vergelijken van de drie methodes
Hoe erg verschilt de mate van spreiding? Neem als voorbeeld N = 100 000 en n = 500 1. Trek zonder teruglegging 500 getallen uit 1, 2, . . . , 100 000 2. Bereken alledrie de schatters 3. Herhaal stap 1 en 2 een groot aantal malen, zeg 1000 keer Vergelijk de drie histogrammen van de 1000 schattingen
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
1. ‘T ligt gemiddeld genomen dicht bij N ’ wordt wiskundig geformaliseerd door het begrip zuiverheid van een schatter T . Stel dat T een schatter is met mogelijke waarden w1, w2, . . ..
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
1. ‘T ligt gemiddeld genomen dicht bij N ’ wordt wiskundig geformaliseerd door het begrip zuiverheid van een schatter T . Stel dat T een schatter is met mogelijke waarden w1, w2, . . .. We zeggen dat T een zuivere schatter is voor N , als E(T ) = w1P (T = w1) + w2P (T = w2) + · · · = N voor alle N
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
1. ‘T ligt gemiddeld genomen dicht bij N ’ wordt wiskundig geformaliseerd door het begrip zuiverheid van een schatter T . Stel dat T een schatter is met mogelijke waarden w1, w2, . . .. We zeggen dat T een zuivere schatter is voor N , als E(T ) = w1P (T = w1) + w2P (T = w2) + · · · = N voor alle N Voor onze drie schatters geldt: E(T1) = N
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
1. ‘T ligt gemiddeld genomen dicht bij N ’ wordt wiskundig geformaliseerd door het begrip zuiverheid van een schatter T . Stel dat T een schatter is met mogelijke waarden w1, w2, . . .. We zeggen dat T een zuivere schatter is voor N , als E(T ) = w1P (T = w1) + w2P (T = w2) + · · · = N voor alle N Voor onze drie schatters geldt: E(T1) = N ,
E(T2) = N
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
1. ‘T ligt gemiddeld genomen dicht bij N ’ wordt wiskundig geformaliseerd door het begrip zuiverheid van een schatter T . Stel dat T een schatter is met mogelijke waarden w1, w2, . . .. We zeggen dat T een zuivere schatter is voor N , als E(T ) = w1P (T = w1) + w2P (T = w2) + · · · = N voor alle N Voor onze drie schatters geldt: E(T1) = N ,
TU Delft
E(T2) = N ,
E(T3) = N
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
2. De ‘mate van spreiding van T rond N ’ wordt wiskundig geformaliseerd door het begrip variantie van een schatter T .
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
2. De ‘mate van spreiding van T rond N ’ wordt wiskundig geformaliseerd door het begrip variantie van een schatter T . De variantie van een schatter T is gedefinieerd als V (T ) = E(T −E(T ))2
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
2. De ‘mate van spreiding van T rond N ’ wordt wiskundig geformaliseerd door het begrip variantie van een schatter T . De variantie van een schatter T is gedefinieerd als V (T ) = E(T −E(T ))2 Voor onze drie schatters geldt V (T1)
=
(N − n)(N + 1) 3n
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
2. De ‘mate van spreiding van T rond N ’ wordt wiskundig geformaliseerd door het begrip variantie van een schatter T . De variantie van een schatter T is gedefinieerd als V (T ) = E(T −E(T ))2 Voor onze drie schatters geldt V (T1)
=
(N − n)(N + 1) 3n
V (T2)
=
(N − n)(N + 1) (n + 2)n
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
2. De ‘mate van spreiding van T rond N ’ wordt wiskundig geformaliseerd door het begrip variantie van een schatter T . De variantie van een schatter T is gedefinieerd als V (T ) = E(T −E(T ))2 Voor onze drie schatters geldt
TU Delft
V (T1)
=
(N − n)(N + 1) 3n
V (T2)
=
(N − n)(N + 1) (n + 2)n
V (T3)
=
(N − n)(N + 1)n (n + 2)(n − 1)(n + 1) Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
3. Bestaat er een zuivere schatter met de kleinst mogelijke variantie?
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken?
3. Bestaat er een zuivere schatter met de kleinst mogelijke variantie? Met andere woorden, bestaat er een T die voldoet aan E(T ) = N zodanig dat V (T ) ≤ V (U ) voor elke andere schatter U , die voldoet aan E(U ) = N
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken? JA:
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken? JA: Met behulp van wiskundige theorie (1945-1950) kan worden afgeleid dat schatter n+1 T2 = Mn − 1 n een zuivere schatter is, met de kleinst mogelijke variantie onder alle zuivere schatters
Wiskunde in Actie
1 november 2001
Wat heeft dit met wiskunde te maken? JA: Met behulp van wiskundige theorie (1945-1950) kan worden afgeleid dat schatter n+1 T2 = Mn − 1 n een zuivere schatter is, met de kleinst mogelijke variantie onder alle zuivere schatters Welke methode gebruikte men in de tweede wereldoorlog?
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Methode tijdens tweede wereldoorlog
Tijdens de tweede wereldoorlog gebruikte men schatter T3
Wiskunde in Actie
1 november 2001
Methode tijdens tweede wereldoorlog
Tijdens de tweede wereldoorlog gebruikte men schatter T3 Merk op dat T3 = max +
D1 + · · · + Dn−1 n−1
Wiskunde in Actie
1 november 2001
Methode tijdens tweede wereldoorlog
Tijdens de tweede wereldoorlog gebruikte men schatter T3 Merk op dat D1 + · · · + Dn−1 n−1 max − min = max + −1 n−1
T3 = max +
Wiskunde in Actie
1 november 2001
Methode tijdens tweede wereldoorlog
Tijdens de tweede wereldoorlog gebruikte men schatter T3 Merk op dat D1 + · · · + Dn−1 n−1 max − min = max + −1 n−1 1 min n2 = T2 + 2 − n2 − 1 n −1 n−1
T3 = max +
Wiskunde in Actie
1 november 2001
Methode tijdens tweede wereldoorlog
Tijdens de tweede wereldoorlog gebruikte men schatter T3 Merk op dat D1 + · · · + Dn−1 n−1 max − min = max + −1 n−1 1 min n2 = T2 + 2 − n2 − 1 n −1 n−1 ≈ T2
T3 = max +
TU Delft
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Gemiddelde maandelijkse productie van banden tijdens periode Januari - Maart 1943
Type band
Truck en auto Vliegtuig Totaal
schatting
werkelijk
147 000 28 500 ——— 175 500
159 000 26 400 ——— 186 100
Wiskunde in Actie
1 november 2001
Gemiddelde maandelijkse productie van banden tijdens periode Januari - Maart 1943
Type band
Truck en auto Vliegtuig Totaal
TU Delft
schatting
werkelijk
geheime dienst
147 000 28 500 ——— 175 500
159 000 26 400 ——— 186 100
900 000 - 1 200 000
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Productie van trucks in 1942
Type truck
Lichte truck Medium truck Zware truck Totaal
schatting
werkelijk
16 500 62 300 18 500 ——— 97 300
14 436 53 439 11 952 ——— 79 827
Wiskunde in Actie
1 november 2001
Productie van trucks in 1942
Type truck
Lichte truck Medium truck Zware truck Totaal
TU Delft
schatting
werkelijk
geheime dienst
16 500 62 300 18 500 ——— 97 300
14 436 53 439 11 952 ——— 79 827
200 000
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Gemiddelde maandelijkse productie van tanks in 1940-42
Datum
Juni 1940 Juni 1941 Augustus 1942
schatting
werkelijk
169 244 327
122 271 342
Wiskunde in Actie
1 november 2001
Gemiddelde maandelijkse productie van tanks in 1940-42
Datum
Juni 1940 Juni 1941 Augustus 1942
TU Delft
schatting
werkelijk
geheime dienst
169 244 327
122 271 342
1000 1550 1550
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Jaarlijkse productie van kanonnen
TU Delft
Type
Jaar
schatting
werkelijk
7.5 cm. Pak 40 7.5 cm. Kwk 40 7.5 cm. Kwk 42
1942 1944 1944
2200 3300 3350
2112 3360 4210
Opleiding Technische Wiskunde
Wiskunde in Actie
1 november 2001
Productie van V-2 raketten
Periode
Tot aan 15 sep 15 sep - 29 okt 29 okt - 24 nov 24 nov - 15 jan 15 jan -15 feb
TU Delft
1944 1944 1944 1945 1945
schatting
werkelijk
670 1030 700 1100 700
1900 900 600 1100 700
Opleiding Technische Wiskunde