Cijfer 1 aan de top Wilfried Van Hirtum
Kans
Versie 1.05 6 januari 2009
0, 3 0, 2 0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Samenvatting Neem een willekeurige krantenpagina met beursberichten. Dan blijkt dat 1 vaker voorkomt dan 2 als eerste cijfer. En 2 weer vaker dan 3, enzovoort. Hetzelfde fenomeen treedt op bij vele andere getallenreeksen zoals in een lijst van de langste rivieren ter wereld of de getallen uit een meetkundige reeks. Hoe komt dat eigenlijk?
Copyright © 2010 Wilfried Van Hirtum
Dit werk wordt vrij gegeven aan de gemeenschap en mag dus gekopieerd, verspreid en aangepast worden mits vermelding van de bron onder voorbehoud dat het resultaat blijft beantwoorden aan deze voorwaarden, dus vrij blijft voor de gemeenschap.
Inhoudsopgave 1
Een leerling ‘leest’ beurscijfers
. . . . . . . . . . . . . . . . . . . . . . . . .
3
2
De ontdekking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3
Schaal-invariant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
Meetkundige reeksen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
5
Logaritmische reeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
6
Verklaring voor dummies . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
7
Fraude opsporen met de wet van Benford . . . . . . . . . . . . . . . . . . .
6
8
Vuile toetsen bevestigen de wet van Benford . . . . . . . . . . . . . . . . . .
7
A Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1
Een leerling ‘leest’ beurscijfers
Een wiskundeleraar uit Kumtich gaf zijn leerlingen in Westerlo de opdracht om van een willekeurige krantenpagina met beurskoersen te noteren hoeveel getallen er beginnen met het cijfer 1, hoeveel getallen er beginnen met het cijfer 2, enzovoort. Je ziet in tabel 1 de gegevens verzameld door Joyce uit 6 Talen-Wiskunde en Elisabeth uit 6 Natuurwetenschappen-Wiskunde. Zie appendix A op pagina 9 voor meer gegevens.
Tabel 1
Verdeling van de begincijfers van beursnoteringen
Begincijfer
Frequentie
Relatieve frequentie
1 2 3 4 5 6 7 8 9
740 442 292 232 177 125 103 61 93
0,33 0,20 0,13 0,10 0,08 0,06 0,05 0,03 0,04
Totaal
2 265
Relatieve frequentie
Bron: Het Nieuwsblad van vrijdag 15 oktober 2004
0, 3 0, 2 0, 1
1 Figuur 1
2
3
4
5
6
7
8
9
Begincijfer
Verdeling van de begincijfers van beurscijfers (n=2 265)
Je ziet in figuur 1 het staafdiagram van deze verdeling. Het valt op dat het begincijfer 1 veel meer voorkomt dan het begincijfer 2 en dat de frequentie van de andere cijfers nog verder zakken. Wat is hier aan de hand? 3
2
De ontdekking
Het was de Amerikaanse astronoom Simon Newcomb die de ontdekking deed rond 1881 in een bibliotheek.[3] Hij zat in logaritmentafels te bladeren —toen bestonden er nog geen zakrekenmachines— en het viel hem op dat de pagina’s in het begin van het boek meer gebruikt waren dan aan het eind. Hij kon dit zien aan de vuilheid van de pagina’s. Blijkbaar hadden wetenschappers vaker de logaritme nodig gehad van een getal dat met een laag begincijfer (1, 2 of 3) dan met hogere begincijfers. Dit fenomeen staat nu bekend als de wet van Benford, genoemd naar de Amerikaanse fysicus Frank Benford, die dit merkwaardige feit opnieuw ontdekte.[1] Zoals je verder kunt lezen is het feit dat de ontdekking gedaan werd in een logaritmenboekje een mooie beeldspraak, want de verdeling die aan de bais ligt van dit fenomeen is logaritmisch van aard.
3
Schaal-invariant
De wet blijkt van toepassing op heel wat reeksen van getallen, zoals bijv. een willekeurige krantenpagina met beurscijfers in euro. Als je deze beurscijfers zou omrekenen naar bijv. Amerikaanse dollars, zou je dezelfde wetmatigheid vaststellen: het cijfer 1 komt beduidend meer voor dan de andere cijfers, op de tweede plaats gevolgd door het cijfer 2, enz. De wet is dus ‘schaal-invariant’, dit wil zeggen dat hij onafhankelijk is van de eenheid waarin de getallen worden uitgedrukt. Wiskundigen kunnen bewijzen dat een verdeling die schaalinvariant is, automatisch een logaritmische verdeling is. Aan de andere kant is de wet weer verre van absoluut. Zo gaat hij niet op voor telefoonnumers uit Tienen - want die beginnen, bijna altijd met een acht - en ook niet voor prijzen in een supermarkt.
4
Meetkundige reeksen
Benford zelf ontdekte dat een meetkundige reeks als 1, 2, 4, 8, 16, . . . weer wel voldoet aan zijn wet, en daar lag volgens hem ook de sleutel tot een beter begrip van wat aan de verdeling ten grondslag ligt. 4
Hij meende soortgelijke reeksen namelijk terug te kunnen vinden in natuurlijke processen en gaf daarvan talloze voorbeelden. Volgens hem “telt de natuur logaritmisch en . . . functioneert ze ook zo”.
5
Logaritmische reeks
De wet van Benford beschrijft een logaritmische kansverdeling. De kans P (n) dat het begincijfer in een getal gelijk is aan n wordt gegeven door:
1 P (n) = log 1 + n
Kans
Tabel 2
(1)
Logaritmische kansverdeling
n
P (n)
1 2 3 4 5 6 7 8 9
0.30 0.18 0.12 0.10 0.08 0.07 0.06 0.05 0.05
0, 3 0, 2 0, 1
1
2
Figuur 2
3
4
5
6
7
8
9
Begincijfer
De logartmische kansverdeling
Je ziet in figuur 2 op pagina 5 de grafiek van deze kansverdeling. Vergelijk met figuur 1 op pagina 3. Je vindt meer wiskundige achtergrond en een mogelijk uitleg voor het fenomeen op de volgende plaatsen:
de website van Mathworld van Eric Weisstein [6]; 5
6
de website van Stephen Huxley [2];
het boek Lady Luck: The Theory of Probability [5, pagina’s 270–277] van Warren Weaver. staat een !
Verklaring voor dummies
Stel dat een bepaald aandeel 100 euro waard is, dus met begincijfer 1. Om het begincijfer op 2 te krijgen, moet het aandeel stijgen van 100 euro naar 200 euro. Dat is een verdubbeling of een stijging met 100 %. Maar een aandeel van bijvoorbeeld 500 euro, heeft maar een stijging van 20 % nodig om het te doen stijgen naar een aandeel met het volgende begincijfer 6. Een aandeel van 900 euro zit nog vlugger in het volgende begincijfer: er is er maar een stijging van 11 % om het naar 1000 euro te brengen, en dan moet het weer met 100 % stijgen om het aandeel naar het begincijfer 2 op te krikken. Dus begincijfer 1 blijft dus het langst stabiel.
7
Fraude opsporen met de wet van Benford
Een belangrijke toepassing van de wet van Benford ligt op het gebied van de opsporing van fraude in financi¨ele stukken. Men speurt naar afwijkende patronen in rijen getallen. Wanneer bepaalde cijfers of cijfercombinaties vaker voorkomen dan verwacht, wordt alarm geslagen. Iemand die bedrog pleegt en fictieve posten opvoert, slaagt er immers bijna nooit in de cijfers echt willekeurig te verdelen, laat staan dat hij of zij erin slaagt om de Benford-verdeling na te bootsen. We vinden een voorbeeld op de website van Voortschrijdende inzichten [4]: Een frauduleuze advertentie
Voortschrijdende Inzichten onderzocht voor de lezers een ander fenomeen: reclame. Onlangs plaatste een groot bedrijf in elektronica in een huis-aanhuisblad een paginagrote advertentie met opruimingsaanbiedingen. Bij elk item stond ook het aantal vermeld dat nog in voorraad was. De boodschap was duidelijk: lage prijzen gecombineerd met kleine aantallen, dus snel naar de winkel, voordat het op is. Wij onderzochten de begincijfers van de vermelde aantallen op frequentie van voorkomen. We telden totaal 159 aantallen. Het onderzoek leidde tot een verrassende uitkomst. De begincijfers in de advertentie voldeden in het geheel niet aan de Wet van Benford! Zo had het begincijfer 1 ongeveer in 30 % van de gevallen moeten voorkomen; het was echter slechts 13 %. Wat verder opvalt is dat alle getallen tussen de 5 en 15 % van de gevallen voorkomen. Dit lijkt dus nergens op. Het is een sterke aanwijzing dat het bedrijf de aantallen in de advertentie gewoon verzonnen heeft. Daarbij heeft men de klassieke fout gemaakt. Men heeft gedacht: ‘Het moet niet opvallen dat we het verzonnen hebben, dus alle getallen moeten ongeveer 6
evenveel voorkomen, althans in mate van voorkomen niet al te erg van elkaar verschillen’. Jammer dat de Wet van Benford voorschrijft dat het nu juist wel veel van elkaar moet verschillen. De donkerblauwe balken geven de verdeling volgens de Wet van Benford weer. Neem een willekeurige dataset en het blijkt dat 30 % van de getallen met een 1 beginnen, 18 % met een 2, enz tot 5 % met een 9. In de advertentie van bedrijf X (lichtblauwe balken) begint echter slechts 13 % van de getallen met een 1 (volgens Benford dus veel te weinig) en bijvoorbeeld 16 % met een 9 (wat volgens Benford weer veel te veel is). Bedrijf X is een gefingeerde naam. Het bedrijf is om redenen van privacy niet met de werkelijke naam weergegeven.
Figuur 3
8
Verzonnen gegevens in een advertentie voldoen niet aan de wet van Benford
Vuile toetsen bevestigen de wet van Benford
Tegenwoordig wordt er niet veel meer gebladerd in logaritmenboekjes, zoals in de bibliotheek waar Benford zijn ontdekking deed. Maar we kunnen wel eens kijken naar het gebruik van de cijfertoetsen op het toetsenbord. Wordt de 1, 2, 3 en 4 meer gebruikt dan de overige cijfertoetsen 5, 6, 7, 8 en 9? Uit figuur 4 op pagina 8 blijkt van wel! Zie Kraklog van 2 mei 2005 [7]: ... Benford dus. Hoe minder je toetsen gebruikt, hoe viezer ze worden. Te zien is dus dat de negen het minst gebruikte cijfer is, en nul de meest gefrequenteerde, geheel volgens de man van General Electric (waar wij vroeger geloof ik een stofzuiger van hadden), hoewel, de nul?. De wet van Benford zegt dat de kans dat een getal met het cijfer d begint gelijk is aan log(1 + d1 ), je hoeft geen rekenwonder te zijn om in te zien dat je dan met de nul een probleem hebt. 7
Figuur 4 De cijfertoetsen 1, 2, 3 en 4 zijn minder vuil en worden dus meer gebruikt dan de cijfertoetsen 5, 6, 7, 8 en 9. Foto: Yak http://log.krak.nl
Mijnheer Benford deed dus niet aan leading zeroes. Voor het geval u denkt dat deze toetsen alleen gebruikt worden voor bijzondere getallen: ik heb geen numeriek toetsenbordje, dus ik gebruik altijd het bovenste rijtje toetsen voor de cijfers. Mocht u het nog niet gezien hebben, ik heb de cijfers 6 tot 0 in een fotobewerkingsprogramma verplaatst om de afbeelding minder breed te maken ... Dit lijkt een bevestiging van de wet van Benford. 1
Het cijfer 0 wordt blijkbaar n´ og vaker gebruikt. Toch laten we dit cijfer buiten beschouwing. Waarom?
8
A
Tabellen
Je vindt in deze appendix nog meer gegevens van de leerlingen van 6 TalenWiskunde en 6 Natuurwetenschappen-Wiskunde van de memorabele lichting van 2004-2005. Je leest in de volgende grafieken de bevindingen van hun naarstige ‘lectuur’ van beurscijfers. Het leek aanvankelijk vrij zinloze arbeid. Maar toch is het resultaat opmerkelijk, vind je niet? Je ziet in figuur 13 op pagina 12 de verdeling voor de lengte van de langste rivieren op aarde, gemeten in kilometer.
Relatieve frequentie
Als we een andere lengte-eenheid kiezen, bijvoorbeeld mijl (1 mijl is ongeveer 1,6 kilometer), dan voldoet de verdeling van de begincijfers nog steeds min of meer aan de logaritmische verdeling, zie figuur 15 op pagina 13. Dit voorbeeld illustreert de zogenaamde schaalinvariantie.
0, 2
0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Relatieve frequentie
Figuur 5 Verdeling van de begincijfers van beurscijfers - verzameld door Dorien (n=8 043) Bron: Gazet van Antwerpen van 15 oktober 2004
0, 3 0, 2 0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Figuur 6 Verdeling van de begincijfers van beurscijfers - verzameld door Tine (n=1 496) ¨ Bron: De Morgen (Financiele) van 16 oktober 2004, pagina 47
9
Relatieve frequentie
0, 3 0, 2 0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Relatieve frequentie
Figuur 7 Verdeling van de begincijfers van beurscijfers - verzameld door Caroline (n=2 654) Bron: Het Laatste Nieuws van 16 oktober 2004, pagina 45
0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
7
8
9
Begincijfer
Relatieve frequentie
´ Figuur 8 Verdeling van de begincijfers van beurscijfers - verzameld door Stephanie (n=2 284) Bron: Het Nieuwsblad van woensdag 13 oktober 2004, pagina 34
0, 3 0, 2 0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Figuur 9 Verdeling van de begincijfers van beurscijfers - verzameld door Chrissie (n=1 993) Bron: De Standaard van woensdag 13 oktober 2004
10
Relatieve frequentie
0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
7
8
9
Begincijfer
Relatieve frequentie
Figuur 10 Verdeling van de begincijfers van beurscijfers - verzameld door Jef (n=364) Bron: Gazet van Antwerpen van 1 oktober 2004
0, 2
0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Relatieve frequentie
Figuur 11 Verdeling van de begincijfers van beurscijfers - verzameld door Ward (n=320) Bron: Gazet van Antwerpen van 11 oktober 2004
0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
7
8
9
Begincijfer
Figuur 12 Verdeling van de begincijfers van getallen op de voorpagina van een krant verzameld door Caroline (n=87) Bron: Het Laatste Nieuws van 16 oktober 2004
11
Relatieve frequentie
0, 3 0, 2 0, 1
1
2
3
4
5
6
7
8
9
Begincijfer
Relatieve frequentie
Figuur 13 Verdeling van de begincijfers van de lengte van de langste rivieren op aarde, gemeten in kilometer (n=78)
0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
7
8
9
Begincijfer
Figuur 14 Verdeling van de begincijfers van beurscijfers - verzameld door de leerlingen van 6 Boekhouden-Informatica op maandag 4 januari 2010, selectie uit verschillende kranten (n=1748).
12
Relatieve frequentie
0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
7
8
9
Begincijfer
Figuur 15 Verdeling van de begincijfers van de lengte van de langste rivieren op aarde, gemeten in mijl (n=78)
Tabel 3
2
Lengte van de langste rivieren op aarde1 mijl = 1,60934 km
Rivier
Monding
Lengte in mijl
Lengte in kilometer
Nijl Amazone Chang Jiang Ob-Irtysh Huang Congo Amur Lena Mackenzie Mekong .. .
Middellandse Zee Atlantische Oceaan Oost-Chinese Zee Golf van Ob Gele Zee Atlantische Oceaan Straat van Tatar Laptev Zee Arctische Oceaan Zuid-Chinese Zee .. .
4160 4 000 3964 3362 2903 2900 2744 2734 2635 2600 .. .
6656 6400 6342,4 5379,2 4644,8 4640 4390,4 4374,4 4216 4160 .. .
Gaat de wet van Benford ook op voor de volgende lijst:
13
Tabel 4 Tallest structure by category is a table of heights of the 46 tallest buildings in the world. Bron: wikipedia (zoekwoord: Benford) Category
Structure
City
Height (metres)
Skyscraper - all categories Guyed Mast Concrete tower (Topped out) Concrete tower Tower for scientific research Twin towers Tower Complex Chimney Radar Guyed tubular steel mast Lattice tower Partially guyed tower Electricity pylon Bridge pillar Dam Concrete dam Clock tower Minaret Wind turbine Cooling tower Monument Masonry tower Inclined structure, Stadium Obelisk Church building Masonry building Masonry building Ferris wheel Church tower Industrial hall Memorial cross Roller coaster Tomb Dome Air traffic control tower Flagpole, free-standing Statue (including pedestal) Storage silo Sculpture Wooden structure Aerial tramway support tower Lighthouse Sphere Statue (not including pedestal) Brick lighthouse Brick minaret
Burj Khalifa KVLY-TV mast Guangzhou TV & Sightseeing Tower CN Tower BREN Tower Petronas Twin Towers Milad Tower GRES-2 Power Station Dimona Radar Facility Belmont transmitting station Kiev TV Tower Gerbrandy Tower Yangtze River Crossing, Jiangyin Millau Viaduct Nurek Dam Grande Dixence Dam NTT Docomo Yoyogi Building Hassan II Mosque Fuhrl¨ ander Wind Turbine Laasow Niederaussem Power Station Gateway Arch Anaconda Smelter Stack Olympic Stadium San Jacinto Monument Chicago Temple Building Mole Antonelliana Philadelphia City Hall Singapore Flyer Ulm Minster Vehicle Assembly Building Santa Cruz del Valle de los Ca´ıdos Kingda Ka Great Pyramid of Giza St Peter’s Basilica dome Suvarnabhumi Airport control tower Ashgabat Flagpole Ushiku Daibutsu Bronze Buddha Statue Henninger Turm Spire of Dublin Gliwice Radio Tower Pillar of third section of Gletscherbahn Kaprun Yokohama Marine Tower Ericsson Globe The Mamayev Monument Torre della Lanterna Qutub Minar
Dubai Blanchard, North Dakota Guangzhou Toronto Nevada Test Site Kuala Lumpur Tehran Ekibastusz Dimona Donington on Bain Kiev IJsselstein Jiangyin Millau Nurek Val d’H´ erens Tokyo Casablanca Laasow, Brandenburg Niederaussem St. Louis, Missouri Anaconda, Montana Montreal Deer Park, Texas Chicago Torino Philadelphia Singapore Ulm Kennedy Space Center El Escorial Jackson, New Jersey Giza, Cairo Vatican City, Rome Bangkok Ashgabat Ushiku Frankfurt Dublin Gliwice Kaprun Yokohama Stockholm Volgograd Genoa Delhi
828 628.8 610 553.3 462 452 435 419.7 400 387.7 385 366.8 346.5 342 300 285 240 210 205 200 192 178.3 175 173.7 173 167 167 165 162 160 152.4 138.98 138.8 136.57 132.2 133 120 120 120 118 113.6 106 85 82 77 72.5
14
Referenties [1]
Benford, Frank. The law of anomalous numbers. 1938. Proceedings of the American Philosophical Society 78, 551-572. 2
[2]
Huxley, Stephen J.. Why Benford’s Law Works and How to do Digit Analysis on Spreadsheets. University of San Francisco, 1/6/2005. http: //www.usfca.edu/fac-staff/huxleys/Benford.html. 5
[3]
Newcomb, Simon. Note on the frequency of use of the different digits in natural numbers. 1881. American Journal of Mathematics 4, 39-40. 2
[4]
Voortschrijdende Inzichten. De wet van Benford. 2004. http://www. inzichten.nl/. 7
[5]
Weaver, Warren. Lady Luck: The Theory of Probability. 1963. 5
[6]
Weisstein, Eric W.. Benford’s law. wolfram.com/BenfordsLaw.html. 5
[7]
Yak. Yak’s toetsenbord en de wet van . . . . 2/05/2005. http://log.krak. nl. 8
15
1/6/2005.
http://mathworld.