Afstudeerseminar en Bachelorscriptie Econometrie
Voetbaluitslagen in de eredivisie en het effect van Europese wedstrijden Datum:18-06-2010
Groepsnummer: 9
Begeleiders:
Studiejaar:2009/2010
dr. J.C.M. van Ophem drs. E.J. Rietstap
Semester: 2
Bas Kunst 5619181 Faculteit Economie en Bedrijfskunde – Universiteit van Amsterdam
Inhoud 1
Inleiding
1
2
Verschillende soorten modellen
2
2.1
Ordinairy Least Squares
2
2.2
Ordered probit model
4
2.3
Relevante factoren
6
2.4
Welk model is geschikter?
8
3
4
Toepassing op de Eredivisie
8
3.1
Ordered probit specificatie Neumann and Tamura
9
3.2
Toevoeging van relevante variabelen
11
3.3
Welke periode is geschikt?
14
Conclusie
16
Bibliografie
19
Bijlage 1 Tabel kwaliteitsschatting voor lange en korte periode
20
1 Inleiding
‘Niets is zeker in de voetballerij’, een bekend gezegde in het Nederlandse voetbal. Het is interessant om deze onzekerheid te proberen verminderen met behulp van econometrische modellen, ongeacht de eventuele kern van waarheid van de stelling. Een aantal modellen om een voetbalwedstrijd te verklaren is beschikbaar, zoals OLSen ordered probitmodellen. Deze modellen, waar het model van Neumann en Tamura (1996) er een van is, zijn toegepast op enkele competities in het buitenland. Deze competities zijn onder andere voetbalcompetities, maar ook American Football- en honkbalcompetities. Het model van Neumann en Tamura (1996) is gebaseerd op een beperkt aantal variabelen, namelijk kwaliteit en thuisvoordeel. Er zijn meer variabelen beschikbaar, waarvan een aantal belicht worden in deze scriptie. Wellicht kan het model van Neumann en Tamura (1996) uitgebreid worden met een of meer van deze variabelen. In de Nederlandse voetbalwereld wordt vaak door trainers beweerd dat het spelen van de buitencompetitiewedstrijden (wedstrijden die buiten de reguliere competitie gespeeld worden), de uitslagen van vooral de eerstvolgende competitiewedstrijden beïnvloedt. De onderliggende theorie is dat de buitencompetitiewedstrijden een hogere prioriteit hebben voor de clubs, waardoor vrijwel altijd het beste team opgesteld wordt. Daarnaast, door het spelen van deze wedstrijden is er een kortere rustperiode voor de teams die buitencompetitiewedstrijden spelen dan de teams die deze wedstrijden niet kunnen of mogen spelen. Omdat vrijwel altijd het beste team opgesteld wordt en er een kortere rustperiode is, zou de ploeg die buitencompetitiewedstrijden speelt in theorie haar beste (maar minder uitgeruste) team kunnen laten spelen. Een andere mogelijkheid is om wisselspelers een kans te geven, wat als gevolg heeft dat er een minder sterk team speelt. Dit zou naar verwachting slechtere resultaten opleveren. Het opnemen van een variabele voor het spelen van belangrijke buitencompetitiewedstrijden in het model van Neumann en Tamura (1996) lijkt dan ook verantwoord. Er wordt dan antwoord gegeven op de vraag in hoeverre het deelnemen aan buitencompetitiewedstrijden
effect heeft op de uitslag van de competitiewedstrijden van de clubs die spelen in de Eredivisie of in de Eredivisie hebben gespeeld in de afgelopen elf jaar. In deze scriptie worden eerst de sportmodellen uitgelegd. Hierna worden enkele relevante variabelen ter sprake gebracht, waarna er enkele modellen worden opgesteld. Vanuit de resultaten van deze modellen worden de competitiewedstrijden van seizoen 08/09 voorspeld en besproken. Ten slotte volgt er een conclusie en aanbevelingen voor vervolgonderzoek.
2
Verschillende soorten modellen
Alle wegen leiden naar Rome, er zijn dus meerdere modellen beschikbaar om sportuitslagen te voorspellen. Twee van deze modellen worden besproken in dit hoofdstuk. Eerst wordt het OLS data model kort besproken, met een toepassing daarvan op de Engelse voetbalcompetitie: de Premier League. Hierna wordt het ordered probit model beschreven, gevolgd door een toepassing van dit model op de Amerikaanse AFL en NFL (divisienamen van American Football). Enkele relevante factoren worden daarna besproken. Ten slotte worden de voor- en nadelen van de sportmodellen besproken.
2.1 Ordinairy Least Squares Een voorbeeld van het gebruik van OLS met betrekking tot sport is het model dat gebruikt wordt door Stefani (1983,1987), Stefani en Clarke (1992), Clarke (1993) en Clarke en Norman (1995). Dit model is gebruikt om een thuisvoordeel aan te tonen in de vorm van het verschil in aantal doelpunten. Clarke en Norman (1995) noteren hun model als volgt:
(1)
Wi , j u i u j hi i , j
De definitie van Wi , j is het verschil in het aantal doelpunten van het thuisspelende team i en het uitspelende team j. De termen u i en u j zijn variabelen van alle clubs in de dataset, waarbij i het thuisspelende team is en j het uitspelende team. Deze dummyvariabelen geven de kwaliteit weer en worden constant over het hele seizoen verondersteld. De definitie van de u variabelen is: 1 voor thuis, -1 voor uit en 0 anders. De dummyvariabele hi geeft het thuisvoordeel aan van team i en is 1 bij een thuisspelend team en 0 anders. Het thuisvoordeel verschilt per team. Per team wordt één variabele voor de kwaliteit gegenereerd en één variabele voor het thuisvoordeel, zodat vergelijking (1) ook geschreven kan worden als: m 1
(2)
Wi , j (u i hi ) i , j i 1
Met m gelijk aan het aantal clubs in de dataset. Er wordt gesommeerd tot m 1 om een dummytrap te voorkomen. De storing i, j wordt als normaal verdeeld verondersteld en onafhankelijk tussen alle wedstrijden. De intuïtie achter het model is dat er twee clubs tegen elkaar spelen, beide met een bepaalde mate van kwaliteit ( u i en u j ), waarbij het thuisspelende team een voordeel heeft ( hi ). Door deze definitie van het model kan met behulp van theorie en gezond verstand bepaald worden wat de tekens van de variabelen zijn. De dummyvariabelen u i en u j geven de kwaliteit en scoringsvermogen van een team weer. De kwaliteit en het scoringsvermogen van een team is in afwijking met een team dat niet wordt opgenomen in het model. Zo zal een team dat een bovengemiddeld aantal doelpunten per wedstrijd meer scoort dan het team dat niet is opgenomen in het model een positieve waarde krijgen, voor de teams die gemiddeld minder scoren zal de variabele negatief worden. Wanneer de parameters geschat zijn, kan op basis van de Wald toetsingsgrootheid de kans bepaald worden op iedere
uitslag: P[ x
1 1 Wi , j x | u i , u j , hi ] , met x {.....,3,2,1,0,1,2,3,....} . Hierdoor 2 2
kan met behulp van maximum likelihood bepaald worden wat de grootste kans is op een bepaalde eindscore. Clarke en Norman (1995, p.512-513) gebruiken dit model om aan te tonen hoe groot het thuisvoordeel is en geven dat weer in een gemiddeld aantal doelpunten per wedstrijd.
2.2 Ordered probit model Ordered probit modellen worden gebruikt wanneer de te analyseren variabele verdeeld kan worden in verschillende groepen. Het is belangrijk dat er een duidelijk onderscheid is in de groepen, in de meeste gevallen worden de groepen verdeeld en aan iedere groep wordt een integere waarde gekoppeld. Hausman, Lo en MacKinlay (1992) geven als voorbeeld het scholingsniveau in drie groepen: minder dan voortgezet onderwijs, voortgezet onderwijs en hoger dan voortgezet onderwijs. In deze scriptie wordt gebruik gemaakt van de groepen: winst, gelijk en verlies van het thuisspelende team, deze groepen krijgen respectievelijk de integere waarden:1,0,-1. Met behulp van een latente variabele wordt bepaald hoe groot de kans is dat de wedstrijd in een bepaalde groep hoort. De normale verdeling vormt bij het ordered probit model de basis, voor het classificeren en/of voorspellen van sportwedstrijden wordt deze verdeling dan ook gebruikt. Het specifieke ordered probit model dat gebruikt wordt is afgeleid van Neumann en Tamura (1996). Zij noteren het model als volgt: (3)
Di*, j ai a j i , j
De definitie van ai en a j is nagenoeg gelijk als in het hiervoor besproken model met OLS, (2) .De dummyvariabelen ai geven een 1 voor het thuisspelende team en een 0 voor alle ander teams. De dummyvariabele a j geeft een 1 voor het bezoekende team
en voor de andere clubs 0. Deze dummyvariabelen geven een mate van kwaliteit weer, waarbij de kwaliteit voor een team verschilt bij een uit- of een thuiswedstrijd. De storingsterm i, j wordt standaard normaal verdeeld en onafhankelijk voor alle wedstrijden verondersteld. Bovenstaand model (3) kan ook genoteerd worden als volgt:
(4)
m 1
m 1
i 1
j 1
Di*, j (ai ) (a j ) i , j
Zodat duidelijk te zien is dat het aantal variabelen van vergelijking (4) gelijk is aan het aantal variabelen van vergelijking (2) . De modellen verklaren exact hetzelfde als los wordt gelaten dat het ene met OLS geschat wordt en het andere met ordered probit. Een team is weggelaten bij de uit- en de thuisvariabelen. Op Di*, j wordt het ordered probit model gebaseerd, de Di*, j geeft namelijk een indicatie voor winst/gelijk/verlies in het model. Een positieve Di*, j zegt dat het
thuisspelende team sterker is, wat niet direct suggereert dat het thuisspelende team ook daadwerkelijk wint. Koning (2000, p. 421) geeft het onderliggende model van Di*, j duidelijk op:
(5)
Di , j
1 0 1
c1 Di*, j c 2 Di*, j c 2 Di*, j c1
Waarbij Di , j 1 aangeeft dat het thuisspelende team wint, Di , j 0 staat voor een
gelijkspel en Di , j 1 voor een verlies van het thuisspelende team. Het verschil tussen Di*, j en Di , j is dat Di*, j een indicatie geeft en Di , j een waargenomen uitslag. Koning (2000, p. 422) merkt op dat niet alle parameters bepaald kunnen worden, waardoor er meer aannamen gemaakt moeten worden, zoals de waarde van de variantie in de normale verdeling van de storingsterm. De restrictie die Koning (2000,
p. 422) nog oplegt is Σi ai = 0, waardoor een positieve waarde van ai een
bovengemiddeld team suggereert. Koning (2000, p. 422) veronderstelt dat de storingsterm standaard normaal verdeeld is. In dit ordered probit model met drie groepen is de kans op winst, gelijk of verlies op de volgende manier te bepalen: Pr( Di , j 1) 1 {c 2 (ai a j )} (6)
Pr( Di , j 0) {c 2 (ai a j )} {c1 (ai a j )} Pr( Di , j 1) {c1 (ai a j )}
Wanneer twee teams van dezelfde sterkte tegenover elkaar staan dan is ai a j 0 , zodat het bestaan van thuisvoordeel volgt uit de vergelijkingen (6) . Om dit thuisvoordeel aan te tonen dient er dan getoetst te worden of c1 c 2 (Koning 2000, p. 422). Model (3) is opgesteld om het bestaan van thuisvoordeel te bevestigen in de AFL en de NFL. Het onderzoek van Neumann en Tamura (1996) bevestigde dat er sprake is van een thuisvoordeel.
2.3 Relevante factoren De compactheid van de hiervoor besproken modellen geven enige ruimte voor uitbreiding. Begroting, vorm, hersteltijd, gemiddelde leeftijd of net een reeks belangrijke wedstrijden achter de rug, zijn enkele voorbeelden van factoren die invloed uit kunnen oefenen op een voetbalwedstrijd en die niet in de hiervoor besproken modellen zijn opgenomen. Helaas zijn niet alle data (eenvoudig) te kwantificeren: wanneer is een team in vorm? Wanneer een team in vorm is, is in vele gevallen subjectief, waardoor een dergelijke variabele moeilijk is om op te nemen in het model. Gelukkig zijn er een aantal variabelen wel duidelijk kwantificeerbaar: de hersteltijd tussen twee wedstrijden en belangrijke buitencompetitiewedstrijden
bijvoorbeeld. De begroting per club per jaar is moeilijk te achterhalen, in deze scriptie wordt deze variabele niet verder behandeld. De tijd tussen de wedstrijden kan een relevante variabele zijn, vanwege de eventuele vermoeidheid van de desbetreffende teams. De tijd tussen twee wedstrijden wordt opgesplitst in twee groepen: tijd tussen twee wedstrijden het hele seizoen door en deelname aan een internationale clubwedstrijd. Vooral de internationale clubwedstrijden hebben een hoge prioriteit, waardoor de teams die deze wedstrijden spelen minder tijd hebben om uit te rusten voor de volgende competitiewedstrijd. Naar verwachting zal deelname aan internationale toernooien een negatief effect krijgen op de kracht van een team in het model. In de tijd tussen twee wedstrijden het seizoen door wordt gekeken naar het verschil in tijd tussen twee wedstrijden van de twee ploegen. Er wordt verwacht dat als het verschil groter wordt, de kwaliteit van een team relatief toeneemt ten opzichte van het andere team. Andere buitencompetitiewedstrijden zoals de bekerwedstrijden hebben naar verwachting een kleinere impact omdat veel teams in de Eredivisie deze wedstrijden tegelijkertijd spelen. De eerste twee speelronden worden gespeeld door vrijwel iedere Eredivisieclub, omdat de eerste wedstrijd vaak tegen een amateurclub of Jupiler League team gespeeld wordt. De KNVB-bekerwedstrijden en de competitiewedstrijden worden gezamenlijk gecoördineerd door de KNVB. Het gevolg hiervan is dat het speelschema van te voren wordt aangepast zodat er meer rusttijd is voor deze wedstrijden dan voor de UEFA-Cup en Championsleague wedstrijden. Hierdoor lijkt het interessantste gedeelte van deze wedstrijden de eindfase, waarvan de belangrijkste (de finale) na alle competitiewedstrijden wordt gespeeld, wat buiten de dataset valt. In deze scriptie wordt het gehele UEFA-Cup programma gebruikt, zodat alle data benut wordt. Voor eventueel vervolgonderzoek is het een idee om een bepaalde fase te gebruiken.
2.4 Welk model is geschikter? Niet de vergelijkingen, maar de schattingstechnieken die gebruikt worden maken het OLS model (1) en het ordered probit model (3) verschillend. In het OLS model (1) wordt gebruik gemaakt van het aantal doelpunten en het ordered probit model (3) richt zich alleen op winst, gelijk of verlies. De vergelijkingen van beide modellen verklaren hetzelfde. Het verschil is dat de dummy’s voor de kwaliteit van het ordered probit model de kwaliteit verschillend schatten voor uit en thuis van hetzelfde team, waar het OLS model dit doet met een parameter voor kwaliteit en een parameter voor thuisvoordeel. De zwakte van zowel model (1) als model (2) is het ontbreken van de tijdsdimensie. Teams kunnen relatief beter worden over de tijd of juist slechter. Redenen hiervoor zijn bijvoorbeeld de transfers, het stoppen van spelers of het aanstellen van een nieuwe trainer. Maher (1982) maakt een name voor een count data model dat het aantal doelpunten van de uit- en de thuisspelende club onafhankelijk van elkaar zijn. Koning (2000) vindt dit een te sterke aanname. Aangezien voor het OLS model (1) dezelfde aanname vereist is, wordt het ordered probit model gebruikt in deze scriptie. De aanname dat wedstrijden onafhankelijk van elkaar zijn (Maher, 1982) zal in deze scriptie ook worden gemaakt.
3 Toepassing op de Eredivisie In dit hoofdstuk wordt het hiervoor besproken ordered probit model van Neumann en Tamura (1996) toegepast op de Eredivisie vanaf seizoen 98/99 tot en met 08/09. De kwaliteit van dit model wordt besproken evenals de coëfficiënten. Hierna wordt het model uitgebreid met meerdere variabelen. Deze modellen worden besproken en er volgt een conclusie over het opnemen van een of meerdere nieuwe variabelen. Ten
slotte wordt gekeken wat voor effect het verkleinen van de periode heeft op de voorspellingsresultaten.
3.1 Ordered probit specificatie van Neumann en Tamura Het model van Neumann en Tamura (1996) bestaat uit dummyvariabelen voor uit- en thuisspelende clubs. In de Eredivisie vanaf seizoen 98/99 tot en met 08/09 geeft dit (met de groep 1,0,-1) het volgende resultaat: Tabel 1 Schattingsresultaten ordered probit model op de Eredivisie Club ADO Den Haag
Thuis Uit Ajax Thuis Uit AZ Thuis Uit Cambuur Leeuw. Thuis Uit Den Bosch Thuis Uit Excelsior Thuis Uit Feyenoord Thuis Uit Fortuna Sittard Thuis Uit De Graafschap Thuis Uit FC Groningen Thuis Uit SC Heerenveen Thuis Uit Heracles Almelo Thuis Uit MVV Thuis Uit C1
Coëfficiënt St. Dev. -1,35158 0,16317 -1,25683 0,16225 -0,20254 0,14064 -0,23544 0,12334 -0,68656 0,13479 -0,52683 0,12294 -1,31977 0,22076 -1,45139 0,24069 -1,44798 0,19415 -1,5434 0,20533 -1,48346 0,19464 -1,38514 0,20025 -0,28425 0,13909 -0,41148 0,12242 -1,28805 0,17487 -1,21251 0,17247 -1,29168 0,14251 -1,38553 0,14097 -0,86727 0,13939 -1,00671 0,13133 -0,54785 0,13522 -0,62813 0,12222 -1,03143 0,1733 -1,36163 0,17626 -1,33635 0,22297 -1,41198 0,23507 -0,61674
Club Nac Breda
Thuis Uit NEC Thuis Uit RBC Roosendaal Thuis Uit RKC Waalwijk Thuis Uit Roda JC Thuis Uit Sparta Rotterdam Thuis Uit FC Twente Thuis Uit FC Utrecht Thuis Uit Vitesse Thuis Uit FC Volendam Thuis Uit VVV Venlo Thuis Uit Willem II Thuis Uit FC Zwolle Thuis Uit
0,13696 C2
Coëfficiënt St. Dev. -1,02383 0,13538 -0,76963 0,12631 -1,01159 0,1333 -0,96618 0,12325 -1,5262 0,16485 -1,45445 0,16946 -0,94957 0,13882 -1,05458 0,13205 -0,70552 0,13504 -0,80432 0,12185 -1,25121 0,14329 -1,30979 0,13905 -0,61189 0,13474 -0,70125 0,12186 -0,72589 0,13421 -0,9286 0,12352 -0,81499 0,13349 -0,80509 0,12253 -1,41318 0,23011 -1,38765 0,23307 -1,47948 0,30306 -1,14087 0,30544 -0,88094 0,13411 -1,03278 0,12376 -1,23732 0,22359 -1,44842 0,23512 0,08652
0,13682
De waarden in tabel 1 geven het geschatte kwaliteitsverschil weer tussen de clubs ten opzichte van PSV, deze dummyvariabelen (voor uit- en thuisspelend) zijn niet in de regressie opgenomen omdat er anders sprake zou zijn van perfecte multicollineariteit (dummy trap). Er is voor PSV gekozen omdat PSV in deze periode ieder seizoen in de Eredivisie heeft gespeeld. Het geschatte verschil in de kwaliteit is voor alle clubs significant op het 5% niveau, behalve bij Ajax. Het model geeft ook het thuisvoordeel weer: de coëfficiënten c1 en c 2 (zie vergelijking (6) ) zijn significant verschillend van elkaar (Koning, 2000). Opvallend is dat sommige clubs de uitwedstrijden relatief beter zijn dan de thuiswedstrijden ten opzichte van PSV, zoals ADO Den Haag, AZ en Excelsior. Verder zijn de standaardfouten van een aantal clubs die een beperkt aantal seizoenen in de Eredivisie heeft gespeeld ruim twee keer zo groot als de standaardfouten van de andere clubs. Wanneer ADO Den Haag thuis het tegen Ajax opneemt, dan geeft het invullen van vergelijking (4) de volgende kansen:
Tabel 2 Voorbeeld van wedstrijdvoorspelling ADO Den Haag - Ajax
ai a j Pr(Winst ADO) Pr(Gelijk) Pr(Winst Ajax) Som Kansen
-1,11614 0,114555 0,194194 0,691251 1
De kans is het grootst dat Ajax wint van ADO Den Haag. De kans bepalen voor de andere wedstrijden gaat op dezelfde manier, waarbij de coëfficiënt van de geschatte kwaliteit van PSV gelijk is aan nul voor zowel uit als thuis.
3.2 Toevoeging van verklarende variabelen Zoals eerder besproken kan het model van Neumann en Tamura (1996) eventueel uitgebreid worden met variabelen als rusttijd tussen wedstrijden of dummyvariabelen die belangrijke wedstrijden aangeven als Champions League-, UEFA-Cup- of Bekerwedstrijden. Hoewel de rusttijd tussen wedstrijden en buitencompetitiewedstrijden hetzelfde proberen te verklaren, worden deze variabelen tegelijkertijd opgenomen om de eventuele grootte van het effect te bepalen. De variabelen die in de volgende regressie worden opgenomen: Verschiltijd, CL, UEFA en Beker. Deze dummyvariabelen geven weer of de uit- of thuispartij de laatste wedstrijd een buitencompetitiewedstrijd heeft gespeeld (wedstrijden voor de Champions League, UEFA-Cup of KNVB-Beker). De tekens van de geschatte coëfficiënten van deze dummyvariabelen worden negatief verwacht. Reden hiervoor is de vermoeidheid die verwacht wordt na het spelen van deze wedstrijden, zodat dit een nadeel (voordeel) geeft bij de desbetreffende ploeg (tegenstander). De variabelen CL, Beker en UEFA worden gedefinieerd als volgt: de variabelen krijgen een 1 als de thuispartij de vorige wedstrijd de desbetreffende buitencompetitiewedstrijd heeft gespeeld (Champions League, UEFA-cup of KNVB-beker). Dezelfde variabelen krijgen een -1 als de uitpartij deze wedstrijden heeft gespeeld en een 0 in de andere gevallen. De variabelen krijgen ook een 0 wanneer de uit- en de thuisclub dezelfde soort buitencompetitiewedstrijd spelen. De uitzondering van de Champions League is de FA-cupfinale. In deze wedstrijd speelt de winnaar van de UEFA-Cup tegen de winnaar van de Champions League en wordt gerekend tot de CL-variabele. In de volgende regressie wordt de variabele tijd tussen wedstrijden gebruikt als een difference-in-differences schatter. Het verschil in tijd tussen de wedstrijden is genomen van uit en thuis, zodat een positief geschatte coëfficiënt verwacht wordt. De tijd tussen wedstrijden wordt gemeten in dagen. Een positief verschil zou dan betekenen dat het thuisteam meer tijd heeft gehad om uit te rusten of voor de wedstrijd dan het uitteam, zodat het thuisteam voordeel heeft.
Tabel 3 Resultaten na toevoegingen aan model CL BEKER UEFA VERSCHILTIJD
Coëfficiënt -0,311246 -0,052247 0,014823 -0,011889
St. Dev. 0,118671 0,10226 0,085853 0,016961
Wat opvalt, is dat de coëfficiënt van het tijdsverschil tussen de wedstrijden negatief geschat wordt. Aangezien dit niet in overeenstemming is met de theorie en de standaardfout van tijd tussen wedstrijden vele malen groter is dan de geschatte coëfficiënt zelf, wordt gesuggereerd om verschil tussen wedstrijden niet in het volledige model op te nemen. In de volgende tabel staan de resultaten van de regressie die uit is gevoerd zonder de variabele tijd tussen wedstrijden. Tabel 4 Uitkomsten na weglating verschiltijd CL BEKER UEFA
Coëfficiënt -0,282251 -0,011568 0,040055
St. Dev. 0,111201 0,084144 0,077932
De geschatte coëfficiënt voor de variabele ‘UEFA’ heeft in dit model het onjuiste teken. Het teken van UEFA suggereert dat het spelen van een competitiewedstrijd vlak na een UEFA-cupwedstrijd de kans laat toenemen voor de desbetreffende partij. Een oplossing is om de UEFA-variabelen buiten het model te laten. Voor het uiteindelijke model wordt hiervoor gekozen. Een andere oplossing is om naar het laatste deel van het toernooi te kijken (zie paragraaf 2.3). Omdat de UEFAcupwedstrijden een hogere prioriteit hebben voor de clubs dan reguliere competitiewedstrijden is dit een belangrijke overweging. De bekerwedstrijden hebben naar verwachting een kleiner effect dan de Champions League (Zie paragraaf 2.3), wat ook in het model naar voren komt. In het uiteindelijke model wordt deze variabele niet opgenomen.
Tabel 5 Eindmodel (zonder Beker en UEFA-cup) Club ADO Den Haag Ajax AZ Cambuur Leeuw. Den Bosch Excelsior Feyenoord Fortuna Sittard De Graafschap FC Groningen SC Heerenveen Heracles Almelo MVV CL C1
Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit Thuis Uit
Coëfficiënt -1,409269 -1,31245 -0,224972 -0,256205 -0,754767 -0,579607 -1,379578 -1,508596 -1,517008 -1,601707 -1,543932 -1,440274 -0,327788 -0,45389 -1,34161 -1,271083 -1,345154 -1,454465 -0,929392 -1,064127 -0,606263 -0,6796 -1,087474 -1,413455 -1,389874 -1,471168 -0.282600 -0,619849
St. Dev. 0,167828 0,165175 0,142636 0,123909 0,140481 0,126756 0,224216 0,242585 0,198139 0,207461 0,198705 0,202545 0,142034 0,124398 0,179471 0,175087 0,147759 0,144552 0,144815 0,134943 0,140379 0,125866 0,177735 0,179062 0,226631 0,237079 0.110215 0,146456
Club Nac Breda
Thuis Uit NEC Thuis Uit RBC Roosendaal Thuis Uit RKC Waalwijk Thuis Uit Roda JC Thuis Uit Sparta Rotterdam Thuis Uit FC Twente Thuis Uit FC Utrecht Thuis Uit Vitesse Thuis Uit FC Volendam Thuis Uit VVV Venlo Thuis Uit Willem II Thuis Uit FC Zwolle Thuis Uit
Coëfficiënt -1,088225 -0,823126 -1,072923 -1,019363 -1,586596 -1,513704 -1,004252 -1,11077 -0,758303 -0,858499 -1,311724 -1,368011 -0,672895 -0,75658 -0,780545 -0,983421 -0,871635 -0,860403 -1,466981 -1,4407 -1,529648 -1,193549 -0,933394 -1,086309 -1,302321 -1,506446
C2
St. Dev. 0,141051 0,130037 0,139083 0,1271 0,169582 0,172386 0,144447 0,135707 0,14086 0,125832 0,148647 0,142468 0,140418 0,125724 0,140011 0,127371 0,13927 0,126431 0,233669 0,235315 0,305665 0,307289 0,139227 0,127314 0,226727 0,23713
0,084335 0,146338
Bovenstaande tabel geeft de schattingsresultaten weer voor de Champions League in het model waar de andere variabelen van buitencompetitiewedstrijden niet in zijn opgenomen. De geschatte coëfficiënt voor de Champions League heeft het teken wat overeenkomt met de theorie. De coëfficiënt is significant op het 95% niveau. Deelname aan de Champions League zorgt ervoor dat de kwaliteit van het deelnemende team voor de eerstvolgende wedstrijd afneemt. Dit heeft mede te maken met de manier waarop het speelprogramma is opgesteld. De Champions League wedstrijd worden in de gewone competitie als het ware ingelast, waardoor de rustperiode voor en na deze wedstrijden een stuk lager ligt. Opvallend aan Tabel 5 ten
opzichte van Tabel 1 is dat iedere coëfficiënt lager ligt in Tabel 5. De reden dat de coëfficiënten lager geschat wordt, is het opnemen van de CL-variabele. PSV heeft de meeste Champions League wedstrijden gespeeld in deze periode, waardoor het opnemen van deze variabele ervoor zorgt dat de relatieve kwaliteit van PSV toeneemt ten opzichte van de andere teams.
3.3 Welke periode is geschikt? Over een lange periode kan de kwaliteit veranderen van een club. De vraag is dan of periodes als tien of elf seizoenen te lang is of dat deze periode ingekort moet worden. In dit hoofdstuk wordt besproken welke periode het meest geschikt is voor een econometrisch model. In deze overweging wordt gelet op de waarden die de Champions League dummy’s krijgen, hoe goed de verschillende modellen voorspellen en de veranderingen van de informatiecriteria van Schwarz (SIC) en Akaike (AIC). Er wordt op dezelfde manier voorspeld als in paragraaf 3.1 (zie Tabel 2). Seizoen 08/09 wordt niet opgenomen in de dataset, maar er wordt op dit seizoen voorspeld. Zodoende kunnen de resultaten met elkaar vergeleken worden. Tabel 6 Verandering van informatiecriteria over de tijd % Goed voorspeld # seizoenen Obser. SIC AIC 3060 52,29% 10 2,022* 1,913 1530 50,98% 5 2,089 1,919 1224 48,04% 4 2,088 1,900* 918 51,96% 3 2,139 1,913 612 52,94%* 2 2,239 1,943 306 49,67% 1 2,514 2,064
Omdat Volendam en ADO Den Haag enkele seizoenen (04/05, 05/06, 06/07 en 07/08) niet in de Eredivie speelden zijn de waarden die gevonden zijn in de periode van tien seizoenen ingevuld in de vergelijking. Hetzelfde geldt voor de waarden van de
Champions League, omdat het aantal waarnemingen anders minimaal is. De uitkomst met de hoogste kans wordt gebruikt als voorspelling, zodat de uitkomsten alleen winst of verlies voor de thuispartij aangeven. Een gelijkspel wordt niet voorspeld in dit model. De laatste kolom van Tabel 6 geeft weer hoe goed het model voorspelt: met maximum likelihood wordt de uitslag (winst, gelijk of verlies) bepaald per wedstrijd en deze wordt vergeleken met de werkelijkheid. Tabel 6 is niet doorslaggevend voor een bepaalde periode: op basis van laagste SIC zou de periode over tien seizoenen geschikt zijn, op basis van laagste AIC de periode over vier en op basis van beste voorspellingen twee seizoenen. Het percentage goede voorspellingen is laag: voorspellen dat de thuispartij wint in de periode van tien seizoenen geeft een percentage van 48,33%. De waarden die de Champions League variabele krijgt, varieert ook over de tijd, deze worden in kaart gebracht in de volgende tabel: Tabel 7 Verandering van de CL-coëfficiënt over de tijd Aantal seizoenen Obs. 10 5 4 3 2 1
136 60 49 32 17 7
Coëfficiënt -0,268654 -0,045545 -0,117141 -0,224906 0,137928 -0,149841
St. Dev. 0,11352 0,186649 0,20812 0,243199 0,347005 0,542965
Zoals in tabel 7 te zien is, verschuiven de CL-variabelen naarmate er minder waarnemingen beschikbaar zijn. De periode van tien seizoenen geeft als enige significante resultaten, in de andere periodes veranderen de tekens en neemt de kans op overschrijding van de nulhypothese toe. Het aantal waarnemingen van de CLvariabelen neemt sterk af in de laatste seizoenen. Het gemiddeld aantal Champions League wedstrijden neemt af van ongeveer veertien per seizoen tot zeven per seizoen. Welke periode nu de meest geschikte is om te nemen is niet duidelijk. De kwaliteit van de ploegen verschilt sterk, in bijlage 1 is dit verschil duidelijk te zien. Verder is in bijlage 1 te zien dat het voor de Champions League schattingen beter is
om een langere periode te nemen. Het gevaar van een lange periode is echter dat een club kan veranderen. Voorbeelden hiervan zijn de financiële injectie die AZ gekregen heeft gedurende een aantal jaar of een slecht transferbeleid van een club zoals Ajax en Feyenoord. De ideale periode is moeilijk te bepalen, de rendementen van de voorspellingen blijven nagenoeg gelijk. Een langere periode vergroot de zuiverheid van de schatter voor de Champions League dummy’s, maar een kortere periode is beter voor de schattingen van de kwaliteit van clubs. Voor de voorspellingen is de combinatie gebruikt: de Champions League variabelen zijn geschat in de periode van tien seizoenen en deze zijn ingevuld in vergelijking (6) die betrekking hebben op het laatste seizoen (08/09).
4 Conclusie In deze scriptie is geanalyseerd hoe sportuitslagen verklaard worden met behulp van het ordered probit model. Voor dit model is gekozen omdat het besproken alternatief (OLS model) nog een sterke aanname vereist. Bij dit OLS model (dat het verschil in het aantal doelpunten probeert te verklaren), moet worden aangenomen dat de doelpunten die de uit- en thuisclub scoren onafhankelijk van elkaar zijn. Het ordered probit model maakt gebruik van een beperkt aantal en duidelijke groepen, dit model richt zich niet op de score maar op winst, gelijk en verlies. De aanname die gemaakt moet worden in beide modellen is dat de kwaliteit van een team gelijk blijft over de periode. Om niet twee sterke aannamen te maken is gekozen voor het ordered probit model. Er is gebleken dat Champions League wedstrijden een significant negatief effect hebben op de eerstvolgende competitiewedstrijd voor de deelnemende clubs. Hetzelfde gaat niet op voor de rusttijd tussen twee wedstrijden, UEFA-Cup- en bekerwedstrijden.
In het gebruikte model is thuisvoordeel gevonden, waar het gebruikte ordered probit model van Neumann en Tamura (1996) voor bedoeld was. De geschatte coëfficiënten van de limieten voor de vergelijkingen (6) zijn in de relatie c1 c 2 significant verschillend van elkaar, wat thuisvoordeel aantoont (Koning, 2000). Het thuisvoordeel per club is moeilijk te zien, omdat de geschatte kwaliteit voor uit- en thuiswedstrijden weergegeven wordt in afwijking van de kwaliteit van uit- en thuiswedstrijden van PSV is. Rusttijd tussen twee wedstrijden heeft geen significant effect op competitiewedstrijden. Deze variabele heeft zelfs het verkeerde teken in verschillende modellen. De variabelen van Champions League-, UEFA-Cup- en KNVBbekerwedstrijden proberen hetzelfde te verklaren als de rusttijd tussen twee wedstrijden. De rusttijd wordt namelijk aangetast door deelname aan deze buitencompetitiewedstrijden. De minimale rusttijd die aangehouden wordt in de speelschema´s is twee dagen, waardoor het eventuele effect afneemt. Dit geldt voor zowel competitiewedstrijden als buitencompetitiewedstrijden. De Champions League winnen is het hoogst haalbare voor clubs, waardoor de prioriteit van deze wedstrijden hoger ligt dan de prioriteit van de competitiewedstrijden. Het is daardoor aannemelijk dat het beste team opgesteld wordt in de Champions Leaguewedstrijden, zodat de spelers in de eerstvolgende competitiewedstrijd minder fit zijn. De optimale periode is moeilijk te bepalen, resultaten zijn niet overeenstemmend, zo zal een club over een lange periode niet hetzelfde blijven. Dit suggereert om een korte periode te gebruiken. Een korte periode brengt weer met zich mee dat de Champions League variabelen niet significant zijn omdat het aantal waarnemingen snel afneemt. De laatste jaren is het gemiddeld aantal Champions League wedstrijden afgenomen. In de toekomst zal een langere periode worden gekozen om dezelfde significantie van de Champions League variabelen te verkrijgen. De variabele vorm is niet in het model opgenomen. Het ontbreken van deze variabelen zorgt voor een bias in de schattingen. In verder onderzoek zou het
verstandig zijn om de variabele vorm proberen te definiëren, zodat de gehele kwaliteit niet gelijk blijft over de gehele periode. Voor vervolgonderzoek is het van belang om de prioriteit van een buitencompetitiewedstrijd te bepalen. Het komt voor dat clubs spelen zonder dat ze nog verder kunnen komen in het toernooi in de UEFA-Cup en de Champions League. Wanneer dit het geval is, hoeft het team niet het beste elftal op te stellen. In het model is het team vermoeid, maar in de werkelijkheid hoeft dat niet zo te zijn. Dit kan voor een bias zorgen, zodat (de dummyvariabele UEFA-uit in dit geval) de resultaten minder betrouwbaar zijn.
Bibliografie
Clarke, S.R. (1993). Computer forecasting of Australian rules football for a daily newspaper. Journal of the Operational Research Society, 44, (8), 753-759 Clarke, S.R., en J.M. Norman (1995). Home Ground Advantage of Individual Clubs in English Soccer. Journal of the Royal Statistical Society. Series D (The Statistician),
44, (4), 509-521 Hausman, J., A.W. Lo en A.C. MacKinlay (1992). An ordered probit analysis of transaction stock prices. Journal of Financial Economics, 31, (3), 319-379 Koning, R.H. (2000). Balance in Competition in Dutch Soccer. Journal of the Royal
Statistical Society. Series D (The Statistician), 49, (3), 419-431 Mahler, M.J. (1982). Modelling association football scores. Statistica Neerlandia, 36,
(3), 109-118 Neumann, G.R., en R.F. Tamura (1996). Managing Competition: The Case of the National Football League. University of Iowa: Working papers 1996. Stefani, R. (1983). Observed betting tendencies and suggested betting strategies for European football pools. Journal of the Royal Statistical Society. Series D (The
Statistician), 32, 319-329 Stefani, R. (1987). Applications of statistical methods to American Football. Journal
of Aplied Statistics, 14, (1), 61-73 Stefani, R. en S.R. Clarke (1992). Predictions and home advantage for Australian rules football. Journal of Aplied Statistics, 19, (2), 251-261
Bijlage 1 Tabel kwaliteitsschatting voor lange en korte periode
Het verschil in de schattingen van tien seizoenen ten opzichte van een seizoen. Opvallend is dat PSV over de tien seizoenen gezien significant beter is, maar in de schatting van een seizoen is dit niet het geval.
10 seizoenen
St. Dev
AFC Ajax
thuis uit
-0,286003 0,150925 -0,678327 0,129991
AZ
thuis
-0,856616 0,148722
uit
-0,253529 0,132885
thuis
-0,309916 0,151657
uit
-0,424644 0,130427
Feyenoord
De Graafschap
thuis
-1,39233 0,157975
uit
-1,489068 0,153699
thuis
-1,006479 0,153958
uit
-1,137329
thuis
-0,676632 0,148892
uit
-0,704489 0,131944
thuis
-1,155693 0,200276
uit
-1,390173 0,201082
Nac Breda
thuis uit
-1,121174 0,149955 -0,857701 0,136549
NEC
thuis uit
-1,10993 0,147976 -1,076761 0,133571
Roda JC
thuis uit
-0,743759 0,150108 -0,835346 0,131645
Sparta
thuis
-1,390194
FC Groningen
SC Heerenveen
Heracles
0,14263
0,15923
1 seizoen 0,155856 0,006499 0,881074 0,795248 0,179086 0,633499 1,590996 0,894035 0,915744 0,477339 0,880746 0,005066 1,126097 1,359333 1,033404 0,374648 0,801919 -0,63939 0,867826 -0,6188 0,926215
St. Dev 0,475711 0,407036 0,46761 0,408171 0,484002 0,409034 0,459078 0,41706 0,466054 0,409624 0,46347 0,417567 0,462667 0,439124 0,465504 0,426039 0,462712 0,411566 0,458363 0,403712 0,460538
uit FC Twente
thuis uit
FC Utrecht
thuis
Vitesse
uit thuis
VVV Venlo
uit thuis uit
Willem II
thuis
Excelsior
uit thuis uit
Champions League C1 C2
thuis
-1,387619 0,150906 1,432883 -0,761583 0,148765 0,361706 -0,828003 0,131686 0,224964 -0,810162 0,148735 0,980462 -1,015956 0,133684 0,657028 -0,917285 0,148126 -0,93496 -0,862066 0,132345 0,847877 -1,570295 0,308213 -1,57799 -1,221334 0,308708 0,949046 -0,924836 0,148015 1,216001 -1,131698 0,133494 1,313834 -1,590386 0,20319 -1,42462 -1,465978 0,204594 1,443703 -0,274156 0,165659 0,430035 0,870684 -0,637323 0,065589 0,141594
0,436995 0,472714 0,404216 0,464847 0,410358 0,460528 0,420136 0,467346 0,415321 0,465816 0,428602 0,464076 0,443719 0,722354