Prof. Dr. E. Omey
INLEIDING tot de ECONOMETRIE
Uitgeverij Den Arend 3rd Edition © Uitgeverij DEN AREND bvba Mechelsesteenweg 138/1 – B-2820 Bonheiden – Belgium Wettelijk Depot: D/2004/5027/11 ISBN 90 5610 288 5
VOORWOORD Deze tekst werd geschreven ten behoeve van studenten en andere geïnteresseerden die enig inzicht willen verwerven in de hedendaagse econometrie. Studenten die een basiscursus wiskunde en wiskundige statistiek gevolgd hebben zullen vrijwel moeiteloos de tekst kunnen volgen. In het inleidende hoofdstuk één bestuderen we de centrale doelstellingen van de econometrie en gaan we dieper in op enkele methodologische aspecten. In hoofdstuk twee volgen enkele schattingscriteria om de parameters van een al dan niet lineair model te schatten. De meeste aandacht gaat evenwel naar de kleinste kwadraten methode ennaar de kwaliteit van gevonden modellen. Een belangrijk facet bij het opstellen van een model bestaat uit een goede selectie van verklarende variabelen. In hoofdstuk drie wordt het bivariaat (lineair) model volledig besproken. In detail komen de onderwerpen: schatten, betrouwbaarheidsintervallen, toetsen van hypothesen en het voorspellen aan bod. In hoofdstuk vier bespreken we enkele moeilijkheden die kunnen optreden bij onze analyse. We analyseren o.a. heteroscedasticiteit, multicollineariteit en autocorrelatie. In hoofdstuk vijf tenslotte volgen enkele beginselen van tijdreeksanalyse. We bestuderen de verschillende componenten van een tijdreeks en bekijken dan in detail de analyse van de trenden seizoenscomponent. De analyse van dit handboek wordt geïllustreerd via een aantal uitgewerkte voorbeelden. Tevens wordt getoond hoe de berekeningen gemaakt kunnen worden met EXCEL. Het gebruik van EXCEL bij de gewone beschrijvende statistiek kan worden bestudeerd via een interactieve cursus die gratis digitaal beschikbaar is via de website van EHSAL, Brussel. Andere uitgewerkte case-studies en voorbeelden worden afzonderlijk gepubliceerd en maken geen deel uit van dit handboek. De aandachtige lezer kan echter zelfstandig vele voorbeelden en case-studies vinden in tal van tijdschriften en studiedomeinen na een kleine wandeling in een bibliotheek. Tot slot nog een woord van dank. Een handboek schrijven en beslissen wat op te nemen en wat niet, neemt veel tijd in beslag! Tevens gaan tal van discussies over inhoud, volgorde, symbolen en notaties het feitelijke schrijven vooraf. De huidige tekst werd geboren tijdens gesprekken met Prof. R. Vanstraelen (UFSIA) en werd meermaals aangepast nadat de inhoud werd getoetst aan de studenten van EHSAL. De opmerkingen, correcties en ervaring van Prof. K. De Bruyn en Prof. F. Cole zorgden voor de definitieve vorm van de tekst. Edward A.M. Omey
Deinze, Augustus 2004
2
HOOFDSTUK 1 HET STUDIEDOMEIN VAN DE ECONOMETRIE 1.1.
WAT IS ECONOMETRIE?
Wanneer we het woord "econometrie" letterlijk interpreteren, dan zouden we kunnen spreken van "economische meetkunde". Alhoewel het meten een belangrijk onderdeel is van econometrie, toch is haar horizon veel breder, zoals trouwens tot uiting komt in de volgende citaten: "Econometrics, the result of a certain outlook on the role of economics, consists of the application of mathematical statistics to economic data to lend empirical support the models constructed by mathematical economics and to obtain numerical results." "Econometrics may be defined as the quantitative analysis of actual economic phenomena based on the concurrent development of theory and observation, related by appropriate methods of inference." "Econometrics may be defined as the social science in which the tools of economic theory, mathematics, and statistical inference are applied to the analysis of economic phenomena." "Econometrics is concerned with the empirical determination of economic laws." "The art of the econometrician consists in finding the set of assumptions that are both sufficiently specific and sufficiently realistic to allow him to take the best possible advantage to the data available to him." "Econometrie is te zien als wetenschappelijk onderzoek dat erop gericht is de resultaten van economische veronderstellingen en redeneringen aan te vullen met kwantitatieve informatie, verkregen uit empirische gegevens." De econometrie is een redelijk jonge wetenschap. Als baanbreker van het (economisch) empirisch onderzoek beschouwt men dikwijls H.L. Moore, die reeds in 1919 een "Empirical Laws of demand and supply and the flexibility of prices" publiceerde in The Political Science Quarterly. De benaming “econometrie” werd gelanceerd door de Noorse hoogleraar R. Frisch die zich inspireerde op de term biometrie - dit is het geheel van statistische onderzoekingen over levende wezens. Een mijlpaal in de ontwikkeling van de econometrie was de stichting van de "Econometric Society" in 1930. Ze werd opgericht onder impuls van R. Frisch, I. Fischer, J. Schumpeter e.a., met als voornaamste doelstelling het bevorderen van de economische wetenschap in haar relatie tot de wiskunde en de statistiek. Tevens verschijnt sinds 1933 het wereldbefaamde tijdschrift “Econometrica”. In het hoofdartikel van Econometrica N° 1 beschreef J. Schumpeter “The common sense of econometrics” en verdedigt hij de stelling dat econometrie en economie een perfect paar vormen: economische feiten doen zich voor onder de vorm van numerieke kwantiteiten en numerieke verhoudingen ertussen. Nu maakt men gebruik van econometrische technieken en denkwijzen in een brede waaier van economische en andere 3
toepassingsgebieden. Omwille van de beschikbaarheid van geschikte software zijn er nu veel minder beperkingen en kan men in tegenstelling tot vroeger, grote databanken onderzoeken. Het vak econometrie bezit dus in wezen een interdisciplinair karakter. Met zou het kunnen omschrijven als een synthese van kennis nopens economie, statistiek en wiskunde. Toepassingen van econometrie en andere kwantitatieve technieken vindt men niet alleen terug in diverse algemeen-economische vakken, maar ook in de meer gespecialiseerde gebieden van marketing, industrieel beheer, accountancy, transporteconomie, financiële modellen, enz. Zoals reeds gesuggereerd, bestaat econometrie uit een amalgaam van economische theorie, wiskundige economie, economische statistiek en wiskundige statistiek. De economische theorie houdt zich hoofdzakelijk bezig met het vooropstellen van hypothesen en het afleiden van stellingen, die vooral kwalitatief zijn van aard. Zo is er bijvoorbeeld in micro-economie een stelling die zegt dat, ceteris paribus, een prijsdaling van een goed leidt tot een toenameb van de vraag naar dat goed. De economische theorie stelt dus een omgekeerd verband vast tussen de prijs van en de vraag naar dat goed. Maar zij houdt zich geenszins bezig met het onderzoeken van de numerische waarde van dit verband. De economische theoreticus zal, op basis van een gegeven prijsdaling van een goed, dus niet kunnen zeggen met hoeveel eenheden de vraag naar dat goed zal stijgen. Het is de taak van de econometrist om dit soort schattingen te doen, of, anders uitgedrukt, het is de econometrie die de economische theorie zal toetsen. De hoofdbekommernis van de wiskundige economie bestaat erin de economische theorie op een formele, wiskundige wijze weer te geven, zonder rekening te houden met de meetbaarheid of de empirische toetsing van de theorie. Zoals hoger reeds vermeld, is het de taak van de econometrist om de theorie empirisch te onderzoeken. Hierbij zal hij vaak gebruik maken van de formules die door de wiskundige economist voorgesteld zijn, maar hij zal deze formules in een zulkdanige vorm gieten dat ze zich lenen tot empirische verificatie. De economische statisticus houdt zich voornamelijk bezig met het verzamelen, verwerken en voorstellen van economische gegevens onder de vorm van grafieken en tabellen. In enkele gevallen zal hij zich ook wagen aan de berekening van een gemiddelde of van een standaardafwijking, maar verder gaat zijn taak niet. De gegevens die verzameld worden vormen de ruwe grondstof voor het eigenlijke econometrisch werk. Ondanks het feit dat de wiskundige statisticus vele instrumenten ter beschikking stelt van de econometrist, toch heeft deze laatste vaak behoefte aan speciale analytische technieken. Bij het verzamelen van (economische) gegevens kunnen we meestal niet vertrekken van een gecontroleerd experiment en zijn we afhankelijk van gegevens die niet altijd onmiddellijk kunnen worden gecontroleerd. Bovendien bevatten deze gegevens vaak een aantal meetfouten, zodat de econometrist een beroep moet doen op speciale technieken ten einde rekening te houden met deze afwijkingen.
4
1.2.
METHODOLOGIE VAN DE ECONOMETRIE
De hoofdlijnen van de econometrische aanpak kunnen we weergeven aan de hand van het volgende schema. Het schema omhelst 3 centrale pijlers met telkens 5 niveau's. Theorie
Empirie
Methodologie
niveau 1
systeem en economische theorie
empirie en feiten
wiskunde en kansrekenen
niveau 2
economisch model
data
statistiek
niveau 3
econometrisch model
bewerkte data
econometrische methoden
niveau 4 schattingsfase
operationeel
econometrisch
model
niveau 5
verificatie
voorspelling
evaluatie
Pijler I is vooral gericht op theoretische modellen. Om deze te kunnen verifiëren hebben we nood aan geschikt cijfermateriaal (pijler II) en geschikte technieken (pijler III). We zullen de verschillende ingrediënten van dit schema nu van naderbij bestuderen.
1.2.1.
Pijler I
1. Niveau 1: economische theorie Elke econometrische analyse begint met het afbakenen van het probleem dat men wil bestuderen. Via een literatuurstudie kan men onderzoeken welke variabelen nuttig zijn bij het probleem dat op tafel ligt. Bij het ontwikkelen van een economische theorie worden variabelen gegroepeerd en worden algemene “regels” bestudeerd. Deze kunnen dan voorgesteld worden in een economisch “model”. Dergelijke algemene regels kwamen reeds uitgebreid aan bod tijdens de cursussen economie. Zo vermoeden we dat de vraag naar een normaal produkt daalt naarmate de prijs stijgt. Het marktaandeel van een krant hangt af van de marketinginspanningen die men doet. Het loon van een werknemer hangt af van de leeftijd, het beschikbare diploma, de sector, de ervaring, … Keynes bijvoorbeeld onderzocht het consumptiegedrag en stelde vast dat “de mensen geneigd zijn hun consumptie te verhogen wanneer hun inkomen stijgt, maar dat deze consumptietoename kleiner is dan de toename van hun inkomen”.
2. Niveau 2: specificatie van een model Het specifiëren van een economische theorie onder de vorm van een wiskundig model is een belangrijke opdracht van de econometrie. De specificatie omvat twee facetten: - hoeveel variabelen, en welke variabelen nemen we op in het model; - hoeveel relaties, en welke relaties nemen we op in het model. In economie worden vraag en aanbod modelmatig meestal grafisch als volgt voorgesteld: 5
P
vraag en aanbod
Q
Dit model kan gebruikt worden om tal van economische fenomenen toe te lichten en te verduidelijken. Het is moeilijk te geloven dat dit model zich in de realiteit zo manifesteert. Keynes bestudeerde het verband tussen consumptie C en inkomen Y, maar hij laat ons in het ongewisse over de preciese vorm van dit verband. De wiskundige economist zou bijvoorbeeld de volgende formule kunnen voorstellen: (1)
C = A + cY
met 0 < c < 1
In deze formule is A de autonome consumptie en is c de consumptiequote. Grafisch kunnen we (1) voorstellen als een rechtelijn. Formule (1) is een voorbeeld van een wiskundig model. In dit voorbeeld bestaat het model uit één vergelijking en twee variabelen. Andere modellen bestaan uit één of meer wiskundige vergelijkingen met één of meer variabelen. Formule (1) heeft ook een zodanige vorm dat we met behulp van cijfermateriaal kunnen controleren of de formule correct is of ongeveer correct is: het volstaat cijfermateriaal omtrent C en Y te zoeken en grafisch voor te stellen. Als volgend voorbeeld bekijken we de dagelijkse vraag V naar een frisdrank. De algemene economische theorie leidt tot een verband van de volgende vorm: (2)
V = f (prijs, prijs alternatief, temperatuur, # verkooppunten,...)
Om een econometrisch model te bekomen is het noodzakelijk om de functie f (…) te preciseren en te beslissen welke variabelen we zullen gebruiken. Het is noodzakelijk om de vroeger opgesomde vragen te beantwoorden. Hoeveel variabelen? Welke? Hoeveel relaties? Welke?
3. Niveau 3: econometrisch model Zuiver wiskundige modellen zijn niet steeds interessant omdat er een exact, een deterministisch verband gelegd wordt tussen twee of meer grootheden. Bij economische variabelen kan men zelden spreken van deterministische relaties. In formule (1) kunnen er naast het inkomen, nog andere grootheden het consumptieniveau beïnvloeden. In formule (2) kunnen we - al dan niet bewust - bepaalde variabelen vergeten. Bovendien is het zo, dat onder gelijkblijvende omstandigheden, consumenten toch telkens weer anders gaan reageren. Een deterministisch model heeft als kenmerk dat bij gelijke input, de output steeds dezelfde blijft. In de formule y = 2 + 3x vinden we voor x = 7 steeds y = 23.
6
In economie hebben we meestal niet te maken met deterministische modellen. De prijs van een blikje bier blijft dezelfde en toch zal de dagelijkse omzet steeds anders zijn! Een van de belangrijke redenen hiervoor is het toeval. Daarom spreken we hier over stochastische modellen. Een stochastisch model heeft als kenmerk dat bij een gelijke input de output kan variëren, en dat de variatie afhangt van het toeval. Om hiermee rekening te houden zal men de relaties (1) en (2) aanpassen met behulp van een foutenterm: (1')
C = A + cY + ε
(2')
V = f(prijs, temperatuur,…, ε)
In deze formules is ε de storingsterm. Deze storingsterm omhelst het geheel van fouten die kunnen worden gemaakt. Dergelijke relaties noemt men stochastische relaties. Het spreekt vanzelf dat we in econometrie meestal te maken hebben met stochastische relaties. Het optreden van de foutenterm ε kan in het algemeen gezien worden als bestaande uit verschillende componenten: (a) meetfouten: om allerlei redenen is het mogelijk dat grootheden verkeerd of onnauwkeurig gemeten worden. Bij het wegen van de graanopbrengst van een stuk land kan er inaccuraat gewogen worden. Bij het bestuderen van het consumptieniveau van gezinnen kunnen er fouten optreden bij het rapporteren. Bij bevolkingsstatistieken weten we nooit exact hoeveel Belgen er zijn, weten we nooit exact hoeveel werklozen er zijn. Het geheel van meet- en observatiefouten vormt een belangrijke component bij het tot stand komen van de storingsterm ε. We verwijzen hierbij ook naar het valideringsprobleem, zie verder. (b) De variabele ε weerspiegelt tevens het indeterminisme in elke biologische en/of sociale omgeving. Bij éénzelfde soort bemesting bijv. kan de graanopbrengst van een stuk land toch verschillen omdat volledige controle onmogelijk is. Dergelijke onvoorspelbare resultaten zijn het gevolg van toevallige fouten. (c) De toevallige variabele ε weerspiegelt tevens het geheel van latente variabelen. Dit zijn de talrijke, niet expliciet opgenomen factoren die een relatie kunnen beïnvloeden. Naast de temperatuur kan de stand van de maan ook de vraag naar een frisdrank beïnvloeden. (d) De foutenterm weerspiegelt eveneens de fouten die we maken bij de opname in het model van irrelevante variabelen. (e) De foutenterm kan ook te maken hebben met de - al dan niet bewuste - keuze van de functionele vorm van de relatie tussen de variabelen. We kiezen bijvoorbeeld voor het lineair model C = A + cY maar in realiteit moesten we werken met het model C = A + cY + dsin(Y)
7
1.2.2.
Pijler II
Om een theorie empirisch te implementeren en te controleren, zullen we de relaties tussen de verschillende variabelen in een model kwantitatief moeten schatten. Hiertoe zal het van belang zijn de nodige economische grootheden te meten en de daartoe vereiste gegevens te verzamelen. De data dienen dikwijls vooraf bewerkingen te ondergaan.
1. Niveau 1: empirie en feiten Om een economisch model empirisch te onderbouwen hebben we cijfermateriaal nodig. Soms kunnen we gebruik maken van gepubliceerd cijfermateriaal. Een belangrijke bron van gegevens en informatie vormen de statistieken gepubliceerd door diverse private en publieke organisaties en gewestelijke, nationale en internationale instellingen. We vermelden hier het N.I.S., de R.S.Z., de R.V.A., de NBB, privé-banken, diverse ministeries (economische zaken, buitenlandse betrekkingen, financiën), EUROSTAT, OESO, IMF enzovoort. Soms kan men bij dergelijke instellingen ook bijzondere data verkrijgen en niet-gepubliceerde gegevens. Bedrijven bezitten ook dikwijls interne gegevens onder de vorm van databanken. Verschillende ondernemingen zijn thans gespecialiseerd in de verzameling van allerhande informatie die dan tegen betaling kan verkregen worden. Een exhaustief beeld over alle mogelijkheden inzake dataverzameling valt evenwel buiten het bestek van deze nota's. Bij het gebruik van data moet wel rekening gehouden worden met de nauwkeurigheid van de data: - de meest gepubliceerde data suggereren een veel grotere nauwkeurigheid dan in werkelijkheid het geval is. Dikwijls zijn de cijfers reeds afgeronde cijfers of gemiddelden. - de graad van nauwkeurigheid loopt sterk uiteen: de ene reeks is nauwkeuriger dan de andere. - fouten in de data zijn niet steeds symmetrisch: sommige instellingen ronden altijd af of naar onder of naar boven, en andere instellingen ronden af naar onder of naar boven al naargelang de cijfers na het kommateken > 0.5 of < 0.5 zijn. In andere gevallen zullen we genoodzaakt zijn om zelf cijfermateriaal te verzamelen. Het is immers ondenkbaar dat alle feiten en cijfers door de profesionele organisaties worden bijgehouden. In het verleden bijvoorbeeld hebben studenten studies gemaakt over de prijs van een verjaardagskaart, de prijsbepaling van (oude) postzegels e.d. en ze moesten eerst zelf een steekproef samenstellen. Bij het verzamelen van data omtrent een variabele rijst ook dikwijls het probleem van de validiteit: meten we wel datgene wat we theoretisch wensen te meten? Vele variabelen zoals bijv. de kapitaalvoorraad, veranderen niet enkel kwantitatief maar ook kwalitatief. De geschikte data of gegevens zijn niet altijd aanwezig om een bepaald variabel begrip te meten. Hoe kunnen we bijvoorbeeld wijzigingen meten in de technologie of in de consumentenvoorkeur? In econometrie worden daarom dikwijls "proxy"-variabelen gebruikt. De proxy-variabele wordt dan gezien als een benadering voor de echte variabele die we wensen. Als we bijvoorbeeld het effect van de genoten opleiding willen bestuderen met betrekking tot het gezinsinkomen, dan gebruiken we de proxy-variabele “aantal jaren schoolse opleiding” als benadering voor de echte variabele “aantal jaren opleiding”. De socio-culturele bagage van een leerling zullen we misschien benaderen met de variabele “het beroep van de ouders”.
8
Het is dus noodzakelijk om over adequate data te beschikken omtrent alle variabelen in een vooropgesteld model. Gebrek aan geschikte data vormt dikwijls een onoverkomelijke hindernis bij het uitwerken van een economische studie. De data waarmee men werkt in de econometrie kunnen onder de volgende twee hoofdvormen voorkomen: tijdreeksen en doorsneden of cross-secties. Bij tijdreeksen meten we een bepaald variabel begrip op verschillende momenten of voor verschillende periodes: dagelijks, maandelijks, per kwartaal, per jaar. Een tijdreeks geeft informatie nopens de intertemporele variatie van bepaalde economische of bedrijfseconomische grootheden zoals bijv. de evolutie van omzetcijfers, van werkloosheidsgraad. Doorsnedegegevens daarentegen meten een bepaald variabel begrip in dezelfde periode maar voor verschillende groepen. Groepen kunnen gezinnen, landen, regio's, bedrijven, ... zijn. We meten bijvoorbeeld de werkloosheidsgraad in de verschillende staten van de Verenigde Staten. Tijdreeksen en doorsneden worden in de econometrie soms gecombineerd aangewend. Men spreekt dan van pooling. Bijvoorbeeld: de produktie naar bedrijfstakken beschouwd over een reeks van jaren. Een bijzonder type van gecombineerde tijdreeksen en doorsnedegegevens wordt gevormd door panel-data of longitudinale data. Dit zijn doorsnedegegevens over een vaste steekproef van eenheden (bijv. gezinnen, bedrijven) die in de tijd regelmatig kunnen worden herhaald. Wij interviewen bijvoorbeeld 1000 gezinnen wekelijks omtrent hun kijkgedrag of hun kiesintenties. Dergelijke panel-gegevens zijn gewoonlijk microdata. Ze zijn moeilijk verkrijgbaar. Meestal zijn voor econometrische studies slechts geaggregeerde data beschikbaar. Aan het aggregeren of samenvoegen van data, evenals van relaties, zijn diverse econometrische aspecten verbonden. Hierop kan evenwel nog niet dieper worden ingegaan.
2. Niveau 2: soorten variabelen Variabelen worden van elkaar onderscheiden door een rijk geschakeerd gamma van benamingen. Zo spreekt men bijvoorbeeld van endogene en exogene variabelen, van continue en discrete variabelen, ... De betekenis van deze termen blijkt meestal uit de bepaalde context waarin de variabelen optreden. De meest efficiënte classificatie bestaat er in de variabelen te vergelijken met de meetschaal ten opzichte waarvan ze gemeten worden. Men kan een viertal categorieën onderscheiden. Kwalitatieve variabelen zijn variabelen die een kwaliteit weergeven. Deze variabelen kan men niet op een zinvolle manier voorstellen met getallen waarmee we kunnen rekenen. We onderscheiden hierin twee soorten: Nominale variabelen: de meest primitieve meetschaal is de nominale meetschaal. Hiermee duiden we enkel een kwalitatief kenmerk aan. Bovendien kunnen we in deze variabelen geen natuurlijke rangorde vinden. Voorbeelden. Geslacht, merk van auto, de sector waarin men werkt, enzovoort Ordinale variabelen: met meet ook kwalitatieve kenmerken, maar er is tevens een natuurlijke volgorde aanwezig. Voorbeelden. Militaire rang, de fiscale classificatie van woningen (sociaal, middelgroot, groot), behaald diploma, schoenmaat, enzovoort. Kwantitatieve variabelen zijn variabelen die een kwantiteit weergeven. Deze variabelen kan men wel op een zinvolle manier voorstellen met getallen waarmee we kunnen rekenen. We onderscheiden ook hier twee soorten:
9
Intervalvariabelen: deze variabelen zijn kwantificeerbaar, er is een natuurlijke volgorde aanwezig en men kan verschillen tussen de waarden van deze variabelen vergelijken. Pure intervalvariabelen bezitten geen natuurlijk nulpunt. Voorbeelden. IQ-schalen, temperatuurschalen, enzovoort. Men kan beweren dat het verschil tussen 10° C en 20° C hetzelfde is als het verschil tussen 20° C en 30° C, maar men kan niet zeggen dat het bij 20° C dubbel zo warm is als bij 10° C. Ratiovariabelen: dit zijn intervalvariabelen met een natuurlijk nulpunt. Het nulpunt geeft weer dat het kenmerk afwezig is. Omwille van dit nulpunt kunnen we op een zinvolle manier ratio’s of verhoudingen bestuderen. Voorbeelden. Lengte in meter, het gewicht in kg, het inkomen in €, enzovoort In de meeste econometrische studies heeft men te maken met zowel kwalitatieve als kwantitatieve variabelen. Om kwalitatieve variabelen te kunnen gebruiken gaan we deze kwantitatief weergeven met behulp van één of meerdere dummyvariabelen. Een dummyvariabele is een variabele die slechts twee waarden kan aanmenen: 0 of 1. De waarden 0 of 1 geven weer of een bepaald kenmerk al of niet aanwezig is. Voorbeeld 1 In een studie over werkverzuim wenst men een model op te stellen waarbij er rekening gehouden wordt met de leeftijd en met het geslacht van de verschillende personen uit de databank. De variabele “geslacht” is echter een kwalitatieve variabele. Om deze variabele te kwantificeren maken we gebruik van één dummy- variabele. We stellen: D = 1 bij een man; D = 0 bij een vrouw. In onze databank vinden we dan bijvoorbeeld de volgende gegevens: (32, 1), (48, 0), (41, 1) … De eerste persoon is een man van 32; de tweede persoon is een vrouw van 48, enzovoort. Voorbeeld 2 Dummy-variabelen lenen zich tot het onderzoeken van seizoensinvloeden. Wanneer we bijvoorbeeld een trimestrieel seizoenspatroon vaststellen, dan kunnen we de seizoenseffecten analyseren m.b.v. drie dummy-variabelen. We stellen nu: D1 = 1 in het eerste trimester en 0 anders; D2 = 1 in het tweede trimester en 0 anders; D3 = 1 in het derde trimester en 0 anders. Het eerste trimester kunnen we nu coderen als (1,0,0). Het vierde trimester kunnen we coderen als (0,0,0). De code (0,0,0) komt overeen met het vierde trimester. Bemerk dat de code (1,1,0) niet kan voorkomen. Voorbeeld 3 Bij ordinale variabelen kunnen we eveneens succesvol gebruik maken van één of meerdere dummy-variabelen. Wanneer we in een studie wensen rekening te houden met de beroepscategorie waarin iemand werkt, dan gebruiken we bijvoorbeeld de volgende vier categorieën: B1: arbeider; B2: bediende; B3: kaderlid; B4: directie. Deze vier klassen kunnen we op een unieke manier coderen met behulp van drie dummyvariabelen. We stellen bijvoorbeeld: D1 = 1 bij B1 en D1 = 0 anders; D2 = 1 bij B2 en D2 = 0 anders; D3 = 1 bij B3 en D2 = 0 anders. 10
We besluiten dat kwalitatieve variabelen gekwantificeerd kunnen worden met behulp van één of meerdere dummy-variabelen. Wanneer een kwalitatieve variabele overeenstemt met k klassen of categorieën, dan kunnen we coderen m.b.v. k −1 dummy-variabelen.
3. Niveau 3: bewerkingen met data Soms moeten de verzamelde data allerlei bewerkingen ondergaan teneinde ze bruikbaar te maken voor een bepaalde econometrische uitwerking. Hieronder volgen enkele voorbeelden. (a) deflering: omzetten van nominale waarden naar reële waarden; (b) verbinden: wanneer cijfers beschikbaar zijn onder de vorm van indexcijfers, maar die vanaf een bepaalde periode een verandering ondergingen; (c) effenen of gladstrijken: dit komt neer op het toepassen van een “filter” om oneffenheden of grote sprongen in een tijdreeks te elimineren. Men maakt hierbij soms gebruik van voortschrijdende gemiddelden. Wanneer we bijvoorbeeld beschikken over dagelijkse gegevens, dan kunnen we wekelijks gemiddelden berekenen e.d.. (d) onteffenen: dit komt neer op het toepassen van een filter om de regelmatige beweging in een tijdreeks te elimineren. Men gebruikt o.m. differenties (d.i. het verschil tussen opeenvolgende waarden), procentuele veranderingen, groeivoeten, enzovoort. (e) andere transformaties zoals kwadrateren, logaritmen nemen, enz. worden dikwijls gebruikt om verbanden tussen variabelen beter tot uiting te laten komen.
1.2.3.
Pijler III
In de derde pijler komt het arsenaal van wiskundige en kanstheoretische methodes aan bod.
1. Niveau 1: soorten relaties Er bestaat een rijk gamma van benamingen voor relaties tussen variabelen. Men spreekt bijvoorbeeld over gedragsrelaties en institutionele relaties, deterministische en stochastische relaties, statische en dynamische relaties, enkelvoudige en meervoudige relaties,... Enkelvoudige relaties bestaan uit één vergelijking in twee (= enkelvoudige bivariate relatie) of méér (= enkelvoudige multivariate relatie) variabelen. Een eenvoudige enkelvoudige relatie is bijvoorbeeld y = b0 + b1x1 of
y = b0 + b1x1 + b2x2 + … + bmxm
Hierin is y de “te verklaren” of “afhankelijke” variabele. De variabelen x1, x2, …, xm zijn “verklarende” of “onafhankelijke” variabelen. De grootheden b0, b1, …, bm die de variabelen aan elkaar verbinden noemen we de parameters van de relatie. De parameter b0 is de constante term. 11
Meervoudige relaties bestaan uit een stelsel van enkelvoudige relaties waarin diverse te verklaren variabelen tegelijk verklaard moeten worden. Bij dit soort relaties kunnen echter moeilijkheden i.v.m. identificatie optreden. Wat de vorm van de relaties betreft, kan men het hele arsenaal van wiskundige modellen aanwenden: - lineaire modellen: (lineair in de parameters) Y = a + bX (rechte) Y = a + bX + cX² (parabool) Y = a + bX + cZ + dU - exponentiële modellen: Y = aebX, Y = a + becX - log-lineaire modellen: Y = a XbZc
(Cobb-Douglas type)
- golfmodellen: Y = a + bX + c sin (dZ + e) - logistieke modellen, Gompertz modellen, enzovoort. Dikwijls wordt de keuze beperkt door a priori restricties vanuit de economische theorie. Modellen bijvoorbeeld die constante elasticiteiten veronderstellen geven aanleiding tot relaties van het Cobb-Douglas type. In deze cursus besteden we hoofdzakelijk aandacht aan lineaire modellen: dit zijn modellen die lineair zijn in de parameters. Bij niet lineaire modellen proberen we via een geschikte transformatie het model te lineariseren. Voorbeelden lineaire modellen Y = a + bX² Y = a + bcos(X) + csin(Z) lineariseerbare modellen Y = aebX Î logaritmen nemen geeft ln(Y) = ln(a) + bX = a* + bX Y = 1/(a + bX) Î omwisselen teller en noemer geeft 1/Y = a + bX Y = aXb Î logaritmen nemen geeft ln(Y) = ln(a) + bln(X) = a* + bX* andere modellen Y = a + becx geen geschikte transformatie bekend c Y = a/(1 + bx ) geen geschikte transformatie bekend
2. Niveau 2: statistiek Ter informatie volgt hier een beknopt overzicht van enkele veel gebruikte onderdelen van statitistiek. Beschrijvende statistiek - doel: data doeltreffend samenvatten en grafisch voorstellen; - voorbeelden: centrale parameters, spreidingsparameters, correlatiecoëfficiënten, histogram, empirische verdelingsfunctie,...
12
Verklarende statistiek - doel: conclusies i.v.m. een steekproef veralgemenen tot de totale populatie en analyse van de benaderingsfouten; - voorbeelden: betrouwbaarheidsintervallen, (steekproef-) fouten-analyse, toetsen van hypothesen, ... Testen op verschillen - doel: bepalen of twee of meerdere objecten significant van elkaar verschillen m.b.t. een karakteristieke eigenschap; hypothesen toetsen; - voorbeelden: de t-test, de z-test, de F-test, de KS-test, de chikwadraattest,... Afhankelijkheidstesten - doel: meten van (statistische) afhankelijkheid tussen twee of meer vele variabelen en de mate van afhankelijkheid; - voorbeelden: correlatie-analyse, regressie-analyse, betrouwbaarheidsintervallen opstellen over het effect van één variabele op een andere. Kwalitatieve analyse - doel: kwalitatieve kenmerken beschrijven en analyseren. - voorbeelden: multidimensional scaling; clusteranalyse, …
3. Niveau 3: econometrische methodes Wanneer we geopteerd hebben voor één of ander econometrisch model, moeten we nu methodes bestuderen om de parameters van ons model te schatten. Tevens is het wenselijk over criteria te beschikken die informatie geven over de kwaliteit van de schattingen en over de kwaliteit van de gebruikten modellen en methoden. Al naargelang het criterium dat men hanteert en van de basisveronderstellingen die men maakt, gebruikt men de kleinste kwadratenmethode, de maximum-likelihood-methode, de momentenmethode, logit-modellering, parametervrije methoden, .... Het is hierbij uitermate belangrijk van te kunnen onderzoeken wat de kwaliteit is van de schattingen en van het gehanteerde model. Tevens is het belangrijk de kwaliteit van de voorspellingen te kunnen beoordelen. Uiteraard gaan we hier verder dieper op in.
1.2.4.
Niveau 4: operationeel econometrisch model
Op het ogenblik dat een econometrisch model aanwezig is, dat er geschikt cijfermateriaal voor handen is en dat we beschikken over geschikte methoden kunnen we de drie pijlers integreren: we schatten de parameters in het model. Het schatten zelf zal meestal niet het moeilijkste zijn. Beschikbare software zorgt er immers voor dat er bijna geen manuele berekeningen moeten gemaakt worden. Het voorbereidend werk en de evaluaties achteraf vormen de hoofdbrok van het werk.
13
In deze fase zullen we uitermate veel aandacht hebben aan de kwaliteitsaspecten van ons econometrisch model. We onderzoeken o.m. - de kwaliteit van het gebruikte model en de gebruikte variabelen; - de kwaliteit van de gevonden parameterschattingen; - de kwaliteit van de voorspellingen die we kunnen maken met het model. Daarnaast onderzoeken we de basisveronderstellingen die moe(s)ten gemaakt worden om de gehanteerde technieken te mogen gebruiken.
1.2.5.
Niveau 5
1. Eigenschappen van een goed model a. Eenvoud Een goed model kan omzeggens nooit een exacte beschrijving geven van de werkelijkheid. Om de werkelijkheid volledig nauwkeurig te beschrijven, zouden we een zodanig complex model moeten opbouwen dat het praktisch nut ervan vrijwel tot niets herleid is. We moeten dus proberen om het model zo eenvoudig mogelijk te houden. Milton Friedmann drukt het treffend uit als volgt: “Een wiskundig model is des te krachtiger naarmate het meer verklaart met minder variabelen!”. Dit betekent dus dat we het betreffende fenomeen moeten trachten te beschrijven met slechts enkele sleutelvariabelen die de essentie van het probleem verklaren. b. Identificeerbaarheid Dit betekent dat alle parameters op een éénduidige wijze moeten kunnen geschat worden. Elke parameter mag slechts één enkele waarde hebben. Deze voorwaarde is zeer belangrijk in modellen waar dezelfde parameter meerdere malen voorkomt. c. Verklarend vermogen Eén van de belangrijkste eigenschappen voor een goed model is de hoge mate van overeenkomst tussen de resultaten die door het model gegenereerd worden en de de realiteit. Men zou deze eigenschap kunnen omschrijven als het verklarend vermogen van het model. d. Theoretische consistentie Een model dat aan hoger vermelde voorwaarden voldoet kan toch slecht zijn. Wanneer het teken van één of meer parameters niet in overeenstemming is met de theoretische verwachtingen dan wil dit zeggen dat deze variabelen een omgekeerde invloed uitoefenen op het te verklaren verschijnsel. Zo zou bijvoorbeeld (volgens het model) een prijsverhoging voor gevolg hebben dat de vraag naar het betrokken goed stijgt. In zulk geval verdient het aanbeveling om de specificatie van het model met de nodige achterdocht te benaderen. e. Voorspellingskracht Hiermee bedoelt men de voorspellingskracht van het model naar de toekomst toe. Men treedt hier dus buiten de gegevens die gebruikt werden om de parameters te berekenen en zal men nagaan in hoeverre de voorspellingen op basis van het model overeenkomen met de werkelijke toekomstige resultaten.
14
2. Pijler I: verificatie Nadat we een econometrisch model operationeel hebben gemaakt en via data schattingen hebben gemaakt, is het belangrijk te gaan evalueren. Het soort model dat uiteindelijk gehanteerd zal worden, hangt af van het specifieke doel dat men voor ogen heeft. Soms worden modellen ingedeeld in drie klassen: beschrijvende modellen, voorspellende modellen, verklarende modellen. De econometrie heeft onder andere als taak een keuze te maken tussen econometrische theorieën en/of modellen. Daartoe dienen deze laatste geconfronteerd te worden met de realiteit: men spreekt van verificatie. Hoe kan men een theorie verifiëren? We kunnen twee extreme visies onderscheiden: hypothetisme of prognostocisme. a) Bij hypothetisme worden de basishypothesen van een theorie geconfronteerd met de realiteit. Als deze niet met de werkelijkheid overeenstemmen, dan dient de hele theorie te worden verworpen. (voorbeeld van een basishypothese: winstmaximalisatie). b) Bij prognostocisme wordt een theorie beoordeeld op basis van de nauwkeurigheid van haar voorspellingen. De waarde van een theorie wordt bepaald op basis van haar voorspellingskwaliteit, dit is de mate van overeenkomst tussen experimentele waarnemingen en de voorspellingen van de beschouwde theorie. Wanneer een bepaalde opvatting niet voldoet, behoort het uiteraard tot de opdracht van de econometrie een meer bevredigende theorie te ontwikkelen.
3. Pijler II: voorspellen Econometrie heeft een - momenteel aan sterk belang winnende - praktijkgerichte opdracht te vervullen. Deze bestaat uit het verrichten van gefundeerde prognoses en het uitwerken (met het oog op beleidsevaluaties) van simulaties. a) prognose: dit is het voorspellen van de waarden van bepaalde variabelen of de wijze van hun verandering over een bepaalde periode in de toekomst. Hierbij denken we bijvoorbeeld aan: - het voorspellen van de werkloosheidsgraad; - het voorspellen van de omzet van een produkt. b) simulatie: hiermee proberen we met een operationeel econometrisch model de verandering te bepalen in variabelen tengevolge van voorgenomen beleidsstrategieën en/of gewijzigde omgevingsfactoren. Op deze manier kunnen we b.v. de weerslag van een bepaald beleid of van een bepaalde beslissing beoordelen.
15
4. Pijler III: evalueren Op niveau 5 evalueren we de gebruikte technieken en methoden. In deze fase kunnen we bijvoorbeeld beslissen dat de bestaande technieken niet volstonden en dat er nieuwe of andere methoden nodig zijn. Zeker bij niet lineaire modellen staan de schattingsmethoden nog niet helemaal op punt en onderzoeken wetenschappers hoe ze daar een mouw kunnen aan passen. Bij modellen waar de te verklaren variabele een dummy variabele is, is de wetenschappelijke wereld nog volop op zoek naar geschikte schattingstechnieken. Meer en meer gaan wetenschappers ook op zoek naar alternatieven voor de klassieke kleinste kwadratenmethode. Alternatieven die nu onderzocht worden zijn parametervrije methoden en methoden gebaseerd op andere afstanden dan de kwadratische afstanden.
16
HOOFDSTUK 2 SCHATTINGSTHEORIE 2.1.
SCHATTINGSCRITERIA
2.1.1.
Inleiding
Y
We beginnen met een eenvoudig voorbeeld. We bekijken de inzet van meststof en de opbrengst per hectare van een bepaald gewas. De opbrengst per ha ( Y ) is de te verklaren variabele, de inzet van meststof ( X ) de verklarende variabele. We hebben de variabele X onder controle en kunnen herhaalde proefnemingen uitvoeren. Op deze manier verkrijgen we een hele reeks waarnemingen. Wanneer we deze waarnemingen op een grafiek plaatsen, verkrijgen we bijvoorbeeld het volgende scatterdiagram:
X
Hoe kunnen we nu met behulp van deze observaties de relatie tussen de variabelen achterhalen, en op een kwantitatieve manier vastleggen? We kunnen op zoek gaan in de literatuur en een relatie vooropstellen tussen X en Y . Vervolgens kunnen we de parameters in deze relatie gaan schatten. Welke relatie uiteindelijk gekozen wordt, hangt af van de econometrist, de relevante literatuur en eventuele theoretische beperkingen of randvoorwaarden. In het algemeen gebruiken we relaties van de vorm
waarbij
Y = f ( X 1 , X 2 ,..., a, b, c,..., ε ) Y = de te verklaren variabele X 1 , X 2 ,... = de verklarende variabelen ε = een (stochastische) stormingsterm a, b, c,... = parameters van het model
17
In concrete situaties moeten we een of meer geschikte verklarende variabelen kiezen en de functie f vastleggen. Vervolgens moeten de parameters geschat worden. In ons voorbeeld hebben we één verklarende variabele X en is het aan ons om een functievoorschrift te kiezen. In veel gevallen liggen de waarnemingen verspreid in het scatterdiagram en is er niet onmiddellijk een “mooie” relatie voorhanden. Wanneer de puntenwolk een “bijna” rechtlijnig verband vertoont, kunnen we de echte relatie tussen Y en X bijvoorbeeld benaderen door een relatie van de vorm Y = a + bX + ε Om de parameter(s) te schatten laten we in eerste instantie de storingsterm ε weg en werken met de benadering Yˆ = f ( X 1 , X 2 ,..., a, b, c,...) . In ons voorbeeld is dit Yˆ = a + bX .
2.1.2.
Schattingscriteria
Hoe kunnen we nu de parameters in dergelijke relaties “optimaal” schatten? Welke parameterwaarden geven de “beste” aansluiting van de waarnemingen met de vooropgestelde relatie? We vragen hier naar een schattingscriterium waarin we precies uitdrukken wat we bedoelen met “best”. Er zijn diverse criteria denkbaar om een “beste” aansluiting te realiseren. We bespreken hier in het kort enkele mogelijke criteria. We stellen: Yi = Yˆi =
de i-de geobserveerde waarde;
de i-de waarde die we berekenen op basis van een welbepaalde relatie; (dit is de geschatte waarde) ei = Yi − Yˆi = de i-de fout die we maken
Het is wellicht logisch om criteria te nemen die gebaseerd zijn op de gemaakte fouten ei
1. Minimale totale fout Een eerste criterium is gebaseerd op de gemiddelde fout: bepaal de parameters van de relatie zodanig dat de som van de fouten ∑ ei minimaal is. i
Dit criterium is evenwel niet adequaat omdat positieve en negatieve afwijkingen elkaar kunnen opheffen. Op deze manier kan geen onderscheid gemaakt worden tussen relaties met “grote” afwijkingen en relaties met “kleine” afwijkingen.
2. M.A.D.-criterium (Minimal Absolute Deviation) Om het tekenprobleem van het vorige criterium op te heffen, gebruiken we in dit criterium absolute waarden en het criterium luidt nu als volgt: bepaal de parameters van de relatie zodanig dat de som van de absolute afwijkingen ∑ ei minimaal is. i
In de hedendaagse econometrie wordt dit criterium meer en meer gebruikt. Vroeger werd dit criterium weinig toegepast omdat het rekentechnisch zeer lastig was om de parameters te bepalen. Dit bezwaar is nu echter grotendeels vervallen. In deze cursus zullen wij ons evenwel beperken tot het hierna volgende criterium.
18
3. KK- criterium (Kleinste Kwadraten Criterium) In de plaats van absolute waarden, kwadrateren we hier de fouten. Het kleinste kwadraten criterium kunnen we als volgt formuleren: bepaal de parameters van de relatie zodanig dat de som van de gekwadreerde fouten SSE = ∑ ei2 minimaal is. i
Enkele redenen om dit criterium te hanteren zijn: - het tekenprobleem wordt opgelost vermits we kwadrateren; - omdat we de fouten kwadrateren weegt één grote afwijking zwaarder door dan meerdere kleine afwijkingen; - de uitwerken van dit criterium is handig en vrij eenvoudig; - deze methode hangt nauw samen met de (in de statistiek welbekende) maximum-likelihoodmethode.
4. Andere criteria Andere criteria om parameters te schatten in een relatie zijn de momentenmethode, de maximum-likelihood-methode, de methode van de semi-gemiddelden enzovoort. Bij nog andere criteria definieert men de fouten ei op een andere manier. We gaan hier niet dieper op in.
2.2.
DE KK-NORMAALVERGELIJKINGEN
2.2.1.
Het eenvoudig lineair model
Waarin bestaat nu de kleinste kwadraatoplossing? Als vertrekpunt veronderstellen we een lineaire specificatie met twee parameters: Y = a + bX + ε . Als benadering gebruiken we Yˆ = a + bX . Wanneer we beschikken over n observaties dan vinden we voor de verschillende waarnemingen i = 1, 2, ..., n achtereenvolgens Yi = de i-de geobserveerde waarde; Yˆi = a + bX i = de i-de waarde die we berekenen op basis van een onze relatie (dit is de geschatte waarde) ˆ ei = Yi − Yi = de i-de fout die we maken
19
Volgens het K.K.-criterium moeten we de parameters a en b bepalen zodanig dat de som van de kwadraten SSE = ∑ ei2 = ∑ (Yi − a − bX i ) 2 minimaal is. i
i
Deze som is afhankelijk van a en b en we kunnen de minimale waarde van SSE bepalen door de partiële afgeleiden van SSE te berekenen en aan nul gelijk te stellen. We vinden (1) afgeleide naar a gelijkstellen aan 0 geeft: − 2∑ (Yi − a − bX i ) = 0
(2) afgeleide naar b gelijkstellen aan 0 geeft: − 2∑ (Yi − a − bX i ) X i = 0 Omdat ei = Yi − a − bX i tonen formules (1) en (2) dat (1') (2')
∑e = 0 ∑e X = 0 i
i
i
Deze vergelijkingen noemt men de kleinste-kwadraten- normaalvergelijkingen. De vergelijkingen (1) of (1') tonen dat voor het model Yˆ = a + bX de som van de fouten steeds gelijk is aan nul. De grafische betekenis van (2) of (2’) is dat de vector van de fouten (e1 , e2 ,..., en ) loodrecht staat op de vector ( X 1 , X 2 ,..., X n ) We lossen nu het stelsel (1), (2) op en bepalen de parameters. Uit (1) volgt dat
en dus
∑ Y − ∑ a − b∑ X = 0 ∑ Y − na − b∑ X = 0
of
Y − a − bX = 0 .
i
i
i
i
We vinden bijgevolg dat Y = a + bX of dat (3)
a = Y − bX
Formule (3) invullen in formule (2) geeft (4)
∑ (Y
i
∑ (Y
i
− Y + bX − bX i ) X i = 0 of
− Y ) X i − b∑ ( X i − X ) X i = 0
We gebruiken nu de volgende notaties:
V ( X ) = ∑ ( X i − X ) 2 = ∑ ( X i − X ) X i = de variatie binnen de X-waarden r V ( X , Y ) = ∑ ( X i − X )(Yi − Y ) = ∑ (Yi − Y ) X i = de covariatie van X met Y
20
Bemerk dat V ( X ) = V ( X , X ) en bemerk het verband met de steekproefvariantie s ²( X ) en de steekproefcorrelatiecoëfficiënt r ( X , Y ) : s ²( X ) = V ( X ) / n (of s ²( X ) = V ( X ) /( n − 1) en r ( X , Y ) = V ( X , Y ) / V ( X )V (Y )
Met deze handige notatie kunnen we formule (4) herschrijven als volgt: (5)
V ( X , Y ) − bV ( X ) = 0
Wanneer V ( X ) ≠ 0 dan vinden we via (5) dat (6)
b = V ( X ,Y ) / V ( X )
V ( X ,Y ) X V (X ) De parameterwaarden die we vonden, vonden we met de KK-methode. Deze “optimale” waarden noemen we de kleinste-kwadraatschatters (KK-schatters) en noteren we met een dakje. We vinden dus Invullen in (3) geeft vervolgens a = Y −
(7) (8)
bˆ = V ( X , Y ) / V ( X ) aˆ = Y − bˆX
De resulterende relatie heeft als vergelijking: (9)
Yˆ = aˆ + bˆX
Deze rechte noemen we de kleinste-kwadraat rechte (KK-rechte) of de regressie van Y op X. Met de keuze (7), (8) minimaliseerden we SSE. De bijhorende minimale waarde is gelijk aan SSE = ∑ ei2 = ∑ (Yi − aˆ − bˆX i )² Met behulp van (7) en (8) vinden we 2 SSE = ∑ (Yi − Y − bˆ( X i − X ))² = V (Y ) + bˆ V ( X ) − 2bˆV ( X , Y )
en dus SSE = V (Y ) −
V ²( X , Y ) V (X )
V ²( X , Y ) Bemerk anderzijds dat V (Yˆ ) gelijk is aan V (Yˆ ) = V (aˆ + bˆX ) = bˆ 2V ( X ) = V (X )
21
We besluiten dat SSE = V (Y ) − V (Yˆ ) . Omdat (cf. (1’)) e = 0 vinden we nu eveneens SSE = V (e) . De vorige relatie kunnen we herschrijven als volgt: (10)
V (Y ) = V (Yˆ ) + V (e)
De variatie in Y is de som van twee delen: de variatie in Y is gelijk aan de som van de variatie van het deel dat we kunnen verklaren met het model en variatie van wat we met het model niet kunnen verklaren. Opmerkingen. 1. Bemerk dat (8) toont dat de KK-rechte bepaald door (9) het koppel ( X , Y ) bevat. De gemiddelden liggen dus steeds op de KK-rechte. 2. Bemerk tevens dat het verband tussen bˆ en de steekproefcorrelatiecoëfficiënt: bˆ = r ( X , Y ) s (Y ) / s ( X ) 3. De variatie van variabelen zal van zeer groot belang zijn bij ANOVA (Analysis of variances) Zo zullen we veelvuldig gebruik maken van: - SST = V (Y ) = de variatie in de te verklaren variabele = de te verklaren variatie; - SSR = V (Yˆ ) = de variatie in Y^ via een regressie bekomen = de verklaarde variatie; - SSE = V (e) = de variatie in de fouten = de onverklaarde variatie Bij lineaire modellen met een constante term kan men aantonen (cf. (10)) dat SST = SSR + SSE 4. De KK-schatters kunnen we vinden op voorwaarde dat V ( X ) verschilt van 0. Aan deze voorwaarde is niet voldaan indien de verklarende variabele constant is! Samenvatting Model: KK-benadering: met en Eigenschap
Y = a + bX + ε Yˆ = aˆ + bˆX bˆ = V ( X , Y ) / V ( X ) aˆ = Y − bˆX V (Y ) = V (Yˆ ) + V (e)
We nemen we nu enkele andere eenvoudige specificaties en bepalen de KK-schatters.
22
2.2.2.
Enkele andere specificaties
a. Model Y = a + ε Hier is Yˆ = a (constante functie), ei = Yi − a en SSE = ∑ (Yi − a)²
SSE te minimaliseren t.o.v. a leidt tot − 2∑ (Yi − a) = 0 . We vinden we aˆ = Y en SSE = V (Y ) b. Model Y = bX + ε Hier is Yˆ = bX (rechte door de oorsprong), is ei = Yi − bX i en SSE = ∑ (Yi − bX i )²
Minimaliseren t.o.v. b leidt tot − 2∑ (Yi − bX i ) X i = 0 . We vinden bˆ =
∑X Y ∑X
i i 2 i
c. Model Y = a + bX + cZ + ε (lineair model met constante term) Hier is Yˆ = a + bX + cZ en ei = Yi − a − bX i − cZ i en de normaalvergelijkingen zijn:
∑e = 0 ∑e X = 0 ∑e Z = 0 i
i
i
i
i
We kunnen de normaalvergelijkingen herschrijven als volgt: (1) (2) (3)
Y = a + b X + cZ V ( X , Y ) = bV ( X ) + cV ( X , Z ) V ( Z , Y ) = bV ( X , Z ) + cV ( Z )
Dit is een lineair stelsel met 3 vergelijkingen en 3 onbekenden. Uit vergelijkingen (2) en (3) kunnen we de parameters b en c bepalen op voorwaarde dat de determinant van de matrix van het stelsel niet gelijk is aan 0. Indien dit niet het geval is, hebben we te maken met het probleem van de multicollineariteit wat verder uitgebeid aan bod komt. De determinant van de matrix van het stelsel is hier gelijk aan V (X ) V (X , Z) = V ( X )V ( Z ) − V ²( X , Z ) V ( X , Z ) V (Z ) We merken dat de determinant gelijk is aan 0 enkel en alleen als V ²( X , Z ) = V ( X )V ( Z ) en dit geldt enkel en alleen als r ²( X , Z ) = 1 . d. Model Y = bX + cZ + ε (lineair model zonder constante term) (oefening) 23
2.2.3.
Multivariaat lineair model
We bepalen nu de KK-schatters voor het multivariaat lineair model Y = a + b1 X 1 + b2 X 2 + ... + bk X k + ε In dit geval vinden we Yˆ = a + b1 X 1 + b2 X 2 + ... + bk X k , ei = Yi − Yˆi en de normaalvergelijkingen zijn:
∑e = 0 ∑e X = 0 i
i
1,i
…
∑e X i
k ,i
=0
We kunnen de bovenstaande normaalvergelijkingen herschrijven als volgt: (1)
Y = a + b1 X 1 + b2 X 2 + ...bk X k
(2) V ( X 1 , Y ) = b1V ( X 1 ) + b2V ( X 1 , X 2 ) + ... + bk V ( X 1 , X k ) … (k+1) V ( X k , Y ) = b1V ( X 1 , X k ) + b2V ( X 2 , X k ) + ...bk V ( X k ) Wanneer de determinant van de matrix van dit stelsel verschilt van 0, kunnen we dit stelsel oplossen en de KK-schatters bepalen. Indien de determinant wel gelijk is aan 0 hebben we te maken met het probleem van de multicollineariteit, zie verder.
24
2.2.4.
KK-methode via EXCEL
Het effectief uitwerken van het stelsel van de normaalvergelijkingen zullen wij overlaten aan EXCEL. Wij moeten er wel op toezien dat er voldaan is aan de multicollineariteitsvoorwaarde. Om de KK-methode uit te werken in EXCEL plaatsen we de data in aaneensluitende kolommen naast elkaar in een leeg excelblad. Als voorbeeld gebruiken we de volgende databank:
staat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Y 235 231 270 261 300 317 387 285 300 221 264 308 379 342 378 232 231 246 230 268 337 344 330 261 214
X1 508 564 322 846 871 774 856 889 715 753 649 830 738 659 664 572 701 443 446 615 661 722 766 631 390
X2 394,4 457,8 401,1 523,3 478 588,9 566,3 575,9 489,4 501,2 490,8 575,3 543,9 463,4 492,1 486,9 467,2 478,2 429,6 482,7 505,7 554 533,1 741,5 382,8
X3 325 323 328 305 303 307 301 310 300 324 329 320 337 328 330 318 309 333 330 318 304 328 323 317 310
Van enkele staten noteerden we Y X(1) X(2) X(3)
= de uitgaven aan onderwijs = aantal stadsbewoners per 1000 inwoners = gemiddeld inkomen = aantal jongeren per 1000 inwoners
We willen het volgend lineair model uitwerken met de KK-methode: Y = a + bX (1) + cX ( 2) + dX (3) + ε
25
Om de KK-methode uit te werken in EXCEL gebruiken we de DATA-ANALYSE-tools van EXCEL.
Hierin kiezen we de optie REGRESSION:
We vullen het scherm in als volgt: - input Y-range: we klikken de data omtrent Y aan, samen met de titel “Y”; - input X-range: we klikken alle data omtrent de verklarende variabelen aan, samen met de titels; - bij de optie “labels” kruisen we het blanco vierkantje aan; - bij de output options klikken we op het blanco bolletje bij “output range” en onmiddellijk daarna klikken we op de horizontale witte balk ernaast. We kiezen nu een lege cel op ons excelblad vanaf dewelke de output zal komen; - bij de residuals (dit zijn de gemaakte fouten) kruisen we het eerste bolletje linksboven aan. De overige inputmogelijkheden laten we voorlopig open. Deze komen later uitgebreid aan bod.
26
Na het aanklikken van OK bekomen we de volgende summary output die bestaat uit vier delen: deel 1: regression statistics: Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations
0,5567 0,3099 0,2113 47,3376 25
In dit deel krijgen we informatie over de kwaliteit van het model als geheel. - het aantal observaties bedraagt 25; - de multiple R is gelijk aan de correlatiecoëfficiënt tussen Y en Yˆ Bij een “goed” model is het aangenaam te zien dat R = r (Y , Yˆ ) groot is. In ons voorbeeld is de R-waarde gelijk aan 55%. Voorlopig is nog geen scheidsrechter aanwezig om deze waarde te beoordelen. - de R-square = R² is gelijk aan het kwadraat van de R-waarde; - de adjusted R square is gerelateerd aan R² en komt in de cursus verder niet meer aan bod; - de standard error (zie later) karakteriseert het geheel van de fouten die we maken met het model.
27
deel 2: ANOVA of analyse van de variaties ANOVA Regression Residual Total
df
SS
MS
F
Significance F
3 21 24
21139,4 47057,9 68197,4
7046,5 2240,9
3,14
0,0467
De kolom SS geeft de “sum of squares” weer van de variabelen die interessant zijn voor ons. - SSTotal = SST (total sum of squares) = V (Y ) = de variatie van de Y-waarden - SSRegression = SSR (regression sum of squares) = V (Yˆ ) = de variatie van de Yˆ -waarden - SSResidual = SSE (error sum of squares) = V (e) = de variatie van de gemaakte fouten Zoals we vroeger reeds vaststelden vinden we bij lineaire modellen met een constante term steeds dat SST= SSR + SSE. De overige ingrediënten in deze tabel komen later aan bod. deel 3: de resultaten van de regressie-analyse
Coefficients
Standard Error
t Stat
P-value
Lower 95%
Upper 95%
-260,708 0,19427 0,06441 1,21293
334,173 0,0857 0,1606 0,98051
-0,780 2,266 0,401 1,237
0,444 0,034 0,692 0,229
-955,66 0,01596 -0,2696 -0,8261
434,24 0,37258 0,3984 3,2520
Intercept X1 X2 X3
In deze tabel krijgen de de resultaten van de KK-methode. In de kolom “coefficients” vinden we de KK-schatters. Zo lezen we dat
aˆ = −206.7 ,
bˆ = 0.19 ,
cˆ = 0.06 ,
dˆ = 1.21
Het geschatte model is bijgevolg (*)
Yˆ = −206.7 + 0.19 X (1) + 0.06 X ( 2) + 1.21X (3)
De overige kolommen van deze tabel komen later ter sprake. deel 4: residual output of tabel met de fouten RESIDUAL OUTPUT Observation 1 2 3 4 5 6
Predicted Y 257,59 270,12 225,52 307,29 306,81 299,96
Residuals -22,59 -39,12 44,48 -46,29 -6,81 17,04 28
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
307,15 325,10 273,60 310,85 296,04 325,73 326,45 295,01 300,25 267,49 280,36 260,06 253,87 275,57 269,01 313,08 314,22 294,14 215,72
79,85 -40,10 26,40 -89,85 -32,04 -17,73 52,55 46,99 77,75 -35,49 -49,36 -14,06 -23,87 -7,57 67,99 30,92 15,78 -33,14 -1,72
In de eerste kolom staan de verschillende waarnemingsnummers. In de tweede kolom staan de Yˆ -waarden en in de laatse kolom staan de gemaakte fouten ei = Yi − Yˆi Voor de eerste staat bijvoorbeeld vinden we in de datatabel de volgende cijfers staat 1
Y 235
X1 508
X2 394,4
X3 325
Via formule (*) vinden we vervolgens
Yˆ = −206.7 + 0.19 * 508 + 0.06 * 394.4 + 1.21 * 325 = 257.58 De gemaakte fout is dus gelijk aan 235 – 257.58 = – 22.58
29
2.2.5. Voorbeelden Voorbeeld 1 In dit voorbeeld hebben we de inzet van meststof (X) en de opbrengst per ha (Y) genoteerd voor 8 velden. In een scatterdiagram kunnen de we tabel grafisch voorstellen. Tabel 1 a X 0,3 0,6 0,9 1,2 1,5 1,8 2,1 2,4
figuur 1a 50 opbrengst
1 2 3 4 5 6 7 8
Y 10 15 30 35 25 30 45 45
40 30 20 10 0 0
0,5
1
1,5
2
2,5
3
inzet meststof
We bepalen de parameters a en b voor de lineaire specificatie Yˆ = a + bX : Regression Statistics Multiple R 0,888 R Square 0,786 Adjusted R Square 0,751 Standard Error 6,319 Observations 8 ANOVA Regression Residual Total
Intercept X RESIDUAL Observation 1 2 3 4 5 6 7 8
df 1 6 7
SS 882,292 239,583 1121,875
MS 882,292 39,931
F 22,096
Significance F 0,0033
Coefficients 8,75 15,278
Standard Error 4,924 3,250
t Stat 1,777 4,700
P-value 0,1259 0,003
Lower 95% -3,298 7,325
OUTPUT Predicted Y 13,33 17,92 22,5 27,08 31,67 36,25 40,83 45,42
Residuals -3,33 -2,92 7,5 7,92 -6,67 -6,25 4,17 -0,42 30
Upper 95% 20,798 23,231
We vinden de volgende KK-rechte: Yˆ = 8.75 + 15.278 X In de volgende tabel en figuur vergelijken we de echte waarden met de gevonden schattingen en gemaakte fouten. Tabel 1b Y 10 15 30 35 25 30 45 45
1 2 3 4 5 6 7 8
X 0,3 0,6 0,9 1,2 1,5 1,8 2,1 2,4
Y^ 13,33 17,92 22,50 27,08 31,67 36,25 40,83 45,42
e -3,33 -2,92 7,50 7,92 -6,67 -6,25 4,17 -0,42
figuur 1b 50 40 30 20 10 0 0
0,5
1
1,5
2
2,5
3
Voorbeeld 2 Gegeven is de volgende tabel en figuur van halfjaarlijkse verkoopcijfers: Tabel 2
1995 1996 1997 1998 1999
tijd X 1 2 3 4 5 6 7 8 9 10
verkopen Y 4 1 6 2 11 5 11 7 15 9
figuur 2 20 15 10 5 0 0
2
4
31
6
8
10
12
In de grafiek zien we een opwaartse trend en zien we een seizoenspatroon dat zich elk jaar manifesteert. Om Y te modelleren maken we gebruik van de tijdsvariabele X (om de trend weer te geven) en van een dummy-variabele D (om de seizoenen weer te geven). We stellen D = 1 in het eerste halfjaar D = 0 in het tweede halfjaar De nieuwe databank is nu de volgende: Y 4 1 6 2 11 5 11 7 15 9
X 1 2 3 4 5 6 7 8 9 10
D 1 0 1 0 1 0 1 0 1 0
We analyseren de volgende modellen: model 1: Yˆ = a + bX (alleen trend) model 2: Yˆ = a + bD (alleen seizoen) model 3: Yˆ = a + bX + cD (trend en seizoen; additief model) model 4: Yˆ = a + (b + cD ) X = a + bX + cDX (trend en seizoen; multiplicatief model) model 5: Yˆ = bX + cD (model zonder constante term) Via EXCEL vinden we samengevat de volgende resultaten: model 1: Yˆ = 1.467 + 1.024 X ; R² = 0.49 ˆ R² = 0.30 model 2: Y = 4.8 + 4.6 D ; model 3: Yˆ = −2.4 + 1.2 X + 5.8D ; R² = 0.96 model 4: Yˆ = 0.871 + (0.727 + 0.893D ) X ; R² = 0.92 model 5: Yˆ = 0.9231X + 4.7846D ; R² = 0.91 Grafisch krijgen we het volgende beeld.
32
Model 1 20 15 10 5 0 0
2
4
6
8
10
12
Model 2 16 14 12 10 8 6 4 2 0 0
2
4
6
8
10
12
Model 3 20 15 10 5 0 0
2
4
6
8
10
12
8
10
12
Model 4 20 15 10 5 0 0
2
4
6
33
Model 5 20 15 10 5 0 0
2
4
6
8
10
12
Dat we grote fouten maken bij modellen 1 en 2 is logisch: we houden immers enkel rekening met ofwel de trend (model 1) ofwel de seizoenscomponent (model 2). Bij modellen 3, 4 en 5 krijgen we de indruk dat model 3 net iets beter presteert dan de andere modellen. Dit betekent echter niet dat modellen 4 en 5 slechte modellen zijn! Voor de verschillende modellen staan de relevante getallen in de volgende tabellen. Tabel 3: geschatte waarden Y 4 1 6 2 11 5 11 7 15 9
model 1 2,49 3,52 4,54 5,56 6,59 7,61 8,64 9,66 10,68 11,71
model 2 9,4 4,8 9,4 4,8 9,4 4,8 9,4 4,8 9,4 4,8
model 3 4,60 0,00 7,00 2,40 9,40 4,80 11,80 7,20 14,20 9,60
model 4 2,49 2,32 5,73 3,78 8,97 5,23 12,21 6,68 15,45 8,14
model 5 5,71 1,85 7,55 3,69 9,40 5,54 11,25 7,38 13,09 9,23
model 4 1,51 -1,32 0,27 -1,78 2,03 -0,23 -1,21 0,32 -0,45 0,86 0
model 5 -1,71 -0,85 -1,55 -1,69 1,60 -0,54 -0,25 -0,38 1,91 -0,23 -3,69
Tabel 4: fouten Y 4 1 6 2 11 5 11 7 15 9 som
model 1 1,51 -2,52 1,46 -3,56 4,41 -2,61 2,36 -2,66 4,32 -2,71 0
model 2 -5,4 -3,8 -3,4 -2,8 1,6 0,2 1,6 2,2 5,6 4,2 0
model 3 -0,6 1 -1 -0,4 1,6 0,2 -0,8 -0,2 0,8 -0,6 0 34
Bij lineaire modellen met een constante term is de som van de fouten steeds gelijk aan 0. Bij modellen zonder constante term (model 5) is dit niet altijd het geval. In de volgende tabel vinden we de analyse van de variaties. Tabel 5: variatieanalyse
SSR = V(Y^) SSE = V(e) SST = V(Y)
model 1 86,55 88,35 174,9
model 2 52,90 122,00 174,9
model 3 168,10 6,80 174,9
model 4 160,95 13,95 174,9
model 5 105,44 15,66 174,9
Van de totale variatie (174.9) verklaren we met model 1 ongeveer de helft (nl. 86.55). Bij model 3 verklaren we 168.1 van het totaal. Bij model 3 vinden we ook de laagste waarde van SSE. Bemerk dat bij model 5 de relatie SST = SSR + SSE niet geldt. Opmerking. EXCEL berekent SSR niet met de formule maar via de relatie SSR = SST – SSE. We weten echter dat deze formule niet correct is bij lineaire modellen zonder constante term.
35
2.2.6.
Multicollineariteit
1. Wat is multicollineariteit? Om de KK-schatters te kunnen bepalen moet het stelsel van de normaalvergelijkingen oplosbaar zijn. Wanneer het stelsel van de normaalvergelijkingen niet kan opgelost worden hebben we te maken met het probleem van de multicollineariteit (MC). Voor de eenvoudige modellen vonden we reeds de oplosbaarheidsvoorwaarde. We vullen nu aan met de betekenis ervan. Voor het eenvoudigste model (*) Yˆ = a + bX vinden we de KK-schatters op voorwaarde dat V ( X ) niet gelijk is aan nul. Wanneer V ( X ) = 0 , dan variëren de X-waarden niet. Alle Xwaarden zijn dus dezelfde! In deze omstandigheden X gebruiken als verklarende variabele, is weinig zinvol! Voor het model Yˆ = a + bX + cZ vinden we de KK-schatters indien r ²( X , Z ) ≠ 1 . Indien r ²( X , Z ) = 1 dan vinden we dat de correlatiecoëfficiënt tussen X en Z ofwel gelijk is aan +1 ofwel gelijk aan –1. In beide gevallen volgt hieruit dat de verklarende variabelen X en Z een perfecte lineaire band vertonen. We vinden dat X = u + vZ voor getallen u en v. Wanneer de ene variabele bekend is, dan is automatisch ook de andere variabele gekend. Deze tweede variabele is dus overbodig in het gehanteerde model! In het algemeen hebben we bij lineaire modellen met één of meerdere verklarende variabelen multicollineariteit indien de determinant van de matrix van het stelsel van de normaalvergelijkingen gelijk is aan 0. Indien de determinant gelijk is aan 0, dan vertonen één of meerdere verklarende variabelen een lineaire band met één of meerdere andere verklarende variabelen. Dergelijke variabelen zijn overbodig in het gehanteerde model en mogen dus niet opgenomen worden in het gehanteerde model. Wanneer de determinantwaarde niet gelijk is aan nul, maar zeer dicht bij nul ligt, dan spreekt men van quasi-multicollineariteit (QMC). In econometrie probeert men niet alleen MC maar ook QMC te vermijden. Bij QMC kunnen de KK-schatters wel berekend worden, maar is het mogelijk dat de bekomen schattingen zeer onstabiel zijn. Enkele waarnemingen méér of minder kunnen de schattingen drastisch doen veranderen! Zie verder in Voorbeeld 3. We maken hier voorlopig de volgende afspraken. - Bij één verklarende variabele X is er sprake van QMC indien tenminste 80% van de Xwaarden dezelfde zijn. - Bij 2 verklarende variabelen X en Z is er een QMC-probleem indien r²(X, Z) > 36%. Deze grenzen zijn geen dogma en bij concrete situaties kunnen andere afspraken gemaakt worden. - Bij 3 of meer variabelen: zie verder §2.4. Selectie van de variabelen.
36
2. Voorbeeld 3 We maken een studie over de huurprijs van appartementen en gebruiken daartoe een aantal variabelen. Tabel 6: data voorbeeld 3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Y
X(1)
X(2)
X(3)
375 500 500 475 325 500 325 425 525 250 425 250 400 500 425 450 450 550 425 275 325 350 400 600 325 400 300 425 425 875 500 375 225 675 400 250 450 525 325 450
1 3 3 2 2 3 1 2 3 2 3 0 3 2 2 3 2 2 2 1 2 1 2 3 2 2 2 3 4 2 2 2 0 3 2 1 1 2 2 3
60 95 120 85 85 98 50 90 130 80 100 25 90 110 95 120 70 97 70 50 70 60 60 125 100 112 90 115 140 220 110 95 50 120 120 50 95 120 60 125
0 1 1 1 1 0 0 1 1 0 1 0 0 1 0 1 1 1 0 0 0 0 1 1 0 0 0 0 1 1 1 1 0 1 1 0 1 1 1 1
37
We gebruikten de volgende variabelen: Y = de huurprijs van een flat X(1) = het aantal slaapkamers X(2) = oppervlakte in m² X(3) = dummy-variabele die weergeeft of er een afzonderlijke toiletruimte is (X(3) = 1 indien ja; X(3) = 0 indien nee) Bij de drie verklarende variabelen verwachten we telkens een positieve invloed op de prijs. We vinden hier de volgende correlatiecoëfficiënten.
Y X(1) X(2) X(3)
Y 1 0,49 0,81 0,57
X(1)
X(2)
X(3)
1 0,63 0,43
1 0,49
1
Vooreerst merken we dat de correlatiecoëfficiënten tussen X(i) en Y het verwachte positieve teken hebben en dat dat Y en X(2) een hoge correlatie vertonen. Tevens is de correlatiecoëfficiënt tussen X(1) en X(2) aan de hoge kant. Een model waarin we zowel X(1) als X(2) gebruiken zal QMC-kenmerken vertonen en niet zo stabiel zijn. Om na te gaan of steekproefcorrelatiecoëfficiënten al dan niet betekenisvol verschillen van 0 kan men gebruik maken van de t-test van Fisher. Stel ρ = ρ(X, Z) en dat we een keuzen willen maken tussen H0: ρ = 0 en Ha: ρ ≠ 0 Via de steekproefcorrelatiecoëfficiënt berekenen we de t-waarde als volgt: n−2 t (r ) = r 1 − r² waarbij n de steekproefomvang is waarop men zich baseert. Onder normale omstandigheden kan men aantonen dat t (r ) bij benadering een t-verdeling volgt met parameter n-2. Met behulp van de tn - 2-verdeling berekenen we nu de overschrijdingskans van de berekende t-waarde. Indien de overschrijdingskans kleiner is dan een vooropgestelde grens verwerpen we H0. Voor ons voorbeeld vinden we (n = 40) t-waarden X(1) X(2) X(3)
Y 3,515 8,486 4,282
Overschrijdingskansen Y X(1) 0,001 X(2) 0,000 X(3) 0,000
X(1)
X(2)
5,030 2,968
3,548
X(1)
X(2)
0,000 0,003
0,001
38
Alle berekende t-waarden hebben een kleine overschrijdingskans. Alle steekproefcorrelaties zijn bijgevolg betekenisvol verschillend van 0. Voor de correlaties tussen X(1), X(2), X(3) en Y is dit positief nieuws: de gebruikte verklarende variabelen zijn betekenisvol! Voor de correlaties tussen de verklarende variabelen onderling is dit misschien minder goed nieuws. We kunnen ons verwachten aan problemen inzake QMC. Vooral de grote correlatie tussen X(1) en X(2) baart ons zorgen (r²(X(1), X(3)) = 0.399) We voeren enkele regressie-analyses uit en noteren enkele resultaten. a) Model: Yˆ = a + bX (1) + cX ( 2) + dX (3) regressie met
aˆ
bˆ
cˆ
dˆ
alle observaties
160.22
-10.52
2.86
57.78
200.34
-33.12
2.78
73.28
156.85
-16.78
2.75
69.85
de eerste 30 observaties de laatste 30 observaties
We merken dat het teken van bˆ niet in overeenstemming is met onze verwachtingen en dat de gevonden schatting nogal grote schommelingen vertonen. b) Model: Yˆ = a + bX (2) + cX (3) De correlatietabel doet ons vermoeden dat er QMC problemen zijn wanneer we zowel X(1) als X(2) opnemen in het model. We laten X(1) weg omdat r(Y,X(1)) kleiner is dan r(Y, X(2)). We vinden nu de volgende resultaten. regressie met
aˆ
bˆ
cˆ
alle observaties
153.83
2.54
54.94
172.22
2.37
62.02
145.58
2.54
65.03
de eerste 30 observaties de laatste 30 observaties
De grootte-orde van de gevonden KK-schatters is hier ongeveer dezelfde in de drie gevallen. Ook zijn de verschillen tussen deze schattingen en deze van het vorig vorig model zijn niet zo erg groot. Blijkbaar is X(1) een overbodige variabele!
39
2.3.
VERKLAREND VERMOGEN VAN EEN MODEL
Naast het schatten van parameters is het ook van belang de kwaliteit van het gevonden model te beoordelen. Wanneer we bijvoorbeeld beschikken over meerdere modellen dan willen we het “beste” model kiezen. Bij veel concrete problemen zullen we bij aanvang beschikken over veel verklarende variabelen en dan is het van belang zoveel variabelen als nodig te kiezen en de kwaliteit van de variabelen onder controle te houden. Om te onderzoeken welk model het “beste” model is, is het nodig om een criterium vast te leggen.
2.3.1.
De determinatiecoëfficiënt
Om Y te verklaren gebruiken we een model van de vorm Yˆ = f ( X 1 , X 2 ,..., a, b, c,...) Bij een perfect model vinden we uiteraard dat r (Y , Yˆ ) = 1 . In een concrete situatie kunnen we als kwaliteitsbarometer gebruik maken van r (Y , Yˆ ) of van r ²(Y , Yˆ ) . We noteren R² = r ²(Y , Yˆ ) en noemen het getal R² de determinatiecoëfficiënt. Met R² gaan we na in hoeverre Y bepaald of gedetermineerd wordt door Yˆ . Blijkbaar gelt steeds dat 0 ≤ R² ≤ 1. De perfecte R²-waarde is gelijk aan 1. Anderzijds is de slechtste R²-waarde is gelijk aan 0. De R²-waarde noemt men vaak ook het verklarend vermogen van het model. Hoe groter R², hoe groter het verklarend vermogen van het model. Het gebruik van correlatiecoëfficiënten is heel zinvol in econometrie. Het individueel effect van de verschillende variabelen kunnen we meten via de correlatie tussen Y en de verklarende variabelen: r(Y, X1), r(Y, X2),... , r(Y, Xk). Het gezamenlijk effect van alle verklarende variabelen samen meten we via R².
2.3.2.
ANOVA: variatie-analyse
Een andere manier om de kwaliteit van modellen te analyseren bestaat erin de variatie in de benaderingen Yˆ -waarden te vergelijken met deze van de Y-waarden. We hebben de volgende ingrediënten reeds vroeger ingevoerd: - SSTotal = SST (total sum of squares) = V (Y ) = de variatie van de Y-waarden - SSRegression = SSR (regression sum of squares) = V (Yˆ ) = de variatie van de Yˆ -waarden - SSResidual = SSE (error sum of squares) = V (e) = de variatie van de gemaakte fouten Als kwaliteitsbarometer kunnen we werken met de verhouding tussen datgene wat we kunnen verklaren en datgene wat we moeten verklaren. In dit geval gebruiken we R² = SSR/SST. De uitdrukking R² = SSR/SST drukt uit hoeveel procent van de totale variatie in Y kan verklaard worden m.b.v. de regressie. Men noemt R² = SSR/SST het verklarend vermogen van het model.
40
Voor lineaire modellen met een constante term leiden de twee aanpakken tot identiek hetzelfde resultaat. Men kan de volgende eigenschap aantonen. EIGENSCHAP Bij een lineair model met een constante term geldt a) SST = SSR + SSE; b) R² = SSR/SST = 1 – SSE/SST = r ²(Y , Yˆ )
Notatie. In wat verder volgt zullen we dikwijls gebruikm maken van de volgende notatie. Indien we Y verklaren m.b.v. de verklarende variabelen X1, X2, X3 dan noteren we de R²-waarde als R² = R²(Y; X1, X2, X3). Zo kunnen we R²(Y; X1) en R²(Y;X1, X2) berekenen en zien wat het effect is van het opnemen van nieuwe verklarende variabelen. Zie verder.
2.3.3.
Opmerkingen
1. We hameren er op dat de ontbinding van SST in een som van de twee componenten SSR en SSE enkel geldt voor een lineair model mét een constante term. Voor andere specificaties is deze ontbinding niet steeds mogelijk! Zie voorbeeld 2. 2. Bij niet-lineaire modellen moeten wij kiezen welke definitie van R² we zullen hanteren. Het is gebruikelijk om te werken met R² = 1 - SSE/SST. Voorbeeld 2 (vervolg) We gebruiken de volgende tabel 5 Tabel 5: variatieanalyse
SSR = V(Y^) SSE = V(e) SST = V(Y)
We vinden * model 1: * model 2: * model 3: * model 4: * model 5:
model 1 86,55 88,35 174,9
model 2 52,90 122,00 174,9
model 3 168,10 6,80 174,9
model 4 160,95 13,95 174,9
model 5 105,44 15,66 174,9
R²(Y; X) = SSR/SST = 49 %; R²(Y; D) = SSR/SST = 30 %; R²(Y; X, D) = 96 %; R² (Y; X, XD) = 92 %; R² = 1 - SSE/SST = 1 - 0.09 = 91%
Uit onze analyse blijkt dat (voorlopig) de voorkeur moet uitgaan naar het derde model.
41
2.3.4.
AANGEPASTE R²-WAARDE
Uit het vorige blijkt dat R² een nuttig instrument is om verschillende modellen met elkaar te vergelijken. In het vorige voorbeeld 2 merken we dat de multivariate modellen beter presteren dan de eenvoudige modellen 1 en 2: - door opname van de variabele D stijgt het verklarend vermogen van 49 % (model 1) naar 96 % (model 3) - door opname van de variabele X stijgt het verklarend vermogen van 30 % (model 2) naar 96 % (model 3) Men kan aantonen dat het toevoegen van nieuwe variabelen steeds een hogere R²-waarde als gevolg heeft. Dit is meteen ook een éérste zwak punt bij het gebruik van R²: men kan het verklarend vermogen zo groot maken als gewenst door almaar nieuwe verklarende variabelen te gebruiken! Om deze moeilijkheid op te vangen wordt dikwijls gewerkt met een aangepaste R²waarde. Deze Ra² heeft dezelfde betekenis als R² maar er wordt tevens rekening gehouden met het aantal waarnemingen (n) en het aantal te schatten parameters (p): Ra2 = 1 − (1 − R ²)
n −1 n− p
Om modellen met elkaar te vergelijken is R² (of Ra²) een uitstekend hulpmiddel.
2.3.5.
F-waarde
Een tweede moeilijkheid ligt in het beoordelen van één enkele R²-waarde. Zonder “scheidsrechter” is het immers moeilijk om te concluderen dat R² = 37 % goed is of slecht is. Om dit tweede probleem op te vangen wordt veelal gebruik gemaakt van een F-waarde die kan vergeleken worden met tabelwaarden. We berekenen F als volgt: F=
R ² ( p − 1) (1 − R ²) (n − p )
Uit de definitie blijkt dat een “grote” R²-waarde overeenstemt met een “grote” F-waarde en dat een “kleine” R²-waarde overeenstemt met een “kleine” F-waarde. Bij het berekenen van de Fwaarde houden we rekening met het n, aantal waarnemingen en p, het aantal te schatten parameters. Mits bepaalde basisveronderstellingen (zie verder) kan men aantonen dat de Fwaarde mag beoordeeld worden via de Fisher F-verdeling F(p – 1, n – p) met parameters of vrijheidsgraden p – 1 en n – p. Om nu één R²-waarde te beoordelen kiezen we tussen één van de volgende beweringen: H0: met het model verklaren we niets betekenisvols Ha: met het model verklaren we wel iets betekenisvols Indien R² voldoende groot is kiezen we voor Ha. In het andere geval kiezen we voor H0.
42
Om oordeelkundig te kiezen tussen berekenen we de F-waarde en via de F(p – 1, n – p)verdeling berekenen we de overschrijdingskans van de F-waarde. Wanneer de overschrijdingskans kleiner is dan een vooropgestelde kritische waarde verwerpen we H0. Bij praktische studies moeten we zelf weinig of geen berekeningen maken. Bij de output die we via EXCEL krijgen vinden we alles terug wat nodig is. We hernemen een output van vroeger, cf. §2.2.4. We besproken toen de volgende outputdelen:
deel 1: regression statistics: Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations
0,557 0,309 0,211 47,337 25
deel 2: ANOVA of analyse van de variaties ANOVA Regression Residual Total
df
SS
MS
F
Significance F
3 21 24
21139,37 47057,99 68197,36
7046,46 2240,86
3,144
0,0467
Bij deel 1 zien we de aangepaste R²-waarde. Het aantal parameters in het model was gelijk aan 4 en het aantal waarnemingen was gelijk aan 25. In deel 2 zien we de berekende F-waarde F = 3.14. De overschrijdingskans moeten we nu bepalen met de F(3, 21)-verdeling. Met EXCEL gaat dit eenvoudig met de formule FDIST(3.14; 3; 21). De berekende overschrijdingskans vinden we in de kolom “significance F”. In ons voorbeeld is de overschrijdingskans gelijk aan 4.6%. Bij een kritische grens van 1 % is onze berekende overschrijdingskans te groot: het verklarend vermogen van het model is te klein en we verklaren met het model niets betekenisvols. Bij de kritische grens van 5% is het verklarend vermogen wel betekenisvol.
2.3.6.
Marginale bijdrage
Bij multivariate modellen is het interessant om de bijdrage of relevantie van elke variabele te meten. Op deze manier kunnen we onder meer de verschillende verklarende variabelen rangschikken volgens hun belangrijkheid. Tevens kunnen we bij twijfel tussen 2 verklarende variabelen kiezen voor de variabele met de grootste marginale bijdrage. De marginale bijdrage van variabelen wordt berekend via geschikte R²-waarden. Voorbeeld 2 (vervolg) In voorbeeld 2 vonden we vroeger - model 1: Y = a + bX (R² = 0.49) - model 3: Y = a + bX + cD (R² = 0.96) - model 2 : Y = a + bD (R² = 0.30)
43
Gaande van model 1 naar model 3 zien we dat de R²-waarde toeneemt met 96% − 49% = 47%. We noemen deze toename in R² de marginale bijdrage van de nieuwe verklarende variabele D. Gaande van model 2 naar model 3 zien we dat de R²-waarde toeneemt met 96% − 30% = 66% . De marginale bijdrage van de nieuwe verklarende variabele X is dus gelijk aan 66% Op deze manier kunnen we alle marginale bijdragen van alle verklarende variabelen meten. Om de marginale bijdrage van een nieuwe variabele te beoordelen gaan we terug werken met een genormaliseerde waarde. We berekenen de volgende F-waarde: F=
2 2 Rnieuw − Roud (1 − Rn2ieuw ) (n − p nieuw )
Deze F-waarde kan opnieuw beoordeeld worden via overschrijdingskansen. In dit geval bepalen we de overschrijdingskans met een F-verdeling met parameters (1, n − pnieuw) Voorbeeld 3 (vervolg) In voorbeeld 3 vonden we de volgende correlatietabel
Y X(1) X(2) X(3)
Y 1 0,49 0,81 0,57
X(1)
X(2)
X(3)
1 0,63 0,43
1 0,49
1
Model 1 Omdat X(2) het sterkst gecorreleerd is met Y bestuderen we eerst het model Yˆ = a + bX (1) . Via EXCEL vinden we de volgende (gedeeltelijke) output. Regression Statistics Multiple R 0,81 R Square 0,655 Adj. R Square 0,645 Standard Error 73,695 Observations 40 ANOVA df Regression 1 Residual 38 Total 39
Intercept X(2)
SS
MS
F
Sign. F
391061,23 206376,27 597437,5
391061,23 5430,95
72,00
2,658E-10
Coeff.
Stand. Error
t Stat
P-value
147,57 2,94
34,57 0,35
4,27 8,49
0,0001 0,0000
De R²-waarde is betekenisvol want de overschrijdingskans van de berekende F-waarde is voldoende klein.
44
Model 2 We gaan na of het de moeite loont ook variabele X(3) op te nemen. Daartoe werken we het volgende model uit: Yˆ = a + bX (2) + cX (3) . We vinden nu de volgende EXCEL output: Regression Statistics Multiple R 0,83 R Square 0,692 Adj. R Square 0,67 Standard Error 70,56 Observations 40 ANOVA Regression Residual Total
Intercept X(2) X(3)
df
SS
MS
F
Sign. F
2 37 39
413219,67 184217,83 597437,5
206609,84 4978,86
41,49
3,52553E-10
Coeff.
Stand. Error
t Stat
P-value
153,83 2,54 54,94
33,23 0,38 26,04
4,63 6,63 2,11
0,0000 0,0000 0,0417
De R²-waarde blijft betekenisvol. De marginale bijdrage van variabele X(3) is gelijk aan MB(X(3)) = 0.692 − 0.655 = 0.037. De bijhorende F-waarde is gelijk aan F = 0.037/(1 – 0.692)/(40 – 3) = 4.44. Via de F(1, 37)-verdeling vinden we dat de overschrijdingskans van 4.44 gelijk is aan FDIST(4.44; 1; 37) = 0.042. Wanneer we de kritische grens van 5% hanteren, dan is de marginale bijdrage van X(3) betekenisvol. Wanneer we de kritische grens 1% hanteren, dan is de marginale bijdrage van X(3) niet significant.
45
2.4.
SELECTIE VAN VARIABELEN
2.4.1.
Inleiding
Bij lineaire modellen met veel potentiële verklarende variabelen is het van belang om de bruikbare verklarende variabelen zorgvuldig te selecteren. Hoe kan dit nu gebeuren? Welke werkwijze kunnen we hierbij hanteren. Uit de vorige analyse kunnen we in feite reeds enkele algemene criteria formuleren: * het is wenselijk alleen déze variabelen te kiezen die een wezenlijke bijdrage leveren; * het is van groot belang om (quasi-)multicollineariteit (QMC) te vermijden; * bij de keuze tussen twee verklarende variabelen is het wenselijk de beste van de twee te kiezen * het is wenselijk een voldoende groot verklarend vermogen te bekomen.
2.4.2.
Voorwaartse selectie
Eén van de procedures die kan gevolgd worden is de zgn. voorwaartse selectie van variabelen. Deze procedure bestaat uit een aantal stappen. 1. Bepaal eerst de correlatiecoëfficiënt tussen Y en alle verklarende variabelen (VV); - De VV die een relatief hoge correlatie met Y vertonen zijn in eerste instantie de kandidaten om opgenomen te worden in het uiteindelijke model; - De VV die een relatief lage correlatie hebben met Y zijn niet noodzakelijk slechte variabelen. Het is immers mogelijk dat deze geen lineaire band, maar een ander verband met Y hebben. Het is dus mogelijk dat sommige VV eerst een transformatie moeten ondergaan. Dit controleren we door een grafiek te maken waarop we deze VV vergelijken met Y. Indien nodig vervangen we X door een geschikte functie van X. - We rangschikken nu de correlaties (in absolute waarde) met Y van groot naar klein. Stel bijvoorbeeld dat we bij een steekproef van omvang n de volgende correlaties vonden: Y X(1) X(2) X(3) X(4) X(5) Y
1
X(1)
0.45
1
X(2)
0.04
0.35
1
X(3) -0.27 -0.54
0.05
1
X(4) -0.74
0.64
0.10
0.12
1
X(5)
0.33
0.41
0.03
0.14
0.11
1
Hier moeten we X(2) en X(5) van dichterbij bestuderen en nagaan of we deze VV niet moeten vervangen door nieuwe VV. De volgorde waarin we de VV zullen opnemen is: X(4), X(1), X(3), X(5) en X(2).
46
2. Keuze éérste VV Bij de voorwaartse selectieprocedure nemen we als eerste VV deze met de hoogste correlatie (in absolute waarde) met Y. In dit voorbeeld is dit X(4). Met deze eerste variabele werken we een eerste model uit. Model 1 is het model Yˆ = a + bX ( 4) 3. Keuze van de tweede VV eerste kandidaat: de eerste kandidaat is de variabele X(1) Teneinde QMC-problemen uit de weg te gaan, beoordelen we r²(X(1), X(4)). Zoals vroeger afgesproken leggen we de grens op 36%. Omdat r²(X(1), X(4)) = 0.41 > 0.36 zijn we genoodzaakt om X(1) te elimineren. tweede kandidaat: de volgende kandidaat variabele is X(3) Daar r²(X(4), X(3)) = (0.12)² < 0.36 voldoende klein is, moeten we niet vrezen voor QMCproblemen. Nu werken we een model 2 uit: Yˆ = a + bX (4) + cX (3) Vooraleer X(3) definitief te selecteren beoordelen we nu de marginale bijdrage van X(3). Indien de marginale bijdrage van X(3) betekenisvol is, is X(3) dé tweede geselecteerde varaibele. In het andere geval onderzoeken we de volgende kandidaat die in aanmerking komt als tweede VV. 4. Keuze van de derde VV eerste kandidaat: in ons voorbeeld is X(5) de eerste kandidaat Nu is het QMC-onderzoek arbeidsintensiever. - Eerste orde QMC We bekijken r(X(4), X(5)) = 0.14 en r(X(3), X(5)) = 0.03. Beide getallen zijn voldoende klein. - Hogere orde QMC Bij hogere orde QMC onderzoeken we of X(5) in “belangrijke” mate kan verklaard worden m.b.v. X(4) en X(3). Hiertoe voeren we een regressie-analyse uit waarbij we X(5) verklaren met behulp van de reeds geselecteerde variabelen. In ons voorbeeld is dit: Xˆ (5) = u + vX (4) + wX (3) Indien we vinden dat R² in dit model te groot is, dan nemen we X(5) niet op als derde VV en proberen we X(2) als derde VV. Indien R² van dit model aanvaardbaar lijkt, dan is X(5) de derde kandidaat VV. In dit geval werken we een derde model uit en bepalen we de marginale bijdrage van X(5). Bij QMC van hogere orde spreken we af dat een R²-waarde die kleiner is dan 36% een aanvaardbare waarde is. Vanaf R² > 36% vinden we de R²-waarde te groot en besluiten we dat er QMC-problemen zijn.
47
5. De volgende VV De volgende VV kiezen we op basis van de correlatie met Y, op basis van het onderzoek van eerste-orde QMC en hogere-orde QMC, op basis van marginale bijdragen. 6. Bij twijfel tussen twee kandidaat variabelen (omdat de correlatie met Y vergelijkbaar is) kunnen we ons laten leiden door de volgende vragen: * welke van de twee VV is het gemakkelijkst beschikbaar? * welke van de twee VV is het gemakkelijkst interpreteerbaar? * welke van de twee VV heeft (gegeven de vroeger gekozen VV) de hoogste maginale bijdrage? * wanneer we een regressie uitvoeren van de fouten e(i) (bekomen via het voorlopige model) t.o.v. de twee VV, bij welk van de twee VV bekomen we de hoogste R²-waarde? 7. We gaan verder met het procédé tot de R²-waarde voldoende groot is of tot de berekende Fwaarde groter is dan een vooraf bepaalde kritische grens, of tot de marginale bijdrage van nieuwe VV te klein geworden is, of tot alle VV opgebruikt zijn!
2.4.3.
Wat bij QMC-problemen?
Wanneer er problemen zijn met QMC, dan bestaat de eenvoudigste methode erin de “boosdoeners” te schrappen en niet verder op te nemen in de analyse. Als negatief neveneffect verliezen we op deze manier soms belangrijke informatie en relevant cijfermateriaal. Andere mogelijkheden zijn de volgende. * Bijkomend cijfermateriaal zoeken! Door een grotere steekproef te nemen is het mogelijk dat de variatie in het cijfermateriaal toeneemt en dat de QMC-problemen verminderen. * Nagaan dat de VV en de TVV vergelijkbare eenheden hebben. Het is niet goed dat bij de VV er een mengsel van absolute cijfers (aantal werklozen) en relatieve cijfers (BNP per hoofd) voorkomt. * QMC komt dikwijls voor bij de analyse van tijdreeksen. De invloed van QMC kan worden gereduceerd door de data te transformeren. Voorbeelden van dergelijke transformaties zijn: - de data differentiëren: in de plaats van X(t) gebruiken we de variabele X*(t) = X(t) − X(t−1); - procentuele wijzigingen of logaritmen berekenen: in de plaats van X(t) gebruiken we X*(t) = (X(t) − X(t−1))/X(t−1) of X*(t) = ln(X(t)/X(t−1)) - VV met elkaar combineren: in een model kan het interessant zijn om verhoudingen te berekenen zoals BNP per hoofd van de bevolking i.p.v. BNP werkloosheidsgraad i.p.v. werkloosheid enz. * In meer geavanceerde technieken gebruikt men factoranalyse of principale componenten analyse. Bij dit soort techniek transformeert men een data-set naar een nieuwe data-set van onderling ongecorreleerde variabelen.
48
2.5.
NIET-LINEAIRE MODELLEN
2.5.1.
Inleiding
Tot hiertoe hebben wij hoofdzakelijk aandacht besteed aan lineaire specificaties. Er zijn echter tal van manieren waarop twee variabelen X en Y kunnen gerelateerd zijn. De variabele Y kan bijvoorbeeld gerelateerd zijn aan X als volgt: (1) (2) (3) (4)
Y = a + bX Y = a + bX² Y = a + Xb Y = aebX
Voor de drie laatste voorbeelden is de relatie tussen Y en X (grafisch) géén rechte lijn. Modellen (1) en (2) zijn lineaire modellen. Dit impliceert dat dezelfde technieken als vroeger bruikbaar blijven om a en b te schatten: vervang in (2) X² door Z. In (3) en (4) is de niet-lineariteit toe te schrijven aan de parameter b. Om de parameters in nietlineaire modellen te schatten zijn meerdere technieken mogelijk. In veel gevallen zullen we proberen een geschikte transformatie door te voeren teneinde het model lineair te maken. Indien dit mogelijk is spreken we van een lineariseerbaar model. Anderzijds zullen we ook soms gebruik maken van reeksontwikkelingen en van iteratieve procedures.
2.5.2.
Voorbeelden
(a) Specificatie Y = a + bX + cX². Deze specificatie is lineair in de parameters a, b en c. Door bv. X² te vervangen door Z kunnen we de klassieke KK-methode gebruiken. (b) Specificatie Y = a + bX² + c X cos(X). Dit model is lineair in de parameters a, b en c. (c) Specificatie Y = a + bX . Dit model is niet lineair in de parameters, maar is wel linealiseerbaar door te kwadrateren. We vinden Y² = a + bX ofwel Y* = a + bX waarbij Y* = Y² (d) Specificatie Y = aXb . Dit model is niet lineair. Na logartimes krijgen we ln Y = ln a + b ln X of Y* = a* + bX. Voor dit model kunnen we de parameters a* en b schatten m.b.v. de KKmethode. Eens a* en b gevonden, bepalen we a via de inverse transformatie a = ea*. Bemerk dat we in (c) en (d) het KK-criterium toepassen voor Y* en niet voor Y zelf! (e) Cobb-Douglas produktiefuncties Q = cKaLb . Na een logaritmische transformatie vinden we ln Q = ln c+ a ln K + b ln L ofwel Q* = c* + aK* + bL* (f) Specificatie Y = a / (X+b). Deze specificatie is niet lineair in de parameters. Een beetje algebra geeft Y (X + b) = a en vervolgens XY = a – bY. Nu kunnen we a en b op de klassieke manier gaan schatten.
49
(g) Specificatie Y = a + becX. Dit model is niet lineair in de parameters. We stoten tevens al onmiddellijk op de moeilijkheid dat er geen transformatie voorhanden is om dit model te lineariseren. Het KK-criterium rechtstreeks toepassen levert ook al moeilijkheden op: het stelsel van normaalvergelijkingen is ingewikkeld en niet expliciet oplosbaar. Voor dergelijke specificaties moet een arsenaal van andere wiskundige methodes worden aangesproken. - we kunnen de SOLVER van EXCEL gebruiken. - Een methode die dikwijls gebruikt wordt is gebaseerd op reeksen van MacLaurin en is bekend als de methode van Gauss-Newton. - In een andere methode gebruikt men semi-gemiddelden. Stel dat we de specificatie Y = f(a,b,X) hebben waarbij f een functie is in de parameters a en b en in de verklarende variabele X. Omdat er twee parameters zijn, splitsen we de data-set in twee groepen nàdat we de data gesorteerd hebben t.o.v. een van de variabelen X of Y. Voor elk van de groepen berekenen we het rekenkundig gemiddelde van de bijhorende X- en Y-waarden. We eisen nu dat elk van de koppels gemiddelden voldoet aan de vergelijking y = f(a,b,x). Op deze manier bekomen we een stelsel met twee vergelijkingen en twee parameters a en b. In principe kunnen we nu de parameters a en b bepalen. Voorbeeld 4 We noteerden gedurende enkele jaren (X) de verkoopcijfers (Y) van een bepaald produkt. X
Y
1 2 3 4 5 6 7 8 9 10
38 41 46 53 59 65 78 85 98 115
We werken het model Y = aebX uit met de methode van de semi-gemiddelden. Daartoe verdelen we de data-set in twee gelijke groepen. Omdat de data reeds gesorteerd zijn t.o.v. X kiezen we gemakshalve: Groep 1
X Y
1 38
2 41
3 46
4 53
5 59
gemiddelde = 3 gemiddelde = 47.4
Groep 2
X Y
6 65
7 78
8 85
9 98
10 115
gemiddelde = 8 gemiddelde = 88.2
We eisen dat de koppels (3, 47.4) en (8, 88.2) voldoen aan de vergelijking y = aebx. We vinden twee vergelijkingen: 47.4 = ae3b en 88.2 = ae8b met als oplossing aˆ = 32.656091 en bˆ = 0.124197 en het geschatte model Yˆ = 32.656091e 0.124197 X . Nu kunnen we opnieuw de fouten bepalen en vervolgens R² = 1 – SSE/SST berekenen.
50
2.6.
GEVALSTUDIE
We voeren een cross-sectie analyse uit en bestuderen de prijs van één bepaald type auto op de Belgische tweedehandsmarkt. De informatie werd gevonden in de zoekertjes van een nummer van “De Autogids” en van “Le moniteur Automobile”. De te verklaren variabele (Y) is de prijs in BEF van een wagen op de Belgische tweedehandsmarkt. Het gaat om wagens die aangeboden worden zowel door particulieren als door garagehouders.
2.6.1.
Verklarende variabelen
Als verklarende variabelen zijn er verschillende relevante mogelijkheden. - De leeftijd in maanden X(1) De leeftijd van de wagen zal een negatieve invloed uitoefenen op de prijs ervan. De leeftijd is de leeftijd in maanden. - Het aantal opties van de wagen X(2) Met deze variabele tellen we het aantal opties in de wagen. Hoe meeropties hoe groter de vraagprijs zal zijn. - Motorgrootte X(3) (cc) Grotere motortypes zijn krachtiger en zullen de prijs doen toenemen. - Aantal vorige eigenaars X(4) We vermoeden het moeilijker zal zijn een wagen die reeds meerdere eigenaars heeft gehad te verkopen. We vermoeden dat Y en X negatief gecorreleerd zijn. - Waarborg in maanden X(5) Wanneer de verkoper een garantie van een aantal maanden geeft, zal dit waarschijnlijk doorwegen worden in de prijs. - Aantal deuren X(6) We weten niet goed hoe deze variabele de prijs zal beïnvloeden. Wagens met 2 deuren zijn meestal sportieve wagens en duurder. Anderzijds zijn wagens met 5 deuren groter en bruikbaar voor het transporteren van familie en bagage. - Type versnellingsbak X(7) Bij een wagen heeft men de keuze tussen handgeschakelde en automatische versnellingen. Oudere mensen kiezen dikwijls voor automatische versnellingen en zijn bereid daarvoor een prijs te betalen. Voor deze variabele gebruiken we een dummy: auto’s met automatische versnellingen krijgen de waarde “1”; de andere wagens krijgen de code “0”. - Het aantal kilometer X(8) De kilometerstand van een wagen vormt samen met de leeftijd een belangrijk element voor de prijs ervan. We kunnen wel vragen stellen bij de betrouwbaarheid van de gepubliceerde informatie. - Brandstof X(9) Deze variabele geven we weer door middel van een dummy: dieselwagens krijgen de code 1 en benzinewagens krijgen code “0”. In de steekproef hebben we LPG-wagens uitgesloten. We vermoeden dat dieselwagens duurder zijn.
51
2.6.2.
Data
We beschikken over n = 35 waarnemingen.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
PRIJS LEEFTIJD Y X(1) 124000 79 119000 97 400000 19 500000 17 480000 22 434000 19 479000 8 485000 30 405000 14 385000 34 322000 33 372000 29 265000 58 390000 36 455000 19 690000 8 477000 19 256000 90 720000 4 400000 13 450000 14 420000 9 285000 35 362000 14 457000 14 462000 25 285000 78 310000 41 161000 66 285000 36 350000 28 64000 114 463000 25 164000 61 310000 24
OPTIES X(2) 3 4 10 12 11 10 12 14 8 11 7 10 1 11 12 14 16 7 15 7 4 7 9 11 8 14 11 9 3 8 5 4 14 10 8
CC EIG. BORG DEUREN X(3) X(4) X(5) X(6) 1700 2 0 5 1400 1 0 5 1400 1 6 3 1600 1 0 3 1600 1 0 3 1700 1 0 5 2000 1 12 5 2000 1 0 3 2000 1 0 3 2000 1 12 5 1700 1 0 5 1600 1 12 5 1700 1 0 5 2000 1 0 5 2000 1 0 5 2000 1 24 2 1600 1 0 5 1700 2 12 5 2000 1 0 2 2000 1 0 3 1400 1 12 5 1200 1 0 5 1700 1 6 3 1700 1 6 3 2000 2 0 3 2000 1 0 5 1800 1 6 2 2000 1 12 5 1700 1 6 5 1700 1 6 3 1700 1 0 3 1600 1 0 5 2000 1 0 5 1700 1 0 5 1600 1 0 3
52
VERSN X(7) 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0
KM DIESEL X(8) X(9) 123000 1 104000 0 15000 0 24000 0 45000 0 30000 1 91000 0 29000 1 33000 1 86000 0 41000 1 15000 0 95000 1 47000 0 50000 1 39000 0 35000 1 90000 1 40000 0 47000 1 14000 0 30000 0 54000 1 41000 1 54000 1 32000 1 145000 0 78000 0 84000 1 54000 1 117000 1 128000 0 32000 1 140000 1 30000 0
2.6.3.
Correlatiematrix
Via EXCEL berekenen we de correlatiematrix. We vinden
Y X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9)
Y X(1) 1,000 -0,837 1,000 0,716 -0,533 0,369 -0,227 -0,200 0,288 0,186 -0,068 -0,412 0,334 -0,001 0,203 -0,657 0,752 -0,178 0,019
X(2)
X(3)
1,000 0,444 1,000 -0,259 0,061 0,103 0,102 -0,277 -0,166 0,122 -0,155 -0,418 0,031 -0,104 0,242
X(4)
X(5)
X(6)
1,000 0,012 1,000 0,076 -0,060 0,094 0,201 0,236 -0,024 0,281 -0,356
X(7)
X(8)
X(9)
1,000 0,289 1,000 0,160 0,195 1,000 0,098 -0,076 0,053 1,000
We zien dat het teken van de correlatiecoëfficiënten tussen Y en de verschillende VV voldoen aan de verwachtingen, met uitzondering van X(7) en X(9). Dit is niet erg want de t-toets toont dat r(Y, X(7)) en r(Y, X(9)) niet betekenisvol verschillen van 0. De relatief kleine correlatiecoëfficiënten r(Y, X(4)) en r(Y, X(5)) bekijken we van dichterbij. Bij X(4) valt er niet veel te veranderen omdat X(4) slechts 2 waarden aanneemt. Voor X(5) maken we een grafiek. grafiek X(5) versus Y 800000 600000 400000 200000 0 0
5
10
15
20
25
30
We merken veel datapunten met X(5) gelijk aan 0. We vinden ook een uitspringer rechtsboven. Misschien moeten we een studie maken met als variabele een dummy die ons zegt of er al dan niet een waarborg is. Misschien moeten we overwegen twee studies te maken: een studie i.v.m. wagens met waarborg en een studie i.v.m. wagens zonder waarborg. In dit voorbeeld gaan we hier niet dieper op in. De volgorde waarmee we de VV zullen selecteren ligt vast: X(1) X(2) X(8) X(6) X(3) X(4) X(5) X(9) X(7)
53
2.6.4.
Selectie van variabelen
Eerste variabele Zoals reeds gezegd starten we met de eerste variabele X(1). We werken een eerste model uit waarbij we Y verklaren m.b.v. X(1) alleen: Yˆ = a + bX (1) . We vinden Regression Statistics Multiple R 0,836 R Square 0,699 Adj.R Square 0,691 Standard Error 79680 Observations 35 ANOVA Regression Residual Total
Intercept X(1)
df
SS
MS
F
Sign. F
1 33 34
4,884E+11 2,095E+11 6,98E+11
4,884E+11 6,3E +9
76,92
0,0000
Coeff.
Stand. Error
t Stat
P-value
522446,88 -4301,66
21896,3 490,5
23,86 -8,77
0,0000 0,0000
We vinden Yˆ = 522446 .9 − 4301.7 X (1) met een verklarend vermogen van R² = 69.9%. Gezien de F-waarde en de overschrijdingskans ervan hebben we een betekenisvol eerste model. Bemerk dat het teken van de coëffiënt van X(1) negatief is, wat toont dat het model theoretisch consistent is. Tweede variabele - kandidaat 1 Als eerste kandidaat onderzoeken we X(2). Omdat r²(X(1), X(2)) = 28% < 36% is X(2) een valabele kandidaat. We maken de berekeningen voor model 2: Yˆ = a + bX (1) + cX ( 2) en vinden het volgend resultaat.
54
Regression Statistics Multiple R 0,895 R Square 0,8018 Adj.R Square 0,7894 Standard Error 65752 Observations 35 ANOVA Regression Residual Total
Intercept X(1) X(2)
df
SS
MS
F
Sign. F
2 32 34
5,6E+11 1,4E+11 6,9E+11
2,8E+11 4,3E+10
64,71
0,0000
Coeff.
Stand. Error
t Stat
P-value
354863,12 -3268,51 14351,85
45084,5 478,2 3537,4
7,87 -6,84 4,06
0,0000 0,0000 0,0003
In model 2 is het verklarend vermogen betekenisvol en gestegen tot 80%. De marginale bijdrage van X(2) is gelijk aan MB(X(2)) = 0.8018 – 0.6998 = 0.102. De bijhorende Fwaarde is gelijk aan F = 0.102/(1 – 0.8018)/(35 – 3) = 16.47. de overschrijdingskans hiervan bedraagt FDIST(16.47; 1; 32) = 0.0003. Wanneer we de scheidsrechter α = 5% hanteren, dan besluiten we dat de marginale bijdrage van X(2) betekenisvol is. derde variabele - de eerste kandidaat is X(8) Omdat r²(X(8), X(1)) = 0.56 > 0.36 verwerpen we deze kandidaat. - de tweede kandidaat is X(6) Omdat r²(X(1), X(6)) en r²(X(2), X(6)) voldoende klein zijn is er geen probleem met eersteorde QMC. Hogere-orde QMC onderzoeken we met het model Xˆ (6) = u + vX (1) + wX ( 2) Van dit model onthouden we alleen het eerste deel van de output: Regression Statistics Multiple R 0,354 R Square 0,125 Adj. R Square 0,071 Standard Error 1,095 Observations 35 Aangezien de berekende R²-waarde onder de afsproken grens van 36% ligt is er geen probleem met QMC.
55
We werken nu model 3 uit: Yˆ = a + bX (1) + cX ( 2) + dX (6) We vinden de volgende output: Regression Statistics Multiple R 0,901 R Square 0,8121 Adj. R Square 0,794 Standard Error 65044,36 Observations 35 ANOVA Regression Residual Total
Intercept X(1) X(2) X(6)
df
SS
MS
F
Sign. F
3 31 34
5,6E+11 1,3E+11 6,9E+11
1,9E+11 4,2E+10
44,65
0,0000
Coeff.
Stand. Error
t Stat
P-value
410503,95 -3123,05 13781,30 -13690,51
61721,7 485,9 3526,5 10498,4
6,65 -6,43 3,91 -1,30
0,0000 0,0000 0,0005 0,2018
De marginale bijdrage van X(6) is gelijk aan MB(X(6)) = 0.8121 – 0.8018 = 0.0103. De bijbehorende F-waarde is gelijk aan F = 1.699 met overschrijdingskans FDIST(1.699; 1; 31) = 0.20. Omdat 0.20 > α = 0.05 besluiten we dat de marginale bijdrage van X(6) onvoldoende groot is. We verwerpen dus X(6) als derde variabele. - de derde kandidaat is X(3) Er zijn geen problemen met eerste-orde QMC. Wanneer we X(3) verklaren met behulp van X(1) en X(3) vinden we R²(X(3); X(1), X(2)) = 19.7% < 36% en we besluiten dat er geen QMC-problemen zijn.
56
We werken nu model 3 uit: Yˆ = a + bX (1) + cX ( 2) + dX (3) en vinden Regression Statistics Multiple R 0,898 R Square 0,806 Adj. R Square 0,787 Standard Error 66108,73 Observations 35 ANOVA df Regression Residual Total
Intercept X(1) X(2) X(3)
3 31 34
SS 5,6E+11 1,4E+11 6,9E+11
MS 1,8E+11 4,1E+10
Coefficients Stand. Error 284397,31 98097,14 -3273,44 480,80 13123,44 3866,40 46,59 57,52
t Stat 2,90 -6,81 3,39 0,81
F 42,9
Sign. F 0,0000
P-value 0,0068 0,0000 0,0019 0,4241
Opnieuw is de marginale bijdrage van de kandidaat te klein. - de vierde kandidaat is X(4) Wij houden hier op met deze gevalstudie en laten de verdere uitwerking over aan de welwillende lezer.
57
HOOFDSTUK 3 HET BIVARIATE KLEINSTE KWADRATENMODEL 3.1.
INLEIDING
Tot hiertoe hebben we aandacht besteed aan enkele schattingscriteria en meer in het bijzonder aan de KK-methode. We probeerden een te verklaren variabele te verklaren via één of meerdere verklarende variabelen en via modellen van de vorm Y = f ( X , Z ,..., a, b,..., ε ) . Om te parameters te schatten lieten we de storingsterm weg. Zo vonden we een geschat model van de vorom Yˆ = f ( X , Z ,..., aˆ , bˆ,...) . De gevolgde analyse was grotendeels een louter technische klus waarbij we rekening hielden met QMC en R². Om R² te beoordelen gebruikten we de Fverdeling zonder aandacht te schenken aan de theoretische grondslag hiervan. In dit hoofdstuk bestuderen we de basisveronderstellingen, niet alleen om R² te kunnen beoordelen maar ook om een antwoord te geven op de volgende vragen: zijn aˆ , bˆ,... goede schatters voor a,b,... ? en is Yˆ een goede schatter voor Y ?
3.2.
BASISVERONDERSTELLINGEN
In econometrie bestuderen we modellen waarbij twee of meer variabelen via fundamentele wetten met elkaar verbonden zijn. We vertrekken van een model waarbij we Y verklaren met X met het volgend lineair model: (1)
Y = a + bX + ε
Gegeven X, is Y een toevallige veranderlijke die bepaald wordt door (1). We gaan er vanuit dat het toevallig karakter van Y enkel tot uiting komt via de storingsterm ε en dat we X volledig onder controle hebben: alle toeval zit in de storingsterm en X is géén toevallige variabele. Tevens veronderstellen we dat de parameters (a en b) in de relatie (1) (onbekende) constanten zijn. Het verband (1) wordt geacht altijd te gelden, voor alle koppels (X, Y). Wanneer we beschikken over verschillende metingen (Xi ,Yi ), dan volgt uit (1) dat (2)
Yi = a + bX i + ε i
voor elke i
Formule (2) wordt geacht altijd te gelden, voor alle waarden van de index i. De index i zelf kan een tijdsindex of een plaatsindex zijn. In het eerste geval spreekt men van een tijdreeks (bijvoorbeeld: nationale consumptie en inkomen in België gedurende de laatste 30 jaar). In het tweede geval spreken we van een cross-sectie (bijvoorbeeld: consumptie en inkomen in alle staten van de U.S.A.).
58
Met het invoeren van de storingsterm beklemtonen we het stochastisch karakter van de relatie. De economische relaties die we ontmoeten in de economie en in de bedrijfseconomie zijn immers meestal niet deterministisch maar gekenmerkt door statistische onzekerheid. De toevallige component ε i kunnen we als volgt interpreteren (cf. Hoofdstuk I): - het gaat om een geheel van meetfouten of observatiefouten: waarnemingen of metingen van economische grootheden kunnen meetfouten bevatten; - het gaat om een geheel van latente variabelen: dit zijn de talrijke niet expliciet opgenomen factoren die een relatie kunnen beïnvloeden; - de storingsterm weerspiegelt het indeterminisme in elke biologische en sociale omgeving. Door in (2) het gemiddelde, de variantie en covariantie te berekenen volgt onmiddellijk dat: (3)
E (Yi ) = a + bE ( X i ) + E (ε i )
(4)
Var (Yi ) = Var (ε i )
(5)
Cov (Yi , Y j ) = Cov (ε i , ε j ) voor alle i ≠ j
In lineaire econometrische modellen maakt men de volgende basisveronderstellingen omtrent de storingstermen: (B1)
Voor elke i, is E (ε i ) = 0
Deze voorwaarde betekent dat we geen systematische fouten maken en dat we geen belangrijke variabelen vergaten in het model. Via formule (4) volgt dat E (Yi ) = a + bE ( X i ) voor elke i. Voorwaarde (B1) impliceert tevens dat alle fouten hetzelfde gedrag vertonen. Er zijn geen groepen of clusters van fouten met een uiteenlopend gedrag en er zijn geen opvallende uitschieters of outliers. Dit betekent dat de data-set een homogene verzameling vormt. (B2)
Voor elke i is Var (ε i ) = σ 2 eindig en constant
Deze voorwaarde betekent we veronderstellen dat de grootte-orde van de storingsterm niet afhangt van de index i, niet afhangt van de te verklaren variabelen (TVV) en niet afhangt van de verklarende variabelen (VV). Wanneer de X-waarden niet stochastisch zijn en volledig onder controle, dan impliceert deze voorwaarde (cf. (4) dat Var (Yi ) = σ 2 en dus dat de variantie van de TVV niet afhangt van (de grootte-orde van) de VV en niet afhangt van de index i. Deze voorwaarde noemt men de voorwaarde van homoscedasticiteit. Als aan deze voorwaarde niet voldaan is, spreekt men van heteroscedasticiteit. (B3)
Voor alle i ≠ j is Cov (ε i , ε j ) = 0
Dit betekent dat de foutentermen ongecorreleerde t.v. zijn. Ze mogen niet systematisch variëren. Aan deze voorwaarde is automatisch voldaan als de storingstermen onafhankelijke t.v. zijn. 59
Voor een cross-sectie betekent deze voorwaarde dat de fouten op plaats i niet mogen correleren met de fouten plaats j. Bij een tijdreeks mogen de fouten op tijdstip i niet gecorreleerd zijn met de fouten op tijdstip j. In het bijzonder impliceert (B3) dat opeenvolgende fouten ongecorreleerd moeten zijn. (B4)
Voor alle i geldt ε i ∼ N (0, σ 2 )
Deze voorwaarde zal het ons toelaten b.i. op te stellen en hypothesen te toetsen voor de verschillende parameters. Voorwaarden (B3) en (B4) impliceren dat de fouten onafhankelijke toevallige variabelen zijn. Volledigheidshalve herhalen we hier de technische voorwaarden omtrent de verklarende variabelen die we gebruiken: (B5)
(a) De verklarende variabelen zijn niet stochastisch en zijn volledig onder controle. (b) De verklarende variabelen vertonen geen QMC
Deze voorwaarde betekent dat we de VV niet afhangen van het toeval en onder controle zijn. Tevens is het stelsel van de KK-normaalvergelijkingen oplosbaar en bevinden we ons in een stabiele situatie. De vijf voorwaarden samen zullen het ons toelaten de parameters van een model “goed” te schatten en maken het mogelijk uitspraken te doen omtrent betrouwbaarheidsintervallen en het toetsen van hypothesen voor de parameters. We illustreren de basisveronderstellingen met enkele grafieken. FIGUUR 1 Voorwaarde (B1) niet voldaan
fouten
B1
Y
We merken in de grafiek drie groepen van fouten. Dit wijst erop dat we een of meer VV “vergeten” zijn of dat de databank niet homogeen is.
60
FIGUUR 2 Voorwaarde (B2) niet voldaan
fouten
B2
variabele
In de figuur zien we dat de spreiding in de fouten toeneemt naarmate we opschuiven naar rechts. Bij homoscedasticiteit mag een dergelijk patroon niet voorkomen. FIGUUR 3 Voorwaarde (B3) niet voldaan?
fouten
B3
tijdsindex
In deze figuur mogen we geen patroon zien. Van het ogenblik dat de fouten voorspelbaar zijn, is er niet voldaan aan (B3).
61
3.3. SCHATTEN VAN DE PARAMETERS Het vertrekpunt is de werkelijke relatie (1)
Yi = a + bX i + ε i
voor elke i
waarbij we veronderstellen dat aan alle basisveronderstellingen is voldaan. De parameters schatten we met de KK-methode zoals vroeger via de benadering (2)
Yˆ = a + bX
In het vorige hoofdstuk vonden we de KK-schatters en het geschatte model: bˆ = V ( X , Y ) / V ( X ) aˆ = Y − bˆX Yˆ = aˆ + bˆX
Bemerk dat we bij de berekeningen voorwaarde (B5) gebruiken (nl. V(X) mag niet 0 zijn )! We onderzoeken nu enkele eigenschappen van de KK-schatters. De nu volgende eigenschappen zullen we enkel afleiden voor het eenvoudige model (1). De conclusies zullen echter algemeen toepasbaar zijn voor andere lineaire modellen.
3.4.
EIGENSCHAPPEN VAN DE K.K.-SCHATTERS
Bij het beoordelen van de statistische kwaliteit van schatters onderzoeken we de zuiverheid en de consistentie ervan. Tevens bepalen we de kansverdeling van de schatters. Hier zal duidelijk tot uiting komen dat alle veronderstellingen aangaande de storingsterm nodig zijn.
3.4.1.
Eigenschap 1. De KK-schatters zijn zuivere schatters
We moeten aantonen dat E (aˆ ) = a en dat E (bˆ) = b . We tonen deze eigenschap enkel aan voor de parameter b. We vertrekken van de formule voor de schatter van b: bˆ = V ( X , Y ) / V ( X ) . Omdat Y = a + bX + ε vinden we dat bˆ = V (a + bX + ε , X ) / V ( X ) = bV ( X ) / V ( X ) + V (ε , X ) / V ( X )
Na vereenvoudiging zien we dat bˆ = b + V (ε , X ) / V ( X ) . We nemen nu links en rechts verwachte waarden en we vinden
E (bˆ) = b + E (V (ε , X ) / V ( X )) 62
Uit de definitie van V(. , .) volgt nu dat V (ε , X ) = ∑ ( X i − X )ε i . Omdat de VV niet
stochastisch is vinden we E (V (ε , X )) = ∑ ( X i − X ) E (ε i ) . Wanneer we nu gebruik maken van
voorwaarde (B1) zien we onmiddellijk dat E (V (ε , X )) = 0 en dus dat E (bˆ) = b . De KKschatter is dus een zuivere schatter.
3.4.2.
Eigenschap 2. De KK-schatters zijn consistent
We tonen de volgende formules aan Var (bˆ) = σ 2 / V ( X )
X² V (X ) −X Cov (aˆ , bˆ) = σ 2 V (X )
Var (aˆ ) = σ 2
We bewijzen alleen de eerste formule. Om dit te doen vertrekken we van de uitdrukking die we vroeger reeds vonden: bˆ = b + V (ε , X ) / V ( X ) . Omdat b een constante is vinden we dat Var (bˆ) = Var (V (ε , X ) / V ( X )) = Var (V (ε , X )) / V ²( X )
Omwill van (B3) en V (ε , X ) = ∑ ( X i − X )ε i volgt dat Var (V (ε , X )) = ∑ ( X i − X ) 2 Var (ε i ) We gebruiken nu (B2) om te komen tot Var (V (ε , X )) = σ 2 ∑ ( X i − X ) 2 = σ 2V ( X ) . Dit alles samen toont aan dat Var (bˆ) = σ 2 / V ( X ) We merken dat Var (bˆ) van drie factoren afhangt: - van σ 2 : hoe groter de variantie σ 2 , hoe groter Var (bˆ) ; - van V ( X ) : hoe groter de variatie in X, hoe kleiner Var (bˆ) ; De algemene conclusie is een conclusie in termen van MC en QMC: hoe verder verwijderd van MC of QMC, hoe kleiner de variantie van de KK-schatters - van n: hoe groter n, hoe kleiner Var (bˆ) . We zien immers dat V(X) toeneemt naarmate de steekproef groter wordt! We besluiten dat de KK-schatters consistent zijn. De covariantieformule uit Eigenschap 3.3.2. impliceert o.a. dat aˆ , bˆ positief gecorreleerd zijn als X < 0 , negatief gecorreleerd zijn als X > 0 en niet gecorreleerd zijn als X = 0
63
De vorige formules laten het ook toe de variantie te bepalen van een l.c. van de schatters: Var (uaˆ + vbˆ) = u 2Var ( aˆ ) + v 2Var (bˆ) + 2uvCov ( aˆ , bˆ)
We passen dit nu toe op de KK-rechte zelf. Omdat Yˆ = aˆ + bˆX vinden we (met u = 1 en v = X) (i)
E (Yˆ ) = a + bX
(ii)
Var (Yˆ ) = Var (aˆ ) + X 2Var (bˆ) + 2 XCov(aˆ , bˆ)
1 X−X Na (veel) rekenwerk vinden we dat Var (Yˆ ) = σ 2 ( + ) n V (X ) Bemerk dat E (Yˆ ) = a + bX = E (Y ) . Dit betekent dat Yˆ géén zuivere schatter is van Y maar wel een zuivere schatter is van E (Y ) !
In het vervolg gebruiken we de volgende notaties: Var (aˆ ) = σ 2 (aˆ ) ; Var (bˆ) = σ 2 (bˆ) ; Var (Yˆ ) = σ 2 (Yˆ )
3.4.3.
De kansverdeling van de schatters
We merkten reeds op dat de KK-schatters kunnen geschreven worden als l.c. van de foutentermen. We vonden vroeger bijvoorbeeld dat bˆ = b + V (ε , X ) / V ( X ) Omwille van basisveronderstelling (B4) volgt nu dat KK-schatters normaal verdeeld zijn! We vinden nu aˆ ≈ N (a, σ 2 (aˆ )) bˆ ≈ N (b, σ 2 (bˆ)) en
Yˆ ≈ N ( E (Y ), σ 2 (Yˆ ))
Dank zij deze formules kunnen we betrouwbaarheidsintervallen opstellen en hypothesen toetsen inzake de parameters. We vinden bijvoorbeeld de volgende 95% betrouwbaarheidsintervallen: a = aˆ ± z 2.5%σ (aˆ ) b = bˆ ± z σ (bˆ) 2.5%
E (Y ) = a + bX = Yˆ ± z 2.5%σ (Yˆ ) Spijtig genoeg zijn deze formules onbruikbaar omdat we bij he berekenen van de variantie van de schatters nog een onbekende parameter hebben: in de variantieformules zien we immers telkens de modelvariantie σ 2 verschijnen!
64
3.4.4.
Schatten van de modelvariantie
In de hierboven afgeleide formules staat telkens nog de onbekende parameter σ 2 en om bruikbare formules te bekomen bepalen we nu een schatter voor deze variantie. In de cursus statistiek hebben we aangetoond dat de variantie goed kan geschat worden als volgt. We vertrekken van een rij van t.v. A1, A2, …, An die onafhankelijk zijn en die dezelfde normale verdeling N(µ, σ²) volgen. 1 We toonden aan dat S 2 = ∑ ( Ai − µ) 2 een zuivere schatter is voor de variantie. Wanneer µ n 1 onbekend is, dan is s 2 = ( Ai − µˆ ) 2 waarbij µˆ = A een zuivere schatter voor σ² ∑ n −1 We volgen een analoge redenering in econometrie. In het basismodel vertrekken we van (1)
Yi = a + bX i + ε i
voor elke i
en dus
ε i = Yi − a − bX i
voor elke i
1 1 ε i2 = ∑ (Yi − a − bX i ) 2 een ∑ n n goede schatter is voor de variantie σ 2 . In deze formule vervangen we de twee onbekende 1 parameters door hun schatters. We vinden dan s 2 (e) = ∑ (Yi − aˆ − bˆX i ) 2 n−2 Men kan aantonen dat s 2 (e) een zuivere schatter is voor de variantie σ 2 . Bovendien geldt dat
Omwille van basisveronderstelling (B4) volgt dat S 2 =
(n − 2) s 2 (e) / σ 2 een chikwadraatverdeling volgt met parameter n – 2. Bemerk dat 1 s 2 (e) = (Yi − Yˆi ) 2 = SSE /( n − 2) ∑ n−2 Wanneer we model (1) vervangen door een algemeen lineair model met p parameters, dan kan men aantonen dat s 2 (e) = SSE /(n − p ) een goede schatters is voor de variantie σ 2 . We noemen s2 (e) de geschatte variantie van het model en s(e) de geschatte (model-) standaardafwijking. Het getal s(e) is een indicator voor de fouten die we globaal maken met het model.
65
De geschatte variantie kan nu gebruikt worden om de variantie van de KK-schatters te schatten. We maken de volgende tabel: echte variantie
geschatte variantie
σ2
s 2 (e )
Var (bˆ) = σ 2 (bˆ) = σ 2 / V ( X )
s 2 (bˆ) = s 2 (e) / V ( X )
Var (aˆ ) = σ 2 (aˆ ) = σ 2
X2 V (X )
s (aˆ ) = s 2 (e) 2
X2 V (X )
enzovoort In de b.i.-formules vervangen we nu de varianties door de geschatte varianties en vervangen we de z2.5% -waarden door t - waarden uit een tn - 2 -verdeling. Een 95 % b.i. voor de parameters vinden we nu via de formules: a = aˆ ± t n− 2, 2.5% s ( aˆ ) b = bˆ ± t s (bˆ) n− 2 , 2.5%
E (Y ) = a + bX = Yˆ ± t n− 2, 2.5% s (Yˆ ) In een lineair model met p parameters gebruiken we t-waarden uit een tn-p- verdeling. We illustreren nu dat we deze berekeningen niet zelf moeten uitvoeren, maar dat het merendeel van de informatie door EXCEL berekend wordt.
66
3.5.
CIJFERVOORBEELD
We hernemen voorbeeld 3 waar we de huurprijs van appartementen verklaarden. Bij de regressie van Y op X(2) en X(3) vinden we de volgende output. SUMMARY
OUTPUT
Regression Statistics Multiple R 0,853 R Square 0,7277 Adj. R Square 0,7076 Standard Error 72,059 Observations 30 ANOVA Regression Residual Total
Intercept X(2) X(3)
df
SS
MS
F
Sign. F
2 27 29
374799,57 140200,43 515000
187399,8 5192,6
36,09
0,0000
Coeff.
St. Error
t Stat
145,58 2,54 65,03
37,00 0,41 30,42
3,93 6,13 2,14
P-value Lower 95% 0,0005 0,0000 0,0418
69,65 1,69 2,61
Upper 95% 221,49 3,39 127,45
In de ANOVA-tabel vinden we SSE = 140200.43 en in de kolom ernaast vinden we het aangepast gemiddelde (MS = mean sum): s²(e) = SSE/(30 – 3) = SSE/27 = 5192.6. De positieve vierkantswortel is s(e) = 71.059 en dit getal vinden we bij “standard error” in het eerste deel van de output. In het derde deel van de output vinden we naast de geschatte coëfficiënten (tweede kolom) ook de geschatte standaardafwijkingen van deze schattingen. We lezen af: schatting 145.58 2.54 65.03
geschatte standaardafwijking 37.0 0.41 30.42
In de laatste kolommen van het derde deel van de output berekent EXCEL 95% betrouwbaarheidsintervallen voor de parameters. Wanneer we een ander b.i. wensen, dan kan dit door bij het ingeven van de gegevens voor de regressie een ander cijfer in te tikken, zie hoofdstuk 2.
67
3.6.
TOETSEN VAN HYPOTHESEN
In deze paragraaf behandelen we het toetsen van hypothesen omtrent de paramters in een lineair model. Het opstellen van b.i. en het toetsen van hypothesen omtrent de parameters van een model is nuttig om de statistische kwaliteit van de bekomen KK-schattingen te beoordelen. We vertrekken opnieuw van het eenvoudigste model (1): (1)
Yi = a + bX i + ε i
voor elke i
Stel bijvoorbeeld dat Y de verkoop van een produkt voorstelt en dat X de prijs is. Het is uiteraard belangrijk om te weten of X wel degelijk een invloed uitoefent op Y en vervolgens om te weten hoe groot deze invloed wel is. Indien X geen invloed had op Y, dan zou de parameter b gelijk zijn aan 0. Daar wij de echte waarde van de parameter b niet kennen moeten we de KK-schatting gebruiken en dan deze veronderstelling of hypothese toetsen. We zijn m.a.w. geïnteresseerd in de keuze tussen de volgende hypothesen: H0: b = 0
Ha: b ≠ 0
Anderzijds is het belangrijk te weten of we met model (1) als geheel wel degelijk iets verklaren. De centrale vraag hier is of het verklarend vermogen dat we vinden in het model betekenisvol is of niet.
3.6.1.
De t-test voor een parameter
Bij de keuze tussen H0: b = b0 vs Ha: b ≠ b0 kunnen we werken ofwel met b.i., ofwel met twaarden en de bijhorende overschrijdingskansen. a. Via betrouwbaarheidsintervallen Vertrekkend van de schattingsresultaten stellen we een b.i. op voor de parameter b. Indien we een 95% betrouwbare uitspraak wensen, dan gebruiken we b = bˆ ± t n− 2, 2.5% s (bˆ) Indien de waarde b0 in dit betrouwbaarheidsinterval ligt, dan is dit een betrouwbare waarde en we verwerpen de nulhypothese niet. In het andere geval is b0 een onbetrouwbare waarde en verwerpen we de nulhypothese. b. Via t-waarden
bˆ − b0 ≈ t n−2 Indien H0 juist is, dan geldt theoretisch dat t (bˆ) = s (bˆ) De linkerzijde in deze formule noemen we de t-waarde van on steekproefresultaat. Deze t-waarde vergelijken we met de tn-2-verdeling.
68
Indien H0 correct is verwachten we een t-waarde in de buurt van 0. Indien de t-waarde “te groot” is, dan twijfelen we aan de juistheid van H0. Het al of niet groot zijn van de berekende t-waarde bepalen we via de overschrijdingskans van de t-waarde. Indien de overschrijdingskans van de berekende t-waarde “klein” is, dan betekent dit dat de berekende t-waarde “groot” is en we verwerpen H0. In dit geval is de parameter betekenisvol verschillend van b0. Indien de overschrijdingskans niet “klein” is, dan verwerpen we H0 niet: er is geen betekenisvol verschil tussen het steekproefresultaat en de vooropgestelde waarde b0. Bij het beoordelen van de overschrijdingskans zelf, gebruiken we de klassieke grenzen α = 5% of 2.5% of … In econometrie is men veelal geïnteresseerd in de volgende keuze: H0: b = 0
vs
Ha: b ≠ 0
In dit verband spreekt men van dè t-waarde of t-stat: t =
bˆ s(bˆ)
Meestal plaatst deze t-waarden ook in de samenvatting van de berekeningen. In de plaats van de overschrijdingskans is het in econometrie ook gebruikelijk van te werken met twee keer de overschrijdingskans. Zo kan er geen verwarring ontstaan bij negatieve en positieve t-waarden. Men noemt dit getal de P-waarde (probability value). In de EXCEL-output vinden we naast elke parameterschatting de t-waarde en de de bijhorende P-waarde:
Intercept X(2) X(3)
Coeff.
St.Error
t Stat
P-value
Lower 95%
Upper 95%
145,589 2,54 65,03
37,00 0,41 30,42
3,93 6,13 2,14
0,0005 0,0000 0,0418
69,66 1,69 2,61
221,50 3,39 127,45
In dit voorbeeld vinden we bij de schatting 2.54 een relatief kleine geschatte standaardafwijking (0.41). Dit geeft een relatief grote t-waarde van 6.13. De P-waarde van dit getal is uiterst klein. We besluiten dat de coëfficiënt van X(2) betekenisvol verschilt van 0. Dit besluit konden we ook trekken op basis van het 95%-betrouwbaarheidsinterval: het interval met grenzen 1.69 en 3.39 bevat het getal 0 niet.
3.6.2.
De F-test
De F-test wordt o.a. gebruikt om na te gaan of er een significant verband bestaat tussen de te verklaren Y en de verklarende variabelen X1 , X2 , .... We vragen ons af of de verklaarde variatie in Y inderdaad afkomstig is van de VV en niet tot stand kwam door een samenloop van (toevallige) omstandigheden. We vertrekken van een lineair model: Y = b1 + b2 X 1 + b3 X 2 + ... + bk −1 X k
69
Met de F-test maken we een keuze tussen: H0: alle bi zijn gelijk aan 0 Ha: minstens één van de bi verschilt van 0 Om een keuze te maken gebruiken we de F-waarde. In een model met k parameters is de Fwaarde gelijk aan F=
SSR /(k − 1) R ² /(k − 1) = SSE /(n − k ) (1 − R ²) /(n − k )
De F-waarde is gelijk aan de verhouding tussen de variantie verklaard door de regressie en de onverklaarde variantie. Deze F-waarde hebben we reeds ontmoet bij het beoordelen van de R²-waarde. Men kan aantonen dat de F-waarde kan beoordeeld worden m.b.v. een F-verdeling volgt met parameters k – 1 en n – k: F ∼ F(k – 1, n – k). Indien de R²-waarde of de F-waarde “groot” zijn, dan betekent dit dat we de nulhypothese H0 moeten verwerpen. Het al dan niet groot zijn van de F-waarde wordt beoordeeld via de overschrijdingskans van de berekende F-waarde. Indien de overschrijdingskans kleiner is dan een vooropgestelde α-waarde verwerpen we H0. In dit geval is het model een betekenisvol model. Opmerking Wanneer we de bovenstaande F- en t-testen uitvoeren kunnen er verschillende mogelijkheden voorkomen: 1) R² voldoende groot en alle parameters significant verschillend van nul; 2) R² voldoende groot en sommige parameters significant verschillend van nul; 3) R² voldoende groot en geen enkele parameter significant verschillend van nul; 4) R² onvoldoende groot en alle parameters significant verschillend van nul; 5) R² onvoldoende groot en sommige parameters significant verschillend van nul; 6) R² onvoldoende groot en geen enkele parameter significant verschillend van nul. Geval 6) toont dat de uitgevoerde analyse volledig zinloos is geweest. Geval 1) schenkt voldoening, tenzij de tekens van de KK-schatters niet in overeenstemming zijn met onze theoretische verwachtingen. Geval 2) komt dikwijls voor en vooral in gevallen waarbij we over veel verklarende variabelen beschikken. Na het uitvoeren van een correcte selectie van VV moeten we nu VV weglaten uit het model. VV waarvan de bijhorende parameter niet betekenisvol verschilt van 0 schrappen we uit het model. Naast QMC en MB is dit een statistische reden om VV te weren uit het model. Geval 3) komt ook vrij vaak voor en is dikwijls het signaal voor problemen met MC of QMC. Gevallen 4) en 5) komen niet zo frequent voor. Indien een van deze gevallen toch voorkomt is het aangewezen om het economisch probleem opnieuw te analyseren en misschien nieuwe VV zoeken of het model te veranderen.
70
3.7.
VOORSPELLEN
3.7.1.
Inleiding
We vertrekken opnieuw van het eenvoudig lineaire model Yi = a + bX i + ε i
(1)
voor elke i
Op basis van een steekproef schatten we de parameters en vinden we aˆ , bˆ, s (e) en het geschatte model Yˆ = aˆ + bˆX . We willen nu bij een gegeven nieuwe waarde Xv inschatten wat de bijhorende waarde van Yv of van E(Yv) wordt. Bij tijdreeksen bijvoorbeeld maken we een analyse op basis van gegevens tot nu en zijn we geïnteresseerd in prognoses of voorspellingen. Bij cross-secties gaat men op basis van een aantal gevallen (de gebruikte steekproef) controleren hoe het model presteert in één of meer nieuwe gevallen. Op basis van (1) is het duidelijk dat Yv = a + bX v + ε v
(2)
en dat we zullen voorspellen m.b.v. de puntschatting (3)
Yˆv = aˆ + bˆX v
3.7.2.
Statistische kwaliteit van de voorspelling
Om de nauwkeurigheid van dergelijke voorspellingen na te gaan controleren we opnieuw zuiverheid en bepalen we de variantie van onze schatting. In §3.3.2. hebben we reeds de nodige eigenschappen afgeleid. Voor (3) passen we de vroeger gevonden formules aan:
1 X −X ) E (Yˆv ) = a + bX v = E (Yv ) ; s 2 (Yˆv ) = s 2 (e)( + v n V (X ) Yˆ ≈ N (a + bX , σ 2 (Yˆ )) v
v
v
Bemerk dat de variantie afhangt van: 1) de steekproefgrootte n; 2) de afwijking van Xv t.o.v. het gemiddelde van de X-waarden: de beste voorspellingen krijgen we rond dit gemiddelde; 3) de variantie van het oorspronkelijk model; 4) de variatie binnen de X-observaties.
71
Op de klassieke manier vinden we het volgende 95% b.i.: E (Yv ) = Yˆv ± t n − 2, 2.5% s (Yˆv ) Op basis van (2) kunnen we ook een b.i. opstellen voor Yv. Hiertoe moeten we de variantieterm aanpassen. Men kan de volgende formule aantonen: Yv = Yˆv ± t n − 2, 2.5% s 2 (Yˆv ) + s 2 (e)
3.7.3.
De kwaliteit van de voorspellingen
Eén van de doelstellingen van econometrie was het maken van prognoses. In de vorige paragrafen hebben we een instrument ontwikkeld om dergelijke voorspellingen te maken. De kwaliteit van ons model kunnen we nu nagaan aan de hand van de kwaliteit van de voorspellingen die we maken. We stellen A(i) = de echte waarden (actual values) en P(i) = voorspelde waarden (predicties) van een te bestuderen variabele. In deze paragraaf is de oorsprong van deze voorspellingen P(i) van minder belang. We kunnen P(i) gevonden hebben via de analyse van de vorige pragrafen of via een andere methode. Om de kwaliteit van de voorspellingen na te gaan, bestaan er meerdere methodes waarvan we hier enkele vermelden. We veronderstellen dat we m voorspellingen maken en beschikken over (A(i), P(i)) voor i = 1, 2, ..., m.
1. Gemiddelde kwadratische en absolute afwijking Een eerste procédé bestaat erin de actuele waarden te vergelijken met de voorspellingen. We bepalen hier bijvoorbeeld: 1 ∑ A(i) − P(i) m 1 GKA = de gemiddelde kwadratische afwijking = ∑ ( A(i ) − P (i )) 2 m
GAA = de gemiddelde absolute afwijking =
We krijgen perfecte voorspellingen indien GAA = 0 of indien GKA = 0. Nadeel van deze barometers is dat de berekende waarde afhangt van de meeteenheden en dat het moeilijk is om één waarde te beoordelen. Bijvoorbeeld: het getal GAA = 1000 km is anders dan het getal GAA = 1000 m en in beide gevallen weten we niet of het getal “1000” groot is of klein.
72
2. Relatieve afwijkingen Om het probleem van de meeteenheden te verwijderen kunnen we werken met relatieve afwijkingen. Zo vinden we GRAA =
1 A(i ) − P (i ) 2 1 A(i ) − P(i ) ) en GRKA = ∑ ( ∑ m A(i ) m A(i )
In elk van deze situaties hebben we perfecte voorspellingen wanneer de berekende coëfficiënt gelijk is aan nul. Bij gebrek aan een referentiewaarde is het echter moeilijk om één enkele berekende waarde te beoordelen.
3. Correlatiecoëfficiënt Een veel gebruikte werkwijze bestaat erin de correlatiecoëfficiënt r(A, P) te berekenen tussen de actuele waarden en de predicties. Bij perfecte resultaten vinden we +1. Wanneer de lineaire band tussen theorie en realiteit quasi onbestaande is, vinden we een correlatie in de buurt van 0. Wanneer de voorspellingen compleet het tegenovergestelde geven van de actuele waarden, dan vinden we r(A, P) = − 1. Bemerk dat een grote correlatiecoëfficiënt alleen niet genoeg is om te besluiten dat we goede voorspellingen hebben. Wanneer r(A, P) groot is, is er een (benaderende) lineaire band tussen A en P. Nu moeten we nog controleren dat de lijn op de correcte plaats ligt!
4. Grafisch Onder ideale omstandigheden vinden we grafisch dat de echte en de voorspelde waarden op de eerste diagonaal liggen. Via een (P, A)-grafiek kunnen we visueel controleren of we ver verwijderd zijn van dit ideaal. Samen met r(A, P) krijgen we een goede indicator voor de kwaliteit van de voorspellingen.
5. Theil's coëfficiënt Een veelgebruikte maatstaf is de coëfficiënt van Theil, gedefiniëerd als
∑ ( A(i) − P(i)) ∑ A (i) + ∑ P (i) 2
TH =
2
2
De coëfficiënt TH ligt steeds tussen 0 en 1. Wanneer de voorspellingen perfect zijn, dan vinden we dat TH = 0. Indien de voorspellingen volledig tegengesteld zijn aan de realiteit dan is P(i) = − bA(i) (met b > 0) en dan vinden we dat TH = 1. Hoe dichter bij 0 hoe beter onze voorspellingen zijn! Net zoals de correlatiecoëfficiënt, is de Theil-coëfficiënt een dimensieloos getal.
73
6. Mincer en Zarnowitz Mincer en Zarnowitz suggereerden de volgende aanpak. We verklaren de actuele waarden met de geschatte waarden via het volgend lineair model: A(i ) = u + vP(i ) + ε i We bepalen nu de KK-schatters voor u en voor v. Bij perfecte voorspelingen vinden we u = 0 en v = 1. Op basis van onze berekeningen toetsen we de volgende hypothesen: Ha: u ≠ 0 Ha: v ≠ 1
H0: u = 0 H0: v = 1
en
Wanneer we bij één of alle twee de gevallen de nulhypothese moeten verwerpen, hebben we vraagtekens bij de voorspellingen.
3.7.4.
Voorbeeld
In de gevalstudie van het vorig hoofdstuk construeren we drie modellen. We gebruiken daartoe de eerste 25 waarnemingen. De laatste 10 waarnemingen houden we over om de voorspellingskracht van de modellen te analyseren. We bestuderen 3 modellen: model 1: model 2: model 3:
Yˆ = a + bX (1) Yˆ = a + bX (1) + cX ( 2) Yˆ = a + bX (1) + cX ( 2) + dX (3)
Met EXCEL vinden we de volgende schattingen: Model 1: Yˆ = 533222 .79 − 4357,7 X (1) Model 2: Yˆ = 354410,54 − 3073,67 X (1) + 15076,12 X ( 2) Model 3:
Yˆ = 280366,1 − 3069,9 X (1) + 13883,8 X ( 2) + 48,7 X (3)
De laatste 10 datapunten gebruiken we om voorspellingen te maken. We vinden de volgende resultaten:
1 2 3 4 5 6 7 8 9 10
X(1)
X(2)
X(3)
Y
model 1
model 2
model 3
25 78 41 66 36 28 114 25 61 24
14 11 9 3 8 5 4 14 10 8
2000 1800 2000 1700 1700 1700 1600 2000 1700 1600
462000 285000 310000 161000 285000 350000 64000 463000 164000 310000
424279,7 193320,3 354556,1 245613 376344,7 411206,5 36442,21 424279,7 267401,6 428637,4
488634,4 280501,5 364075,1 196776,6 364367,3 343728,3 64316,51 488634,4 317677,8 401251,4
495353,9 281256,7 376815,1 202158 363676,6 346585,1 63814,17 495353,9 314694,5 395648,2
74
We vergelijken de voorspellingen met verschillende methoden. model 1 69944 0,128 0,84 0,117
GAA GRKA r(P, A) Theil
model 2 47750 0,113 0,92 0,099
model 3 49604 0,112 0,93 0,1
beste ? model 2 model 3 model 3 model 2
We zien in de bovenstaande tabel dat de ene keer model 2 het beste model is en de andere keer is model 3 beter. Voor model 3 vinden we grafisch het volgende beeld: model 3 500000
400000
P
300000
200000
100000
0 0
100000
200000
300000
400000
500000
A
Er zijn lichte afwijkingen t.o.v. de eerste diagonaal. Een correlatiecoëfficiënt van 93% samen met de grafiek tonen dat de voorspellingen beh(k)oorlijk zijn. Voor model 3 werken we ook de werkwijze van Mincer en Zarnovitz uit. We vinden de volgende output: A = u + vP Intercept P (model 3)
Coeff.
Stand. Error
-19288,33 0,91
45871,6 0,129
t Stat P-value Lower 95% Upper 95% -0,42 7,08
0,6899 0,0001
-125068,6 0,6161
86491,9 1,2109
We merken dat de constante niet betekenisvol afwijkt van 0 en dat de coëfficiënt van P niet betekenisvol afwijkt van 1. Dit bevestigt de vorige conclusie.
75
HOOFDSTUK 4 DE BASISVERONDERSTELLINGEN BIJ LINEAIRE MODELLEN 4.1.
Inleiding
In dit hoofdstuk bespreken we in detail hoe we de basisveronderstellingen aangaande de storingsterm kunnen controleren. De analyse die we in het vorige hoofdstuk maakten is slechts geldig indien aan de 5 basisvoorwaarden voldaan is. Het is dus uitermate belangrijk na te gaan of de besluiten die we nemen wel gerechtvaardigd zijn. Naast de basisveronderstellingen bekijken we ook nog enkele andere problemen die zich kunnen voordoen in econometrie.
4.2.
Basisveronderstelling 1
In (B1) veronderstelden we dat E (ε i ) = 0 voor alle i. Deze veronderstelling betekent eigenlijk dat we gemiddeld gezien geen fouten maken. In het bijzonder maken we geen systematische meetfouten, beschikken we over een homogene databank en vergeten we geen belangrijke verklarende variabelen.
4.2.1.
Gevolgen
Wanneer niet voldaan is aan basisveronderstelling (B1), dan kunnen we wel de KK-schatters berekenen, maar de bekomen schatters zijn niet zuiver. Dit betekent dat we de schatters niet meer oordeelkundig en statistisch kunnen evalueren.
4.2.2.
Controleren van B1
We controleren (B1) grafisch door een scatterdiagram te maken met op de horizontale as de TVV en op de verticale as de berekende fouten ei . In de ideale tekening schommelen de fouten “mooi” rond de horizontale as en bij voorkeur zien we in de grafiek géén clusters en géén outliers.
4.2.2.
Redenen
De redenen waarom (B1) mischien niet voldaan is kunnen zeer uiteenlopend van aard zijn.
1. Systematische meetfout Indien we voor elke i systematisch dezelfde (meet-)fout maken, dan is het mogelijk dat E (ε i ) = µ voor elke i. We kunnen nog steeds de KK-schatters berekenen, maar de gevonden schatters zijn niet meer zuiver!
76
Concreet is het onze taak erop toe te zien dat we geen systematische meetfouten maken.
2. Variabele of effect vergeten Een tweede (realistische) mogelijkheid is dat E (ε i ) = µi waarbij µ i kan variëren met de index i. In dit geval is in het algemeen helaas geen oplossing mogelijk, tenzij we meer veronderstellingen maken. Deze situatie komt in elk geval voor wanneer we één of ander effect vergeten op te nemen in ons model of wanneer we een (belangrijke) verklarende variabele vergeten op te nemen in ons model. Tevens kunnen we problemen krijgen met ouliers. a) Variabele vergeten. Stel dat we werken met het model (1)
Y = a + bX + cZ + ε
terwijl in realiteit het echte model het volgend model (2) is: (2)
Y = a + bX + cZ + dU + ε *
Wanneer we toch met model (1) werken geldt dat ε = dU + ε * . Wanneer ε * voldoet aan (B1) dan vinden we E (ε i ) = dU i en voldoet in model (1) de storingsterm niet aan (B1). De schattingen die we vinden voor model (1) zijn dus geen goede schattingen! b) Effect vergeten (bij clusters) Wanneer in onze data clusters aanwezig zijn is het aangewezen deze te verklaren (van waar komen de clusters?) en vervolgens in ons model één of meerdere dummy-variabelen op te nemen. Wanneer in onze data 2 groepen zijn gebruiken we één dummy-variabele D waarbij Di = 1 voor waarnemingen in de eerste groep en Di = 0 voor data in de tweede groep. Voorbeelden Bij een cross-sectie over de huurprijs van een woning zullen we clusters zien die gerelateerd zijn aan het al dan niet kunnen beschikken over een garage of over een tuin. In huurprijsmodellen zullen we het al of niet beschikken over een garage of over een tuin coderen met één of meerdere dummy-variabelen. Bij gewone tijdreeksanalyse is het dikwijls realistisch te veronderstellen dat er seizoensfluctuaties zijn. Dit betekent dat de storingsterm kan verschillen naargelang het seizoen. Terug maakt men veelal gebruik van dummy-variabelen om de verschillende seizoenseffecten op te vangen. c) Outliers Outliers of uitschieters zijn speciale gevallen in ons cijfermateriaal. Outliers zien we wanneer in ons cijfermateriaal clusters voorkomen bestaande uit één of slechts enkele datapunten. Onze databank is dus niet homogeen en dit zorgt voor problemen met (B1).
77
De redenen voor het voorkomen van outliers kunnen zeer uiteenlopend van aard zijn: - we maakten fouten bij het ingeven van onze data; - we gebruikten slecht of onbetrouwbaar cijfermateriaal; - sommige waarnemingen zijn inderdaad uitzonderlijk. Bij tijdreeksanalyses denken we bijvoorbeeld aan uitzonderlijke gebeurtenissens zoals: - de oliecrisisjaren; - paniekreacties op de beurs bij een crash of devaluatie; - een extreem koude winter; … Bij cross-secties denken we bijvoorbeeld aan uitzonderlijke omstandigheden zoals: - een wagen die extreem duur is; - een extreem hoog salaris; - landen met een extreem hoge inflatie, werkloosheidsgraad; … Indien er een verklaring kan gevonden worden voor het extreem gedrag van een outlier, dan laat men in econometrie deze waarneming soms weg of gebruikt men een dummy-variabele voor deze ene waarneming.
4.2.3.
Besluit
We besluiten dat het van groot belang is specificatiefouten te vermijden. Het gevaar van specificatiefouten zal meestal groter zijn bij bivariabele relaties dan bij multivariabele relaties. De voorkeur gaat dus meestal uit naar specificaties van de laatste soort, te meer omdat de opname van irrelevante verklarende variabelen de eigenschappen van de KK-schattingen onaangetast laat. Het is wel zo dat het gebruik van multivariabele relaties andere problemen met zich mee kan brengen zoals bijvoorbeeld het opofferen van te veel vrijheidsgraden, het optreden van multicollineariteit enzovoort.
4.2.4.
Voorbeeld
Als voorbeeld werken we met de volledige dataset van het voorbeeld dat we behandelden in §2.2.4. Daar bekeken we voor de staten van de USA Y = de uitgaven aan onderwijs X(1) = het aantal stadsbewoners per 1000 inwoners X(2) = het gemiddeld inkomen De dataset is de volgende:
78
staat
Y
X1
X2
staat
Y
X(1)
X(2)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
235 231 270 261 300 317 387 285 300 221 264 308 379 342 378 232 231 246 230 268 337 344 330 261 214
508 564 322 846 871 774 856 889 715 753 649 830 738 659 664 572 701 443 446 615 661 722 766 631 390
394,4 457,8 401,1 523,3 478 588,9 566,3 575,9 489,4 501,2 490,8 575,3 543,9 463,4 492,1 486,9 467,2 478,2 429,6 482,7 505,7 554 533,1 741,5 382,8
26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
245 233 250 243 216 212 208 215 221 244 234 269 269 268 323 304 317 332 315 291 312 316 332 311
450 576 603 805 523 588 584 445 500 661 680 797 534 541 605 785 698 796 804 809 726 671 909 831
412 381,7 424,3 464,7 396,7 394,6 372,4 344,8 368 382,5 418,9 433,6 441,8 432,3 482 504,6 376,4 450,4 400,5 556 498,9 469,7 543,8 530,9
We werken het model Y = a + bX(1) + cX(2) uit en vinden met EXCEL de volgende output. Bij het invullen van het Regression-scherm duiden we ook aan dat we de residuals wensen. We vinden nu:
79
Regression Statistics Multiple R 0,607 R Square 0,368 Adj. R Square 0,341 Standard Error 39,596 Observations 49 ANOVA df
SS
MS
F
Sign. F
2 46 48
42090,1 72119,7 114209,8
21045 1567,8
13,4
0,0000
Coeff.
Stand.Error
t Stat
P-value
100,19 0,138 0,185
37,27 0,048 0,0918
2,688 2,850 2,014
0,0099 0,0065 0,0499
Regression Residual Total
Intercept X1 X2
en ook (een deel van) de residuals: RESIDUAL OUTPUT Observation Predicted Y 1 2 3 4 … 47 48 49
243,02 262,45 218,65 313,37 … 279,37 325,83 312,71
Residuals -8,02 -31,45 51,34 -52,37 … 36,62 6,16 -1,71
Om B1 te controleren maken we een grafiek (Y, e(i)). In ons voorbeeld vinden we de volgende grafiek.
80
B1 120 100 80
fouten e(i)
60 40 20 0 -20200
250
300
350
400
-40 -60 -80 -100 Y
In de grafiek merken we een cluster van drie outliers bovenaan rechts. Een verklaring hiervoor werd gevonden in de geografische ligging van drie speciale staten (Hawai, Alaska). Daarnaast zien we 2 grote clusters die begrensd worden door de Y-waarde 300: het rijkere noorden tegenover het armere zuiden. In de analyse had men een bijkomende dummy-variabele kunnen gebruiken om weer te geven of een staat een noordelijke ofwel een zuidelijke staat was. Wij gaan hier niet dieper op in.
4.3.
BASISVERONDERSTELLING 4
Wij veronderstelden in (B4) dat de storingstermen normaal verdeeld zijn en bovendien stelden we dat de parameters van deze normale verdeling gelijk moesten zijn aan 0 en σ². In feite maken we hier dus drie veronderstellingen. Allereerst eisen we dat de storingsterm een normale verdeling volgt. Bovendien eisen we dat het gemiddelde nul is en dat de variantie constant is. Dat het gemiddelde nul is bestudeerden we reeds in de vorige paragraaf. De eis i.v.m. de variantie bestuderen we verder.
4.3.1.
Gevolgen
Stel dat de storingsterm géén normale verdeling volgt, maar een andere verdeling met gemiddelde nul en een constante variantie. Wat zijn daarvan de gevolgen? Wanneer we eigenschappen van de KK-schatters terug bekijken, dan blijven vele eigenschappen behouden. Er duiken problemen op wanneer we betrouwbaarheidsintervallen willen opstellen en wanneer we hypothesen willen toetsen. Na een lange en ingewikkelde bewijsvoering kan evenwel worden aangetoond dat ook bij niet normaal verdeelde storingstermen, onze toetsingsprocedure asymptotisch (d.i. voor grote steekproeven) blijven gelden. Ze zijn het echter niet meer zodra één van de voorvermelde voorwaarden vervalt. In de volgende deelparagraaf gaan we na op welke manier men kan testen of de fouten inderdaad normaal verdeeld zijn, en indien niet, hoe onze statistische analyse moet worden aangepast.
81
4.3.2.
Normaliteitstesten
We beperken ons hier tot het vermelden van de test van Kolmogorov-Smirnov en de chikwadraat-goodness-of-fit test.
1. De test van Kolmogorov en Smirnov In deze test gaan we na of er voldoende redenen zijn om aan te nemen dat een empirisch bekomen steekproef een steekproef is uit een vooraf gegeven theoretische verdeling. In econometrie willen we een keuze maken tussen de volgende hypothesen: H0: alle ε i zijn normaal verdeeld N(0, σ 2) Ha: niet alle ε i zijn normaal verdeeld N(0, σ 2) Om te kiezen gebruiken we opnieuw de berekende fouten ei . Indien H0 correct is, dan verwachten we dat de empirische verdelingsfunctie (EVF(x)) van de fouten niet veel afwijkt van de theoretische verdelingsfunctie (TVF(x)). In de toets van Kolmogorov-Smirnov toetsen vergelijken we dus EVF en TVF waarbij TVF de verdelingsfunctie is van een N(0, σ 2)-verdeelde toevallige veranderlijke. Bij het bepalen van de TVF schatten we de onbekende variantie met de schatter s²(e). Voor de volledigheid vermelden we hier de definities van EVF en TVF: EVF(x) = # (ei ≤ x) /n; TVF(x) = P( X ≤ x) waarbij X ~ N(0, s²(e)) Om de toets uit te voeren bepalen we de verschillen tussen de theorie en de empirie en meer specifiek bepalen we het grootse verschil tussen de empirische en de theoretische verdeling. De toetsingsgrootheid die Kolmogorov en Smirnov hanteren is de volgende: KS = max ⏐EVF(x) - TVF(x)⏐ Wanneer KS “groot” is, dan hebben we onvoldoende reden om H0 te aanvaarden: de theorie en de practijk wijken te veel af van elkaar. Wannneer KS niet “te groot” is, hebben we onvoldoende reden om aan H0 te twijfelen. Wat is nu een “te grote” waarde voor KS? Voor kleine steekproeven zijn er tabellen van Kolmogorov en Smirnov beschikbaar met kritische grenzen. Wanneer de berekende KS-waarde groter is dan de kritische grens, dan wordt H0 verworpen. Stel bijvoorbeeld dat we een steekproef van omvang n = 25 gebruiken. Voor α = 5 % vinden we als kritische grens de waarde KS (n = 25, α = 5%) = 0.264. Wanneer wij na berekeningen een KS-waarde vinden die groter is dan 0.264, dan zijn wij genoodzaakt H0 te verwerpen.
82
Voor grote steekproeven worden de kritische grenzen bepaald via de volgende formule: KS(n, α) =
− ln(α / 2) 2n
Voor α = 5 % vinden we KS(n, 5%) = 1.358 n -1/2 Op basis van n en een vooraf gegeven betrouwbaarheid bepalen we de kritische grens en besluiten we.
2. De Chi-kwadraat-toets Net zoals bij Kolmogorov-Smirnov toetsen we of een empirische verdeling gelijk is aan een specifieke theoretische verdeling. Bij de chi-kwadraattoets moeten de data ingedeeld worden in m klassen en moeten we de geobserveerde frequenties vergelijken met de theoretische frequenties. De toetsingsgrootheid is hier gelijk aan m
CHI = ∑ i =1
(O(i ) − T (i )) 2 T (i )
waarbij - i = 1, . .., m de verschillende klassen; - O(i) = geobserveerd aantal waarnemingen in de i-de klasse; - T(i) = theoretisch verwacht aantal observaties in de i-de klasse T(i) vinden we via de formule T(i) = n P(X ∈ i-de klasse) waarbij X ~ N(0,s²(e)). Met CHI berekenen we een gewogen verschil tussen de theoretische en de empirische frequenties. Wanneer CHI “groot” is verwerpen we H0. Wanneer CHI niet “al te groot” is, dan verwerpen we H0 niet. Het beoordelen van de berekende CHI-waarde gebeurt door de overschrijdingskans ervan te bepalen. Daartoe gebruiken we de chi-kwadraatverdeling met parameter m – 2. In tegenstelling tot de toets van Kolmogorov en Smirnov moet hier wel voldaan zijn aan een aantal voorwaarden: - de steekproef moet voldoende groot zijn: n > 50; - de theoretische frequenties moeten voldoen aan T(i) ≥ 5. Indien aan deze voorwaarde niet voldaan is, dan kunnen we klassen samenvoegen. Naast deze testen zijn er in de literatuur nog tientallen normaliteitstesten bekend, maar dit valt buiten het bestek van deze cursus.
83
4.3.3.
Niet-normaal verdeelde fouten
1. Indien we tot de bevinding komen dat de fouten niet normaal verdeeld zijn, dan moeten we vertrekken van een of andere plausibele hypothese zoals ε ~ gamma, ε ~ log normaal of ε ~ Pareto, enzovoort. In deze gevallen gebruikt men meestal niet het KK-criterium, maar werkt men met de maximum-likelihood methode. Het is evenwel vanzelfsprekend dat de eigenschappen van schatters hier drastisch kunnen wijzigen (bij kleine steekproeven) en dat het exact afleiden van b.i. of het exact toetsen van hypothesen hier technisch moeilijk is. Zoals hierboven reeds aangehaald, kan men voor grote steekproeven de gewone theorie blijven toepassen. 2. Wanneer de storingstermen niet normaal verdeeld is de oorzaak ook soms te zoeken in de modelspecificatie: men gebruikt een lineair model terwijl men in feite een exponentiëel model of een logaritmisch of nog een ander model moest gebruiken. Soms kunnen problemen hier vermeden worden door het model anders te formuleren.
4.3.4.
Voorbeeld (vervolg)
Voor voorbeeld 4.2.4. tekenen we een histogram van de fouten en vergelijken we EVF met TVF. Voor de verdelingsfuncties vinden we EVF versus T VF 1 0,9
EVF, TVF
0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -90 -80 -70 -60 -50 -40 -30 -20 -10
0
10
20
30
40
50
60
70
80
90 100 110
fouten
De berekende KS-waarde is gelijk aan KS = 0.091 met als kritische waarde bij 5% het getal KS(5%, 49) = 0.17. We mogen er bijgevolg van uitgaan dat voldaan is aan B4.
84
Het histogram van de fouten is het volgende. histogram 0,3
relatieve frequenties
0,25 0,2 0,15 0,1 0,05 0 -76
-58,5
-41
-23,5
-6
11,5
29
46,5
64
81,5
foutenklassen
Met een beetje fantasie zien we hier een symmetrische, klokvormige curve.
4.4.
VARIABELE PARAMETERS
Tot hier toe hebben we steeds verondersteld dat de parameters constant zijn en niet variëren met de index i. Bij cross-secties is het echter perfect mogelijk dat de parameters verschillen voor verschillende cross-sectie-eenheden. We behandelen hier een eenvoudige situatie waarbij enkel de parameter b afhangt van de index i. In dit geval werken we met het model Yi = a + bi X i + ε i In het algemeen kunnen we de parameters niet schatten tenzij we bijkomende veronderstellingen maken. Bij tijdreeksanalyses kunnen we bijvoorbeeld veronderstellen dat de parameter verschilt in de verschillende seizoenen. Wanneer er 3 seizoenen zijn, dan gebruiken we 2 dummies: D1 = 1 in het eerste seizoen en D1 = 0 anders; D2 = 1 in het tweede seizoen en D2 = 0 anders. Nu vervangen we bi door bi = u + vD1 + wD2. Het oorspronkelijke model wordt nu vervangen door het volgend nieuw model: Y = a + uX + vXD1 + wXD2 + ε In dit model kunnen we de parameters schatten en beoordelen zoals vroeger. In andere analyses vinden we soms een variabele Zi die de variabiliteit in bi verklaart en kunnen we bijvoorbeeld stellen dat bi = u + vZi. Het aangepast model is nu:
Y = a + uX + vXZ + ε
85
De veronderstelling “bi = constant” correspondeert nu met het geval waarbij v = 0. De parameters a, u en v kunnen we schatten en evalueren zoals vroeger. Het spreekt vanzelf dat voor deze storingsterm alle moeilijkheden waarvan sprake is in de vorige paragrafen kunnen optreden!
4.5.
MULTICOLLINEARITEIT
Een van de basishypothesen van de KK-methode was dat het stelsel van de normaalvergelijkingen oplosbaar moet zijn. Stricte multicollineariteit treedt op wanneer er exacte lineaire afhankelijkheid bestaat tussen de verklarende variabelen onderling. De KK-schatters blijven dan onbepaald en de variabelen die de collineairiteit veroorzaken, moeten weggelaten worden. Meestal heeft men in de econometrie te maken met quasi-multicollineariteit: het lineaire verband tussen bepaalde verklarende variabelen is dan niet perfect, maar bijna perfect. Anders uitgedrukt, de correlatiecoëfficiënt tussen verklarende variabelen is niet gelijk aan + 1, maar ligt dicht bij + 1.
4.5.1.
Gevolgen van QMC
De gevolgen van QMC kunnen we samenvatten als volgt. a. De schattingen boeten in aan precisie. Specifieke schattingen gaan grote fouten vertonen en de variantie van de schattingen kan heel groot zijn. De t-waarden zijn m.a.w. onbetrouwbaar. b. De schattingen kunnen drastisch veranderen wanneer de data-set vergroot of verkleind wordt. De schattingen zijn m.a.w. niet stabiel.
4.5.2.
Opsporen van QMC
Voor het opsporen van QMC kan men gebruik maken van: a) Correlatiecoëfficiënten: hoge correlaties tussen de verklarende variabelen onderling wijzen op QMC. Lage correlaties sluiten het optreden van QMC echter niet uit. b) Partiële correlatiecoëfficiënten kunnen een indicatie geven omtrent het gebruik van een of meer overbodige variabelen. Wij gaan hier niet dieper op in. c) Het klassieke symptoom van QMC is een model met een hoge R²-waarde maar met t-waarden die niet betekenisvol zijn. d) Daar QMC te maken heeft met lineaire afhankelijkheid tussen de verklarende variabelen onderling kunnen we voor elke verklarende variabele een regressie uitvoeren ten opzichte van alle andere verklarende variabelen. De modellen met een hoge R²-waarde (hoge F-waarde) wijzen erop dat de onderzochte variabele wellicht overbodig is. Bij de selectie van VV hebben we dit reeds aangehaald. e) Andere werkwijzen zijn gebaseerd op de eigenwaarden van de correlatiematrix.
86
4.5.3.
Oplossen
Het oplossen van QMC is niet eenvoudig en er bestaat er geen kookboek-oplossing. Heel dikwijls zal men variabelen weglaten, variabelen combineren of samennemen (de methode van “principal components”). Soms zal men variabelen transformeren (bijv. men vervangt de VV X door de VV X² of ln(X)) en/of zal men het model transformeren. Een typisch voorbeeld hiervan is het nemen van differenties. Bij deze werkwijze vervangt men alle variabelen (TVV en VV) door hun eerste (of tweede of…) differentie. Zo vervangt men het model Yi = a + bX i + ε i door
Yi +1 − Yi = a * +b( X i +1 − X i ) + ε i *
Tenslotte volstaat het ook soms om gewoon meer data te verzamelen.
4.6.
HETEROSCEDASTICITEIT
Bij het gewone lineaire model veronderstelden we dat Var (Yi ) = Var (ε i ) = σ 2 niet afhing van de index i, noch van de X- en/of Y-waarden. Wanneer aan de voorwaarde voldaan is spreken we over homoscedasticiteit (HO). Wanneer aan deze voorwaarde niet voldaan is, hebben we te maken met het probleem van de heteroscedasticiteit (HE)
4.6.1.
Gevolgen
De gevolgen van HE hebben te maken met de precisie van de schattingen die we maken. Bij HE blijven de KK-schatters zuiver, maar zijn de vroeger bekomen variantie-formules niet meer correct. Dit impliceert dat onze berekende t-waarden niet correct zijn en dat onze statistische analyse mankementen vertoont.
4.6.2.
Opsporen
Het opsporen van HE kan gebeuren via een of meer van de volgende werkwijzen. a) Grafisch. We maken grafieken van het kwadraat van de berekende fouten ei2 t.o.v. de index i, t.o.v. Y en t.o.v. elk van de verklarende variabelen. De ideale grafieken zijn horizontale banden. b) Technisch In de plaats van grafieken te gebruiken kan men ook de correlatiecoëfficiënten r (ei2 , i ), r (ei2 , Yi ), r (ei2 , X i ),... berekenen. De ideale correlatiecoëfficiënten liggen dicht bij 0.
87
c) Park-test en Gleiser-test Volgens deze werkwijze voeren we regressie-analyses uit van de vorm ln(ei2 ) = a + b ln( X i ) + ε i
of
ei = a + bg ( X i ) + ε i
waarbij we als testfunctie de functies g(x) = x² of g(x) = x1/2 of een andere testfunctie nemen. Indien de parameter b betekenisvol verschilt van 0, dan suggereert dit heteroscedasticiteit en is het aangewezen de VV te transformeren. d) Toets van Bartlett Bartlett stelde voor om de dataset in 2 (of meer) gelijke groepen van grootte m te delen. De dataset wordt geordend volgens Y of volgens één van de VV en vervolgens in twee gesplitst. Voor elk van de groepen wordt de volledige regressieanalyse opnieuw gemaakt en via deze analyses wordt telkens σ² geschat. Wanneer we met twee groepen werken vinden we: - voor groep I: s²(e, I) = SSE(I)/(m − k) - voor groep II: s²(e, II) = SSE(II)/(m − k) waarbij k het aantal geschatte parameters is. Bij HO zijn s²(e, I) en s²(e, II) allebei goede schatters voor de variantie σ² en verwachten we dat het quotiënt q = s²(e, I)/ s²(e, II) niet veel zal afwijken van de ideale waarde 1. Wij spreken af om bij de berekening van q de grootste berekende waarde in de teller te plaatsen. In dit geval geldt steeds dat q ≥ 1. Bij HO verwachten we q in de buurt van 1. Bij HE zal q “veel” groter zijn dan 1. Men kan aantonen dat we q moeten beoordelen via de F-verdeling F(m − k, m − k). We bepalen de overschrijdingskans van q. Een te kleine overschrijdingskans wijst in de richting van HE. Indien de twee groepen een verschillend aantal waarnemingen bevatten, werken we met de parameters m(1) – k en m(2) – k resp.
4.6.3.
Oorzaken van HE
Aan de oorsprong van HE ligt meestal een verkeerde modelspecificatie of het te veel willen modelleren in één en hetzelfde model. Voorbeeld 1 Bij het onderzoek van de vooropzeg van hogere bedienden stelt men dat deze vooropzeg afhangt van de ancienniteit, de leeftijd, het salaris en de functieklasse. Men kan dan een model hanteren van de vorm VO = a + bANC + cLE + dSA + eFU + ε
88
Het is mogelijk dit model toe te passen op gans België in één keer, of men kan van de fundamentele veronderstelling uitgaan dat de situatie in Vlaanderen verschilt van deze in Wallonië. Dit verschil komt dan tot uiting niet alleen in de verschillende parameters, maar ook in de storingsterm. Voorbeeld 2 Bij ratio-analyse onderzoekt men ratio's van de vorm Y/X per bedrijf, bedrijfstak, regio enz. en men wil deze ratio “schatten” of modelleren. In het model Yˆ = aX kunnen we op meerdere manieren een storingsterm invoegen. mogelijkheid 1:
Y / X = a +ε
mogelijkheid 2:
Y = aX + ε
mogelijkheid 3:
Y / X 1 / 2 = aX 1 / 2 + ε
Wanneer we de storingsterm weglaten vinden we telkens Yˆ = aX . In de drie gevallen vinden we echter drie keer een andere schatting voor de parameter a. De 3 modellen zijn echter verschillend voor wat betreft de stroingsterm! Wanneer we nu, in een concrete situatie, werken met het verkeerde model, dan hebben we automatisch HE.
4.6.4.
Oplossen
Het oplossen van HE is net zoals QMC geen sinecure. In het algemeen is er geen oplossing mogelijk. Wanneer we meer informatie hebben kan soms wel een oplossing gevonden worden en kunnen we soms gebruik maken van de veralgemeende KK-methode. Heel dikwijls neemt men zijn toevlucht tot het transformeren van de variabelen (kwadrateren, logaritme nemen,…).
4.6.5.
Voorbeeld (vervolg)
Bij het voorbeeld gebruiken we verschillende technieken. - Correlatiecoëfficiënten: we berekenen r(e², Y) en r(e², X(1), r(e², X(2)). We vinden r(e², Y) = 0.38, r(e², X(1)) = 0.15 en r(e², X(2)) = 0.27 Het getal 0.38 kunnen we moeilijk klasseren als “dicht bij 0”.
89
- Grafisch: we maken grafieken met op de verticale as de fouten in het kwadraat en op de horizontale as de TVV en de verschillende VV. Ter illustratie volgt de grafiek (Y, e²(i))
B2 10000 9000 8000 7000 e²(i)
6000 5000 4000 3000 2000 1000 0 200
250
300
350
400
Y
We zien dat de outliers die we vroeger reeds opmerkten hier nog krachtiger tot uiting komen. Op de outliers na ziet de tekening er bevredigend uit. Omwille van de outliers vermoeden we wel heteroscedasticiteit. - Bij de methode van Bartlett splitsen we de data in twee groepen nadat we gesorteerd hebben t.o.v. de TVV of t.o.v. een van de VV. We sorteren hier t.o.v. Y en vinden de volgende twee groepen:
90
groep 1
Y
X1
X2
groep 2
Y
X1
X2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
208 212 214 215 216 221 221 230 231 231 232 233 234 235 243 244 245 246 250 261 261 264 268 268 269
584 588 390 445 523 753 500 446 564 701 572 576 680 508 805 661 450 443 603 846 631 649 615 541 797
372,4 394,6 382,8 344,8 396,7 501,2 368 429,6 457,8 467,2 486,9 381,7 418,9 394,4 464,7 382,5 412 478,2 424,3 523,3 741,5 490,8 482,7 432,3 433,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
269 270 285 291 300 300 304 308 311 312 315 316 317 317 323 330 332 332 337 342 344 378 379 387
534 322 889 809 871 715 785 830 831 726 804 671 774 698 605 766 796 909 661 659 722 664 738 856
441,8 401,1 575,9 556 478 489,4 504,6 575,3 530,9 498,9 400,5 469,7 588,9 376,4 482 533,1 450,4 543,8 505,7 463,4 554 492,1 543,9 566,3
Daar we 49 waarnemingen hebben splitsen we in resp. 25 en 24 waarnemingen. Voor de twee groepen werken we het model Y = a + bX(1) + cX(2) uit. Van de output onthouden we enkel het eerste gedeelte. SUMMARY OUTPUT groep 1 Regression Statistics Multiple R 0,564 R Square 0,319 Adj. R Square 0,257 Standard Error 16,513 Observations 25 SUMMARY OUTPUT groep 2 Regression Statistics Multiple R 0,290 R Square 0,084 Adjusted R Square -0,003 Standard Error 30,719 Observations 24
91
We vinden de grootste fout bij de tweede groep. We berekenen nu q = (30.719/16.513)² = 3.46 Om deze q-waarde te beoordelen gebruiken we de F(24 – 3, 25 – 3)-verdeling en vinden FDIST(3.46; 21; 22) = 0.0027. Bij deze kleine overschrijdingskans besluiten we dat q té veel afwijkt van het ideaal cijfer 1. We besluiten dat er in het model heteroscedasticiteit is.
4.7.
AUTOCORRELATIE
Het volgend probleem waar we bij stilstaan is het probleem van de autocorrelatie (AC). We veronderstelden bij de basishypothesen van het lineaire model dat de storingstermen ongecorreleerd zijn. Autocorrelatie betekent dat de storingstermen wèl afhankelijke, gecorreleerde variabelen zijn. Autocorrelatie komt vaak voor bij tijdreeksen en bij modellen waarbij variabelen “vertraagd” worden (zie verder).
4.7.1.
Gevolgen
Bij AC zijn de vroeger berekende varianties niet meer correct en dit heeft vanzelfsprekend gevolgen op onze statistische analyse en onze conclusies. Bij cross-secties is het onderzoek aangaande AC niet nodig.
4.7.2.
Ontdekken
a) Grafisch Autocorrelatie kunnen we soms visueel vaststellen wanneer we grafieken maken met op de ene as de tijd en op de andere as de gemaakte fouten ei. Dergelijke grafieken mogen geen voorspelbare vorm vertonen. b) Autocorrelatiecoëfficiënten Daarnaast berekenen we een aantal autocorrelatiecoëfficiënten AC(k) van orde k = 1, 2, 3, .... De autocorrelatiecoëfficiënt AC(k) van orde k bekomen we door de correlatiecoëfficiënt te berekenen tussen de fouten reeks (e1, e2, e3, …) en (ek+1, ek+2, ek+3, …). Wanneer AC(k) groot is, dan betekent dit dat ei en ei+k sterk gecorreleerd zijn. Dit wijst erop dat er niet voldaan is aan de basisveronderstelling. Wanneer er wel voldaan is aan de basisveronderstelling, dan verwachten we dat alle berekende AC(k) klein zijn. c) DW: de coëfficiënt van Durbin en Watson De autocorrelatiecoëfficiënten AC(k) kunnen we in het algemeen niet statistisch beoordelen. We moeten ons “gevoel” gebruiken om te oordelen of ze klein zijn of groot. We kunnen AC(1) wel statistisch beoordelen via de toets van Durbin en Watson. De coëfficiënt van Durbin en Watson is gedefinieerd als volgt:
∑ (e − e ) DW = ∑e i +1
2
i
2 i
92
Men kan aantonen dat DW bij benadering gelijk is aan DW = 2(1 – AC(1)) en dus ook dat AC(1) = (1 – DW/2). Bij de toets van Durbin en Watson maken we de keuze tussen H0: ρ(1) = 0
Ha: ρ(1) ≠ 0
Hier is ρ(1) de echte autocorrelatiecoëfficiënt van orde 1. Wanneer H0 correct is verwachten we een DW-waarde in de buurt van 2. Wanneer DW teveel afwijkt van het ideale cijfer 2, dan besluiten we dat er een probleem is met autocorrelatie van de eerste orde. Durbin en Watson hebben tabellen opgesteld met daarin kritische grenzen dU en dL. Wanneer wij een berekende DW-waarde vinden die groter is dan 2 gebruiken we deze tabel als volgt: als DW > du als DW < dL als dL ≤ DW ≤ dU
we verwerpen H0; we verwerpen H0 niet; we kunnen geen besluit nemen.
Wanneer DW < 2 nemen we een analoge beslissing op basis van het getal 4 − DW.
4.7.3.
Autocorrelatie van eerste orde
Het oplossen van problemen met deze basisveronderstelling is niet eenvoudig. We bespreken hier het geval van problemen i.v.m. autocorrelatie van de eerste orde. We veronderstellen hier dat de opeenvolgende storingstermen in het model (1)
Yi = a + bX i + ε i
gecorreleerd zijn en dat (2)
ε i = ρε i −1 + θ i
waarbij θ i wèl voldoet aan de voorwaarden van het vroeger besproken basismodel. Model (2) noemt men een autoregressief patroon van de eerste orde en meestal noteert men dit model als AR(1). Hoe schatten we nu de parameters in het model (1) wanneer (2) optreedt? In eerste instantie schatten we via de KK-methode de parameters a en b in model (1) en gaan we na of er autocorrelatie aanwezig is. Dit doen we via AC(1) en de toets van Durbin-Watson zoals in de vorige paragraaf.
93
Indien we H0 niet verwerpen stelt er zich geen probleem. Indien H0 wél verworpen wordt is er AC is van eerste orde. Dit betekent dat de gebruikte KKschatters niet betrouwbaar zijn. We moeten de parameterschattingen aanpassen door gebruik te maken van (2). In principe vertrekken we opnieuw van (1) en herschrijven (1) waarbij we de index i vervangen door i – 1: (3) (4)
Yi = a + bX i + ε i Yi −1 = a + bX i −1 + ε i −1
We berekenen nu (3) – ρx(4) en we vinden: (5)
Yi − ρYi −1 = a (1 − ρ ) + b( X i − ρX i −1 ) + θ i
In het aangepaste model (5) voldoet de nieuwe storingsterm wèl aan alle voorwaarden. Het probleem in formule (5) is dat we de parameter ρ niet kennen. Er zijn enkele methoden beschikbaar om toch verder te kunnen.
1. Schatten via AC(1) In deze procedure gaan we als volgt te werk: (a)
Schat de parameters a en b in (1);
(b)
bereken de fouten ei en bereken DW;
(c)
AC(1) = 1 – DW/2 is een schatter voor ρ in (2);
(d)
Vervang in (5) ρ door AC(1): we schatten de parameters A en b in het model Yi * = A + bX i * waarbij A = a(1 – AC(1), Yi * = Yi − AC (1)Yi −1 en X i * = X i − AC (1) X i −1 Dit geeft schattingen Aˆ , bˆ
De parameterschattingen die we vonden in stap (a) vervangen we nu door aˆ = Aˆ /(1 − AC (1)) en de nieuwe waarde bˆ . Het herschatte model gebruiken we nu in de verdere analyse.
94
2. De procedure van Cochrane en Orcutt Een nadeel van het vorige procédé bestaat erin dat tengevolge de autocorrelatie de schatter AC(1) niet steeds een goede schatter is voor ρ. Cochrane en Orcutt stelden voor om ρ als volgt te schatten. (a)
Schat de parameters a en b in (1);
(b)
bereken de fouten ei en bereken DW;
(c)
AC(1) = 1 – DW/2 is een schatter voor ρ in (2);
(d)
Vervang in (5) ρ door AC(1): we schatten de parameters A en b in het model Yi * = A + bX i * waarbij A = a(1 – AC(1), Yi * = Yi − AC (1)Yi −1 en X i * = X i − AC (1) X i −1 Dit geeft schattingen Aˆ , bˆ
(e)
De parameterschattingen uit stap (a) vervangen we door aˆ = Aˆ /(1 − AC (1)) en de nieuwe waarde bˆ . We herberekenen de fouten ei
(f)
Ga nu terug naar stap (c)
In deze procedure herhalen we het vorige proces desnoods verschillende keren. Na stap (f) gaan we terug naar stap (c). Meestal stoppen we deze procedure wanneer het verschil tussen twee opeenvolgende schattingen van ρ kleiner is dan bijvoorbeeld 0.01 of 0.001. In de praktijk zullen 2 of 3 iteraties voldoende zijn.
3. De procedure van Durbin We hernemen formule (5): (5)
Yi − ρYi −1 = a (1 − ρ ) + b( X i − ρX i −1 ) + θ i
Bij nader toezien is dit model een model van de volgende vorm: (6)
Yi = A + BYi −1 + CX i + DX i −1 + θ i
Via de KK-methode kunnen we de parameters A, B, C en D schatten. De schatting Bˆ is een schatting voor ρ. We gebruiken nu deze waarde in de plaats van AC(1) om stap (d) van de vorige procedure uit te voeren.
95
4.7.4.
Voorbeeld
We bestuderen de volgende (fictieve) tijdreeks die een tijdsperiode van 25 jaar omhelst. tijd
Y
X(1)
X(2)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
25,65 29,12 29,82 30,96 32,23 31,89 33,55 34,39 35,62 38,22 38,78 36,67 36,99 36,84 39,16 40,94 41,17 41,27 43,47 44,27 46,18 46,05 47,14 45,57 46,92
242602 277367 305643 345317 378241 384666 474435 505991 541173 588397 619340 579482 574522 586337 631308 657443 668958 674321 687413 706832 734328 725448 746776 787963 813330
9,1 13,2 17,4 20,3 23 26,7 30,6 34,9 40,3 47,3 60 72,8 82 89,1 93,6 98,1 104,8 112,4 121,1 128,8 135,1 140 141,3 142,9 144,1
Voor het model Yˆ = a + bX (1) + bX ( 2) vinden we de volgende output:
96
Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations
0,98 0,97 0,97 1,121 25
ANOVA df Regression Residual Total
Intercept X(1) X(2)
SS 2 22 24
MS 885,9 442,9 27,6 1,26 913,5
F 352
Coeff. Stand. Error t Stat P-value .21,33 1,38 15,45 0,0000 2,27E-05 4,10E-06 5,52 0,0000 0,0505 0,014 3,58 0,0017
Het geschatte model is dus Y = 21.33 + 2.27 E-05X(1) + 0.0505X(2) De fouten of de residuals zijn de volgende: RESIDUAL OUTPUT Observation Predicted Y Residuals 1 27,27 -1,62 2 28,27 0,84 3 29,12 0,69 … … 23 45,36 1,77 24 46,37 -0,81 25 47,01 -0,09
De grafiek van het tijdsverloop van de fouten is de volgende:
97
Sign. F 0,0000
autocorrelatie? 2 1,5 1
25
23
21
19
17
15
13
11
-0,5
9
7
5
3
0 1
e(i)
0,5
-1 -1,5 -2 -2,5 tijd
Grafisch is het moeilijk om te zien of er al dan niet problemen zijn met autocorrelatie. We berekenen enkele autocorrelatiecoëfficiënten en vinden: AC(1) = AC(2) = AC(3) = AC(4) = AC(5) =
0.505 0.248 -0.003 -0.133 -0.163
Het aantal te berekenen AC-waarden neemt men gewoonlijk gelijk aan √n. In ons voorbeeld vinden we een redelijk hoge AC(1) en AC(2). Om de berekende waarden te beoordelen beschikken we enkel over een scheidsrechter voor AC(1). We berekenen DW = 2(1 – AC(1)) = 0.99. Uit de tabellen van Durbin en Watson vinden we (n = 25 waarnemingen; k = 2 verklarende variabelen; α = 1%) de ondergrens dL = 0.98 en bovengrens dU = 1.30 Op basis van de DW-toets bevinden we ons met de berekende waarde DW = 0.99 in de onbesliste zone. Ter illustratie voeren we toch nog een van de hierboven beschreven procedures uit. Bij autocorrelatie moeten we volgens de procedure van Durbin werken met het volgend model: Yi = a (1 − ρ ) + ρYi −1 + bX (1) i − bρX (1) i −1 + cX (2) i − cρX (2) i −1 + ε i * We herschrijven het model als volgt: Yi = A + BYi −1 + CX (1) i + DX (1) i −1 + EX (2) i + FX (2) i −1 + ε i *
98
Voor ons cijfermateriaal vinden we het volgend resultaat:
SUMMARY
OUTPUT
Regression Statistics Multiple R 0,989 R Square 0,979 Adj. R Square 0,974 Standard Error 0,920 Observations 24
Intercept Y(i-1) X(1)(i) X(1)(i-1) X(2)(i) X(2)(i-1)
Coeff.
Stand. Error
t Stat
P-value
12,738 0,4718 2,98E-05 -2,24E-05 0,038 0,002
3,98 0,18 9,7E-06 1,2E-05 0,093 0,0865
3,20 2,64 3,05 -1,80 0,41 0,02
0,0049 0,0166 0,0069 0,0880 0,6874 0,9808
Volgens Durbin is de geschatte coëfficiënt van Yi-1 een goede schatting voor de autocorrelatiecoëfficiënt van eerste orde. We vinden hier de schatting 0.4718. We vervolgen nu met stap (d) van de procedure van Cochrane en Orcutt. Daartoe moeten we de TVV en de VV trannsformeren als volgt: Z i * = Z i − 0.4718Z i −1 We vinden de volgende data
Y*
X(1)*
X(2)*
2 3 4
17,02 16,08 16,89
162907,38 174781,25 201114,63
8,91 11,17 12,09
23 24 25
25,41 23,33 25,42
404509,63 435634,08 441569,06
75,25 76,23 76,68
99
Uitwerken van het model Y* = A + bX(1)* + cX(2)* geeft het volgend resultaat:
Intercept X(1)* X(2)*
Coeff.
Stand. Error
t Stat
P-value
11,77 2,15E-05 0,049
1,20 6,06E-06 0,019
9,79 3,54 2,52
0,0000 0,0019 0,0199
Het oorspronkelijke model was Y = 21.33 + 2.24 E-05X(1) + 0.0505X(2) Volgens de procedure zijn de aangepaste coëfficiënten nu gelijk aan intercept: X(1): X(2):
11.77/( 1 − 0.4718) = 22.282 2.147 E-05 0.049
Het aangepaste model is dus Y = 22.282 + 2.147 E-05 + 0.049X(2) De coëfficiënten zijn lichtjes gewijzigd in vergelijking met het ‘oude’ model. Dit aangepaste model kan nu gebruikt worden om opnieuw de fouten te berekenen en na te gaan hoe het zit met autocorrelatie. Opmerking. Deze arbeids- en tijdsintensieve procedure is ingebouwd in een aantal statistische paketten.
4.8.
DYNAMISCHE MODELLEN
4.8.1.
Inleiding
Relaties waarin alle variabelen betrekking hebben op dezelfde periode, noemt men statische relaties. In de realiteit verloopt er echter meestal een zekere tijd tussen een impuls en haar uitwerking. Econometrische specificaties kunnen dergelijke fenomenen opvangen door de variabelen te voorzien van ongelijke tijdindices. Variabelen kunnen m.a.w. vertraagd voorkomen in een specificatie. Specificaties waarin vertraagde variabelen voorkomen noemt men dynamische relaties. Voorbeelden van dergelijke modellen vinden we terug in bijvoorbeeld macro-economie (acceleratieprincipe) of in micro-economie (aanbod in periode t = functie van de prijs in de vorige periode t – 1)), marketing (effect van een advertentiecampagne verloopt met een vertraagd effect), enzovoort.
100
4.8.2.
Eindig gespreide vertragingsmodellen
In dergelijke modellen stellen we dat Yt verklaard kan worden door een beperkt aantal Xwaarden X t , X t −1 ,... X t − k Het te schatten model is dan k
Yt = a + ∑ bi X t −i + ε i i =0
In principe levert de KK-methode geen problemen en kunnen we alle parameters schatten. We kunnen echter wel geconfronteerd worden met de volgende moeilijkheden: - k is doorgaans onbekend. - We verliezen k vrijheidsgraden omdat we de X-variabele k keer moeten vertragen. Als k groot is dan is er een ernstige daling in het effectief aantal bruikbare observaties. - Er is dikwijls een hoge graad van multicollineariteit tussen de opeenvolgende X-waarden en dit resulteert in schattingen die onvoldoende precisie hebben. Om deze moeilijkheden op te vangen, maakt men dikwijls bijkomende veronderstellingen met betrekking tot de parameters bi. In de literatuur zijn er hieromtrent vele suggesties: a) Lineair afnemende vertraging Fisher veronderstelt dat bi lineair daalt in functie van i: bi = (k + 1 – i)b In de plaats van k te schatten b-waarden moeten we nu slechts één parameter b schatten! De basisveronderstelling bij Fisher is, dat het belang van Xt-i lineair afneemt naarmate i toeneemt, dit is, naarmate we verder teruggaan in het verleden. b) triangulairvormige vertraging De Leeuw veronderstelt dat bij het verklaren van Yt d.m.v. Xt, Xt - 1, ... , Xt - k het meest effect moet toegewezen worden aan de middelste X-waarde (Xt - k/2 ) en een lineair afnemend effect naar de uiteinden Xt en Xt - k toe. Wanneer k een even getal is, betekent dit dat bi = ib bi = (k – i)b
als 0 ≤ i ≤ k/2 als k/2 < i ≤ k
c) Polynomiale vertraging Almon veralgemeende Fisher's aanpak en suggereerde bi = f(i) waarbij f een veelterm is in i. Naargelang de graad van deze veelterm moeten we al dan niet veel parameters schatten.
101
4.8.3.
Oneindig gespreide vertragingsmodellen
In een oneindig gespreid vertragingsmodel beschouwt men de volgende specificatie: ∞
(1)
Yt = ∑ bi X t −i + ε t i =0
Vanzelfsprekend hebben we voor het bestuderen van dergelijke modellen steeds onvoldoende observaties voorhanden, tenzij we bijkomende veronderstellingen maken aangaande de parameters bi. De meest gebruikelijke veronderstelling is bi gelijk te nemen aan bi = bp(i) waarbij b een parameter is, en (p(i)) een discrete kansverdeling die bekend is op één of meer parameters na. Daar de som van de p(i)-waarden gelijk is aan 1, noemt men b soms het langetermijn-effect van X op Y. In de literatuur werden enkele veelgebruikte kansverdelingen bestudeerd. We beperken ons tot het model van Koyck. Koyck stelde een geometrische kansverdeling voor. Dit wil zeggen dat p(i) = (1 - p)pi
(0 < p < 1)
Dit heeft als gevolg dat de parameters bi dalen volgens een meetkundige reeks. De meest recente waarneming betreffende X wordt geacht een grotere weerslag te hebben op Yt. De invloed neemt af naarmate Xt – i verder teruggaat in het verleden. De gemiddelde vertraging is gelijk aan p/(1-p): hoe dichter p bij 1 ligt, hoe groter de gemiddelde vertraging is. Om de parameters b en p te schatten, substitueren we het voorstel van Koyck in (1). We vinden ∞
(2)
Yt = b(1 − p )∑ p i X t −i +ε t i =0
Uit (2) volgt dat (3)
Yt = pYt −1 + b(1 − p ) X t + θ t
waarbij θ t = ε t − pε t −1 . In principe kunnen de parameters in relatie (3) zonder problemen geschat worden. Hierbij moet wel de nodige voorzichtigheid aan de dag gelegd worden inzake de veronderstellingen i.v.m. de storingstermen.
102
4.9.
VERKLARENDE VARIABELE IS EEN DUMMY
In de vorige hoofdstukken voerden we tal van analyses uit waarbij de verklarende variabelen kwantitatieve variabelen waren of kwalitatieve variabelen die we codeerden via dummy variabelen. Het is vanzelfsprekend ook mogelijk om modellen te betuderen waarbij de te verklaren variabele Y een dummy-variabele is. In banken bijvoorbeeld is men geïnteresseerd in de kredietwaardigheid van klanten. Op basis van een aantal gegevens (inkomen, beroep, leeftijd,...) beslist men een lening toe te kennen (Y = 1) of niet toe te kennen (Y = 0). In andere studies onderzoekt men de factoren die verklaren waarom gezinnen al dan niet over een huis beschikken. Nemen we bijvoorbeeld het volgende eenvoudige model: Yi = a + bX i + ε i waarbij en
Xi = gezinsinkomen Yi = 1 als het gezin een huis bezit en Yi = 0 anders
Voor dit model kunnen de parameters geschat worden met de KK-methode en dan kan dit model gebruikt worden om “voorspellingen” te maken. Er kunnen echter tal van problemen optreden! 1) We bekijken bijvoorbeeld de storingsterm: indien Y = 0 vinden we ε = −a − bX ; indien Y = 1 vinden we ε = 1 − a − bX Uit deze twee vergelijkingen volgt onmiddellijk dat de storingsterm onmogelijk normaal verdeeld kan zijn! 2) Een tweede probleem dat voorkomt is het volgende. Stel dat p(i) = P(Yi = 1) de kans is dat het i-de gezin over een huis beschikt of niet. Hieruit volgt dat P(Yi = 0) = 1 – p(i), E(Yi ) = p(i) en Var(Yi ) = p(i)(1 – p(i). Wanneer we veronderstellen dat de storingsterm voldoet aan basisveronderstelling (B1), dan vinden we anderzijds via (1) dat E(Yi) = a + bXi Wanneer we beide aanpakken met elkaar vergelijken, dan besluiten we dat p(i) = a + bXi Wanneer we ons wagen aan voorspellingen, dan voorspellen we dus eigenlijk de kans dat een gezin over een huis beschikt. Niets garandeert ons echter dat de gevonden voorspelde waarden zoals kansen - tussen 0 en 1 liggen! 3) Een derde probleem is dat het vorige model heteroscedasticiteit impliceert. We vonden reeds dat Var(Yi ) = p(i)(1 – p(i)). Hieruit volgt dat de variantie afhangt van de index i en dus heteroscedasticiteit impliceert.
103
Ondanks de vele problemen worden modellen van deze soort dikwijls gebruikt. Soms echter past men het model aan en werkt men met zgn. LOGIT-modellen. Herinner dat we stelden dat P(Yi = 1) = E(Yi ) = p(i) = a + bXi en dat dit voor problemen kon zorgen. Bij het eenvoudige logit-model stelt men p (i ) = f (a + bX i ) 1 waarbij f ( x) = . De functie f(x) noemt men de logistieke verdelingsfunctie. Om de 1 + e−x parameters in (1) te schatten, kunnen we de KK-methode echter niet rechtstreeks toepassen omdat (1) niet lineair is in de parameters. We kunnen wel lineariseren! Uit (1) volgt immers dat (1)
(2)
p (i ) ln( ) = a + bX i 1 − p (i )
Het getal p(i)/(1 – p(i)) is de ratio van de kans op het bezitten van een huis t.o.v. het niet bezitten van een huis. Het getal L(i) = ln(p(i) /(1 – p(i))) noemt men de “logit”. Modellen van de vorm (1) noemt men logit-modellen. Bemerk dat de relatie (2) wèl lineair is in de parameters en dat de gewone KK-methode kan gebruikt worden om de parameters te schatten. Eens we de parameters geschat hebben, kunnen we voor nieuwe gezinnen voorspellen wat de kans is dat zij een huis bezitten.
104
HOOFDSTUK 5 TIJDREEKSANALYSE 5.1.
INLEIDING
Cijfers en daarop gebaseerde redeneringen vormen een niet weg te denken onderdeel van het dagelijkse leven. Adverteerders, politici, ondernemers en vele anderen maken er voortdurend gebruik van. Zo worden cijfers gebruikt om verkiezingsuitslagen te voorspellen, om verkoopsprognoses te maken, om prijsevoluties weer te geven, enzovoort. Het beleid van een onderneming vereist voortdurend beslissingen op grond van onzekerheid en dikwijls op grond van gegevens die enkel in de toekomst gekend zullen zijn. Bij vele bedrijfsleiders is het analyseren van tijdreeksen bijgevolg een tweede natuur geworden. Een tijdreeks is eigenlijk een reeks van cijfers die veranderen in de tijd. Men bestudeert een variabele Y gedurende een zekere tijdsperiode en men wil het gedrag van Y zo nauwkeurig mogelijk beschrijven en/of verklaren. De uiteindelijke bedoeling bestaat erin toekomstige waarden van Y te voorspellen.
5.2.
DE COMPONENTEN VAN EEN TIJDREEKS
5.2.1.
Voorbeelden
In de onderstaande figuren geven we een aantal tijdreeksen weer. Deze zullen toelaten enkele belangrijke componenten van tijdreeksen te onderkennen. Voorbeeld 1 Het volgende voorbeeld zal doorheen de tekst gebruikt worden. Een bedrijf wil een voorspelling maken voor de inkomsten (in €) van 2004. Het beschikt hiertoe over de volgende kwartaalcijfers. Tabel 1 jaar I II III IV Totaal
1999 2000 2001 2002 2003 Totaal 65 61 59 54 54 293 54 51 48 46 44 243 46 43 39 39 38 205 60 56 53 51 49 269 225 211 199 190 185
In de volgende figuur geven we dit cijfermateriaal grafisch weer. Voor de duidelijkheid werden de opeenvolgende punten met een rechte lijn verbonden.
105
figuur 1 70 60
inkomsten
50 40 30 20 10 0 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 kwartalen
In de grafiek kunnen we zien dat er een licht dalende trend aanwezig is. Meer opvallend zijn echter de opeenvolgende systematische schommelingen. Blijkbaar zijn de inkomsten van het bedrijf seizoensgebonden. In het eerste kwartaal van elk jaar zijn de inkomsten systematisch hoger dan in de andere kwartalen; het derde kwartaal geeft telkens een lager resultaat. Voorbeeld 2 De evolutie van de bevolking voor België (1841 – 1994) ziet er uit zoals in figuur 2. figuur 2 10000 9000
bevolking
8000 7000 6000 5000 4000 3000 tijd
We zien een voortdurende toename van de bevolking. Enkel in de buurt van de werelfdoorlogen is er een neerwaartse beweging te zien. In de tekening zien we geen seizoensschommelingen.
106
Voorbeeld 3 Het aantal toeristen naar Australië in de periode 1970 – 2000 heeft het volgend verloop: figuur 3 120000
toeristen Australië
100000 80000 60000 40000 20000 0 tijd
We merken een grillig maar globaal stijgend verloop. De op en neergaande schommelingen hebben te maken met de seizoensschommelingen van het reizigersverloop. Voorbeeld 4 We noteerde de gemiddelde maandtemperatuur in Ukkel gedurende de periode 1990-2000. We vinden nu figuur 4.
gemidd. temp.
figuur 4
maanden
Overduidelijk is hier geen trend aanwezig maar is de temperatur seizoensgebonden.
107
Voorbeeld 5 We noteerden het koersverloop van een aandeel en vonden de volgende figuur 5. figuur 5 35 30
koers
25 20 15 10 5 0 tijd
We bespreken nu in het kort de karakteristieken die vaak voorkomen in tijdreeksen.
5.2.2.
De trend
De trend in een tijdreeks verwijst naar het lange-termijn gedrag van het cijfermateriaal. In figuur 2 stellen we vast dat de bevolkingsgrootte een stijgende trend vertoont. In figuur 1 stellen we een licht dalende trend vast. De trend kan zowel een stijgend als een dalend verloop kennen. De verkopen van een produkt kunnen een dalende of stijgende tendens vertonen. Het is ook mogelijk dat er geen waarneembare trend aanwezig is. Tijdreeksen van beurswaarden (zie figuur 5) vertonen vaak geen trend. Tot slot moeten we vaststellen dat de trend allerlei vormen kan aannemen. Voorbeelden hiervan staan in de volgende figuren.
figuur 6
lineaire trend
108
figuur 7
polynomiale trend
figuur 8
trendbreuk
5.2.3.
Seizoensschommelingen
Naast de trend stellen we ook dikwijls vast dat tijdreeksen variaties vertonen al naargelang het seizoen. In voorbeeld 1 bemerkten we een kwartaalgebonden patroon. De seizoensgebonden variatie is een patroon dat met een vaste periodiciteit terugkeert in de data en dat systematisch dezelfde vorm aanneemt. Typische voorbeelden vinden we in figuren 1 en 4. De gemiddelde temperatuur in een bepaalde plaats is seizoensgebonden. In dit geval is er een jaarlijks terugkerend patroon.
109
Deze seizoenvariatie kan echter ook maandelijks, wekelijks of dagelijks optreden naargelang de tijdreeksen die we onderzoeken. De verkopen in een grootwarenhuis vertonen maandelijks hoogten en laagten. Het huishoudelijk verbruik van elektriciteit vertoont dagelijks ochtend- en avondpieken. Het is ook mogelijk dat er in een tijdreeks geen seizoenspatroon te bekennen is. Hoe we dergelijke seizoenspatronen kunnen ontdekken en meten, komt verder aan bod in §5.4.
5.2.3.
Cyclische variatie en irreguliere variatie
Met de vorige componenten kan echter nog niet alle variatie in een tijdreeks worden beschreven. De seizoensvariatie verloopt niet steeds op exact dezelfde manier. De trend kan trendbreuken vertonen. Naast de seizoensfluctuatie kunnen nog andere patronen in de tijdreeks voorkomen. In dit verband vermelden we bijvoorbeeld de conjunctuurbewegingen en de zogenaamde lange golven in de economie. Tevens kunnen speciale gebeurtenissen een zeer grote invloed uitoefenen. Denken we bijvoorbeeld aan een uitzonderlijke warme januari-maand, een (vijandig) overnamebod op de beurs, een staking, enzovoort. Ongetwijfeld speelt de onvoorspelbaarheid van het menselijk en biologisch gedrag hier een belangrijke rol. In deze cursus zullen wij vooral aandacht schenken aan het karakteriseren van de trend en de seizoensvariatie.
5.2.4.
Algemeen tijdreeksmodel
Alle componenten van een tijdreeks worden nu in een model gegoten. Men maakt meestal een onderscheid tussen twee groepen modellen: additieve modellen en multiplicatieve modellen. Additief model:
Y=T+S+C+I
Multiplicatief model:
Y = TxSxCxI
waarbij Y = de waargenomen waarden van de tijdreeks; T = de trendcomponent; S = de seizoenscomponent; C = de conjunctuurcomponent I = overblijvende variatie. Bij het additieve model gaat men ervan uit dat het effect van de seizoensvariatie steeds gelijk blijft, los van de trend. Bij het multiplicatieve model is het seizoenseffect groter bij een hoge trendwaarde dan bij een lage trendwaarde.
110
5.3.
ANALYSE VAN DE TREND
Er zijn heel wat methodes beschikbaar om de trend van een tijdreeks vast te leggen. Welke methode uiteindelijk gebruikt wordt, hangt af van de gebruiker en de doelstellingen van de analyse. We beschrijven hier enkele methodes en illustreren deze met het voorbeeld uit §5.1. We maken een onderscheid tussen een technische aanpak en een modelmatige aanpak. In het eerste geval maken we geen of nauwelijks veronderstellingen en voeren we routinegewijs een aantal stappen uit. In het tweede geval vertrekt men van een concreet trendmodel en schat men de parameters.
5.3.1.
Technische aanpak
Om de grote lijn in een tijdreeks vast te leggen proberen we de “plooien” in een tijdreeks glad te strijken. Dit doen we door de tijdreeks Y(t) te vervangen door een gladde tijdreeks.
1. Voortschrijdend gemiddelde Bij het voortschrijdend gemiddelde van de orde k berekent men per groep van k opeenvolgende Y-waarden het rekenkunidg gemiddelde. We noteren dit als VG(k) of als MA(k) waarbij MA staat voor moving average. Bij MA(2) berekenen we voor elke t-waarde MA(2, t ) =
1 (Y (t ) + Y (t − 1)) 2
Bij MA(3) berekenen we 1 MA(3, t ) = (Y (t ) + Y (t − 1) + Y (t − 2)) 3
De trendwaarde voor tijdstip t stellen we dan gelijk aan MA(k, t); andere MA(k)-waarden berekenen we op analoge wijze.
111
Voorbeeld 1 (vervolg) Voor voorbeeld 1 berekenen we MA(3) en MA(4) en we stellen de resultaten grafisch voor. Tabel 2 Y(t) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
MA(3) MA(4)
65 54 46 60 61 51 43 56 59 48 39 53 54 46 39 51 54 44 38 49
55,00 53,33 55,67 57,33 51,67 50,00 52,67 54,33 48,67 46,67 48,67 51,00 46,33 45,33 48,00 49,67 45,33 43,67
56,25 55,25 54,50 53,75 52,75 52,25 51,50 50,50 49,75 48,50 48,00 48,00 47,50 47,50 47,00 46,75 46,25
Bij MA(3) kunnen we op tijdstippen 1 en 2 geen getalwaarde berekenen. We starten dus op tijdstip 3 en berekenen (65 + 54 + 46)/3 = 55. Bij MA(4) verliezen we de eerste 3 waarnemingen en kunnen we pas starten op tijdstip 4.
MA(3) en MA(4)
figuur 9 70 65 60 55 50 45 40 35 30 25 20 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 tijd
Op de grafiek zien we dat MA(4) iets beter presteert dan MA(3): de golven worden mooier gladgestreken.
112
We stellen vast dat de berekingen bij VG uiterst eenvoudig zijn. Een nadeel van het gebruik van VG is dat we steeds een aantal waarnemingen verliezen. Vervolgens is het niet steeds duidelijk met welk voortschrijdend gemiddelde we moeten werken. Behalve het visuele beschikken we niet over een criterium dat toelaat te kiezen tussen MA(3) of MA(4) of MA(5). Wanneer er een duidelijk seizoenspatroon aanwezig is met periodiciteit k, dan is het aangewezen om MA(k) te berekenen. Hoe we de zo gevonden trend kunnen extrapoleren naar de toekomst toe leggen we uit aan de hand van het voorbeeld. In ons voorbeeld vonden we MA(4, 4) = 56.25 en MA(4, 20) = 46.25. Dit is een daling met 46.25 – 56.25 = 10 eenheden. Deze daling vinden we in 20 – 4 = 16 stappen of overgangen. De MA daalt dus met gemiddeld 10/16 = 0.625 per stap. Om te extrapoleren gaan we er van uit dat deze zelfde daling zich verder voortzet. Voor tijdstippen 21, 22, … vinden we dus MA(4, 21) = 46.25 – 0.625 = 45.63 MA(4, 22) = 45.63 – 0.625 = 45 enzovoort
2. Gewogen gemiddelde Bij het gewone voortschrijdend gemiddelde veronderstellen we impliciet dat aan elke Y-waarde evenveel gewicht moet worden gegeven. Bij MA(k = 3) bijvoorbeeld, krijgt elke Ywaarde hetzelfde gewicht 1/3. We kunnen MA(3) symbolisch voorstellen door het drietal MA(3) = (1/3, 1/3, 1/3) De getallen zijn de gebruikte gewichten bij het gewone voortschrijdend gemiddelde. We kunnen ook werken met anders gewogen gemiddelden zoals bijvoorbeeld MA = (1/4, 1/2, 1/4 ) Î
MA(t ) =
1 1 1 Y (t ) + Y (t − 1) + Y (t − 2) 4 2 4
MA = (3/4, 1/8, 1/8) Î
MA(t ) =
3 1 1 Y (t ) + Y (t − 1) + Y (t − 2) 4 8 8
of
enzovoort In het algemeen vinden we bij de gewichten (a0, a1, …, ak-1) de volgende algemene formule k −1
MA(t ) = ∑ a i Y (t − i ) i =0
Het is echter niet duidelijk hoe we ‘geode’ gewichten kunnen of moeten kiezen.
113
3. Exponential smoothing Bij MA(3) stellen we vast dat elke MA-waarde afhangt van de vorige 3 Y-waarden. Bij exponential smoothing (ES) gaan we ervan uit dat elke Y(t)-waarde afhangt van het ganse verleden. Bij exponentiële smoothing kiezen we een parameter α, waarbij 0 < α < 1 en construeren we de volgende nieuwe cijferreeks: ES(α, 2) = Y(1) ES(α, t + 1) = (1 − α)Y(t) + αES(α, t), t = 1, 2, 3, … De parameter α noemt men de smoothing factor, de dempingsfactor of de gladstrijkende parameter. Bemerk dat ES(α, 3) = (1 − α)Y(2) + αY(1) ES(α, 4) = (1 − α)Y(3) + αES(α, 3) = (1 − α)Y(3) + α((1 − α)Y(2) + αY(1)) Bij het berekenen van ES(α, 4) wordt het ganse verleden (Y(1), Y(2), Y(3)) gebruikt. Bemerk tevens dat ES(α, t + 1) = Y(t) + α(ES(α, t) – Y(t)), t = 1, 2, 3, … of
ES(α, t + 1) = ES(α, t) + α(Y(t) – ES(α, t)), t = 1, 2, 3, …
of
nieuwe waarde = oude waarde + correctiefactor
Bij het maken van berekeningen gebruikt met meestal verschillende waarden van α en kiest men visueel de “beste” waarde.
114
Voorbeeld 1 (vervolg) Voor ons voorbeeld berekenen we ES(0.4) en ES(0.6). We vinden Tabel 3. Tabel 3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Y(t)
ES (0,4)
ES (0,6)
65 54 46 60 61 51 43 56 59 48 39 53 54 46 39 51 54 44 38 49
65,00 58,40 50,96 56,38 59,15 54,26 47,50 52,60 56,44 51,38 43,95 49,38 52,15 48,46 42,78 47,71 51,49 46,99 41,60
65,00 60,60 54,76 56,86 58,51 55,51 50,50 52,70 55,22 52,33 47,00 49,40 51,24 49,14 45,09 47,45 50,07 47,64 43,79
Bij ES(0.4) bijvoorbeeld vinden we ES(0.4, 2) = 65, ES(0.4, 3) = 0.6*54 + 0.4*65 = 58.40. Grafisch zien we het volgende beeld. Figuur 10 70 65 ES(0.4) en ES(0.6)
60 55 50 45 40 35 30 25 20 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
115
5.3.2.
Trendmodellen
Bij trendmodellen vertrekken we van een specifiek trendmodel. Meestal bevat een dergelijk model één of meerdere parameters. Het is onze taak om de parameters op een verstandige manier te schatten. Bij lineaire trendmodellen (dus lineair in de parameters!) kunnen we de kleinste kwadratenmethode gebruiken. Bij niet lineariseerbare modellen kan de methode gebaseerd op semi-gemiddelden gebruikt worden of kunnen we de SOLVER-mogelijkheden van EXCEL gebruiken. Tot slot vermelden we ook dat er een aantal ‘klassieke’ trendmodellen standaard zijn ingebouwd in EXCEL. We illustreren met voorbeeld 1 en gebruiken verschillende trendmodellen. Voorbeeld 1 (vervolg) a) Lineair model. We gebruiken het trendmodel T = a + bt. Met EXCEL vinden we de volgende KK-schattingen en KK-rechte. We vinden T = 57.747 – 0.69t R² = 28% ; s(e) = 6.7; coëfficienten betekenisvol verschillend van 0 De trendformule T = 57.75 – 0.69t gebruiken we om de trendwaarden te berekenen voor t = 1, 2… We vinden Tabel 4 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Y(t) 65 54 46 60 61 51 43 56 59 48 39 53 54 46 39 51 54 44 38 49
T 57,06 56,37 55,68 54,99 54,30 53,61 52,92 52,23 51,54 50,85 50,15 49,46 48,77 48,08 47,39 46,70 46,01 45,32 44,63 43,94
116
Grafisch vinden we figuur 11 T = -0,6902t + 57,747
70 65 60 lineaire trend
55 50 45 40 35 30 25 20 0
5
10
15
20
25
b) Kwadratische trend. Hier gebruiken we het trendmodel T = a + bt + ct². Via EXCEL bekomen we grafisch het volgend resultaat. figuur 12 70 65 kwadratische trend
60 T = 0,0281t2 - 1,2811t + 59,914
55 50 45 40 35 30 25 20 0
5
10
15
20
25
c) Polynomiale trend. Hier stellen we dat de trend wordt weergegeven door een veelterm van de graad m. We kiezen m en stellen vervolgens T = a + bt + ct² + dt3 + ... + ztm. De parameters van deze modellen kunnen berekend worden via de KK-methode.
117
d) Exponentiële trend Hier gebruiken we een exponentiëel model van de vorm T = aebt of T = a + bect. Bij exponentiële trend kunnen de parameters geschat worden via lineariseren of via een van de andere methodes. e) Andere modellen We vermelden kort enkele andere modellen. Het schatten van de parameters is niet eenvoudig en laten we achterwege. - Gompertz-model of dubbelexponentieel model. Hier is T = aexp(bect) at n - Tornquist-model. Hier is T = b + tn c - Logistiek model. Hier is T = 1 + e a +bt Opmerking. In de modellen hiervoor bekeken we Y (of T) enkel als functie van een tijdsvariabele t. Bij andere tijdreeksanalyses (econometrische analyses) zal men dikwijls ook andere variabelen opnemen in de groeimodellen.
118
5.3.3.
Tijdreeksen ontdoen van de trend
Eens we de trend T bepaald hebben in een tijdreeks, kunnen we deze ontdoen van de trend door: bij multiplicatieve modellen: Y te delen door T; bij additieve modellen: Y te verminderen met T. De “detrended” tijdreeks wordt dan Y/T = SxCxI of Y − T = S + C + I. Voorbeeld 1 (vervolg) We vonden als trendformule T = 57.75 – 0.69t. We ontdoen de tijdreeks van de trend op de twee manieren (additief en multiplicatief) en vinden de volgende tabel en figuren. Tabel 5 t
Y(t)
T
Y-T
Y/T
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
65 54 46 60 61 51 43 56 59 48 39 53 54 46 39 51 54 44 38 49
57,06 56,37 55,68 54,99 54,30 53,61 52,92 52,23 51,54 50,85 50,15 49,46 48,77 48,08 47,39 46,70 46,01 45,32 44,63 43,94
7,94 -2,37 -9,68 5,01 6,70 -2,61 -9,92 3,77 7,46 -2,85 -11,15 3,54 5,23 -2,08 -8,39 4,30 7,99 -1,32 -6,63 5,06
1,139 0,958 0,826 1,091 1,123 0,951 0,813 1,072 1,145 0,944 0,778 1,071 1,107 0,957 0,823 1,092 1,174 0,971 0,851 1,115
119
figuur 13 10,00
detrended (additief)
5,00
0,00 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
-5,00
-10,00
-15,00
figuur 14 1,300
detrended (multiplicatief)
1,200 1,100 1,000 0,900 0,800 0,700 0,600 0,500 19
17
15
13
11
9
7
5
3
1
0,400
Indien we de trend op een andere manier bepaalden (MA of ES of …) dan werken we op dezelfde manier maar met de andere trendwaarden. Bemerk dat bij het additieve model de resterende waarden meestal schommelen rond 0; bij het multiplicatieve model schommelen de waarden rond 1.
120
5.4.
ANALYSE VAN DE SEIZOENSCOMPONENT
5.4.1.
Hoe ontdekken?
In figuur 1 zien we duidelijk dat er een seizoenspatroon aanwezig is en dat dit patroon periodiciteit 4 heeft. Soms is het echter niet zo duidelijk als in dit voorbeeld. Een seizoenspatroon kan niet altijd op het eerste gezicht waargenomen worden. Om toch een leidraad te hebben, berekent men meestal autocorrelaties. Hierbij berekent men de correlatie tussen de oorspronkelijke tijdreeks en dezelfde tijdreeks één of meer plaatsen of periodes verschoven. Wanneer we grote autocorrelaties AC(k) vinden bij de veelvouden k = p, k = 2p, k = 3p enz. van een vast getal p, dan hebben we te maken met een periodisch verschijnsel met periode p. Voorbeeld 1 (vervolg) Voor ons voorbeeld berekenen we de autocorrelatiecoëfficiënten van orde 1 t.e.m. 8. AC(1) = 0.195 AC(5) = 0.12
AC(2) = -0.53 AC(6) = -0.68
AC(3) = 0.25 AC(7) = 0.18
AC(4) = 0.98 AC(8) = 0.98
We merken opvallend grote getallen AC(4) en AC(8). Dit bevestigt het seizoenspatroon van periode 4.
5.4.2.
Hoe meten?
Eens dat we weten over welke periode het gaat, kunnen we op zoek gaan naar een index die het effect in de verschillende seizoenen weergeeft. Hoe stellen we nu een seizoensindex op? We kunnen opnieuw twee reeksen technieken gebruiken. De eerste techniek verloopt puur mechanisch. De tweede aanpak is modelmatig gestuurd. We moeten wel vooraf beslissen of we werken met een additief of met een multiplicatief model.
1. Mechanisch, additief tijdreeksmodel Bij het additief tijdreeksmodel is Y = T + S + C + I. Om de 4 seizoenen te karakteriseren kunnen we de tijdreeks ofwel eerst ontdoen van de trend ofwel niet. We werken voorbeeld 1 uit waarbij we de originele cijfers gebruiken. We hernemen tabel 1:
Tabel 1 jaar I II III IV Totaal
1999 2000 2001 2002 2003 Totaal 65 61 59 54 54 293 54 51 48 46 44 243 46 43 39 39 38 205 60 56 53 51 49 269 225 211 199 190 185
121
Uit alle cijfers van het eerste kwartaal distilleren we nu één getal dat karakteristiek is voor deze eerste kwartalen. Wij kiezen als karakteristiek het rekenkundig gemiddelde. Voor de eerste kwartalen vinden we S’(I) = 293/5 = 58.6. Voor de andere kwartalen vinden we S’(II) = 48.6, S’(III) = 41 en S’(IV) = 53.8. Onder ideale omstandigheden moet het seizoenseffect over het hele jaar gespreid zijn met als totaaleffect nul. In ons voorbeeld vinden we als som S'(I) + S'(II) + S'(III) + S'(IV) = 58.6 + 48.6 + 41 + 53.8 = 202 De voorlopige seizoensindices S’(.) passen we nu aan opdat de som nul zou zijn. Het teveel 202 verdelen we evenredig over de 4 periodes en w berekenen S(.) = S'(.) − 202/4 = S’(.) – 50.5. Voor onze cijfermateriaal vinden we: S(I) S(II) S(III) S(IV)
= 58.6 – 50.5 = 48.6 – 50.5 = 41 – 50.5 = 53.8 – 50.5
= + 8.1 = −1.9 = − 9.5 = + 3.3
We merken dat in het eerste en vierde kwartaal de inkomsten hoger liggen dan de trend; in het tweede en derde kwartaal liggen de cijfers lager dan de trend. Op basis van de lineaire trend T en de gevonden seizoensindices construeren we nu Tabel 2. We bepalen de benadering Y^ = T + S en de benaderingsfout Y – Y^. Tabel 6 t
Y(t)
T
S
Y^= T + S
Y - Y^
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
65 54 46 60 61 51 43 56 59 48 39 53 54 46 39 51 54 44 38 49
57,06 56,37 55,68 54,99 54,30 53,61 52,92 52,23 51,54 50,85 50,15 49,46 48,77 48,08 47,39 46,70 46,01 45,32 44,63 43,94
8,1 -1,9 -9,5 3,3 8,1 -1,9 -9,5 3,3 8,1 -1,9 -9,5 3,3 8,1 -1,9 -9,5 3,3 8,1 -1,9 -9,5 3,3
65,16 54,47 46,18 58,29 62,40 51,71 43,42 55,53 59,64 48,95 40,65 52,76 56,87 46,18 37,89 50,00 54,11 43,42 35,13 47,24
-0,16 -0,47 -0,18 1,71 -1,40 -0,71 -0,42 0,47 -0,64 -0,95 -1,65 0,24 -2,87 -0,18 1,11 1,00 -0,11 0,58 2,87 1,76
Grafisch vinden we de volgende beelden: 122
Figuur 15: Y en Y^ 70 65 60 55 50 45 40 35 30 25 20 0
5
10
15
20
25
t
Voor de fouten vinden we: Figuur 16: fouten 4,00 3,00 2,00 1,00 0,00 -1,00
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
-2,00 -3,00 -4,00 t
We stellen vast dat Y en Y^ zeer dicht bij mekaar aansluiten. We vinden dat r(Y, Y^) ongeveer 99 % bedraagt, wat een zeer hoge correlatie is!
2. Mechanisch: multiplicatief tijdreeksmodel Om bij het multiplicatief model Y = TxSxCxI seizoensindices te bepalen nemen we (bijvoorbeeld) eerst de trend weg.. We werken met de lineaire trend en vinden (cf. §5.3.3) Tabel 7 jaar I II III IV
1999 2000 2001 2002 2003 1,139 1,123 1,145 1,107 1,174 0,958 0,951 0,944 0,957 0,971 0,826 0,813 0,778 0,823 0,851 1,091 1,072 1,071 1,092 1,115
123
Als kenmerkend cijfer berekenen we voor de verschillende kwartalen het rekenkundig gemiddelde of een ander centraal kengetal. We kiezen voor het rekenkundig gemiddelde en vinden S’(I) = 1.138; S’(II) = 0.956; S’(III) = 0.818; S’(IV) = 1.088 Bij een multiplicatief model zorgen we ervoor dat het product van deze cijfers gelijk is aan 1. Hier is het product gelijk aan 0.969. We corrigeren de voorlopige seizoensindices door ze te delen door de (0.969)1/4. We vinden nu S(I) = 1.147;
S(II) = 0.964;
S(III) = 0.824;
S(IV) = 1.097
Getalwaarden groter dan 1 wijzen erop dat we ons boven de trend bevinden. We merken dat het eerste en derde kwartaal het sterkst afwijken van de trend. In het eerste kwartaal zijn de inkomsten ongevver 14 % hoger dan de trend en in het derde kwartaal zijn deze ongeveer 18 % lager dan de trend. De benadering waarbij we zowel met de trend als met het seizoen rekening houden, ziet er nu uit als volgt. Tabel 8 t
Y(t)
T
S
Y^ = TxS
Y - Y^
Y/Y^
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
65 54 46 60 61 51 43 56 59 48 39 53 54 46 39 51 54 44 38 49
57,06 56,37 55,68 54,99 54,30 53,61 52,92 52,23 51,54 50,85 50,15 49,46 48,77 48,08 47,39 46,70 46,01 45,32 44,63 43,94
1,147 0,964 0,824 1,097 1,147 0,964 0,824 1,097 1,147 0,964 0,824 1,097 1,147 0,964 0,824 1,097 1,147 0,964 0,824 1,097
65,445 54,338 45,878 60,320 62,278 51,676 43,603 57,291 59,111 49,015 41,328 54,263 55,944 46,353 39,053 51,234 52,778 43,692 36,778 48,205
-0,445 -0,338 0,122 -0,320 -1,278 -0,676 -0,603 -1,291 -0,111 -1,015 -2,328 -1,263 -1,944 -0,353 -0,053 -0,234 1,222 0,308 1,222 0,795
0,993 0,994 1,003 0,995 0,979 0,987 0,986 0,977 0,998 0,979 0,944 0,977 0,965 0,992 0,999 0,995 1,023 1,007 1,033 1,016
Grafisch vinden we het volgende beeld: 124
Figuur 17: Y en Y^ 70 65 60 55 50 45 40 35 30 25 20 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 t
We berekenden ook de correlatiecoëfficiënt en vonden r(Y, Y^) = 0.99.
3. Via dummy-variabelen en regressieanalyse Het nadeel van de vorige methodes is dat zij louter mechanisch verlopen zonder dat we in staat zijn de bekomen cijfers (statistisch) te beoordelen. Regressieanalyse en econometrische technieken kunnen hier een oplossing bieden. Seizoenen kunnen we steeds karakteriseren via het gebruik van één of meer dummy-variabelen. Bij een seizoenspatroon met periode 2 is het voldoende één dummy-variabele te gebruiken. We stellen bijvoorbeeld D = 1 in de eerste periode en D = 0 in de tweede periode. Voorbeelden van modellen zijn: model 1: Y = a + bt (alleen trend) model 2: Y = a + bD (alleen seizoenseffect) model 3: Y = a + bt + cD (additief model) model 4: Y = a+(b+ cD)t (multiplicatief model) model 5: Y = a + bt + bt² + abD model 6: Y = (a + bt)cD enzovoort Bij een seizoenspatroon van periode 4 zijn er 3 dummy-variabelen nodig. We gebruiken dan bijvoorbeeld: D(1) = 1 in periode 1 en D(1) = 0 anders; D(2) = 1 in periode 2 en D(2) = 0 anders; D(3) = 1 in periode 3 en D(3) = 0 anders.
Voorbeelden van modellen zijn: 125
model 1: Y = a + bt (alleen trend) model 2: Y = a + bD(1) + cD(2) + dD(3) (alleen seizoenseffect, additief) model 3: Y = abD(1) cD(2) dD(3) (alleen seizoenseffect, multiplicatief) model 4: Y = a + bt + cD(1) + dD(2) + eD(3) (additief model) enzovoort We illusteren terug met de getallen van voorbeeld 1. Hieronder volgt slechts een deel van de berekeningen. Voorbeeld 1 (vervolg) Model 1: lineaire trend Model: Yˆ = a + bt Resultaat: Yˆ = 57.75 − 0.69t ; R² = 28% Model 2: alleen seizoenen, additief Model: Yˆ = a + bD (1) + cD ( 2) + dD (3) Hier is D(1) = 1 in kwartaal 1, D(2) = 1 in kwartaal 2 en D(3) = 1 in kwartaal 3. Resultaat : Yˆ = 53.8 + 4.8 D (1) − 5.2 D (2) − 12.8 D (3) ; R² = 75.7% Ten opzichte van het vierde kwartaal (waarde 53.8) komt er in het eerste kwartaal 4.8 bij, gaat er in het tweede kwartaal 5.2 van af en gaat er in het derde kwartaal 12.8 van af. Model 3: lineaear trend en seizoenen, additief Model: Yˆ = a + bt + cD (1) + dD ( 2) + eD (3) Resultaat: Yˆ = 61.375 − 0.63t + 2.91D (1) − 6.46 D ( 2) − 13.42 D (3) ; R² = 98%
4. Keuze multiplicatief - additief? Dikwijls zullen we geconfronteerd worden met de vraag welk model we nu moeten kiezen! Evenveel keer zal de economische achtergrond bij de gegeven tijdreeks ons weinig of niets vooruit helpen bij onze keuze. Het model dat wij dan uiteindelijk zullen hanteren hangt af van het doel dat we voor ogen hebben: willen we beschrijven of willen we voorspellen? Het is enerzijds mogelijk dat we enkel geïnteresseerd zijn in het zo correct mogelijk beschrijven van de tijdreeks. Bij de keuze van model laten we ons dan leiden door de correlatiecoëfficiënt tussen Y en Yˆ . We verkiezen het model met de grootste correlatiecoëfficiënt. Een andere mogelijkheid bestaat erin de restterm zo miniem mogelijk te houden. In dit geval berekenen we de benaderingsfout R = Y – T – S of R = Y/Tx.S en maken we een keuze op basis van bijvoorbeeld s²(R). Anderzijds is het mogelijk dat we enkel geïnteresseerd zijn in de voorspellingen die we kunnen maken met het gehanteerde model. Het model met de beste voorspellingen geniet dan onze voorkeur. 126
Meestal echter zullen we als doel wensen dat het model een goede beschrijving geeft van de realiteit én tot goede voorspellingen leidt!
127
BIBLIOGRAFIE A.C. AITKEN, On least-squares and linear combinations on observations. Proc. Royal Soc., Edinburgh, 55, pp. 42-48, 1934. S. ALMON, The distributed lag between capital appropriations and expenditures. Econometrica 33, pp. 178-196, 1965. M.S. BARTLETT, Fitting a straight line when both variables are subject to error. Biometrics 5, pp. 207-212, 1949. A.P. BARTEN, Econometrische lessen. Schoonhoven: Academic Service, economie en bedrijfskunde, 1989. W.S. BROWN, Introducing econometrics. West Publishing Company, 1991. D. COCHRANE and G.H. ORCUTT, Application of least-squares regressions to relationships containing autocorrelated error terms. J. of the American Stat. Ass. 44, pp. 32-61, 1949. M.S. COMMON, Basic econometrics, an introductory text for economists. Longman Group Limited, Modern Economics series, 1976 F. DE LEEUW, The demand for capital goods by manufacturers, a study of quarterly time series. Econometrica, 30, pp. 407-423, 1962. J. DURBIN and G.S. WATSON, Testing for serial correlation in least-square regressions. Biometrica 37, pp.409-428, 1950; Biometrica 38,pp.159-178, 1951; Biometrica 59, pp.1-19, 1971. J. DURBIN, Estimation of parameters in time-series regression models. J. Royal Statist.Soc. B 22, pp.139-153, 1960. D.E. FARRAR and R.R. GLAUBER, Multicollinearity in regression Analysis: The problem re-visited. Rev. of Econ. and Stat. 49, pp.92-107, 1967. J. FISHER, Note on a short-cut method calculating distributed lags. Int. Statist. Instit. Bulletin, pp.323-327, 1937. H. GORIS, Inleiding in de econometrie. J.H. de Bussy and Oosthoek, Academische paperbacks, Amsterdam and Utrecht, 1972 P. Govers, Historisch essay over de econometrie. EHSAL paper econometrie, 1988. H. GLEJSER, A new test for heteroscedasticity. J.American Stat. Society 64, pp.316-323, 1969. S.M. GOLDFIELD and R.E. QUANDT, Some test for homoscedasticity. J. Am. Statist. Assoc. 60, pp.539-547, 1965. 128
D.N. GUJARATI, Basic Econometrics (2nd Ed). McGraw-Hill Book Company, New York, 1988. J. JOHNSTON, Econometric Methods (2nd Ed). McGraw-Hill Book Company, New York, 1972. P. KENNEDY, A Quide to Econometrics. M.I.T.Press, Cambridge, Massachusetts, 1980. L.M. KOYCK, Distributed lags and investment analysis. North-Holland Publishing Company, Amsterdam, 1954. G.S. MADDALA, Econometrics, McGraw-Hill Ltd., New York, 1977. A.M. MOOD, F.A. GRAYBILL and D.C. BOES, Introduction to the theory of statistics (3rd Ed). McGraw-Hill series in probability and statistics, 1974. R.E. PARK, Estimation with Heteroscedastic Error Terms. Econometrica 34, N°4, 1966. C.R. RAO, Estimation of heteroscedastic variances in linear models. J. of the American Stat. Ass., 1970. D. SALVATORE, Statistics and Econometrics. Schaum’s Outline Series of theory and problems, Mc Graw Hill Inc, 1982. S.D. SILVEY, Multicollinearity in imprecise estimation. J. Royal Statist. Soc. B 31, pp.539552, 1969. H. THEIL, On the relationships involving qualitative variables. American Journal of Sociology 76, pp.103-154, 1970. R.L. THOMAS, Modern Econometrics. An Introduction. Addison Wesley Longman 1997. J.A. WARTNA, Bouw en gebruik van econonometrische modellen. Universitaire Pers Rotterdam, 1974. P.K. WATSON, On the abuse of statistical criteria in the evaluation of econometric models (with special reference to the Caribbean). Social and Economic Studies 36, N° 3, pp. 119-143, 1987. R.J. WONNACOTT and T.H. WONNACOTT, Econometrics (2nd Ed). John Wiley, New York, 1979.
129
INHOUDSTAFEL VOORWOORD........................................................................................................................2 HOOFDSTUK 1 .......................................................................................................................3 HET STUDIEDOMEIN VAN DE ECONOMETRIE ..........................................................3 1.1. WAT IS ECONOMETRIE? .................................................................................3 1.2. METHODOLOGIE VAN DE ECONOMETRIE ...............................................5 1.2.1. Pijler I ..............................................................................................................5 1. Niveau 1: economische theorie....................................................................................5 2. Niveau 2: specificatie van een model..........................................................................5 3. Niveau 3: econometrisch model ..................................................................................6 1.2.2. Pijler II.............................................................................................................8 1. Niveau 1: empirie en feiten..........................................................................................8 2. Niveau 2: soorten variabelen.......................................................................................9 3. Niveau 3: bewerkingen met data ..............................................................................11 1.2.3. Pijler III .........................................................................................................11 1. Niveau 1: soorten relaties ..........................................................................................11 2. Niveau 2: statistiek.....................................................................................................12 3. Niveau 3: econometrische methodes.........................................................................13 1.2.4. Niveau 4: operationeel econometrisch model .............................................13 1.2.5. Niveau 5..........................................................................................................14 1. Eigenschappen van een goed model .........................................................................14 2. Pijler I: verificatie ......................................................................................................15 3. Pijler II: voorspellen ..................................................................................................15 4. Pijler III: evalueren ...................................................................................................16 HOOFDSTUK 2 .....................................................................................................................17 SCHATTINGSTHEORIE.....................................................................................................17 2.1. SCHATTINGSCRITERIA ..................................................................................17 2.1.1. Inleiding ........................................................................................................17 2.1.2. Schattingscriteria ..........................................................................................18 1. Minimale totale fout...................................................................................................18 2. M.A.D.-criterium (Minimal Absolute Deviation)....................................................18 3. KK- criterium (Kleinste Kwadraten Criterium) ....................................................19 4. Andere criteria ...........................................................................................................19 2.2. DE KK-NORMAALVERGELIJKINGEN.........................................................19 2.2.1. Het eenvoudig lineair model ........................................................................19 2.2.2. Enkele andere specificaties...........................................................................23 2.2.3. Multivariaat lineair model ...........................................................................24 2.2.4. KK-methode via EXCEL .............................................................................25 2.2.5. Voorbeelden....................................................................................................30 2.2.6. Multicollineariteit .........................................................................................36 1. Wat is multicollineariteit?.........................................................................................36 2. Voorbeeld 3.................................................................................................................37 2.3. VERKLAREND VERMOGEN VAN EEN MODEL ........................................40 2.3.1. De determinatiecoëfficiënt............................................................................40 2.3.2. ANOVA: variatie-analyse ............................................................................40 2.3.3. Opmerkingen.................................................................................................41 2.3.4. AANGEPASTE R²-WAARDE.....................................................................42 2.3.5. F-waarde ........................................................................................................42 130
2.3.6. Marginale bijdrage .......................................................................................43 2.4. SELECTIE VAN VARIABELEN .......................................................................46 2.4.1. Inleiding .........................................................................................................46 2.4.2. Voorwaartse selectie .....................................................................................46 2.4.3. Wat bij QMC-problemen? ...........................................................................48 2.5. NIET-LINEAIRE MODELLEN .........................................................................49 2.5.1. Inleiding .........................................................................................................49 2.5.2. Voorbeelden...................................................................................................49 2.6. GEVALSTUDIE ...................................................................................................51 2.6.1. Verklarende variabelen ................................................................................51 2.6.2. Data ................................................................................................................52 2.6.3. Correlatiematrix ...........................................................................................53 2.6.4. Selectie van variabelen ..................................................................................54 HOOFDSTUK 3 .....................................................................................................................58 HET BIVARIATE KLEINSTE KWADRATENMODEL .................................................58 3.1. INLEIDING..........................................................................................................58 3.2. BASISVERONDERSTELLINGEN ....................................................................58 3.3. SCHATTEN VAN DE PARAMETERS ..............................................................62 3.4. EIGENSCHAPPEN VAN DE K.K.-SCHATTERS ...........................................62 3.4.1. Eigenschap 1. De KK-schatters zijn zuivere schatters ..............................62 3.4.2. Eigenschap 2. De KK-schatters zijn consistent ...........................................63 3.4.3. De kansverdeling van de schatters ..............................................................64 3.4.4. Schatten van de modelvariantie...................................................................65 3.5. CIJFERVOORBEELD.........................................................................................67 3.6. TOETSEN VAN HYPOTHESEN .......................................................................68 3.6.1. De t-test voor een parameter........................................................................68 3.6.2. De F-test .........................................................................................................69 3.7. VOORSPELLEN ..................................................................................................71 3.7.1. Inleiding .........................................................................................................71 3.7.2. Statistische kwaliteit van de voorspelling ...................................................71 3.7.3. De kwaliteit van de voorspellingen..............................................................72 1. Gemiddelde kwadratische en absolute afwijking....................................................72 2. Relatieve afwijkingen.................................................................................................73 3. Correlatiecoëfficiënt ..................................................................................................73 4. Grafisch.......................................................................................................................73 5. Theil's coëfficiënt .......................................................................................................73 6. Mincer en Zarnowitz .................................................................................................74 3.7.4. Voorbeeld.......................................................................................................74 HOOFDSTUK 4 .....................................................................................................................76 DE BASISVERONDERSTELLINGEN BIJ LINEAIRE ..................................................76 MODELLEN ..........................................................................................................................76 4.1. Inleiding ................................................................................................................76 4.2. Basisveronderstelling 1.........................................................................................76 4.2.1. Gevolgen.........................................................................................................76 4.2.2. Controleren van B1.......................................................................................76 4.2.2. Redenen..........................................................................................................76 1. Systematische meetfout .............................................................................................76 2. Variabele of effect vergeten.......................................................................................77 4.2.3. Besluit.............................................................................................................78 131
4.2.4. Voorbeeld .......................................................................................................78 4.3. BASISVERONDERSTELLING 4.......................................................................81 4.3.1. Gevolgen.........................................................................................................81 4.3.2. Normaliteitstesten .........................................................................................82 1. De test van Kolmogorov en Smirnov ........................................................................82 2. De Chi-kwadraat-toets...............................................................................................83 4.3.3. Niet-normaal verdeelde fouten .....................................................................84 4.3.4. Voorbeeld (vervolg) ......................................................................................84 4.4. VARIABELE PARAMETERS ............................................................................85 4.5. MULTICOLLINEARITEIT ...............................................................................86 4.5.1. Gevolgen van QMC.......................................................................................86 4.5.2. Opsporen van QMC.....................................................................................86 4.5.3. Oplossen .........................................................................................................87 4.6. HETEROSCEDASTICITEIT .............................................................................87 4.6.1. Gevolgen.........................................................................................................87 4.6.2. Opsporen........................................................................................................87 4.6.3. Oorzaken van HE..........................................................................................88 4.6.4. Oplossen .........................................................................................................89 4.6.5. Voorbeeld (vervolg) .......................................................................................89 4.7. AUTOCORRELATIE ..........................................................................................92 4.7.1. Gevolgen.........................................................................................................92 4.7.2. Ontdekken .....................................................................................................92 4.7.3. Autocorrelatie van eerste orde .....................................................................93 1. Schatten via AC(1) .....................................................................................................94 2. De procedure van Cochrane en Orcutt ....................................................................95 3. De procedure van Durbin..........................................................................................95 4.7.4. Voorbeeld .......................................................................................................96 4.8. DYNAMISCHE MODELLEN .........................................................................100 4.8.1. Inleiding .......................................................................................................100 4.8.2. Eindig gespreide vertragingsmodellen ......................................................101 4.8.3. Oneindig gespreide vertragingsmodellen .................................................102 4.9. VERKLARENDE VARIABELE IS EEN DUMMY .......................................103 HOOFDSTUK 5 ...................................................................................................................105 TIJDREEKSANALYSE ......................................................................................................105 5.1. INLEIDING .........................................................................................................105 5.2. DE COMPONENTEN VAN EEN TIJDREEKS .............................................105 5.2.1. Voorbeelden .................................................................................................105 5.2.2. De trend........................................................................................................108 5.2.3. Seizoensschommelingen..............................................................................109 5.2.3. Cyclische variatie en irreguliere variatie ..................................................110 5.2.4. Algemeen tijdreeksmodel ...........................................................................110 5.3. ANALYSE VAN DE TREND ............................................................................111 5.3.1. Technische aanpak ......................................................................................111 1. Voortschrijdend gemiddelde ...................................................................................111 2. Gewogen gemiddelde ...............................................................................................113 3. Exponential smoothing ............................................................................................114 5.3.2. Trendmodellen ............................................................................................116 5.3.3. Tijdreeksen ontdoen van de trend .............................................................119 5.4. ANALYSE VAN DE SEIZOENSCOMPONENT ............................................121 TU
UT
TU
TU
UT
TU
TU
UT
TU
TU
UT
UT
TU
UT
UT
UT
TU
UT
TU
UT
TU
UT
TU
TU
UT
UT
TU
UT
TU
TU
UT
TU
TU
UT
UT
UT
TU
UT
TU
TU
UT
TU
UT
TU
TU
TU
UT
UT
UT
UT
TU
UT
TU
UT
TU
TU
UT
TU
TU
UT
TU
TU
UT
UT
UT
UT
TU
TU
UT
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
TU
UT
TU
TU
UT
TU
UT
UT
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
TU
UT
TU
UT
TU
TU
TU
UT
UT
UT
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
TU
UT
TU
UT
UT
TU
UT
TU
TU
UT
TU
TU
UT
TU
TU
UT
TU
TU
UT
TU
UT
TU
TU
UT
UT
UT
UT
UT
UT
TU
UT
TU
UT
TU
UT
TU
UT
TU
TU
UT
TU
UT
TU
TU
UT
TU
UT
UT
UT
TU
UT
132
5.4.1. Hoe ontdekken?...........................................................................................121 5.4.2. Hoe meten? ..................................................................................................121 1. Mechanisch, additief tijdreeksmodel .....................................................................121 2. Mechanisch: multiplicatief tijdreeksmodel ...........................................................123 3. Via dummy-variabelen en regressieanalyse ..........................................................125 4. Keuze multiplicatief - additief?...............................................................................126 TU
UT
TU
TU
UT
TU
UT
UT
TU
UT
TU
UT
TU
UT
TU
UT
Bibliografie
133