Prijzen van vliegtickets Validatie van de prijsmodule van het NetCost model
Naam: Aleid van der Flier Collegekaart: 0221139
Datum: 27 augustus 2008 Afstudeerscriptie ORM Begeleiders: drs. J.A.M. Hontelez en prof. drs. J.G. de Wit
Faculteit Economie en Bedrijfskunde Universiteit van Amsterdam
2
Managementsamenvatting Om inzicht te krijgen in het keuzegedrag van de luchtvaartpassagier heeft SEO Economisch Onderzoek het NetCost model ontwikkeld. Per markt (een herkomst- en bestemmingsluchthaven) bepaalt het model de relatieve aantrekkelijkheid van de mogelijke verbindingen. Voor alle relevante verbindingen in die markt worden hiervoor de gegeneraliseerde transportkosten berekend. Deze worden bepaald door de ticketprijs, maar ook door minder zichtbare kosten die gerelateerd zijn aan wacht- en reistijd. De drie modules van het model berekenen achtereenvolgens de kosten van het vliegticket, de kosten gerelateerd aan frequentie (wachttijd) en de kosten gerelateerd aan reistijd. Deze studie richt zich op de ticketprijsmodule. De huidige prijsmodule heeft een factorele structuur, en voorspelt de ticketprijs aan de hand van drie determinanten: de geografische vliegafstand, de concentratie van luchtvaartmaatschappijen op de route (de Herfindahl-index), en het direct of indirect zijn van de vlucht. De parameters in de huidige prijsmodule zijn vastgesteld op basis van de ervaringen van de ontwikkelaars bij SEO. Het model is echter nooit getest op een grote database met prijzen. Opdrachtgevers vragen daarom vaak om onderbouwing van zowel de waarden van de parameters als de specificatie van het model (SEO-a, 2007). In deze studie is onderzocht wat de waarden van de verschillende parameters in de prijsmodule zijn op basis van werkelijke data. Ook is gekeken of de verklarende kracht van het model kan worden versterkt door meer variabelen op te nemen, rekening houdend met de beschikbaarheid van informatie en het gebruiksgemak van het model. Om dit te onderzoeken is een database met ticketprijzen opgebouwd. Voor 300 routes met begin en/of eindpunt in Europa is een ticketprijs opgeslagen. Op basis van deze ticketprijzen is een aantal modellen geschat met dezelfde ticketprijsdeterminanten als de huidige prijsmodule: 1. een lineair model; 2. een niet-lineair model dat het meest verklarend is voor de ticketprijs; 3. een model met dezelfde structuur als het huidige model. Vervolgens zijn lineaire modellen geschat met meer ticketprijsdeterminanten dan de huidige prijsmodule:
3 4. een lineair model met vier extra prijsdeterminanten; 5. een lineair model met twee extra prijsdeterminanten. De resultaten zijn weergegeven in Tabel 1. In de modellen worden de variabelen als volgt afgekort: GCM:
de ticketprijs (enkele reis) op de route;
DIST:
de vliegafstand in uren;
HHI:
de Herfindahl-index op de route (concentratie van luchtvaartmaatschappijen);
Ddirect :
een dummy met de waarde 0 voor een indirecte vlucht en 1 voor een directe vlucht;
COM:
de concurrentiegraad op de route (COM=1-HHI);
DICA :
een dummy met de waarde 0 voor een intra-Europese vlucht en 1 voor een intercontinentale vlucht;
FREQ:
de totale frequentie op de route per week;
DLCC :
een dummy met de waarde 0 als er geen Low Cost Carrier aanwezig is op de route, en 1 als dat wel zo is;
SEATS:
het totale aantal stoelen per week op vluchten van en naar het luchthavenpaar, als maat voor de grootte van de luchthavens (in miljoenen per week).
Bij de beoordeling van de verschillende modellen wordt gebruik gemaakt van de R-squared ( R 2 ), een maat om te bepalen hoe goed een model bij de data past. Na toevoeging van variabelen aan een model kan de R 2 echter nooit dalen. Om modellen met een verschillend aantal verklarende variabelen te vergelijken, kan daarom beter de Adjusted R-squared ( R 2 ) wordt gebruikt. Deze maat legt een ‘straf’ op het verlies aan vrijheidsgraden door de toevoeging van extra variabelen.
4
Tabel 1
Geschatte modellen
Model
R-
Adjusted R-
squared
squared
1: Lineair
GCM = 27 * DISTx , y + 108* HHI x , y + 25
0,745
0,743
2: Meest
GCM = 26 * DIST − 42 * Ddirect − 116 * COM
0,750
0,746
0,745
0,740
0,789
0,784
0,7854
0,782
verklarend 3: Huidige structuur 4: Lineair met 4 extra variabelen 5: Lineair met 2 extra variabelen
+9 * DIST * Ddirect + 142
GCM = (1.30 − 0.32 * COM ) * (0.95 + 0.04 * Ddirect ) *(80 + 24 * DIST ) GCM = 25* DIST + 65* Ddirect + 92 * HHI route + 93* DICA −0.12 * FREQ − 52 * DLCC − 1.7 * SEATS + 19 GCM = 26 * DIST + 50 * Ddirect + 103* HHI route + 95* DICA −1.8* SEATS + 9
De ticketprijzen in de database zijn ruim voor het daadwerkelijke vertrek opgezocht (5 maanden), hebben betrekking op vluchten in de winter op een woensdag, en zijn de laagst beschikbare economy-class tarieven. Om deze redenen vormen ze een onderschatting van werkelijk betaalde ticketprijzen. Het is op basis van deze feiten niet duidelijk hoe groot deze onderschatting precies is. Het huidige NetCost model schat ticketprijzen die gemiddeld 37% hoger liggen, en heeft bewezen gemiddeld goede schattingen af te leveren. Om deze reden zijn de modellen nogmaals geschat op 37% hogere ticketprijzen (zie Tabel 2). Tabel 2
Modellen met correctie voor onderschatting
Model
R-squared
Adjusted R-squared
1: Lineair
GCM = 37 * DISTx , y + 148* HHI x , y + 35
0,745
0,743
2: Meest
GCM = 36 * DIST − 160 * COM
0,750
0,746
0,745
0,740
0,789
0,784
0,785
0,782
verklarend 3: Huidige structuur 4: Lineair met 4 extra variabelen 5: Lineair met 2 extra variabelen
+ (12 * DIST − 59) * Ddirect + 195
GCM = (1.78 − 0.44 * COM ) *(0.95 + 0.04 * Ddirect ) *(80 + 24 * DIST ) GCM = 35* DIST + 89 * Ddirect + 126 * HHI + 128* DICA −0.17 * FREQ − 71* DLCC − 2.3* SEATS + 26 GCM = 35* DIST + 69 * Ddirect + 141* HHI + 128 * DICA −2.5* SEATS + 12
5 Elk onderzocht model heeft zijn voor- en nadelen. Bij de bepaling van het beste model voor SEO Economisch Onderzoek, is het de vraag welke criteria het zwaarst wegen. Model 1: Bij de schatting van een lineair model met de huidige ticketprijsdeterminanten, bleek het direct of indirect zijn van de vlucht niet significant. In dit model wordt de ticketprijs aldus verklaard door de vliegafstand en de concentratiegraad. Op basis van de R 2 is dit eenvoudige lineaire model beter dan een model met de huidige structuur (model 3). Toch lijkt een lineair model niet de beste voorspeller van de ticketprijs. Zo bleek de variabele vliegafstand in het kwadraat veel verklarende waarde te hebben. Model 2: Dit model past van alle geschatte modellen met de huidige ticketprijsdeterminanten het best bij de data. Wil men zich beperken tot de huidige ticketprijsdeterminanten, dan is dit het model met de meeste verklarende kracht. Het niet-lineaire (afvlakkende) verband tussen afstand en ticketprijs komt ook hier naar voren doordat de variabele direct/indirect als een negatieve proxy voor afstand fungeert. Model 3: Als men de huidige (inzichtelijke) vorm van het NetCost model wil behouden, past model 3 het beste bij onze data. De R 2 is wel lager dan bij model 2, en de R 2 zelfs lager dan die van het meest eenvoudige lineaire model! Van alle lineaire modellen met extra toegevoegde variabelen, passen modellen 4 en 5 het beste bij de data. Beide modellen laten zien dat een vlucht binnen Europa goedkoper is dan een intercontinentale vlucht (afgezien van het afstandseffect1), evenals een vlucht tussen grotere luchthavens. In model 4 zien we verder nog een prijsverlagend effect van een Low Cost Carrier op de route2 en van een hogere totale frequentie op de route. Op basis van de R 2 kan gesteld worden dat model 4 het beste model is. Model 5 scoort echter het beste op het Schwartz criterium, een maat die een zwaardere straf legt op het verlies aan vrijheidsgraden door het toevoegen van variabelen. Deze leidt daarom over het algemeen tot een simpeler model. SEO Economisch Onderzoek is geïnteresseerd in een zo correct mogelijk model met zo min mogelijk variabelen. Voor elke variabele dient te worden afgewogen hoeveel beter het
1
Het is niet duidelijk waardoor dit veroorzaakt wordt. Mogelijk heeft het te maken met de aanwezigheid van Low Cost Carriers op de kortere afstanden en verschillen in de concurrentieverhoudingen. 2 In onze database komen geen vluchten van Low Cost Carriers voor. Het gaat dus om een prijsverlagend effect van de aanwezigheid van een Low Cost Carrier op de vliegtarieven van andere luchtvaartmaatschappijen op de route.
6 model wordt door toevoeging ervan. In dit licht scoort 5 beter dan model 4, dat immers twee variabelen meer heeft. Er kan niet worden aangegeven welk model het meest geschikt is; zoals opgemerkt, hangt dat af van de vraag welke criteria het zwaarst wegen voor SEO. In het geval van vervolgonderzoek verdient het aanbeveling om modellen te schatten op een database met ticketprijzen die een betere afspiegeling zijn van de werkelijk betaalde tarieven, door bijvoorbeeld gedurende langere tijd te monitoren. Ook zou het interviewen van een Revenue Management specialist van een luchtvaartmaatschappij meer inzicht in de werkelijke tarieven kunnen geven. Daarnaast zou verder onderzoek gedaan kunnen worden naar een nietlineair model met meer ticketprijsdeterminanten dan in het huidige NetCost model.
Inhoud 1.
Inleiding
2
2.
Probleemanalyse
5
3.
4.
5.
6.
7.
2.1.
Regulering
5
2.2.
Ticketprijzen
6
2.3.
NetCost
12
2.4.
Aanpak
15
Data
16
3.1.
Dataverzameling
16
3.2.
Data-analyse
23
Modelschattingen
27
4.1.
Huidig model
27
4.2.
Lineair model
28
4.3.
Niet-lineair model
29
4.4.
NetCost-model
32
4.5.
Gesegmenteerde schatting
33
4.6.
Samenvatting
34
Uitgebreid model
35
5.1.
Schattingen uitgebreid model
35
5.2.
Hanteerbaarheid
38
5.3.
Modellen in de literatuur
39
Vergelijking modellen
41
6.1.
Analyse geschatte modellen
41
6.2.
Modellen met correctie voor onderschatting
43
Conclusie en aanbevelingen
45
Literatuurlijst
48
Bijlagen
50
2
1. Inleiding In luchtvaarteconomisch onderzoek is het van belang om inzicht te krijgen in het keuzegedrag van de passagier (de Wit, 2001). In dit kader zijn bijvoorbeeld de keuze voor een bepaalde bestemming en de afweging tussen het vliegtuig en de trein relevant. Deze beslissingen hangen samen met andere keuzes, zoals de keuze voor een vertrekluchthaven, een luchtvaartmaatschappij en een directe of indirecte vlucht. Om op dit gebied voorspellingen te doen, hanteert SEO Economisch Onderzoek onder meer het NetCost model (SEO, 2006). De uitvoer van dit model maakt duidelijk hoe de passagier het serviceniveau van een luchtvaartproduct ervaart. Met behulp van netwerkgegevens worden indicatoren bepaald die de aantrekkelijkheid van verschillende routes en luchtvaartmaatschappijen aangeven. In het NetCost model wordt een aantal variabelen gebruikt dat invloed heeft op deze aantrekkelijkheid: ticketprijs, vluchtfrequentie en reistijd. Op basis hiervan worden de gegeneraliseerde transportkosten van een bepaald luchtvaartproduct berekend, waarna onderlinge vergelijking kan plaatsvinden. Informatie over ticketprijzen is echter moeilijk verkrijgbaar. In de Verenigde Staten beschikt het Department of Transportation over Databank 1A (DB1A), met daarin een steekproef van 10% van de ticketprijzen. Deze gegevens zijn echter maar deels toegankelijk, en hebben alleen betrekking op binnenlandse vluchten in de Verenigde Staten. In Europa zijn dit soort databases er nauwelijks. Wel kan via de reserveringssystemen van luchtvaartmaatschappijen de prijs voor een bepaalde vlucht op een bepaald moment in de toekomst worden opgezocht. Eén boekingsdag of één vertrekdag later kan deze prijs echter anders zijn. Luchtvaartmaatschappijen gebruiken immers revenue management systemen voor de vaststelling van hun tarieven. Hierbij hangt de ticketprijs af van onder andere de dag van de week en het aantal reeds verkochte stoelen. De revenue management systemen van luchtvaartmaatschappijen zijn niet openbaar, en databases met ticketprijzen zijn niet of slechts tegen hoge vergoedingen te verkrijgen. Om deze redenen berekent het NetCost model zelf een gemiddelde ticketprijs. In de ticketprijsmodule van het model is een aantal variabelen opgenomen, waarvan aangenomen kan worden dat ze de ticketprijs op een bepaalde route beïnvloeden. Dit zijn de geografische afstand tussen vertrek- en bestemmingsluchthaven, de concurrentie op de route en het direct of indirect zijn van de verbinding. Op basis van de ervaring van de ontwikkelaars bij SEO zijn de bijbehorende parameters vastgesteld.
3
In het luchtvaarteconomisch onderzoek bij SEO wordt het NetCost model vaak toegepast (SEO, 2006). Regelmatig klinkt echter het verzoek van opdrachtgevers om wetenschappelijke onderbouwing van de coëfficiënten in de prijsmodule. In deze scriptie wordt geprobeerd tot een beter onderbouwd model te komen. In de Verenigde Staten zijn al verschillende studies gedaan naar de determinanten van ticketprijzen (bijv. Borenstein, 1989). Omdat modelspecificaties verschillen, kunnen de daarbij geschatte coëfficiënten echter niet direct in het NetCost model gebruikt worden. Het NetCost model zou wellicht anders gespecificeerd kunnen worden. Niet alle gevonden relevante variabelen kunnen echter in een praktisch toepasbaar model worden opgenomen. De Amerikaanse onderzoeken baseren zich op de DB1A data. Er bestaan nauwelijks andere (Europese) onderzoeken naar de bepaling van ticketprijzen3. In dit licht is het komen tot een valide prijsmodel op basis van Europese data interessant. Om tot een verbetering van de prijsmodule van het NetCost model te komen dient allereerst kritisch te worden gekeken naar het huidige model. De vraag in dit kader is: 1. Wat zijn de waarden van de verschillende parameters onder de huidige modelspecificaties op basis van werkelijke data? Vervolgens zouden meer variabelen die significant zijn voor de bepaling van de ticketprijs, in het NetCost model kunnen worden opgenomen. Hierbij speelt de afweging tussen significantie en hanteerbaarheid een grote rol. Er wordt een antwoord gezocht op de volgende vraag: 2. Hoe zou de prijsmodule van het NetCost model zo goed mogelijk gespecificeerd kunnen worden, als rekening gehouden wordt met de beschikbaarheid van informatie en gebruiksgemak van het model? Om deze vragen te beantwoorden, moeten de modellen geschat worden met behulp van econometrische technieken. Hiervoor is een dataset met werkelijke ticketprijzen nodig, die opgebouwd kan worden door vliegtarieven uit de reserveringssystemen van de luchtvaartmaatschappijen op te halen. Enerzijds zullen zoveel mogelijk data over een zo lang mogelijke tijd de beste resultaten opleveren. Anderzijds is aan dit onderzoek een tijdslimiet
3
Uitzonderingen zijn bijvoorbeeld Giaume en Guillou (2004) en Carlsson (2004).
4 gebonden. Hiertussen zal dus een afweging gemaakt moeten worden. Verder moet de variatie in de data voldoende groot zijn. Dit levert de volgende aanvullende vragen op: 3. Welke (hoeveel) vluchten monitoren? 4. Voor welke (hoeveel) vertrekdata in de toekomst deze vluchten monitoren? 5. Hoe lang en hoe vaak de vluchten voor deze vertrekdata monitoren? De verdere probleembeschrijving wordt gegeven in hoofdstuk 2. De data staan beschreven in hoofdstuk 3. Hoofdstuk 4 behandelt modellen met de huidige NetCost variabelen. Een uitgebreider model wordt beschreven in hoofdstuk 5. Hoofdstuk 6 vergelijkt de gevonden modellen met elkaar. Hoofdstuk 7 ten slotte bevat conclusies en verdere aanbevelingen.
5
2. Probleemanalyse In dit hoofdstuk geven we eerst een overzicht van de luchtvaartmarkt en van ticketprijzen in de luchtvaart. Vervolgens wordt het NetCost model beschreven.
2.1. Regulering De huidige ticketprijzen in de luchtvaart komen tot stand onder invloed van een complex aan factoren. Dit kan slechts verklaard worden aan de hand van de reguleringsgeschiedenis van de luchtvaart. Doganis (2001) deelt deze geschiedenis op in drie perioden. Tussen de Tweede Wereldoorlog en 1978 was de luchtvaart sterk gereguleerd. De bilaterale air service agreements speelden daar een grote rol in. Hierin werden onder andere frequentie, capaciteit en tarieven van het vliegverkeer tussen beide staten bepaald. De vluchten moesten uitgevoerd worden door de nationale carriers. De tarieven werden (vrijwel altijd) jaarlijks vastgelegd op de conferenties van de International Air Transport Association (IATA). Overheden van beide staten moesten deze ook nog goedkeuren, de zogenaamde ‘double approval’. Er was spraken van protectionisme door de hoge prijzen en substantiële staatssteun aan nationale carriers. In de jaren ’70 werd het restrictieve regime steeds minder houdbaar. Chartervluchten met lagere tarieven dan die van de IATA namen sterk in aantal toe. Daarnaast werden de IATA regels door nieuwe Aziatische lijndienstmaatschappijen genegeerd. Ze leverden een betere service en lagere prijzen. Hierop volgde de eerste fase van de liberalisatie, de ‘open markets’. De deregulering van de nationale luchtvaartmarkt in de Verenigde Staten (1978) luidde deze fase in. Opvallend was de opkomst van de Low Cost Carriers, die lagere service en vertrek vanaf vaak secundaire luchthavens aanboden tegen lage tarieven. Om ook op internationale routes meer competitie toe te staan en een aantal beperkingen op te heffen, werden de bilaterale verdragen met andere landen één voor één herzien. Prijzen werden door de luchtvaartmaatschappijen vastgelegd tenzij één van beide landen ze afkeurde. Niet lang daarna begon men ook binnen Europa over de onderlinge verdragen te onderhandelen. Dit resulteerde in nieuwe liberalere overeenkomsten, die grote gevolgen hadden. Het luchtverkeer nam sterk toe, nieuwe toetreders op de routes zorgden voor lagere prijzen. Nog steeds kende de luchtvaart echter veel meer restricties dan andere internationale industrieën. Het ‘open skies’ verdrag tussen Nederland en de Verenigde Staten was een
6 volgende stap in de richting van internationale deregulering. Het verdrag regelde vrije route toegang, geen capaciteits- of frequentiebeperkingen en geen tariefcontrole. Te hoge of te lage ticketprijzen door monopoliepraktijken of staatssteun werden wel verboden (Doganis, 2001). Ook tussen de VS en Canada werd een dergelijk verdrag gesloten. Om te voldoen aan de groeiende vraag, vooral naar lange afstandsvluchten, moesten luchtvaartmaatschappijen wereldwijde netwerken ontwikkelen. Hiervoor werd code sharing op internationale vluchten ingevoerd. De vliegreis werd dan aangeboden als meerdere op elkaar aansluitende vluchten, uitgevoerd door verschillende luchtvaartmaatschappijen die samenwerkten in een code share overeenkomst. Dit leverde de consument een grotere variëteit in prijs en service van het luchtvaartproduct op. Met verschillende landen sloot de VS vervolgens ‘open skies’ verdragen. Voor landen die zulke liberale verdragen niet wilden, was de toegang tot de VS zeer beperkt. Binnen Europa was vanaf eind jaren ‘80 eveneens sprake van verdere liberalisatie. Multilaterale verdragen zorgden voor steeds minder beperkingen op capaciteit, markttoegang en prijzen. Na drie pakketten liberaliseringsmaatregelen ontstond een gemeenschappelijke Europese luchtvaartmarkt voor leden van de EU zonder prijscontrole. De Europese Commissie mag echter wel ingrijpen als er monopoliepraktijken dreigen te ontstaan. In maart 2008 is er een ‘open skies’ verdrag van kracht geworden tussen de VS en de hele EU4. In de toekomst zal het proces van liberalisatie waarschijnlijk doorgaan. Verder dalende prijzen zullen het gevolg zijn, mede door de invloed van de Low Cost Carriers. Luchtvaartmaatschappijen zijn dus genoodzaakt om hun kosten verder terug te dringen en hun opbrengsten te maximaliseren. De luchtvaartmaatschappijen proberen dit onder andere te bewerkstelligen door hun ticketprijsbeleid.
2.2. Ticketprijzen Het ticketprijsbeleid van luchtvaartmaatschappijen resulteert in een grote verscheidenheid aan vliegtarieven. Zelfs voor (sterk) vergelijkbare vluchten bestaat een grote variatie in ticketprijzen. In deze paragraaf wordt aan de hand van de wetenschappelijke literatuur op dit gebied bekeken hoe deze tarieven tot stand komen. Hierbij spelen de begrippen productdifferentiatie en prijsdiscriminatie een centrale rol. 4
Meer informatie over dit verdrag en de consequenties ervan zijn te vinden op de website van Airneth: www.airneth.nl (Airneth, 2008).
7 Productdifferentiatie refereert aan het voeren van heterogene producten, hierbij kunnen verschillende prijsniveaus aan reëel verschillende producten worden gekoppeld. Prijsdiscriminatie is het voeren van verschillende prijzen voor verschillende groepen consumenten voor gelijke producten. Hiermee roomt de aanbieder zoveel mogelijk consumentensurplus5 af. Prijsdiscriminatie is alleen mogelijk als: 1. de prijsdiscriminerende aanbieder marktmacht heeft; 2. het gekochte goed niet doorverkocht kan worden; 3. de consumenten een heterogene populatie zijn, zodat de aanbieder groepen consumenten met verschillende prijselasticiteit van vraag kan scheiden (Varian, 2003). Gesteld kan worden dat in de luchtvaart aan al deze voorwaarden wordt voldaan: 1. Er is sprake van marktmacht omdat de meeste luchtvaartmarkten oligopolistisch van aard zijn. Ook spelen network-economies binnen de hub&spoke netwerken een rol. 2. Het doorverkopen van tickets is meestal niet of slechts tegen zeer hoge kosten mogelijk. 3. Luchtvaartpassagiers hebben duidelijk een variërende prijselasticiteit van vraag (Borenstein en Rose, 1994). Voor zakenreizigers is deze lager dan voor toeristen, aangezien zakenreizigers meestal niet hun eigen ticket betalen en zij andere criteria dan prijs belangrijker vinden (zoals flexibiliteit). De grote variatie in ticketprijzen voor vergelijkbare vluchten is het gevolg van zowel productdifferentiatie als prijsdiscriminatie. De optimale prijsstelling voor een bepaald ticket wordt bepaald met behulp van zogenaamde Revenue Management technieken.
Revenue management Luchtvaartmaatschappijen proberen dure tickets te verkopen passagiers met een hoge willingness-to-pay, en goedkopere tickets aan passagiers met een lagere willingness-to-pay. De dure tickets leveren boekingsflexibiliteit en dus meer risico voor de luchtvaartmaatschappij. Het aantal goedkopere tickets is vaak beperkt, en deze tickets zijn alleen verkrijgbaar als aan allerlei voorwaarden wordt voldaan. Voorbeelden van voorwaarden zijn het opnemen van een zaterdagnacht in het verblijf en lange tijd voor vertrek boeken. Als voldaan wordt aan bepaalde restricties, levert dit een 5
Consumentensurplus is het verschil tussen hoeveel de consumenten bereid zijn te betalen voor een product en hoeveel zij daadwerkelijk moeten betalen als ze het product kopen (Varian, 2003)
8 korting op het standaard (ongerestricteerde) economy tarief op. Zo ontstaat een scala aan tarieven (Talluri & Ryzin, 2005). Dit wordt ook wel zelf-selectieve prijsdiscriminatie genoemd. Consumenten maximaliseren hun verwachte nut als ze kiezen uit combinaties van prijzen en restricties. Zo scheiden luchtvaartmaatschappijen prijsgevoelige consumenten voor wie restricties relatief onbelangrijk zijn, van prijs-inelastische consumenten (Varian, 2003). Doordat alle (groepen) consumenten (ongeveer) hun reserveringsprijs betalen, komt er zoveel mogelijk consumentensurplus bij de luchtvaartmaatschappijen terecht. In figuur 2-1 is een vraagcurve van luchtvaartpassagiers te zien. In de eerste grafiek wordt slechts één prijs P1 gevraagd. In de tweede grafiek wordt prijs P2 gevraagd aan passagiers met een lage willingness-to-pay, en prijs P3 aan passagiers met een hogere willingness-to-pay. Het deel B dat bij de luchtvaartmaatschappij terechtkomt, is in de tweede grafiek groter. Zo roomt de luchtvaartmaatschappij een deel van het consumentensurplus af. Figuur 2-1
Aan twee verschillende consumentengroepen worden één (P1) respectievelijk twee (P2 en P3) prijzen gevraagd.
Passagiers worden door de restricties gestimuleerd lange tijd van tevoren te boeken. Zo probeert een luchtvaartmaatschappij haar toestel goed gevuld te krijgen. De tickets vlak voor vertrek zijn vaak duur en dus alleen betaalbaar voor zaken passagiers. Zijn er echter nog veel lege plaatsen, dan wordt vaak juist korting gegeven op de laatste stoelen. Vliegtarieven een duidelijk jaar- en weekpatroon. Er geldt een zomer- en een wintertarief, met pieken rondom vakanties en feestdagen. Rondom het weekend ligt de prijs ook vaak hoger (zie ook hoofdstuk 3.1). Het patroon van prijsniveaus verschilt echter sterk per type vlucht. Zo
9 zullen de tarieven van een typische zakenvlucht andere schommelingen laten zien dan die van een vakantiecharter. De schommelingen worden veroorzaakt door verschil in capaciteitskosten, maar ook door afroming van de willingness-to-pay. De mogelijkheid om hoge tarieven te vragen, hangt aldus samen met de concurrentieverhoudingen. Een luchtvaartmaatschappij met een monopolie op een bepaalde route kan voor haar diensten hoge prijzen vragen. Waar meer maatschappijen op een route vliegen, zullen de prijzen lager uitvallen. Dit geldt zeker in het geval van prijzenoorlogen, wanneer één maatschappij gaat stunten met haar tarieven (Hayes & Ross, 1998). Een Low Cost Carrier op de route is hier een voorbeeld van.
Prijsdeterminanten In de literatuur over vliegtarieven zijn verschillende prijsmodellen te vinden, waarin duidelijk wordt door welke factoren (prijsdeterminanten) de ticketprijzen beïnvloed worden. Deze modellen zijn in twee groepen op te splitsen: modellen waarin de hoogte van de ticketprijs wordt geschat, en modellen waarin de ticketprijsvariatie wordt geschat. Wij zijn vooral geïnteresseerd in modellen van de eerste soort. Aangezien dit onderzoek gaat over gemiddelde ticketprijzen op een route zijn alleen die factoren bestudeerd, die het gemiddelde beïnvloeden. De tijd tussen boeking van een bepaald ticket en het vertrek is bijvoorbeeld wel van invloed op de individuele ticketprijs, maar niet op het gemiddelde. De prijsdeterminanten die worden onderscheiden door de verschillende auteurs staan in onderstaand overzicht. Ook wordt het verwachte effect op de ticketprijs gegeven. 1. Afstand (Borenstein, 1989, Stavins, 1996, Giaume en Guillou, 2004, Carlsson, 2004): de non-stop vliegafstand tussen de herkomst- en bestemmingsluchthaven. Afstand heeft een positief verwacht effect op de ticketprijs, maar volgens Borenstein (1989) met een elasticiteit lager dan 1, omdat de kosten voor de luchtvaartmaatschappij niet lineair toenemen met de afstand. Stavins (1996) noemt het kwadraat van de afstand daarom ook als verklaring voor de ticketprijs; 2. Loadfactor (Borenstein, 1989): gemiddelde bezettingsgraad van de vlucht. Een hogere loadfactor kan de gemiddelde kosten per passagier voor een luchtvaartmaatschappij omlaag brengen, met een lagere ticketprijs als gevolg. Ook kan de kwaliteit van de vlucht als minder worden ervaren, waardoor de consument bereid is minder te betalen. Loadfactor heeft dus een negatief effect op de prijs;
10 3. Gemiddelde vliegtuiggrootte (Borenstein, 1989, Carlsson, 2004). Het kan aangenomen worden dat de kosten per zitplaatskilometer voor de luchtvaartmaatschappij dalen als de gemiddelde vliegtuiggrootte op de route toeneemt, dus het verwachte effect van deze variabele op de ticketprijs is negatief; 4. Frequentie (Borenstein, 1989, Carlsson, 2004). Op routes met een hogere frequentie is de benuttinggraad van de vliegtuigen vaak hoger, waardoor de vaste kosten relatief lager zijn. De kosten per vlucht voor de luchtvaartmaatschappij nemen dan af (economies of density). Een hogere frequentie verhoogt echter ook de waarde van het product (het vliegticket), dus het effect op de ticketprijs is niet duidelijk. 5. Omwegpercentage (Borenstein, 1989): de daadwerkelijk gevlogen afstand gedeeld door de hemelsbrede afstand tussen herkomst en bestemmingsluchthaven. Een hoger omwegpercentage verhoogt de productiekosten voor een luchtvaartmaatschappij en verlaagt de kwaliteit van de vlucht. Het verwachte effect op de ticketprijs is dus niet duidelijk; 6. Stops (Borenstein, 1989): het aantal tussenlandingen tijdens de vlucht. Het effect hiervan op de ticketprijs is onduidelijk. Een tussenlanding verhoogt de kosten voor de luchtvaartmaatschappij door het extra opstijgen en landen. De kwaliteit van de vlucht kan door de passagiers echter als minder worden ervaren; 7. Overstappen (Borenstein, 1989): het aantal maal overstappen voor de passagiers op de route. Voor het verwachte effect op de ticketprijs geldt hetzelfde als bij Stops; 8. Marktaandeel van het aantal passagiers op de eindpunten (Borenstein, 1989, Evans en Kessides, 1993): het gewogen gemiddelde van het marktaandeel passagiers dat de luchtvaartmaatschappij heeft op de herkomst- en bestemmingsluchthaven. Een hoger passagiersaandeel betekent meer marktmacht op de route voor de luchtvaartmaatschappij, dus de mogelijkheid om hoge ticketprijzen vragen. Het verwachte effect op de ticketprijs is zodoende positief. 9. Marktaandeel van het aantal passagiers op de route (Borenstein, 1989, Stavins, 1996, Giaume en Guillou, 2004). Een hoger marktaandeel passagiers betekent meer marktmacht op de route voor de luchtvaartmaatschappij, dus de mogelijkheid om hoge ticketprijzen vragen. Het verwachte effect op de ticketprijs is dus positief. 10. HHI op de eindpunten (Borenstein, 1989, Evans en Kessides, 1993): het gewogen gemiddelde van de Herfindahl-indices op de herkomst- en bestemmingsluchthaven. De Herfindahl index (zie ook hoofdstuk 2.3) op een luchthaven is een maat voor de concentratie van luchtvaartmaatschappijen op die luchthaven (op basis van frequentie).
11 Een hoge Herinfindahl index duidt op weinig concurrentie tussen luchtvaartmaatschappijen, en zou dus een indicatie van marktmacht kunnen zijn (Evans en Kessides, 1993). Net als bij passagiersaandeel op de eindpunten (zie punt 8) is het verwachte effect op de prijs is dan ook positief. 11. HHI op de route (Borenstein, 1989, Stavins, 1996, Giaume en Guillou, 2004). Net als passagiers aandeel op de route (zie punt 9) geeft dit een indicatie van marktmacht op de route, het verwachte effect op de prijs is dus ook positief. 12. Aandeel toeristen op de route (Borenstein, 1989, Stavins, 1996). Borenstein gebruikt hiervoor de gemiddelde toerisme-index van de herkomst en bestemmingsregio. Stavins gebruikt het absolute temperatuurverschil in januari tussen beide regio’s als maat voor het aantal toeristen. Ook gebruikt zij het gemiddelde inkomen in de herkomst en bestemmingsregio als een indicator hiervoor. Een groter aandeel toeristen op een vlucht zal een negatief effect op de ticketprijs hebben; zakenreizigers zijn immers bereid een hogere ticketprijs te betalen dan toeristen; 13. Specifieke airport dummy (Borenstein, 1989, Carlsson, 2004). Een dummy variabele per individuele luchthaven kan corrigeren voor luchthavenspecifieke kenmerken, zoals congestie. 14. Gemiddeld inwonertal citypair (Stavins, 1996, Giaume en Guillou, 2004, Carlsson, 2004). Het gemiddelde inwonertal van de herkomst- en bestemmingsregio is een maat voor de vraag naar vliegreizen tussen beide plaatsen, het effect op de ticketprijs is echter niet duidelijk. 15. Hub dummy (Stavins, 1996, Giaume en Guillou, 2004). Een luchtvaartmaatschappij zou marktmacht kunnen uitoefenen op vluchten vanaf zijn hub. Een dummy variabele voor een hub heeft dus een positief verwacht effect op de ticketprijs; 16. Lowcost Carrier dummy (Giaume en Guillou, 2004). Een Low Cost Carrier op de route kan andere luchtvaartmaatschappijen ertoe dwingen hun ticketprijzen te verlagen. Een dummy voor de aanwezigheid van Low Cost Carrier op de route heeft dus een negatief effect op de ticketprijs; De gemiddelde ticketprijzen die door deze prijsdeterminanten bepaald worden, zijn niet openbaar. Informatie over deze prijzen is echter wel nodig in luchtvaarteconomisch onderzoek naar bijvoorbeeld het keuzegedrag van de passagier. SEO Economisch Onderzoek heeft hiervoor het NetCost model ontwikkeld.
12 2.3. NetCost Het NetCost model wordt gebruikt om per markt (een herkomst- en bestemmingsluchthaven) de relatieve aantrekkelijkheid van de mogelijke verbindingen te bepalen. Hiervoor worden voor alle relevante verbindingen in die markt de gegeneraliseerde transportkosten berekend. Deze bestaan uit alle ‘kosten’ waar een passagier mee geconfronteerd wordt in verband met de reis. Dit zijn monetaire kosten in de vorm van de ticketprijs, maar ook minder zichtbare kosten die gerelateerd zijn aan wacht- en reistijd. Deze worden mede bepaald door de tijdwaardering van de passagier. De drie modules van het model berekenen achtereenvolgens de kosten van het vliegticket, de frequentie (wachttijd) en de reistijd. De kosten om over land naar de aankomstluchthaven te reizen, worden niet meegenomen in het NetCost model. 1. In de prijsmodule wordt aan de hand van een aantal factoren de ticketprijs bepaald. De afstand tussen de herkomst- en bestemmingsluchthaven speelt een belangrijke rol. De concurrentiegraad op de route beïnvloedt ook de prijs: meer concurrentie levert een lagere verwachte prijs op. Ten slotte berekent het model voor directe vluchten een hogere prijs dan voor indirecte vluchten. 2. De frequentiemodule berekent de ‘kosten’ die veroorzaakt worden door het verschil tussen het gewenste en mogelijke vertrektijdstip. Omdat de frequenties in de luchtvaart lager liggen dan bij andere soorten vervoer, kunnen de wachttijden substantieel zijn. Doorgaans brengt men deze wachttijd niet op een vliegveld door, maar kan men de tijd productief besteden. Daarom wordt deze tijd lager gewaardeerd dan de eigenlijke reistijd. De gegeneraliseerde wachttijdkosten worden bepaald door de gemiddelde wachttijd tussen twee opeenvolgende vluchten te vermenigvuldigen met de wachttijdwaardering. 3. De reistijdmodule bepaalt de kosten die samenhangen met de reistijd van de passagier. Een langere vlucht via een hub valt zo duurder uit dan een directe vlucht. Ook de eventuele wachttijd op de hub wordt hierbij meegenomen. Op basis van de totale reistijd kunnen de gegeneraliseerde reistijdkosten berekend worden aan de hand van de reistijdwaardering van de passagier. Als er maximaal één overstap nodig is kan elke verbinding aan de hand van vier dimensies worden beschreven: vertrekluchthaven x, bestemmingsluchthaven y, hub a, en luchtvaartmaatschappij h. In het geval van een indirecte vlucht kan het zo zijn dat de verbinding door twee verschillende luchtvaartmaatschappijen wordt verzorgd. Het NetCost model analyseert echter alleen verbindingen die verzorgd worden door één en dezelfde
13 luchtvaartmaatschappij, of door luchtvaartmaatschappijen uit dezelfde alliantie. In dat laatste geval geeft h de alliantie weer. Het NetCost model ziet er samenvattend als volgt uit:
GCx ,h , y ,a = GCTx ,h , y ,a + GCFx ,h , y ,a + GCM x ,h , y ,a
(2.3.1)
Waarbij
GCx ,h , y ,a :
gegeneraliseerde kosten tussen airports x en y via hub a met airline h
GCTx ,h , y ,a :
gegeneraliseerde kosten gerelateerd aan reistijd tussen airports x en y via hub a met airline h
GCFx ,h , y ,a :
gegeneraliseerde kosten gerelateerd aan frequenties tussen airports x en y via hub a met airline h
GCM x ,h , y ,a :
gegeneraliseerde kosten gerelateerd aan ticketprijzen tussen airports x en y via hub a met airline h
Dit onderzoek richt zich op de ticketprijsmodule, GCM x ,h , y ,a 6. In deze module worden verwachte ticketprijzen berekend (enkele reis). Dit wordt gedaan door een referentieprijs te bepalen die afhangt van de geografische afstand tussen x en y in vlieguren, ( DISTx , y ):
REFx , y = 40* DISTx , y + 80
(2.3.2)
Het model gebruikt de vliegafstand in uren in plaats van in kilometers, omdat verder in het model wordt gewerkt met reistijdwaarderingen (zie ook pag. 9). Om de uiteindelijke ticketprijs te verkrijgen, wordt de referentieprijs vermenigvuldigd met factoren die afhangen van het direct of indirect zijn van de vlucht en van de concurrentie op de route. π r is de routefactor: 1.1 voor directe, 0.95 voor indirecte routes.
(2.3.3)
Er wordt geen onderscheid gemaakt tussen één of meerdere stops. π c is de concurrentiefactor, en wordt gegeven door:
π c = 1.25 − 0.5* COMPx , y Met
COMPx , y = 1 − HHI x , y
6
Voor bespreking van de overige GC componenten wordt verwezen naar SEO-a (2006)
(2.3.4)
14 Waarbij HHI x , y de Hirschman-Herfindahl index is. De Hirschman-Herfindahl index is een veel gebruikte indicator van de concentratie op een bepaalde route, en wordt gegeven door: HHI x , y
⎛ FREQx , y ,a ⎞ = ∑⎜ ⎟⎟ ⎜ a ⎝ ∑ a FREQ x , y ,a ⎠
2
(2.3.5)
waarbij FREQx , y ,a de vluchtfrequentie is tussen luchthaven x en y met luchtvaartmaatschappij a. Een Hirschman-Herfindahl index van 1 op een bepaalde route betekent dus dat er maar één luchtvaartmaatschappij actief is. De route heeft dan een concurrentiegraad ( COMPx , y ) van 0, en een concurrentiefactor π c van 1,25. Een monopolie zorgt dus voor een hogere verwachte ticketprijs. De verwachte ticketprijs wordt uiteindelijk:
GCM x ,h , y ,a = REFx , y * π r * π c
(2.3.6)
De input van de prijsmodule zijn dus gegevens over een specifieke route. Deze gegevens zijn niet tijdsafhankelijk: moment van vertrek en moment van boeken worden niet meegenomen. De output is een gemiddelde ticketprijs van een vlucht op een willekeurig tijdstip, op een willekeurige dag geboekt. Door zijn structuur is de prijsmodule van het huidige NetCost model inzichtelijk: de basis is een referentieprijs gebaseerd op de vliegafstand, welke vervolgens wordt verhoogd of verlaagd door de factoren concurrentiegraad en het direct of indirect zijn van de vlucht. Deze inputgegevens zijn eenvoudig te verkrijgen, en hun effect op de ticketprijs is eenduidig. Redenen om andere factoren niet op te nemen in het model kunnen zijn geweest: Het komt de inzichtelijkheid van het model niet ten goede. Er is niet voldoende informatie beschikbaar. Het effect op de ticketprijs is niet duidelijk.
De parameters in het huidige NetCost model7 zijn vastgesteld op basis van de ervaringen van de ontwikkelaars bij SEO. In de loop der tijd zijn ze vaak bijgesteld. Toch is het model nooit
7
Waar over het NetCost model gesproken wordt, wordt in het vervolg de prijsmodule van het NetCost model bedoeld.
15 getest op een grote database met prijzen. Opdrachtgevers vragen daarom vaak om onderbouwing van zowel de waarden van de parameters als de specificatie van het model (SEO-a, 2007). SEO Economisch onderzoek vraagt zich verder af of de verklarende kracht van het model kan worden versterkt door meer variabelen in het model op te nemen.
2.4. Aanpak
Om bovengenoemde redenen wordt in het vervolg van deze studie onderzoek gedaan naar:
de specificatie van het huidige model; de parameterwaarden van het huidige model; een eventuele uitbreiding van het huidige model. Voor de modelschattingen is een database met ticketprijzen nodig. Hoofdstuk 3 behandelt het proces van dataverzameling. Ook worden de verzamelde data geanalyseerd. In hoofdstuk 4 worden eerst de uitkomsten van de huidige prijsmodule van het NetCost model vergeleken met de prijzen in de dataset. Vervolgens worden nieuwe modellen geschat, die statistisch gezien beter bij de werkelijke data passen. Hoofdstuk 5 onderzoekt of er nog aanvullende variabelen in het model opgenomen kunnen worden. In hoofdstuk 6 worden de geschatte modellen met elkaar vergeleken. Hoofdstuk 7 geeft ten slotte een conclusie en verdere aanbevelingen.
16
3. Data Dit hoofdstuk beschrijft de dataset met ticketprijzen die voor dit onderzoek gebruikt is. In paragraaf 3.1 wordt beschreven hoe de dataset tot stand is gekomen. In paragraaf 3.2 worden de verzamelde data geanalyseerd.
3.1. Dataverzameling
Om tot een goede dataset te komen, onderscheiden we de volgende vragen: 1. Welke datasets worden in de literatuur gebruikt? 2. Wat is de toepassing van de data in dit onderzoek? 3. Welke data zijn beschikbaar? 4. Waar moeten de data aan voldoen? 5. Aanpak: Welke data monitoren?
3.1.1 Literatuurstudie De literatuur waarin gebruik gemaakt wordt van ticketprijsdata om modellen te schatten, komt voor een groot deel uit de VS. Hierin wordt meestal gebruik gemaakt van data uit de Data
Bank 1A, een databestand verkregen uit de Origin and Destination Survey van het U.S. Department of Transportation8. Dit is een 10% steekproef van alle verkochte vliegtickets van VS carriers met vertrek vanuit de VS. De artikelen maken gebruik van 1 of meer kwartalen data. Borenstein (1984) geeft expliciet aan dat hij zijn vergelijking met drie verschillende prijzen per route schat: het 20e, 50e en 80e percentiel van de prijzen per route. Stavins (1996) schat haar prijsmodel op basis van prijzen van 12 VS routes op één vertrekdatum, die op 4 tijdstippen van tevoren zijn opgehaald. Giaume en Guillou (2004) doen dit ook, maar dan voor intra EU routes vanuit Nice. Zij kiezen hierbij het goedkoopste ticket. Carlsson (2004) daarentegen schat op basis van business class prijzen, van 172 citypair markten in de EU. Het tijdstip van boeken wordt in slechts 2 artikelen meegenomen. Het aantal dagen voor vertrek wordt hier als afhankelijke variabele mee geschat. Zo wordt dus ook het revenue
8
Deze database is slechts deels toegankelijk en bevat alleen vluchten binnen de VS, dus wordt voor dit onderzoek niet gebruikt.
17 management aspect meegenomen. Stavins geeft daarnaast aan dat het tijdstip van vertrek met opzet niet in een weekend of vakantie valt.
3.1.2 Toepassing Het doel van dit onderzoek is het schatten van de prijsmodule van het NetCost model. Hiervoor zijn steekproefdata nodig over de variabelen. De inputvariabelen van de prijsmodule zijn gegevens over een specifieke vlucht: de vliegafstand, de concentratiegraad (Herfindahl-index) en het direct of indirect zijn van de vlucht. Het moment van vertrek en het moment van boeken worden niet meegenomen. Het tijdsaspect is dus niet van belang: het is een vlucht op een willekeurig tijdstip, op een willekeurige dag geboekt. De output van de prijsmodule is de ticketprijs. Vanwege het ontbrekende tijdsaspect in de input moet dit een gemiddelde prijs zijn. Voor het schatten van het NetCost model is dus ook een dataset met gemiddelde ticketprijzen nodig.
3.1.3 Beschikbaarheid data Allereerst hebben we de beschikking over de The Official Airline Guide (OAG). Dit is de ‘dienstregeling’ van de luchtvaart (met uitzondering van chartervluchten). De OAG database bevat naast vluchtschema’s specifieke vluchtgegevens zoals vliegafstand en aantal stoelen. Informatie over ticketprijzen is moeilijker verkrijgbaar. Wel kunnen er per vertrekdatum (in de toekomst) ticketprijzen op internet worden opgezocht. Verschillende websites bieden de mogelijkheid om te zoeken in reserveringssystemen van meerdere luchtvaartmaatschappijen (bijv. farechase.yahoo.com). Met het programma IMacro’s is een bepaalde gebruikershandeling op internet vast te leggen. Hiermee kan het invullen van invoervelden op een vliegticketwebsite geautomatiseerd worden. IMacro’s kan de herkomst- en bestemmingsluchthavens en vertrekdata vanuit een bestand inlezen, deze invullen op een (vooraf opgegeven) vliegticketwebsite, en de gevonden ticketprijzen vervolgens naar een ander bestand wegschrijven. Zo kan een dataset met tarieven worden opgebouwd. IMacro’s is bij SEO Economisch Onderzoek al eerder gebruikt om ticketprijzen te monitoren, zij het voor een beperkt aantal routes (Burghouwt, van der Flier en de Wit, 2007). De toen gemaakte grafieken kunnen nu gebruikt worden om een beeld te krijgen van het patroon van ticketprijzen in de tijd (zie Figuur 3-1)
18 Figuur 3-1
Laagste economy-class tarief Amsterdam – New York JFK
In de figuur is te zien dat de ticketprijzen vlak voor vertrek veel hoger liggen. Verder is er een duidelijk zomer- en wintertarief te herkennen, en een piek rond kerst.
3.1.4 Eisen aan de data De steekproef moet in zekere zin representatief zijn voor de populatie van werkelijke ticketprijzen. Op deze manier zal het geschatte model zoveel mogelijk voorspellende waarde hebben. Ten eerste dienen de ticketprijzen in de dataset een goede weerspiegeling te zijn van de werkelijk betaalde ticketprijzen. Bij het zoeken naar een vliegticket kan de gebruiker van een ticketwebsite zelf vaak een aantal voorkeuren opgeven. Dit kan een bepaalde klasse zijn (bijv. economy- of business-class), een directe vlucht of een bepaalde luchtvaartmaatschappij. Het systeem zoekt vervolgens binnen de opgegeven restricties naar de beschikbare tickets. De prijzen worden op het scherm getoond, geordend van laag naar hoog. Met IMacro’s kan een van deze prijzen worden opgeslagen en weggeschreven naar een databestand. Duidelijk is dat de laagste prijs niet representatief is voor de gemiddeld betaalde prijs, zelfs al wordt het onderzoek beperkt tot economy-class tickets. Een structureel te lage prijs levert voor de uitkomsten van het NetCost model geen problemen op. Het model schat uiteindelijk marktaandelen. Het is dus van belang dat de verdeling van de prijzen over de routes juist is.9
9
Uit onderzoek (SEO, 2006) is gebleken dat de tarieven op ticketwebsites soms enigszins afwijken van de werkelijke ticketprijzen, vnl. op routes naar het Midden Oosten. Deze afwijking wordt onderkend, maar er is weinig tegen te doen.
19 Ten tweede dient de dataset met ticketprijzen voldoende gevarieerd te zijn. Ticketprijzen worden beïnvloed door allerlei factoren. Een aantal zaken zijn zeker van belang: de geografische afstand, de concurrentie op de route (HHI) en het direct of indirect zijn van de vlucht. Dit zijn de exogene variabelen in de huidige prijsmodule van het NetCost model. Het lijkt daarom wenselijk dat de dataset voldoende variatie biedt op deze punten.
3.1.5 Aanpak De ticketwebsite die gebruikt zal worden is farechase.yahoo.com (Yahoo, 2007). Het voordeel van deze website is dat alle beschikbare tarieven worden getoond, in een overzichtelijke layout. Vertrekdata hoeven niet in een pull-down menu geselecteerd te worden, maar kunnen worden ingevuld, wat in verband met het gebruik van IMacro’s handig is. Voor het opbouwen van de dataset dient het volgende bepaald te worden: Voor welke (hoeveel) vertrekdata in de toekomst de routes monitoren? Welke (hoeveel) routes monitoren? Hoe lang en hoe vaak deze routes voor de vertrekdata monitoren?
Met een toenemend aantal waarnemingen per route (dwz. voor verschillende vertrek- en boekingsdata), neemt ook de complexiteit van de econometrische analyse toe. Ook de revenue management effecten op de tarieven kort voor vertrek bemoeilijken het analyseproces. Daarnaast hebben we te maken met andere beperkingen. Zo is er maar een bepaalde hoeveelheid tijd beschikbaar voor dit onderzoek, en is er dus weinig variatie mogelijk in boekingsdata. Verder kunnen de systemen (IMacro’s en Excel) maar een beperkte hoeveelheid data aan.
Welke vertrekdata? Uit de al gemaakte grafieken met data verzameld door IMacro’s (SEO, 2006), blijkt dat de prijzen op korte termijn sterk fluctueren. Het zomerseizoen lijkt te lopen vanaf juni t/m oktober. Er zijn nog hogere tarieven te zien in juli en augustus. Omdat voor deze vertrekdata al veel tickets verkocht zijn, speelt het revenue management effect een grote rol. Hierdoor ontstaan hoge pieken in het prijspatroon in die maanden. Dit onderzoek wil zich daar niet op richten. Vanaf november lijken zich redelijk stabiele tarieven af te tekenen (zie Figuur 3-1),waarbij het revenue management effect nog geen specifieke invloed heeft. November is
20 eveneens een maand waarin weinig mensen op vakantie gaan. Daarom wordt er voor gekozen om ticketprijzen van november 2007 te gebruiken voor dit onderzoek. Figuur 3-2
Het jaarverloop van het laagste economy-class tarief Amsterdam – Montreal
16 -6 -0 7 16 -7 -0 7 16 -8 -0 7 16 -9 -0 7 16 -1 007 16 -1 107 16 -1 207 16 -1 -0 8 16 -2 -0 8 16 -3 -0 8
1000 900 800 700 600 500 400 300 200 100 0
16 -5 -0 7
prijs
Amsterdam-Montreal
datum
Om uitschieters te voorkomen, worden de tarieven voor elke route op vier woensdagen in november opgehaald, met de terugreis steeds een week later. Voor de enkele reisprijs wordt de helft van deze retourprijs genomen. Deze tarieven zijn een onderschatting van de gemiddelde prijzen in november, omdat reizen in het weekend of op maandag vaak duurder is dan op woensdag (zie Figuur 3-3). Willekeurig een dag kiezen zou echter geen betere data opleveren (wellicht zelfs een overschatting). Doordat luchtvaartmaatschappijen geen informatie verstrekken over hun yield gegevens (behaalde bezettingsgraden en betaalde ticketprijzen), is het onbekend hoeveel vliegtickets voor een bepaalde dag verkocht worden. Figuur 3-3
Weekverloop laagste economy-class tarief Amsterdam-Montreal in november 2007 Amsterdam-Montreal
650 640 630 prijs
620 610 600 590 580 570 ma
di
wo
do weekdag
vr
za
zo
21
Welke routes? Dit onderzoek concentreert zich op routes met vertrekluchthaven in Europa. Dit kunnen directe vluchten zijn, of indirecte vluchten die worden uitgevoerd door dezelfde carrier of via een alliantie of code share. Een lijst van deze routes met bijbehorende afstand en HirschmanHerfindahl index (HHI) is beschikbaar (zie formule 2.3.5). Ook is bekend voor welke van deze routes er een directe verbinding bestaat10. De lijst bevat bijna 40.000 routes, waarvan ongeveer een kwart een directe verbinding heeft. Hieruit dient een steekproef getrokken te worden met voldoende variatie in HHI, afstand en direct/indirect. We kiezen voor een steekproef van 1%, dus circa 400 routes. Om verzekerd te zijn van voldoende variatie in de steekproef, wordt een disproportioneel gestratificeerde steekproef getrokken (Bethlehem, 1985). Dit houdt in dat de dataset gesegmenteerd wordt in negen HHI-klassen en tien afstandsklassen. Uit elk van de 90 cellen die zo ontstaan worden at random (zo mogelijk) 5 routes gekozen. Zo ontstaat een set van maximaal 500 routes. Omdat niet elke cel 5 routes blijkt te bevatten, wordt de steekproef 351 routes groot. Voor deze routes wordt de laagst beschikbare prijs opgeslagen. Zoals eerder opgemerkt is de laagste prijs niet representatief voor de gemiddeld betaalde prijs, maar levert een onderschatting op. Een betere benadering van het gemiddelde is echter moeilijk te verkrijgen, omdat niet bekend is hoeveel mensen een ticket voor een bepaalde prijs kopen. In de al eerder gemaakte grafieken11 (zie ook Figuur 3-2) laat de laagste prijs daarnaast het meest stabiele beeld zien. Door voor de laagst beschikbare prijs te kiezen, zullen er niet veel directe routes in de steekproef terechtkomen, aangezien de laagste prijs vaker een indirecte verbinding betreft. Om toch voldoende directe verbindingen in de steekproef te krijgen, wordt voor de routes waarvoor een directe verbinding bestaat (circa 15%), de voorkeur non-stop opgegeven. Hierdoor zal het aandeel directe routes in de steekproef minimaal 15% zijn.
Welke boekingsdata? De monitoring begint op 24 mei 2007. De routes worden op 2 opeenvolgende dagen gemonitored om uitschieters te voorkomen. Dit wordt gedaan totdat voor alle 351 routes de 10
Op basis van OAG data In figuur Figuur 3-2 is het verloop van het laagste economy-class tarief te zien. Vergelijkbare grafieken zijn ook gemaakt voor bijvoorbeeld het op één na laagste tarief en het gemiddelde van de tien laagste tarieven, maar deze lieten een grilliger prijsverloop zien.
11
22 prijzen bekend zijn. De laatste monitoring vindt plaats op 12 juni 2007. De programmeercode die is gebruikt in IMacro’s is te vinden in Bijlage 1. Aan de hand van de hierboven beschreven aanpak wordt een database samengesteld, waarin om vier redenen de ticketprijzen worden onderschat: 1. Het wintertarief ligt lager dan het zomertarief. 2. De goedkoopste tickets zijn in november nog beschikbaar. 3. Op woensdag reizen is goedkoper dan in/rondom het weekend. 4. De laagst beschikbare prijs wordt opgeslagen. Op basis van de prijzen in de database kunnen modellen geschat worden die weliswaar de prijs onderschatten, maar de invloed van de relevante variabelen wel duidelijk kunnen maken. De database bevat per vlucht de volgende informatie: 1. vertrekluchthaven; 2. bestemmingsluchthaven; 3. ticketprijs in dollar; 4. aantal maal overstappen. Daarnaast zijn we ook geïnteresseerd in de uitvoerende luchtvaartmaatschappij(en) van een vlucht, en de eventuele overstapluchthaven. Het was echter technisch niet mogelijk met het programma IMacro’s deze gegevens op te slaan.
23
3.2. Data-analyse
In deze paragraaf worden de data geanalyseerd. Eerst beschrijven we de populatie van routes waaruit de steekproef getrokken is. Daarna volgt een analyse van de steekproefdata.
3.2.1 Populatie De populatie bestaat uit alle routes met een vertrekluchthaven in Europa. Van deze routes is het volgende in kaart gebracht: 1. de geografische hemelsbrede afstand (in km); 2. de Hirschman-Herfindahl index (HHI) (zie ook formule 2.3.5); 3. het aantal directe en indirecte vluchten dat op de route worden aangeboden12. Onderstaand histogram laat zien hoe de populatie verdeeld is wat afstand betreft. Figuur 3-4
De verdeling van afstand in de populatie
Afstand in de populatie 10000 9000
Frequentie
8000 7000 6000 5000 4000 3000 2000 1000 0 1000
4000
7000
10000 13000 16000 19000 Afstand (km)
Verreweg de meeste routes zijn routes van minder dan 10.000 km afstand. Verder is er een duidelijke piek te zien bij de routes over 1000 tot 2000 km (intra-Europese routes), en een piek bij routes over 6000 tot 9000 km. Dit laatste zijn bijvoorbeeld vluchten naar de Verenigde Staten. Figuur 3-5 beschrijft hoe de routes in de populatie verdeeld zijn wat Herfindahl-index betreft.
12
Deze zijn in beeld gebracht m.b.v. het huidige NetCost model. Voor een indirecte vlucht geldt een maximaal toegestane overstaptijd.
24 Figuur 3-5
De verdeling van HHI in de populatie HHI in de populatie
30000 Frequentie
25000 20000 15000 10000 5000 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 HHI
Opvallend is het grote aandeel routes met Herfindahl-index van (bijna) 1, hetgeen duidt op (bijna) monopolieroutes. Dit kan verklaard worden door het grote aantal ‘kleine’ routes in de populatie: op 40% van de routes in de populatie gaat gemiddeld minder dan één maal per dag een vlucht. Deze routes zijn vrijwel allemaal (bijna) monopolieroutes. Hoe vaker er op een bepaalde route wordt gevlogen, des te lager over het algemeen de Herfindahl-index. Gemiddeld worden er 20 vluchten per week op een route aangeboden. Dit is in 18% van de gevallen een directe vlucht. Op ongeveer 27% van de routes in de steekproef is een directe vlucht mogelijk.
3.2.1 Steekproef Tijdens de monitoring is het niet gelukt om alle prijzen op te slaan. Soms liep de website vast, soms werkte IMacro’s niet optimaal. Er zijn uiteindelijk 2309 prijzen opgeslagen voor 303 routes, dus gemiddeld 7,6 prijzen per route. Per route is de gemiddelde laagste (zie 3.1.5) prijs bepaald. Daarna zijn er drie duidelijke uitschieters in de data geconstateerd. Bij nader inzien waren dit drie zeer hoge prijzen. De verschillen waren dermate groot dat deze waarnemingen niet verder meegenomen zullen worden. Ze zullen in een kleinste kwadratenschatting onevenredig zwaar meewegen, en dit is onwenselijk. De uiteindelijke lijst met routes is te zien in Bijlage 2. Uit onderstaande histogrammen wordt de verdeling van Hirschman-Herfindahl index en geografische afstand in de steekproef duidelijk.
25 Figuur 3-6
De verdeling van afstand in de steekproef
Afstand in de steekproef 30 Frequentie
25 20 15 10 5 0 1000
4000
7000 10000 13000 16000 19000 Afstand
Figuur 3-7
De verdeling van de Herfindahl-index in de steekproef
HHI in de steekproef
Frequentie
50 40 30 20 10 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
HHI
Door het trekken van een disproportioneel gestratificeerde steekproef zijn de steekproefwaarden evenrediger verdeeld over de afstand- en Herfindahl klassen. Dit kan verduidelijkt worden door de variantie/standaarddeviatie van de populatie en de steekproef op beide punten met elkaar te vergelijken in Tabel 3-1. Tabel 3-1
De variantie in de afstand en HHI in de populatie en de steekproef Afstand
HHI
Variantie
Standaarddeviatie
Variantie
Standaarddeviatie
Populatie
11.606.716
3406
0.048
0.22
Steekproef
25.185.327
5015
0.059
0.24
Uit deze resultaten blijkt dat de steekproef meer variatie biedt wat betreft afstand en Hirschman-Herfindahl index dan de populatie.
26 Naast de geografische afstand en de Hirschman-Herfindahl index, is het direct of indirect zijn van een vlucht de derde belangrijke variabele. Het aandeel routes met directe verbindingen in de steekproef is ongeveer 16%. Het NetCost model schat ticketprijzen in euro. De ticketprijzen in de database (in dollar) worden daarom omgerekend in euro aan de hand van de gemiddelde koers tijdens het proces van dataverzameling13. Eveneens worden de afstanden in kilometers in de dataset omgezet in de afstanden DIST in vlieguren, aangezien het NetCost model vlieguren en niet afstand als input gebruikt. Hiervoor bestaat een formule (SEO-b, 2007): DISTx , y =
40 + 0.068 * AFSTAND (km) 60
(3.2.1)
Dit houdt in dat er gevlogen wordt met een gemiddelde snelheid van 882,35 km per uur, en dat er 40 minuten voor het opstijgen en landen wordt gebruikt.
13
1 euro = 1.34429 dollar
27
4. Modelschattingen Dit hoofdstuk behandelt de econometrische schattingen van het NetCost model (zie paragraaf 2.3). Eerst wordt bekeken hoe het huidige model presteert op de verzamelde data. We toetsen het model door de voorspelde uitkomsten met de werkelijke prijzen te vergelijken. Daarna worden verschillende modellen geschat. We beginnen eenvoudig, met een lineair model in de drie bekende variabelen: ‘Afstand’, ‘Herfindahl-index op de route’ en ‘Indirect/direct’. Vervolgens wordt geprobeerd om de prijsmodule van het NetCost model in zijn huidige (niet lineaire) vorm te schatten. De econometrische methoden en technieken die gebruikt worden in dit hoofdstuk, zijn toegelicht in Bijlage 3.
4.1. Huidig model
Om te bepalen hoe goed het huidige NetCost model presteert, wordt voor elke route in de steekproef de ticketprijs geschat met behulp van NetCost. Deze uitkomsten worden vervolgens vergeleken met de prijzen in onze dataset. In onderstaande figuur is voor alle 300 routes het verschil tussen beide waarden te zien (prijs NetCost model minus prijs dataset). Figuur 4-1
Verschil tussen de geschatte ticketprijs door het NetCost model en de ticketprijs in de dataset.
28 Te zien is dat de meeste verschillen tussen € 0 en € 300 liggen. Aan de hand van de verschillen kan bepaald worden hoe de huidige prijsmodule presteert op de verzamelde data. Gemiddeld levert het NetCost model een ticketprijs op die ruim 37% (€ 140) hoger ligt dan de bijbehorende ticketprijs in onze dataset14. De variantie in uitkomsten van het NetCost model is 74% hoger dan de variantie in de verzamelde data, hetgeen verklaard kan worden door de hogere gemiddelde ticketprijs.
4.2. Lineair model
Het huidige NetCost model is niet lineair, maar heeft een factorele structuur. Het is niet duidelijk of deze ingewikkeldere vorm nodig is voor de juiste prijsvoorspellingen. Daarom wordt een eenvoudig lineair model geschat, met als verklarende variabelen de variabelen uit de huidige prijsmodule. De vorm van dit model zou de volgende zijn: GCM x , y = α * DISTx , y + β * HHI x , y + γ * Ddirect + C
(4.2.1)
waarbij DISTx , y :
de geografische afstand tussen x en y in vlieguren
HHI x , y :
de Hirschman-Herfindahl index
Ddirect :
een dummy met waarde 1 bij een directe vlucht, en 0 bij een indirecte vlucht
α , β ,γ :
onbekende parameters
C:
een constante
Dit model is eenvoudig te schatten met de opgebouwde dataset m.b.v. de kleinste kwadratenmethode15. De resultaten van de schatting van model 4.2.1 staan in Tabel 4-1
weergegeven (regressie 1).
14
Een hogere gemiddelde ticketprijs lag in de lijn der verwachting; in de database worden om vier redenen ticketprijzen onderschat (zie ook H.3.1). 15 In dit onderzoek wordt gebruik gemaakt van het statistische pakket ‘Stata’, versie 9.
29 Tabel 4-1
De resultaten van de eerste drie regressies
Variabele/regressie
1 (model 4.2.2)
2 (model 4.2.3)
3
DIST
26.84*
26.73*
35.24*
Indirect/Direct
4.48
-
-
HHI
110.28*
107.92*
110.19*
DIST2
-
-
-0.38**
C(onstante)
21.96
25.31
-10.65
R-squared
0.7451
0.7451
0.7497
Adjusted R-squared
0.7426
0.7434
0.7472
*=significant bij 1%; **: significant bij 5%; ***: significant bij10% - : variabele niet meegenomen in de regressie
Het aantal vlieguren (DIST) is duidelijk significant voor de ticketprijs, evenals de Herfindahlindex (HHI). Het direct of indirect zijn van de vlucht is echter statistisch niet significant (bij een 10% significantieniveau). We schatten de vergelijking daarom nogmaals, zonder de variabele Ddirect (zie Tabel 4-1, regressie 2). Het model wint hierdoor aan verklarende kracht, aangezien de R 2 (Adjusted R-squared, zie Bijlage 3) toeneemt. Het lineaire prijsmodel ziet er nu als volgt uit: GCM x , y = 27 * DISTx , y + 108* HHI x , y + 25
(4.2.2)
Het verband tussen de gemiddelde ticketprijs en de variabele voor afstand, DISTx , y , kan ook niet-lineair zijn. Borenstein (1989) schat de invloed van afstand immers positief op de ticketprijs, maar met een elasticiteit lager dan 1. Om deze reden wordt in regressie 3 (zie Tabel 4-1) de variabele DISTx , y 2 mee geschat. Deze blijkt inderdaad significant bij 5%. De R 2 van de schatting neemt hierdoor verder toe. Naarmate de vlucht langer duurt, zien we een
‘afvlakkend’ verband tussen afstand en prijs. Er komen dus niet-lineariteiten in het model voor. Ook het feit dat de variabele Ddirect niet in de lineaire vergelijking thuishoort, wil niet zeggen dat deze geen invloed heeft op de ticketprijs. Het verband zou immers niet-lineair kunnen zijn. Dit onderzoeken we in de volgende paragraaf.
4.3. Niet-lineair model
De huidige prijsmodule GCM van het NetCost model is niet lineair, maar bestaat uit drie factoren (zie ook paragraaf 2.3, formule 2.3.6):
π c = α1 + β1 (1 − HHI ) := α1 + β1COMP
30
π r = α 2 + β 2 Ddirect REF = α 3 + β 3 DIST GCM = (α1 + β1COM ) * (α 2 + β 2 Ddirect ) * (α 3 + β 3 DIST )
(4.3.1)
Om deze toch met de kleinste kwadratenmethode te kunnen schatten wordt de vergelijking als volgt uitgeschreven: GCM = (α 1 + β 1COM ) * (α 2 + β 2 Ddirect ) * (α 3 + β 3 DIST ) = α 1α 2 β 3 * DIST + α 1α 2 β 2 * Ddirect + β 1α 3α 2 * COM + β 2 β1 β 3 * DIST * COM * Ddirect
(4.3.2)
+ β 1 β 3α 2 * DIST * COM + β 1 β 3 * Ddirect * DIST + β 2 β1α 3 * COM * Ddirect + α 1α 3α 2
Elk product van de afhankelijke variabelen komt één keer voor in de vergelijking. We voeren de volgende transformatie uit: x1 = DIST x 2 = Ddirect x3 = COM x 4 = DIST * COM * Ddirect
(4.3.3)
x5 = DIST * COM x6 = DIST * Ddirect x7 = Ddirect * COM
Hierdoor ontstaat onderstaande lineaire vergelijking: GCM = γ 1 x1 + γ 2 x2 + γ 3 x3 + γ 4 x4 + γ 5 x5 + γ 6 x6 + γ 7 x7 + C
(4.3.4)
met γ 1 = α1α 2 β 3 , etc. Deze vergelijking kan wel met behulp van de kleinste kwadratenmethode geschat worden. De resultaten van de regressie van GCM op x1 ,.., x7 staan in Tabel 4-2 (regressie 4).
31 Tabel 4-2
De resultaten van regressies 4 t/m 6
Variabele/Regressie
4
5
6
X1= D IS T
27.46*
26.97*
26.18*
X2= Ddirect
-47.35
-
-42.97
X3= COM
-76.96
-122.58*
-116.41*
X4= DIST * COM * Ddirect
13.17
-
-
X5= DIST * COM
-3.98
-
-
X6= DIST * Ddirect
-0.11
4.11***
8.78**
X7= Ddirect * COM
1.38
-
-
C(onstante)
129.80*
133.03*
142.10*
R-squared
0.7514
0.7475
0.7496
Adjusted R-squared
0.7454
0.7449
0.7462
*=significant bij 1%; **: significant bij 5%; ***: significant bij10% - : variabele niet meegenomen in de regressie
Volgens de resultaten van deze regressie is de variabele ‘Afstand’ ( x1 ) het meest significant voor de ticketprijs. De t-waarden van de andere variabelen zijn niet significant bij 5%. Dit kan voor een deel worden verklaard door het optreden van multicollineariteit, waarbij de standaardfouten worden ‘opgeblazen’ omdat de variabelen niet identificeerbaar zijn (Greene, 2000). Om gedegen uitspraken te kunnen doen moeten we daarom verder met een kleiner aantal verklarende variabelen. In model 4.2.3 werd de ‘indirect/direct’ variabele Ddirect niet opgenomen vanwege een te grote standaardfout. Wellicht is het direct of indirect zijn van een vlucht wel significant als product met een andere variabele, bijvoorbeeld afstand. Daarom wordt eerst een regressie uitgevoerd van de ticketprijs op de variabelen x1 , x3 en x6 (zie formule 4.3.4). De variabele x3 (COM) wordt meegenomen, aangezien deze in model 4.2.2 ook significant was. In Tabel 4-2 staan de resultaten (regressie 5). Toevoeging van x2 aan het model levert een nog betere ‘fit’ op (Tabel 4-2, regressie 6). Het bijbehorende model luidt: GCM = 26 * DIST − 42 * Ddirect − 116 * COM + 9 * DIST * Ddirect + 142
(4.3.5)
32 De invloed van afstand en Herfindahl-index op de ticketprijs komt overeen met die in model 4.2.2. De interpretatie van de rest van dit model is niet eenduidig. Vanwege de hoge negatieve correlatie tussen afstand en het direct of indirect zijn van een vlucht, zal de variabele ‘indirect/direct’ als een negatieve proxy fungeren voor afstand. Het niet-lineaire verband tussen ticketprijs en afstand (zie ook paragraaf 4.2) komt zo in het model tot uiting. De resterende variabelen zijn niet significant. x4 ( x4 = DIST * COM * Ddirect ): Deze drie vermenigvuldigde variabelen hebben geen
verklarende waarde. x5 ( x5 = DIST * COM ): De invloed van concurrentie op de ticketprijs blijkt niet te
variëren met afstand. x7 ( x7 = Ddirect * COM ): De invloed van de concurrentiegraad op de ticketprijs blijkt
niet te verschillen tussen directe en indirecte routes.
4.4. NetCost-model
In de vorige paragraaf is een niet-lineair model (model 4.3.5) geschat, dat het beste bij de data past. Dit model had een andere specificatie dan het huidige NetCost model. In deze paragraaf wordt getracht de beste parameterwaarden te vinden voor het NetCost model in zijn huidige specificatie. Uit regressie 4 (zie Tabel 4-2) komen 8 parameterwaarden. Als we deze terug willen transformeren naar de parameters van het originele model, ontstaat een stelsel vergelijkingen. Dit stelsel, met 6 onbekenden en 8 vergelijkingen, is onoplosbaar (zie Bijlage 4). Als we vervolgens vergelijkingen elimineren kan het stelsel wel worden opgelost, maar dan worden de weggelaten vergelijkingen impliciet gelijk aan 0 verondersteld. Voor indirecte vluchten geeft dit goede resultaten, aangezien 4 vergelijkingen wegvallen als Ddirect gelijk aan 0 is. Voor directe vluchten zijn de resultaten echter niet juist. De mogelijkheid bestaat dat voor directe en indirecte vluchten een heel ander model zou moeten gelden. Daarom zijn twee regressies uitgevoerd, één met de waarnemingen waarvoor Ddirect gelijk is aan 0, en één met de andere gevallen (dus als Ddirect gelijk is aan 1). Het wordt echter niet duidelijk dat het model zich verschillend gedraagt voor directe en indirecte vluchten.
33
Uit het voorgaande blijkt dat een analytische oplossing niet mogelijk is. Voor de parameterwaarden van het huidige model kan echter wel een numerieke oplossing worden gevonden. Het probleem waarvoor we een oplossing zoeken kan als volgt mathematisch geformuleerd worden: MIN
α1 ,α 2 ,α3 , β1 , β 2 , β3
∑ (GCM
x , y ,α , β
( x, y )
− Px , y )
2
(4.4.1)
waarbij Px , y de werkelijk geobserveerde prijs is. Een oplossing die gevonden wordt16 is: GCM = (1.30 − 0.32 * COM ) * (0.95 + 0.04 * Ddirect ) * (80 + 24 * DIST )
(4.4.2)
De R2 van dit model is 0,745. Deze oplossing is niet uniek; vanwege de vorm van het model kan het geschaald worden. In deze oplossing zijn twee parameters (0,95 en 80) gelijk gehouden aan die in het oude model, om de verschillen inzichtelijk te maken. Het originele model was: GCM = (1.25 − 0.50 * COM ) * (0.95 + 0.15* Ddirect ) * (80 + 40 * DIST )
(4.4.3)
De gevoeligheid voor de verschillende variabelen blijkt in model 4.4.2 minder groot dan in het originele model. Model 4.4.2 schat aldus ticketprijzen die minder afwijkingen vertonen van een gemiddelde ticketprijs. De ‘vaste’ kosten voor een vliegticket zijn hoger en de ‘variabele’ kosten zijn lager dan in het originele model.
4.5. Gesegmenteerde schatting
Weghalen? Niet gecorrigeerd. Gebleken is dat de variabele ‘Afstand’ verreweg de meeste verklarende waarde heeft voor de ticketprijs. Daarom worden de afstandparameters nog op een andere manier geschat. Als we de concurrentie en de direct/indirect parameters gelijk houden aan die van het huidige NetCost model, dan ontstaat voor elke waarneming in de dataset de volgende vergelijking: GCM x , y = γ x , y * (α 3 + β 3 * DISTx , y ) , waarbij γ x , y = (1.25 − 0.50 * COM ) * (0.95 + 0.15* Ddirect ) .
Hierdoor ontstaat een lineair model in DISTx , y . Nu kunnen we
Px , y y x, y
regresseren op DISTx , y
om de waarden van α 3 en β 3 te bepalen.
16
Hiervoor wordt gebruik gemaakt van de ‘solver’ in Excel. Microsoft Excel 2000 gebruikt het Generalized Reduced Gradient (GRG2) algoritme om niet-lineaire problemen te optimaliseren.
34 Uit de regressie komen de volgende parameterwaarden:
α 3 = 62; β 3 = 20 beide significant bij 1% significantieniveau. Dit levert het volgende model op: GCM = (1.25 − 0.50 * COM ) * (0.95 + 0.15* Ddirect ) * (62 + 20 * DIST )
(4.5.1)
Dit wordt vergeleken met het originele model, model 4.4.3. De conclusies zijn grotendeels hetzelfde als in de vorige paragraaf, namelijk dat de invloed van het aantal vlieguren op de ticketprijs iets minder is dan werd aangenomen.
4.6. Samenvatting
In dit hoofdstuk begonnen we met een vergelijking tussen de voorspelde ticketprijzen door het huidige NetCost model en de ticketprijzen uit de database. De variantie in de uitkomsten van het huidige NetCost model bleek 75% hoger te zijn dan die van de ticketprijzen in de database. Het model is vervolgens opnieuw geschat op basis van de werkelijke ticketprijzen, en met dezelfde verklarende variabelen. De huidige factorele vorm van het model (model 4.4.2, paragraaf 4.4) blijkt niet significant. In paragraaf 4.2 wordt een lineair model geschat, dat een hogere R 2 heeft dan het factorele model (model 4.2.2). Er blijken echter toch niet-lineariteiten in het model voor te komen. Paragraaf 4.3 schat een niet-lineair model dat de meest verklarende waarde heeft (model 4.3.5). In Tabel 4-3 zijn de verschillende modellen weergegeven.
Tabel 4-3
Geschatte modellen uit hoofdstuk 4
Model
R-squared
4.4.2
GCM = (1.30 − 0.32 * COM ) * (0.95 + 0.04 * Ddirect ) * (80 + 24 * DIST )
0,745
4.2.2
GCM = 27 * DIST + 108* HHI + 25
0,745
4.3.5
GCM = 36* DIST − 160* COM + (12* DIST − 59) * Ddirect + 195
0,750
35
5. Uitgebreid model In dit hoofdstuk wordt getracht tot een uitgebreider model te komen dan het huidige NetCost model, dat in paragraaf 2.3 beschreven is en in paragraaf 4.3 geschat is. Vanwege de eenvoud en de beschikbare tijd gaan we in dit hoofdstuk uit van een lineair model. Paragraaf 5.2 vergelijkt de gevonden modellen met elkaar. In paragraaf 5.3 worden deze afgezet tegen modellen uit de literatuur. 5.1. Schattingen uitgebreid model
In paragraaf 2.2 zijn aan de hand van de literatuur vele variabelen geïdentificeerd, die mogelijk relevant zijn voor de hoogte van ticketprijs. Niet voor elke in paragraaf 2.2 genoemde variabele is echter voldoende informatie beschikbaar om in het model mee geschat te kunnen worden. We zijn hiervoor aangewezen op de OAG17 data en onze prijzendatabase. In Tabel 5-1 wordt per variabele aangegeven of schatting mogelijk en/of wenselijk is. Daarna volgt een toelichting. Tabel 5-1
Mogelijke extra variabelen voor het NetCost model
Reeds in huidig model
Niet voldoende
Opname in model niet
Wordt als extra
(NetCost)
informatie beschikbaar
wenselijk
variabele mee geschat
Afstand
Loadfactor
Aandeel toeristen op de
Frequentie
route Overstappen (in de vorm
Gemiddelde
Specifieke airport
HHI op luchthavenpaar
van direct/indirect)
vliegtuiggrootte
dummy
HHI op de route
Omwegpercentage
Hub dummy
Lowcost Carrier dummy
Passagiersaandeel op de
Gemiddeld inwonertal
→ Aantal Seats op de
eindpunten
citypair →
luchthaven
Passagiersaandeel op de
EU/Intercontinentaal
route
dummy
Niet voldoende informatie beschikbaar
De tweede kolom van tabel bevat vijf variabelen die niet mee geschat kunnen worden. De reden hiervoor is dat we geen informatie hebben over de uitvoerende luchtvaartmaatschappij en de eventuele overstapluchthaven van een vlucht in onze database (zie ook paragraaf 3.2).
17
The Official Airline Guide (zie paragraaf 3.1.3).
36 Niet wenselijk
Voor vier variabelen is de opname in een uitgebreider model niet wenselijk. Dit geldt allereerst voor het aandeel toeristen op de route. Deze variabele werd in de literatuur op verschillende wijzen benaderd (zie paragraaf 2.2). Geen van deze manieren lijkt geschikt om een onderscheid tussen typische zakenvluchten (als deze al bestaan) en toeristenvluchten te maken. Ook het gemiddelde inwonertal van het citypair wordt niet meegenomen. Het gemiddelde inwonertal in de herkomst- en bestemmingsregio is een maat voor de vraag. Een luchthaven kan echter ook als hub fuctioneren zonder zelf een grote catchment area te hebben. Het lijkt daarom beter om de grootte van de herkomst- en bestemmingsluchthaven hiervoor te gebruiken. Een maat voor de grootte is het totaal aantal stoelen op vluchten van- en naar de luchthaven. Vervolgens zijn bepaalde zaken die door een specifieke airport- en hub dummy (0/1 variabele) verklaard kunnen worden, hierdoor al ondervangen (een grote luchthaven is vaak een hub, heeft vaker last van congestie etc.). Aparte airport en hub dummy’s worden dus niet meegenomen.
Mee te schatten extra variabelen
De laatste kolom van de tabel bevat de resterende variabelen uit paragraaf 2.2, die wel mee geschat worden. De benodigde data hiervoor staan in de OAG Database. Aanvullend kiezen we ervoor om nog een EU/Intercontinentaal dummy mee te schatten, omdat dit onderzoek specifiek op vluchten van en naar (of binnen) Europa is gericht. Deze dummy heeft de waarde 1 voor intercontinentale vluchten, en 0 voor vluchten binnen Europa. In het huidige NetCost model wordt de ticketprijs verklaard door drie basisvariabelen: 1. Afstand; 2. Direct/indirect (dummy); 3. HHI op de route. Dit noemen we de basisvariabelen. We zijn zoals gezegd geïnteresseerd in de mogelijke invloed op de ticketprijs van: 1. Frequentie; 2. Gemiddelde HHI op luchthavenpaar; 3. LCC aanwezigheid (dummy); 4. Gemiddeld aantal zitplaatsen van en naar luchthavenpaar (in miljoenen per week); 5. EU/intercontinentaal (dummy).
37 Om deze invloed te bepalen zijn verschillende lineaire modellen geschat met de drie basisvariabelen en een of meerdere extra variabelen18. Eveneens wordt geëxperimenteerd met het weglaten van de variabele ‘HHI op de route’, om te bepalen of dit tot significantie van de gemiddelde Herfindahl-index op het luchthavenpaar (HHIend) zou leiden. Evans en Kessides (1993) laten namelijk zien dat niet routedominantie maar airportdominantie werkelijk van invloed is op de ticketprijs. De schattingen op basis van onze data laten dit echter niet zien. Alleen van de 6 modellen met de hoogste R 2 zijn de resultaten weergegeven in Tabel 5-2. Daaruit is direct af te lezen dat de variabele HHIend niet significant is.
Tabel 5-2
Regressieresultaten van toevoeging extra variabelen
Variabele/regressie
1
2
3
4
5
6
Dist
23.79*
23.73*
25.48*
25.33*
25.48*
25.34*
HHI
101.11*
99.00*
102.85*
95.64*
98.80*
92.04*
Indirect/direct
43.25**
48.63*
49.97*
55.95*
59.66*
65.08*
Freq
-0.29*
-0.29*
-
-0.13
-
-0.12
HHIend
-
-
-
-
-
-
LCC
-
-33.11
-
-
-53.20***
-51.58***
Seats
-
-
-1.80*
-1.60*
-1.90*
-1.70*
EU/ICA
91.40*
89.46*
94.52*
95.96*
91.74*
93.20*
C(onstante)
-7.23
-3.30
8.89
12.01
16.52
19.27
R-squared
0.7737
0.7746
0.7854
0.7871
0.7879
0.7894
Adjusted R-squared
0.7698
0.7700
0.7818
0.7828
0.7835
0.7843
Akaike
8.9545
8.9569
8.9011
8.8999
8.8964
8.8958
Schwartz
9.0285
9.0433
8.9752
8.9863
8.9828
8.9946
*=significant bij 1%; **: significant bij %; ***: significant bij 10% - : variabele niet meegenomen in de regressie
Het regressiemodel met de hoogste R 2 (zie Bijlage 3) is model 6. Dit model ziet er als volgt uit: GCM = 25* DIST + 65* Ddirect + 92 * HHI + 93* DICA − 0.12 * FREQ − 52 * DLCC − 1.7 * SEATS + 19 (5.1.1)
De verschillen tussen sommige modellen in Tabel 5-2 zijn klein. Ze schatten (volgens de definitie van de kleinste kwadraten methode) ticketprijzen die gemiddeld gelijk zijn aan die in onze prijzendatabase. De overgang van model 2 naar model 3 levert relatief de grootste winst 18
Ook al was in het lineaire model in hoofdstuk 4 de variabele direct/indirect niet significant, deze bleek in het niet-lineaire model toch van invloed. Daarom wordt de variabele hier gehandhaafd.
38 op met een forse toename in R 2 . Modellen 3 t/m 6 liggen wat betreft ‘fit’ op de data erg dicht bij elkaar. Model 5 schat ticketprijzen met een gemiddelde absolute afwijking van €60,-. Model 6 (5.1.1) is net iets beter met een gemiddelde absolute afwijking is € 59,-. We komen met model 5.1.1 tot een lineair model met zeven verklarende variabelen, waarvan er vier nog niet in het huidige NetCost model zitten: Frequentie; LCC (dummy); Gemiddeld aantal seats luchthavens. EU/Intercontinentaal (dummy);
Deze variabelen zijn significant bij een 10% sigificatieniveau, behalve ‘Frequentie’. Zonder de variabele ‘Seats’ in het model (model 3, Tabel 5-2) was ‘Frequentie’ nog wel significant. Dit kan verklaard worden door een sterk positief verband tussen ‘Frequentie’ en ‘Seats’, waardoor multicollineariteit optreedt.
5.2. Hanteerbaarheid
Bij het toevoegen van variabelen aan een model kan de R 2 nooit dalen, waardoor deze maat de ‘fit’ van een uitgebreider model overschat. Om deze reden kozen we voor de R 2 (adjusted R-squared) om de verschillende modellen met elkaar te vergelijken. De R 2 corrigeert voor het verlies aan vrijheidsgraden dat optreedt als een model wordt uitgebreid. Er is echter discussie over de vraag of deze correctie groot genoeg is om het juiste model te bepalen (Greene, 2000). Twee alternatieve maten voor de ‘fit’ zijn het Akaike informatie criterium en het Schwartz criterium, waarbij geldt: hoe lager, hoe beter (zie Bijlage 3). In Tabel 5-2 zijn de waarden van deze criteria voor de 6 modellen weergegeven. De uitkomsten van het Akaike criterium leiden tot dezelfde conclusie als die we aan de hand van de R 2 trokken: Model 5.1.1. (regressie 6) heeft de beste ‘fit’ op onze data. Als we echter het Schwartz criterium volgen, heeft de derde regressie de voorkeur, oftewel het volgende model: GCM = 26 * DIST + 50 * Ddirect + 103* HHI + 95* DICA − 1.8* SEATS + 9
(5.1.2)
De variabelen ‘Frequentie’ (FREQ) en ‘LCC dummy’ ( DLCC ) verdwijnen aldus uit het model. Greene (2000) geeft aan dat geen van beide criteria een duidelijk voordeel heeft ten opzichte van het andere. Bij het Schwartz criterium wordt het verlies aan vrijheidsgraden zwaarder bestraft, en leidt daarom over het algemeen tot een simpeler model.
39
SEO Economisch Onderzoek is geïnteresseerd in een model dat een correcte schatting van ticketprijzen levert, maar dat ook in de praktijk goed hanteerbaar is. Een zo correct mogelijk model met zo min mogelijk variabelen geniet de voorkeur. Voor elke variabele dient te worden afgewogen hoeveel beter het model wordt door toevoeging ervan. In dit licht scoort 5.1.2. beter dan model 5.1.1., dat immers twee variabelen meer heeft.
5.3. Modellen in de literatuur
In de literatuur zijn verschillende ticketprijsmodellen te vinden. In deze paragraaf wordt voor twee van deze modellen gekeken hoe ze zich verhouden tot onze geschatte modellen in hoofdstuk 5 (model 5.1.1 en model 5.1.2). Het gaat ons daarbij vooral om de significantie en het teken van de coëfficiënten van variabelen die in onze modellen ook voorkomen. In meeste prijsmodellen is de ticketprijs een functie van kosten, vraagkarakteristieken, kwaliteit van service en indicators voor marktmacht. Interpretatie van coëfficiënten is echter lastig, omdat één variabele vaak invloed heeft op meerdere van deze vlakken. Een hoge loadfactor bijvoorbeeld verlaagt vaak de kosten voor de luchtvaartmaatschappij, maar ook de ervaren kwaliteit van de vlucht (zie ook paragraaf 2.2). We bekijken twee prijsmodellen uit de literatuur: 1. Borenstein (1989): ln Pij = αi + β1 ln DISTANCE j + γ 1 ln LOADFACij + γ 2 ln EQUIPij + γ 3 ln FREQij + γ 4 ln CIRCij +γ 5 STOPij + γ 6 PLANECHGij + δ1ORGSHAREij + δ 2ORGHERF + δ 3 RUTHSHAREij 24
+δ 4 RUTHERF j + δ 5 ln COMPCOSTij + δ 6 ln TOURIST j + ∑ ρ k APTk k =1
2. Giaume en Guillou (2004): Pijk = β 0 + β1R1ijk + β 2 ijk R2ijk + β 3 R3ijk + β 4 SHAREij + β 5 H 1H 1i + β 5 H 2 H 2i + β 6 DAYS + β 7 DISTi + β8 AVGPOi + β 9ONEWAYijk + β10 BUSSijk + β11LCOST + β12 HUBi + β13iCAR j + ε ijk
Deze modellen bevatten verschillende variabelen die ook in paragraaf 5.1 meegeschat zijn. In Tabel 5-3 is voor die betreffende variabelen de significantie en het teken van de coëfficiënt weergegeven. De coëfficiënten in absolute zin vergelijken heeft niet veel zin, omdat de hoogte
40 hiervan in sterke mate afhangt van de combinatie van variabelen die in het model zijn opgenomen. Tabel 5-3 Variabele
Significantie en teken van de coëfficiënten in de verschillende modellen H 5.1
Borenstein
Giaume & Guillou
Dist
* (+)
* (+)
* (+)
HHIroute
* (+)
* (+)
* (-)
Direct/ indirect
* (+)
* (+)
EU/ICA
* (+)
Freq
#
LCC
* (-)
Seats
* (-)
HHIend
#
* (+) * (-) #
* = significant; # = niet significant (-) = negatieve coëfficiënt; (+) = positieve coëfficiënt
Duidelijk is dat de variabele afstand (Dist) in alle modellen een significant positieve invloed op de prijs heeft. Dit geldt niet voor de Herfindahl-index op de route: een hogere Herfindahlindex levert bij Giaume en Guillou een lagere ticketprijs op. Zij wijten dit aan de structuur van de Europese luchtvaartmarkt (ze richtten zich enkel op intra-Europese vluchten). In het geval van een duopolie wordt een grote luchtvaartmaatschappij vaak vergezeld door een kleine luchtvaartmaatschappij die gaat stunten met haar tarieven. Een directe vlucht is zowel bij ons als bij Borenstein significant duurder dan een indirecte vlucht. Borenstein ziet verder een significant negatieve invloed van de variabele ‘Frequentie’, hetgeen voor ons model statistisch niet hard te maken valt. Dit is mogelijk te wijten aan multicollineariteit tussen ‘Seats’ en ‘Frequentie’ (zie ook paragraaf 5.1). Giaume en Guillou vinden een significant negatieve invloed van de aanwezigheid van een Low-Cost Carrier op de ticketprijs, dit blijkt eveneens uit onze data. Het aantal stoelen (Seats) van en naar de luchthaven nemen Giaume en Guillou niet mee, maar wel het gemiddeld inwonertal van de herkomst en bestemmingsregio, hetgeen eveneens een maat is voor de grootte van de luchthavens (zie ook paragraaf 5.1). Dit blijkt niet veel invloed op de prijs te hebben, terwijl ‘Seats’ dat wel heeft in ons model. De variabele ‘EU/Intercontinentaal’ is specifiek voor ons onderzoek: Borenstein bekijkt alleen de VS en Giaume en Guillou alleen de EU-markt.
41
6. Vergelijking modellen
6.1. Analyse geschatte modellen
In dit hoofdstuk worden de modellen uit hoofdstuk 4 en 5 naast elkaar gezet en geanalyseerd. In hoofdstuk 4 werd allereerst een lineair model geschat met de ticketprijsdeterminanten van het huidige NetCost model (‘Afstand’, ‘HHI’ (een maat voor de concurrentie) en ‘Indirect/direct’). De variabele Indirect/direct bleek niet significant, dus resulteerde model 4.2.2 (zie Tabel 6-1). De lineaire vorm van het model bleek vervolgens niet de beste te zijn, vanwege de verklarende waarde van de variabele afstand in het kwadraat. Hierna trachtten we het huidige NetCost model te schatten. Hiervoor werd het van zijn huidige factorele vorm omgeschreven in lineaire vorm. Zo kon voor elk product van de afhankelijke variabelen een coëfficiënt geschat worden. In dit model bleek alleen de variabele ‘Afstand’ (DIST) significant, onder meer door optredende multicollineariteit. Om deze reden werd een aantal combinaties van variabelen geëlimineerd. Het model met de meest verklarende waarde bleek uiteindelijk model 4.3.5 te zijn. Ook dit is weergegeven in Tabel 6-119. Op basis van de R 2 past dit model beter bij de data dan het eenvoudige lineaire model (4.2.2). Uit model 4.3.5 blijkt wederom het niet-lineaire (afvlakkende) verband tussen afstand en ticketprijs, aangezien de variabele direct/indirect als een negatieve proxy voor afstand fungeert. Uit het voorgaande blijkt dat de huidige factorele vorm van het NetCost model niet goed bij de data te past, er was slechts één variabele significant. Voor het geval men het model wel in deze factorele vorm wil houden, is model 4.4.2 bepaald. Dit model past voor alle modellen van die vorm het beste bij onze data. De R 2 is wel lager dan bij het vorige model, en de R 2 zelfs lager dan die van het meest eenvoudige lineaire model! In hoofdstuk 5 werd weer teruggegrepen op een lineair model, maar dan uitgebreid met meerdere variabelen. Hier bleken modellen 5.1.1 en 5.1.2 het beste bij onze data te passen. Beide modellen voorspellen dat een intercontinentale vlucht ruim €90 duurder is dan een intra-Europese vlucht, afgezien van het afstandseffect20. Daarnaast zorgt een groter aantal stoelen van en naar het luchthavenpaar (ofwel grotere luchthavens) voor een significante 19
Bij de vergelijking van de modellen in tabel 6-1 dient opgemerkt te worden dat soms de variabele HHI wordt gebruikt en soms de variabele COM (=1-HHI) 20 Het is niet duidelijk waardoor dit veroorzaakt wordt. Mogelijk heeft het te maken met de aanwezigheid van Low Cost Carriers op de kortere afstanden en verschillen in de concurrentieverhoudingen.
42 verlaging van de ticketprijs. In model 5.1.1. wordt de ticketprijs daarnaast nog beïnvloed door de aanwezigheid van een Low Cost Carrier op de route en totale frequentie op de route. LCC aanwezigheid levert een €52 lagere ticketprijs op21, en ook voor vluchten op routes met een hoge frequentie hoeft minder betaald te worden. Op basis van de R 2 kan gesteld worden dat model 5.1.1 het beste model tot nu toe is.
Tabel 6-1
De geschatte modellen uit hoofdstuk 4 en 5
Model
R-squared
Adjusted R-
Schwartz
squared
criterium
4.2.2
GCM = 27 * DIST + 108* HHI + 25
0,745
0,743
4.3.5
GCM = 26 * DIST − 42 * Ddirect − 116 * COM
0,750
0,746
0,745
0,740
0,789
0,784
8,995
0,785
0,782
8,975
+9 * DIST * Ddirect + 142 4.4.2
GCM = (1.30 − 0.32 * COM ) * (0.95 + 0.04 * Ddirect ) *(80 + 24 * DIST )
5.1.1
GCM = 25* DIST + 65* Ddirect + 92 * HHI + 93* DICA −0.12 * FREQ − 52 * DLCC − 1.7 * SEATS + 19
5.1.2
GCM = 26 * DIST + 50 * Ddirect + 103* HHI + 95* DICA −1.8* SEATS + 9
Welke van deze modellen het beste is, hangt af van de voorwaarden waar het model aan moet voldoen. Als de vorm van het huidige model behouden dient te blijven, is model 4.4.2 het model dat best past bij de data. Eliminatie van een aantal combinaties van variabelen doet het model echter aan verklarende kracht winnen. Model 4.3.5 is dan het resultaat. Meer variabelen zijn echter van invloed op de ticketprijs. Toevoeging hiervan zorgt voor een nog betere ‘fit’ op de data. Op basis van de R 2 is model 5.1.1 het beste, terwijl model 5.1.2 het beste scoort op het Schwartz criterium. Dit laatste leidt tot een model met zo min mogelijk variabelen. De modellen in Tabel 6-1 passen statistisch gezien goed bij de ticketprijzen in de database. Zoals in paragraaf 3.1.5 is aangegeven, zijn de ticketprijzen in de database om vier redenen een onderschatting van werkelijke ticketprijzen: 1. Het wintertarief ligt lager dan het zomertarief. 21
In onze database komen geen vluchten van Low Cost Carriers voor. Het gaat dus om een prijsverlagend effect van de aanwezigheid van een Low Cost Carrier op de vliegtarieven van andere luchtvaartmaatschappijen op de route.
43 2. De goedkoopste tickets zijn in november nog beschikbaar. 3. Op woensdag reizen is goedkoper dan in/rondom het weekend. 4. De laagst beschikbare prijs wordt opgeslagen. De in Tabel 6-1 weergegeven modellen geven dus weliswaar de relatieve invloed van de variabelen op de ticketprijs weer, maar leveren een te lage gemiddelde ticketprijs op. Het is niet duidelijk hoe groot deze onderschatting gemiddeld is. Om tot een voor SEO Economisch Onderzoek bruikbaar model te komen, is het van belang voor deze onderschatting een correctie te maken. In de volgende paragraaf wordt hier een aanzet toe gegeven.
6.2. Modellen met correctie voor onderschatting
In paragraaf 4.1 bleek dat het huidige NetCost model een ticketprijs schat die gemiddeld €140 (37%) hoger ligt dan de prijzen in onze database. De coëfficiënten van het huidige NetCost model zijn vaak bijgesteld, en het model levert inmiddels gemiddeld zeer goede schattingen op. Daarom hanteren we in deze paragraaf het uitgangspunt dat het huidige NetCost model gemiddeld de juiste ticketprijs voorspelt. Hiervoor worden de prijzen in de database met
37% verhoogd, en de modellen uit Tabel 6-1 opnieuw geschat. De transformatie heeft alleen invloed hebben op de hoogte van de coëfficiënten van de modellen; de ‘fit’ op de data verandert niet. De eerder gedane vergelijking van de modellen onderling blijft dus valide. De opnieuw geschatte modellen zijn te zien in Tabel 6-2. Tabel 6-2
Modellen geschat op aangepaste data
Model
R-squared
Adjusted R-
Schwartz
squared
criterium
4.2.2
GCM = 37 * DIST + 148* HHI + 35
0,745
0,743
4.3.5
GCM = 36 * DIST − 160 * COM
0,750
0,746
0,742
0,738
0,789
0,784
8,995
0,785
0,782
8,975
+ (12 * DIST − 59) * Ddirect + 195 4.4.2
GCM = (1.78 − 0.44 * COM ) *(0.95 + 0.04 * Ddirect ) *(80 + 24 * DIST )
5.1.1
GCM = 35* DIST + 89 * Ddirect + 126 * HHI + 128 * DICA −0.17 * FREQ − 71* DLCC − 2.3* SEATS + 26
5.1.2
GCM = 35* DIST + 69 * Ddirect + 141* HHI + 128* DICA −2.5* SEATS + 12
Er zijn vier redenen waarom de ticketprijzen in de database een onderschatting zijn van werkelijke prijzen (zie h. 6.1). Op basis van expert judgement (SEO, 2008) is niet precies aan
44 te geven of deze redenen een 37% prijsverschil rechtvaardigen. Indien dit prijsverschil hierdoor niet gerechtvaardigd kan worden, schatten de modellen in Tabel 6-2 gemiddeld een bovengrens op de ticketprijs. In deze paragraaf zijn de ticketprijzen in de database met 37% verhoogd. Omdat het huidige NetCost model als gevolg van deze transformatie gemiddeld goed schat, is het nu mogelijk de R 2 van dit model te bepalen22. Op basis van de opgehoogde data is deze R 2 0,728. Indien het huidige NetCost model gemiddeld de juiste ticketprijs voorspelt (en de opgehoogde ticketprijzen dus een juiste afspiegeling zijn van werkelijke ticketprijzen) heeft het huidige NetCost model dus een redelijk goede ‘fit’ op de data. Nu kan ook een vergelijking gemaakt worden tussen het huidige NetCost model en het geschatte NetCost model op de opgehoogde data (model 4.4.2, Tabel 6-2). Dit laatste is met een R 2 van 0,742 iets beter.
22
2
De R is een maat om te bepalen hoe goed de ‘fit’ op de data is van een model dat geschat is op die data. Een dergelijk model schat per definitie gemiddeld goed.
45
7. Conclusie en aanbevelingen Inleiding In deze studie is onderzoek gedaan naar het NetCost model, dat SEO Economisch Onderzoek hanteert om ticketprijzen te voorspellen. Momenteel zijn de coëfficiënten van dit model vastgesteld op basis van de ervaring van de ontwikkelaars bij SEO. Men vraagt enerzijds om wetenschappelijk onderbouwde coëfficiënten voor het model, en anderzijds om aanvullende verklarende variabelen om in het model op te nemen. Dit onderzoek probeert deze vragen te beantwoorden door verschillende modellen te schatten op werkelijke ticketprijzen. Hiervoor is een dataset met ticketprijzen opgebouwd door vliegtarieven uit de reserveringssystemen van de luchtvaartmaatschappijen op te halen. We kozen ervoor een disproportioneel gestratificeerde steekproef te trekken, om voldoende variatie in de data te garanderen wat betreft de belangrijkste variabelen. Per route is het laagst beschikbare economy-class tarief opgeslagen voor vier woensdagen in november, omdat deze tarieven het meest stabiele beeld vertoonden. Op het gemiddelde tarief per route zijn de schattingen gedaan. In de inleiding is de vraag gesteld wat de waarden van de verschillende parameters onder de huidige modelspecificaties zijn op basis van werkelijke data. Hiervoor is een aantal varianten bekeken (zie Tabel 7-1): 1. een lineair model (model 4.2.2); 2. het meest verklarende model (model 4.3.5); 3. het model in zijn huidige vorm (model 4.4.2). Vervolgens is gekeken of er meer variabelen gevonden konden worden die van invloed zijn op de ticketprijs, terwijl rekening gehouden wordt met de beschikbaarheid van informatie en gebruiksgemak van het model. Hiervoor is een vierde variant bekeken: 4. lineaire modellen met extra variabelen (modellen 5.1.1 en 5.1.2).
Resultaten en conclusies In Tabel 7-1 zijn de resultaten van de schattingen te zien.
46 Tabel 7-1
Geschatte modellen
Model
R-squared
Adjusted R-
Schwartz
squared
criterium
4.2.2
GCM = 27 * DIST + 108* HHI + 25
0,7451
0,7434
4.3.5
GCM = 26 * DIST − 42 * Ddirect − 116 * COM
0,7496
0,7462
0,7421
0,7378
0,7894
0,7843
8,995
0,7854
0,7818
8,975
+9 * DIST * Ddirect + 142 4.4.2
GCM = (1.30 − 0.32 * COM ) * (0.95 + 0.04 * Ddirect ) *(80 + 24 * DIST )
5.1.1
GCM = 25* DIST + 65* Ddirect + 92 * HHI + 93* DICA −0.12 * FREQ − 52 * DLCC − 1.7 * SEATS + 19
5.1.2
GCM = 26* DIST + 50 * Ddirect + 103* HHI + 95* DICA −1.8* SEATS + 9
Gezien de wijze waarop de database is samengesteld, vormen de ticketprijzen in de database een onderschatting van de werkelijke ticketprijzen. Om deze reden zijn de ticketprijzen in de database zodanig opgehoogd dat de gemiddelde ticketprijs gelijk is aan de prijs die het huidige NetCost model schat. Dit model heeft immers bewezen gemiddeld zeer goede schattingen af te leveren. Op deze nieuwe data zijn de genoemde varianten nogmaals geschat (zie Tabel 7-2). Tabel 7-2
Modellen met correctie voor onderschatting
Model
R-squared
Adjusted R-
Schwartz
squared
criterium
4.2.2
GCM = 37 * DIST + 148* HHI + 35
0,745
0,743
4.3.5
GCM = 36 * DIST − 160 * COM
0,750
0,746
0,742
0,738
0,789
0,784
8,995
0,785
0,782
8,975
+ (12 * DIST − 59) * Ddirect + 195 4.4.2
GCM = (1.78 − 0.44 * COM ) *(0.95 + 0.04 * Ddirect ) *(80 + 24 * DIST )
5.1.1
GCM = 35* DIST + 89 * Ddirect + 126 * HHI + 128 * DICA −0.17 * FREQ − 71* DLCC − 2.3* SEATS + 26
5.1.2
GCM = 35* DIST + 69 * Ddirect + 141* HHI + 128* DICA −2.5* SEATS + 12
Bij de bepaling van het beste model voor SEO Economisch Onderzoek, is het de vraag welke criteria het zwaarst wegen. Uit de vergelijking van de modellen kan het volgende worden geconcludeerd:
47 De vorm van het huidige NetCost model is inzichtelijk. Wil men deze vorm behouden,
dan kiest men voor model 4.4.2. Een model met de huidige variabelen dat beter bij de data past is model 4.3.5. Dit
model heeft wel een andere vorm dan het huidige model. Wil men meer variabelen in het model opnemen om aan verklarende kracht te winnen,
dan kiest men voor model 5.1.1 of 5.1.2. Model 5.1.1 is op basis van de R 2 het beste, terwijl model 5.1.2 het beste scoort op het Schwartz criterium. Dit laatste criterium levert een zo correct mogelijk model met zo min mogelijk variabelen.
Aanbevelingen Ticketprijzen kennen een grillig jaarverloop. Gezien de tijdspanne van dit onderzoek is ervoor gekozen alleen ticketprijzen in november te gebruiken. Om tot een betere database met ticketprijzen te komen, verdient het dan ook aanbeveling om ticketprijzen gedurende een geheel jaar te monitoren. Een model dat hierop geschat wordt, zal een betere voorspellende waarde hebben. Ook meer inzicht in de prijzen van de werkelijk betaalde vliegtickets is gewenst. Een interview met een Revenue Management specialist van een luchtvaartmaatschappij kan hier wellicht bij helpen. In hoofdstuk vier zagen we dat het verband tussen de ticketprijs en de verklarende variabelen niet-lineair was, vooral voor de variabelen afstand en direct/indirect. In hoofdstuk vijf zijn aanvullende variabelen gevonden die de ticketprijs beïnvloeden. Hiermee is een uitgebreider lineair model geschat. Het verdient aanbeveling om verder onderzoek te doen naar een uitgebreid model, waarin ook de niet-lineariteiten vervat worden.
48
Literatuurlijst Airneth (2008). Website www.airneth.nl, 29 juli. Bethlehem, J.G. (1985). Theorie en Praktijk van het Steekproefonderzoek. Voorburg: CBS. Borenstein, S. (1989). Hubs and High Fares: Dominance and Market Power in the U.S. Airline Industry. Rand Journal of Economics, 20, (3) Borenstein, S. en Rose, N.L. (1994). Competition and Price Dispersion in the U.S. Airline Industry. Journal of Political Economy, 102, (4). Burghouwt, G., van der Flier, A. en de Wit, J.G. (2007). Solving the lack of price data availability in (European) aviation economics? 2007 ATRS World Conference, 21-24 June 2007, Berkeley. Carlsson, F. (2004). Prices and Departures in European Domestic Aviation Markets. Review of Industrial Organization, 24. Doganis, R. (2001). The Airline Business in the Twenty-First Century. London: Routledge. Dougherty, C. (2002). Introduction to Econometrics. New York: Oxford. Evans, W.N. en Kessides, I.N. (1993). Localized Market Power in the U.S. Airline Industry. Review of Economics and Statistics, 75. Giaume, S. en Guillou, G. (2004). Price Discrimination and Concentration in European Airline Markets. Journal of Air Transport Management, 10. Greene, H.G. (2000). Econometric Analysis. New Jersey: Prentice Hall. Hayes, K.J. en Ross, L.B. (1998). Is Airline Price Dispersion the Result of Careful Planning or Competitive Forces? Review of Industrial Organization, 13. SEO (2006). Progressive Report Task N, Document M-011, Version 2.0, 22 december. SEO-a (2007). Mondelinge toelichting over de vragen rond het NetCost model. SEO-b (2007). Formule gebruikt door SEO Economisch Onderzoek. SEO (2008). Expert Judgement over onderschatting ticketprijzen. Stavins (1996). Price Discrimination in the Airline Industry: The Effect of Market Concentration. FRB Boston Series, 96, (7). Talluri, K.T. en Ryzin, G.J. van (2005). The Theory and Practice of Reveue Management. Boston: Kluwer. Varian, H.R. (2003). Intermediate Microeconomics, a modern approach. New York: Norton.
49
Yahoo (2007). Website farechase.yahoo.com, 24 mei-12 juni.
50
Bijlagen Bijlage 1
De IMacro’s code
Onderstaande code is in IMacro’s geprogrammeerd. Vanuit een Excel bestand wordt een luchthavenpaar en een vertrekdatum ingelezen, deze vult IMacro’s in op een opgegeven vliegticketwebsite. De prijs wordt vervolgens opgeslagen in een database. VERSION BUILD=5100314 TAB T=1 TAB CLOSEALLOTHERS URL GOTO=http://farechase.yahoo.com/flightsearch/ SIZE X=876 Y=627 SET !EXTRACT_TEST_POPUP NO SET !ERRORIGNORE YES SET !DATASOURCE E:\Program<SP>Files\iMacros\Aleid\Vertrekdata.csv SET !DATASOURCE_COLUMNS 4 SET !DATASOURCE_LINE {{!LOOP}} TAG POS=1 TYPE=INPUT:TEXT FORM=NAME:flightsearch ATTR=NAME:departurecitycode CONTENT={{!COL1}} TAG POS=1 TYPE=INPUT:TEXT FORM=NAME:flightsearch ATTR=NAME:arrivalcitycode CONTENT={{!COL2}} TAG POS=1 TYPE=INPUT:TEXT FORM=NAME:flightsearch ATTR=NAME:departuredate CONTENT={{!COL3}} TAG POS=1 TYPE=INPUT:TEXT FORM=NAME:flightsearch ATTR=NAME:returndate CONTENT={{!COL4}} TAG POS=1 TYPE=A ATTR=TXT:More<SP>Search<SP>Options TAG POS=1 TYPE=SELECT FORM=NAME:flightsearch ATTR=NAME:maxconnections CONTENT=1 TAG POS=1 TYPE=A ATTR=TXT:
class="fcSprite<SP>srchAnchor"<SP>onclick='document.forms["flightsearch"].submit();r eturn<SP>false;'<SP>href="javascript:void(0);"<SP>alt="Search"> 'Comment: New page loaded WAIT SECONDS=90 EXTRACT POS=1 TYPE=TXT ATTR=
class=header>* EXTRACT POS=1 TYPE=TXT ATTR=
class=price>* EXTRACT POS=1 TYPE=TXT ATTR=
class=times>* EXTRACT POS=2 TYPE=TXT ATTR=
class=times>* EXTRACT POS=1 TYPE=TXT ATTR=
class=stops>* EXTRACT POS=1 TYPE=TXT ATTR=
class=stops>* SAVEAS TYPE=EXTRACT FOLDER=E:\Program<SP>Files\iMacros\Aleid\ FILE=extract{{!NOW:yyyymmdd}}.txt
51
Bijlage 2
Lijst met routes
De lijst met routes in de steekproef: AGP-ARN AGP-HKG ALC-VIE AMS-DME AMS-GIG AMS-ICN AMS-PEE AMS-SYD ARN-AZO ARN-EZE ARN-HKT ARN-JFK ARN-MEL ARN-SYD ARN-TSE ATH-BIO ATH-EDI ATH-FMO ATH-IAH ATH-MEL ATH-SCL ATH-SYD ATH-TRN AYT-MUC BCN-CVG BCN-HKG BCN-HNL BCN-ISO BCN-NRT BCN-SGN BCN-SYD BCN-TFN BCN-USH BES-HKG BHX-DME BHX-PPT BHX-SIN BIO-MIA BIO-PVG BIO-SCL BLL-CPT BRS-CLE BRU-KIX BRU-NBO BRU-PVD BRU-SYD BSL-JFK BSL-SVX BUD-CDG BUD-SYD CDG-BNE CDG-BWN CDG-CAN CDG-CHC CDG-COK CDG-CRP CDG-FWA CDG-KRK CDG-KRT CDG-LAX
CDG-LGA CDG-MEL CDG-NJC CDG-OTP CDG-PER CDG-PVG CDG-SIN CDG-SUB CGN-ASB CGN-DTW CPH-JRO CPH-MPM CPH-SGN CPH-SYD CPH-TRD CTA-LIN DME-LHR DME-MEL DME-MEX DME-PER DME-SCL DUB-XNA DUS-GSO DUS-MEL DUS-SAN DUS-SYD ESB-DRS FCO-ASB FCO-EBB FCO-LIM FCO-MEL FLR-AMS FLR-CCS FLR-EZE FLR-MEX FMO-ESB FRA-AKL FRA-BNE FRA-CAI FRA-CEB FRA-CHC FRA-CJU FRA-DLA FRA-MAA FRA-MDZ FRA-NBO FRA-OMA FRA-PER FRA-SIN GLA-MKE GLA-PVD GOT-EZE GVA-ADD GVA-DKR GVA-EZE GVA-MEL HAJ-LOS HAJ-PVG HAJ-YUL HAM-KHI
HAM-MEL HAM-SCL HAM-SIN HEL-ABZ HEL-DFW HEL-MEL HEL-SYD HEL-WAW IST-BGO IST-BNE IST-CMN IST-DUS IST-GIG IST-MEL IST-PER IST-SCL IST-SYD KBP-HEL KBP-HKG KBP-MAN KLU-MEL KRK-EZE KTW-EZE KUF-FRA LCY-BKK LCY-LED LCY-SCL LCY-YVR LED-EZE LEJ-LAX LGW-EZE LGW-JNB LGW-MAF LGW-SIN LGW-TXK LGW-YHZ LHR-ADL LHR-BLR LHR-BOM LHR-CBR LHR-CHC LHR-DEL LHR-DRW LHR-GIS LHR-LDH LHR-MSQ LHR-NAN LHR-NBO LHR-OTP LHR-OVB LHR-PER LHR-PPT LHR-PVG LHR-SUB LHR-TRG LIN-BRI LIN-CTA LIN-MNL LIN-YYZ LIS-BCN
LIS-CGK LIS-SYD LIS-VCE LIS-YOW LJU-HKG LPA-GVA LPA-IBZ LYS-DLA LYS-IAH MAD-CGK MAD-CPH MAD-EYW MAD-FIH MAD-FLL MAD-FTE MAD-KZN MAD-MEL MAD-SIN MAD-SJC MAD-SYD MAN-BNA MAN-CMH MAN-MEL MAN-PER MLN-GUA MME-JFK MMX-UME MRS-GIG MRS-GOT MRS-PPT MUC-AKL MUC-NGO MUC-ORF MUC-PPT MUC-ROA MUC-SCL MUC-UIO MXP-BNE MXP-CPT MXP-FLN MXP-MCO MXP-MEL NAP-LAX NAP-SVO NCE-AKL NCE-CPT NCE-DEN NCE-KBP NCE-MEL OPO-UFA OPO-YUL ORY-ABJ ORY-BKO ORY-DKR ORY-FRU OSL-EZE OSL-SOF OSL-SYD OTP-BGO OTP-EZE
OTP-KIV OTP-LAX PMI-MAD POZ-JFK PRG-KUL PRG-MEL PRG-PPT PRG-SCL PSA-EZE RIX-TLS ROV-EZE RVN-ZRH SIP-IKT SIP-SVO SKG-DUS SKG-YYZ SNN-HPN SOF-GRU SOF-ORD SOU-AMS STR-ODS STR-SCL STR-SYD SVG-GIG SVG-MAD SVG-SIN SVO-BCN SVO-EZE SVO-LED SVO-NGO SVQ-HKG SXB-ORD TIA-MEL TLS-CCS TLS-NBO TRN-LED TRS-EWR TSR-MEL TXL-CGK TXL-DAC TXL-DEL TXL-DKR TXL-PVG TXL-SCL TXL-SGN TXL-SYD VAA-DUS VCE-HBE VCE-ORD VCE-SEA VGO-PPT VIE-TPA VKO-DUS VNO-EZE WAW-BOS WAW-GRU WAW-YZR WRO-ORD ZRH-HNL ZRH-HRE
52
Bijlage 3
Econometrische formules
Onderstaande formules zijn gebruikt om de modellen te beoordelen. Bron: Dougherty (2002) en Greene (2000) R-squared ( R 2 ): VAR (Yˆ ) Var (e) 1 RSS R2 = = 1− = 1− VAR (Y ) Var (Y ) n Var (Y ) waarbij Yi = geobserveerde waarde van Y; Yˆ = geschatte waarde van Y; i
ei = n=
Y i − Yˆi ;
aantal observaties; n
RSS = residuele kwadratensom ( ∑ ei 2 ). i =1
De R 2 is het deel van de variantie in de data dat wordt ‘verklaard’ door de regressielijn. De maximale waarde van de R 2 is 1, als de regressielijn exact overeenkomt met de geobserveerde data.
Adjusted R-squared: ( n − 1) ( n − 1) 2 ( k − 1) ( k − 1) = = R2 − (1 − R 2 ) R 2 = 1 − (1 − R 2 ) R − (n − k ) (n − k ) (n − k ) (n − k ) waarbij k − 1 = het aantal verklarende variabelen.
De R 2 corrigeert voor het verlies aan vrijheidsgraden, dat optreedt als een model wordt uitgebreid met extra variabelen. De automatische stijging van de R 2 wordt gecompenseerd.
Akaike criterium (AIC) en Schwartz criterium (SC):
⎛ e ' e ⎞ 2k AIC = log ⎜ ⎟+ ⎝ n ⎠ n
⎛ e ' e ⎞ k log( n ) SC = log ⎜ ⎟+ n ⎝ n ⎠ Het Akaike criterium en het Schwartz criterium zijn twee alternatieve maten voor de ‘fit’ van een model. Net als de R 2 leggen zij een ‘straf’ op het verlies aan vrijheidsgraden door de toevoeging van verklarende variabelen. Bij het Schwartz criterium is deze straf zwaarder, waardoor deze maat leidt tot een simpeler model.
53 Bijlage 4
Stelsel vergelijkingen
Onderstaand het niet-oplosbare stelsel vergelijkingen uit hoofdstuk 4.
γ 1 = α1α 2 β 3 γ 2 = α1α 2 β 2 γ 3 = β1α 3α 2 γ 4 = β 2 β1β 3 γ 5 = β1β 3α 2 γ 6 = β1β 3 γ 7 = β 2 β1α 3 C = α1α 3α 2 Dit stelsel met 8 vergelijkingen en 6 onbekenden is analytisch onoplosbaar, omdat het niet reduceerbaar is tot een stelsel met 6 vergelijkingen. Er zijn geen 2 vergelijkingen in essentie dezelfde.