GVI Gazdaság- és Vállalkozáskutató Intézet
Gazdasági előrejelzések online folyamatok alapján
Tóth István János – Hajdu Miklós Hungarian Natural Language Processing Meetup Budapest 2012. november 21. http://www.gvi.hu/
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Tartalom • A konjunktúra-kutatás alapproblémái • A Google Trends - lehetőségek • Az online tartalmak & gazdasági folyamatok – Textplore • Gyakorlati példák – Autóeladások, háztartási fogyasztás – Migrációs potenciál – Gazdasági válságra utaló kifejezések & makrogazdasági mutatók – Következtetések http://www.gvi.hu/
2
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A klasszikus konjunktúra-kutatás alapproblémái
http://www.gvi.hu/
3
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Célok, módszerek (1) • Alapvető cél: a gazdasági folyamatok alakulásának, változásának előrejelzése • Hagyományos módszerek: – Reáladatok (pl. GDP, ipari termelés volumene) idősoros elemzése – Üzleti klíma kérdőíves felmérése • Ön szerint milyen a vállalkozás jelenlegi üzleti helyzete? [Jó, kielégítő vagy rossz] • Ön szerint várhatóan hogyan alakul a vállalkozás jövedelmezősége a következő 6 hónap során? [Javul, nem változik vagy romlik]
http://www.gvi.hu/
4
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Célok, módszerek (2) • A hagyományos módszerek kapcsán felmerülő nehézségek: – Reáladatok idősoros elemzése • A hivatalos adatok kiadása és az általuk jellemzett időpont közötti hosszú késedelem • Az adatközlések alacsony gyakorisága • Gyenge előrejelző funkció
– Üzleti klíma kérdőíves felmérése • Megbízhatóság és érvényesség problémái • Stabil apparátus, szervezet • Idő- és költségigény
http://www.gvi.hu/
5
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Célok, módszerek (2) • Vannak könnyebben elérhető és elemezhető adatok, amelyek javíthatják a leading indikátorokat? – Érdemes az online folyamatokat vizsgálni, mind a látogatói, mind a tartalomszolgáltatói oldalról.
http://www.gvi.hu/
6
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A Google Trends bemutatása
http://www.gvi.hu/
7
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Külföldi tapasztalatok a Google Trends adatsorainak felhasználásáról • Estimation of the unemployment rate in Germany Askitas, Nikolaous – Zimmermann, Klaus, F. (2009): Google Econometrics and Unemployment Forecasting. IZA. Bonn.
• Improvement of automotive, tourism and housing market data forecasts in the USA Choi, Hyunyoung – Varian, Hal. (2009): Predicting the Present with Google trends.
• Prediction and nowcasting of private consumption in the USA Kholodilin, Konstantin A. - Maximilian Podstawski - Boriss Siliverstovs (2010): Do Google Searches Help in Nowcasting Private Consumption? A Real-Time Evidence for the US. Discussion Papers – 997. DIW Berlin. Schmidt, Torsten – Vosen, Simeon. (2009b): Forecasting Private Consumption: Survey-based Indicators vs. Google Trends. Ruhr Economic Papers. 155. http://www.gvi.hu/
8
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Internet penetráció Magyarországon Az Internet penetrációjának alakulása Magyarországon nemzetközi összehasonlításban, 2004-2011 100 90 80 70
%
60
Magyarország*
50
EU-27*
40
Lengyelország*
30
Luxemburg*
20
Svédország* USA**
10 0 2004
2005
2006
2007
2008
2009
2010
2011
Év *Forrás: Eurostat **Forrás: Pew Internet & American Life Project
http://www.gvi.hu/
9
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Jelenbecslés vagy előrejelzés? Keresési gyakoriság
Et-n(It): a gazdasági aktivitás elhatározása Gi: az első keresés a Google-on It : gazdasági tranzakció Gk: az utolsó keresés a Google-on
Et-n (It)
Gi
It
http://www.gvi.hu/
Gk
idő
10
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A Google Trends adatai • Keresési kifejezések, keresési kategóriák – Relatív keresési mennyiségek – Növekedési százalékok
• Időhorizont: 2004.01.01.-től egészen a múlt hétig – Forgalomtól függően akár heti bontásban is!
• Területi bontás – Forgalomtól függően akár megyei szinten elemezhező adatok
http://www.gvi.hu/
11
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
http://www.gvi.hu/
12
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Saját dokumentumok
Internetről automatikusan gyűjtött tartalom – pl. Index, Origo
Dokumentumok honlapokról – amit a felhasználó kiválaszt
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Gyakorlati példák
http://www.gvi.hu/
14
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Az autóeladások alakulásának becslése a Google Trends segítségével • 1. modell: szezonális autoregresszív modell
Ct = b0 + b1Ct-1 + b2Ct-k + ut t-1 a megelőző hónap, t-k az előző év azonos periódusa
• 2. modell: a Google Trends adatain alapuló modell
Ct = b0 + b1Gt + ut Gt a Google keresési kategóriáin alapuló változók
• 3. modell: kiterjesztett modell
Ct = b0 + b1Ct-1 + b2Ct-k + b3Gt + ut
http://www.gvi.hu/
15
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Az autóeladások (használt és új) alakulása (2005.01-2011.12)
Forrás: Datahouse http://www.gvi.hu/
16
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Az autóeladásokkal korreláló keresési kategóriák Alcoholic Beverages
Health
Arts & Humanities
Home Financing
Banking
Home Furnishings
Books & Literature
Home Improvement
Computer & Video Games
Homemaking & Interior Decor
Computers & Electronics
Internet & Telecom
Credit & Lending
Movies
Education
Vehicle Brands
Entertainment
Vehicle Parts & Accessories
Food & Drink
Vehicle Shopping http://www.gvi.hu/
17
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A modellek főbb jellemzői Factors Constant Lag(1) Lag (12)
Baseline model
Google
Extended model
(model #1) 4755.364 (1.583) 0.644 (8.339) 0.233 (3.295)
(model #2) 53949.327 (93.501)
(model #3) 35048.749 (4.387) 0.301 (2.860) 0.045 (0.534) 6548.026 (3.919) -2338.657 (-2.692) 1342.506 (2.025) 1287.287 (1.638) -1863.008 (-3.175) 0.952 0.95
-
F1_2
-
F4_2
-
F6_2
-
F3_2
-
F14_2
-
R2 Adj. R2
0.78 0.774
98899.258 (16.227) -3848.312 (-7.109) 2646.544 (4.805) 2613.504 (3.968) -1317.808 (-2.400) 0.853 0.844
Durbin-Watson
2.008
1.412
1.811
RMSE T
5084.184 72
4825.501 84
4311.926 72
http://www.gvi.hu/
18
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Keresztkorrelációk az autóeladások és a Google Trends adatain alapuló becslések között
http://www.gvi.hu/
19
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Az autóeladások és a Google Trends adatain alapuló becslés kapcsolata
http://www.gvi.hu/
20
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A háztartási fogyasztás alakulásának becslése a Google Trends segítségével • 1. modell: autoregresszív modell
Ct = b0 + b1Ct-1 + ut t-1 az előző negyedév
• 2. modell: A Google Trends adatain alapuló modell
Ct = b0 + b1Gt + ut Gt a Google keresési kategóriáin alapuló változók
• 3. modell: kiterjesztett modell
Ct = b0 + b1Ct-1 + b2Gt + ut
http://www.gvi.hu/
21
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Háztartási fogyasztás (2004q1-2011q4)
Forrás: KSH http://www.gvi.hu/
22
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A háztartási fogyasztással korreláló keresési kategóriák Arts & Humanities
Home Improvement
Books & Literature
Internet & Telecom
Computer & Video Games
Vehicle Brands
Computers & Electronics
Vehicle Parts & Accessories
Food & Drink
Vehicle Shopping
Home Financing
http://www.gvi.hu/
23
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A modellek főbb jellemzői Factors Constant Lag(1)
Baseline model
Google
Extended model
(model #1) 120389.828 (0.659) 0.958 (15.199)
(model #2) 2886361.542 (339.529)
(model #3) 515823.938 (2.596) 0.821 (11.1979 24972.246 (3.282)
-
R2 Adj. R2
0.888 0.885
79805.858 (9.040) -49085.12 (-4.388) 42951.496 (5.093) 23699.449 (2.750) -21364.469 (-2.240) 0.849 0.819
Durbin-Watson
1.538
1.117
1.87
RMSE T
36653.366 31
42502.495 32
31148.167 31
F1_1
-
F4_1
-
F2_1
-
F3_1 F5_1
http://www.gvi.hu/
-
0.919 0.914
24
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Keresztkorrelációk a háztartási fogyasztás és a Google Trends adatain alapuló becslések között
http://www.gvi.hu/
25
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A háztartások fogyasztása és a Google Trends adatain alapuló becslés
http://www.gvi.hu/
26
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
A külföldi munkavállalási hajlandóság mérése a Google Trends segítségével
http://www.gvi.hu/
27
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és a GDP volumenindexe Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya negyedévenként az összes megjelent cikk százalékában és a GDP negyedéves volumenindexe, 2000. I. negyedév - 2011. IV. negyedév
25
3,5
a "válság" kifejezés előfordulása, negyedéves arány (%) - bal tengely
20
válsággal kapcsolatos kifejezések* előfordulása, negyedéves arány (%) - bal tengely
3
GDP negyedéves volumenindex** (%) - bal tengely a "GDP" kifejezés előfordulása, negyedéves arány (%) - jobb tengely
15
2,5
10
2
5
1,5
0
1
* gazdasági válság, hitelválság, pénzügyi válság, recesszió, válság, világgazdasági válság, visszaesés, visszaesik ** Szezonálisan és naptári hatással kiigazított és kiegyensúlyozott adatok (előző év azonos időszaka=100,0), forrás: KSH
-5
0,5
-10
0 I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV 2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
Forrás: GVI, Textplore
http://www.gvi.hu/
28
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és a GDP volumenindexe A szócsoportok előfordulási aránya negyedévenként az összes megjelent cikk százalékában és a GDP negyedéves volumenindexe, 2000. I. negyedév - 2011. IV. negyedév 25
20
15
GDP negyedéves volumenindex (%)** "külkereskedelem" szócsoport "munkaerőpiac" szócsoport "gazdaságpolitika" szócsoport "vállalatok" szócsoport "pénzpiac" szócsoport
"adó" szócsoport "államháztartás" szócsoport "makrogazdaság" szócsoport "hitel" szócsoport "gazdaságelemzés" szócsoport "válság" szócsoport
10
5
0
-5
** Szezonálisan és naptári hatással kiigazított és kiegyensúlyozott adatok (előző év azonos időszaka=100,0), forrás: KSH
-10 I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV 2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
Forrás: GVI, Textplore
http://www.gvi.hu/
29
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és a BUX index napi záróértékeinek havi átlaga A "pénzpiac" és a "válság" szócsoportok előfordulási aránya havonta az összes megjelent cikk százalékában, valamint a BUX-index napi záróértékeinek havi átlaga, 2000. január - 2012. március
35000
BUX havi átlag - bal tengely
30000
0,35
0,3
"pénzpiac" szócsoport - jobb tengely 25000
0,25
"válság" szócsoport - jobb tengely
20000
0,2
15000
0,15
10000
0,1
5000
0,05
0
0 J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J 2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011 2012
Forrás: GVI, Textplore
http://www.gvi.hu/
30
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és az ipari értékesítés volumenindexe A "pénzpiac", a "válság" és a "makrogazdaság" szócsoportok előfordulási aránya havonta az összes megjelent cikk százalékában, valamint az ipari értékesítés volumenindexe, 2000. január - 2012. március 130
0,35 ipari értékesítés volumenindexe* - bal tengely "makrogazdaság" szócsoport - jobb tengely "válság" szócsoport - jobb tengely "pénzpiac" szócsoport - jobb tengely
120
110
100
0,3
0,25
* Összes ipari értékesítés volumenindexe, 2005. év havi átlaga = 100,0; szezonálisan és munkanappal kiigazított adatok, forrás: KSH
0,2
0,15
80
0,1
70
0,05
60
0 J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J
90
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011 2012
Forrás: GVI, Textplore
http://www.gvi.hu/
31
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Következtetések • Az internetes keresési forgalomra vonatkozó információk pontosabbá teszik a gazdasági indikátorok jelenbecslését, rövid távú előrejelzését. • A gazdaság reálfolyamatai és az online cikkek szóhasználata között is kapcsolat mutatható ki – Egyes gazdasági kifejezések előfordulási gyakorisága akár az ipari értékesítés jelenbecslésében is releváns információ lehet
• Az internetes tartalmakat szolgáltatók és fogyasztók viselkedésének megfigyelése egyaránt segítségünkre lehet a gazdasági előrejelzések finomításában, fejlesztésében. http://www.gvi.hu/
32
Problémafelvetés Google Trends Textplore Gyakorlati példák Következtetések
Köszönjük a figyelmet! http://www.gvi.hu/
http://www.gvi.hu/
33