A regisztrált álláskeresős számára felállított GT modellek külső illeszkedésének vizsgálata – 2012. 11. 12.
A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata
Az elemzésben a GoogleTrends (GT, korábban Google Insights for Search) modellek mintán kívüli illeszkedésének vizsgálatával kapcsolatos tapasztalatokat foglaljuk össze. Azoknak a modelleknek a teljesítményét vizsgáltuk, melyeket egy korábbi vizsgálódásunk során dolgoztunk ki. Eredményül azt kaptuk, hogy vannak olyan, a GT felhasználásával készült modellek, amelyek mintán kívüli illeszkedése jobb, mint az AR modellek. Érdemes tehát a regisztrált álláskeresők számának előrejelzésénél a GT által szolgáltatott információkat is figyelembe venne – ezekkel pontosabb előrebecslések adhatók. A mintán kívüli illeszkedés a becslésnek az a tulajdonsága, ami megmutatja, hogy egy adott részmintán végzett becslés mennyire jól illeszkedik egy másik részmintára. Speciálisan azt vizsgáltuk, hogy egy adott harminc időszak hosszúságú ablakon végzett becslés segítségével mennyire pontosan tudjuk megmondani, mi várható az ezt követő (harmincegyedik) időszakban. Ez az illeszkedésnek az a tulajdonsága, ami lehetővé teszi, hogy a modellt előrejelzésre használjuk. Ezzel szembe fogjuk állítani összehasonlításul a mintán belüli illeszkedést. Ez a becsléseknek az a tulajdonsága, hogy egy adott részmintán végzett becslés mennyire jól illeszkedik ugyanarra a részmintára. Ezt a vizsgálatot azért végezzük, mert amikor kidolgoztuk a GT adatokat felhasználó előrejelző modelleket, azt tapasztaltuk, hogy ezeknek az adatoknak a felhasználása nagyban javította a mintán belüli illeszkedést. Arra voltunk kíváncsiak, hogy ez a mintán kívüli illeszkedésre is igaz-e; vagyis tényleg javítja-e az előrejelzéseket ezeknek az adatoknak a felhasználása. A vizsgálathoz először elő kell állítani az előrejelzett értékeket. Ezt minden egyes időszakhoz úgy kapjuk meg, hogy az adott időszakot megelőző harminc időszak mintáján megbecsüljük a modell (modellek, variációk) egyenletében szereplő GVI • 1034 Budapest, Bécsi út 120. • tel: 235-05-84 • fax: 235-07-13 • e-mail:
[email protected] • Internet: http://www.gvi.hu
1/5
A regisztrált álláskeresős számára felállított GT modellek külső illeszkedésének vizsgálata – 2012. 11. 12.
paramétereket, majd a becsült paraméterekből kiszámítjuk a kérdéses időszakra vonatkozó predikciót. Ezt minden olyan időszak esetében megtettük, ahol a megelőző
harminc
időszakból
van
megfigyelésünk,
vagyis
a
teljes
minta
harmincegyedik időszakától kezdve kiszámolhatjuk a modellek, modell variációk mintán kívüli (out of sample) predikcióját. Először azt szeretnénk vizsgálni, hogy a regisztrált álláskeresők számának GT adatokat felhasználó becslési modellje, vagy az ezeket nélkülöző becslési modell használható jobban előrejelzésre. Vagyis az alapmodell és a GT adatokat felhasználó modell variációinak mintán kívüli illeszkedését hasonlítottuk össze. Az
első
mutató,
amit
az
így
kapott
előrejelzések
értékeléséhez
és
összehasonlításához választottunk a root mean standard deviation (rmsd), ami a becslés saját szóródása. Ehhez a fent leírt módon előrejelzett idősornak tényleges értékekhez képesti eltéréseinek négyzetes közepét vesszük. Ez a mérőszám könnyen összehasonlíthatóvá teszi, hogy az egyes modellek milyen pontosan, mekkora szórással tudnak előrejelezni egy időszakot. Legfontosabb tapasztaltunk, hogy a GT modellek között vannak pontosabb előrejelző képességű variációk, mint az alap AR modell variációi. Más variációk elvethetők az előrejelzésben való felhasználás szempontjából, mivel nem javítják a mintán kívüli illeszkedést. A legjobban teljesítő variációk rmsd értékeit mutatja az első táblázat. 1. táblázat: A modellek mintán kívüli illeszkedése Modell
rmsd
Modell
rmsd
Alapmodell variáció 1
13416
GT modell variáció 10
13332
Alapmodell variáció 2
13679
GT modell variáció 2
13025
Alapmodell variáció 3
13733
GT modell variáció 6
13319
Nézzük meg a predikciók és a tényleges idősor közti eltérések hisztogramját, mindekét modell legkisebb rmsd értékű variációja esetében. A két hisztogram az 1. és 2. ábrán látható. Azt láthatjuk, hogy a két hisztogram között nincs lényeges eltérés, mindkettő normálisnak mondható. Vagyis a GT modellnek nem csak jobb az rmsd értéke, de az is elmondható, hogy nincs olyan speciális jellegzetesség a tévedéseiben, ami kizárná az előrejelzésben való felhasználhatóságát. GVI • 1034 Budapest, Bécsi út 120. • tel: 235-05-84 • fax: 235-07-13 • e-mail:
[email protected] • Internet: http://www.gvi.hu
2/5
A regisztrált álláskeresős számára felállított GT modellek külső illeszkedésének vizsgálata – 2012. 11. 12.
1. ábra: Alapmodell tévedéseinek hisztogramja
GVI • 1034 Budapest, Bécsi út 120. • tel: 235-05-84 • fax: 235-07-13 • e-mail:
[email protected] • Internet: http://www.gvi.hu
3/5
A regisztrált álláskeresős számára felállított GT modellek külső illeszkedésének vizsgálata – 2012. 11. 12.
2. ábra: A GT modell tévedéseinek hisztogramja
Érdemes összehasonlítani a mintán belüli és mintán kívüli illeszkedést az egyes modellek (variációk) esetében. A mintán belüli illeszkedést ugyanúgy rmsd értékkel mértük. A második táblázatban látható azoknak a modelleknek a mintán belüli illeszkedése, amelyeknek a mintán kívüli illeszkedését az első táblázatban láthatjuk. Azt mondhatjuk, hogy a GT adatok felhasználása javítja a mintán kívüli és a mintán belüli illeszkedést is, de a mintán belülit jobban. A mintán kívüli és a mintán belüli illeszkedés között gyenge pozitív összefüggés van. Ennek ellenére mintán belüli predikcióban
más
variációk
bizonyulnak
a
legjobbnak,
mint
mintán
kívüli
predikcióban.
GVI • 1034 Budapest, Bécsi út 120. • tel: 235-05-84 • fax: 235-07-13 • e-mail:
[email protected] • Internet: http://www.gvi.hu
4/5
A regisztrált álláskeresős számára felállított GT modellek külső illeszkedésének vizsgálata – 2012. 11. 12.
2. táblázat: A modellek mintán belüli illeszkedése Modell
rmsd
Modell
rmsd
Alapmodell variáció 1
11102
GT modell variáció 10
10801
Alapmodell variáció 2
11131
GT modell variáció 2
10793
Alapmodell variáció 3
11295
GT modell variáció 6
10701
Azt is érdemes megvizsgálni, mennyire határozza meg a mintán kívüli illeszkedési tulajdonságokat, hogy hány időszak hosszúságú ablakon végezzük a becslést. Ehhez egyszerűen a harmincas becslési ablak helyett kipróbáltunk 60-at, 40-et, valamint 25-öt, 20-at és 15-öt, és megnéztük mi történik az rmsd értékekkel. Azt tapasztaltuk, hogy az ablak hosszúságát a mintán kívüli illeszkedés szempontjából nem érdemes növelni, a 60-as ablak hossz mellett az rmsd értékek 17000 környékére ugrottak fel, 40-es ablak hossz mellett 14000 körüli értéket mutattak. Az ablak hosszúságát rövidítve a 25 és a 20 hosszúságú ablak jobb külső illeszkedést ad, mint a 30, egészen 11000 környékéig csökkenhet az rmsd. Ennél rövidebb ablak esetén gyors ütemben romlik a külső illeszkedés.
Irta:
Türei Gergely, MKIK GVI
Kutatásvezető: Tóth István János (tudományos főmunkatárs, MTA KTI, ügyvezető igazgató, MKIK GVI)
[email protected]
MKIK Gazdaság- és Vállalkozáskutató Intézet
1034 Budapest, Bécsi út 120. Tel: 235-05-84 Fax: 235-07-13 e-mail:
[email protected] Internet: http://www.gvi.hu/
GVI • 1034 Budapest, Bécsi út 120. • tel: 235-05-84 • fax: 235-07-13 • e-mail:
[email protected] • Internet: http://www.gvi.hu
5/5