HJF
Statisztika II.
Statisztika II. előadás és gyakorlat – 1. rész T.Nagy Judit
Ajánlott irodalom: Ilyésné Molnár Emese – Lovasné Avató Judit: Statisztika II. Feladatgyűjtemény, Perfekt, 2006. Korpás Attiláné (szerk.): Általános Statisztika II., Nemzeti Tankönyvkiadó, 1997. Molnár Máténé – Tóth Mártonné: Általános Statisztika Példatár II., Nemzeti Tankönyvkiadó, 2001.
T.Nagy Judit
1
HJF
Statisztika II.
Bevezetés Statisztika I. (Leíró statisztika): Teljes sokaság vizsgálata esetén alkalmazható módszerek. Statisztika II. (Következtető statisztika): A sokaságnak csak egy részét (egy mintát) vizsgálunk, és ez alapján vonunk le a teljes sokaságra vonatkozó következtetéseket. Főbb témakörei: Regressziószámítás, idősorok elemzése, statisztikai becslések, hipotézisvizsgálat.
T.Nagy Judit
2
HJF
Statisztika II.
I. Kétváltozós lineáris korreláció és regressziószámítás A sztochasztikus kapcsolat fajtáival már megismerkedtünk (Statisztika 1.) Sztochasztikus kapcsolat típusai o Asszociációs – mindkét ismérv minőségi vagy területi o Vegyes – egyik minőségi v. területi, másik mennyiségi o Korrelációs – mindkét ismérv mennyiségi o Rangkorrelációs – mindkét ismérv sorrendi
A korreláció tehát mennyiségi ismérvek közötti sztochasztikus kapcsolat. (amit nemcsak kettő, hanem több ismérv esetén is értelmezünk). I. 1. MINTAPÉLDA: Egy vendéglátóhely a napi átlaghőmérséklet mellett vizsgálta a vendégek napi sörfogyasztását. A megfigyelt 10 nap adatai: Napi átlaghőmérséklet (°C) Sörfogyasztás (l) 18 20 25 24 22 26 24 19 16 16
250 310 390 320 330 430 390 320 290 270
Két kérdésre keresünk választ: y
Van-e kapcsolat az ismérvek között, ha van, milyen irányú és milyen erősségű?
y
A kapcsolat milyen matematikai összefüggéssel írható le?
T.Nagy Judit
3
HJF
Statisztika II.
A korreláció kimutatása és szorossága (van-e kapcsolat?, milyen irányú?, milyen szoros?) 1. Az adatok ábrázolása pontdiagramon (a kapcsolat megléte és iránya)
500 napi sörfogyasztás (l)
450 400 350 300 250 200 150 100 50 0 15
17
19
21
23
25
27
napi átlaghőmérséklet (°C)
1.1. ábra
Következtetés: pozitív korreláció van az átlaghőmérséklet és a sörfogyasztás között.
Példák: 120
250
300
100
200
250
150
200
60
Y
Y
Y
80
100
40
150 100
50
20
50
0
0 0
50
100
150
200
0
50
100
150
200
0 0
X
X
50
100
150
X
Korrelálatlanság
Pozitív korreláció
Negatív korreláció
2. Kovariancia kiszámítása (a kapcsolat megléte, iránya)
C=
T.Nagy Judit
∑ (d
X
n
dY )
dX = Xi − X d Y = Yi − Y
4
200
HJF
Statisztika II.
A számoláshoz szükséges munkatáblázat:
Összesen: Átlag:
X 18 20 25 24 22 26 24 19 16 16 210 21,00
Y 250 310 390 320 330 430 390 320 290 270 3300 330
dX -3,00 -1,00 4,00 3,00 1,00 5,00 3,00 -2,00 -5,00 -5,00 0
dY -80 -20 60 -10 0 100 60 -10 -40 -60 0
dXdY 240 20 240 -30 0 500 180 20 200 300 1670
C = 1670/10 =167 Értelmezés: Pozitív irányú kapcsolat van a két ismérv között. C>0 pozitív irányú kapcsolat C<0 negatív irányú kapcsolat C=0 a kapcsolat teljes hiánya
3. a. Lineáris korrelációs együttható (a kapcsolat megléte, iránya és szorossága)
r=
∑ (d d ) ∑d ∑d X
X
T.Nagy Judit
Y
2
2
Y
5
HJF
Statisztika II. A számoláshoz szükséges munkatáblázat:
Összesen: Átlag:
X 18 20 25 24 22 26 24 19 16 16 210 21,00
Y 250 310 390 320 330 430 390 320 290 270 3300 330
dX -3,00 -1,00 4,00 3,00 1,00 5,00 3,00 -2,00 -5,00 -5,00 0
dY -80 -20 60 -10 0 100 60 -10 -40 -60 0
dXdY 240 20 240 -30 0 500 180 20 200 300 1670
dX 2 9 1 16 9 1 25 9 4 25 25 124
dY 2 6400 400 3600 100 0 10000 3600 100 1600 3600 29400
r = 1670/1909,35 = 0,8747 Értelmezés: Viszonylag szoros, pozitív irányú lineáris kapcsolat van a két ismérv között. -1 ≤ r ≤ 1 Előjele a kapcsolat irányát mutatja meg. A kapcsolat annál szorosabb, minél közelebb van |r| az 1-hez. r = 0 a kapcsolat teljes hiánya, korrelálatlanság
3. b. Determinációs együttható r2=0,87472 =0,765=76,5% Értelmezés: A sörfogyasztás ingadozását 76,5%-ban magyarázza a hőmérséklet.
Az eredményváltozó (Y) (ingadozását) varianciáját hány %-ban magyarázza a magyarázóváltozó (X).
T.Nagy Judit
6
HJF
Statisztika II.
4. Regressziószámítás Keressük az X Y adatpárokhoz legjobban illeszkedő függvényt. A függvénytípus megválasztása: y
szakmai ismeret alapján
y
pontdiagram segítségével
A statisztikai gyakorlatban használatos függvénytípusok:
Lineáris regresszió Hatványkitevős regresszió Exponenciális regresszió Parabolikus regresszió Hiperbolikus regresszió
Nemlineáris regresszió
250 200
Y
150 100 50 0 0
50
100
150
200
X
lineáris kapcsolat feltételezése
nemlineáris kapcsolat feltételezése (pozitív irányú)
(pozitív irányú)
6 5
Y
4 3 2 1 0 0
lineáris kapcsolat feltételezése (negatív irányú)
2
4
6
8
10
12
14
X
nemlineáris kapcsolat feltételezése (negatív irányú)
T.Nagy Judit
7
HJF
Statisztika II.
Kétváltozós lineáris regressziószámítás
Y
I. 1. MINTAPÉLDA 500 450 400 350 300 250 200 150 100 50 0 15
17
19
21
23
25
27
X
1.2. ábra
Az előzetes vizsgálat szerint: y
A pontdiagram lineáris kapcsolatra utal.
y
r is alátámasztja a lineáris kapcsolat meglétét és mutatja szorosságát
A lineáris kapcsolatot leíró függvény: f(x) = b1⋅x + b0
ˆ = b ⋅ X + b alakban keressük. Az adatsorra legjobban illeszkedő A regressziós egyenest Y 1 0 egyenes, melynek a pontoktól mért átlagos távolsága a legkisebb. (A legkisebb négyzetek módszerével, a
∑ (Y − Yˆ )
2
→ min szélsőérték feladat megoldására a következőket kapjuk:)
A paraméterek kiszámítása: b1 =
∑d d ∑d X
Y
b 0 = Y − b1 ⋅ X
2
X
b1=1670/124=13,4677
b0=330-13,4677⋅21=47,1783
ˆ = 13,47X+ 47,18 A keresett regressziós egyenes egyenlete: Y
T.Nagy Judit
8
Statisztika II.
Y: napi sörfogyasztás (l)
HJF
500 450 400 350 300 250 200 150 100 50 0 15
17
19
21
23
25
27
X: napi átlaghőmérséklet (°C)
1.3. ábra
A paraméterek értelmezése: b0=47,18: 0 °C napi átlaghőmérséklet esetén átlagosan 47,18 l sörfogyasztásra számíthatunk. b1=13,47: 1 °C-kal magasabb hőmérséklet átlagosan 13,47 l-es fogyasztásnövekedést okoz. b0: X=0 esetén Y mekkora értékére számíthatunk átlagosan. b1: A magyarázó változó (X) adott értékének egy egységnyi változása átlagosan mekkora változást okoz az eredményváltozóban (Y), a vizsgált tartományban. A változók kölcsönhatása esetén: X egységnyi változása átlagosan mekkora Y változással jár együtt.
Előrejelzés I. 1. MINTAPÉLDA Becsüljük meg a regressziófüggvény segítségével, hogy 23 °C-os átlaghőmérséklet esetén mennyi lesz az átlagos napi sörfogyasztás! ˆ = 13,47X.+ 47,18 Y ˆ = 13,47⋅23 + 47,18 = 356,99 X=23 esetén: Y
23 °C-os átlaghőmérséklet esetén várhatóan 357 l lesz a napi sörfogyasztás.
T.Nagy Judit
9
HJF
Statisztika II.
Elaszticitási (rugalmassági) együttható Jelentése X változó adott értékének egységnyi relatív (1%-os) változása az Y változó mekkora relatív (hány %-os) változásával jár együtt.
Lineáris függvény esetén:
ˆ , X) = b ⋅ Pontrugalmasság: E(Y 1
X ˆ Y
ˆ , X) = b ⋅ X Átlagpontban mért rugalmasság: E(Y 1 Y I. 1. MINTAPÉLDA Határozzuk meg a sörfogyasztás elaszticitását az X=17 pontban valamint átlagpontban:
X=17 esetén
ˆ = 13,47⋅17 + 47,18= 276,17 Y
ˆ ,17) = 13,47 ⋅ E (Y
17 = 0,8291 276,17
Értelmezés Ha az átlaghőmérséklet 17°C-ról 1%-kal emelkedik, az 0,831%-os sörfogyasztás-növekedést okoz.
Átlagpontban, azaz X = 21 esetén, Y = 330 ˆ ,21) = 13,47 ⋅ E(Y
21 = 0,8572 330
Értelmezés Ha az átlaghőmérséklet 21°C-ról 1%-kal való emelkedése 0,86%-os sörfogyasztás-növekedést okoz. Mivel a mutató kisebb, mint 1(%), azt mondhatjuk, hogy a sörfogyasztás rugalmatlanul reagál a hőmérsékletre. Az E mutató abszolút nagysága szerint a következő eseteket különböztetjük meg:
• Ha |E|<1, akkor Y rugalmatlan az X változásával szemben. T.Nagy Judit
10
HJF
Statisztika II.
• Ha |E|=1, akkor Y változásával arányosan változik X. • Ha |E|>1, akkor Y rugalmas az X változásával szemben. A regressziós becslés hibája ˆ Számítsuk ki a mintában szereplő összes Xi értékhez a regressziófüggvénnyel becsült Y i ˆ = 13,47X+ 47,18 becslőfüggvénybe a mintabeli X-eket). értéket (azaz helyettesítsük az Y
ˆ Az abszolút hiba (reziduális szórás) megmutatja, hogy a regressziós becslések ( Yi ) átlagosan
mennyivel térnek el az eredményváltozó (Yi) megfigyelt értékeitől. se =
∑e
2 i
n−2
ˆ ahol e i = Yi − Yi (maradéktag)
ˆ A relatív hiba (relatív reziduális szórás) megmutatja, hogy a regressziós becslések ( Yi )
átlagosan hány %-kal térnek el az eredményváltozó (Yi) megfigyelt értékeitől. Ve =
se Y
A számoláshoz szükséges munkatáblázat:
Összesen:
se =
T.Nagy Judit
X 18 20 25 24 22 26 24 19 16 16 210
Y 250 310 390 320 330 430 390 320 290 270 3300
ˆ Y 289,64 316,58 383,93 370,46 343,52 397,40 370,46 303,11 262,70 262,70 ≈3300
ˆ )2 (Y − Y
1571,3296 43,2964 36,8449 2546,2116 182,7904 1062,7600 381,8116 285,2721 745,2900 53,2900 6908,8966
6908,8966 =29,3873 liter 8
11
HJF
Statisztika II. Ve =
29,3873 =0,0891=8,91% 330
Értelmezés Tehát a regressziós becslések átlagosan 29,39 literrel, azaz 8,91%-kal térnek el a megfigyelt értékektől. A regressziófüggvény megbízhatóságát a relatív hibával mérjük. A gyakorlatban 10% alatti relatív hibájú regressziós becslést minősítünk jónak és tartunk alkalmasnak arra, hogy előrejelzést készítsünk vele.
T.Nagy Judit
12
HJF
Statisztika II.
Összefoglalás Kapcsolatvizsgálat y
Korrelációszámítás: Két (vagy több) mennyiségi ismérv közötti kapcsolat irányát, szorosságát/intenzitását jellemezi A korreláció kimutatása: o Pontdiagrammal o Mérőszámmal: kovariancia, korrelációs együttható, determinációs együttható
y
Regresszió számítás: A kapcsolatban lévő tendenciát (ha van) függvénnyel írja le. (Több változó esetén többváltozós regressziószámításról beszélünk.) A becslőfüggvény típusának megállapítása pontdiagram vagy szakmai ismeret alapján történhet. Lehet: o Lineáris o Nemlineáris
A kétváltozós lineáris regressziószámítás menete 1. Vizsgáljuk, hogy van-e elég szoros(b), lineáris(a) kapcsolat: (a) pontdiagram, (b) lineáris korrelációs együttható (r) segítségével. Ha van, akkor 2. Meghatározzuk a regressziós egyenes egyenletét
T.Nagy Judit
•
b1, b0 paraméter meghatározása
•
ˆ = b ⋅X + b a regressziófüggvény felírása Y 1 0
13
HJF
Statisztika II.
Gyakorló Feladatok 1. Hat hallgatót megkérdezve előző féléves Gazdasági matematika és Makroökonómia jegyükről, a következő adatokat adódtak: Gazd. Mat. 1 2 3 4 3 5
Makro. 1 1 2 2 2 4
Feladat Vizsgálja meg, regressziószámítás segítségével, hogy milyen kapcsolat van az osztályzatok között. Értelmezze a kiszámolt mutatókat és paramétereket. Becsülje meg, a regressziófüggvény segítségével, egy gazdasági matematikából négyesre levizsgázott hallgató makroökonómia jegyét. 2. 15 elemű minta alapján vizsgálták adott típusú új és használt gépkocsik életkora és eladási ára valamint életkora és futott kilométere közötti kapcsolatot. Életkor év 0 1 1 2 2 3 3 4 5 6 7 9 11 12 12
Eladási ár Futott MFt ekm 5,2 0 2,8 59 3,2 40 2,5 79 2,4 92 2,2 81 1,9 92 1,6 105 1,5 97 1,4 120 1,2 140 1,0 157 0,9 220 1,3 210 0,7 250
Feladat Jellemezze lineáris regressziófüggvénnyel az arra alkalmasabb kapcsolatot. Ábrázolja a regressziófüggvényt, majd értelmezze paramétereit.
T.Nagy Judit
14
HJF
Statisztika II.
Becsülje meg, a regressziófüggvény segítségével, egy 8 éves, ugyanilyen típusú gépkocsi eladási árát/futott kilométerét! 3. Egy budapesti ingatlanügynök 2007. márciusában vizsgálta a körzetében eladó 63 m2-es lakások adatait: Kínálati ár Emelet (millió Ft) 0 15,8 1 17,6 1 19,5 1 25,9 2 19,2 2 20,0 2 22,6 2 23,9 2 25,5 3 21,3 3 21,5 4 23,5 4 28,0 4 21,5 5 21,0 5 21,9 5 26,7 6 26,7 6 33,9
∑d
X
d Y = 86,4526
∑d
2 X
= 58, 9474
∑d
2 Y
= 316,3074
Feladat Vizsgálja meg regressziószámítással, hogy milyen kapcsolat van a lakás emelete és a kínálati ára között. Értelmezze a kiszámolt mutatókat és paramétereket.
T.Nagy Judit
15
HJF
Statisztika II. II. Idősorok vizsgálata
Az idősorok összetevői Egy jelenség időbeli alakulásának vizsgálatánál, a statisztikai elemzés szempontjából három tényezőt szoktunk elkülöníteni: •
Alapirányzat (trend) yˆ - hosszú távon tartósan érvényesülő tendencia (lehet lineáris
vagy nemlineáris)
35
300 250
25
200
20
150
yt
yt
30
15
100
10
50 0
5
0
1
2
3
4
5
6
7
8
9
t
0 0
1
2
3
4
5
6
7
t
•
Periodikus ingadozás (szezonhatás) s – rövid időszakon belül ciklikusan ismétlődő, periodikus hullámzás az alapirányzat körül
12,0 10,0
yt
8,0 6,0 4,0 2,0 0,0 0
2
4
6
8
10
12
14
t
•
Véletlen ingadozás (véletlen hatás) v – a trendre gyakorolt egyéb befolyásoló hatások
yt
14,0 12,0 10,0 8,0 6,0 4,0 2,0 0,0 0
2
4
6
8
10
12
14
t
A fenti összetevők összekapcsolódása: 1. Additív modell esetén y = yˆ + s + v 2. Multiplikatív modell esetén y = yˆ · s · v
T.Nagy Judit
16
HJF
Statisztika II.
A kapcsolódási mód ábrázolás útján dönthető el: Ha a szezonális ingadozások abszolút nagysága állandó – additív modellt,
12,0 10,0 8,0 yt
6,0 4,0 2,0 0,0 0
2
4
6
8
10
12
14
t
8 7 6 yt
5 4 3 2 1 0 0
2
4
6
8
10
12
14
t
ha a relatív nagyság állandó – multiplikatív modellt használunk.
2 500
2 000
yt
1 500
1 000
500
0 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
t
30,0 25,0 yt
20,0 15,0 10,0 5,0 0,0 0
2
4
6
8
10
12
14
t
T.Nagy Judit
17
HJF
Statisztika II.
Az alapirányzat (trend) meghatározása analitikus trendszámítással A trendszámítás célja az alapvető tendencia meghatározása, a többi tényező kiszűrése, azaz az idősor kisimítása. Az analitikus trendszámításnál az alapirányzatot regressziófüggvénnyel közelítjük (a magyarázó változó az idő: t) II. 1. MINTAPÉLDA: Magyarország lakáscélú, devizaalapú hitelállományának alakulását mutatja az alábbi táblázat, 2002. és 2007. között. (KSH) Év
Tárgyidőszak végén fennálló állomány összege, 100 milliárd Ft
2002. 2003. 2004. 2005. 2006. 2007.
6 14 19 22 27 31
Ábrázoljuk az idősor adatait: 35
Fennálló hitellállomány (100 Mrd Ft)
30
25
20
15
10
5
0 2001
2002
2003
2004
2005
2006
2007
2008
Év
2.1. ábra
Következtetés: lineáris kapcsolat (pozitív irányú), nincs szezonalitás. Mivel az ábra lineáris kapcsolatra utal, az adatokat lineáris trendfüggvénnyel közelítjük. Azaz keressük az yˆ t = b1 t + b 0 becslőfüggvény b1 és b0 paramétereit. (A legkisebb négyzetek módszerét alkalmazva, a
∑ (y
t
− yˆ t ) → min szélsőérték probléma megoldásaként a
következőket kapjuk:) A paraméterek kiszámítása:
T.Nagy Judit
18
HJF
Statisztika II.
b1 =
∑t ⋅ y
− n ⋅ t ⋅ yt
(∑ t ) −
2
∑t
T.Nagy Judit
t
2
b 0 = y t − b1 ⋅ t
n
19
HJF
Statisztika II.
A számoláshoz szükséges munkatáblázat: yt
t
t2
t· yt
6 14 19 22 27 31 119 19,8333
1 2 3 4 5 6 21 3,5
1 4 9 16 25 36 91
6 28 57 88 135 186 500
Év 2002. 2003. 2004. 2005. 2006. 2007. Összesen Átlag b1 =
500 − 6 ⋅ 3,5 ⋅ 19,8333 = 4,7715 212 91 − 6
b 0 = y t − b1 ⋅ t = 19,8333 - 4,7715⋅3,5 = 3,1299 A lineáris kapcsolatot leíró trendfüggvény: yˆ t = 4,77 t + 3,13 . Ábrázolva:
35
30
25
yt
20
15
10
5
0 0
1
2
3
4
5
6
7
t
2.2. ábra
A paraméterek értelmezése: b0=3,13 A vizsgált időszakot megelőző időpontban, azaz 2001-ben 3,13 100mrd Ft volt a fennálló devizaalapú hitelállomány a trend szerint.
T.Nagy Judit
20
HJF
Statisztika II.
b1=4,77: A trend szerint a vizsgált időszakban évente átlagosan 4,77 100mrd Ft-tal nőtt a devizaalapú hitelállomány. b0: A vizsgált időszakot megelőző időpont trend szerinti értéke. b1: Ennyivel változik időszakonként átlagosan a vizsgált jelenség, a trend szerint. Megegyezik a korábban már tanult d mutatóval. A trendfüggvény hibája Számítsuk ki a trendértékeket a t=1, 2,…6-ra. Ha a trendfüggvénybe ( yˆ t = 4,77 t + 3,13 ) helyettesítjük a megfelelő t értékeket, megkapjuk az idősor becsült értékeit ( yˆ t -ket):
A számoláshoz szükséges munkatáblázat: Év 2002. 2003. 2004. 2005. 2006. 2007. Összesen Átlag
yt
t
6 14 19 22 27 31 119 19,8333
1 2 3 4 5 6 21 3,5
yˆ t ( y t − yˆ t ) 2 7,9 12,67 17,44 22,21 26,98 31,75 ≈119
3,6100 1,7689 2,4336 0,0441 0,0004 0,5625 8,4195
Az abszolút hiba (reziduális szórás) se =
se =
∑e
2 t
ahol e t = y t − yˆ t
n
8,4195 =1,1846 6
A relatív hiba (relatív reziduális szórás) Ve =
T.Nagy Judit
se y
21
HJF
Statisztika II. Ve =
1,1846 =0,0597=5,97% 19,8333
Értelmezés Tehát a fennálló hitelállomány lineáris trendfüggvénnyel becsült értékei és a valós értékek átlagosan 1,1846 100mrd Ft-tal, azaz 5,97%-kal térnek el egymástól.. Ha a relatív reziduális szórás nem haladja meg a 10%-ot, akkor minősítjük a trendfüggvényt jónak (ekkor alkalmas előrejelzés készítésére).
Az szezonalitás meghatározás (additív modell esetén) II. 2. MINTAPÉLDA: A Magyarországra érkező külföldi látogatók számának alakulása 2005 és 2007 között (KSH): Év
Negyedév
Egy napra látogatók száma, millió fő
2005.
I. II. III. IV. I. II. III. IV. I. II. III. IV.
4,6 5,9 9,4 6,3 5,4 6,8 10,0 6,8 6,2 7,4 10,6 6,6
2006.
2007.
1.) Ábrázoljuk az idősor adatait:
T.Nagy Judit
22
Statisztika II.
láto g ató k sz ám a (m illió fő )
HJF
12,0 10,0 8,0 6,0 4,0 2,0 0,0 I.
II.
III.
IV.
2005.
I.
II.
III.
IV.
I.
II.
2006.
III.
IV.
2007.
időszak
2.3. ábra
Következtetés: lineáris kapcsolat, van szezonalitás (additív modell). 2.) Mivel az ábra lineáris kapcsolatra utal, az adatokat lineáris trendfüggvénnyel közelítjük. A számoláshoz szükséges munkatáblázat: Év
Negyedév
yt
t
t2
t· yt
2005.
I. II. III. IV. I. II. III. IV. I. II. III. IV. Összesen Átlag
4,6 5,9 9,4 6,3 5,4 6,8 10,0 6,8 6,2 7,4 10,6 6,6 86,0 7,1667
1 2 3 4 5 6 7 8 9 10 11 12 78,0 6,5
1 4 9 16 25 36 49 64 81 100 121 144 650,0
4,6 11,8 28,2 25,2 27,0 40,8 70,0 54,4 55,8 74,0 116,6 79,2 587,6
2006.
2007.
A paraméterek kiszámítása: b1 =
587,6 − 12 ⋅ 6,5 ⋅ 7,1667 =0,2 78 2 650 − 12
b 0 = 7,1667 − 0,2 ⋅ 6,5 =5,8667 A lineáris kapcsolatot leíró trendfüggvény: yˆ t = 0,2t + 5,9
T.Nagy Judit
23
HJF
Statisztika II.
12,0 10,0 yt
8,0 6,0 4,0 2,0 0,0 0
2
4
6
8
10
12
14
t
2.4. ábra
A paraméterek értelmezése: b0=5,9: A vizsgált időszakot megelőző időpontban, azaz 2004 IV. negyedévében 5,9 millió fő látogatott hazánkba, trend szerint. b1=0,2: A trend szerint a vizsgált időszakban negyedévente átlagosan 0,2 millió fővel nőtt a hazánkba látogató külföldiek száma. 3.) A szezonhatás kimutatása Cél: A szezonok általános jellemzése. Mivel a szezonális ingadozások abszolút nagysága állandó – additív modellt használunk: y t = yˆ t + s + v t . y
Az egyedi szezonális eltérések ( y t − yˆ t ) kiszámításához az alábbi munkatáblázatot készítjük (ahol az yˆ t értékek a 2.) pontban meghatározott lineáris trend függvénnyel becsült értékek.): Év 2005.
2006.
2007.
T.Nagy Judit
Negyedév I. II. III. IV. I. II. III. IV. I. II. III. IV. Összesen
yt 4,6 5,9 9,4 6,3 5,4 6,8 10,0 6,8 6,2 7,4 10,6 6,6 86,0
t 1 2 3 4 5 6 7 8 9 10 11 12 78,0
yˆ t y t 6,1 6,3 6,5 6,7 6,9 7,1 7,3 7,5 7,7 7,9 8,1 8,3 86,4
− yˆ t -1,5 -0,4 2,9 -0,4 -1,5 -0,3 2,7 -0,7 -1,5 -0,5 2,5 -1,7 -0,4
24
HJF
Statisztika II.
Az utolsó oszlopban szereplő egyedi szezonális eltéréseket szezononként rendezve a következő táblát kapjuk:
Időszak 2005 2006 2007
y
I. II. III. IV. negyedév negyedév negyedév negyedév -1,5 -0,4 2,9 -0,4 -1,5 -0,3 2,7 -0,7 -1,5 -0,5 2,5 -1,7
Az egyes negyedévek szezonális eltérései (számtani átlagok): sI=
− 1,5 + ( −1,5) + ( −1,5) = -1,50 3
sII=
− 0,4 + ( −0,3) + ( −0,5) = -0,40 3
sIII=
2,9 + 2,7 + 2,5 = 2,70 3
sIV=
− 1,5 + (−0,7) + ( −1,7) = -0,93 3
Ha ezeket összeadva nem 0-t kapunk, akkor nem sikerült teljesen kiszűrnünk az ingadozást, így korrekció szükséges. -1,5+(-0,4)+2,7+(-0,93)≠0
A korrekciós tényező:
s I + s II + s III + s IV (számtani átlag) 4
Korrekciós tényező:
y
− 1,5 − 0,4 + 2,7 − 0,93 = −0,03 4
Az egyes negyedévek korrigált szezonális eltérései: s* = s – korrekciós tényező sI*= -1,5-(-0,0333) = -1,4667 sII*= -0,4-(-0,0333) = -0,3667 sIII*= 2,7-(-0,0333) = 2,7333 sIV*= -0,93-(-0,0333) = -0,8967
T.Nagy Judit
25
HJF
Statisztika II.
I. II. III. IV. negyedév negyedév negyedév negyedév -1,5 -0,4 2,9 -0,4 -1,5 -0,3 2,7 -0,7 -1,5 -0,5 2,5 -1,7
Időszak 2005 2006 2007 s: szezonális eltérés (számtani átlag) s*: korrigált szezonális eltérés (s-korr)
-1,50 -1,4667
-0,40 -0,3667
2,7 2,7333
-0,9333 -0,8967
Össz. -0,1333 0
Korr. -0,0333
Így a korrekcióval elértük, hogy a (korrigált) szezonális eltérések összege 0 legyen: sI* + sII* + sIII*+ sIV*= 0 -1,4667 + (-0,3667) + (2,7333) + (-0,8967) = 0
A szezonális eltérések jelentése: sI*= - 1,47: A vizsgált időszakban az első negyedévben a szezonhatás miatt a tényleges látogatók száma átlagosan 1,47 millió fővel alatta marad a trend szerinti értéknek. sIII*= 2,73: A vizsgált időszakban a harmadik negyedévben a szezonhatás miatt a tényleges látogatók száma átlagosan 2,73 millió fővel meghaladja a trend szerinti értéket.
T.Nagy Judit
26
HJF
Statisztika II.
Előrejelzés (Extrapoláció) Additív modellben: yˆ t + s* (vagy s) II. 2. MINTAPÉLDA Határozzuk meg a látogatók számát 2008. IV. és 2009. I. negyedévében: 2008. IV. negyedévére: •
t = 16 -ot behelyettesítve a trendfüggvény egyenletébe kapjuk a trend szerinti értéket: yˆ16 = 0,2 ⋅ 16 + 5,9 = 9,1,
•
amit a IV. negyedév szezonális eltérésével módisítunk yˆ16 + s * IV = 9,1 - 0,8967 = 8,2033
Értelmezés: A látogatók várható száma 2008. IV. negyedévében, ha a tapasztalt tendencia folytatódik 8,2 millió fő lesz. 2009. I. negyedévére hasonlóan számolunk: •
t = 17 esetén yˆ17 = 0,2 ⋅ 17 + 5,9 = 9,3 a trend szerinti érték.
A szezonalitást is figyelembe véve: •
* yˆ17 + s I = 9,3 - 1,4667 = 7,8333 millió fő lesz a látogatók várható száma 2009. I.
negyedévében, ha a tapasztalt tendencia folytatódik. Véletlen hatás (interpoláció segítségével) II. 2. MINTAPÉLDA Határozzuk meg, hogy mekkora volt a véletlen hatás 2007. III. negyedévében. Az additív modell szerint: yt = yˆ t + s* + vt (ha a szezonális eltérések korrekciójára volt szükség, akkor a képletben s helyett s* szerepel), amiből v t = y t − ( yˆ t + s * ) •
t = 11 esetén yˆ11 = 8,1
A látogatók száma a trend szerint 2007. III. negyedévében 8,1 millió fő. •
( yˆ11 + s * ) = 8,1 + 2,7333 = 10,8333
T.Nagy Judit
27
HJF
Statisztika II.
A látogatók száma a becslésünk szerint (figyelembe véve a szezonalitást) 2007. III. negyedévében 10,83 millió fő. Az ilyen típusú előrejelzést, amely során a vizsgált időszakon belülre végzünk becslést interpolációnak nevezzük. •
v11 = 10,6 - 10,8333 = 0,2333
Tehát a véletlen hatás 2007. III. negyedévében 0,23 millió fő volt.
Az szezonalitás meghatározás (multiplikatív modell esetén) II. 3. MINTAPÉLDA A következő táblázat a Magyarországon értékesített burgonyamennyiséget tartalmazza (ezer tonnában), 2004. és 2007. között (KSH): Időszak 2004
2005
2006
2007
J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D
Burgonya (ezer tonna) 5,5 9,4 24,7 11,8 7,7 10,0 17,8 13,5 8,2 10,4 16,7 7,7 4,1 6,0 10,8 6,9
1.) Ábrázoljuk az idősor adatait:
T.Nagy Judit
28
Statisztika II. é r té k e s í te tt b u r g o n y a m e n n y i s é g (e z e r to n n a )
HJF
30,0 25,0 20,0 15,0 10,0 5,0 0,0 J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D 2004
2005
2006
2007
időszak
2.5. ábra
Következtetés: lineáris kapcsolat, van szezonalitás (multiplikatív modell). 2.) Mivel az ábra lineáris kapcsolatra utal, az adatokat lineáris trendfüggvénnyel közelítjük. A számoláshoz szükséges munkatáblázat: 2004
2005
2006
2007
időszak J–M (I.) Á–Jú (II.) Jl–Sz (III.) O–D (IV.) J–M (I.) Á–Jú (II.) Jl–Sz (III.) O–D (IV.) J–M (I.) Á–Jú (II.) Jl–Sz (III.) O–D (IV.) J–M (I.) Á–Jú (II.) Jl–Sz (III.) O–D (IV.) Összesen Átlag
yt 5,5 9,4 24,7 11,8 7,7 10,0 17,8 13,5 8,2 10,4 16,7 7,7 4,1 6,0 10,8 6,9 171,18 10,7
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 136 8,5
t2 1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 1496
t· yt 5,5 18,8 74,1 47,2 38,5 60,0 124,6 108,0 73,8 104,0 183,7 92,4 53,3 84,0 162,0 110,4 1340,3
A paraméterek kiszámítása: b1 =
1340,3 − 16 ⋅ 8,5 ⋅ 10,7 = - 0,3379 136 2 1496 − 16
b 0 = 10,7 − (−0,3379) ⋅ 8,5 =13,5722 T.Nagy Judit
29
HJF
Statisztika II.
A lineáris kapcsolatot leíró trendfüggvény: yˆ t = −0,34 t + 13,57 30,0 25,0
yt
20,0 15,0 10,0 5,0 0,0 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 t
2.6. ábra
A paraméterek értelmezése: b0= 13,57: A vizsgált időszakot megelőző időpontban, azaz 2003 IV. negyedévében az értékesített burgonyamennyiség 13,57 ezer t, a trend szerint. b1= - 0,34: A trend szerint a vizsgált időszakban negyedévente átlagosan 0,34 ezer tonnával csökkent a hazánkban értékesített burgonyamennyiség. 3.) A szezonhatás kimutatása Mivel a szezonális ingadozások relatív nagysága állandó – multiplikatív modellt használunk y t = yˆ t ⋅ s ⋅ v t . y
⎛y Az egyedi szezonindexek ⎜⎜ t ⎝ yˆ t
⎞ ⎟⎟ kiszámításához az alábbi munkatáblázatot ⎠
készítjük ahol az yˆ t értékek a 2.) pontban meghatározott yˆ t = −0,34 t + 13,57 lineáris trend függvénnyel becsült értékek.:
T.Nagy Judit
30
HJF
Statisztika II.
Év
Negyedév
2004
I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV.
2005
2006
2007
yt
t
yˆ t
5,5 9,4 24,7 11,8 7,7 10,0 17,8 13,5 8,2 10,4 16,7 7,7 4,1 6,0 10,8 6,9
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
13,23 12,89 12,55 12,21 11,87 11,53 11,19 10,85 10,51 10,17 9,83 9,49 9,15 8,81 8,47 8,13
yt yˆ t 0,42 0,73 1,97 0,97 0,65 0,87 1,59 1,24 0,78 1,02 1,70 0,81 0,45 0,68 1,28 0,85
Az utolsó oszlopban szereplő hányadosokat (szezonindexeket) szezononként rendezve a következő táblát kapjuk: Időszak 2004 2005 2006 2007
y
I. 0,42 0,65 0,78 0,45
II. 0,73 0,87 1,02 0,68
III. 1,97 1,59 1,7 1,28
IV. 0,97 1,24 0,81 0,85
Az egyes negyedévek szezonindexei (mértani átlagok): sI.= 4 0,42 ⋅ 0,65 ⋅ 0,78 ⋅ 0,45 = 0,5564 sII.= 4 0,73 ⋅ 0,87 ⋅ 1,02 ⋅ 0,68 = 0,8147 sIII.= 4 1,97 ⋅ 1,59 ⋅ 1,7 ⋅ 1,28 = 1,6158 sIV. = 4 0,97 ⋅ 1,24 ⋅ 0,81 ⋅ 0,85 = 0,9539
Ha ezeket összeszorozva nem 1-et kapunk, akkor nem sikerült teljesen kiszűrnünk az ingadozást, tehát korrekció szükséges. 0,5564⋅ 0,8147 ⋅1,658 ⋅0,9539 ≠ 1
T.Nagy Judit
31
HJF
Statisztika II.
s I. ⋅ s II. ⋅ s III. ⋅ s IV. (mértani átlag)
A korrekciós tényező:
4
Korrekciós tényező:
0,5564 ⋅ 0,8147 ⋅ 1,6158 ⋅ 0,9539 = 0,9143
y
4
Az egyes negyedévek korrigált szezonindexei: s * = sI. *=
0,5564 = 0,6086 0,9143
sII.*=
0,8147 = 0,8911 0,9143
sIII.*=
1,6158 =1,7673 0,9143
sIV.*=
0,9539 =1,0433 0,9143
Időszak 2004 2005 2006 2007 s: szezonindex (mértani átlag) s*: korrigált szezonindex
s korrekciós tényező
I. 0,42 0,65 0,78 0,45
II. 0,73 0,87 1,02 0,68
III. 1,97 1,59 1,7 1,28
IV. 0,97 1,24 0,81 0,85
Prod.
Korr.
0,5564
0,8147
1,6158
0,9539
0,6987
0,9143
0,6086
0,8911
1,7673
1,0433
1
Így a korrekcióval elértük, hogy a (korrigált) szezonindexek szorzata 1 legyen: sI. * ⋅ sII.* ⋅ sIII.* ⋅ sIV.* = 1 0,6086⋅0,8911⋅1,7673⋅1,0433=1
A szezonindexek jelentése: sI. *= 0,6086: A vizsgált időszakban az első negyedévben a szezonhatás miatt a tényleges értékesített burgonyamennyiség átlagosan 0,6086-szorosa (60,86%-a, 39,14%-kal alatta marad) a trend szerinti értéknek.
T.Nagy Judit
32
HJF
Statisztika II.
sJl-Sz*= 1,7673: A vizsgált időszakban a harmadik negyedévben a szezonhatás miatt a tényleges értékesített burgonyamennyiség átlagosan 1,7673-szorosa (76,73%-kal meghaladja) a trend szerinti értéknek (értéket).
Előrejelzés (Extrapoláció) Multiplikatív modellben: yˆ t ⋅ s* (vagy s) II. 3. MINTAPÉLDA Határozzuk meg értékesített burgonyamennyiséget 2008. IV. negyedévében: 2008. IV. negyedévére: •
t = 20-at
•
a trend szerinti érték: yˆ 20 = −0,34 ⋅ 20 + 13,57 =6,77
•
a szezonalitást figyelembe véve azaz a IV. negyedév szezonindexével módosítva yˆ 20 ⋅ s*IV. = 6,77⋅1,0434 = 7,0638
Értelmezés: Tehát a várhatóan értékesített burgonyamennyiség 2008. IV. negyedévében, ha a tapasztalt tendencia folytatódik 7,06 ezer t lesz. Véletlen hatás II. 3. MINTAPÉLDA Határozzuk meg, hogy mekkora volt a véletlen hatás 2007. I. negyedévében. A multiplikatív additív modell szerint: yt = yˆ t ⋅ s* ⋅ vt (ha a szezonindexek korrekciójára volt szükség, akkor a képletben s helyett s* szerepel), amiből v t = •
yt . yˆ t ⋅ s *
t = 13 esetén yˆ13 = 9,15
A értékesített burgonyamennyiség a trend szerint 2007. I. negyedévében 9,15 ezer tonna. •
*
( yˆ13 ⋅ s I. ) = 9,15 ⋅0,6086 = 5,5687
T.Nagy Judit
33
HJF
Statisztika II.
A értékesített burgonyamennyiség a becslésünk szerint, figyelembe véve a szezonalitást 2007. I. negyedévében 5,57 ezer tonna. •
v13 =
4,1 = 0,7363 5,5687
Értelmezés: Tehát a véletlen hatás 2007. I. negyedévében 0,74 volt.
T.Nagy Judit
34
HJF
Statisztika II.
Összefoglalás Az idősorelemzés menete 1. Ábrázoljuk az adatokat pontdiagramon. Ebből megállapítható •
a trendfüggvény típusa (lineáris, nemlineáris)
•
hogy van-e szezonalitás (és, hogy additív vagy multiplikatív a modell)
2. A lineáris trendfüggvény meghatározása •
b1, b0 paraméterek meghatározása
•
majd a trendvonal egyenletének egyenlet felírása.: yˆ t = b1 t + b 0
Ha van szezonalitás: 3. A trendfüggvénnyel becsült adatok ( yˆ t ) kiszámítása. 4. A szezonális ingadozás kimutatása (szezonális eltérések vagy szezonindexek meghatározása) •
Az egyedi szezonális eltérések/szezonindexek kiszámítása Additív modell
Multiplikatív modell
y t − yˆ t
yt yˆ t
Cél: Az egyes szezonok általános jellemzése, szezononkénti (számtani ill. mértani) átlagolással. Így kapjuk sI., sII., sIII., sIV. szezonális eltérések/szezonindexek értékét. Ha sikerült teljesen kiszűrnünk az ingadozást:
∑s = 0 •
∏s = 1
Ha nem, akkor az s-eket nyers szezonális eltéréseknek/szezonindexeknek nevezzük
és
belőlük
korrekcióval
eltéréseket/szezonindexeket
(s*).
A
kapjuk
az
korrekciós
ún.
korrigált
tényező
a
szezonális szezonális
eltérések/szezonindexek számtani/mértani átlaga. korrekciós tényező =
∑s m
korrekciós tényező = m ∏ s s* =
s * = s − korrekciós tényező
T.Nagy Judit
s korrekciós tényező
35
HJF
Statisztika II.
Gyakorló Feladatok 1. Magyarország burgonyatermelésének alakulása 2001-2007 között (KSH): Év 2001 2002 2003 2004 2005 2006 2007
Burgonyatermelés (ezer hektár) 36 34 31 31 25 23 26
Feladat Illesszen trendfüggvényt az adatsorra. Értelmezze a függvény paramétereit. Becsülje meg a trendfüggvény segítségével az ország 2009-es burgonyatermelését.
2. A hangverseny látogatók számának alakulása 1990 és 2006 között Magyarországon (KSH):
Év 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
∑t
2
= 1785
1000 lakosra jutó hangverseny látogató 72 58 56 50 49 45 44 37 39 41 42 44 48 46 45 50 43
∑t ⋅y
t
=6900
Feladat Illesszen trendfüggvényt az adatsorra. Értelmezze a függvény paramétereit.
T.Nagy Judit
36
HJF
Statisztika II.
Becsülje meg a trendfüggvény segítségével, a 2008-ban ezer lakosra jutó hangverseny látogatók számát.
3. Az egyetemet végzett foglalkoztatottak számának alakulása Magyarországon (december 31.) (KSH):
Év
Egyetemet végzett foglalkoztatottak száma (ezer fő)
1998
246,6
1999
244,9
2000
275,7
2001
269,8
2002
265,6
2003
299,0
2004
332,7
2005
335,5
2006
330,8
Feladat Illesszen trendfüggvényt az adatsorra. Értelmezze a függvény paramétereit. Becsülje meg a trendfüggvény segítségével a foglalkoztatottak számát, 2008-ban.
4. Magyarország vendéglátóhelyeinek eladási forgalma 2005 és 2007 között (KSH):
Időszak 2005 I. negyedév II. negyedév III. negyedév IV. negyedév 2006 I. negyedév II. negyedév III. negyedév IV. negyedév 2007 I. negyedév II. negyedév III. negyedév IV. negyedév
T.Nagy Judit
Forgalom (Mrd Ft) 16 17 14 20 21 18 14 22 22 21 16 24
37
HJF
Statisztika II.
Feladat Határozza meg a forgalom irányzatát leíró lineáris trendfüggvényt és értelmezze a paramétereit. Vizsgálja meg a szezonalitást, multiplikatív kapcsolatot feltételezve. Határozza meg a véletlen szerepét 2006. III. negyedévében. Becsülje meg a 2008. IV. negyedévében várható forgalmat.
5. Az ittasan, segédmotor kerékpárral okozott balesetek számának alakulása Magyarországon 2005 és 2007 között (KSH): Balesetek száma
Időszak 2005 I. negyedév
22
II. negyedév
67
III. negyedév
70
IV. negyedév
36
2006 I. negyedév
20
II. negyedév
79
III. negyedév
89
IV. negyedév
46
2007 I. negyedév
34
II. negyedév
87
III. negyedév
99
IV. negyedév
48
Feladat Határozza meg és értelmezze a lineáris trendfüggvény paramétereit. Vizsgálja meg a szezonalitást, additív modellt feltételezve. Határozza meg a véletlen szerepét 2005. IV. negyedévében. Becsülje meg, hogy a 2009. I. negyedévében hány baleset várható.
6. Egy utazási iroda, lineáris trend szerinti bevétele 2001. IV. negyedévében 45 millió Ft volt. Ezt az értéket a 2002. és 2007. időszak (negyedéves) adataiból számított trend alapján határozták meg. A negyedévenkénti átlagos növekedés 1,2 millió Ft. Feladat Írja fel a lineáris trend egyenletét. Határozza meg a 2005. I. negyedévi trend szerinti értéket. A negyedévekre vonatkozó korrigált szezonindexek a következők voltak: szezonindex %
T.Nagy Judit
I. negyedév II. negyedév III. negyedév IV. negyedév 76
130
90
38
HJF
Statisztika II.
Feladat Számítsa ki és értelmezze a hiányzó adatot. Készítsen előrejelzést 2009. III. negyedévére (a szezonalitást figyelembe véve). 7. Egy cég forgalma 2001. és 2007. között a negyedéves adatok alapján a következő trendfüggvénnyel írható le (M Ft):
yˆ t =1,6t + 11,2
A negyedévekre vonatkozó korrigált szezonális eltérések a következők voltak: Szezonális eltérés M Ft
I. negyedév II. negyedév III. negyedév IV. negyedév 0,8
-1,3
-2,2
Feladat Értelmezze a trendfüggvény paramétereit. Határozza meg és értelmezze a hiányzó szezonális eltérést. Becsülje meg 2009. II. negyedévében várható forgalmat.
T.Nagy Judit
39