Kísérlettervezés Matematikai statisztika 11. elıadás, 2009.04.27.
A legfontosabb offoff-line módszer a mőködés hatékonyabbá tételére. Cél: az optimális beállítások megtalálása. Szempontok egyértelmő eredmények minimális költség elegendı informatívitás lehetıleg kis méret világos cél meghatározott érvényességi terület valós viszonyok (labor - termelés) termelés)
Hatások száma kísérlet faktor - fıhatás
4 8 16 32 64 128 256 512 1024
2 3 4 5 6 7 8 9 10
páronkénti, páronkénti,
1 3 6 10 15 21 28 36 45
többszörös kölcsönhatás. kölcsönhatás.
Az extra információ felhasználása
1 5 16 42 99 219 466 968
Ha vannak elhanyagolható kölcsönhatások, kölcsönhatások, akkor a rendszer túlhatározottsága azt is jelenti, jelenti, hogy mind a 2n kísérlet lefolytatása fölösleges információt is szolgáltat. szolgáltat. Az extra információt felhasználhatjuk: felhasználhatjuk:
Alias hatások
Részleges kétszintő tervezés
Ha vannak magasabb szintő elhanyagolható kölcsönhatások mód van a kísérletszám csökkentésére. Ha pl. a háromszoros kölcsönhatás elhanyagolható, akkor az az információszerzés is elhagyható, ami ennek a hatásnak a kiszámításához kell. Pl. csak olyan kísérleteket folytatunk le amelyben a hármas hatás kódolása konstans = fele annyi kísérlet. Sajnos így túl sokat redukálunk: Aliasokat is bevezetünk. BC aliasa A-nak, AC B-nek, AB C-nek. Így csak ezen hatások együttesérıl nyerünk információt.
Újabb faktorok hatásának becslésére A szórás jobb becslésére
Ha a kísérletek számát csökkentjük, csökkentjük, akkor viszont elıfordulhat, elıfordulhat, hogy nem teljesen meghatározottá válik a rendszer, rendszer, azaz bizonyos hatások nem lesznek elkülöníthetıek. elkülöníthetıek. A nem elkülöníthetı (kölcsön)hatások beállításai a kísérletekben mindig azonosak (vagy mindig ellentettek). ellentettek). Az ilyen hatásokat egymás aliasalias-ainak hívjuk. hívjuk. A kísérletek eredményei alapján nem lehet eldönteni, eldönteni, hogy az aliasok egyike vagy másika okoztaokozta-e a változásokat. változásokat.
1
Az eredmények kiértékelése
Alias hatások 24-1 terv esetén
A*B*C*D=+1 A BCD B ACD C ABD D ABC AB CD AC BD AD BC
Táblázatok elemzése
Szóráselemzéssel: kiszőrhetıek a szignifikáns hatások A fontos faktorokra újabb kísérletek: a beállítások pontosítása A véglegesnek szánt beállítások tesztelése valós körülmények között, kellıen robusztusrobusztus-e az eredmény?
Táblázatelemzés/2
A számokat legjobban osztással tudjuk összehasonlítani. (Figyelem: különbség-, illetve összegképzés csak akkor értelmes, ha ez a halmazokra is értelmes). Mérıszámok típusai (százalékban csak a hasonló ismérvekbıl számított hányadosokat értelmes kifejezni): 100*Részhalmaz/teljes halmaz (nık aránya, havi bevétel részaránya) Hasonló ismérvekre: 100*(ismérv A)/(ismérv B) Példák: társasutazáson résztvevık/ egyéni utazók, adózás utáni eredmény/adó.
Különbözı ismérvek hányadosa: egy fıre esı gépkocsik száma, GDP/fı stb. Mérıszám-sorozatok:
Bázisindex: idısor számait ugyanahhoz a bázisidıponthoz hasonlítjuk (egyszerő súlyozatlan index)
Bin = 100
Láncindex: idısor egymás utáni számait hasonlítjuk egymáshoz Lin = 100
Mérıszám-sorozatok, példa •A táblázat harmadik oszlopa az éves áremelkedést mutatja. •Ez egy láncindex, mert a bázis mindig más. •A 2. oszlop a bázisindex, ahol mindig 1995 a viszonyítási alap.
Év Bázisindex Láncindex 1995 100.0 128.2 1996 128.2 123.6 1997 158.5 118.3 1998 187.5 114.3 1999 214.3 110 2000 235.7 109.8 2001 258.8 109.2 2002 282.6 105.3 2003 297.6 104.7 2004 311.6 106.8 Bin = 100
n −1 n p pn = 100∏ ( Li j / 100) =100∏ j p0 j =1 j =1 p j −1
pn p0
pn pn −1
Egy konkrét táblázat
Magyarországi adatok Adjunk példát különbözı 1970 arányszámokra! 1980
Népesség (Millió) 10,35
Születésszám (ezer)
Autók száma (Millió)
152
0,031
10,70
149
0,230
1990 10,37
126
1
2000 10,17
97
1,96
2
Egy paradoxon
2 vállalkozás adatai Hol keresnek jobban az alkalmazottak? Adjuk meg mindkét cégnél az átlagkereseteket! Tehát óvatosnak kell lennünk a kevert populációknál.
B Bank
Nık
Megoldás: Standardizálás Havi fizetés 250
Szám
90
Férfiak 350
10
Nık
10
G Gyár
200
Férfiak 300
90
A kapcsolódó számok közvetlenül a táblázatból származnak, valódi mennyiségekrıl szólnak.
sj
j1
−
sj
∑B V ∑B sj
j0
sj
V=(90*250+10*350)/100-(90*200+10*300)/100= =50 ezer Ft V=
∑B V ∑B
j1 sj j1
−
∑B V ∑B
j 0 sj j0
1. Laspeyres index : súlyok a bázisévbıl 2. Paasche index : súlyok a beszámolási idıszakból
A hasonlítandó értékek számok, amiket súlyozott átlagként kapunk meg.
Folytatás: árösszehasonlítás
Példa a saját tapasztalatunkból
∑B V ∑B
Összetett piacok idıbeni változását jellemzik (átlagos ár- és mennyiségváltozás) A súlyok lényegesek, mert a termékek eltérı részt képviselnek a forgalomban. Két lehetıség:
(Összetett) indexszámok
V=
Összetett indexek
Indexszámok: Két hasonló ismérv adatát osztjuk el egymással. Egyszerő indexek
A részhalmazok adatai közötti eltérés hatása: Bs: standardsúlya (gyakorisága) az osztályoknak V: megfigyelt értéke osztályonként A részhalmazok megoszlásának eltérésébıl adódó hatás: B: eloszlás osztályonként, Vs: standard értékek osztályonként.
V=(90*250+10*350)/100-(10*250+90*350)/100= =-80 ezer Ft
Indexszámok
A hatásokat el kell különíteni:
Heti kiadás, 2006: 1 mozijegy, 14 zsemle, 3 hamburger. Összár (érték): 800+14*50+3*300=2400 Ft Heti kiadás, 2007: 0,5 mozijegy, 10 zsemle, 7 hamburger. Összár (érték): 0,5*1200+10*60+7*300=3300 Ft, tehát egy 37,5%(=100*3300/2400)-os emelkedés. Ez egy értékindex, az ár- és mennyiségi változásokat nem különítettük el.
Egy indexet keresünk, nemcsak egyszerő összehasonlításokat akarunk (50%,20%,0% az árunkénti árváltozás). A vásárlói kosár valódi összetételét kell figyelembe venni. A 2006-os mennyiségek alapján: 100*(1*1200+14*60+3*300)/ (1*800+14*50+3*300)=100*2940/2400=122,5%, tehát 22,5%-os áremelkedés. A 2007-es mennyiségek alapján: 100*(0,5*1200+10*60+7*300)/ (0,5*800+10*50+7*300)=100*3300/3000=110l%, tehát 10%-os volt az áremelkedés ebben az esetben. Alacsonyabb, mert kevesebbet fogyasztottunk a drágábbá vált áruféleségekbıl.
3
Folytatás: mennyiségek összehasonlítása
Figyelembe kell venni a fogyasztói kosár elemeinek árait. A 2006-os árak alapján: 100*(0,5*800+10*50+7*300)/ (1*800+14*50+3*300)=100*3000/2400=120%, tehát 20%-kal nıtt a mennyiség ebben az esetben. A 2007-es árak alapján : 100*(0,5*1200+10*60+7*300)/ (1*1200+14*60+3*300)=100*3300/2940=112%, tehát 12%-kal nıtt a mennyiség ebben az esetben. Alacsonyabb, mert kevesebbet fogyasztottunk a megdrágult árukból.
Laspeyres-féle árindex I 0,1
P,L
= 100
∑p ∑p
Példa
Utazási iroda adatai 2004-bıl és 2005-bıl. Menynyiség
Menynyiség
qi,0
qi,1
Év 2004
q
Átlagár ( ezer Ft)
pi,1
2005
2004
2005
Belföldi csoportos utak
200
223
52
52
Külföldi csoportos utak
132
128
208
240
Egyéni utak (menetjegyek)
188
192
74
80
Laspeyres-féle mennyiségi index
q
i ,1 i , 0
i ,0 i , 0
Átlagár ( ezer Ft) pi,0
I 0,1
M ,L
= 100
∑p ∑p
q
i , 0 i ,1
q
i,0 i,0
I=100(52200+240132+80188)/(52200+208132+74188)= =57120/51768=110,3 Tehát 10,3%-os áremelkedés volt ezen a piacon 2005-ben 2004-hez képest, ha a súlyok a bázisévbıl (2004) származnak.
Paasche –féle árindex I 0,1
P,P
= 100
∑p ∑p
I=100(52·223+208·128+74·192)/(52·200+208·132+74·188)= =52428/51768=101,3 Tehát 1,3%-os mennyiségi növekedés volt ezen a piacon 2005-ben 2004-hez képest, ha a súlyok a bázisévbıl (2004) származnak.
Paasche-féle mennyiségi index
q
i ,1 i ,1
q
i , 0 i ,1
I 0,1
M ,P
= 100
∑p ∑p
q
i ,1 i ,1
q
i ,1 i , 0
I=100(52223+240128+80192)/(52·223+208·128+74·192)= =57676/52428=110,0
Tehát 10%-os áremelkedés volt ezen a piacon 2005-ben 2004-hez képest, ha a súlyok a beszámolási évbıl (2005) származnak.
I=100(52223+240128+80192)/(52200+240132+80188)= =57676/57120=101,0 Tehát 1%-os mennyiségi növekedés volt ezen a piacon 2005-ben 2004-hez képest, ha a súlyok a beszámolási évbıl (2005) származnak.
4
Tulajdonságok
Tulajdonságok
Laspeyres index Egyszerőbb számolni Alkalmas indexsorok elıállítására Hajlamos a túlbecslésre Paasche index Ár/mennyiség-aktuális Hajlamos alulbecslésre Kompromisszum: Fischer-féle ideális index: geometriai közép a Paasche és a Laspeyres indexbıl.
Mindkét index a minimális és maximális (ár, illetve mennyiségi) változás-arány között helyezkedik el. Emelkedés → Index > 100% Ha minden ár/mennyiség ugyanúgy változik, akkor az index is ezt a hányadost adja. Idıbeni változást nem tudjuk az indexek szorzatával megkapni, hanem csak indexsorokat tudunk kiértékelni. (egyszerőbb a Laspeyres-indexre).
I 0,1
Értékindex I 0,1 = 100
M ,F
= I 0,1
∑p ∑p
q
i ,1 i ,1
q
Azt jelenti, hogy a piacon 11,4%-os növekedés volt megfigyelhetı 2005-ben 2004-hez képest.
Gépkocsi-értékesítés az egyes években
35 yt 34 33 32 31 30 29 28 27 26 25
yt
140 130 120 110 100 5
6
Idı (év)
7
= I 0,1
P,P
I 0,1
P ,L
Ha nem stacionárius: pl. szezonalitás, trend figyelhetı meg, akkor azokat elızetesen, regressziós módszerekkel eltávolítjuk.
8
9 10
yˆ t = 26 018,4 + 826,2 ⋅ t Idısor az illesztett lineáris trenddel
yt
150
4
P ,F
Erıs stacionaritás: az együttes eloszlások nem függnek az idıtıl Gyenge stacionaritás: a kovariancia-struktúra állandó
Személyenkénti átlagjövedelem negyedévenként
160
3
I 0,1
Lineáris trend illesztése (gépjármő-adatok)
Példák
2
M ,L
Adatok: Xt a t idıpontban megfigyelt érték; ezek tipikusan nem függetlenek egymástól Stacionaritást feltételezzük
I=100(52223+240128+80192)/(52·200+208·132+74·188)= =57676/51768=111,4
1
I 0,1
Idısor-elemzés i , 0 i ,0
0
M ,P
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1986 1987 1988 1989 1990 Quartale
35 , 34 33 32 31 30 29 28 27 26 25
0
1
2
3
4
5
6
Idı (év)
7
8
9
10
5
Empirikus autokorrelációs együttható
Periodikus komponens a fizetési adatoknál Elıször leválasztjuk a trendet, majd az egyes negyedévekre kiszámoljuk a reziduálisok átlagát. Ezt kivonva az eredeti idısorból, periódusmentes adatokat kapunk. Szezonális áltagok negyedévenként
15
Idısor (x1, x2, …, xn) 1. rendő autokorrelációs együttható : Korreláció az alábbi nn-1 pár között (x2, x1), (x3, x2), …, (xn, xn-1)
A megtisztított idısor
∑ ( x t − x )( x t −1 − x )
160
Sj
r1 =
150
10
t =2
n
2 ∑ (x t − x)
140
5
130
0
2. rendő autokorrelációs együttható : Korreláció az alábbi n-2 pár között: (x3, x1), (x4, x2), …, (xn, xn-2) n
120
0
1
2
3 4 Quartale
110 100
-10
1
2 3 4 1
1986
2 3 4 1
2 3 4 1
1987 1988 Quartale
2 3 4 1
1989
∑ (x t − x )( x t − 2 − x )
2 3 4
r2 =
1990
t =3
n
2 ∑ (x t − x)
t =1
1. rendő autokorrelációs együttható a reziduálisokra
k. rendő autokorrelációs együttható
A korrelációt most az (u2, u1), (u3, u2), ..., (un, un-1). párok között számoljuk. Az 1 n 1 n -1 u1 = u2 = ∑ ut ∑ ut n − 1 t =2 n − 1 t =1 jelölésekkel n ∑ (u t − u1 )(u t −1 − u 2 ) t =2 r1 =
Általában: k. rendő autokorrelációs együttható : Korreláció az alábbi n-k pár között (xk+1, x1), (xk+2, x2), …, (xn, xn-k)
rk =
n −1
n
t =1
t =2
2 2 ∑ (u t − u1 ) ∑ (u t − u 2 )
n
∑ ( x t − x )( x t − k − x )
t = k +1
Nagy n-re E(ut)=0 közelítıleg maga után vonja az alábbiakat: 1 n u = ∑ ut ≈ 0 u1 ≈ u 2 ≈ u n t =1
n
2 ∑ (x t − x)
t =1
n
∑ u t ⋅ u t -1 r1 = t = 2 n 2 ∑ ut
.
t =1
Grafikus megjelenítés: korrelogramm
Ha nem fogadható el a reziduálisok korrelálatlansága:
0.0
0.2
0.4
n=100, konfidencia sáv az r=0 teszteléséhez a normális határeloszlásból: [- 1.96√1/n, 1.96√1/n]
1.0 0.8 0.6 0.4
Lehetnek fel nem tárt periódusok De más kapcsolat is fennmaradhat az egymáshoz közeli megfigyelések között (pl. idıjárási adatok, eltérés a sokévi átlagtól).
0
5
10
15
20
Lag
-0.2
ACF
0.6
0.8
Kapcsolat van x_t és x_(t+4) között
ACF
0.2
1.0
Független, azonos eloszlású változók
0.0
X tengely: rend, y tengely: autokorrelációk
Továbblépés
-0.2
-5
t =1
0
5
10
15
20
Lag
6