Variancia-analízis (folytatás) 6. elıadás (11-12. lecke) Szórás-stabilizáló transzformációk (folyt.), t-próbák 11. lecke • További variancia-stabilizáló transzformációk • Egy-mintás t-próba
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (3) • Ha a mintabeli szórások tendenciában arányosak a mintabeli átlagok négyzetével (s ≈ c y 2 azaz s/ y ≈ c y, a relatív szórás (CV) arányos az átlaggal (ld. a következı diát), akkor a megfelelı szórás-kiegyenlítı transzformáció a reciprok transzformáció, vagyis az adatok reciprokaival célszerő dolgozni • Indoklás: ha s≈ cy 2 , akkor y* = ∫1/(cy2) = (-1/c)1/y, a -1/c konstans szorzó elhagyható
Ha a relatív szórás (CV) tendenciában arányos az átlaggal,akkor a reciprok-transzformáció (y* = 1/y) stabilizálja a szórást
CV %
A CV% tendenciában arányos az átlaggal 60 50 40 30 20 10 0 0
5
10
15 átlag (
20
y)
25
30
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (4) • Ha az y adatok relatív gyakoriságokat jelentenek (y=fi/n, mindegyiknél azonos n-nel), akkor a megfelelı szóráskiegyenlítı transzformáció az u.n. arkusz-szinusz transzformáció: y* = arcsin√y • Indoklás: a relatív gyakoriság szórása arányos √{y(1-y)}nal, és ∫1/√{y(1-y)} = 2arcsin√y, a 2-es szorzó elhagyható
¨ t-próbák (Student-próbák) - A t-próbák speciális variancia-analízisnek tekinthetık - Foglalkozunk „egymintás” t-próbával, amikoris egyetlen adatsor átlagát hasonlítjuk össze a feltételezett sokasági átlaggal - Foglalkozunk „kétmintás” t-próbával, ekkor két sokasági átlagot hasonlítunk össze minták alapján itt kitérünk párosított adatok eltérésének elemzésére valamint nem párosított adatok elemzésére, utóbbinál az egyenlı szórások és az eltérı szórások esetére is (az EXCELben mindhárom megtalálható) - A t-próbákban a t-statisztika mindig egy hányados, melynek számlálója a tesztelni kívánt mintabeli eltérés, nevezıje pedig ezen eltérés hibája (szórása)
Részletek az Excel menüsorokból Eszközök/Adatelemzés
fx
Egymintás t-próba (A próba elvégezhetı az Excelben a „kétmintás párosított t-próba” alatt ügyeskedéssel (ld.késıbb)) • Vizsgáljuk egy alapsokaság valamely mérhetı Y ismérvét, amelyrıl feltételezzük (elvárjuk), hogy sokasági átlaga adott a0 érték, tehát a null-hipotézis, H0: µ = a0 • n-elemő mintát veszünk, képezzük a minta átlagát (y ) és szórását (s) • Képezzük az alábbi t-statisztikát: t = ( y-a0)/s y azaz t = √(n)*( y -a0)/s, az elıjelét nem vesszük figyelembe (vegyük észre, hogy t képletében az osztó (s y ) a számlálónak, (y-a0)-nak a szórása)
Egymintás t-próba (folyt.) • Feltéve, hogy az alapsokaság (közel) normális eloszlású, a t statisztika a mintavétel elıtt n-1 szabadságfokú t-eloszlást követ, ha H0 igaz • Táblázatból leolvashatjuk t kritikus értékét vagy az EXCELlel közvetlenül P értékét, a szignifikanciát megítélhetjük • Megjegyzés: ha a sokasági szórás (σ) ismert, akkor t számításánál s helyére σ kerül, a szabadságfok ∞ , ilyenkor „u” próbáról (újabban „z” próbáról) beszélünk, t átmegy standard normális eloszlásba
Példa-vázlat egymintás t-próbára • Egy sokaságban a „hatóságilag megkövetelt” átlag µ = a0 = 20, tehát a null-hipotézis, H0: µ = 20 • n=6 elemő mintából (amelyek nem mondanak ellent a normális eloszlásnak) a számolt átlag és szórás: y = 19,50 és s = 0,532 • A számított t-érték: t = √6 *(19,50 - 20)/0,532 = -2,30 az elıjelet elhagyva, t=2,30
A példa-vázlat folytatása (egymintás t-próba) • Kétoldali alternatív hiptézisnél, azaz H1: µ ≠ 20, a ttáblázatból leolvasható kritikus érték df = 5 szabadságfoknál és α = 5% szignifikancia szintnél 2,57, a számított t-érték (2,30) ennél kisebb, a null-hipotézist (µ = 20) elfogadjuk
• EXCEL pr.-mal a t=2,30-hoz tartozó P érték df=5-nél „2szélő” próbánál P = 0,070 = 7% >5%, a null-hipotézist elfogadjuk
A példa-vázlat folytatása (egymintás t-próba) • Egyoldali alternatív hipotézisnél, azaz itt H1: µ < 20, a ttáblázatból leolvasható kritikus érték df = 5 szabadságfoknál és α = 5% szignifikancia szintnél 2,01 a számított t-érték ennél nagyobb, a null-hipotézis helyett az alternatív hipotézist fogadjuk el (µ < 20) •
EXCEL-bıl leolvasva, a t=2,30-hoz tartozó P érték df=5nél „1szélő” próbánál P = 0,035 = 3,5% < 5%, az alternatív hipotézist fogadjuk el
KÖSZÖNÖM TÜRELMÜKET
12. lecke • A minta szükséges elemszámáról
• Kétmintás t-próbák • Egytényezıs VA feladata
A minta elemszámáról •
• •
A mintanagyság (n) növelésével az átlag pontosabbá válik (hibája csökken), ennek következtében µ és a0 kisebb eltérése is kimutatható Ha pl. µ és a0 közötti legalább ∆ eltérést kívánunk kimutatni, akkor n-et legalább akkorára kell választani, hogy a t = √(n)*∆/s érték meghaladja a kétoldali kritikus t értéket. Innen n > (tkrit×s/∆)2 ahol s r-elemő elızetes tájékozódó felmérésbıl kapott szórás, t szabadságfoka r-1
•
Példa: ∆=5,0; elızetes r=10 elemő felmérésbıl s=8,9; α= 5%-ra tkrit=2,26. Így n> (2,26×8,9/5,0)2 =16,1 (17 mintaelem elég)
•
Megjegyzés: ∆ itt a µ-re megkívánt konfidencia intervallum fele
Kétmintás t-próba párosított adatokra (Excelben keresd: Adatelemzés: ”Kétmintás párosított t-próba”
• Gyakran az egyedeken (megfigyelési egységeken) észlelt változások érdekelnek bennünket. Ilyenkor minden mintaegyedhez két összetartozó adat tartozik • Az összetartozó adatok elıjeles eltérését, vagy arányát (%) képezve egyetlen adatsort kapunk, amelyre egymintás t-próbát alkalmazhatunk értelemszerően fogalmazott hipotézis ellenırzésére
Péda párosított t-próbára (az eltérésekkel) Értékpárok (Y1 és Y2) eltérését teszteljük n=6 mintapárral • A d=Y2-Y1 eltérések sokasági átlaga legyen µ, a null-hipotézis H0: µ=a0 (alapesetben a0=0, azaz nincs eltérés) Y1 Y2 d=Y2-Y1 5,4 5,6 0,2 5,9 6,3 0,4 4,7 4,6 -0,1 4,9 4,9 0,0 6,2 6,4 0,2 4,9 5,1 0,2 , átlag 0,150 szórás 0,176 átlag szórása 0,072
Legyen a0 = 0 t = (0,150 – 0)/0,072 = 2,087 , df = 6-1 = 5 ehhez az Excelbıl P(kétszélő) = 0,091>0,05 nem szign. P(egyszélő)= 0,046<0,05 szign. növekm. Megj.: ha pl a0 = 0,03 akkor az utóbbi sem szignifikáns
Az elıbbi példa megoldása Excelben •
Az Excel „Adatelemzés, kétmintás párosított t-próba” menüpontját alkalmazva bevisszük az Y1 és Y2 oszlopokat (az átlag és a szórás sorok nélkül). Az eredménytáblázat fontosabb sorai:
•
Kétmintás párosított t-próba a várható értékre
Megfigyelések Feltételezett átlag (a0) df t-érték P(T
6 0 5 2,087 0,046 <5% 0,091 >5%
Megjegyzés: Ez a menüpont nem igazán felhasználó barát, inkább javasolható a „Kéttényezıs VA ismétlések nélkül” menüpont
Megjegyzések a párosított t-próbáról 1.
Ha a q =Y2/Y1hányados tesztelése indokoltabb (mert pl. nagyobb Y1hez nagyobb d eltérés tartozik), akkor alapesetben a0=1 (nincs változás)
2.
Ha a mintabeli q értékek eloszlása nagyon nem szimmetrikus, akkor próbáljuk meg az elemzést a log(q) értékekkel - mivel log(q) = log(Y2) - log(Y1), az elemzést elvégezhetjük a „kétmintás párosított t-próba” menüponton az Excelben, az Y alapadatok helyett azok logaritmusát kell bevinnünk
3.
Ha az egymintás t-próba nem szerepel az Excel menüsorában, az elemzés elvégezhetı a „kétmintás párosított t-próba” programmal is oly módon, hogy valamelyik oszlopot a feltételezett a0 -lal töltjük fel
Kétmintás t-próba nem párosított adatokra • Két alapsokaságot (Y1 és Y2) hasonlítunk össze, ismeretlen sokasági átlagaik µ1 ill. µ2, szórásaik б1 ill. б2. • A két sokaságból n1 ill. n2 elemő mintát veszünk (nem párosíthatók), a minta-átlagok és szórások y1, s1 ill. y2, s2 • A null-hipotézis (alapesetben) H0: µ1= µ2,(de lehet µ2-µ1= a0 is, ha azt várjuk, hogy µ2 a0-lal nagyobb mint µ1) • A t-próba (alapesetben) itt is abból áll, hogy a két mintaátlag eltérését elosztjuk ezen eltérés szórásával, a hányados t-eloszlású vagy legalábbis közelítıleg az, a szabadságfok n1 + n2 – 2
Kétmintás t-próbák nem párosított adatokra: kiegészítések • Elıször mindenképpen ellenırízni kell a két szórás hibahatáron belüli egyezését (Excel: „kétmintás F-próba a szórásnégyzetekre”) • Ha a szórások egyezése elfogadható, akkor a „kétmintás tpróba egyenlı szórásokkal” menüpontot választjuk az Excelben • Ha a szórások szignifikánsan eltérnek, akkor a „kétmintás tpróba nem egyenlı szórásokkal” menüpontot választjuk vagy a Wilcoxon-Mann-Whitney féle rangpróbát alkalmazzuk (ld. késıbb)
Megjegyzés: elıfordul, hogy az alkalmazó nempárosított t-próbát használ párosított adatok elemzésekor, ez baj • Ha párosított adatokra a nem-párosított kétmintás t-próbát alkalmazzuk, az egyedek közötti nagyságrendi eltérések figyelmen kívül maradnak, ezek beépülnek a hibaszórásba, azt növelik, a t-érték csökken, végülis az esetleges szignifikancia ködbe vész
■ Egytényezıs variancia-analízis • A kétmintás t-próbával két sokasági átlag eltérését vizsgálhatjuk minták alapján • Három, vagy több minta átlagának statisztikai összehasonlítását már Variancia Analízisnek nevezik, a kétmintás t-próba ennek speciális esete • Az X kvalitatív „befolyásoló, ható” ismérv neve „tényezı”, ezt a továbbiakban célszerően „A”-val jelöljük (Y pedig a kvantitatív eredményváltozó) • Az A tényezı változatai (szintjei) A1, A2, A3,…, Ak, ezek lehetnek települések, évek, csoportok, kezelések stb.
KÖSZÖNÖM TÜRELMÜKET