5. gyakorlat – Konfidencia intervallum számolás 1. Feladat Cél: a Normál eloszlás gyors áttekintése. Az IQ teszteket úgy állítják össze, hogy a teszt eredménye a népességen belül normális eloszlást kövessen 100 pont átlaggal és 15 pont szórással. A népesség hány százaléka dicsekedhet 145 feletti intelligencia-hányadossal? =1-NORM.ELOSZL(145;100;15;IGAZ) =1-NORMDIST(145; 100; 15; TRUE) Melyik az az IQ érték, amelyre igaz, hogy: - a népesség 90%-a ennél alacsonyabb IQ-val rendelkezik. o =INVERZ.NORM(0,9;100;15) o =NORMINV(0.9;100;15) A népesség 90%-a ennél magasabb IQ-val rendelkezik. o =INVERZ.NORM(1-0,9;100;15) o =NORMINV(1-0.9;100;15) A népesség hány százaléka rendelkezik 100 és 110 közötti intelligenci hányadossal? =NORM.ELOSZL(110;100;15;IGAZ)- NORM.ELOSZL(100;100;15;IGAZ) =NORMDIST(110;A3;B3;TRUE)-NORMDIST(100;A3;B3;TRUE) -
- magyarázat normál eo. fv-en. - standardizálás elmesélése: levonjuk a várható értéket, és leosztunk a szórással. Így egy 0 várható értékű, 1 szórású eloszlás fv-t kapunk
ELMÉLET Centrális Határeloszlás Tétel: „sok” azonos eloszlású, független valószínűségi változó összegének eloszlása jól közelíthető megfelelő normális eloszlással. Standardizálás után használható a N(0,1) eloszlásfüggvény táblázat! Konfidencia-intervallum: olyan intervallumot megadni az n elemű minta átlag értéke körül, amire teljesül, hogy a várható érték adott valószínűséggel (pl. 95%) beleesik. Tehát például, keressük a-t, amire: P a M a p Ahol p a konfidencia intervallum szignifikancia szintje és a az intervallum sugara. Rendezés után: P a M a p Beírva képletét:
1 n n
n n nM P a 1 M a P a 1 a n n
2. Feladat Ismert σ szórás esetén osztva az átlag szórásával, azaz
n
-el alkalmazhatjuk a
Centrális Határeloszlás Tételt: a n 1 n nM a n a n a n P a M a P n a n 1 p 2
Azaz: a 1 p 1 , ahol : 1 p 1 .
2
n
2
n
Ekkor λ értéke σ, n és p ismeretében visszakereshető táblázatból, vagy az Excelben az inverz.stnorm(p) függvénnyel. FELADAT - Valamely azonnal oldódó kávékivonatot automata tölti üvegekbe. Az töltési mechanizmus és az adódó véletlen hibákról ismert, hogy a töltőtömeg szórása 1 g. A gép pontosságának ellenőrzésére vett 16 elemű (független azonos eloszlású) mintában az üvegekben lévő kávégranulátum tömege (g): 55 54 54 56 57 56 55 57 54 56 55 54 57 54 56 50 Készítsen 95 %-os megbízhatósággal intervallumbecslést a várható átlagos töltőtömegre. Megoldás:
1 n n
55,
n 16,
1,
p 95%
a n 1 p P a M a 2 a 16 1.95 0.975 2 1 4a 1 0.975 1.96 a 0.49 M 55 0.49
λ értékét vagy táblázatból olvashatjuk ki vagy az Excelben a „=inverz.stnorm(0,975)” képlettel számolhatjuk.
Ismeretlen σ szórás esetén a szórást a mintából kell megbecsülni. Erre torzítatlan becslést ad a tapasztalati korrigált szórás: sn
1 n i 2 n 1 i 1
Ezt beírva a fenti képletbe σ helyére, már nem alkalmazható a Centrális Határeloszlás Tétel. Ismert viszont, hogy ekkor a
1 n nM sn n
valószínűségi változó (n-1) szabadságfokú Student eloszlású. Jelölje ennek az eloszlásnak az eloszlásfüggvényét Tn-1. Tehát a fenti eljárás annyiban módosul, hogy a Standard Normális eloszlás helyett a Student eloszlás táblázatát kell használni. (A két eloszlás tulajdonságait tekintve nagyban hasonlít egymáshoz, így a számítás menete nem változik). a n n nM a n a n a n P a M a P 1 Tn 1 Tn 1 sn sn n sn sn sn a n 2 Tn 1 1 p sn Innen: p 1 sn a Tn11 2 n
Jelölje ( p, n 1) : T 1 p 1 -et. st n 1
2
A Standard Normális eloszlással ellentétben a statisztikai könyvek nem a Student eloszlás táblázatát tartalmazzák, hanem az eloszlás inverzének (azaz λst értékeinek) táblázatát. Általában a táblázat sora határozza meg a szabadságfokok számát, és az oszlopa pedig a keresett szignifikanciaszintet. FELADAT - Vizsgáljuk meg az előző feladatot arra az esetre, ha a szórás nem ismert. Megoldás: A feladat megoldásához szükséges a tapasztalati korrigált szórás számítása. Ezt az Excelben számoljuk ki a szórás függvénnyel.
1 n n
a st p, n 1
55,
n 16,
s16
16
i 1
55 1.75, 2
i
p 95%
s n 1.75 1.75 st 0.95,15 2.131 0.932 4 4 n
M 55 0.93 λst(0.95,15) értékét vagy táblázatból kereshetjük ki vagy az Excelben „=inverz.t( 10.95;15)” képlettel számolhatjuk ki.
3. Feladat FELADAT – 100 véletlenszerűen kiválasztott férfi magasságát megmértük. Adjunk becslést ezek alapján egy átlagos férfi magasságára p %-os konfidencia intervallumot megadva. Megoldás: A C oszlopba számoljuk ki az n elemű minta átlagát, a D oszlopba pedig a szórását, ahol n-et 2-től 100-ig növeljük. C2 := „Átlag”, C4 := „=átlag(B$14:B15)”, jobb alsó cellasarokba duplaklikk D2 := „szórás”, D4 := „=szórás(B$14:B15)”, cellasarok duplaklikk E3:= „p”, F3 := „0,25”, G3 := „0,5”, H3 := „0,75”, I3 := „0,8”, J3 := „0,85”, K3 := „0,9”, L3 := „0,95”, M3 := „0,97”, N3 := „0,98”, O3 := „0,99”, P3 := „0,99999” F4 := „=inverz.t(1 – F$3 ; $A4 -1) * $D4 / gyök($A4)” Húzzuk le ezt F102-ig. Ezután F4:F102 tartományt húzzuk el jobbra az P oszlopig. Ekkor az F4:P102 tartományban az oszlophoz tartozó szignifikanciaszintű, a sorhoz tartozó elemszámú mintából képzett konfidencia intervallum sugara van. FELADAT - Ábrázoljuk grafikusan az átlag és a konfidencia intervallum változását a megfigyelések számának növelésével. Készítsünk grafikont a konfidencia intervallum hosszának a megfigyelések számától, illetve a szignifikanciaszinttől való függéséről. Megoldás: 1. grafikon: Ábrázoljuk a várható értéket a minta elemszámának függvényében. - Jelöljük ki az A4:A102 tartományt, majd a Ctrl gombot nyomva tartva a C4:C102 tartományt. Az ismert módon készítsük el a grafikont. (Javasolt X-Y plot simított vonallal). - Jelöljük a 95%-os szignifikanciájú konfidencia intervallumokat a grafikonon. Az egér jobb gombjával egyszer klikkeljünk a grafikonon az adatsorra. A menüből válasszuk az Adatsorok formázása menüpontot. Az Y hibasávok fület kiválasztva klikkeljünk a Beállítás opcióra. A + jelet követő mezőbe írjuk be, hogy „=3. Feladat!L4:L102” vagy a mező utáni gombra kattintva jelöljük ki a megfelelő oszlopot a táblázatból. Ugyanezt írjuk be a – jelet követő mezőbe is. Kis elemszámú mintára a konfidencia intervallum sugara igencsak nagy, az Excel automatikusan átállította az y tengely skáláját, így semmi érdemlegeset nem lehet látni a grafikonon. - Klikkeljünk duplát az egér bal gombjával az y tengelyre. A felugró ablakban a Skála fülön a Maximum-hoz írjunk 182-t a Minimumhoz 168-at. Szépen látszik, hogy hogyan szűkül az átlag körüli intervallum a megfigyelések számának növelésével.
2. grafikon: Ábrázoljuk a p%-os konfidencia intervallum sugarát p = 0.8, 0.9, 0.95, 0.98 értékekre a megfigyelések számának függvényében. Jelöljük ki a A4:A102 tartományt és a Ctrl gombot nyomva tartva a I4:I102, K4:K102, L4:L102 és N4:N102 tartományokat, majd a szokott módon készítsük el a grafikont. A diagram területén jobb gombal klikkelve válaszzuk a forrásadat menüpontot. Az Adatsor fülön írjunk be a Név mezőbe mindegyik adatsorhoz az hozzá tartozó p értéket. Állítsuk az y tengely skáláját úgy, hogy az értékes információt lássuk, ne csak azt, hogy kis elemszámú minta esetén a konfidencia intervallumok sugara nagy. 3. grafikon: Ábrázoljuk a konfidencia intervallum sugarát 25, 50, 75 és 100 elemű minta esetén a p függvényében. - Jelöljük ki az F3:P3, F27:P27, F52:P52, F77:P77 és F102:P102 tartományokat. A szokásos módszerrel készítsük el a grafikont, a jelmagyarázathoz írjuk be a minta elemszámát. Itt azt tapasztaljuk, hogy p=1-re a p=0.98-hoz képest is több nagyságrenddel nagyobb értékek jöttek ki. Ez nem is meglepő, hiszen p=1 azt jelenti, hogy a várható érték 1 valószínűséggel beleesik az intervallumba. Igazából ehhez a szignifikancia szinthez végtelen nagy intervallumot kéne, hogy számoljon az Excel, de nyilván közelítési-kerekítési hibák miatt „csak” egy nagyon nagy számot ad eredményül a végtelen helyett. - Állítsuk a skálázást megfelelőre. Láthatjuk, hogy a konfidencia intervallum hosszát befolyásolja a szignifikancia szint és a megfigyelések száma. Egy kísérlet tervezésekor előre el kell dönteni, hogy hány megfigyelést végzünk. Célszerű végiggondolni, hogy a kísérlettől mit várunk: Adott szignifikancia szinten az átlag legyen egy adott intervallum-hosszon belül.
4. Feladat Véletlen hibák terjedése: Az mennyiségeket terhelő hibák legyenek rendre . Az y mennyiséget (ami -ek függvénye) terhelő hiba Taylor-sorfejtés után (a lineárisnál magasabb rendű tagokat elhanyagolva): ∑
Mindkét oldal szórását véve: ∑
(
)
A relatív szórásnégyzet ebből: (
)
∑
(
) (
)
∏ (
)
alakú függvények esetén ez tovább egyszerűsödik: ∑
(
)
FELADAT – Egy henger alakú mérőedénybe 1000±15 kg/m3 sűrűségű festéket töltünk. A henger átmérője 200±0.5 mm, a folyadékoszlop magassága 200±1mm. Határozza meg a betöltött festék tömegének hibakorlátját. (A hibakorlát a szórás kétszerese.) Megoldás: (
)
( √(
) )
( (
) )
( ) ( )
A tömeg . A munkalapon B3-tól D3-ig töltsük ki a mennyiségek adott értékeit, alatta a hibakorlátokat, majd B5-től D5-ig pedig a szórásokat (az adott hibakorlátok fele). Számoljuk ki m átlagos értékét: B8=B3*C3^2/4*PI()*D3 A fenti képlettel számoljuk ki σm –et, majd Δm hibakorlátot: B9==B8*SQRT((2*C5/C3)^2+(D5/D3)^2+(B5/B3)^2) B10==2*B9 Tehát a folyadék tömege: m= 6,2831±0,1kg