Pályázat címe: Új generációs sporttudományi képzés és tartalomfejlesztés, hazai és nemzetközi hálózatfejlesztés és társadalmasítás a Szegedi Tudományegyetemen Pályázati azonosító: TÁMOP-4.1.2.E-15/1/KONV-2015-0002
Sportstatisztika
Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér 13. www.u-szeged.hu www.palyazat.gov.hu
[Ide írhat]
Tartalomjegyzék 1.
Kombinatorikai alapfogalmak ............................................................................................ 4 1.1.
Permutáció................................................................................................................ 4
1.1.1. 1.2.
Ismétléses permutáció ................................................................................................ 7
1.3.
Variáció.................................................................................................................... 8
1.3.1.
Ismétlés nélküli variáció ...................................................................................... 8
1.3.2.
Ismétléses variáció .............................................................................................. 9
1.4.
2.
Kombináció .............................................................................................................10
1.4.1.
Ismétlés nélküli kombináció ................................................................................10
1.4.2.
Ismétléses kombináció .......................................................................................11
Valószínűségszámítás .......................................................................................................18 2.1.
Eseményalgebrai alapok, esemény, eseménytér ............................................................18
2.1.1.
Esemény, eseménytér .........................................................................................18
2.1.2.
Műveletek eseményekkel ....................................................................................19
2.1.3.
Műveleti tulajdonságok ......................................................................................22
2.1.4.
A valószínűség fogalma .....................................................................................24
2.1.5.
Feltételes valószínűség .......................................................................................25
2.1.6.
Események függetlensége, Teljes valószínűség, Bayes tétel; független események ....25
2.2.
3.
Ismétlés nélküli permutáció.................................................................................. 4
Valószínűségi változó ...............................................................................................28
2.2.1.
Diszkrét valószínűségi változó ............................................................................28
2.2.2.
Folytonos valószínűségi változók ........................................................................32
2.2.3.
Medián, módusz, kvartilis ...................................................................................35
2.2.4.
Nevezetes diszkrét eloszlások..............................................................................35
2.2.5.
Nevezetes folytonos eloszlások ...........................................................................41
Statisztika .......................................................................................................................56 3.1.
Mérés fogalma, mérési skálák ....................................................................................56
3.1.1.
Névleges ...........................................................................................................56
3.1.2.
Sorrendi ...........................................................................................................56
3.1.3.
Különbségi........................................................................................................56
3.1.4.
Arány skálák .....................................................................................................57
3.2.
Populáció és minta fogalma .......................................................................................58
3.3.
A statisztikai minta jellemzői és a minta ábrázolása ......................................................60
3.3.1.
Helyzeti mutatók ...............................................................................................60
2
[Ide írhat] 3.4.
Statisztikai becslések .................................................................................................71
3.4.1.
Pontbecslés .......................................................................................................71
3.4.2.
Konfidenciaintervallum ......................................................................................71
3.4.3.
Statisztikai hipotézisek vizsgálata ........................................................................80
3.4.4.
Változók közötti kapcsolat vizsgálata .................................................................103
3.4.5.
Varianciaanalízis .............................................. Hiba! A könyvjelző nem létezik.
3
[Ide írhat]
1. Kombinatorikai alapfogalmak
A valószínűségszámítás és statisztika bevezetését kombinatorikai alapfogalmakkal kezdjük. Ezen belül tárgyaljuk a permutáció a variáció és a kombináció fogalmát, valamint ezek kapcsolatát. A fogalmakat példákon szemléltetjük. Mint minden további témában itt is bemutatjuk hogyan tudjuk ezeket a fogalmakat Excelben kezelni. Bár itt még egyszerű fogalmakkal bánunk mégis hasznos lehet a számítások gyorsasága érdekében szoftveres alkalmazás ismertetése.
1.1. Permutáció
Permutációnak nevezzük adott n elem összes lehetésges sorbarendezését. 1.1.1. Ismétlés nélküli permutáció
Ha az adott elemek különbözőek, akkor az összes lehetséges sorbarendezést ismétlés nélküli permutációnak nevezzük.. n elem ismétlés nélküli permutációinak száma:
Pn= n! Az n! jelölés olvasása: n faktoriális A formula úgy adódik, hogy a sorbarendezés során az első helyre n különböző elemet választhatunk, a második helyre (n-1) elemet és így tovább, azaz:
Pn=n(n-1)(n-2)…21 Az első n természetes szám szorzatát nevezzük n faktoriálisnak. Ennek kiszámításánál segítségül hívhatjuk az Excel FAKT függvényét. Az Excel menüsorában a Képletek menüpontot kiválasztva kapjuk a függvények választásának lehetőségét.
4
[Ide írhat]
Itt a Matematikai függvények közül a kiválasztjuk a FAKT függvényt. Ezzel vagy a SZORZAT függvénnyel számíthatjuk ki egy szám faktoriálisát: A FAKT függvénynek egyetlen argumentuma van, azt a számot kell beírni melynek faktoriálisát ki akarjuk számítani. A SZORZAT függvény argumentumába az a tömbhivatkozás kerül mely elemeinek szorzatát akarjuk kiszámítani. A FAKT és a SZORZAT függvény alkalmazása 5 elem ismétlés nélküli permutációjának kiszámítására.
1 2 3 4 5 SZORZAT(A1:A5) 120
FAKT(5) 120
Megjegyzés: a matematikai függvények között szerepel még a FAKTDUPLA függvény, jelölésben n!! melyre
n(n 2)(n 4)4 2 ha n 2k n!! n(n 2)(n 4)3 1 ha n 2k 1 Ennek megvalósítása Excelben:
5
[Ide írhat]
1 2 3 4 SZORZAT(B9;B11;B13) 5 15
FAKTDUPLA(5) 15
A SZORZAT függvény egy másik tipusú felhasználásával szintén lehet a dupla faktoriálist számítani, amikor egyedi cellahivatkozások kerülnek a függvény argumentumába, pontosvessző elválasztással. Példa: az 1,2,3 számokból hány háromjegyű szám alkotható úgy, hogy minden jegyet egyszer használhatunk fel? A lehetséges számok: 123,132,213,231,312,321 ezek száma 3!=6. Nyilván a faktoriális formula rekurzív módon is számítható azaz: n!=n·(n-1)!.
6
[Ide írhat]
1.2. Ismétléses permutáció Ha az adott n elem között azonosak is vannak, akkor összes lehetséges sorbarendezést ismétléses permutációnak nevezzük. Példa: Hány különböző számot képezhetünk az 1,1,1,2,2,3,3,3,4,4 jegyekből? Ha mind különbözőek lennének akkor ebből a 10 jegyből 10! számot képezhetnénk de minden sorrenden belül az azonos számok tetszőleges sorrendje esetén a képzett szám ugyanaz. Ezért a lehetőségek száma:
10! 3!2!3!2!
Ezt általánosítva kapjuk az ismétléses permutáció formuláját: ha van rendre n1 , n 2 ,…, n k azonos elemünk, és n1 n 2 ... n k n akkor ezen n elem összes lehetséges sorrendjeinek számát ezen n elem ismétléses permutációinak nevezzük és a következő formulával számítjuk:
Pnn1 , n 2 ,...,n k
n! n1!n 2!...n k !
Excelben a FAKT függvény alkalmazásával oldjuk meg az ilyen tipusú feladatokat. A fenti feladat megoldása:
FAKT(10)/(FAKT(3)*FAKT(2)*FAKT(3)*FAKT(2))
7
[Ide írhat]
1.3. Variáció A permutáció esetében n elem sorbarendezéseit számláltuk le. Most az a kérdés hogyan oldjuk meg az olyan feladatokat kombinatorikai leszámlálással, mint pl. egy n elemű halmaznak hány k elemű részhalmaza van, vagy gyakorlati alkalmazásoknál, pl egy 30 fős osztályból hányféleképp tudok egy kézilabdacsapatot kiállítani? Matematikailag azt a kérdést tesszük fel, hogy hogyan lehet n elemből k elemet kiválasztani? Ha a k elem kiválasztásánál a sorrendet is figyelembe vesszük, akkor variáció ha nem, akkor a kombináció témaköréhez jutunk.
1.3.1. Ismétlés nélküli variáció
A fentebb említett kérdésre a sorrend figyelembe vétele esetén a variáció adja meg a választ. Definíció: n különböző elemből kiválasztunk k elemet, de bármely elemet legfeljebb egyszer, a kiválasztás sorrendjének figyelembe vételével, akkor az összes lehetséges kiválasztást n elem k-ad osztályú variációinak nevezzük. Itt most n különböző elemet veszünk és egy elem csak egyszer fordulhat elő, így ismétlés nélküli variációról beszélünk. Ha a kiválasztás logikáját követjük akkor az első helyre az első helyre n különböző elemet választhatunk, a második helyre (n-1) elemet és így tovább, a k-adik helyre (n-k+1) elemet, így n elem k-ad osztályú variációinak száma :
Vnk n(n 1)...(n k 1)
n! (n k)!
Egy osztályban futóversenyt rendeztek. 7 gyereknek van egyforma esélye arra, hogy dobogóra kerüljön. Hányféleképp alakulhatnak ki köztük a dobogós helyezések. A feladatra választ 7 elem 3-ad osztályú ismétlés nélküli variációja adja:
V73
7! (7 3)!
Excelben a VARIÁCIÓK statisztikai függvény segítségével oldjuk meg a feladatot. 8
[Ide írhat]
VARIÁCIÓK(7;3) 210
1.3.2. Ismétléses variáció
Definíció: Ismétléses variációról beszélünk akkor ha a kiválasztott elemek között azonosak is lehetnek. Akkor a kiválasztásnál minden helyre n lehetséges választásunk van így
Vnk ,i n k . Ha az előbbi feladatot úgy módosítjuk, hogy három futóversenyt rendezünk ugyanazon 7 gyerek között és az a kérdés hányféleképp jöhet ki a győztes, akkor nyilvánvaló, hogy akár ugyanazon gyerek megnyerheti mindhárom versenyt, így ismétléses variációval számítjuk a megoldást. A VARIÁCIÓK.ISM vagy ha ismerjük az ismétléses variációk formuláját akkor a HATVÁNY függvény segítségével.
VARIÁCIÓK.ISM(7;3) 343
9
HATVÁNY(7;3) 343
[Ide írhat]
1.4. Kombináció A fentebb említett kiválasztási feladatnál sorrend figyelembe vétele nélküli esetben a kombináció adja meg a választ. Definíció: n különböző elemből k elem összes lehetséges kiválasztását n elem k-ad osztályú kombinációinak nevezzük.
1.4.1. Ismétlés nélküli kombináció
Ismétlés nélküli kombinációról beszélünk akkor, ha az n különböző elemből úgy választunk ki k-t, hogy egy elemet legfeljebb egyszer választunk ki. A feladat megoldását a variációból levezethetjük úgy, hogy minden kiválasztott k-as tetszőleges sorrendje esetén ugyanaz a kiválasztás valósult meg, így n elem k-ad osztályú kombinációinak száma.
C kn
Vnk k!
azaz
C kn
n! k!(n k )!
Erre alkalmaznak a matematikában egy speciális jelölést:
n Ckn k és úgy olvassuk ki hogy „n alatt a k”. Példa: Egy 30 fős osztályból hányféleképp tudok összeválogatni egy kézilabdacsapatot. Mivel a kézilabdacsapat 14 fős és a kiválasztás sorrendje nyilván nem számít így 30 elem 14-ed osztályú kombinációinak száma adja meg a választ:
30 30! C14 30 14 14!16!
10
[Ide írhat]
Ezt Excelben a KOMBINÁCIÓK matematikai függvénnyel számolhatjuk:
KOMBINÁCIÓK(30;14)
Itt fontos megjegyezni hogy egy halmaz k elemű részhalmazai és n-k elemű részhalmazai között kölcsönösen egyértelmű megfeleltetés létesíthető A k esetben az A A
megfeleltetéssel. Így egy n elemű halmaznak ugyanannyi k elemű részhalmaz van mint nk elemű, azaz :
n n C nn k C kn k n k 1.4.2. Ismétléses kombináció
Ismétléses kombinációról beszélünk akkor, ha az n különböző elemből úgy választunk ki k-t, hogy egy elemet többször is kiválaszthatunk. n elem k-ad osztályú ismétléses kombinációinak száma:
Ckn ,i
(n k 1)! n k 1 k k!(n 1)!
Hasonlóképpen átfogalmazva az előző fejezet feladatát mint a variációk esetében ha egy 30 fős osztály számára 14 futóversenyt rendezünk. Hányféleképp választható ki az első helyezett:
KOMBINÁCIÓK.ISM(30;14)
11
[Ide írhat]
Megjegyzés: természetesen mind a FAKT mind a SZORZAT függvény segítségével kiszámítható a formula ismeretében mind a variáció mind a kombináció bármely formája.
12
[Ide írhat]
1.5 Pascal háromszög A binomiális együtthatók között van egy alapvető rekurzív összefüggés, azaz n elem k-ad osztályú kombinációját n-1 elem k-ad és k-1-ed osztályú kombinációjára visszavezető formula:
n n 1 n 1 k k 1 k Ez az összefüggés lehetőséget ad arra, hogy a binomiális együtthatókat egy olyan piramis formába rendezzük melynél bármely elem a közvetlen felső szomszédainak összegeként számolható:
1 1 1 1 1 1 1 1 1
8
3
5
7
2
4
6
3
10
21
1 4
10 20
35 56
1
6
15
28
1
5
1
15 35
70 . . .
1 6 21
56
7 28
A Pascal háromszög n-edik sorában a következő elemek állnak:
n 1 0
n 1 n 1 n 1 , , . . . , , 1 2 n 1
Ezek összege:
n 1 n 1 n 1 n 1 . . . 2 n1 . 0 1 2 n 1 Azaz az n-edik sor összege az n-1-edik sor összegének kétszerese.
13
1 1 8
1
[Ide írhat]
A binomiális együtthatók összegére vonatkozó formula a binomiális tételből következik. A binomiális tétel két tag összegére vonatkozik:
n n n n n (a b) n a n a n1b a n2b 2 ... a nk b k ... b n 0 1 2 k n Az együtthatókat kombinációkkal történő meggondolással számítjuk így adódik a formula. Ha most a=b=1 értékekkel számolunk akkor:
n n n n n 2 n ... ... 0 1 2 k n így adódik a Pascal háromszög sorösszegeire vonatkozó összefüggés.
14
[Ide írhat]
1.6. Logikai szita formula Olyan kérdésekre ad választ mint pl: Egy osztályban 12 tanuló kézilabdázik, 16 tanuló kosárlabdázik és 6-an mindkét sportban résztvesznek. Hány fős az osztály? Jelölje A a kézilabdázók halmazát, B a kosárlabdázók halmazát. Ekkor:
A 12 , B 16 , A B 6 ;
Az osztály létszáma:
A B A B A B 12 16 6 22 . Három sportra megfogalmazva: Egy osztály tagjai három sportágban sportolnak kézilabda, kosárlabda, tollaslabda. Az alábbi résztvevő számok vannak az egyes sportágakban:
Kézilabdázik Kosárlabdázik Tollaslabdázik Kézilabdázik és kosárlabdázik Kézilabdázik és tollaslabdázik Kosárlabdázik és tollaslabdázik Mindhárom sportban részt vesz
12 15 9 7 5 4 3
Hány fős az osztály? Jelölje A a kézilabdázók halmazát, B a kosárlabdázók halmazát, C a tollaslabdázók halmazát.
A B C A B C A B AC B C A B C 12 15 9 7 5 4 3 23
15
[Ide írhat]
Ábrázoljuk ezt a két feladatot:
A=12 A B 6
B=16
C=9
AC 5 A=12
A B C 3
B C 4
A B 7
B=15
16
[Ide írhat]
A logikai szita formula általánosan is kimondható tetszőleges véges n számú halmazra. Legyenek A1 ,..., An tetszőleges véges halmazok.
Ai
1i n
(1)
k 1
1 k n ;{n1 ,n2 ,...,nk }{1, 2 ,...,n}
An1 An2 ... Ank
A bizonyítást, melyet most nem részletezünk, a fentebb tárgyalt kombinatorikai eszközökkel végezzük.
17
[Ide írhat]
2. Valószínűségszámítás
A valószínűségszámítás a véletlen jelenségek matematikai leírásának eszköze. Egy lejtőn csúszó test mozgásának leírásához a fizikában, vagy egy ferde hajítás leírásához, meg tudjuk adni azokat a paramétereket, amelyek alapján teljes pontossággal leírhatjuk a folyamatot, megmondhatjuk pontosan, hogy egy adott pillanatban a a test pályájának mely pontján van, milyen sebességgel mozog. Egy kockadobásnál vagy pénzfeldobásnál azonban más módszertant kell találni afolyamat leírásához mivel ilyen modellt nem tudunk felírni. Ha mégis meg tudnánk minden paramétert határozni, kérdéses, hogy érdemes-e ezzel
a
módszerrel megközelíteni a feladat megoldását, mert annyi adatot kellene e legtöbb ilyen esetben beépíteni a modellbe ami nagyon nehézkessé tenné a legegyszerűbb feladat megoldását is.
2.1. Eseményalgebrai alapok, esemény, eseménytér Ebben a fejezetben a valószínűségszámítás alapfogalmait tárgyaljuk. 2.1.1. Esemény, eseménytér
Egy véletlen jelenség előidézését mint pl kockadobás, vagy megfigyelését, véletlen kisérletnek nevezzük. Definíció:Egy kísérlet lehetséges kimeneteleit elemi eseménynek, az elemi események halmazát pedig eseménytérnek nevezzük. Definíció: Az eseménytér bármely részhalmazát eseménynek nevezzük. Definíció: Azt mondjuk, hogy egy A esemény bekövetkezik, ha a véletlen kisérlet kimenetele olyan elemi esemény mely A-nak eleme. 18
[Ide írhat]
Pl: kockadobás esetén P={2,4,6} az az esemény hogy párosat dobunk, ez akkor következik be, ha 2, 4,vagy 6 az az elemi esemény mely a kockadobás kimenetele. Definíció: Azt mondjuk hogy egy A és B esemény egyszerre következik be ha a véletlen kisérlet kimenetele olyan elemi esemény mely A-nak is és B-nek is eleme.
Definíció: Egy eseménytér összes részhalmazait tekintve a két nem valódi részhalmaznak speciális jelentése van. Az és maga a teljes eseménytér. Halmazelméleti terminológiával élve, a
olyan eseményt reprezentál melynek nincs elemi esemény eleme, ily módon
sohasem következhet be, ezt lehetetlen eseménynek nevezzük. Másik maga az eseménytér mint esemény mely mindig bekövetkezik hiszen minden elemi eseményt tartalmaz, ezt biztos eseménynek nevezzük (jelölésben I vagy ).
2.1.2. Műveletek eseményekkel
Az események halmazreprezentációja kapcsán felmerül annak igénye, hogy a halmazelméleti műveletekkel analógiában tudnánk-e műveleteket értelmezni az eseményeken. Mint alább láthatjuk az eseményeken végzett műveletek megfogalmazásukban is tükrözik az analóg halmazelméleti műveleteket. Definíció: A B - azaz A és B események összege - az az esemény mely akkor következik be ha A vagy B közül legalább egyik bekövetkezik.
A B esemény szemléltetése az alábbi ábrán. A szinezett esemény jelöli az A B eseményt.
19
[Ide írhat]
I A
A+B
B
Definíció: A B - azaz A és B események szorzata - az az esemény mely akkor következik be ha A és B is bekövetkezik.
A B esemény szemléltetése az alábbi ábrán. A szinezett esemény jelöli az A B eseményt.
A
I
AB
B
Ha A, B két olyan esemény, amelyek nem következhetnek be egyszerre, akkor azt mondjuk, hogy A és B kizáróak. Az alábbi ábra A és B eseményei kizáróak.
20
[Ide írhat]
I A
B
Ekkor A B a lehetetlen esemény. Az összeadás és szorzás műveleteit a biztos és lehetetlen eseményeken elvégezve igazak az alábbiak:
A A I A
A A A I I
Definíció: A - azaz komplementer esemény - az az esemény mely akkor következik be, ha A nem következik be. Az alábbi ábrán az eseménytérből a szinezetlen résszel jelöltük A eseményt és szinessel a komplementerét.
I A
A
21
[Ide írhat]
Megállapodás szerint legyen: : I és I .
2.1.3. Műveleti tulajdonságok
Hasonlóan a halmazelméleti, vagy a valós számok közötti műveletekhez itt is fontos vizsgálnunk hogy az események közötti műveletek milyen tulajdonságokkal rendelkeznek. Az események közötti műveletekre teljesülnek a következők: Az összeadás és szorzás művelete kommutatív (a komponensek felcserélhetők), asszociatív (a komponesnek csoportosíthatók) és a szorzás az összeadásra nézve valamint az összedás a szorzásra nézve
disztributív, azaz a szorzás összegen
komponensenként végezhető és az összeadás szorzaton komponensenként végezhető, azaz:
A B =B A
AB = BA
( A B ) C = A ( B C)
( AB)C = A(BC )
A( B C ) = AB + AC
A BC = ( A B )( A C )
A disztributivitásból következik a beolvasztási szabály:
A AB A Eseményalgebrában is teljesülnek a logikából és a halmazelméletből jól ismert De-Morgan azonosságok:
A B AB AB A B A halmazelmélethez hasonlóan értelmezzük az alábbi műveleteket: Definíció: Kivonás A B A B . Definíció: Szimmetrikus differencia AB ( A B) ( B A) . 22
[Ide írhat]
A szimmetrikus differenciára igazak az alábbi összefüggések:
AA AB BA
A A AB (A B) AB
AI A A B (AB) AB
Reláció események között: Definíció: Ha az A esemény bekövetkezése esetén mindig bekövetkezik a B esemény is akkor azt mondjuk, hogy az A esemény maga után vonja B eseményt. Jelölés: AB
A AI AA AB BCAC AB BAAB A B B A. Definíció:
A1 , A2 ,, An eseményekről azt mondjuk, hogy teljes eseményrendszert alkotnak,
ha
egyik sem a lehetetlen esemény,
páronként kizáróak és
összegük a teljes esemény, azaz:
1. Ak (k 1,2,, n)
2. Ai A j i, j 1,2,, n
3. A1 A2 An I .
Definíció: Egy A eseményt összetett eseménynek nevezünk, ha előállítható két A -tól különböző esemény összegeként, azaz: A B C ahol B A és C A . Ha egy eseményalgebra elemeinek száma n akkor az összes események száma – egy halmaz összes részhalmazainak számával analóg módon- : 23
[Ide írhat]
n
n
i 2 i 0
n
.
2.1.4. A valószínűség fogalma
A valószínűség axiomatikus megalapozásához a relatív gyakoriság tulajdonságaiból indulunk ki. Definíció: Ha n független kisérletet végzünk egy A esemény megfigyelésére és A k -szor következett be akkor k -t az A esemény gyakoriságának a k / n értéket pedig A relatív gyakoriságának nevezzük és gA -val jelöljük. A relatív gyakoriságra könnyen ellenőrizhető, hogy igazak a következők: 1. 0 g A 1 2. Ha I a biztos esemény akkor gI I 3. Ha A és B kizáró események akkor g A B g A g B . Ez utóbbit könnyen igazolhatjuk véges sok eseményből álló halmazra is, akkor azt kell feltennünk, hogy páronként kizáró eseményeink vannak. A valószínűség axiomatikus megalapozásakor a fenti tulajdonságokból mint axiómákból indulunk ki: 1. Axióma Egy eseményalgebra minden 0 P( A) 1 szám, amely az
A eleméhez hozzá van rendelve egy
A esemény valószínűsége.
2. Axióma A biztos esemény valószínűsége 1, azaz P ( I ) 1 . 3. Axióma AB esetén P( A B ) P( A) P( B ). 4. Axióma Ha A1 , A2,, An, egymást páronként kizáró események, akkor 24
[Ide írhat]
i 1
i 1
P( Ai ) P( Ai ) A 3.axiómát véges sok eseményből álló halmazra is felírhatjuk a relatív gyakorisághoz hasonlóan, azzal a feltevéssel , hogy hogy páronként kizáró eseményeink vannak.
2.1.5. Feltételes valószínűség
Ha
n
m
kisérletet végzünk B esemény megfigyelésére, és pontosan n-szer fordult elő B és az
k kisérletből k -szor az A esemény is bekövetkezik akkor a hányadost az A esemény B n
feltétel melletti feltételes relatív gyakoriságának nevezzük. A valószínűség definíciójához hasonlóan ebből kiindulva a
P( AB ) -t az A esemény P( B)
B feltétel melletti
feltételes
valószínűségének nevezzük, P( B) 0 esetén. Jelölésben: P( A B) , azaz P ( A B )
P( AB ) . P( B)
Ezt felírhatjuk P(AB) P(A B)P(B) alakban. Ez a forma általánosítható tetszőleges véges számú eseményre, ennek a formulának a neve: Szorzási szabály:
P( A1 A2 An ) P( A1 ) P( A2 A1 ) P( A3 A1 A2 ) P( An A1 A2 An 1 )
2.1.6. Események függetlensége, Teljes valószínűség, Bayes tétel; független események 25
[Ide írhat]
Definíció: Egy A és B eseményt akkor tekintünk sztochasztikus értelemben függetlennek , ha az egyik esemény bekövetkezése - a feltételes valószínűséggel az alábbi módon megfogalmazott értelemben - nem függ a másik bekövetkezésétől, azaz :
P(A) P(A B) Ekkor a feltételes valószínűség definíciójából könnyen látható hogy: P(A)P(B) P(AB ) ,
mivel szimmetrikus reláció a két esemény között így könnyen belátható hogy ekkor:
P(B) P(B A) . Felmerül annak kérdése hogy ez hogyan definiálható több eseményre: Definíció: Azt mondjuk, hogy A , B , C események teljesen függetlenek
páronként függetlenek,
mindegyik esemény független a másik kettő szorzateseményétől.
Vagyis ha teljesülnek a következők: P ( AB ) P ( A) P ( B ). P ( AC ) P ( A) P (C ). P ( BC ) P ( B ) P (C ). P ( ABC ) P ( A) P ( B ) P (C ).
Ehhez hasonlóan tetszőleges véges sok eseményre:
Definíció: A1 , A2 ,, An események teljesen függetlenek, ha bármely k 2,3,, n esetére igaz:
P(Ai1 ,Ai 2 , ,Ai k ) P(Ai1 )P(Ai 2 ) P(Ai k ), az { 1,2,3,, n } halmaz tetszőleges {i1, i 2 , , i k } k -elemű részhalmazára. Teljes valószínűség tétele: 26
[Ide írhat]
Ahhoz hogy a tételt megfogalmazzuk először definiáljuk a teljes eseményrendszer fogalmát.
Definíció:
A1 , A2 ,, An események teljes eseményrendszert alkotnak, ha páronként kizáróak
és összegük a biztos esemény, azaz:
Ai Aj , (i, j) : i j
A1 A2 An I
A teljes valószínűség tétele: Legyen
A1 , A2 ,, An teljes eseményrendszer egy eseménytérben.
Legyen B ugyanazon eseménytér egy tetszőleges eseménye. Akkor:
n
P(B) P(B | A i )P(A i ) . i 1
27
[Ide írhat]
2.2. Valószínűségi változó 2.2.1. Diszkrét valószínűségi változó
Definíció.
Egy
valószínűségi
X
változót
diszkrétnek
nevezünk,
ha
legfeljebb
megszámlálható értéket vehet fel. Azaz a lehetséges értékek halmaza véges vagy megszámlálható. Ilyen diszkrét változó például a kockadobás valószínűségi változója vagy a pénzfeldobás valószínűségi változója.
Definíció:
Ha
lehetséges
X
értékeinek
halmaza:
x1 , x2 ,, xn ,
akkor
a
pi P( X xi ) i 1,2,, n diszkrét függvény a változó eloszlása. Definíció: F ( x) p i függvény a változó eloszlásfüggvénye. xi x
Diszkrét valószínűségi változó eloszlásfüggvénye lépcsős függvény melynek azokon a helyeken van ugrása ahol a változó értéket vehet fel és az ugrás nagysága az érték felvételének valószínűsége. Erre a binomiális eloszlású valószínűségi változónál hozunk példát.
2.2.1.1. Várható érték
Definíció: Ha egy
X diszkrét valószínűségi változó értékeinek halmaza megszámlálható:
x1 , x2 ,, xn , és ezeket az értékeket rendre p1 , p2 ,, pn , valószínűségekkel veszi fel akkor az
M ( X ) p i xi
sor összegét a változó várható értékének nevezzük, ha a
i
sorösszeg véges. Ha véges sok értéket vesz fel a változó akkor a várható értéket az 28
[Ide írhat] n
M ( X ) p i xi i 1
formula adja. Kockadobás várható értéke: M ( X )
1 1 1 1 1 2 3 6 3,5 6 6 6 6
Igaz az alábbi állítás: Legyenek
c1, c2 ,..., cn konstansok és
X1 , X 2 ,..., X n olyan valószínűségi változók amelyeknek
létezik a várható értéke, akkor: n
n
k 1
k 1
M( c k X k ) c k M(X k ).
Várható értéket Excelben csak véges értékű változóra tudunk számítani,kétféle módszerrel:
Ha bármely változóérték felvételének valószínűsége azonos:
akkor az ÁTLAG függvények közül a megoldandó feladatra vonatkozót kell alkalmazni. Ezek a függvények a statisztikai függvények közül választandók ki és átlagként számtani közepet számolnak minden esetben. Egymástól abban különböznek, hogy a szöveges illetve logikai változókat kezelik-e illetve bizonyos logikai szűrőfeltételnek megfelelő cellákat választanak ki vagy minden cellát kezelnek egy adott tartományban.
Az ÁTLAG ÁTLAGA ÁTLAGHA illetve ÁTLAGHATÖBB függvények számolnak átlagot. az ÁTLAG függvény argumentumai átlagát számítja ki, az ÁTLAGA szöveg és logikai változót is kezel az ÁTLAGHA illetve ÁTLAGHATÖBB függvények esetében feltételeket adhatunk meg, hogy mely cellákra számítson átlagot
29
[Ide írhat]
Ha a változó az értékeit különböző valószínűségekkel veszi fel, akkor :
A valószínűségek és az értékek vektorának skalárszorzataként a SZORZATÖSSZEG függvénnyel, melybe két argumentumként a valószínűségek és az értékek tömbjét kell beírni.
2.2.1.2. Szórás
Önmagában a várható érték nem ad elegendő jellemzést az valószínűségi változóról, mert nem mondja meg hogy az értékei mennyire vannak közel az átlaghoz, azaz az átlag valós jellemzője-e a változó értékeinek ? Ennek mértékét jellemezzük az átlagtól való átlagos eltéréssel, a szórással. Ez a két jellemző együtt már pontosabb képet az változó viselkedéséről. Legyen X egy valószínűségi változó akkor az X M ( X ) is egy valószínűségi változó így
[ X M ( X )]2 is az. Ennek várható értékét nevezzük a változó szórásnégyzetének.
D 2 ( X ) M ([ X M ( X )]2 ) Ebből a szórás: D( X ) M ([ X M ( X )]2 )
Igaz az alábbi állítás: Legyenek
c1, c2 ,..., cn konstansok és
X1 , X 2 ,..., X n páronként független valószínűségi változók
akkor: n
n
k 1
k 1
D 2 ( c k X k ) c 2k D 2 (X k ).
Az
D 2 ( X ) M ([ X M ( X )]2 ) M ( X 2 ) M 2 ( X ) egyenlőség könnyen igazolható és módot
ad a szórás egyszerűbb kiszámítására. 30
[Ide írhat]
A kockadobás változójának szórásnégyzete így kétféleképp számítható:
definíció alapján:
D2 (X )
1 1 1 1 (1 3,5) 2 (2 3,5) 2 (3 3,5) 2 (6 3,5) 2 2,92 6 6 6 6
vagy
a definícióból származtatott
D 2 ( X ) M ( X 2 ) M 2 ( X ) formula segítségével:
1 1 1 1 D 2 ( X ) ( 12 2 2 3 2 6 2 ) 3,5 2 2,92 6 6 6 6
Így a kockadobás változójának szórása: D( X ) 2,92 1,71 .
Ha véges sok értéket vesz fel a változó akkor a szórását a statisztikai SZÓRÁS függvények egyikével számoljuk aszerint, hogy statisztikai minta alapján adunk a sokaságbeli szórásra becslést vagy amit kezelünk az teljes sokaság és ennek szórását számoljuk. Ezen belül az ÁTLAG függvénynek megfelelően itt is abban tér el a kétféle SZÓRÁS függvény, hogy a logikai és szöveges értékeket kezeli-e? Kockadobás esetében például a SZÓRÁSPA függvény a fentebb számítottakkal azonos eredményt ad.
Excelben a SZÓR.M, SZÓR.S, SZÓRÁSA, SZÓRÁSPA függvényekkel tudunk szórást számítani.
a SZÓR.M és a SZÓRÁSA függvények mintának tekintik az adatokat és a későbbi statisztikai fejezetben a minta szórásának tekintett formula alapján számít szórás értéket
Sokaságnak tekintik az adatokat és így számolnak szórást a SZÓR.S és a SZÓRÁSPA függvények, a SZÓRÁSPA szöveg és logikai változókat is kezel. 31
[Ide írhat]
2.2.2. Folytonos valószínűségi változók
2.2.2.1. Eloszlásfüggvény
Definíció: Legyen X valószínűségi változó, az R -en értelmezett F ( x) P( X x)
valós függvényt a változó eloszlásfüggvényének nevezzük. Az eloszlásfüggvény tulajdonságai: A definíció alapján eloszlás függvény értéke az x pontban annak a valószínűsége, hogy a X változó értékei kisebbek mint x.
Az eloszlásfüggvényre a definíció alapján teljesülnek az alábbi tulajdonságok:
F( x ) 0 az eloszlásfüggvény nemnegatív
monoton növekvő , azaz x , y ra ha x y F( x ) F( y)
határértékek végtelenben:
lim F( x ) 0
x
lim F( x ) 1 x
balról folytonos, azaz a R re ha x y lim F(x) F(a ) x a
Ezek a feltételek elegendőek is azaz ha egy F(x) feltételnek,
akkor
van
olyan
folytonos
függvény eleget tesz az fenti négy
valószínűségi
eloszlásfüggvénye. Az alábbi ábrán szemléltetjük ezeket a tulajdonságokat:
32
változó
melynek
F(x)
az
[Ide írhat]
Eloszlásfüggvény 1 0,9 0,8 0,7
lim F( x ) 1
0,6
lim F( x ) 0
x
F(x1 ) 0,5
F( x 2 )
0,4
x
0,3 Monotonitás
0,2 0,1 0 -10
-8
-6
-4
-2
x1
0
x 22
4
6
8
10
2.2.2.2. Sűrűségfüggvény
Definíció. Ha az X valószínűségi változó F( x ) eloszlásfüggvénye folytonos, és véges számú pont kivételével a függvény deriválható akkor az F' ( x ) deriváltfüggvényt az X változó sűrűségfüggvényének nevezzük és f ( x ) -szel jelöljük. Ekkor tehát F' ( x ) f ( x ) azaz f ( x ) az F( x ) deriváltfügvénye. Ekkor az előzővel ekvivalens állítást fogalmazunk meg F( x ) fentebb említett tulajdonságai alapján: Ha létezik egy olyan f ( x ) melyre x
F( x ) f ( t )dt
akkor f ( x ) függvényt az X változó sűrűségfüggvényének nevezzük. Ekkor F( x ) a f ( x ) integrálfüggvénye. A sűrűségfüggvény tulajdonságai:
f ( x ) 0 az sűrűségfüggvény nemnegatív
f (x)dx 1
azaz a sűrűségfüggvény integrálja 1. 33
[Ide írhat]
b
f (x )dx P(a X b) a
A Newton-Leibnitz szabály miatt : b
f (x )dx F(b) F(a ) a
Ha egy függvény rendelkezik az első két tulajdonsággal akkor egy folytonos valószínűségi változó sűrűségfüggvénye. Ez azt jelenti hogy a
P(a X b) valószínűséget a sűrűségfüggvény függvény alatti
területtel méri az eloszlásfüggvény pedig függvényértékek közötti különbséggel.
1.1.1.1.
Várható érték
Definíció: Egy X folytonos valószínűségi változó várható értéke
M(X)
xf (x)dx
1.1.1.2.
Szórás
Definíció: Egy X folytonos valószínűségi változó szórása:
(x M(X))
D( X )
2
f ( x )dx
M(X) és M(X 2 ) létezése szükséges és elegendő feltétel a D ( X ) létezéséhez, és így a szórásnégyzetet felírhatjuk a következő formában:
D 2 ( X)
2 2 x f (x)dx ( xf (x)dx )
34
[Ide írhat] 2.2.3. Medián, módusz, kvartilis
Definíció: Ha az X valószínűségi változó F( x ) eloszlásfüggvényére az F( x )
1 2
egyenletnek egyetlen megoldása van akkor az az érték a változó mediánja, ha egy intervallum akkor annak középpontja a medián. Ha nincs megoldás akkor a medián az F( x )
1 2
értékek felső határa. Definíció: Egy X diszkrét valószínűségi változó értékeinek halmaza x1 , x 2 ,, x n , és ezeket az értékeket rendre
p1 , p 2 ,, p n ,valószínűségekkel
veszi fel akkor ezen
valószínűségek maximum helyét a változó móduszának nevezzük. Definíció: Folytonos valószínűségi változó módusza sűrűségfüggvényének maximumhelye. Egy változónak több módusza is lehetséges.
Definíció: Egy változó kvartilisén egy olyan számot értünk mely az eloszlást rendre 1 3 2 2 3 1 arányok valamelyikében osztja. : , : , : 4 4 4 4 4 4
A középső kvartilis a medián. Az első kvartilist alsó kvartilisnek a harmadikat felső kvartilisnek hívjuk. A kvartiliseknek döntő szerepe van abban a később tárgyalandó témában mely a minta boxbajusz ábrázolásáról szól.
2.2.4. Nevezetes diszkrét eloszlások
2.2.4.1. Binomiális eloszlás
35
[Ide írhat]
Végezzünk Legyen
n
A bekövetkezési valószínűsége minden kisérlet esetén p. Legyen X valószínűségi
változó értéke Ekkor
független kisérletet egy A esemény bekövetkezésének megfigyelésére.
A bekövetkezéseinek száma.
X lehetséges értékei nyilván 1, 2,, n lehetnek.
Legyen jelölésben p k P(X k) . Egy ilyen kisérlet során nyilván
A vagy A következik be.
Vizsgáljunk az n független kisérlet során egy olyan esetben következett be
n
hosszúságú sorozatot melyben k
A és n k esetben következett be A .
Az ilyen sorozatok száma kombinatorikai megfontolások alapján
n . k
Mivel feltettük hogy a kisérletek egymástól függetlenek egy ilyen sorozat valószínűségét az egyes kisérletekben bekövetkező események valószínűségeinek szorzatából kapjuk, azaz az eredmény
P( A) P( A) P( A) P( A) P( A) P( A) p k (1 p) n k k Így annak valószínűsége hogy
nk
A pontosan k -szor következik be n p k P(X k ) p k (1 p) nk k
Egy ilyen valószínűségi változót binomiális eloszlásúnak nevezünk. A binomiális eloszlás esetén mind a számításokban mind az eloszlás ábrázolásában segítségül hívhatjuk az Excelt. Egy rögzített paraméterekkel megadott binomiális eloszlás értékeinek kiszámítása a Statisztikai függvények között található BINOM.ELOSZL függvény segítségével történik.
Ennek fügvénynek mind a négy paraméterét kötelező megadni. A paraméterek jelentése: Sikeresek paraméter a binomiális eloszlás k paramétere vagyis a megfigyelt kisérlet bekövetkezéseinek száma.
36
[Ide írhat]
Kisérletek paraméter a binomiális eloszlás
n
paramétere vagyis a független kisérletek
száma. Siker_valószínűsége paraméter a binomiális eloszlás p paramétere, a megfigyelt esemény bekövetkezési valószínűsége. Eloszlásfv paraméterrel azt állíthatjuk be, hogy a binomiális eloszlás eloszlásfüggvényének vagy sűrűségfüggvényének értékét számítjuk ki. Az eloszlás ábrázolásához használhatjuk az Excel előbb említett függvényét: A függvényt ekkor az ábrán látható paraméterezéssel írtuk fel.
p=0,5;n=20 paraméterű binomiális eloszlás 0,2 0,18 0,16
0,14 0,12 0,1
0,08 0,06 0,04
0,02 0 0
2
4
6
8
10
12
14
16
18
20
A binomiális eloszlás esetén egy adott (x,y) koordinátájú pont a diszkrét görbén a (k, p k ) pont. Sok olyan feladat van, ahol annak valószínűségét kell meghatározni hogy egy binomiális eloszlású változó értéke [k, m] intervallumra esik. Ekkor az a kérdés, hogy mekkora az alábbi valószínűség: m n P(k X m) p i (1 p) n i i k i
37
[Ide írhat]
Ha ekkor k 0 akkor arra a kérdésre ad választ az így megszerkesztett kumulált eloszlásgörbe egy pontját az alábbi módon írhatjuk fel:
k
( k , pi ) i 0
Ennek a pontnak az értelmezése az, hogy mi a valószínűsége annak hogy a változó értéke legfeljebb k . Az így kapott diszkrét függvényt láthatjuk az alábbi ábrán.
n=20; p=0,5 paraméterű kumulált binomiális eloszlás 1,2
1 0,8 0,6 0,4 0,2
0 0
2
4
6
8
10
12
14
16
18
20
Ebből könnyen megszerkeszthető a binomiális eloszlás eloszlásfüggvénye. Ahogyan az eloszlásfüggvényeknél is említettük diszkrét eloszlás eloszlásfüggvénye lépcsős függvény, melynek egy adott pontban akkora ugrása van amekkora az adott pont felvételének valószínűsége.
38
[Ide írhat]
n=3;p=0,5 paraméterű binomiális eloszlású változó eloszlásfüggvénye [-1;4] intervallumon 1 0,9
0,8 0,7 0,6 0,5
0,4 0,3 0,2 0,1
0 -1
-0,5
0
0,5
1
1,5
2
2,5
3
3,5
A binomiális eloszlású változó várható értéke: M ( X ) np. Ez a várható érték definíciójából adódik, a következő formula matematikai rendezéséből: n n n M(X) k p k k p k (1 p) n k k 0 k 0 k
Ezt rendezve és a binomiális tételt kihasználva kapjuk az eredményt. Szórása a várható értékhez hasonlóan a szórás definíciójából adódik:
D 2 ( X) M(X 2 ) M 2 ( X) n n n n D2 (X) k 2 pk (1 p)n k ( k pk (1 p)n k )2 k 0 k 0 k k
Ennek rendezéséből kapjuk a D(X) np (1 p) formulát.
39
4
[Ide írhat]
2.2.4.2. Poisson eloszlás
A Poisson eloszlás a binomiális eloszlás határértékeként számítható, ha np állandó . Ha pozitív állandó és
értékei
n úgy, hogy
X egy diszkrét valószínűségi változó, amelynek
0,1, 2, , n , lehetnek, akkor ha:
k e P(X k ) k! akkor X -et paraméterű Poisson eloszlású valószínűségi változónak hívjuk.
λ=10 paraméterű Poisson eloszlás 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0
5
10
40
15
20
[Ide írhat]
λ=10 paraméterű kumulált Poisson eloszlás 1,2 1 0,8
0,6 0,4 0,2 0 0
5
10
15
20
A binomiális eloszláshoz hasonlóan az így megszerkesztett kumulált eloszlásgörbe egy pontját az alábbi módon írhatjuk fel:
k
( k , pi ) i 0
Ennek a pontnak az értelmezése az, hogy mi a valószínűsége annak hogy a változó értéke legfeljebb k . Az így kapott diszkrét függvényt láthatjuk az fenti ábrán.
Poisson eloszlás esetén M (X ) . D(X) .
2.2.5. Nevezetes folytonos eloszlások
2.2.5.1. Egyenletes eloszlás Definíció: Az X valószínűségi változót egyenletes eloszlásúnak nevezzük az (a,b) intervallumon, ha sűrűségfüggvénye:
41
[Ide írhat]
1 ha a x b f (x) b a 0 különben
Eloszlásfüggvénye:
x a b a ha a x b F( x ) 0 ha x a 1 ha b x
Várható értéke: M (X)
ab 2
Szórása:
D( X )
ba 12
Egyenletes eloszlás sűrűség és eloszlásfüggvényét az alábbiakban ábrázoljuk:
Egyenletes eloszlás sűrűségfüggvénye 0,3 0,25 0,2 0,15 0,1
0,05 0 -5
-3
-1
1
42
3
5
[Ide írhat]
Egyenletes eloszlás eloszlásfüggvénye 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3
0,2 0,1 0 -5
-3
-1
1
3
5
2.2.5.2. Normális eloszlás
Definíció: Egy valószínűségi változó normális eloszlású ha sűrűségfüggvénye a teljes valós számhalmazon értelmezett alábbi függvény:
f (x)
ahol
m tetszőleges
valós,
1 e 2
( x m) 2 2 2
pedig pozitív valós.
Ekkor a változó eloszlásfüggvénye a sűrűségfüggvény integrálfüggvénye.
x
F( x )
f (t )dt
x
1 e 2
Erre a változóra M (X ) m és D( X ) .
43
( t m) 2 2 2
dt
[Ide írhat]
Azt hogy X valószínűségi változó
m várható
értékű és
szórású normális eloszlású változó
a következőképpen jelöljük: X ~ N ( m, )
Igaz a következő: Definíció:Ha X ~ N ( m, ) akkor a következőképpen definiált Y
Xm is valószínűségi
változó és Y ~ N(0,1) vagyis olyan normális eloszlású valószínűségi változó melynek várható értéke 0, szórása pedig 1. Az ilyen változót standard normális eloszlású változónak hívjuk. Sűrűségfüggvényére és eloszlásfüggvényére speciális jelölést alkalmazunk sűrűségfüggvényét
eloszlásfüggvényét pedig jelölje. A standardizálással a következő függvénytranszformációkat hajtjuk végre: a sűrűségfüggvény esetén:
f x
1 x m
az eloszlásfüggvényre pedig:
x m F x A standard normális eloszlású változó sűrűségfüggvénye :
( x )
1 e 2
x2 2
eloszlásfüggvénye pedig:
x
( x )
f (t)dt
44
x
t2
1 2 e dt 2
[Ide írhat]
A normális eloszlás sűrűség és eloszlásfüggvényét Excelben tudjuk ábrázolni: Erre szolgál a NORM.ELOSZL függvény.
NORM.ELOSZL(x;Középérték;Szórás;Eloszlásfüggvény) X
: Az az érték, amelynél az eloszlást kiszámítjuk
Középérték
: Az eloszlás várható értéke
Szórás
: Az eloszlás szórása.
Eloszlásfv
: Ha IGAZ az eloszlásfüggvényt ad vissza ha HAMIS, akkor sűrűségfüggvényt
Az alábbiakban egy N(0,1) és egy N(7,4) változó sűrűségfüggvényért láthatjuk.
0,45 0,4
0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0
1
2
3
4
5
N(0,1)
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
N(7,4)
A normális eloszlás sűrűség függvényét haranggörbének(vagy Gauss-féle haranggörbének) hívjuk.
A függvény lefutásában nagyon forntos szerepe van a paramétereknek. A függvény szimmetrikus és maximuma
Az
m
illetve
m helyen
van.
m x koordinátájú pontokban pedig inflexiós pontja van. 45
[Ide írhat]
Így a standard normális eloszlás sűrűségfüggvényének -1 és +1 pontokban az N(7,4) sűrűségfüggvényének pedig 3 és 10 pontokban. Így azt láthatjuk hogy a szórás növelésével a görbe kisebb kisebb maximumú lesz és a függvény alatti terület azonos %-át, pl:95%-át nagyobb intervallumon veszi fel.
Ugyanezen változók eloszlásfüggvényei az alábbiak:
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -10 -9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
N(0,1)
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
N(7,4)
Látható hogy a szórás növelésével az eloszlásfüggvény kevésbé lesz meredek. Fontos megjegyezni, hogy a sűrűségfüggvény tengelyesen szimmetrikus az az eloszlásfüggvény pedig középpontosan szimmetrikus az ( m;0,5) pontra . A standard normális eloszlás szimmetriáját a következő formula írja le: ( x ) ( x ) 1 .
46
x m egyenesre,
[Ide írhat]
2.2.5.3. Exponenciális eloszlás
Exponenciális
eloszlásúnak
nevezünk
egy
folytonos
valószínűségi
változót
ha
sűrűségfüggvénye a következő alakú: e x ha x 0 f (x) különben 0
Ebből kapjuk az eloszlásfüggvény alakját: 1 e x ha x 0 F( x ) különben 0 Ha X exponenciális eloszlású valószínűségi változó akkor
M (X )
1
D( X )
1 .
és
Megjegyzés:
Exponenciális eloszlással jellemezzük a gépalkatrészek időtartamát, készülékek élettartamát, villanykörték működési idejét, radioaktív bomlást. Az
exponenciális
eloszlás
eloszlásfüggvényének
matematikai
alakja
az
örökifjú
tulajdonságból levezethető. Az örökifjú tulajdonság azt jelenti, hogy, ha egy gépalkatrész vagy készülék t időtartamot megélt, akkor annak valószínűsége hogy a következő t időintervallumot túléli annyi mint üzembe helyezéskor a t időintervallum túlélési valószínűsége. Ez a következő feltételes valószínűséggel fogalmazható meg:
P(X t t X t ) P(X t ) .
47
[Ide írhat]
Exponenciális eloszlásfüggvények
1 0,9
0,8 0,7 0,6 0,5 0,4 0,3 0,2
0,1 0 -3
-2
-1
0
1
2
3
4
λ=0,1
5
6
7
λ=0,5
8
λ=1
9
10
11
12
13
14
15
λ=2
Exponenciális eloszlás sűrűségfüggvények 1,4 1,2 1
0,8 0,6 0,4 0,2
0 -3
-2
-1
0
1
2 λ=0,1
3
4
λ=0,5
48
5 λ=1
6 λ=2
7
8
9
10
[Ide írhat]
2.2.5.4. Gamma eloszlás
A gamma eloszlás definíciójához definiálni kell a gamma függvényt. Definíció: Az
( x ) t x 1e t dt
( x 0) összefüggéssel megadott függvényt gamma
0
függvénynek nevezzük. Erre a függvényre igazak az alábbiak: (1) 1
( x ) ( x 1)( x 1) ( x 1)
tetszőleges
n
természetes számra: (n ) (n 1)!
Ezért ez a függvény a faktoriális fogalom általánosításának tekinthető. Még egy nevezetes összefügg és a gamma függvényre:
1 ( ) 2
Definíció: Gamma eloszlásúnak nevezünk egy valószínűségi változót ha sűrűségfüggvénye: x
1 1 f (x) x e ()
ahol alakparaméter, skálaparaméter.
Ha X gamma eloszlású valószínűségi változó, ahol alakparaméter, skálaparaméter, akkor: M ( X )
D 2 (X) 2
49
[Ide írhat]
Definíció: A gamma eloszlás eloszlásfüggvényének meghatározásához definiáljuk a nem teljes gamma függvényt:
y
( x , y) t x 1e t dt
( x , y 0)
0
Ekkor ha X gamma eloszlású valószínűségi változó, ahol alakparaméter, skálaparaméter, akkor eloszlásfüggvénye.
x (, ) F( x ) ( )
Az alábbi ábrákon a gamma eloszlás eloszlás és sűrűségfüggvényét ábrázoltuk különböző alak és skálaparaméterek mellett. Korábban az exponenciális eloszlásnál láttunk olyan eloszlásdefiníciót mely csak pozitív értékeken nem 0. Most csak pozitív étékekre ábrázoljuk mind az eloszlás mind a sűrűségfüggvényt.
Gamma eloszlás sűrűségfüggvények (alakparaméter;skálaparaméter) 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0
0
1
2
3 (2,2)
4
5
(2,1)
6 (1,2)
50
7 (1,5;3)
8
9
10
[Ide írhat]
Gamma eloszlás eloszlásfüggvények (alakparaméter;skálaparaméter) 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
0
1
2
3
4
(2,2)
5
(2,1)
6
7
(1,2)
8
9
10
(1,5;3)
2.2.5.5. Khí négyzet eloszlás Definíció: Az X valószínűségi változót n szabadságfokú khi-négyzet eloszlásúnak nevezzük, ha sűrűségfüggvénye:
n2 1 x2 x e ha x 0 n f ( x ) 2 2 ( n ) 2 0 különben
Ezt az eloszlást jelölik Ha
az
2 illetve 2n jelöléssel is.
X valószínűségi
változó
n szabadságfokú
eloszlásfüggvénye: n x ( , ) 2 2 F( x ) n ( ) 2
51
( x 0)
khi-négyzet
eloszlású
akkor
[Ide írhat]
Az alábbi ábrákon a khi-négyzet eloszlás eloszlás és sűrűségfüggvényét ábrázoltuk különböző alak és skálaparaméterek mellett. Korábban az exponenciális eloszlásnál láttunk olyan eloszlás definíciót mely csak pozitív értékeken nem 0. Most csak pozitív értékekre ábrázoljuk mind az eloszlás mind a sűrűségfüggvényt.
Khí-négyzet eloszlás sűrűségfüggvények n szabadságfokkal
0,16
0,14 0,12 0,1 0,08 0,06 0,04 0,02
0 0
5
10 n=5
15 n=10
52
n=15
20
25
[Ide írhat]
Khí-négyzet eloszlás eloszlásfüggvények n szabadságfokkal
1 0,9 0,8 0,7
0,6 0,5 0,4 0,3 0,2 0,1 0 0
5
10 n=5
15 n=10
20
25
n=15
2.2.5.6. Student féle t-eloszlás Definíció: Az X valószínűségi változót n szabadságfokú Student eloszlásúnak nevezzük, ha sűrűségfüggvénye:
f (x)
n 1 2 2 n x n 1 n 2
n 1 2
Ezt az eloszlást jelölik t illetve t n jelöléssel is. A Student eloszlás sűrűségfüggvénye a standard normális eloszlás sűrűségfüggvényéhez hasonlóan az y tengelyre szimmetrikus. A Student féle eloszlás eloszlásfüggvénye:
x
F( x )
n 1 2 n t n 1 n 2 2
53
n 1 2
dt
[Ide írhat]
n=10 szabadságfokú t-eloszlás sűrűségfüggvénye 0,45 0,4 0,35
0,3 0,25 0,2 0,15 0,1 0,05 0
-10
-8
-6
-4
-2
0
2
4
6
8
10
6
8
10
n=10 szabadságfokú t-eloszlás eloszlásfüggvénye 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -10
-8
-6
-4
-2
0
54
2
4
[Ide írhat]
Későbbi statisztikai alkalmazás szempontjából nagyon fontos az alábbi állítás. Legyenek X standard normális eloszlású, Y pedig khi-négyzet eloszlású n szabadsági fokú valószínűségi változók. Legyenek továbbá X és Y függetlenek. Ekkor a
T
X Y n
valószínűségi változó n szabadságfokú t eloszlású valószínűségi változó lesz.
55
[Ide írhat]
3. Statisztika A statisztika üzleti vagy gazdasági poblémákban széleskörűen alkalmazható. Alkalmazása nem jelent mást, mint a matematikai statisztika módszereinek alkalmazását az üzleti, gazdasági életben adódó problémák megoldására. A statisztikai módszerek a valószínűségszámítás elméleti eredményeire épülnek. A statisztika alkalmazása az üzleti gazdasági folyamatokban felmerülő döntési helyzetek megoldásában segítik az üzleti gazdasági élet szakembereit.
3.1. Mérés fogalma, mérési skálák 3.1.1. Névleges
A statisztikai egyedekhez rendelt egyedi azonosító értékek melyeknek matematikai szempontból nincs szerepe. Pl: nem(férfi-nő), egyéb demográfiai azonosítók mint pl lakóhely tipusa, stb. Jelenthet olyan megkülönböztetést, hogy a vizsgálat szempontjából bizonyos egyedek azonos osztályba tartoznak vagy nem. A nominális adatokat kategórikus adatoknak is hívjuk.
3.1.2. Sorrendi
Ennek a hozzárendelésnek már van matematikai szerepe, ez a hozzárendelés rangsorolást ad az egyedek között vagyis preferenciát állít fel, de preferenciaintenzitást nem mér azaz méri, hogy egy egyed nagyobb vagy kisebb egy másiknál de nem méri hogy mennyivel. Az iskolai osztályozás vagy egy versenyben a helyezések ilyen skálát jelentenek.
3.1.3. Különbségi
56
[Ide írhat]
Az egyedek között úgy állít fel preferenciát hogy a preferenciaintenzitást is mérni tudjuk. Ezeknek a skáláknak a 0-pontjuk általában önkényes. Ilyen a hőmérsékleti skála. A hőmérsékletet mérhetjük Celsiusban vagy Fahrenheitben ez azt jelenti hogy ugyanannak a hőmérsékletnek más mérőszámot tulajdonítunk. vagyis a skála kiindulópontja lesz más.
3.1.4. Arány skálák Olyan skálákat nevezünk arányskálának ahol a hozzárendelt számértékek –mérési értékek hányadosának is értelme van. Ilyen például egy versenyen az időeredmények vagy lőtt - kapott gólok száma. Ekkor nemcsak azt állapíthatjuk meg hogy valaki jobb mint a másik eddig rangsorolás, vagy, hogy mennyivel jobb mint a másik eddig különségi skála, hanem azt is, hogy hányszorosa a hozzárendelt érték egy másik egyedhez rendelt értéknek.
57
[Ide írhat]
3.2. Populáció és minta fogalma Statisztikai vizsgálatokat statisztikai egyedek meghatározott halmazán végzünk. Vizsgálataink fókuszát ezeknek az egyedeknek a bizonyos adatai képezik. Ebben az esetben tehát adott vizsgálatunkhoz az egyedek bizonyos összessége és a egyedeket jellemző vizsgált adatok összessége. Az egyedeknek ezt a halmazát nevezzük statisztikai sokaságnak vagy populációnak. Ez a halmaz általában nagy elemszámú. Ilyen lehet például a KSH foglalkoztatottsági statisztikai vizsgálataiban a munkaképes korú magyar lakosság, vagy egy pártpreferenciákat mérő közvéleménykutató szempontjából a szavazóképes magyar lakosság. Vizsgálataink tárgyát képezhetik egy cég termékei is, például minőségbiztosítási szempontok alapján. A statisztikai sokaságot különböző szempontok alapján vizsgálhatjuk. Ennek alapján lehet egy sokaság:
Az egységek száma szerint:
véges vagy végtelen
Az egységek időbeli viselkedése szerint:
álló vagy mozgó
Az egységek jellege alapján:
diszkrét vagy folytonos.
Populációban általában az egyedekre vonatkozó megfigyelésket nem tudjuk elvégezni, vagy el tudnánk végezni de nagyon költséges lenne. Például ha pártpreferenciákat szeretnénk különböző időpontokban vizsgálni akkor minden vizsgálni kívánt időpontban választásokat kellene kiírni vagy mindenkihez eljuttatni egy pártlistát és a válaszokat kiértékelni. Ehelyett választják a pártok közvéleménykutatók jóval kevésbé idő és költségigényes statisztikai mintavételezésen alapuló vizsgálatait egy-két ezer fős mintavétel alapján. 58
[Ide írhat]
Definíció: A statisztikai sokaságból véletlenszerűen (sokszor valamely módszertan alapján véletlenszerűen) kiválasztott egyedeket statisztikai mintának nevezzük.
A minta jelentősége abban áll, hogy a minta minden egyes egyedénél el tudjuk végezni a pontos megfigyeléseket, minden az adott vizsgálat szempontjából fontos adatot meg tudunk állapítani és a statisztikai következtetések elméletében alkalmazott
módszertanok
segítségével a mintabeli egyedek tulajdonságaiból a teljes sokaság tulajdonságaira tudunk következtetni.
59
[Ide írhat]
3.3. A statisztikai minta jellemzői és a minta ábrázolása Definíció: Statisztikai mintának nevezünk
n
független, azonos eloszlású X1 , X 2 ,, X n
valószínűségi változót, amelyek közös eloszlása megegyezik a vizsgált X
változó
eloszlásával.
A minta numerikus értékeit ezen változók felvett értékeinek tekintjük.
3.3.1. Helyzeti mutatók
3.3.1.1. Mintaátlag A fentiekben említettek miatt a mintaátlagot illetve szórást is valószínűségi változóként kezelhetjük. n
A mintaátlag X
X i 1
i
n
n
független, azonos eloszlású X1 , X 2 ,, X n valószínűségi változó
átlagából számítható valószínűségi változó lesz.
3.3.1.2. Medián Az X1 , X 2 ,, X n minta mediánjának a rendezett minta „középső értékét” tekintjük ami a mintához is tartozhat és mintán kívüli is lehet. Ha n a mintaelemszám és n 2k 1 akkor a medián: X k . Ha a mintaelemszámra n 2k akkor a medián:
( X k X k 1 ) / 2 .
3.3.2.2. Mintaterjedelem Ha
X 1 , X 2 ,, X n minta növekvő rendezett sorrendje
X 1* , X 2* ,, X n* akkor az X n* X 1*
különbséget a minta terjedelmének nevezzük. *
*
*
A rendezett X 1 , X 2 ,, X n minta tapasztalati (vagy empirikus) eloszlásfüggvénye a következő függvény: 60
[Ide írhat]
0 ha Fn ( x ) k / n ha 1 ha
x X 1* X *k x X *k 1 X *n x
k 1,2,..., n 1
Nagy minták esetén célszerű a következő közelítő tapasztalati eloszlásfüggvény használata:
0 n Fn ( x ) g i i 1 1 melynél az ugrások nagysága a
ha
x x0
ha
x k 1 x x k
ha
xr x
k 1,2,..., r
g i f i / n ahol f i az ( xi 1 , xi ] intervallumba eső
mintaelemek száma. Ahol X 1 a, x1 ,, xr 1 , xr X n osztópontokkal osztályokba soroljuk a mintaelemeket *
*
f i az i-edik osztály ( xi 1 , xi ] gyakorisága.
valamely osztályképzési módszertan szerint, és 3.3.2.3. Szórás
A minta szórásán a következő formulát értjük: ( X1 X )2 ( X 2 X )2 ( X n X )2 n
Ehelyett azonban technikai okok miatt a következő szórás formulát használjuk és ezt nevezzük a továbbiakban a minta szórásának: s
( X 1 X) 2 ( X 2 X) 2 ( X n X) 2 n 1
Ezt szokták még a minta elemszámára is utalva
s n -nel jelölni.
3.3.2.4. Minta kvartilisei Minta mediánját már meghatároztuk, most a minta kvartiliseit határozzuk meg. Definíció: Általában kvantilisnek nevezünk egy a növekvően rendezett mintát p:(1-p) arányban osztó pontot. Ezek közül kiemelt szerepe van a negyedelő pontoknak azaz a kvartiliseknek. 61
[Ide írhat]
Definíció:Egy növekvően rendezett minta alsó kvartilisének nevezzük a növekvően rendezett mintát 1:3 arányban osztó pontot. Egy minta felső kvartilisének nevezzük a növekvően rendezett mintát 3:1 arányban osztó pontot. A kvartiliseket szerkesztésére a medián definíciójának segítségével adunk meg módszert. A kvartilisek meghatározását többféleképp is végzik így a különböző módszertanok eltérő eredményt adhatnak. Alsó kvartilis: a növekvően rendezett mintában a mediánnál kisebb mintaelemek mediánja, páratlan számú mintánál a mediánt is beleértve. Felső kvartilis: a növekvően rendezett mintában a mediánnál nagyobb mintaelemek mediánja, páratlan számú mintánál a mediánt is beleértve A felső kvartilis-alsó kvartilis különbséget interkvartilis tejedelemnek nevezzük. Excelben ezt a következőképp lehet megvalósítani. Kétféle KVARTILIS függvény van a 2010 vagy későbbi Excel verziókban. KVARTILIS.KIZÁR és KVARTILIS.TARTALMAZ Mindkettő statisztikai függvény, abban különböznek, hogy az adatok kvartilisét számolják ki az értékek százalékosztálya alapján – 0 és 1 között – a KIZÁR a végpontok nélkül, a TARTALMAZ a végpontokkal.
62
[Ide írhat]
12 10 9 14 1 3 14 12 5 12 4 19
9 11 17 4 9 20 19 4 20 19 15 17 0 1 2 3 4
1 6,75 10,5 15,25 20
8 8 18 8 6 7 3 10 10 11 11 17
4 17 10 7 8 16 14 18 15 3 15 4
16 5 6 20 20 2 8 7 5 11 15 15
MINIMUM KVARTILIS.TARTALMAZ($A$1:$E$12;A14) ALSÓ KVARTILIS MEDIÁN FELSŐ KVARTILIS MAXIMUM
A bemutatott feladatban a VÉLETLEN.KÖZÖTT véletlenszám generáló függvénnyel generálva van egy 12 soros és 5 oszlopos táblázatban minta melynek értékei 1 és 20 közé lettek beállítva. Ezekre az adatokra számol az Excel A KVARTILIS.TARTALMAZ függvény segítségével értékeket. Ha a 0. kvartilist számíttatjuk annak értéke a minta minimuma lesz. Ha a 4. kvartilist számíttatjuk annak értéke a minta maximuma lesz. A KVARTILIS.KIZÁR nem számol 0. és 4. kvartiliseket. A 2. kvartilis mindkét függvénynél a medián. Fontos megjegyezni, hogy az Excel kvartilis számító függvénye nem a medián feletti illetve alatti medián módszertanával számol kvartilist, a nem az adatsorban található kvartilis számok nem számtani közép számítással adódnak az adatokból, hanem adatok közötti negyedelőpont vételével. A medián kiszámítására természetesen külön statisztikai függvény van az Excelben, nem szükséges a második kvartilis függvény alkalmazása, közvetlenül is kiszámítható. Nézzük meg mi a különbség a kvartilisnek a medián alatti illetve medián feletti adatok mediánja definíciója között és az Excel által alkalmazott definíció között a fenti adatsor esetén: 63
[Ide írhat]
Medián feletti adatok mediánja: 15 6 Medián=(6+7)/2 16 7
Excel függvény 6,5
1
6,75 ALSÓ KVARTILIS
10,5
2
10,5 MEDIÁN
15,5
3
Medián 30
10
31
11
Medián=(10+11)/2
Medián alatti adatok mediánja: 45 15 Medián=(15+16)/2 46 16
15,25 FELSŐ KVARTILIS
Látható hogy amint fentebb is megjegyeztük : az Excel függvény a nem az adatsorban található kvartilis számok esetén
nem számtani közép számítással dolgozik, hanem
negyedelőpont vételével. Így az is látszik hogy ugyanazon mintabeli értékek tartoznak az eredeti definíció és az Excek által megállapított kvartilis értékek fölé illetve alá. 3.3.2.5. Minta Box-Bajusz ábrázolása (Box and Whiskers plots) A minta eloszlásának szemléltetésére használjuk. Fontos alkalmazásai területe még a kiugró illetve extrém adatok szemléltetése. Jelölés: KV(a): alsó kvartilis; KV(f) felső kvartilis; Me: medián; *
*
*
Legyen a növekvő sorrendbe rendezett minta: X 1 , X 2 ,, X n . Szerkesztési módszere: Box: az alsó és felső kvartilis közti adatterjedelem. Ebben ábrázoljuk a mediánt is. A boxban az adatok 50%-a van. Interkvartilis terjedelem(jelölje IKVT): felső kvartilis-alsó kvartilis. 64
[Ide írhat]
Box-bajusz ábra alapkonstrukció: Alsó bajusz végpont:
MAX (X1* , KV(A) 1,5[KV(F) KV(A)]) Felső bajusz végpont:
MIN(X *n , KV(F) 1,5[KV(F) KV(A)]) Boksz-bajusz ábra bővített konstrukció:
HA MAX (X1* , KV(A) 1,5[KV(F) KV(A)]) KV(A) 1,5[KV(F) KV(A)
akkor
az
újabb bajusz a következő:
MAX (X1* , KV(A) 1,5[KV(F) KV(A)] 1,5[KV(F) KV(A)]) HA MIN(X *n , KV(F) 1,5[KV(F) KV(A)]) KV(F) 1,5[KV(F) KV(A)
akkor az újabb
bajusz a következő:
MIN(X *n , KV(F) 1,5[KV(F) KV(A)] 1,5[KV(F) KV(A)]) . Ekkor az adatokat úgy osztályozzuk, hogy a második bajuszra eső adatok a kiugró adatok a második bajuszon kívülre eső adatokat extrém adatoknak hívjuk.
Box-bajusz ábra alapkonstukció:
65
[Ide írhat]
Kiugró adatok 1,5*(KV(f)-KV(a)) Felső kvartilis Bajusz
Box
Medián Alsó kvartilis 1,5*(KV(f)-KV(a)) Kiugró adatok
Box-bajusz ábra bővített konstukció:
66
[Ide írhat]
Extrém adatok 1,5*(KV(f)-KV(a)) Kiugró adatok 1,5*(KV(f)-KV(a)) Felső kvartilis Bajusz
Box
Medián Alsó kvartilis 1,5*(KV(f)-KV(a)) Kiugró adatok 1,5*(KV(f)-KV(a))
Extrém adatok
3.3.2.6. Aszimmetria mutatószámai Egymóduszú eloszlások aszimmetriájára mutatószámot tudunk konstruálni. 67
[Ide írhat]
Ez a mutatószám a minta eloszlásának ferdeségét mutatja meg azaz, hogy milyen távol van a szimmetrikustól az eloszlástól. A legklasszikusabb szimmetrikus eloszlás a normális eloszlás. Az aszimmetria tipusának meghatározására
a módusz, átlag és a medián nagyságrendi
viszonya is alkalmas.
Szimmetrikus eloszlás
Mo=Me=
Baloldali aszimmetria
Mo<Me
68
[Ide írhat]
Jobboldali aszimmetria
e<Mo
Az aszimmetria mutatószámai közül az F-mutatót definiáljuk.
F
(KV(f ) Me) (Me KV(a )) (KV(f ) Me) (Me KV(a ))
A definícióból látható, hogy F 1 . Előjellel jelzi az aszimmetria irányát.
Baloldali aszimmetria: F 0.
Jobboldali aszimmetria: F 0.
Szimmetria: F 0.
3.3.2. Minta átlagának eloszlása Ahogyan fentebb említettük, a mintaátlag: n
X
n
X i 1
i
n
független, azonos eloszlású X1 , X 2 ,, X n valószínűségi változó átlagából számítható
valószínűségi változó lesz, amelyek közös eloszlása megegyezik a vizsgált X változó eloszlásával.
69
[Ide írhat]
Innen számítható a minta várható értéke:
n Xi M (X) M i 1 n
n 1 1 M (X i ) nM (X) M (X) n 1 n
Mivel a minta elemei független valószínűségi változók:
n Xi 2 2 i 1 D (X) D n
1 n2
n
D 2 (X i ) 1
1 D 2 (X) 2 nD ( X ) n n2
ahonnan:
D( X )
D( X ) n
Ha X ~ N(m, ) X ~ N m,
. n
Ekkor a minta standardizáltja a normális eloszlásnál említett standardizálás transzformációval:
Y
Xm n
standard normális eloszlású változó.
70
[Ide írhat]
3.4. Statisztikai becslések A statisztikai becslések a statisztikai következtetések azon tipusát jelentik amikor minta elemeinek jellemzőiből populáció jellemzőire következtetünk. Ezeket leggyakrabban nem pontos becsléssel tudjuk meghatározni hanem valamilyen hibával, azaz közelítő értéket használunk a populációbeli valószínűségeloszlások ismeretlen paramétereinek a mintából való becslésére. A statisztikai becsléshez a minta elmeinek valamely függvényét használjuk. A becsléshez úgynevezett statisztikát használunk ami a minta elemeinek egy függvényét jelenti.
3.4.1. Pontbecslés
Pontbecslésnek nevezzük, ha a minta valamely
ci paraméterére a mintából számítunk egy
d i ( X 1 , X 2 ,..., X n ) értéket mely a ci paraméter becslésének tekinthető. Definíció: Egy becslést torzítatlannak nevezünk ha a statisztika várható értéke a populációbeli változó becsült paraméterének értékével egyenlő.
3.4.2. Konfidenciaintervallum
Legyen X1 , X 2 ,, X n statisztikai minta X változó becsléséhez. Definíció: Legyen p egy 0-hoz közeli kicsiny valószínűség. 1 p megbízhatósági szintű konfidencia intervallumnak nevezünk egy olyan intervallumot melynek végpontját a X1 , X 2 ,, X n
mintaelemek függvényéből számítjuk és amely 1 p valószínűséggel
tartalmazza az X változó becsülni kívánt paraméterét. 3.3.2.1. Várható érték becslése ismert szórás esetén Tegyük fel, hogy X ~ N ( m, ) ahol
ismert,
m ismeretlen.
Legyen X1 , X 2 ,, X n statisztikai minta X változóra.
71
[Ide írhat]
Ezen minta alapján szerkesszük meg azt az intervallumot mely valamely kicsiny –általában 10% alatti – p értékre 1-p valószínűséggel tartalmazza az X változó várható értékét. A konfidencia intervallum alapgondolata az, hogy egy mintaátlag középpontú szimmetrikus intervallumot szerkesztünk, melynek sugarát a minta elemeinek eloszlásparaméterei alapján számoljuk.
A minta eloszlásra igaz, hogy: X ~ N m, . n Ekkor az:
Y
X m
n
valószínűségi változó standard normális eloszlású változó. Ebből kiindulva keressük azt az d p sugarú intervallumot, melyre melyre
P(d p Y d p ) 1 p
Mivel a sűrűségfüggvény harmadik tulajdonsága alapján: dp
P(d p Y d p )
f (x)dx
d p
azaz azt szemléltetve a standard normális eloszlás sűrűségfüggvényével olyan intervallumot keresünk melyre a [d p , d p ] intervallumon a sűrűségfüggvény alatti terület 1-p.
72
[Ide írhat]
Standard normális eloszlás sűrűségfüggvénye 0,4
0,35
0,3
0,25
0,2
0,15
t=1-p 0,1
0,05
t=p/2 -5
-4
-3
-2
t=p/2
0
-1
0
1
2
3
4
5
Mivel az eloszlás és sűrűségfüggvény viszonyára ' ( x ) ( x ) , így a Newton-Leibnitz szabályt alkalmazva:
dp
P(d p Y d p )
f (x)dx (d
p
) (d p )
d p
Azaz az eloszlásfüggvény függvényértékek közötti különbséggel méri egy esemény valószínűségét amit a sűrűségfüggvény függvény alatti területtel.
73
[Ide írhat]
Standard normális eloszlás eloszlásfüggvénye 1
p/2 0,9 0,8 0,7 0,6
1-p
0,5 0,4 0,3 0,2 0,1
P/2 -5
-3
dp
0
-1
1
dp
3
5
Standard normális eloszlás eloszlásfüggvényére említettük hogy igaz az alábbi összefüggés a
1 0, pontra tükrös helyzet miatt: 2 ( x ) ( x ) 1
azaz: ( x ) 1 ( x )
ahonnan:
( x ) ( x ) ( x ) (1 ( x )) 2 ( x ) 1
Így dp
P(d p Y d p )
f (x)dx (d
d p
74
p
) (d p )
[Ide írhat]
Beírva ezt a kiinduló összefüggésbe:
(d p ) (d p ) 1 p Felhasználva
az
eloszlásfüggvény
középpontosan
szimmetrikus
összefüggést:
(d p ) (1 (d p ) 1 p 2(d p ) 1 1 p (d p ) 1
p 2
p d p 1 1 . 2 Ekkor tehát :
p p 1 1 Y 1 1 2 2 behelyettesítve a definíciót Y
X m
n
kapjuk, hogy: p X m p 1 1 1 1 2 2 n
ahonnan az alábbi lépések következnek:
p p 1 1 X m 1 1 2 n 2 n Innen -1-gyel szorozva kapjuk:
p p 1 1 m X 1 1 2 n 2 n 75
helyzetéből
kapott
[Ide írhat]
Innen a konfidencia intervallum:
p p X 1 1 m X 1 1 2 n 2 n
Így megszerkeszthető az átlag körüli konfidencia intervallum, melynek sugara:
p 1 1 2 n Ez az intervallum tartalmazza 1 p valószínűséggel az X változó várható értékét. Ha egy előírt megbízhatósági szinthez felső korlátot akarunk adni az intervallum sugarára akkor ha ez a korlát k akkor a következő egyenlőtlenséget kapjuk:
p 1 1 k 2 n átrendezve: 2
1 p 2 1 2 n k2
vagyis legalább ekkora minta elemszám szükséges a paraméter kielégítő becsléséhez.
1 Ha például p 0,05 akkor 1
p 1 (0,975) a következő statisztikai függvénnyel 2
számítható Excelben: NORM.INVERZ(0,975;0;1). Ennek értéke 1,959964. Ekkor ha X ~ N (m, ) és tudjuk, hogy a mintaátlag X 100 , 10 a minta elemszáma pedig
n 36 , akkor
az 1 p 0,95
megbízhatóságú konfidencia intervallum a
következőképp számolható a konfidencia intervallum fent felírt formulája alapján:
76
[Ide írhat]
A NORM.INVERZ statisztikai függvénnyel: Alsó végpont: 100-NORM.INVERZ(0,975;0;1)*10/GYÖK(36) Felső végpont: 100+NORM.INVERZ(0,975;0;1)*10/GYÖK(36) Alsó végpont: Felső végpont:
96,73339 103,2666
A konfidencia intervallum sugara 3,266607
vagy
a
konfidencia
intervallum
sugarát
megadó
MEGBÍZHATÓSÁG
statisztikai
függvénnyel:
A konfidencia intervallum sugara MEGBÍZHATÓSÁG.NORM(0,05;10;36) 3,266607
3.3.2.2. Várható érték becslése ismeretlen szórás esetén
Tegyük fel, hogy X ~ N (m, ) ahol az eloszlás egyik paramétere sem ismert. Konfidencia intervallumot szeretnénk szerkeszteni a várható értékre. Az előző részben tárgyalthoz hasonló lesz a statisztika, csak az ismeretlen szórást helyettesítjük a minta szórásával. Így statisztikánk az alábbi formát ölti:
T
X m s n 77
[Ide írhat]
Ez a statisztika n 1 szabadságfokú Student féle t-eloszlású valószínűségi változó lesz. Így szokták jelölni t -vel vagy Jelöljük
az
n-1
t n 1 -gyel is.
szabadságfokú
Student
féle
t-eloszlású
valószínűségi
változó
t
eloszlásfüggvényét Fn 1 -vel. Mivel a Student eloszlás sűrűségfüggvénye a standard normális eloszlás sűrűségfüggvényéhez hasonlóan
az
y
tengelyre
szimmetrikus,
ezért
eloszlásfüggvényére
ugyanaz
a
szimmetriatulajdonság igaz mint a standard normális eloszlás eloszlásfüggvényére.
Azaz igaz, hogy tetszőleges n szabadságfok esetén
Fnt1 ( x) Fnt1 ( x) 1 Így a konfidencia intervallum kiszámításakor kapjuk, hogy, kiindulva az alábbi egyenletből:
P(d p
X m d p ) 1 p s n
A konfidencia intervallumot meghatározó egyenlőtlenség a következő alakban írható fel:
p s p s X (Fnt 1 ) 1 1 m X (Fnt 1 ) 1 1 2 n 2 n
Legyen egy normális eloszlású sokaságból vett minta mint a mellékelt táblázatban. A szórás nem ismert. A várható értékre szeretnénk konfidenciaintervallumot adni.
78
[Ide írhat]
103 109 98 104 105 105 Átlag Szórás
104 105 93 99 95 99
98 91 101 110 101 94
98 99 99 114 105 103
96 105 88 114 95 103
109 116 107 102 105 104
102,09 6,410871
Számítsuk ki meg a konfidenciaintervallum végpontjait p 0,05 valószínűség mellett. Ennek meghatározása Excelben ugyanúgy történhet mint normális eloszlás esetén, a konfidencia intervallum fent felírt formulája alapján:
T.INVERZ statisztikai függvénnyel
Alsó végpont
102,09-T.INVERZ(0,975;35)*6,41/gyök(36) 99,92117 Felső végpont 102,09+T.INVERZ(0,975;35)*6,41/gyök(36) 104,2588 A konfidencia intervallum sugara 2,168832
a MEGBÍZHATÓSÁG.T függvény alapján:
A konfidencia intervallum sugara MEGBÍZHATÓSÁG.T(0,05;6,41;36) 2,168832
79
[Ide írhat] 3.4.3. Statisztikai hipotézisek vizsgálata
A statisztikai vizsgálatoknak egyik célja lehet, hogy egy minta alapján eldöntsük, hogy egy populációbeli X változóra vonatkozó sejtés igaz-e vagy sem. A statisztikai vizsgálatok kapcsán adódó sejtés vonatkozhat például egy valószínűségi változó várható értékére, szórására, két valószínűségi változó függetlenségére, stb. Ezek a statisztikai hipotézisek. A hipotéziseket statisztikai próbákkal ellenőrizzük. A hipotézisvizsgálatban két sejtést állítunk fel. Azt a sejtést, feltevést, amelyet a kiinduláskor igaznak tételezünk fel: Nullhipotézisnek nevezzük és
H 0 -lal jelöljük.
Felállítunk egy másik sejtést, feltételezést, melyet: Alternatív hipotézisnek nevezük és H A -val jelölünk. Nyilván a feladat szempontjából
H 0 és
H A egymás komplementerei, egyiknek biztosan
igaznak kell lennie. A statisztikai hipotézisvizsgálat célja egy olyan döntést meghozatala, melyben vagy: elfogadjuk a nullhipotézist, ha a vizsgálatunk ezt bizonyítja, vagy elutasítjuk a nullhipotézist, ezáltal az alternatív hipotézist fogadjuk el.
Valóság
A H0 hipotézis Döntés IGAZ HAMIS H0 Elfogadása Helyes döntés Másodfajú hiba H0 Elvetése
Elsőfajú hiba
Helyes döntés
Így elsőfajú hibát követünk el ha elvetjük a nullhipotézist pedig igaz.
80
[Ide írhat]
Másodfajú hibát követünk el ha elfogadjuk a nullhipotézist pedig hamis.
A példák során azt fogjuk megadni, hogy mi a megengedett p elsőfajú hibavalószínűség.
A
H 0 nullhipotézis azt fogalmazza meg hogy a változó egy paraméterére milyen egyenlőséget
állítunk. A H A alternatív hipotézis jellege alapján lehet baloldali, jobboldali és kétoldali. Tegyük fel, hogy egy X változó valamely paraméterére végezzük a el a hipotézisvizsgálatot. A hipotézisvizsgálat logikai menete.
Vegyünk X -re egy n elemű X1 , X 2 ,, X n mintát.
Vegyünk X1 , X 2 ,, X n mintára egy statisztikát S(X1 , X 2 ,, X n ) -et.
Állítsuk fel a
Adjuk meg az elsőfajú hiba p valószínűségét.
Ha
p alapján és
H 0 nullhipotézist és a
H A alternatív hipotézist.
H 0 igaz akkor S(X1 , X 2 ,, X n ) eloszlása az X eloszlása alapján ismert. H A jellege alapján határozzuk meg az elfogadási és a
kritikus
a
elsőfajú
tartományt;
[kritikus
az
tartomány
melybe
legfeljebb
az
előre
megadott
hibavalószínűséggel esik a statisztika értéke; a kritikus tartomány komplementere a valósakon az elfogadási tartomány]
Ha a minta alapján a S(X1 , X 2 ,, X n ) az elfogadási tartományba esik akkor
H 0 -t
elfogadjuk 3.4.3.1. Egymintás u-próba Egymintás u-próba esetén ismert szórású normális eloszlású változó várható értékére végzünk hipotézisvizsgálatot . Szemléltessük az alábbi példán a fenti gondolatmenetet.
81
[Ide írhat]
Egy versenyző azt állítja, hogy tudja teljesíteni a versenyen való nevezéshez a 100 m-es síkfutásban a 12 másodperces szintidőt. Az alábbi eredményeket mérték :
11,2 12,1 11,2 15,6 11,7 13,5
11,2 11,7 12,6 12,4 12,1 10,4
Átlag
12,410
13,8 13,7 10,9 13,6 13,4 13,6
13,6 12,6 11,7 12,2 12,6 12,5
12,2 12,7 12,2 12,7 10,9 11,8
Ez alapján elfogadható-e a versenyző azon állítása, hogy teljesíti a szintet? Tegyük fel, hogy tanuló futási teljesítményideje normális eloszlású, 1,5 sec szórású változó. X ~ N ( m;1,5) .
Amit ellenőrizni akarunk az az. hogy igaz-e a tanuló állítása hogy teljesíti a nevezéshez szükséges szintidőt. Legyen
m0 12 ahogyan a versenyző állítja.
Legyen ezért a nullhipotézis az, hogy:
H 0 : m m0 Emellett fogalmazzuk meg az alternatív (vagy ellen) hipotézist:
HA : m m0 p 0,05 megengedett elsőfajú hibavalószínűség mellett döntsük el, hogy igazat mond-e a
versenyző.
A fentebbi logikai menet alapján járunk el. Ha igaz a nullhipotézis akkor :
X ~ N (12;
82
1,5 30
).
[Ide írhat]
A mintaátlag sűrűségfüggvénye 1,6
1,4 1,2 1 X
0,8 0,6 0,4
0,2
p=0,05
0
11
11,5
12
X
K p12,5
13
A kritikus érték meghatározása és a hipotézisvizsgálat a fentebb leírt logikai menet alapján a következőképpen folytatódik. A mintaátlag tehát egy olyan normális eloszlású valószínűségi változó melynek várható értéke a nullhipotézis igaz logikai értéke esetén 12, szórása
1,5 30
.
Ha a mintaátlag egy konkrét mért minta esetén nagyobb mint a 12 akkor ezt két részhatás eredményének tulajdoníthatjuk:
Egyrészt egy véletlen hatás eredményének, a mintavétel véletlen jellege miatt
Másrészt azon hatás eredményének, hogy tanuló átlagos futóteljesítménye nem
12 sec/100 m hanem annál rosszabb. Hogy ezek közül melyiket vesszük figyelembe azt úgy döntjük el, hogy első lépésben meghatározzuk a kritikus értéket mely fölé 0,05 valószínűséggel kerülhet a mintaátlag értéke. Ezt az értéket láthatjuk a sűrűségfüggvényen ábrázolva és Excelben számítva. Ha a mintaátlag értéke ennél nagyobb azt mondjuk, hogy nem tulajdonítható a 12-től való fölfelé eltérés ekkora mértéke kizárólag a véletlennek. Annak valószínűsége hogy a mintaátlag ennyire eltér a feltételezett várható értéktől nagyon kicsi – a megengedett elsőfajú hibavalószínűséggel egyenlő – ezért ekkor azt feltételezzük hogy az eltérés mértéke döntően abból a hatásból ered, hogy 12-nél nagyobb a tanuló átlagos 83
[Ide írhat]
futóteljesítménye 100 m-en, így nem igaz a tanuló állítása, a nullhipotézist el kell vetnünk és az alternatív hipotézist kell igaznak vennünk. Az alternatív hipotézist a statisztikai irodalmakban gyakran ellenhipotézisként is nevezik.
Ekkor a kritikus tartomány azon valós számok halmaza melyek értéke legalább K p . Elfogadási tartomány a K p -nál kisebb valósak halmaza. Ekkor ha a minta átlaga az elfogadási tartományba esik azt mondjuk a tanuló állítása igaz, a nullhipotézist elfogadjuk 0,05 elsőfajú hibavalószínűség mellett. Az alternatív hipotézist ekkor elvetjük. A mért eredményeken a mintaátlag X 12,410 . A kritikus érték a mintaátlag eloszlása alapján: K p 12,45 . Mivel X K p így a mintaátlag az elfogadási tartományba esik ekkor a nullhipotézist elfogadjuk. Az elfogadási tartomány meghatározására Excelben használhatjuk a NORM.INVERZ függvényt, mely meghatározza azt az értéket mely az elfogadási tartomány felső határa, az elutasítási tartomány legkisebb értéke. A kritikus értéket hasonló gondolatmenettel vezethetjük le mint a konfidencia intervallum végpontjának meghatározását csak ebben
feladatban nem egy origóra szimmetrikus
intervallumban keressük a minta értékét a standard normális eloszlássegítségével hanem egy olyan d p kritikus értéket keresünk melyre:
P(
X m0 dp ) 1 p n
ahol p a megengedett elsőfajú hibavalószínűség.
A standard normális eloszlás eloszlásfüggvényével kifejezve:
(d p ) 1 p d p 1 (1 p) Ekkor az elfogadási tartomány:
84
[Ide írhat]
, m0 d p n Ekkor a kritikus érték:
K p m0 d p
n
Φ-1 (1-0,05)= σ= gyök(30)= σ/gyök(30)= Φ-1(1-0,05)*σ/gyök(30)= m0
1,644853627 1,5 5,477225575 0,27386128 0,450461718 12
m0+Φ-1(1-0,05)*σ/gyök(30)
12,45046172
Kritikus érték direkt számítása Excel függvénnyel:
Kritikus érték számítása NORM.INVERZ(0,95;12;0,27386128) 12,45046172
Ennek kapcsán tárgyalnunk kell az alternatív hipotézisek fajtáit. A nullhipotézis alakja, mint ahogy elnevezéséből következik az eloszlás egy paraméterétől való 0 eltérés feltételezése. Az előbbi feladatban a nullhipotézis alakja a következő volt:
H 0 : m m0 A feladat jellegéből következett, hogy alternatív hipotézisként
HA : m m0 állítást fogalmaztunk meg. Ha ugyanis a tanulóról a mérés kapcsán kiderül, hogy jobb átlagidőt fut mint a teljesítési szint azaz 12 sec/100m akkor is igazat állít. 85
[Ide írhat] Ezt az alternatív hipotézist jobboldali alternatív hipotézisnek nevezzük mivel a kritikus tartomány egy adott értékhez képest vele egyenlő vagy nála nagyobb értékek halmaza:
[ K p , ) . Lehetnek azonban olyan tipusú feladatok például egy termék súlya vagy hossza egy gyártási feladat kapcsán vagy egy szállítás ideje egy szállítási feladatban amikor az sem jó ha a nullhipotézisben megfogalmazott értéknél kisebb az sem jó ha nagyobb értéket kapunk a mérés során. Ekkor az alternatív vagy ellen hipotézis alakja a következő:
HA : m m0 Ezt kétoldali alternatív vagy ellen hipotézisnek nevezzük. Nézzük meg ezt egy példán keresztül: Egy versenyen a 100 m es síkfutás szintidejét 12 sec-ban állapították meg. A szintidőre időnként méréseket végeznek hogy korrigálni kell-e? 50 versenyzőnek felmérték az idejét és az alábbi időket kapták.
11,9 11,8 13,9 13,8 11,5 10,9 11,4 11,9 13,4 13,4 Átlag
11,7 10,9 12,7 12,2 12,1 13,0 12,9 11,7 10,6 12,0
10,6 13,2 11,7 13,2 12,9 12,5 12,5 11,2 13,0 12,6
11,2 11,8 11,7 11,3 12,8 10,8 10,1 12,3 13,7 12,3
12,159
Tudjuk hogy az eredmények normális eloszlást mutatnak melynek szórása 1sec. Továbbra is p 0,05 a megengedett elsőfajú hibavalószínűség. Kérdés, hogy meg kell-e változtatni a szintidőt a megállapítotthoz képest? Ebben az esetben két kritikus értékünk van az
m0 -ra szimmetrikusan.
86
12,8 11,6 12,2 11,7 12,1 11,3 14,6 12,8 10,8 13,0
[Ide írhat] A felső kritikus érték számítása:
Φ-1 (1-0,025)= 1,959963985 σ= 1 gyök(50)= 7,071067812 σ/gyök(50)= 0,14142136 Φ-1(1-0,025)*σ/gyök(50)= 0,277180765 m0 12 m0+Φ-1(1-0,05)*σ/gyök(30) 12,27718076
Felső kritikus érték számítása Excel függvény alapján:
Felső kritikus érték számítása NORM.INVERZ(0,975;12;0,141421) 12,27718076 σ= 1 gyök(50)= 7,071068 σ/gyök(50)= 0,141421 Az alsó kritikus érték számítása:
│Φ-1(0,025)│= 1,959963985 σ= 1 gyök(50)= 7,071067812 σ/gyök(50)= 0,14142136 -1 │Φ (0,025)│*σ/gyök(50)= 0,277180765 m0 12 m0-│Φ-1(0,025)│*σ/gyök(30) 11,72281924
87
[Ide írhat] Az alsó kritikus érték számítása Excel függvény alapján:
Alsó kritikus érték számítása NORM.INVERZ(0,025;12;0,141421) 11,72281924 σ= 1 gyök(50)= 7,071068 σ/gyök(50)= 0,141421
Itt az elfogadási tartomány a (11,723;12,277) intervallum.
Mivel a mintaátlag 12,159 így azt a következtetést vonhatjuk le, hogy tulajdonítható a 12-től való felfelé eltérés ekkora mértéke kizárólag a véletlennek, ezért a nullhipotézist elfogadjuk. Ebből azt a következtetést kell levonni a döntéshozónak,
hogy
a szintidőt nem kell
csökkenteni. Kétoldali alternatív hipotézis ábrázolása :
A mintaátlag sűrűségfüggvénye 3 2,5 2
1,5 1 0,5 p=0,025
0
11,5
p=0,025 1
11,7K p
11,9
12,1
Kétoldali alternatív hipotézis, kritikus értékek számítása.
88
K 2p12,3
12,5
[Ide írhat]
P ( d p
X m0 dp ) 1 p n
(d p ) (d p ) 1 p Kihasználva a standard normális eloszlás eloszlásfüggvényére megismert összefüggést:
(d p ) (d p ) 1
Kapjuk, hogy:
2(d p ) 1 1 p (d p ) 1
p 2
Ez azt jelenti hogy egy
olyan felső kritikus értéket számolunk mely fölé
p valószínűséggel esik a 2
mintaátlag, és hasonlóan
olyan alsó kritikus értéket számolunk mely alá mintaátlag
p d p 1 1 2 Így a kritikus értékek:
p K 1p m0 1 1 2 n
89
p valószínűséggel esik a 2
[Ide írhat]
K p2 m0 1 1
p . 2 n
Baloldali alternatív hipotézis: Egy
diszkoszvető
versenyen
indulni
szándékozó
tanuló
versenyző
dobóteljesítményével teljesíti a 20 m-es nevezési szintet.
30 dobást végzett, melyek az alábbiak:
21,8 18,0 23,5 20,0 17,7 16,8
23,0 18,2 19,0 20,4 17,7 18,6
Átlag
19,326
17,7 22,4 21,2 21,3 20,6 20,8
16,4 20,1 23,9 21,7 19,0 15,0
16,2 18,5 22,9 15,1 16,7 15,5
A dobások szórása ismert, 3 m . p 0,5 megengedett elsőfajú hibavalószínűség mellett elfogadható-e az állítás?
Ekkor
m 0 20 .
A nullhipotézis a következő:
H0 : m m 0
Nyilván ha jobb a teljesítménye mint a nevezési szint, akkor állítása igaz. Ezért a következőt fogalmazhatjuk meg. Alternatív vagy ellen hipotézis:
HA : m m 0
90
azt
állítja
[Ide írhat]
│Φ-1(0,05)│= σ= gyök(30)= σ/gyök(30)= Φ-1(0,05)*σ/gyök(30)= m0
1,644853627 3 5,477225575 0,54772256 0,900923435 20
m0-Φ-1(0,05)*σ/gyök(30)
19,09907656
Kritikus érték számítása Excel függvénnyel
NORM.INVERZ(0,05;20;0,54772258) 19,09907656 σ= gyök(30)= σ/gyök(30)=
91
3 5,477225575 0,547722558
[Ide írhat] Baloldali alternatív hipotézis ábrázolása:
0,8 0,7 0,6
0,5 0,4 0,3 0,2 0,1 p=0,05
0 18
19K p
20
21
22
3.3.3.1. Kétmintás t-próba 3.3.3.1.1 Kétmintás t-próba azonos szórás esetén A kétmintás t-próbáknak több változata van. Normális eloszlású változókból indulunk ki és vizsgáljuk először azt az esetet, amikor azt tesszük fel, hogy azonos szórású változóink vannak. Ezen feltétel mellett ellenőrizzük, hogy a várható értékek azonosak-e? Legyen: X ~ N(m1 , ) és Y ~ N(m 2 , ) , és legyenek: az X változóhoz tartozó minták X1 , X 2 ,, X n az Y változóhoz tartozó minták Y1 , Y2 ,, Ym . A nullhipotézis: H0 : m1 m 2 Az alternatív vagy ellen hipotézis pedig: HA : m1 m 2 . Jelölje s n az X1 , X 2 ,, X n minta szórását, s m pedig az Y1 , Y2 ,, Ym minta szórását.
Vegyük a következő statisztikát:
92
[Ide írhat]
t n m2
XY (n 1)s 2n (m 1)s 2m
nm(n m 2) nm
Ha H0 : m1 m 2 nullhipotézis igaz, akkor ez a statisztika n+m-2 szabadságfokú t-eloszlású. Ha
t p olyan, hogy P(t p t n m2 t p ) 1 p akkor ha a mintából számított
t n m2 értékét
t 0n m2 jelöli, ha t 0n m2 t p akkor a nullhipotézist elfogadjuk, a mintából számított statisztika érték a
[t p , t p ] elfogadási tartományba esik. Ha t 0n m2 t p akkor a mintából számított statisztika érték a kritikus tartományba esik így a nullhipotézist elvetjük, az alternatív hipotézist fogadjuk el.
Tegyük fel hogy két osztály tanulóinál diszkoszvetés teljesítményt mérünk. Azt tudjuk hogy a tanulók időteljesítménye normális eloszlású változó azonos szórással.
Az osztályok tanulóinak mintái:
93
[Ide írhat]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Mintaátlag Minta szórása
X Osztály 25,0 23,9 22,4 18,9 25,1 24,7 19,5 19,3 19,3 19,4 24,4 20,0 26,1 21,5
Y Osztály 19,6 25,1 22,9 25,9 16,8 18,6 21,1 18,2 23,4 21,9 17,8 18,8 22,7 21,5 20,9 19,4
22,11 2,69
20,90 2,64
A nullhipotézis: H0 : m1 m 2 Az alternatív vagy ellen hipotézis pedig: HA : m1 m 2 . A megengedett elsőfajú hibavalószínűség: p 0,05 A statisztika a következő:
t n m2
XY (n 1)s 2n (m 1)s 2m
nm(n m 2) nm
n 14; m 16; X 22,11; Y 20,90; s14 2,69; s16 2,64 Ezekkel az értékekkel számolva:
t 028 1,239 Mivel az alternatív hipotézis kétoldali így kétoldali kritikus értékeket határozunk meg.
94
[Ide írhat]
Baloldali kritikus érték Jobboldali kritikus érték
-2,048407142 2,048407142
Ez azt jelenti hogy a mintából mért érték az elfogadási tartományon belül van. Most döntsünk a próba szignifikanciaszintje, alapján. A szignifikanciaszint kétoldali alternatív hipotézis esetén a
P( t t 028 ) valószínűségérték.
1 P( t t 028 ) 1 P(t 028 t t 028 ) 1 [F28t (t 028 ) F28t (t 028 )] Kihasználva az eloszlásfüggvény szimmetriájából levezethető
F28t (t) 1 F28t (t) tulajdonságot, kapjuk hogy a szignifikanciaszint ebben az esetben:
1 [F28t (t 028 ) F28t (t 028 )] 1 F28t (t 028 ) [1 F28t (t 028 )] 2[1 F28t (t 028 )].
Jobboldali valószínűség Kétoldali valószínűség
T.ELOSZL(1,239;28;IGAZ) 0,887 0,112800 0,225599
1 F28t (t 280 ) 0,1128 2[1 F28t (t 280 )] 0,2256. Mivel ez a szignifikanciaszint nagyobb mint az elsőfajú megengedett hibavalószínűség így a nullhipotézist elfogadjuk. Ez azt jelenti hogy a mintából mért érték az elfogadási tartományon belül van.
Ezt a szignifikanciaszintet közvetlenül is megkaphatjuk Excelben.
95
[Ide írhat]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X Osztály 25,03479 23,94006 22,36594 18,92197 25,09544 24,73775 19,47079 19,31092 19,33534 19,35769 24,4283 19,97288 26,08228 21,48413
Y Osztály 19,63883 25,07427 22,85609 25,90488 16,77497 18,58103 21,08507 18,16215 23,37668 21,87866 17,77202 18,83938 22,69837 21,5084 20,86612 19,40276
T.PRÓB(B2:B15;C2:C17;2;2) 0,225599
A T.PRÓB függvénynek négy argumentuma van: -
az első paraméter egy tömb, az első minta
-
a második paraméter egy tömb a második minta
-
a harmadik paraméter annak jelzése hogy: o
egyoldali alternatív hipotézisünk van, ekkor a harmadik paraméter értéke 1 vagy
o -
kétoldali alternatív hipotézisünk van ekkor a harmadik paraméter értéke 2
a próba jellemzésére használjuk a negyedik paramétert: o
1 kétmintás próba párosított
o
2 kétmintás próba egyenlő szórás esetén
o
3 kétmintás próba nem egyenlő szórás esetén
Szemléltetve a szignifikanciaszint alapján történő döntést kétoldali alternatív hipotézis esetén a sűrűségfüggvényen: 96
[Ide írhat]
0,4 0,35 0,3
t 028 1,239
t 028 1,239
0,25 p=0,1128
p=0,1128
0,2 0,15
K bal 2,048
K jobb 2,048
0,1 0,05
p=0,025
-3
p=0,125
0
-2
-1
0
1
2
3
kontrollokra,
edzéstervek
hatékonyságának
3.3.3.1.2. Páros t-próba
Ezt
a
próbafajtát
alkalmazzuk
például
ellenőrzésére. Egy példán nézzük meg a próba alkalmazásának lehetőségét. Tegyük fel, hogy van egy csoport akin speciális edzéstervvel testsúlycsökkenést mérünk. Tegyük fel hogy az edzésterv előtti és utáni testsúlyok is normális eloszlásúak. . Döntsük el hogy az edzésterv után 5%-os elsőfajú hibavalószínűség,mellett igazolható-e a testsúlycsökkenés.
97
[Ide írhat]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Kiinduló testsúlyok X1 74,1 83,9 82,9 87,4 85,1 74,5 71,6 88,3 80,5 85,8 85,1 80,3 89,0 70,2 85,4 74,6 67,7 81,8 80,2 77,8
Testsúly edzésterv után Differencia X2 Y=X2-X1 68,6 -5,5 84,2 0,3 82,7 -0,2 89,8 2,4 86,2 1,1 69,2 -5,3 64,6 -7,0 91,3 3,0 78,9 -1,7 87,2 1,5 86,1 1,0 78,5 -1,8 92,3 3,4 62,4 -7,9 86,6 1,2 69,4 -5,2 58,3 -9,4 80,8 -0,9 78,4 -1,9 74,5 -3,3 Átlag Szórás
-1,8 3,792734358
A táblázat szemlélteti 20 főnek edzésterv előtti és utáni testsúlyát. A feltevések miatt X 1 ~ N (m1 , 1 ) , X 2 ~ N (m2 , 2 )
98
[Ide írhat] Legyen a nullhipotézis: H 0 : m1 m2
Az alternatív vagy ellen hipotézis HA : m1 m2 .
Vagyis ha az edzésterv nem volt hatékony akkor a nullhipotézis igaz ha csökkent a testsúly az edzésterv hatására akkor az alternatív hipotézis igaz. Ekkor a próbastatisztika a következő lesz:
t
Y 20 0 s 20 20
A feltevések miatt ezt egymintás t-próbaként kezelhetjük, a statisztika 19 szabadságfokú teloszlású lesz. A mintából számolt t-érték:
t190 2,08476
Baloldali alternatív hipotézisünk van így Excel függvény segítségével a kritikus érték:
T.INVERZ(0,05;19) -1,729132812
Vagyis a kritikus tartomány: (,1,729132812] Mivel a mintából számolt t érték a kritikus tartományba esik, ezért a nullhipotézist elvetjük, így döntésünk az, hogy az edzésterv által szignifikánsan csökkent a testsúly a csoportban.
99
[Ide írhat]
3.3.3.2. Kétmintás u-próba
Legyen: X ~ N (m1 , 1 ) és Y ~ N (m2 , 2 ) , és legyenek: az X változóhoz tartozó minták X1 , X 2 ,, X n az Y változóhoz tartozó minták Y1 , Y2 ,, Ym . A várható értékre végzünk hipotézisvizsgálatot. A nullhipotézis: H 0 : m1 m2
Az alternatív vagy ellen hipotézis: HA : m1 m2
Vagyis kétoldali alternatív hipotézisünk van. A próbastatisztika a következő:
u
X n Y m
12 22 n m
ahol u ~ N (0,1) . Ekkor a kétmintás u-statisztika kritikus értékeinek számítása megadható:
P(u p u u p ) 1 p (u p ) 1
p 2
innen
p u p 1 1 2 Ekkor az elfogadási tartomány a
[u p , u p ] intervallum, így ha a mintából számított statisztika érték ebbe az intervallumba esik a nullhipotézist elfogadjuk a két változó várható értéke egyenlő.
100
[Ide írhat] Ha ezen kívül esik a számított t-statisztika akkor az alternatív hipotézist fogadjuk el, vagyis a várható értékek szignifikánsan különböznek. Egy példán mutatjuk be ezt a próbát. Vegyünk két csoportot akik diszkoszvetésben versenyeznek. Mindkét csoport dobásai normális eloszlást köveztek. Legyen X az első csoport dobásainak változója X ~ N (m1 ,2) Legyen az Y a második csoport dobásainak változója Y ~ N (m1 ,1,5) Legyen a két minta:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X 14,75 19,31 17,83 16,91 15,23 18,15 19,85 17,32 18,39 15,74 16,84 16,53 20,16 17,72 18,70 23,27 16,94 18,64 20,95 21,99
Y 17,56 20,98 19,87 19,18 17,93 20,11 21,39 19,49 20,30 18,31 19,13 18,90 21,62 19,79
Átlag
18,26
19,61
Azaz X -re egy 20 elemű mintát vettünk, Y -ra 14 elemű mintát vettünk. Most a próbának megfelelően a hipotéziseket fogalmazzuk meg.
101
[Ide írhat] A nullhipotézis: H 0 : m1 m2
Az alternatív vagy ellen hipotézis: HA : m1 m2
A megengedett elsőfajú hibavalószínűség 0,05. A próbastatisztika a következő:
u
X n Y m
12 22 n m
ahol u ~ N (0,1) . Számítsuk ki a mintákból adódó
u
értéket.
A következő adatokból számulunk:
Átlag Szórás Minta
18,26 2 20
A mintából számolt u érték a következő: u 2,2468568.
Az kritikus értékeket az alábbi módon számítjuk:
p u p 1 1 2 innen
p u p 1 1 2
102
19,61 1,5 14
[Ide írhat] Alsó kritikus érték NORM.INVERZ(0,025;0;1) -1,959963985 Felső kritikus érték NORM.INVERZ(0,975;0;1) 1,959963985
Az elfogadási tartomány akkor (-1,95996;+1,95996) Mivel a mintából mért érték nem esik az elfogadási tartományba így a nullhipotézist elutasítjuk, azaz szignifikánsan különbözik a két osztály átlagos dobóteljesítménye. Definíció: Egy statisztikai próba szignifikancia szintjének nevezzük azt a legkisebb elsőfajú hibavalószínűséget, amelyre a próbastatisztika alapján a nullhipotézist elvetjük. Ez a gyakorlati számítások során a próbastatisztikából kapott érték alapján az alternatív hipotézisnek megfelelő valószínűségérték meghatározását jelenti. Vagyis egy olyan valószínűséget melyre a próbából származtatott érték adja a kritikus tartomány határpontját. Most döntsünk a szignifikancia szint alapján. A mintából számolt
u
érték a következő: u 2,2468568.
A kétoldali hipotézis esetén annak valószínűsége hogy a mintából számított u –érték a baloldali vagy jobboldali kritikus tartomány egyikébe esik egyaránt 0,025. (2,2468568) 0,012324589 0,025
Ekkor a nullhipotézist elutasítjuk, az alternatív hipotézist fogadjuk el.
3.4.4. Változók közötti kapcsolat vizsgálata 3.4.4.1. Korreláció kovariancia Korrelációs együttható: Legyen X valószínűségi változó várható értéke M(X) szórása D(X). Legyen Y valószínűségi változó várható értéke M(Y) szórása D(Y). 103
[Ide írhat] A két változó kovarianciáját az alábbi módon számítjuk:
Cov( X , Y ) M [( X M ( X )) (Y M (Y ))]
Két változó közötti korrelációs együttható a következőképp számítható a kovariancia segítségével:
Cov( X , Y ) . D( X ) D(Y )
R( X , Y )
A korrelációs együtthatóra a következő összefüggések igazak.
1 R( X , Y )
Cov( X , Y ) 1. D( X ) D(Y )
Ha X és Y változók függetlenek akkor akkor R ( X , Y ) 0. Ezt úgy tudjuk igazolni, hogy kihasználjuk a függetlenség esetén fennálló M ( XY ) M ( X ) M (Y )
összefüggést, így igazolni tudjuk, hogy ekkor a két változó kovarianciája 0. A két változó között determinisztikus lineáris kapcsolat van R ( X , Y ) 1 vagy R ( X , Y ) 1 esetén. Ha negatív a korrelációs együttható akkor negatív korrelációról beszélünk pozitív korrelációs együttható esetén pozitív korrelációról. A két változó kapcsolatának szorosságát az jelzi ha a korrelációs együttható abszolút értéke 1-hez közeli. Lineáris kapcsolat azt jelenti hogy vannak olyan a 0, b konstansok melyekre
Y aX b Korrelációs együttható becslése. Legyen az X változóhoz tartozó minták
X 1 , X 2 , , X n
az Y változóhoz tartozó minták
Y1 , Y2 ,, Yn .
Ebből a két mintából alkossuk meg a mintára vonatkozó korrelációs együtthatót.
104
[Ide írhat] n
R( X , Y )
(X i 1
i
X n )(Yi Y n )
n n 2 2 ( X X ) n i (Yi Y n ) i 1 i 1
A korrelációs együttható becslése t.próbával történik. Legyenek hipotéziseink a következők: H 0 : R( X , Y ) 0 HA : R ( X , Y ) 0
A minta korrelációs együtthatójából megalkotjuk a következő statisztikát:
t
R( X , Y ) 1 R 2 ( X ,Y ) n2
Ha a nullhipotézis igaz, ez a statisztika n-2 szabadságfokú t-eloszlású változó. Excelben a korrelációt és kovarianciát a KORREL illetve a KOVARINCIA.M és KOVARIANCIA.S függvényekkel számíthatjuk.
105
[Ide írhat]
Irodalom Huhn Edit: Üzleti statisztika : oktatási segédanyag, Szeged, Élelmiszeripari Főiskola, 1997 Obádovics J. Gyula: Valószínűségszámítás és matematikai statisztika; Scolar kiadó 2003 Rényi Alfréd: Valószínűségszámítás, Tankönyvkiadó, 1973
106