Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset
b. Többváltozós eset
2. a. Becslési problémák, hipotézis vizsgálat
b. Mintázatelemzés
3. Szint:
a. Egyedi b. Populáció c. Társulás d. Regionális ….. ….. z. Bioszféra
4. Mintavételi univerzum: a. diszkrét
b. folytonos
Ennek alapján minden vizsgálat kategorizálható, pl. kapcsolat egy faj vízigénye és hőmérséklet-tűrése között: 1a – 2a - 3b – 4b stb.
További példák
Folytonos
Diszkrét
Becslés
Mintázatelemzés Egyváltozós Többváltozós
Egyváltozós
Többváltozós
Fa magasság, Magtermés növényenként
Sok ökológiai változó együttes becslése egyedekre
Random növények
Tavak, szigetek osztályozása a fauna alapján
Fajok korrelációi borítás alapján.
Kvadrátok alkalmazása mintázat vizsgálatára
Mintaterületek osztályozása és ordinációja
Borítás, egyedszám, biomassza, diverzitás (kvadrátokkal),
Fontos definíciók: Paraméter - elméleti érték, pl. testmagasság átlaga. Csak teljes enumerációval kapható meg…. Ez ritkán lehetséges…. Minta
- Lehetséges adatok részhalmaza
Becslőfüggvény - Olyan formula, ami a mintából becsli a paramétert. „Statisztika” Becslés
A paraméter becsült értéke.
SKÁLATÍPUSOK Nominális
=, ≠
Ordinális
=, ≠, <, > keménység
Intervallum Arány
levélalak
=, ≠, <, >, – Co
=, ≠ <, >, –, /
súly, stb
Mindezek behatárolják az alkalmazható módszerek körét Legtöbb módszer: intervallum és arányskálára Pl. t-próba, variancia elemzés, Kevesebb: nominális Chi2-próba Legkevesebb: ordinális eset. Rang korreláció
Az eloszlás: a lehetséges adatok fontos jellemzője 1/6
1
2
3
4
5
Kockadobás IQ
100
6
Bevezetés a hipotézis vizsgálatba A mintavételi univerzumból sokszor vehetünk mintát
Mindegyikre kaphatunk egy-egy becslést
Statisztikák eloszlása – nézzük az átlagot, nagyon sokszor feldobva n kockát n=6
n=3
1/6
f(x)
f(x)
1
2
3
4
5
6
1
2
3
4
5
1
6 x
2
3
4
5
6 x
Tegyük fel, hogy csak egy mintát vehetünk, azaz 6 kockát feldobunk Nullhipotézis: a kocka szabályos n=6 f(x)
1
2
3
4
5
6 x
Alternatív hipotézis: nem szabályos n=6 f(x)
1
2
3
4
5
6 x
Vagyis: ha a statisztika olyan eredményt ad, ami valószínű, akkor elfogadjuk, hogy a statisztika az adott eloszlásból származik. Ha a statisztika olyan eredményt ad, ami nagyon valószínűtlen, akkor azt mondjuk, hogy NEM, a statisztika mégse ebből az eloszlásból származik!! Tévedés lehetősége: mégis abból származik, ez rendszerint 0.05% Általános munkamenet: a. A minta alapján kiszámítunk egy statisztikát b. Megnézzük egy táblázatban, hogy ez mennyire valószínű c. Eldöntjük, hogy az eredmény szignifikáns-e avagy sem….
Statisztikai próbák t-próba A mintából kapott átlag lehet-e egy adott µ érték becslése Kétmintás t-próba A két minta átlagai megegyeznek-e?? Variancia-analízis Sok minta átlagai megegyeznek-e, vagy van legalább egy minta. Amelyik „kilóg” a többiek közül.
Egyszerű példa: Kísérleti személyek egy tárgyat 20 cm-re elmozdítanak, először jelzik nekik a távolságot, másodszor viszont anélkül, becsukott szemmel. Kérdés: van-e távolságérzékelés?? Adatok: 22,1 20,1 20,5 16,6 22,2 n = 8, x = 20,225 s = 1,89
18,7
20,6
H0 = a második kísérletben is 20 a becsült várható érték H1= a második kísérletben már nem 20… Számítás:
t=
x − µ 20.225 − 20 0.225 = = = 0.336 0.668 s/ n 1.89 / 8
d.f. = n-1 = 7, legyen α = 0.05, s ekkor tcrit=2.365.
20,6
Változók közötti kapcsolatok vizsgálata Korreláció: vö. az intuitív tartalommal Akkor pozitív, ha x és y átlagosan ugyanabba az irányba tér el a saját várható értékétől, negatív ha ellentétes irányba. r=0.89
korrelálatlanság: r=0
r=-0.94
Lineáris regresszió Predikcióra alkalmas: adott x-hez meghatározható az y a kettő közötti függvénykapcsolat ismeretében. Lineáris esetben a feladat a legjobban illeszkedő egyenes egyenletének a meghatározása. Az elméleti tengelymetszet α, becslése pedig a, az elméleti meredekség β, becslése pedig b, tehát: y = a +bx becsli az y = α + βx kapcsolatot.
Megállapítható változók elemzése Ordinális, nominális esetre, 2 x 2-es kontingenciatábla a gyakoriságokkal Betegség +
+ 5
144
149
-
15
117
132
20
261
281
Oltás
Hipotézisvizsgálat: H0 : nincs összefüggés a két változó között, függetlenek H1: a két változó között van összefüggés χ2 próba
Függetlenségvizsgálat: két valószínűségi változó független-e vagy összefüggenek (a függetlenségtől való eltérés szignifikáns-e, vagy csak a mintavételi hiba okozta)?
A fenti példára
2 2 ˆ χ X
= 2,96 + 3,34 + 0,22 + 0,25 = 6,63 és
2 χ krit (1, α = 0 , 05)
= 3,84
Mivel Xχˆ2 > χ krit a null hipotézis elvethető, a két változó nem független, szignifikáns az összefüggés, az oltás hatásos. 2
2
Mann-Whitney teszt A kétmintás t-próba helyett alkalmazható. Nullhipotézisünk az, hogy a két minta ugyanabból az alapsokaságból származik. Ha ez igaz, akkor a rangszámok véletlenszerűen oszlanak meg a minták közt. Teljes keveredés 1. minta: 2. minta: rangsz.:
13 9 15 1 2 3
16 20 4 5
24 6
29 27 7
34 33 9
8
10
37 11
Ekkor a véletlen csak nagyon ritkán produkál pl. olyan szélsőséges megoszlást, hogy az egyik minta minden eleme kisebb a másik minta összes eleménél: 1. minta: 2. minta: rangsz.:
27 29 33 9 1
13 15 16 20 2 3 4 5
24 6
7
8
9
34 37 10 11
Itt egy U statisztikát számolunk, s annak szignifikanciáját nézzük meg a táblázatban.