Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése.
Segítség az outputok értelmezéséhez Leiro: Leíró statisztikák a numerikus változókra, a leiro.csv fájlba kiíratva. Oszlopai: •
Valtozo_neve : a változó neve,
•
Elemszam: elemszám (hiányzók nélkül),
•
Hianyzok_szama: hiányzó adatok száma,
•
Atlag: átlag,
•
Standard_hiba: standard hiba,
•
Ki_also: konfidencia intervallum alsó határa,
•
Ki_felso: konfidencia intervallum felső határa,
•
Szoras: szórás,
•
Median: medián,
•
Minimum: minimum,
•
Maximum: maximum,
•
Also_kvartilis: alsó kvartilis (25%-os),
•
Felso_kvartilis: felső kvartilis (75%-os),
•
Terjedelem: az adatok terjelme (maximum-minimum),
•
IQR: Interkvarilis terjedelem (felső kvartilis – alsó kvartilis),
•
Osszeg: összeg.
Leiro_kategorias: Leíró
statisztikák
két
kategóriás
változó
kategória-kombinációinak
megfelelő
bontásban,
leiro1.csv fájlba kiíratva. Oszlopok:
1
•
Folytonos_valtozo : a folytonos változó megnevezése,
•
Kategorias_valtozo:
a
kategóriás
változó
megnevezése,
amely
szerinti
kategóriákban számolja a program a leíró statisztikákat, •
Kategoria: a kategóriás változó kategóriája,
•
… ugyanazok, mint a Leiro esetén.
Leiro_2kategorias: Leíró statisztikák a kategóriás változók kategóriáinak megfelelő bontásban, leiro2.csv fájlba kiíratva. Oszlopok: •
Folytonos_valtozo : a folytonos változó megnevezése,
•
Kategorias_valtozo1: az egyik kategóriás változó megnevezése,
•
Kategoria1: a Kategorias_valtozo1 kategóriája,
•
Kategorias_valtozo2: a másik kategóriás változó megnevezése,
•
Kategoria2: a Kategorias_valtozo2 kategóriája,
•
… ugyanazok, mint a Leiro esetén.
Leiro_3kategorias: Leíró statisztikák 3 kategóriás változó kategória-kombinációinak megfelelő bontásban, leiro3.csv fájlba kiíratva. Oszlopok: •
Folytonos_valtozo : a folytonos változó megnevezése,
•
Kategorias_valtozo1: az egyik kategóriás változó megnevezése,
•
Kategoria1: a Kategorias_valtozo1 kategóriája,
•
Kategorias_valtozo2: a másik kategóriás változó megnevezése,
•
Kategoria2: a Kategorias_valtozo2 kategóriája,
•
Kategorias_valtozo3: a harmadik kategóriás változó megnevezése,
•
Kategoria3: a Kategorias_valtozo3 kategóriája,
•
… ugyanazok, mint a Leiro esetén. 2
Outlier: Változónkénti kiugró értékek. Az outlier.csv táblázatba az adattábla kiugró értéket tartalmazó sorai kerülnek leszámítva az IDként megjelölt mezőt. Utolsó előtti (valtozo) oszlopába annak a folytonos változónak a megnevezése, amely szerint outlier az eset, a (sorszam) oszlopban az eset adattáblázatbeli sorszáma, az adott változó átlaga, valamint szórása.. Megjegyzés: Outliernek tekintjük az alsó, illetve felső kvartilistől 1.5 interkvartilis terjedelemnyi távolságnál messzebb eső értékeket. Gyakorisagok_kategorias: Gyakoriságok egy kategóriás változó kategóriáinként, a gyak1.csv fájlba kiíratva. •
Faktor: a kategóriás változó megnevezése,
•
faktor_szint: a kategóriás változó adott szintje (kategóriája),
•
gyakorisag: elemszám kategóriánként.
Gyakorisagok_2kategorias: Gyakoriságok
kategóriás
változó
párok
kategória
kombinációiként,
a
gyakorisag_2kategorias.csv fájlba kiíratva. •
faktor1, faktor2: a két kategóriás változó megnevezése,
•
faktor1_szint, faktor2_szint: a kategóriás változók adott szintje (kategóriája),
•
gyakorisag: elemszám az faktorszintek kombinációjában.
Fisher: Fisher egzakt tesztek a kategóriás változók függetlenség vizsgálatára. Esélyhányadosok (OR) és konfidencia-intervallumok 2x2-es táblákra a fisher.csv fájlba kiíratva. 3
•
faktor1, faktor2: a két kategóriás változó megnevezése,
•
p_ertek: a teszt eredményeként kapott P-érték. Hagyományosan, ha < 0.05, akkor a két változó között statisztikus összefüggés van a minták alapján.
•
OR: esélyhányados,
•
KI_also: az OR-re vonatkozó konfidencia-intervallum alsó határa,
•
KI_felso: az OR-re vonatkozó konfidencia-intervallum alsó határa.
Megyjegyzések: (1) A statisztikai függetlenség azt jelenti, hogy az egyik változó megfigyelése nem szolgál információval a másikra nézve, azaz az egyik változó bármely értéke mellett a másik változónak ugyanaz az eloszlása. (2) P-érték: a tesztstatisztika azon értékinek össz-valószínűsége, amelyek a megfigyeltnél jobban ellentmondanak a H0-nak a H1 javára. Esetünkben a H0 az hogy a két változó független, a H1 pedig az, hogy nem független. (3) OR: Az esélyhányados két oddsz hányadosa: azt fejezi ki, hogy egy bizonyos csoportban egy eseménynek – pl. megbetegedésnek, halálozásnak – hányszor akkora az oddsza, mint a referenciacsoportban. Oddsz: egy esemény esetén hányszor akkora a valószínűsége annak, hogy bekövetkezik, mint annak, hogy nem. Csak olyan kategóriás változókra számolható, amelyeknek két kategóriája van. Ha a változók függetlenek, akkor az elméleti OR=1. (4) Konfidencia-intervallum: egy populációs paraméterre vonatkozó olyan értéktartomány, amelybe az adott megbízhatósággal (általában 95%) beleesik. (5) Az esélyhányados értelmezéséhez célszerű a 2 kategóriás gyakoriságokat is kiíratni! Korrelacio (korr.csv): Korrelációs együtthatók és tesztek (Pearson, Spearman, Kendall) numerikus változópárokra. •
valtozo1,valtozo2: a két numerikus változó,
•
Pearson_R: Pearson-féle korrelációs együttható,
•
Pearson_KI_also: a Pearson-féle korrelációs együtthatóra vonatkozó konfidenciaintervallum alsó határa,
•
Pearson_KI_felso: a Pearson-féle korrelációs együtthatóra vonatkozó konfidenciaintervallum felső határa, 4
•
Pearson_p_ertek: a Pearson-féle korrelációs együttható nulla voltára vonatkozó teszt eredményeként kapott P-érték. Hagyományosan <0.05 esetén a két változó közötti korrelációs együttható szignifikánsan különbözik 0-tól, azaz a két változó korrelált a minták alapján.
•
Spearman_R: Spearman-féle korrelációs együttható,
•
Spearman_p_ertek: a Spearman-féle korrelációs együttható nulla voltára vonatkozó teszt eredményeként kapott P-érték.
Megjegyzések: (1) A korreláció monoton kapcsolatot jelent két változó között. (2) A lineáris kapcsolat erősségét – intervallumskála esetén – számszerűen a Pearson-féle korrelációs együtthatóval mérhetjük. (3) Nemlineáris, de monoton kapcsolatok esetén a Spearman-féle rangkorrelációs együtthatót. (4) Mindegyik együttható értéke −1 és +1 közé eshet. A 0 körüli értékek gyenge, a −1-hez közeli értékek erős negatív, az 1-hez közeliek erős pozitív korrelációs kapcsolatokat jeleznek.
Hisztogram: Hisztogramok és/vagy simított hisztogramok numerikus változókra. A simított hisztogram jobban közelíti a változó sűrűségfüggvényét, mint a hisztogram. Simított hisztogram esetén az egyedi értékek is megjelennek a vízszintes tengelyen. A parameterek táblázatban adhatjuk meg, hogy milyen típusú hisztogramot szeretnénk. 20-nál kevesebb adat esetén egy egyszerű pontábrát készít a program. Megjegyzések: (1)
Hisztogram: a változó értéktartományát részekre osztjuk, és az egyes részek – osztályok – gyakoriságait ábrázoljuk megfelelő magasságú oszlopokkal.
(2) Ha a változót sokszor megfigyeljük, akkor ott helyezkednek el sűrűbben a megfigyelések, ahol a sűrűségfüggvény értéke nagyobb. (3) Normális eloszlású változó sűrűségfüggvénye haranggörbe (Gauss-görbe) alakú.
5
Hisztogram_kategorias: Hisztogramok és/vagy simított hisztogramok numerikus változókra a kategóriás változók kategóriái szerinti bontásban.
Boxplot: Boxplotok numerikus változókra. Megjegyzések: (1) A boxplot a (kiugró értékek elhagyása utáni) minimumot és maximumot, a kvartiliseket (doboz alja és teteje) és a mediánt (középső vastag vonal) ábrázolja. (2) A kiugró értékeket a karikák jelzik. (3) Az adatok középértéke és szóródása mellett az eloszlás szimmetrikus voltát vagy ferdeséget is jól kivehetően mutatja. (4) Több csoport összehasonlítására is alkalmas. Boxplot_kategorias: Boxplotok numerikus változókra a kategoriás változók kategóriáiként. Boxplot_2kategorias: Boxplotok numerikus változókra két kategoriás változó kategória-kombinációiban. Oszlopdiagram: Oszlopdiagramok a kategóriás változókra. Mozaikabra: Mozaikábra kategóriás változópárokra gyakoriságokkal. Megjegyzés: Az ábra úgy készül, hogy először az első változó szerint veszi az összes gyakoriságot, és ezeknek 6
arányában állapítja meg vízszintes irányban a téglalapok szélességét. Az egyes oszlopokon belül a másik változó értékeinek megoszlása szerint állítja be a téglalapok magasságát. Interakció: Interakciós ábrák kategóriás változók interakciójának vizsgálatára numerikus változónként. Megjegyzések: (1) Az interakció jelenléte azt jelenti, hogy az első kategóriás változó kategóriáinak (szintjeinek) hatása a 2. kategóriás változó kategóriáiban különböző. Ha nincs interakció, akkor a két változó hatása additív, együttes hatásuk a külön-külön vett hatások egyszerű összege, nincs közöttük kölcsönhatás. Ilyenkor az ábrán közel párhuzamos vonalakat látunk. (2) Az ábrán a folytonos változó átlagait láthatjuk a kategória-kombinációkban. (3) Az azonos típusú vonalak a 2. változó megfelelő szintjét jelölik. Szorasdiagram: Szórásdiagramok numerikus változópárokra simított trendvonallal. Szorasdiagram_kategorias: Szórásdiagramok
numerikus
változópárokra
a
kategoriás
változók
kategóriáinként
simított
trendvonallal.
7