Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D.
OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní protokoly, statistické rozhodování a závislosti mezi proměnnými, test nezávislosti dvou kategoriálních znaků, t-testy, analýza rozptylu, základní neparametrické testy, korelační analýza, včetně příkladů použití.
Spuštění systému a vstupní tabulky
Systém STATISTICA je možno spustit několika způsoby Okno aplikace STATISTICA má podobný vzhled jako jiné programy
Okno aplikace STATISTICA
Získávání vstupních dat
Pokud jsou data již někde uložena, stačí je importovat do systému STATISTICA (seznam formátů, které mohou být v systému otevřeny lze najít v položce Soubory typu, dialogu Otevřít). V případě, že data shromažďujeme, můžeme tak činit prostřednictvím tabulky systému STATISTICA. Ukázka
Práce s daty ve vstupní tabulce
Před analýzou dat je potřeba vždy ověřit, zda je datová tabulka v pořádku Ověřování dat (hodnoty/statistiky) Výběr podskupin dat
Zobrazování dat
Výsečové grafy Výsečový graf z Pohlaví autoreg ulace_data 64v*708c
Muž; 98; 14%
Žena; 610; 86%
Pohlaví
Výstupy, pracovní sešity a protokoly
Histogram a jiné grafy
Popisná statistika
Statistika je nástroj, který slouží k popisu souboru dat a který napomáhá k odhalení zákonitostí mezi nimi. K dispozici musíme mít vždy nějaká měření. Typy vstupních znaků, se kterými statistika pracuje.
Typy dat Kategorizované proměnné (do jaké kategorie respondent nebo případ patří) - nominální (nemá smysl pořadí kategorií) - ordinální (uspořádání, které vychází z logiky kategorií, lze seřadit vzestupně nebo sestupně) Číselné proměnné (informace, kde se primárně ptáme na nějaké číslo) - intervalová - poměrová (vyjádřena číselně sama o sobě)
Míra závislosti mezi proměnnými
Jestliže jsou obě proměnné nominální nebo ordinální, použijeme kontingenční tabulku (chí-kvadrát), např. rozdíly v postoji ke škole (pozitivní, negativní) podle jejich motivace (vnitřní, vnější). Jestliže je jedna proměnná nominální a druhá metrická (poměrová, intervalová), použijeme t-test, např. rozdíly v EQ u studentů prvních a posledních ročníků gymnázií. Jestliže je jedna proměnná metrická a druhá nominální s více kategoriemi (nebo ordinální), použijeme analýzu rozptylu, např. rozdíly v testu tvořivosti v různých věkových kategoriích. Jestliže jsou obě proměnné metrické nebo ordinální a zjišťujeme souvislost, použijeme test korelace.
Popisná statistika
Datová tabulka – určení typu dat (jak je nejvýhodněji zobrazit a popsat) Tabulky četností Kontingenční tabulky Popisné statistiky
Proměnná Motivační orientace Osobní zdatnos t Metakognitivní strategie Smys luplnost s tudia
Popis né statistiky (autoregulace_data) N platných Průměr Minimum Maximum Sm.odch. 708 3,188912 1,000000 6,750000 1,092185 708 4,652807 2,187500 6,812500 0,887921 708 4,228006 1,000000 7,000000 1,166537 708 4,854520 1,000000 7,000000 1,138008
Statistická indukce
Těžiště moderní statistiky nespočívá v popisné statistice. V praxi je daleko užitečnější statistická indukce. Soubor metod navržených pro situace, kdy nemáme k dispozici kompletní informace o všech zkoumaných jednotkách. Umožňují nám zobecnit výběrová data na celou populaci, samozřejmě s určitou pravděpodobností.
Testování hypotéz
Při testování hypotéz formulujeme dvě vzájemně si odporující hypotézy. Nulová hypotéza vyjadřuje náš konzervatismus, že např. lék neměl žádný efekt, že změna je jen dílem náhody.
Postup
Stanovení nulové a alternativní hypotézy. Volba matematicko-statistické metody vedoucí k rozhodnutí ve prospěch H0 nebo HA. Volba spolehlivosti. Kritérium pro rozhodnutí (signifikance).
Spolehlivost
Před samotným testováním volíme spolehlivost, s jakou budeme chtít pracovat. Standardně se stanovuje 95%. Povolujeme riziko max. 5%, že uděláme chybu.
Signifikance
Nejpodstatnější hodnota. Pravděpodobnost toho, že zamítneme nulovou hypotézu, ačkoliv ona platí. Předem jsme si stanovili, že chceme pracovat s pravděpodobností 95%. Signifikance nám toto riziko vyčísluje. Hodnota mezi 0 a 1, označujeme ji písmenem p. p < 0,05 – zamítám H0 p > 0,05 – nezamítám H0 – riziko by bylo větší než 5%
Test nezávislosti chí-kvadrát
Rozdíly v úspěšnosti studenta ve škole podle jeho motivace. H0: ÚAM = ÚNM HA: ÚAM ≠ ÚNM p < 0,05, zamítáme nulovou hypotézu Zjistili jsme statisticky významný rozdíl v úspěšnosti u motivovaných a nemotivovaných studentů (p = 0,001).
Souhrnná tabulka Souhrnná tab.: Očekávané četnos ti (pracovni_s es it3) Četnost označených buněk > 10 Pearsonův chí-kv. : 24,1252, sv=1, p=,000001 ús pěšnost motivace motivace Řádk. A N součty A 12,50000 11,50000 24,00000 B 12,50000 11,50000 24,00000 Vš .skup. 25,00000 23,00000 48,00000
T-test
Zda ženy dosahují stejného skóre v testu jako muži. H0: PM = PŽ (ženy dosahují stejných výsledků jako muži) HA: PM ≠ PŽ T- test nezávislé dle skupin p < 0,05, zamítáme nulovou hypotézu
t-testy; grupováno: pohlaví (pracovni_ses it3) Skup. 1: M Skup. 2: Ž Průměr Průměr t sv p Poč.plat Poč.plat. Sm.odch. Sm.odch. F-poměr p Proměnná M Ž M Ž M Ž Rozptyly Rozptyly test 9,166667 15,11111 -4,63412 46 0,000030 12 36 4,108380 3,762809 1,192112 0,655650
T-test
Zda studenti udělali pokrok v úspěšnosti z testu (mezi testem v úvodu semestru a po skončení semestru). H0: PT = PT2 (ženy dosahují stejných výsledků jako muži) HA: PT ≠ PT2 T- test pro závislé vzorky p < 0,05, zamítáme nulovou hypotézu
ANOVA
Zajímá nás vliv kategoriálních proměnných (více než dvě kategorie nezávisle proměnné) na kvantitativní proměnnou. H0 – mezi skupinami není statisticky významný rozdíl HA – mezi skupinami je statisticky významný rozdíl Zda se úroveň autoregulace učení liší podle oboru, který student studuje.
Analýza rozptylu (autoregulace_data) Označ. efekty js ou význ. na hlad. p < ,05000 SČ SV PČ SČ SV PČ F p Proměnná efekt efekt efekt chyba chyba chyba Celkem 14,86296 3 4,954320 372,2932 700 0,531847 9,315303 0,000005
ANOVA Kategoriz. krabicový graf: Celkem: =mean(v11:v50) 4,8 4,7 4,6
Celkem
4,5 4,4 4,3 4,2 4,1 4,0 3,9 filologie
soc.ped.
učitelství
Obor_kategorieI
ošetřovatelství
Průměr Průměr±SmCh Průměr±1,96*SmCh
Post-hoc testy
LSD test; proměnná: Celkem (autoregulace_data) Označ. rozdíly jsou významné na hlad. p < ,05000 {1} {2} {3} {4} Obor_kategorieI M=4,0659 M=4,4038 M=4,5097 M=4,1994 1 {1} 0,000002 0,002173 0,175376 2 {2} 0,000002 0,434757 0,016708 3 {3} 0,002173 0,434757 0,042040 4 {4} 0,175376 0,016708 0,042040
Korelační analýza
Korelační analýza zkoumá vzájemný vztah kvantitativních proměnných. Všechny proměnné mají stejné postavení a závislosti jsou považovány za oboustranné. Místo závislosti proto mluvíme o souvislost. K měření intenzity souvislosti se nejčastěji používá Pearsonův koeficient korelace označovaný písmenem r. Jde o charakteristiku, která nabývá hodnot mezi [-1, 1]. Záporné hodnoty značí nepřímou souvislost (když jedna veličina roste, druhá klesá), kladné hodnoty značí pozitivní souvislost (obě veličiny se pohybují stejným směrem). Je-li hodnota 0, znamená to, že mezi proměnnými neexistuje souvislost.
Korelační analýza
Jaká je souvislost mezi oblastmi autoregulace učení studentů FHS?
Proměnná Motivační orientace Osobní zdatnos t Metakognitivní strategie Smys luplnost s tudia
Korelace (autoregulace_data) Označ. korelace js ou významné na hlad. p < ,05000 N=708 (Celé případy vynechány u ChD) Průměry Sm.odch. Motivační Osobní Metakognitivní Smys luplnost orientace zdatnost strategie studia 3,188912 1,092185 1,000000 0,275658 0,364673 0,512013 4,652807 0,887921 0,275658 1,000000 0,254081 0,360801 4,228006 1,166537 0,364673 0,254081 1,000000 0,445250 4,854520 1,138008 0,512013 0,360801 0,445250 1,000000
Předpoklady použití testů
Normalita dat (výběr pochází z normálního rozdělení) Statistika – Základní statistiky – Tabulky četností – Normalita H0: Data pochází z normálního rozdělení HA: Data nepochází z normálního rozdělení
Homogenita rozptylu (shodnost rozptylů) – součástí ttestu a ANOVY (platí stejné hypotézy jako u normality)
Neparametrická statistika
Pokud nejsou splněny předpoklady použití testů, musíme přistoupit k neparametrickému testování
Výběr neparametrického testu
Jaké jsou rozdíly v úrovni autoregulace učení studentů mezi muži a ženami? Víme, že nejsou splněny požadavky pro použití testu. Systém nám nabízí možnosti použití testu.