Průzkumová analýza dat
Proč zkoumat data? • Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). • Často se stává, že data, se kterými pracujeme, se v některých aspektech chovají zvláštně. Problém tohoto chování spočívá v tom, že jejich vlastnosti a chování nesouhlasí s požadovanými předpoklady pro jejich zpracování standardními statistickými metodami. • Cílem EDA je vyhledání a identifikace nestandardního chování statistických dat a ověření předpokladů potřebných pro zpracování těchto dat.
Vlastnosti dat zkoumaných v rámci EDA • Identifikace odlehlých pozorování. • Ověření normality rozdělení. • Posouzení šikmosti rozdělení. • Ověření nezávislosti prvků ve výběru. • Ověření homoskedasticity dat. • Ověření podmínky minimálního rozsahu výběru.
Identifikace odlehlých pozorování • Existuje značná nejednotnost v názvosloví – někdy se pojem odlehlé pozorování ztotožňuje s pojmem vybočující pozorování či extrémní pozorování, jindy se tyto pojmy definují různým způsobem. • Předpokládejme, že odlehlým, vybočujícím či extrémním pozorováním je hodnota, která je oproti ostatním hodnotám souboru extrémně nízká či extrémně vysoká.
Důvody vzniku odlehlých pozorování 1. Hodnoty korektně získané a správné, které vznikly jako důsledek mimořádného chování sledované veličiny (př. zvýšená koncentrace oxidu síry v ovzduší apod.). 2. Hodnoty, které jsou důsledkem chyb, ke kterým došlo v průběhu zjišťování dat, jejich zaznamenávání či zadávání do elektronické podoby (př. porucha měřícího přístroje, překlep při zadávání dat do elektronické podoby atd.).
Práce s odlehlými hodnotami • Hodnoty, které jsou správně naměřené, by měly být v souboru ponechány, popř. je možné s nimi pracovat odděleně. Pokud budou v souboru ponechány, je potřeba zpracovat data pomocí robustních metod. • Hodnoty, které jsou chybné, je doporučeno ze souboru ostatních hodnot vyloučit.
Způsoby detekce odlehlých pozorování • Grafické znázornění (Krabicový graf, kvantilkvantilový graf, graf symetrie apod.) – spíše slouží k upozornění, na které hodnoty si dát pozor, které hodnoty by mohly být skutečně odlehlé. • Testy odlehlých hodnot (Grubbsův, Dixonův a další) – lze pomocí nich prokázat s určitou pravděpodobností výskyt odlehlých hodnot v souboru.
Grafické znázornění odlehlých hodnot Graf odlehlých hodnot (diagram rozptýlení)
Grafické znázornění odlehlých hodnot Outlier Plot (Graf odlehlých hodnot) • Zobrazuje hodnoty všech dat společně s horizontálními přímkami na úrovni výběrového průměru plus/mínus 1, 2, 3 a 4 směrodatné odchylky. • Body, nacházející se mimo pole 3 směrodatných odchylek, se považují za „podezřelé“, a měly by být posouzeny z pohledu jejich možné odlehlosti.
Grafické znázornění odlehlých hodnot Krabicový graf
Grafické znázornění odlehlých hodnot
Grafické znázornění odlehlých hodnot Kvantil-kvantilový graf
Grafické znázornění odlehlých hodnot Kvantil-kvantilový graf (Q-Q graf) • Zobrazuje hodnoty od nejmenší po největší takovým způsobem, aby bylo možné posoudit, zda tyto hodnoty pocházejí z normálního rozdělení či nikoli. • Je založen na porovnání kvantilů empirického rozdělení a zvoleného teoretického rozdělení. • Je konstruován tak, že pokud empirické rozdělení plně odpovídá teoretickému, pak je grafem přímka.
Testy odlehlých hodnot
Testy odlehlých hodnot Grubbsův test • Vypočítáme testové kritérium pro první, resp. poslední hodnotu neklesající řady: =
̅
, resp.
=
̅
, kde
̅ je aritmetický průměr, je první hodnota neklesající řady, je poslední hodnota neklesající řady, s je směrodatná odchylka.
• Kritický obor je vymezen nerovností: > .
>
.
, resp.
Testy odlehlých hodnot Grubbsův test
Testy odlehlých hodnot
Testy odlehlých hodnot Dixonův test • Vypočítáme testové kritérium pro první, příp. poslední hodnotu řady: =
, příp.
=
R je variační rozpětí souboru, tj.
, kde =
• Kritický obor je vymezen nerovností: příp. > .
− >
. .
,
Testy odlehlých hodnot Dixonův test • Tabulky s kritickými hodnotami Dixonova testu pro = 0,05:
Kvantilové a robustní míry úrovně a variability Kvantilové a robustní míry je možné použít k charakterizování vlastností souboru, ve kterém se vyskytují odlehlé hodnoty, neboť jsou vůči nim méně citlivé než třeba momentové míry. Patří sem: Modus • Obecně je definován jako nejčastěji se vyskytující varianta znaku. • Pro spojitou náhodnou veličinu je definován jako lokální maximum hustoty pravděpodobnosti, pro nespojitou náhodnou veličinu jako hodnota, ve které má pravděpodobnostní funkce své maximum. • Modus je vždy robustní, není citlivý na odlehlé hodnoty.
Kvantilové a robustní míry úrovně a variability Kvantily • Výklad viz Popisné charakteristiky. Medián • Hodnota, která rozděluje uspořádaný soubor na dvě stejné četné části. • Je věrohodným odhadem polohy Laplaceova (oboustranného exponenciálního) rozdělení a má pro toto rozdělení minimální rozptyl
=
.
• Patří mezi robustní kvantilové charakteristiky.
Kvantilové a robustní míry úrovně a variability Kvartilové rozpětí (interkvartilové či mezikvartilové rozpětí) • Definováno jako rozdíl mezi horním a dolním kvartilem, tj. = − • Pomocí lze odhadnou směrodatnou odchylku podle vztahu: = 0,7413 ∙ .
Kvantilové a robustní míry úrovně a variability Uřezaný průměr ̅ ( ) • Využívá lineární kombinace pořádkových statistik. • Parametr určuje procento oddělených („uřezaných“) pořádkových statistik na každém konci, nejnižších a nejvyšších. • Za optimální se považuje hodnota = 10, tj. desetiprocentní uřezaný průměr. • V případě, kdy se očekává větší počet odlehlých hodnot, je možné jít až na hodnotu = 25 .
Kvantilové a robustní míry úrovně a variability Uřezaný průměr je definován jako: ̅
∑
= =
(
).
()
, kde
Ověřování normality • Mnoho statistických metod a procedur vyžaduje, aby byl splněn předpoklad normality dat, tj. že výběr pochází z normálního rozdělení. • Existuje mnoho jevů, o kterých lze na základě věcného rozboru a zkušenosti usoudit, že jsou normálně rozdělené. • Pokud je ovšem zřejmé, že data z normálního rozdělení nepocházejí, pak je třeba: a) využít neparametrické metody; b) transformovat data tak, aby byla normální či se normalitě dost přibližovala.
Testy normality • Patří mezi neparametrické testy, a konkrétněji mezi testy o tvaru rozdělení. • Nulová hypotéza předpokládá, že výběr pochází z normálního rozdělení. Parametry rozdělení mohou být nulovou hypotézou také specifikované. • Vzniklo mnoho testů, pomocí kterých lze normalitu dat testovat – např. chí-kvadrát test dobré shody, Kolmogorovův-Smirnovův test, Shapirův-Wilkův test, test Andersonův-Darlingův, Filibenův, D´Agostinův a další.
Kolmogorovův-Smirnovův test pro jeden výběr • Předpoklad: Pracujeme s náhodným výběrem, který pochází z některého hypotetického rozdělení (obecně), které je nulovou hypotézou úplně specifikované. • Je vhodný i pro výběry malého rozsahu, tj. 3 ≤
< 50.
• Výhoda: Vychází z původních napozorovaných hodnot a nikoli z údajů roztříděných do skupin. Nedochází tak ke ztrátě informace, která je ve výběru obsažena. •
: :
=
…… empirická (skutečná) distribuční funkce veličiny X …… teoretická (hypotetická) distribuční funkce veličiny X
Kolmogorovův-Smirnovův test pro jeden výběr • Empirickou distribuční funkci určíme z hodnot upořádaných podle velikosti ≤ ≤⋯≤ . • Empirická distribuční funkce je definována tvarem: = 0 pro = pro = 1 pro
< ≤ ≥
<
, = 1, 2, … , − 1
Kolmogorovův-Smirnovův test pro jeden výběr • Testovým kritériem je maximální absolutní rozdíl teoretické distribuční funkce a empirické distribuční funkce : = = max
− ,
,
−
( )
,…,
• Vymezení kritického oboru:
≡
;
≥
;
• Kritické hodnoty K-S testu jsou tabelovány pro různá n a α. • Pro velké soubory ( > 50) je možné je přibližně vypočítat podle:
=
( ) ln( ).
Shapirův-Wilkův test • Je jedním z nejsilnějších testů normality. • Lze použít i pro malé výběry, tj. 3 ≤
< 50.
• Nulová hypotéza předpokládá, že výběr pochází z normálního rozdělení s libovolnými parametry a . • Testové kritérium pro rozsahy výběru mezi 3 a 50 je: ∑
=∑
̅
Shapirův-Wilkův test • Výpočet SW vyžaduje znalost koeficientů , které byly odvozeny speciálně pro potřeby tohoto testu. Bývají tabelovány. • Nulová hypotéza se zamítá, pokud je vypočítaná hodnota SW menší než kritická hodnota ShapirovaWilkova testu pro dané n a α.
Ověření nezávislosti prvků ve výběru • Důležitým předpokladem kvalitních měření je vzájemná nezávislost zjištěných výsledků. • Možné důvody vzniku závislosti měření: 1) Nesprávný (nenáhodný) výběr vzorků k měření. 2) Porušení konstantnosti podmínek měření. 3) Měřící zařízení je nestabilní nebo došlo k jeho změně. 4) Opomenutí činitelů, které mají vliv na výsledek měření, např. teplota, nečistota chemických látek, objem vzorků apod.
Ověření nezávislosti prvků ve výběru • Pokud se uvedené důvody mění v čase, projeví se vznikem časové závislosti mezi prvky výběru, které jsou uspořádány z hlediska času. • Pro posouzení časové závislosti prvků ve výběrovém souboru, je možné použít test významnosti koeficientu autokorelace prvního řádu, Durbin-Watsonův test autokorelace, Znaménkový test a další.
Test významnosti koeficientu autokorelace prvního řádu • Nulová hypotéza předpokládá, že koeficient autokorelace se rovná nule, tj. hodnoty po sobě jdoucí v časové řadě nejsou závislé. : =0 : ≠0 • Testovým kritériem je statistika , která se při platnosti nulové hypotézy řídí Studentovým rozdělením t s (n+1) stupni volnosti. =
Test významnosti koeficientu autokorelace prvního řádu • Pomocné výpočty: = 1−
, kde T značí von Neumannův
poměr. =
∑ ∑ ̅
• Pro kritický obor platí: >
+1
Ověření homoskedasticity dat • Homoskedasticitou dat rozumíme skutečnost, kdy rozptyly v jednotlivých skupinách, do kterých je soubor roztříděn, jsou shodné. • Předpoklad homoskedasticity je častou podmínkou vyžadovanou při použití některých statistických metod. • Existuje mnoho testů homoskedasticity: Bartlettův, Leveneův, Cochranův, Hartleyho a další.
Bartlettův test • Lze použít jak pro soubory, které mají stejný počet pozorování u všech k skupin, tak i pro soubory, které nemají stejný počet pozorování ve všech k skupinách, je tedy použitelný univerzálně. • Nulová hypotéza předpokládá, že rozptyly ve všech skupinách, do kterých je soubor roztříděn, jsou shodné. Alternativní hypotéza tvrdí, že alespoň 2 z těchto rozptylů jsou různé, tj. : :
=
=⋯=
Bartlettův test • Testovým kritériem je statistika B, která se v případě platnosti nulové hypotézy řídí přibližně rozdělením s n-1 stupni volnosti: =
−
ln
−∑
− 1 ln
.
• Při výpočtu B používáme následující vztahy: =
∑
−
, = 1, 2, … ,
je průměr i-té skupiny. =
∑
∑
−
Bartlettův test ∑
=1+ • Bartlettův test je dosti citlivý na porušení předpokladu normality rozdělení. Tento problém může nastat zejména u souborů malého rozsahu. • Namísto tohoto test lze použít Leveneův test, který na porušení předpokladu normality tak citlivý není.
Leveneův test homogenity • Původní data nahradíme hodnotami náhodných veličin, pro které obecně platí: = − , = 1, 2, … , , = 1, 2, … , . • K výpočtu hodnoty testového kritéria použijeme tyto pomocné výpočty: ̅ =
∑
̅= ∑
∑
=∑
∑
=∑
− ̅ ̅ − ̅
Leveneův test homogenity • Testovým kritériem je statistika =
/ /
~
• Kritický obor: ≡ ; ≥
− 1, −
, kterou vypočítáme podle: .
− 1, −
• Pro vybrané případy je možné použít i modifikace Leveneova testu. Např. pokud bude soubor nějakým způsobem sešikmený, lze místo skupinových průměrů využít skupinových mediánů při výpočtech.