Statistika
Jindřich Soukup
2013-07-24
University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems
Statistika umí: Předpovídat budoucnost? "... pak statistika předpovídá, že nestvůra už neposnídá." Popisovat současnost? "Policejní statistika prezentující Českou republiku jako ostrov bezpečí se opírá z velké části o schopnost policie odrazovat občany od žádostí o pomoc, ochranu a spravedlnost." Vysvětlit minulost? "Průměrná mzda loni stoupla na 25 tisíc korun, reálně však klesla"
2
Statistika jako manipulační metoda "Nevěřím žádné statistice, kterou jsem sám nezfalšoval." "Statistiky ukazují, že ženy jsou lepší řidiči než ženy. Tady znovu vidíme, jak je možno lhát pomocí čísel." "Statistiky už máme natolik sofistikované, že z nich lze doložit prakticky cokoliv."
"S pomocí statistiky je jednoduché lhát. Bez ní je ale těžké říci pravdu."
3
Role statistiky Pomocník, nástroj Jazyk, komunikační prostředek Náhražka důkazu Extrapolační nástroj Získat přehled Zorientovat se v datech Získat argument Najít pravidelnosti, nepravidelnosti, anomálie v datech Učící algoritmy
4
Strojové učení Systémy pro podporu rozhodování Automatické překladače Rozpoznávání řeči Učení s učitelem Učení bez učitele
5
Klasifikace s učením Klasifikace = zařazení vzorku do jedné ze tříd Oklasifikovaná data Nová data, která chceme zpracovat
6
Systém pro automatickou diagnózu Velká databáze medicínských dat Příznaky nemoci, rodinná anamnéza, ... Diagnóza provedená lékařem Rozdělení prostoru příznaků mezi nemoci Spolehlivost původních dat Překrývání jednotlivých tříd Velikost učící množiny Tvar rozhodovací hranice
7
Rozhodovací hranice k-nn klasifikátor Rozhodovací hranice - analyticky zadaná
8
Princip maximální věrohodnosti Opakované házení mincí Házeli jsme 100x, panna padla 55x, orel 45x. Jaký závěr z toho vyvodíme? Jak odhadnout pravděpodobnost, že padne panna? Obrátíme otázku: Pokud by byla pravděpodobnost, že padne panna p, jak by byl pravděpodobný výsledek 55x panna a 45x orel? P(panna=55,orel=45|pravd=p) = p55 (1-p)45 (100 nad 45) Plot p^55 1 p ^45, p, 0.2, 0.8
9
Statistické dokazování Stanovení hypotézy Její statistické ověření
Kontrola kvality ve výrobě Testování nových léků Pouze specifické typy dotazů : Je trvanlivost větší než pět dnů? Je tento lék účinnější, než jiný?
10
Nepřesnost/nejistota výsledků Opakovaný pokus, různé výsledky kvůli chybám v měření Nejvěrohodnější hodnota výsledku je průměr z pozorování Jak moc se můžeme mýlit? Míry nepřesnosti Rozptyl, směrodatná odchylka, interkvartil range, range, průměr odchylek od průměru, konfidenční intervaly, ... p-hodnota Praxe - oteplování, rakety
11
Statistické testy Házeli jsme 100x, panna padla 55x, orel 45x Testujeme hypotézu, že na minci padá panna stejně často jako orel (p=0.5) Je rozdíl deseti hodů dostatečně zásadní, abychom něco takového mohli prohlásit? Statistické testy nám dají následující odpověď: Pokud by hypotéza nebyla splněna, pravděpodobnost rozdílů 10 je ... Pokud je pravděpodobnost dostatečně malá, považujeme předpoklady (hypotéza není splněna) za chybné Hranice signifikance Hypotézu nelze vyvrátit na hranici signifikance ... p-hodnota 12
Dvojitě slepý pokus Lék vs placebo Pacient ani doktor netuší, co kdo dostává Dostatečně velký soubor t-test - je průmerné zlepšení u pacientů větší u léku než u placeba?
13
Předpovídání budoucnosti Předvolební výzkumy preferencí Testování nových léků "... pak statistika předpovídá, že nestvůra už neposnídá." Extrapolace "Víme, že v extralize ještě nikdo sérii za stavu 0:3 neotočil, tyhle statistiky nás ale vůbec nezajímají."
14
Popisovat současnost "Ne všichni přesně vědí, o čem ta statistika je a co je jejím posláním, že má vlastně popisovat hromadné jevy, a v případě, že její vnímání reality je jiné, než vykazuje statistika, tak jsou s ní nespokojeni. Ale statistika opravdu nemůže zobrazovat ty individuální záležitosti, na těch ona staví, zobecňuje je a z nich vzniká právě charakteristika nějakým způsobem kondenzovaná." "S pomocí statistiky je jednoduché lhát. Bez ní je ale těžké říci pravdu."
15
Vysvětlit minulost Pouze pokud máme data Korelace vs. kauzalita
16
Zmatení, manipulace, ... "Když má hlavu v sauně a nohy v ledničce, hovoří statistik o příjemné průměrné teplotě." "Když lovec mine zajíce jednou zleva a podruhé zprava, je zajíc v průměru mrtvý." "Naprostá většina lidí má nadprůměrný počet končetin." "Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta." "Pokud jsem už pětkrát nevyhrál ve sportce, příště mám větší šanci."
17
Děkuji za vaši pozornost
18