Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky
[email protected] konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
Přednáška 2 – Induktivní statistika • Data zobrazují jen část objektů reálného světa, který zkoumáme • Populace a výběr • Indukce – usuzujeme o celku jen z jeho části • Matematická (induktivní) statistika • Odhady parametrů, bodové odhady, intervalové odhady • Testování statistických hypotéz
Potíže při výzkumu založeném na empirických datech: • počet objektů části reálného světa, kterou zkoumáme, je velký. Př. obyvatelé Moravskoslezského kraje, voliči v ČR, mravenci v Beskydech, součástky vyrobené na automatické lince, ... • zobrazit všechny objekty do statistických dat nelze z různých důvodů (čas, cena měření, ...), musíme se spokojit s daty jen o části objektů • přesto se potřebujeme dozvědět důležité „pravdy“ o celé zkoumané části reálného světa
Popis situace: všechny objekty realita populace data základní soubor charakteristiky parametry metody deskriptivní statistika
jen část objektů výběr výběrový soubor odhady (parametrů) induktivní statistika
Abychom z výběru mohli usuzovat o populaci: • jasně vymezit (definovat) populaci, o níž chceme vědět dosud nepoznané „pravdy“ • zařídit, aby výběr tuto populaci opravdu reprezentoval (náhodný výběr jedinců z populace, všichni stejnou šanci) • mít dostatečný rozsah výběru (počet řádků ve výběrovém souboru) ~ kvalita “nových pravd“
Obtíže lze překonat s pomocí induktivní (matematické) statistiky!!! Dobré zprávy: • struktura dat stejná, jakou známe z popisné statistiky • charakteristiky počítáme stejně jako v popisné statistice
Špatná zpráva: • nemáme úplnou vstupní informaci v datech, tzn. charakteristiky z dat nejsou přesně hodnotami platnými pro všechny objekty
• Zatím jsme vystačili se zdravým selským rozumem, abychom zmapovali situaci, ve které se nacházíme, když chceme z výběru udělat rozumný výrok platný pro celou populaci • Dále ale budeme potřebovat základní pojmy z (teorie) pravděpodobnosti – budeme muset namáhat hlavu
Pravděpodobnost – základní pojmy: • Náhodný pokus – více možných výsledků, nevíme, jak to dopadne, např. - zkouška na řidičského průkaz (projdeme nebo
neprojdeme?), - zkoumání vzorku říční vody (kolik druhů mikroorganismů?), - těhotenství (narodí se kluk nebo holka nebo více dětí ?) - hod kostkou nebo mincí Náhodný pokus lze nezávisle opakovat za stejných podmínek !(?)
Náhodný jev a pravděpodobnost: • Náhodný jev je výsledkem náhodného pokusu (např. padla sudá při hodu kostkou), jev A • Náhodnému jevu A lze přiřadit pravděpodobnost P(A)
Hod kostkou - jevy E1 E2 E3 E4 E5 E6
padla jednička padla dvojka padla trojka padla čtyřka padla pětka padla šestka
Jiný výsledek nastat nemůže, kostka spadnout musí. Žádný z jevů Ei, i = 1, 2,...,6, není složen z jiných jevů, nelze jej dále rozložit, ani nemohou nastat žádné dva takové jevy současně. Říkáme, že jevy Ei jsou elementární jevy.
Jevy a operace •
jev B „padne sudá“ je sjednocením jevů
B = E2 ∪ E4 ∪ E6 •
Sjednocením všech elementárních jevů dostaneme jev jistý označíme jej symbolem U, tedy v našem příkladu
U = E1 ∪ E 2 ∪ … ∪ E 6 .
•
Průnik jevů = oba jevy nastanou současně
•
Jev nemožný
•
Pokud
•
Jev opačný k jevu A
∅
B∩C = ∅
, jsou B, C neslučitelné
Jevy a operace s jevy
Pravděpodobnost - platí (axiomy): •
•
0 ≤ P ( A) ≤ 1
P (U ) = 1
• Je-li A ∩ B = ∅ , pak
P ( A ∪ B ) = P ( A) + P ( B )
Jak počítat pravděpodobnosti? • lze odvodit z uvedených axiomů: •
P ( A) = 1 − P ( A )
•
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
• Kde vzít hodnoty pravděpodobnosti?
Určení hodnot pravděpodobnosti: • klasická prst – všechny elementární jevy stejně pravděpodobné (počet možností příznivých) / (počet všech možností) • statistická prst - odhadnout relativní četností při n opakování náhodného pokusu nA P ( A) = lim n →∞ n
Podmíněná prst, nezávislé jevy: • Podmíněná prst
P( A ∩ B ) P( A | B ) = P (B )
• Pravděpodobnost, že současně nastanou dva nezávislé jevy A, B: P (A ∩ B ) = P (A) ⋅ P (B )
Náhodná veličina, rozdělení • Náhodná veličina (X, Y, ...) – abstrakce, přiřazuje elementárnímu náhodnému jevu reálné číslo • Praktický účel – umožňuje definovat rozdělení pravděpodobnosti, např. prsti jevů X = x nebo Y < y • Náhodná veličina má charakteristiky polohy, variability, šikmost, ...
Funkce definující rozdělení: F ( x ) = P( X < x )
• Distribuční funkce
[ x , P( X = x )]
• Diskrétní – prstní funkce • Spojité - hustota
i
i
f(t)
x
t
p-kvantil (daného rozdělení)
Binomické rozdělení • model hodu n mincemi, na každé padne lev s pravděpodobností p, pravděpodobnost, že na n mincích padne k lvů
n k n− k P (Y = k ) = p (1 − p) k
Pravděpodobnostní funkce binomického rozdělení • n = 10, p = 0,5
• n = 10, p = 0,8
Rovnoměrné spojité rozdělení - hustota
Normální rozdělení s parametry µ, sigma ^ 2
chi – kvadrát, n stupňů volnosti n=4
f(x)
n=10
0.15
0.000
0
2
4
7
9
11
x
13
16
18
20
Studentovo t - rozdělení
Fisherovo F rozdělení f(x)
m=1, n=50
1
m=12, n=6
0
0
2
3
x
5
6
Náhodný výběr v matematické statistice • n náhodných veličin • jsou nezávislé • všechny mají stejné rozdělení • mat. statistika nám říká, jaké úsudky o celé populaci můžeme udělat z náhodného výběru • výběrový soubor je realizací náhodného výběru, z toho spočítáme hodnoty výběrových charakteristik
Odhady
Bodové odhady • výběrová charakteristika je odhadem populační charakteristiky • chceme, aby se do populační charakteristiky „strefovala“ – nestranný odhad • aby se rozptyl výb. charakteristiky zmenšoval s rostoucím rozsahem výběru – konzistentní odhad • aby rozptyl výb. charakteristiky byl co nejmenší – nejlepší odhad
Intervalové odhady • interval, θ1, θ2 , ve kterém leží parametr (populační charakteristika) s velkou pravděpodobností
P(θ1 ≤ θ ≤ θ2 ) = 1 − α • 100(1 − α ) - procentní interval spolehlivosti
Testování hypotéz • testujeme (většinou) tvrzení o parametru populace • tvrzení je nutno předem zformulovat • najít odpovídající test, podle kterého se na základě informace z výběrového souboru, zda tvrzení přijímáme nebo zamítneme.
Testování hypotéz NAŠE ROZHODNUTÍ: SKUTEČNOST (nám neznámá) Tvrzení H0 je pravdivé Tvrzení H0 je nepravdivé
H0 : nezamítáme
H0 : zamítáme
SPRÁVNÉ
CHYBA I. druhu
CHYBA II. druhu
SPRÁVNÉ