JAK OPTIMÁLNċ VYUŽÍT STATISTIKY PěI ZPRACOVÁNÍ DAT PREZENTACE PRO KURZ ZÁKLADģ VċDECKÉ PRÁCE V AKADEMII VċD ýR
Doc. RNDr. ZdenČk Karpíšek, CSc. Centrum pro jakost a spolehlivost výroby (CQR) MŠMT ýR (www.cqr.cz) Odbor statistiky a optimalizace, Ústav matematiky Fakulta strojního inženýrství, Vysoké uþení technické v BrnČ (www.mat.fme.vutbr.cz/home/karpisek) Katedra aplikovaných disciplín, Akademie Sting v BrnČ E-mail:
[email protected],
[email protected]
POPISNÁ STATISTIKA (DESKRIPTIVNÍ STATISTIKA): Základní atribut: prvky pozorovaného statistického souboru nemají náhodný charakter Popis souborĤ: 1. Grafy 2. ýíselné charakteristiky Nedostatek:
neúplné informace o pozorovaných statistických znacích o vyvozené závČry mají subjektivní charakter
TEORIE PRAVDċPODOBNOSTI = matematický model náhody 1. Náhodné jevy 2. PravdČpodobnost náhodných jevĤ, podmínČná pst, nezávislé náhodné jevy 3. Náhodné veliþiny, jejich funkþní a þíselné charakteristiky 4. Náhodné vektory, jejich funkþní a þíselné charakteristiky 5. RozdČlení psti pro aplikace 6. Náhodné procesy 7. Teorie spolehlivosti 8. Teorie hromadné obsluhy a další
MATEMATICKÁ STATISTIKA (INDUKýNÍ STATISTIKA, INFERENýNÍ METODY): Základní atribut: prvky pozorovaného statistického souboru mají náhodný charakter o popis vychází ze spojení metod popisné statistiky a teorie pravdČpodobnosti o model je založen na pojmu a vlastnostech tzv. náhodného výbČru Úlohy matematické statistiky: 1. Odhady: (a) parametrĤ rozdČlení pravdČpodobnosti – bodové a intervalové (b) rozdČlení pravdČpodobnosti 2. Testování hypotéz: (a) o parametrech a vlastnostech rozdČlení pravdČpodobnosti (b) o rozdČlení pravdČpodobnosti Odhady a testy se dle potĜeby a požadavkĤ provádČjí souþasnČ: regresní analýza, ANOVA, kategoriální analýza aj. PrĤzkumová (exploratorní) analýza = spojení vybraných metod popisné a indukþní statistiky Data mining = hledání hodnotných informací ve velkých objemech dat
Obecný statistický model: základní soubor (populace) = souhrn statistických jednotek statistické jednotky o statistické znaky o hodnoty Diskrétní JednorozmČrné
Kvantitativní Spojité Statistické znaky
Statistické znaky Ordinální
VícerozmČrné
Kvalitativní Nominální
Stochastický model: x diskrétní kvantitativní znak a diskrétní náhodná veliþina a její rozdČlení psti x spojitý kvantitativní znak a spojitá náhodná veliþina a její rozdČlení psti x ordinální kvalitativní (kategoriální) znak a multinomické rozdČlení psti þetností x nominální kvalitativní (kategoriální) znak a multinomické rozdČlení psti þetností x jednorozmČrný statistický znak a náhodná veliþina x vícerozmČrný statistický znak a náhodný vektor
Základní soubor o výbČrový soubor, rozsah VýbČry podle rozsahu: x velmi malé (do cca 20) x malé (obvykle do cca 30 až 50) x velké (ĜádovČ stovky) x velmi velké (ĜádovČ tisíce a více) Požadavky na výbČr: x reprezentativní (informace bez omezení) x homogenní (bez vlivu dalších faktorĤ) --------------------------------------------------------x náhodný Neurþitost výbČru = zkreslení informací o základním souboru Druhy výbČrĤ:
bez opakování, s opakováním, zámČrný, oblastní (stratifikovaný), mechanický a další
Statistický soubor = soubor pozorovaných hodnot (x1, x2,…, xn) znaku, resp. náhodné veliþiny X na vybraných statistických jednotkách, resp. z jednotlivých pozorování (analogicky pro náhodný vektor)
POPISNÁ STATISTIKA Zpracování statistického souboru = pĜíprava + grafické znázornČní + výpoþet þíselných charakteristik RoztĜídČný soubor: (x1*, f1),…,(xm*, fm) … tĜídy, stĜed a þetnost UspoĜádaný statistický soubor: (x(1),…,x(n)), x(i) x(i+1) Grafy = vizuální informace o poloze, variabilitČ, symetrii, modalitČ, …: krabicový graf, histogram, sloupcový graf, výseþový graf, … ýíselné (empirické) charakteristiky = þíselné informace o poloze, variabilitČ, symetrii, modalitČ, …: 1. PrĤmČr (aritmetický, geometrický, …), kvantily (medián, kvartily, …), modus, polosuma, uĜezaný prĤmČr, … 2. Rozptyl, smČrodatná odchylka, rozpČtí, mezikvartilová odchylka, mutabilita, entropie, … 3. Koeficient šikmosti (asymetrie), koeficient špiþatosti (excesu), … 4. Kovariance, korelaþní koeficient, poĜadové korelaþní koeficienty, koeficienty asociace, … a další
NČkteré vlastnosti aritmetického prĤmČru: x pomČrnČ citlivý na zmČnu hodnot souboru x citlivý na extrémnČ odchýlené hodnoty x u kladnČ (zápornČ) asymetrických souborĤ je prĤmČr vČtší (menší) než medián x konvergence s rostoucím rozsahem souboru k prĤmČru celé populace x obvykle rychlá konvergence rozdČlení pravdČpodobnosti prĤmČru k normálnímu rozdČlení Poznámky k þíselným charakteristikám: x geometrický prĤmČr nelze nahradit aritmetickým prĤmČrem x míry variability se v aplikacích bohužel þasto opomíjí x nezjišĢuje se asymetrie souboru x netestují se extrémnČ odchýlené hodnoty x koeficient korelace je pouze mírou linearity vztahu mezi X a Y x r = 0 nemusí znamenat nezávislost X a Y x r 0 neprokazuje kauzalitu x regresní analýza = "jemnČjší" vyjádĜení závislosti mezi X a Y a umožĖuje predikci
TEORIE PRAVDċPODOBNOSTI PravdČpodobnost P(A) je teoretická míra možnosti nastoupení náhodného jevu A. Klasická definice: P(A) = m/n x m = poþet pĜíznivých pĜípadĤ jevu A x n = poþet všech možných pĜípadĤ Axiomatická definice - založená na teorii množin Náhodná veliþina (promČnná): Funkþní charakteristiky RozdČlení pravdČpodobnosti ýíselné charakteristiky
Funkþní charakteristiky: distribuþní funkce, hustota aj. ýíselné charakteristiky: stĜední hodnota, rozptyl aj. RozdČlení pravdČpodobnosti pro modelování reálných jevĤ: binomické, hypergeometrické, Poissonovo, rovnomČrné, normální (Gaussovo), exponenciální, Weibullovo aj., aj.
BernoulliĤv zákon velkých þísel - asymptotické chování relativní þetnosti Normální rozdČlení - významné postavení pĜi modelování reálného svČta:
MATEMATICKÁ STATISTIKA Principy matematické statistiky: x hodnoty získané výbČrem ze základního souboru jsou náhodné x získaný statistický soubor je hodnotou náhodného výbČru Statistická indukce: Náhodná veliþina X
Teoretická charakteristika -
Náhodný výbČr (X1,…,Xn)
VýbČrová charakteristika T(X1,…,Xn)
Statistický soubor (x1,…,xn)
Empirická charakteristika t = T(x1,…,xn)
StĜední hodnota výbČrového prĤmČru = stĜední hodnota pozorované veliþiny ("prĤmČru" populace) a rozptyl výbČrového prĤmČru o 0 pro n o f , takže pro dostateþnČ velké n je takĜka jistČ prĤmČr souboru blízký neznámé stĜední hodnotČ; avšak tento rozptyl o 0 s rychlostí n1/2. Velmi þasto však rozdČlení výbČrového prĤmČru konverguje k rozdČlení normálnímu.
ODHADY PARAMETRģ Odhad parametru - = výbČrová charakteristika T(X1,…,Xn) Bodové Odhady Intervalové
Bodový odhad - : t = T(x1,..,xn) Intervalový odhad - se spolehlivostí 1 - D : konfidenþní interval
Spolehlivost 1 - D = pst úspČšnosti odhadu, konvence 0,95 a 0,99 Riziko chybného odhadu = D
PĜíklad: PĜi prĤzkumu názoru z dotázaných n osob Ĝeklo "ano" x osob. Pro spolehlivost 0,95:
Intervalový odhad (%) n
x
Bodový odhad (%) Od
Do
400
80
20
16,08
23,92
1600
320
20
18,04
21,96
6400
1280
20
19,02
20,98
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Statistické hypotéza = tvrzení o vlastnostech pozorované náhodné veliþiny (vektoru) Nulová hypotéza H0 l Alternativní hypotéza HA Druhy hypotéz: x parametrické a neparametrické x jednoduché a složené x jednostranné a oboustranné x sdružené Algoritmus testování hypotézy pomocí statistického souboru: 1. 2. 3. 4. 5.
Stanovení hypotéz H0 a HA. Volba testového kritéria T(X1,…,Xn). Výpoþet hodnoty testového kritéria t = T(x1,..,xn). Stanovení hladiny významnosti D a kritického oboru WD. Rozhodnutí o hypotézách H0 a HA.
Hladina významnosti: D = obvykle 5% anebo 1%
Rozhodnutí: x t WD H0 zamítáme a HA nezamítáme x t WD H0 nezamítáme a HA zamítáme
H0
PLATÍ
NEPLATÍ
ZAMÍTÁME
CHYBA 1. DRUHU
-------
NEZAMÍTÁME
-------
CHYBA 2. DRUHU
Rizika: x pravdČpodobnost chyby 1. druhu = hladina významnosti D x pravdČpodobnost chyby 2. druhu ȕ snižujeme (stanovujeme) zvýšením rozsahu n
Aspekty: x nezamítnutí hypotézy neznamená vždy její pĜijetí zvČtšíme rozsah výbČru a znovu testujeme x nezamítnutí nebo pĜijetí hypotézy není potvrzení její platnosti Aplikace P-hodnoty a intervalových odhadĤ
DOPORUýENÝ POSTUP APLIKACE STATISTICKÝCH METOD VE VÝZKUMU: 1. Stanovení úkolu a pracovních hypotéz. 2. VytvoĜení rigorózního a realizovatelného plánu experimentu, pozorování, prĤzkumu apod. 3. Realizace bodu 2, tj. získání statistických souborĤ. 4. Verifikace statistických souborĤ v rámci dané vČdní disciplíny. 5. VýbČr adekvátních statistických metod pro Ĝešení. 6. Realizace statistických výpoþtĤ pomocí modulĤ adekvátního profesionálního softwaru (Statistica, Minitab, Statgraphics, Systat, QCExpert, …, Excel aj.). 7. Analýza získaných výsledkĤ a jejich aplikace pro Ĝešení stanovených úkolĤ a ovČĜení pracovních hypotéz. 8. Dle potĜeb a nutností návrat k pĜedcházejícím bodĤm uvedeného algoritmu. 9. Publikace nezbytných informací a výsledkĤ získaných statistickou analýzou. 10. ???
UKÁZKA APLIKACE STATISTICKÝCH METOD þ. 1 ROZDċLENÍ PRAVDċPODOBNOSTI KONCENTRACE LEGOVACÍHO PRVKU Ni RozdČlení koncentrace X [% hmotnostního obsahu] legovacího (pĜísadového) prvku ve struktuĜe oceli má urþující vliv na její materiálové vlastnosti: pevnost, tažnost, tvrdost aj. Hodnoty obsahu jednotlivých prvkĤ v oceli byly získány energiovČ RTG mikroanalýzou na lineárním úseku v délce 1000 Pm. Vzhledem k náhodnému charakteru obsahu a zpĤsobu jeho mČĜení je vhodné modelovat koncentraci X jako spojitou náhodnou veliþinu. Pro statistické zpracování byl vybrán prvek Ni. NamČĜené hodnoty obsahu tvoĜí statistický soubor a naším úkolem je: x zpracovat tento soubor metodami popisné statistiky, x stanovit tvar pozorovaného rozdČlení pravdČpodobnosti, x urþit bodové a intervalové odhady jeho parametrĤ a charakteristik. V materiálovém inženýrství se nejþastČji používá normální (Gaussovo) rozdČlení 2 N P , V s hustotou pravdČpodobnosti pravdČpodobnosti
ª x P 2 º 1 f x exp « » , x ( f, f ), 2 2 V V 2S «¬ »¼ a základními þíselnými charakteristikami
E( X )
x0,5
xˆ
P , D( X ) V 2 ,
kde P je stĜední hodnota, x0,5 je medián, xˆ je modus, V2 je rozptyl a V je smČrodatná odchylka. Pro statistické výpoþty byl použit profesionální software Statgraphics Centurion XV.I. Zpracováním statistického souboru 100 namČĜených hodnot koncentrace pĜísadového prvku Ni v nízkolegované oceli byly získány následující þíselné a grafické výsledky. POPISNÉ CHARAKTERISTIKY Summary Statistics for Ni Count = 100
Lower quartile = 0,542912
Average = 0,645077
Upper quartile = 0,756923
Median = 0,626583
Interquartile range = 0,214011
Variance = 0,0287817
Skewness = 0,165103
Standard deviation = 0,169652 Stnd. skewness = 0,674032 Minimum = 0,284121
Kurtosis = 0,52586
Maximum = 1,00947
Stnd. kurtosis = 1,07341
Range = 0,725349
Coeff. of variation = 26,2994%
KRABICOVÝ GRAF
EMPIRICKÝ ODHAD NORMÁLNÍHO ROZDċLENÍ PRAVDċPODOBNOSTI
ZÁVċR: Z grafu odhadujeme, že jde o normální rozdČlení. TEST NORMÁLNÍHO ROZDċLENÍ PRAVDċPODOBNOSTI Goodness-of-Fit Tests for Ni Chi-Square Test ------------------------------------------------------------------------------------------------Lower Upper Observed Expected Limit Limit Frequency Frequency Chisquare ------------------------------------------------------------------------------------------------at or below 0,45 14 12,51 0,18 0,45 0,6 31 27,01 0,59 0,6 0,75 29 33,66 0,65 0,75 0,9 16 20,17 0,86 above 0,9 10 6,65 1,69 ------------------------------------------------------------------------------------------------Chi-Square = 3,96445 with 2 d.f. P-Value = 0,137762 Estimated Kolmogorov statistic DPLUS = 0,0698738 Estimated Kolmogorov statistic DMINUS = 0,0579959 Estimated overall statistic DN = 0,0698738 Approximate P-Value = 0,713335 ZÁVċR: Na základČ obou testĤ nezamítáme hypotézu o normálním rozdČlení na hladinČ významnosti 0,05.
HISTOGRAM A HUSTOTA PRAVDċPODOBNOSTI
DISTRIBUýNÍ FUNKCE
BODOVÉ A INTERVALOVÉ ODHADY Estimate of mean: 0,645077 Estimate of standard deviation: 0,169652 95,0 % confidence interval for mean: 0,645077 +/ 0,0336626 [0,611415;0,67874] 95,0 % confidence interval for standard deviation: [0,148955;0,19708]
************************************************************************************************************
CELKOVÉ ZÍSKANÉ VÝSLEDKY x obsah Ni v dané oceli má normální rozdČlení pravdČpodobnosti x bodový odhad stĜedního obsahu Ni je 0,645 % a bodový odhad smČrodatné odchylky obsahu Ni je 0,1687 % x se spolehlivostí 95 % je stĜední obsah Ni od 0,611 % do 0,679 % a smČrodatná odchylka obsahu Ni od 0,1490 % do 0,1971 %
UKÁZKA APLIKACE STATISTICKÝCH METOD þ. 2 Šokující zjištČní: Ženy jsou opravdu chytĜejší než muži! (Super.cz --- 24. 2. 2010) A jakže se na tuto pĜevratnou pravdu pĜišlo? Jednoduše - z vČdomostního internetového souboje milionĤ mužĤ a žen z národĤ devíti rĤzných jazykĤ. Výsledky hovoĜily jasnČ - ženy si prostČ vedly lépe než „pánové tvorstva“! PrĤzkum probíhal na internetu a v jeho rámci padlo celkem patnáct milionĤ otázek! Testování probíhalo od Ĝíjna minulého roku a bylo od poþátku velmi vyrovnané. V závČru ale pĜece jen se slabou pĜevahou zvítČzily ženy. Ty pĜitom odpovČdČly správnČ na 4 088 139 otázek a muži na 4 077 596 otázek. Dotazy byly kladeny z nČkolika oblastí, pĜiþemž nejoblíbenČjším byl obor showbyznysu a zábavy, následovaný vČdou, sportem, historií a umČním. Poslední byla kategorie lidé a místa. Ženy nejlépe odpovídaly právČ v kategorii showbyznys + zábava a muži zase v kategorii vČda + pĜíroda. „Internetová bitva pohlaví nalákala obrovské množství lidi z celého svČta“, pĜiznala jedna z autorek výzkumu Katreena Linesová. Jak vidno, boj mezi pohlavími je opravdu vČþným tématem...
Pracovní hypotéza: Ženy jsou chytĜejší než muži. Statistická nulová hypotéza H0 : p1 = p2 Test statistické hypotézy:
… alternativní hypotéza HA : p1 > p2
Poþet otázek: n1 = n2 = 15 000 000 Poþet správných odpovČdí: ženy ... x = 4 088 139, muži ... y = 4 077 596 f_bar = 0,272191167 n_bar = 7500000 t = 4,324719102 u0,95 = 1,644853 (P jednostr. = 7,64197E-06) ZávČr: Hypotézu H0 zamítáme a hypotézu HA nezamítáme, resp. pĜijímáme.
PĜijímáme pracovní hypotézu, že ženy jsou chytĜejší než muži!
Opravdu?
DċKUJI ZA POZORNOST!