Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Dodávky hydroxidu sodného Zadání: Zkontrolujte kvalitu dodávek NaOH s využitím exploratorní analýzy dat. Zaměřte se na šířku koncentračního intervalu. Na základě výsledků rozhodněte o provedení transformace, či využití robustních charakteristik. Zdůvodněte možnou chybu, která by vznikla nerespektováním případných tvarových zvláštností dat. 1. Zjistěte u dodávek hydroxidu sodného průměrnou koncentraci NaOH v %. 2. Porovnejte dva dodavatele na základě provedené analýzy dat.
Data 1 (NaOH_1 [%]): 48.79 48.99 48.56 48.48
48.43 48.38 48.51 49.04
48.39 48.68 48.73 48.81
49.38 48.72 48.93 48.60
48.71 48.14 48.01 48.52
48.35 48.30 48.48 48.43
48.83 48.91 48.27 47.91
48.02 48.28 48.49 -
50.50 50.30 50.60 50.10 50.10 50.30
50.40 49.60 50.50 50.50 50.50 50.50
50.10 50.40 50.00 50.50 50.50 50.30
50.00 50.40 50.20 50.10 50.60 50.50
50.20 50.10 49.50 50.50 49.60 49.40
49.80 -
Data 2 (NaOH_2 [%]): 50.40 50.40 50.30 50.50 50.60 50.50
50.10 50.30 49.90 49.70 50.30 50.10
Vyšetření dat: 1. 2. 3. 4.
Průzkumová analýza spojitých dat (EDA). Ověření předpokladů o datech. Transformace dat. Statistická analýza jednorozměrných dat (CDA).
-1-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Průzkumová analýza dat (EDA) Vyšetřuje statistické zvláštnosti, jako je: • koncentrace dat • tvarové zvláštnosti rozdělení dat • přítomnost podezřelých hodnot Diagnostické grafy v průzkumové analýze dat pro NaOH (Data 1)
Obrázek 1: Histogram pro NaOH_1
Obrázek : QQ-graf pro NaOH_1
Histogram (osa x: proměnná x, osa y: úměrná hustotě pravděpodobnosti) v jednotlivých třídách s konstantní šířkou, kdy optimální počet tříd byl stanoven automaticky s ohledem na počet dat ukazuje na Gaussovo symetrické rozdělení (obr.1). Q-Q graf (osa x: Qs(Pi), osa y: xi) posuzuje shodu výběrového rozdělení QE(Pi) s kvantilovou funkcí teoretického rozdělení QT(Pi). Z tvaru dat, které leží na přímce, lze usoudit na normální rozdělení. Je zde také indikováno jedno odlehlé měření (obr.2).
Obrázek 3: Kvantilový graf pro NaOH_1
Obrázek 4: Graf rozpt. s kvantily pro NaOH_1
Kvantilový graf (osa x: Pi, osa y: xi) zobrazuje empirické kvantily proložené kvantilovou funkcí normálního rozdělení. Zelená křivka odpovídá funkci s klasickým průměrem a rozptylem (nerobustní), červená křivka odpovídá mediánu a mediánové odchylce (robustní). Lépe prokládá data křivka nerobustní, jde tedy o data s normálním rozdělením, proto bude vhodnější i pro odhad střední hodnoty zvolit průměr. Opět i zde je indikován jeden odlehlý bod (obr. 3). Graf rozptýlení s kvantily (osa x: pořadová pravděpodobnost Pi, osa y: pořádková statistika xi) jehož základem je odhad kvantilové funkce výběru to znamená, že body grafu jsou vizuálně i významově shodné s kvantilovým grafem. Pro normální rozdělení má kvantilová funkce sigmoidální tvar, který je patrný i v tomto případě. Vzájemná poloha obdélníků odpovídá symetrickému rozdělení. Vodorovná úsečka uprostřed nejmenšího obdélníku označuje medián (50% kvantil), svislá úsečka na příčce odpovídá intervalu spolehlivosti mediánu (obr.4). -2-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Obrázek 6: Krabicový graf pro NaOH_1
Obrázek 5: Diagram rozptýlení pro NaOH_1
Diagram rozptýlení (osa x: hodnoty xi, osa y: libovolná úroveň) představuje jednorozměrnou projekci kvantilového grafu do osy x. Na tomto velmi jednoduchém, přesto značně vypovídajícím grafu nejsou patrny větší lokální koncentrace dat, je zde indikován jeden odlehlý bod. Aby bylo možno lépe posoudit rozložení dat jsou v dolní polovině zobrazena táž data rozmítnuta. Nedochází zde ke splývání shodných nebo blízkých dat (obr.5). Krabicový graf (osa x: úměrná hodnotám xi, osa y: libovolná úroveň) je standardním diagnostickým grafem, který umožňuje částečnou sumarizací dat, znázornění robustního odhadu polohy (Mediánu M), posouzení symetrie u konců rozdělení a identifikaci odlehlých bodů. Z tohoto grafu lze usuzovat na symetrické rozdělení jen velmi mírně zešikmené, což způsobují hodnoty, které lze charakterizovat jako odlehlé. Na grafu jsou mimo interval vnitřních hradeb. Střed bílého pruhu odpovídá Mediánu, jeho šířka intervalu spolehlivosti (obr.6).
Obrázek 7: Graf polosum pro NaOH_1
Obrázek 8: Graf symetrie pro NaOH_1
Gr a f pol osum (osa x: pořádkové statistiky xi, osa y: Zi = 0.5(x(n+1-i)+x(i)) je citlivým indikátorem asymetrie rozdělení. Prostřední horizontální přímka na níž leží poslední bod, představuje medián a červené přerušované meze jeho interval spolehlivosti. Není zde patrný výrazný trend, který by indikoval šikmost. Mimo meze se vyskytuje jediný bod (obr.7). Graf symetrie (osa x: M-xi, osa y: x(n+1-i) - M) má podobný význam jako předchozí graf. V případě symetrického rozdělení resultuje lineární závislost s nulovým úsekem a jednotkovou směrnicí. Také zde nelze potvrdit trend charakteristický pro asymetrické rozdělení, kdy směrnice je úměrná šikmosti - rostoucí pro zápornou šikmost, klesající pro kladnou šikmost (obr.8).
-3-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Obrázek 10: Kruhový graf pro NaOH_1
Obrázek 9: Hustota pro NaOH_1
Hu sto t a pravděpodobnosti (osa x: xi, osa y: hustota pravděpodobnosti f(x)) slouží k porovnání průběhu hustoty pravděpodobnosti normálního rozdělení s jádrovým odhadem hustoty počítaným na základě dat, který zde vyjadřuje červená čára. Nehomogenitu dat, způsobenou shluky, vyjadřují maxima na této křivce. Zde jsou si obě křivky velmi podobné a z toho lze usoudit na rozdělení velmi blízké normálnímu. Ovšem hladkost křivky je dána parametrem “vyhlazení hustoty”, kdy při jeho malé hodnotě se objeví maxima pro každá data (obr.9). Kruhový graf slouží k vizuálnímu ověření hypotézy, že výběr pochází ze symetrického rozdělení. Zde se graf blíží k regulárnímu, konvexnímu polygonu, blízkému kružnici. Zelený kruh (elipsa) je optimální tvar normálního rozdělení. Černý, představující data se s “Gaussovskou předlohou” téměř kryje (obr. 10). Diagnostické grafy v průzkumové analýze dat pro NaOH (Data 2) Součástí komentáře zde již nebude teoretický základ k jednotlivým grafům, tak jako v prvním případě, ale pouze vysvětlení statistických zvláštností.
Obrázek 12: QQ-graf pro NaOH_2
Obrázek 11: Histogram pro NaOH_2
Histogram zde ukazuje na výrazně nesymetrická data s nejvyšším zastoupením ve třídě pro nejvyšší koncentraci, což ukazuje na systematicky ovlivněná data (obr.11). Q - Q graf potvrzuje systematické zešikmení (data se zápornou šikmostí ). Body grafu neleží na přímce ale nevykazují výrazné zlomy a nehomogenity, křivka je relativně hladká, z čehož lze usoudit, že data pocházejí z jednoho rozdělení (obr.12). -4-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Obrázek 14: Graf rozpt. s kvant. pro NaOH_2
Obrázek 13: Kvantilový graf pro NaOH_2
Kv anti lov ý graf ukazuje výrazné odchýlení od klasické i robustní křivky, neindikuje odlehlé body (obr13). Graf rozptýlení s kvantily potvrzuje asymetrické rozdělení pomocí vzájemné polohy obdélníků, z polohy dat je patrné zešikmení k nižším hodnotám (obr.14).
Obrázek 16: Krabicový graf pro NaOH_2
Obrázek 15: Diagram rozptýlení pro NaOH_2
Dia gr am rozptýlení ukazuje zvyšující se koncentraci dat zešikmení k nižším hodnotám, z čehož vyplývá silně asymetrické rozdělení (obr.15). Krabicový graf potvrzuje asymetričnost dat, dokonce indikuje jednu odlehlou hodnotu, která je však k celkovému rozložení dat sporná (obr.16).
Obrázek 17: Graf polosum pro NaOH_2
Obrázek 18: Graf symetrie pro NaOH_2
Grafy polosum a symetrie ukazují, jak jsou směrnice trendu úměrné zešikmení, tj. asymetrii dat. Body na mediánové rovnoběžce s osou x jsou ze symetrického rozdělení, ostatní ne (obr.17,18). -5-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
G r Obrázek 19: Hustota pro NaOH_2 a f Obrázek 20: Kruhový graf pro NaOH_2 hus tot y pra vděpodobnosti (jádrový odhad) ve srovnání s Gaussovým rozdělením je patrné silné zešikmení k nižším hodnotám (záporná šikmost). Maxima na empirické křivce mohou znamenat nehomogenitu dat (obr.19). Kruhový graf opět potvrzuje asymetričnost rozdělení (obr. 20).
Závěr exploratorní analýzy Data 1 (NaOH_1) se významně neodlišují od normálního (Gaussova) rozdělení. Byla indikována jedna odlehlá hodnota. Ovšem vypuštění této hodnoty by mohlo vést ke ztrátě informace. Data 2 (NaOH_2) se významně odlišují od normálního (Gaussova) rozdělení. Nebyla indikována žádná odlehlá hodnota. U těchto dat bude nutno provést transformaci.
Obrázek 22: PP-graf pro NaOH_2
Obrázek 21: PP-graf pro NaOH_1
Z PP-grafů je podle proložení přímky x = y patrná v prvním případě blízkost experimentálních dat rozdělení normálnímu, ve druhém případě Laplaceovu rozdělení. Tato podobnost s Laplaceovým rozdělením ukazuje na možnou nekonstantnost rozptylu (obr. 21, 22).
-6-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Statistická analýza jednorozměrných dat (CDA) Ověření předpokladu o datech použitím programu QCExpert 3.0 Název sloupce
NaOH_1
NaOH_2 Název sloupce NaOH_1 4 4 Znaménkový test závislá Vyhlazení hustoty 0,5 0,5 Závěr Hladina významnosti 0,05 0,05 Test normality 32 44 Průměr 48,5506 Počet platných dat Rozptyl 0,1035 Klasické parametry 48,5506 50,2257 Šikmost 0,2209 Průměr 3,1139 Spodní mez 48,4346 50,1306 Špičatost Horní mez 48,6666 50,3207 Normalita Přijata 0,4990 Rozptyl 0,1035 0,0977 Vypočtený 0,3218 0,3126 Teoretický 5,9915 Směr. odchylka 0,7792 Šikmost 0,2209 -1,0131 Pravděpodobnost Odchylka od 0 Nevýznamná Významná Vybočující body 3,1139 3,2447 Homogenita Přijata Špičatost 0 Odchylka od 3 Nevýznamná Nevýznamná Počet vybočujících bodů Polosuma 48,6450 50,0000 Spodní mez 47,5378 Modus 48,4481 50,4420 Horní mez 49,5423 t-test Autokorelace 4 Testovaná hodnota 0 0 Řád autokorelace -0,1123 Rozdíl Významný Významný Počet 853,5177 1065,7727 Řád autokorelace 1 Vypočtený 0,4495 Teoretický 2,0395 2,0167 Korelační koeficient 1,2588E-69 0,0000 Pravděpodobnost 0,0056 Pravděpodobnost Významný Závěr Robustní parametry Medián 48,5150 50,3000 Řád autokorelace 2 IS spodní 48,3329 50,1457 Korelační koeficient 0,1881 0,1597 IS horní 48,6971 50,4543 Pravděpodobnost Nevýznamný Medianová sm. odch. 0,0893 0,0765 Závěr Medianový rozpty 0,0080 0,0059 Řád autokorelace 3 48,5457 50,2534 Korelační koeficient -0,0045 10% Průměr 0,4907 10% IS spodní 48,4271 50,1512 Pravděpodobnost Nevýznamný 10% IS horní 48,6643 50,3557 Závěr 0,2257 0,2252 Řád autokorelace 4 10% Směr. odchylka -0,1123 10% Rozptyl 0,0510 0,0507 Korelační koeficient 48,5500 50,2744 Pravděpodobnost 0,2846 20% Průměr Nevýznamný 20% IS spodní 48,4401 50,1760 Závěr 20% IS horní 48,6599 50,3729 Test významnosti trendu 0,1601 0,1745 Směrnice -0,0136 20% Směr. odchylka 20% Rozptyl 0,0256 0,0305 Významnost Významný 48,5444 50,2935 Pravděpodobnost 0,9874 40% Průměr 40% IS spodní 48,4247 50,2023 40% IS horní 48,6642 50,3846 0,0992 0,1135 40% Směr. odchylka 40% Rozptyl 0,0098 0,0129
NaOH_2
Řád trendu
-7-
nezávislá 50,2257 0,0977 -1,0131 3,2447 Zamítnuta 6,2888 5,9915 0,0431 Přijata 0 49,2327 51,3673
0,0077 0,1843 0,1184 Nevýznamný 0,1324 0,2016 Nevýznamný 0,0723 0,3266 Nevýznamný 0,0077 0,4812 Nevýznamný -0,0074 Významný 0,9783
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Ověření předpokladu o datech - závěr Reprezentativní náhodný výběr je charakterizován třemi základními předpoklady. Jsou to nezávislost, homogenita a normalita výběru. Nezávislost v případě NaOH_1 nebyla prokázána. Podle autokorelace 1. řádu jsou prvky závislé, s korelačním koeficientem 0,4495. Zde vzrůstá nebezpečí, že odhady budou systematicky vychýleny. Ovšem na základě původu dat (pocházejí z regulovaného výrobního procesu) je nutno tuto závislost akceptovat. Nezávislost v případě NaOH_2 byla prokázána. Předpoklad normality v případě NaOH_1 byl splněn, proto je možno použít klasických odhadů Předpoklad normality v případě NaOH_2 splněn nebyl, proto bude nutno provést transformaci dat a k vyčíslení odhadů použít retransformované parametry . Ke zjištění možné chyby, vzniklé nedodržením základního pravidla pro zpracování asymetrických dat, bude vhodné porovnat retransformované odhady s klasickými a robustními odhady. Transformace dat použitím programu QCExpert 3.0 Box-Coxova transformace Exponenciální transformace Optimální parametr 3,0683 Optimální parametr -0,8105 Dolní mez parametru 1,6864 Zvolený parametr -0,8105 Ano Horní mez parametru 4,6512 Oprávněnost transformace 70,8153 Opravený průměr 50,3124 Věrohodnost bez transformace 75,1354 Interval spolehlivosti Věrohodnost s transformací Ano Spodní 50,2318 Oprávněnost transformace 99,6710 Horní 50,3790 Pravděpodobnost Zvolený parametr 3,0683 LCL 47,5310 75,1354 UCL 50,7178 Věrohodnost 50,2823 LWL 49,1945 Opravený průměr LCL Aproximací 47,6793 UWL 50,6235 UCL Aproximací 50,8240 LWL 49,9759 UWL 50,5008
Grafy k provedené transformaci
Obrázek 23: Box-Coxova transformace
Obrázek 24: Exponenciální transformace
Graf hustoty představuje tvar rozdělení, který nejlépe vystihuje data prostřednictvím transformace. Svislé čáry představují kvantily (hodnoty) odpovídající mediánu (50% kvantil), kvartilu (25% kvantily ohraničující 50% dat), ±2s (zhruba 2.5% kvantily ohraničující interval 95% dat), 0.5% kvantily ohraničující 99% dat a ±3s, ohraničující 99.73% dat (obr. 23, 24). -8-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Obrázek 29: QQ-graf před transformací
Obrázek 30: QQ-graf po transformaci
Obrázek 25: Graf věrohodnosti
Obrázek 26: Graf šikmosti
Graf logaritmu závislosti věrohodnostní funkce (osa y) na parametru r. Maximu odpovídá optimální hodnota r. Vodorovná přímka odpovídá spodní mezi 95% intervalu spolehlivosti maxima věrohodnosti a svislé přímky odpovídají intervalu spolehlivosti odhadu r. Obsahuje-li tento interval 1, není nutné transformovat. Zde interval jedničku neobsahuje, z toho plyne, že transformace byla oprávněná (obr. 25). Závislost šikmosti transformovaných dat na parametru transformace. Nulová šikmost odpovídá optimálnímu parametru. Význam tohoto grafu je podobný jako u předchozího grafu věrohodnosti, slouží k nalezení parametru transformace a určení statistické významnosti transformace. Leží-li průsečík svislé zelené přímky s křivkou mimo interval spolehlivosti šikmosti (vodorovné zelené přímky), je transformace opodstatněná (obr. 26).
Zobrazení dat před a po provedené transformaci
Obrázek 27: QQ-graf před tansformací
Obrázek 28: QQ-graf po transformaci
QQ-graf původních dat, shodný s QQ-grafem v Exploratorní analýze dat. Metoda transformace bývá užitečná jen pro systematicky prohnutý tvar bodů v QQ-grafu (obr. 27, 29). Proti statistikám má QQ-graf výhodu v možnosti vizuálního posouzení, zda je nelinearita (tedy odchylka od normality) způsobena jen několika body, nebo všemi daty. Po provedené transformaci je tvar bodů blíže přímce než na předešlém grafu, transformace je úspěšná (obr. 28, 30).
-9-
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Komentář k provedené transformaci Jelikož se na základě průzkumové analýzy dat zjistilo, že rozdělení výběru dat se systematicky odlišuje od rozdělení normálního, byla provedena Box-Coxova a Exponenciální transformace dat, která, vede ke stabilizaci rozptylu, zesymetričtění rozdělení. Vypočtené údaje byly přepočítány do původních souřadnic. Exponenciální transformace je založena na minimální asymetrii - nulové šikmosti a v případě Box-Coxovy transformace přiblížení k normalitě (vzhledem k šikmosti a špičatosti) je založeno na metodě maximální věrohodnosti. Zkoumaná data vykazují systematickou asymetrii, nikoli asymetrii způsobenou pouze několika vybočujícími body, proto dává transformace spolehlivější hodnoty statistických odhadů. Porovnání zjištěných hodnot odhadů parametrů Odhady parametrů NaOH_1 Klasické odhady Průměr 48,5506 Spodní mez 48,4346 Horní mez 48,6666 Rozptyl 0,1035 0,3218 Směr. odchylka Robustní odhady Medián 48,5150 IS spodní 48,3329 IS horní 48,6971 Medianová sm. odch. 0,0893 Medianový rozptyl 0,0080 Box-Coxova transformace Opravený průměr LCL Aproximací UCL Aproximací Exponenciální transformace Opravený průměr Spodní interval spolehlivosti Horní interval spolehlivosti LCL UCL LWL UWL -
Závěr a doporučení -10-
NaOH_2 50,2257 50,1306 50,3207 0,0977 0,3126 50,3000 50,1457 50,4543 0,0765 0,0059 50,2823 47,6793 50,8240 50,3124 50,2318 50,3790 47,5310 50,7178 49,1945 50,6235
Statistická analýza jednorozměrných dat Příklad 1 - Analýza velkých výběrů
Zdeněk Konvička 15. 11. 2001
Pomocí programu Qcexpert 3.0 byla provedena analýza předložených dat. Důraz byl kladen především na exploratorní analýzu a její grafické výstupy. Z grafů pro NaOH_1 je patrno, že se jedná o data z normálního (Gaussova) rozdělení, přičemž další testování odhalilo jejich závislost, která je pravděpodobně způsobena řízením ve výrobním procesu. Vzhledem k tomu, že se jedná o atesty dodávek suroviny, je nutno tuto skutečnost akceptovat s doporučením směrem k dodavateli, aby provedl kontrolu analytického procesu. Přestože byl odhalen jeden odlehlý bod, nebyl z důvodu možné ztráty informace o dodávce z analýzy vypuštěn. Jako odhad střední hodnoty je možno klasických parametrů. Proto můžeme s 95% statistickou jistotou tvrdit, že odhad střední hodnoty leží v intervalu LD = 48.4346 [%] a LH = 48.6666 [%] a je vyčíslen jako aritmetický průměr x = 48.5506 [%]. Naproti tomu data NaOH_2 jsou silně asymetrická a bylo nutno provést transformaci. Lépe vyhovovala transformace exponenciální a odhadem střední hodnoty je retransformovaný průměr, který má hodnotu xR = 50.3124 [%]. Opět lze tvrdit, že s 95% statistickou jistotou lze požadovanou střední hodnotu nalézt v intervalu LDR = 50.2318 [%] a LHR = 50.3790 [%]. Pokud porovnáme robustní odhady obou souborů dat, zjistíme, že směrodatné odchylky a rozptyl jsou si velmi podobné. Přestože pro výrobní proces je tento rozdíl málo významný, lze říci, že data NaOH_2 vyhovují lépe kvalitativním požadavkům na šířku koncentračního intervalu . Tento závěr vychází i z porovnání klasických parametrů, samozřejmě při respektování provedené transformace.
Literatura Milan Meloun, Jiří Militký: Statistické zpracování experimentálních dat, EASH PUBLISHING, a.s. 1998 Karen L. Acerson: Wordperfect for Windows, Grada 1992
-11-