INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
ANALÝZA ROZPTYLU JAKO ZÁKLADNÍ METODA MNOHONÁSOBNÉHO POROVNÁVÁNÍ STŘEDNÍCH HODNOT V RŮZNÝCH SOFTWAROVÝCH PRODUKTECH ANALYSIS OF VARIANCE AS A PRIMARY METHOD OF MULTIPLE COMPARISON OF EXPECTED VALUES IN DIFFERENT STATISTICAL SYSTEMS LÖSTER Tomáš, (ČR) ABSTRACT The aim of the paper is to present some of advantages and disadvantages of systems STATGRAPHICS Plus, SAS, MS Excel. Attention is devoted to analysis of variance and searching fractiles in those systems and their confrotnation. KEY WORDS analysis of variance, statistical systems, expected value, fractiles ÚVOD Analýza rozptylu je jedna ze základních statistických metod, pomocí níž lze zkoumat vztah mezi vysvětlovanými a vysvětlujícími proměnnými. Slouží zejména pro mnohonásobné porovnávání při zjištění významnosti rozdílů mezi skupinovými středními hodnotami. Používá se také například při vyhodnocování experimentálních dat. K jejímu provedení je možné využít některý z dostupných softwarových produktů. Tento článek porovnává možnosti systémů STATGRAPHICS Plus 3.1, MS Excel 2000 a SAS 8.0 při analýze rozptylu. TERMINOLOGIE Při analýze rozptylu jsou vysvětlované proměnné vždy kvantitativní. Vysvětlující proměnné jsou označovány jako faktory a nabývají malého počtu obměn, podle kterých lze hodnoty vysvětlovaných proměnných roztřídit do skupin. Analýza rozptylu může být členěna z různých hledisek např. podle počtu faktorů, podle počtu vysvětlovaných proměnných, atd. Při jednorozměrné analýze rozptylu (ANOVA) se předpokládá pouze jedna vysvětlovaná proměnná Y, variabilita této proměnné je vyjádřena jako součet čtverců. Vícerozměrná analýza rozptylu (MANOVA) zkoumá vliv alespoň jednoho faktoru na několik vysvětlovaných proměnných současně, variabilita je vyjádřena pomocí matic, kde součty čtverců tvoří hlavní diagonálu. Jednofaktorová analýza rozptylu zkoumá vliv jednoho faktoru na jednu nebo více vysvětlovaných proměnných (označováno také jako jednoduché třídění). Vícefaktorová analýza rozptylu zkoumá vliv alespoň dvou faktorů na jednu nebo více vysvětlovaných proměnných (označováno také jako dvojné, trojné třídění atd.)
1408
INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
SROVNÁNÍ SYSTÉMŮ PŘI ANALÝZE ROZPTYLU STATGRAPHICS PLUS Umožňuje jednoduchým způsobem zkoumat vztah mezi vysvětlovanými a vysvětlujícími proměnnými a zároveň provádět mnohonásobné porovnávání středních hodnot. Aplikace analýzy rozptylu je založena na výběru z předem nadefinovaných menu. Z výstupů je možné zjistit příslušné skupinové střední hodnoty, výběrové rozptyly, výběrové směrodatné odchylky, minima, maxima hodnot závislých proměnných v různých skupinách vzniklých tříděním podle faktoru, atd. V případě jednofaktorové analýzy rozptylu je z výstupu také patrné: rozklad celkové variability na meziskupinovou a vnitroskupinovou část, příslušné stupně volnosti, průměrný čtverec, hodnota testového kritéria a p-hodnota. Průměrný čtverec je určen jako podíl součtu čtverců a stupňů volnosti. P-hodnota je minimální hladina významnosti, na které je možné zamítnout nulovou o vztahu mezi veličinami. Systém STATGRAPHICS Plus také umožňuje v případě jednofaktorové analýzy rozptylu ověření předpokladů užití této metody (shoda rozptylů v různých skupinách). Ve výstupu je možné najít hodnotu testového kritéria Barttletova testu ověřující shodu rozptylů ve skupinách a příslušnou p-hodnotu, na jejímž základě lze podle jednoduchého pravidla přijmout závěr testu o shodě rozptylů . V případě, že je p-hodnota větší než zvolená hladina významnosti (obvykle α = 0,05), není možné zamítnout nulovou hypotézu Barttletova testu o shodně skupinových rozptylů. Pro případ nesplnění předpokladu normality systém umožňuje alternativu analýzy rozptylu v podobě Kruskal-Wallisova testu. Celkový F-test (testující vztah mezi proměnnými) však není příliš citlivý na porušení předpokladu normality a není ani příliš citlivý na porušení předpokladu homoskedasticity, pokud se jedná o vyvážená data (stejný počet hodnot ve skupinách). Systém neumožňuje ve výstupu vyhledat hodnotu poměru determinace. Vzhledem k jednoduchosti výpočtu podle vzorce (podíl meziskupinové variability na celkové variabilitě) je možné tuto hodnotu snadným způsobem dopočítat. V případě prokázání existence vlivu faktoru na číselnou proměnnou může následovat podrobnější analýza, která má zkoumat mezi kterými skupinami existují významné rozdíly. Kromě hypotézy H0: µh - µh´ = 0, pro různé h, h´ lze testovat i hypotézu o obecnější lineární kombinaci středních hodnot, tj. o nulovém kontrastu. Systém STATGRAPHICS Plus při mnohonásobném porovnávání, tj. při zkoumání významnosti rozdílů mezi skupinovými středními hodnotami nabízí metody: LSD (nejmenší významný rozdíl), Bonferroni, Turkey, Duncan, Newman-Keuls, Scheffé.
1409
INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
Ve výstupu jsou označeny hvězdičkou statisticky významné rozdíly mezi skupinovými středními hodnotami (na příslušné hladině významnosti), což je patrné z následujícího výstupu: Multiple Range Tests for Y_nafa_naKM by X2_r.obdobi -------------------------------------------------------------------------------Method: 95,0 percent LSD X2_r.obdobi Count Mean Homogeneous Groups -------------------------------------------------------------------------------2 4304 0,505125 X 1 5600 0,517023 X 4 5858 0,528844 X 3 4750 0,52912 X -------------------------------------------------------------------------------Contrast Difference +/- Limits -------------------------------------------------------------------------------1 - 2 *0,0118976 0,00244802 1 - 3 *-0,0120975 0,00238215 1 - 4 *-0,0118216 0,00225697 2 - 3 *-0,023995 0,00254143 2 - 4 *-0,0237191 0,00242448 3 - 4 0,000275897 0,00235796 -------------------------------------------------------------------------------* denotes a statistically significant difference.
Při aplikaci vícefaktorové analýzy rozptylu jsou testovány jednak hypotézy o tzv. hlavních efektech faktorů ale také hypotézy o efektu interakce faktorů, což vyplývá z následujícího výstupu. Systém také umožňuje nastavit řád interakce. Analysis of Variance for Y_nafa_naKM - Type III Sums of Squares -------------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value -------------------------------------------------------------------------------MAIN EFFECTS A:X2_r.obdobi 1,54084 3 0,513613 139,52 0,0000 B:X3_typ 2,33159 1 2,33159 633,37 0,0000 INTERACTIONS AB
0,0282033
3
0,0094011
2,55
0,0536
RESIDUAL 75,4803 20504 0,00368125 -------------------------------------------------------------------------------TOTAL (CORRECTED) 79,7037 20511 -------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.
I v případě vícefaktorové analýzy rozptylu systém STATGRAPHICS Plus umožňuje mnohonásobné porovnávání různými metodami jako např. LSD. Zkoumání vlivu jednoho nebo více faktorů na několik vysvětlovaných proměnných současně je v rámci nabídky Special – GLM. MS EXCEL MS Excel je tabulkový procesor, který umožňuje provádět statistické výpočty. Umožňuje také aplikovat analýzu rozptylu v nabídce „Analýza dat“ a to pouze jednofaktorovou a dvoufaktorovou. U jednofaktorové analýzy rozptylu je nutné zapisovat hodnoty číselné proměnné buď do řádků nebo do sloupců. Kromě základních charakteristik je ve výstupu možné, stejně jako v případě v systému STATGRAPHICS Plus, najít rozklad na meziskupinovou, vnitroskupinovou variabilitu, průměrný čtverec, stupně volnosti, hodnotu testového kritéria a p-hodnotu. Kromě těchto hodnot je možné ve výstupu systému MS Excel najít kritickou
1410
INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
hodnotu pro příslušný test o vztahu proměnných, tj. kvantil rozdělení F s (k-1) a (n-k) stupni volnosti. Rozklad variability na jednotlivé složky je označen: „Mezi výběry“ – meziskupinová variabilita, „Všechny výběry“ – vnitroskupinová variabilita a „Celkem“ – celková variabilita. „Rozdíl“ je označení pro stupně volnosti příslušné části variability, „MS“ je zkratka anglických termínů pro průměrný čtverec. Narozdíl od systému STATGRAPHICS Plus není možné ve výstupu najít hodnotu testového kritéria ani p-hodnotu pro Barttletův test, který ověřuje předpoklad užití analýzy rozptylu. Dalším předpokladem analýzy rozptylu je nezávislost výběrů. Jak již bylo uvedeno, lze však předpokládat, že v případě stejných rozsahů skupin není celkový F test příliš citlivý na porušení předpokladů o rovnosti skupinových rozptylů, proto absence Barttletova testu není zásadním nedostatkem tohoto systému. Stejně jako u předchozího systému není možné ve výstupu najít hodnotu poměru determinace, a proto je nutné tento poměr dopočítat. Příklad výstupu jednofaktrové analýzy rozptylu ze systému MS Excel: Anova: jeden faktor Faktor Výběr RO naftakm
Počet Součet Průměr Rozptyl 20512 51890 2,529739 1,366382 20512 10680,67 0,520704 0,003886
ANOVA Zdroj variability Mezi výběry Všechny výběry
SS 41395,49 28105,56
Celkem
69501,05
Rozdíl
MS F Hodnota P F krit 1 41395,49 60419,56 0 3,841677 41022 0,685134 41023
V případě, že jsou prokázány statisticky významné rozdíly mezi skupinovými středními hodnotami, v systému MS Excel není možné uskutečnit mnohonásobné porovnání, tj. nelze určit statisticky významný rozdíl skupinových průměrů pro dvě různé skupiny označené h a h´. MS Excel nabízí kromě jednofaktorové analýzy rozptylu také dvoufaktorovou analýzu rozptylu (s opakováním nebo bez opakování). Dvoufaktorová analýza rozptylu bez opakování předpokládá existenci dvou třídících faktorů s tím, že každá obměna faktoru je zastoupena pouze jednou (tj. každá dvojice úrovní faktorů se vyskytuje pouze jedenkrát) a uvedený model neuvažuje interakci faktorů. Tab. č. 1: Příklad vkládání hodnot dvoufaktorového modelu bez opakování
faktor řádkový/faktor sloupcový obměna č. 1 obměna č. 2 obměna č. 3 obměna č. 1 hodnoty číselné proměnné Y obměna č. 2 obměna č. 3
Příklad výstupu dvoufaktorové analýzy rozptylu bez opakování ze systému MS Excel:
1411
INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
ANOVA Zdroj variability Řádky Sloupce Chyba
SS 0,00949 6,85E-05 0,001214
Celkem
0,010772
Rozdíl
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
MS F Hodnota P F krit 3 0,003163 7,820291 0,062556 9,276619 1 6,85E-05 0,169309 0,708356 10,12796 3 0,000405 7
Dvoufaktorová analýza rozptylu s opakováním předpokládá existenci dvou třídících faktorů s tím, že každá úroveň faktoru může nabýt několika opakujících se obměn. Aplikace dvoufaktorové analýzy rozptylu je možná pouze pro vyvážené modely, tj. každá skupina má stejný počet pozorování. Uvažována je interakce mezi faktory. Tab. č. 2: Příklad vkládání hodnot dvoufaktorového modelu s opakováním
faktor řádkový/faktor sloupcový obměna č. 1 obměna č. 2 obměna č. 3 obměna č. 1 (skupina č. 1) obměna č. 2 (skupina č. 1) obměna č. 3 (skupina č. 1) hodnoty číselné proměnné Y obměna č. 1 (skupina č. 2) obměna č. 2 (skupina č. 2) obměna č. 3 (skupina č. 2)
Příklad výstupu dvoufaktorové analýzy rozptylu s opakováním ze systému MS Excel: ANOVA Zdroj variability Řádky Sloupce Chyba
SS 0,00949 6,85E-05 0,001214
Rozdíl
ANOVA Celkem 0,010772 Zdroj variability SS Výběr 0,011885 Sloupce 0,013307 Interakce 0,006565 Dohromady 0,050835 Celkem
0,082592
MS F Hodnota P F krit 3 0,003163 7,820291 0,062556 9,276619 1 6,85E-05 0,169309 0,708356 10,12796 3 0,000405
7 Rozdíl 3 1 3 24
MS F Hodnota P F krit 0,003962 1,870386 0,161568 3,008786 0,013307 6,282659 0,019371 4,259675 0,002188 1,03314 0,395638 3,008786 0,002118
31
Ani v případě dvoufaktorové analýzy rozptylu, jsou-li prokázány statisticky významné rozdíly mezi skupinovými průměry, není možné uskutečnit mnohonásobné porovnání, tj. nelze určit statisticky významný rozdíl skupinových průměrů pro dvě různé skupiny označené h a h´. Více než dva faktory při analýze rozptylu není možné v systému MS Excel spočítat.
1412
INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
SAS Statistický systém SAS ze zmiňovaných programových produktů nejdetailněji umožňuje aplikovat analýzu. Analýzu rozptylu je možné v tomto systému řešit přes procedury: • • • •
ANOVA (pro vyvážené modely) GLM (pro vyvážené a nevyvážené modely) MIXED (pro smíšené modely) Neparametrická ANOVA
V případě vyvážených modelů lze použít proceduru ANOVA. U jednofaktorové analýzy rozptylu výstup obsahuje základní informace, stejně jako v případě systémů STATGRAPHICS Plus i MS Excel, tj. rozklad celkové variability, výběrové charakteristiky atd. Na rozdíl od předchozích systémů je zde uvedena hodnota poměru determinace, která je označena jako R-square. Ve výstupu je také uveden Barttletův test pro shodnost rozptylů ve skupinách, Levenův test a Brownův-Forsythův test zabývající se rozptylem. Zkoumání vlivu jednoho nebo více faktorů na několik vysvětlovaných proměnných současně je v rámci procedury GLM. Při vícefaktorové analýze rozptylu jsou v systému SAS uvažovány interakce mezi faktory. Mnohonásobné porovnání v systému SAS je umožněno pomocí různých metod. Pro příklad lze uvézt Scheffého, Turkeyho, Bonferroniho, Sidakovu, Gabrielovu metodu atd. V systému SAS, v proceduře GLM je možné porovnávat všechny páry středních hodnot nebo vybrat kontrolní a porovnat s ostatními středními hodnotami. URČENÍ KRITICKÉ HODNOTY V JEDNOTLIVÝCH SYSTÉMECH Při řešení analýzy rozptylu bez užití softwarového produktu je nezbytné znát kritickou hodnotu (kvantil F rozdělení) pro přijmutí závěru o shodnosti středních hodnot skupin. Pro případ jednofaktorové analýzy rozptylu se jedná o kvantil rozdělení F s (k-1) a (n-k) stupni volnosti. Tuto hodnotu je možné najít v softwarovém produktu. Vyhledávání kvantilů u systémů STATGRAPHICS Plus, SAS a MS Excel je zcela odlišné a proto je vhodné uvézt způsoby, jak je možné tuto hodnotu vyhledat. STATGRAPHICS Plus – umožňuje rychlým způsobem najít hodnotu hledaného kvantilu na základě menu nabídky. Vyhledání konkrétní hodnoty je omezeno pouze na výběr příslušného rozdělení (F-rozdělení), stanovení příslušných stupňů volnosti a určení čísla P, které udává procento hledaného kvantilu. MS Excel – umožňuje vyhledat hodnotu hledaného kvantilu rozdělení F na základě statistické funkce. Každá statistická funkce, která se používá při vyhledávání kvantilu příslušného rozdělení má na konci svého názvu „INV“ a na začátku označení příslušného pravděpodobnostního rozdělení tak, jak jej systém MS Excel požaduje.
1413
INTERNATIONAL SCIENTIFIC DAYS 2006 "Competitivness in the EU – Challenge for the V4 countries"
Faculty of Economic and Management SAU in Nitra Nitra, May 17-18, 2006
Výsledná funkce pro případ hledaného kvantilu rozdělení F s (k-1) a (n-k) stupni volnosti má následující podobu: =FINV(P;k-1;n-k)
kde P je číslo stanovené na základě procenta hledaného kvantilu. V případě 95% kvantilu rozdělení F je číslo P stanoveno následujícím způsobem: 0,95 = 1 – P => P = 0,05. SAS – umožňuje vyhledat hodnotu kvantilu F s příslušnými stupni volnosti vložením vstupního kódu v následující syntaxi: data _NULL_; x=FINV(P,k-1,n-k); put x=; run;
kde číslo P udává procento hledaného kvantilu, zapsané tak, že desetinné místo je oddělené tečkou, např. „0.95“. ZÁVĚR Z uvedených postupů je patrné, že jednotlivé systémy se liší nejen podrobností výstupů, způsobem vkládání hodnot, ale také možností aplikace dané procedury. Nejmenší šíři aplikace má systém MS Excel, který umožňuje aplikovat analýzu rozptylu do maximálního počtu dvou faktorů, naopak nejvíce propracován je z hlediska analýzy rozptylu systém SAS. Systém STATGRAPHICS Plus umožňuje aplikovat analýzu rozptylu poměrně jednoduchým způsobem. Je zřejmé, že analýza rozptylu bez použití softwarových produktů je značně pracná. Z tohoto důvodu je vhodné využívat některý z nabízených systémů. Je však nutné využívat takový statistický software, s jehož použitím je možné získat odpovědi na zkoumané problémy. Pro odpovědi týkající se pouze existence vlivu faktorů postačí MS Excel, pro mnohonásobná porovnávání je nutné využít např. STATGRAPHICS Plus nebo systém SAS. LITERATURA: 1. ARLTOVÁ , M., BÍLKOVÁ, D., JAROŠOVÁ, E., POUROVÁ, Z.: Příklady k předmětu statistika A, VŠE, Praha 2003. 2. HEBÁK, P., HUSTOPECKÝ, J., JAROŠOVÁ, E., PECÁKOVÁ, I.: Vícerozměrné statistické metody (1), Informatorium, Praha 2004. 3. CHAJDIAK, J.: Štatistické úlohy a ich riešenie v Exceli, Statis, Bratislava 2005. 4. JAROŠOVÁ, E., PECÁKOVÁ, I.: Příklady k předmětu statistika B, VŠE, Praha 2000. 5. MAREK, L., a kol.: Statistika pro ekonomy aplikace, Profesional Publishing, a. Praha 2005. 6. ŘEZANKOVÁ, H.: Analýza kategoriálních dat, VŠE, Praha 2005. KONTAKTNÍ ADRESA: Ing.Tomáš Löster, Vysoká škola ekonomická v Praze, Fakulta informatiky a statistiky nám. W. Churchilla 4, 130 67 Praha 3, Česká republika,
[email protected]
Recenzent: doc. RNDr. Beáta Stehlíková, CSc. 1414