www.cz-milka.net
Přehled pojmů 1. Základy počtu pravděpodobnosti: Jev náhodný – jev, který v závislosti na náhodě může, ale nemusí při uskutečňování daného komplexu podmínek nastat. Náhoda – souhrn drobných, nezjistitelných nebo nekontrolovatelných příčin. Pokus náhodný – realizace určitého komplexu podmínek. Jev hromadný – jevy, které mohou být výsledkem opakovaných realizací komplexu základních podmínek. Jev jistý U – jev, který za daného komplexu podmínek nastává vždy. Jev nemožný V – jev, který za daného komplexu podmínek nemůže nastat nikdy. Sjednocení – jev spočívající v zastoupení alespoň jednoho z jevů A nebo B (A + B). Průnik – jev spočívající v současné realizaci jak jevu A, tak jevu B (A . B). Jev neslučitelný – jevy, jejichž průnik je jevem nemožným. Diagram Vennův – grafické znázornění vztahů mezi náhodnými jevy. Jev složený – jestliže jev A můžeme vyjádřit jako sjednocení dvou jevů B a C, z nichž žádný nebude roven jevu A. Prostor elementárních (prvotních) jevů – množina všech elementárních jevů. Pravděpodobnost klasická – může-li určitý pokus vykázat konečný počet n různých výsledků, které jsou stejně možné a jestliže m těchto výsledků má za následek nastoupení jevu. Pravděpodobnost statistická – při malém počtu pokusů má relativní četnost do značné míry náhodný charakter, s rostoucím počtem pokusů se však stabilizuje a přibližuje se k určitému konstantnímu číslu. Pravděpodobnost axiomatická – nejobecnější definice pravděpodobnosti, zahrnuje v sobě definici klasickou i statistickou. Věta o sčítání pravděpodobností – vyjadřuje pravděpodobnost sjednocení náhodných jevů. Věta o násobení pravděpodobností – vyjadřuje pravděpodobnost průniku jevů. Pravděpodobnost průniků jevů A a B je rovna součinu pravděpodobnosti jednoho z nich a podmíněné pravděpodobnosti druhého z nich, vypočtené za předpokladu, že prvý jev lze realizovat. Pravděpodobnost podmíněná – charakterizuje závislost náhodných jevů. Jev náhodný – charakterizuje výsledek náhodného pokusu kvalitativně (slovně). Veličina náhodná – charakterizuje výsledek náhodného pokusu kvantitativně. Proměnná, která nabývá konkrétních hodnot v závislosti na náhodě. Veličina náhodná diskrétní (nespojitá) – veličina, která nabývá pouze konečného nebo spočetného množství od sebe navzájem oddělených hodnot. Veličina náhodná spojitá – může nabývat libovolných hodnot z konečného či nekonečného intervalu. Zákon rozdělení náhodné veličiny – každé hodnotě nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že náhodná veličina nabude této hodnoty nebo hodnoty z tohoto intervalu. Řada rozdělení – nejjednodušší forma vyjádření zákona rozdělení pro diskrétní veličiny. Je to tabulka, v jejímž prvním řádku sou uvedeny všechny možné hodnoty diskrétní veličiny X a v druhém jim odpovídající pravděpodobnosti. Polygon rozdělení pravděpodobností – grafické znázornění řady rozdělení. Funkce distribuční – neuniverzálnější forma vyjádření zákona rozdělení, je jí možno použít pro diskrétní i spojité náhodné veličiny. Je to funkce, která každému reálnému číslu přiřazuje pravděpodobnost, že náhodná veličina nabude hodnoty menší než toto číslo. Paradox nulové pravděpodobnosti – pravděpodobnost výskytu libovolné konkrétní spojité náhodné veličiny je rovna nule. Funkce distribuční – grafické znázornění – grafem diskrétní náhodné veličiny je nespojitá schodovitá čára, grafem spojité náhodné veličiny spojitá křivka. Hustota pravděpodobnosti = diferenciální zákon rozdělení – derivace distribuční funkce F(X). Funkce distribuční sdružená – pravděpodobnostní chování systému náhodných veličin. Funkce distribuční marginální – funkce jednotlivých náhodných veličin. Charakteristiky polohy – určují střed rozdělení dané náhodné veličiny, kolem něhož jsou hodnoty náhodné veličiny soustředěny. Např. střední hodnota náhodné veličiny E(X) , rozptyl náhodné veličiny D(X). Charakteristiky variability – popisují kolísání či proměnlivost jednotlivých hodnot náhodné veličiny kolem příslušné střední hodnoty. Směrodatná odchylka – charakteristika variability, která má týž rozměr jako sledovaná náhodná veličina. -1-
www.cz-milka.net Rozdělení alternativní – tzv. nula-jedničkové veličiny, které lze například využít pro kvantifikaci výsledků pokusů, jež nelze číselně vyjádřit. Rozdělení binomické – rozdělení diskrétní náhodné veličiny, je rozdělením, které přestavuje počet výskytů jevu A při n nezávislých pokusech, přičemž pravděpodobnost jevu A je v každém pokusu konstantní. Pokusy nezávislé – pokusy, kdy pravděpodobnost libovolného výsledku každého pokusu nezávisí na výsledcích předcházejících pokusů. Rozdělení Poissonovo = zákon vzácných jevů – limitní případ binomického rozdělení, kdy počet pokusů je velmi velký a pravděpodobnost výskytu jevu A je velmi malá. Zákon vzácných jevů – jevy, které mají velmi malou pravděpodobnost výskytu, takže i v rozsáhlých souborech se vyskytují vzácně. Rozdělení hypergeometrické – vztahuje se k modelu, kdy předpokládáme, že v souboru N prvků jich má M určitou vlastnost. Ze souboru vybereme náhodně bez vracení n prvků. Lze ho nahradit biomickým (jestliže N→∞ a n a p zůstávají konstantní) nebo Poissonovým (je-li M/N<0,1 a n/N<0,1) Rozdělení normální (Gausssovo) – nejdůležitější typ rozdělení náhodných veličin, řídí se jím spojité náhodné veličiny. Grafem hustoty je tvz. Gaussova křivka. Rozdělení se zkráceně označuje N(µ,σ2). Křivka Gaussova – zvonovitá křivka, která je symetrická okolo přímky procházející střední hodnotou. Rozdělení normální normované – pokud µ=0 a σ2=1. Jeho hustota bývá tabelována Pravidlo tří sigma – v intervalu (µ-3σ, µ+3σ) se nacházejí prakticky všechny hodnoty této náhodné veličiny. Je téměř nemožné, aby se pozorované hodnoty této veličiny odchylovaly od střední hodnoty o více než 3σ.
2. Náhodný výběr Statistika – vědecká disciplína, která se zabývá soubory hromadných pozorování, jejich sběrem, analýzou a využitím pro racionální rozhodování a předpovědi. Soubor statistický – konečná neprázdná množina prvků, které mají z daného hlediska určité společné vlastnosti. Jednotky statistické – prvky statistického souboru. Rozsah souboru – počet statistických jednotek obsažených v daném souboru. Znaky statistické – veličiny sledované na statistických jednotkách = vyšetřovaná vlastnost statistického souboru. Soubor statistický jednorozměrný – na každé statistické jednotce se zjišťuje pouze jeden statistický znak. Soubor statistický vícerozměrný – zjišťujeme větší počet statistických znaků a zkoumáme jejich vzájemný vztah. Znaky kvantitativní – mohou nabývat pouze jednotlivých izolovaných (diskrétních) hodnot, dají se vyjádřit číselně. Znaky kvalitativní – jejich jednotlivé obměny se musí popsat slovně nebo definicí. Alternativní – mohou nabývat pouze dvou variant. Množné – mohou nabývat znaků „mnoho“. Soubor statistický – modifikovaná definice – konečný soubor zjištěných hodnot některé náhodné veličiny. Soubor základní – soubor všech statistických jednotek, může být konečný nebo nekonečný; obsahuje všechny jednotky, které by nás v určitém statistickém zpracování mohly zajímat. Soubor výběrový – nahrazuje (reprezentuje) základní soubor, není-li možné nebo vhodné provést úplné (vyčerpávající) zjišťování, zkoumáme základní soubor pomocí statistických jednotek, které byly ze základního souboru podle určitých zásad vybrány. Výběr záměrný – o výběru určitých statistických jednotek do výběrového souboru rozhodujeme subjektivní úvahou na základě nějakých logických důvodů. Výběr náhodný – o zařazení určitých statistických jednotek do výběrového souboru rozhoduje pouze náhoda, možnosti: losování, tabulky náhodných čísel, generátory náhodných čísel. Výběr náhodný prostý – volbu výběrového souboru provádíme tak, aby každý výběrový soubor o rozsahu n měl stejnou pravděpodobnost, že bude vybrán, například losování, tabulka náhodných čísel atd. Výběr náhodný prostý s vracením (s opakováním) – vybranou jednotku po provedeném šetření statistického znaku opět vrátíme do základního souboru. Výběr náhodný prostý bez vracení (bez opakování) – statistickou jednotku po zjištění statistického znaku již do základního souboru nevracíme. Prostor výběrový – množina všech možných výběrů. Výběr náhodný z jednorozměrného rozdělení – na každé statistické jednotce zjišťujeme pouze jeden statistický znak. Výběr náhodný z vícerozměrného rozdělení – na každé statistické jednotce zjišťujeme hodnoty k statistických znaků. -2-
www.cz-milka.net Charakteristiky statistické – ukazatele, jejichž výpočtem lze provést zhuštění informací (individuální údaje jsou nepřehledné). Čísla, která ve stručné a koncentrované formě popisují hlavní vlastnosti statistického souboru. Charakteristiky polohy – reprezentují vhodnou střední hodnotu daného souboru kolem níž se soustřeďují hodnoty tohoto souboru. Charakteristiky variability – měří rozptýlení hodnot příslušného souboru, určují rozmezí, v němž se výběrové údaje vyskytují, informují nás o kolísavosti souboru. Průměr – může být aritmetický, harmonický, geometrický, lze ho vyjádřit formou prostou (není-li provedeno třídění) nebo váženou (je-li provedeno třídění). Průměr aritmetický x – nejdůležitější a nejčastěji počítaná charakteristika polohy. Medián ~ x – prostřední hodnota řady pozorování, uspořádané podle velikosti. Je-li rozsah n vyjádřen lichým číslem, je medián hodnota s pořadovým číslem (n+1)/2. Je-li rozsah n vyjádřen sudým číslem, za medián se volí průměr dvou prostředních hodnot a mediánem je umělá hodnota. Modus xˆ – nejčetnější hodnota znaku, hodnota nejtypičtější pro daný soubor. Výběrové variační rozpětí R – rozdíl největší a nejmenší hodnoty znaku. Charakteristiky variability absolutní – měřeno pomocí výběrového rozptylu a výběrové směrodatné odchylky. Charakteristiky variability relativní – pro srovnání variability statistického znaku dvou nebo více soborů, které se výrazně liší úrovní znaku, nebo chceme-li porovnat variabilitu několika statistických znaků vyjádřených v různých měrných jednotkách. Systematizace – setřídění pozorovaných hodnot velikosti a zjistíme, kolikrát se která hodnota vykytuje. Výsledek se zapisuje do tabulky rozdělení četností. Četnosti – udávají, kolikrát se která hodnota znaku v souboru vyskytuje. Rozdělení četností prosté (relativní, kumulativní) – sledování nespojitého statistického znaku. Rozdělení četností intervalové (skupinové) – při sledování spojitého statistického znaku, variační rozpětí se rozdělí na určitý počet intervalů a zjistí se počty hodnot znaku patřících do těchto intervalů. Pravidlo Sturgesovo – pravidlo sloužící k určení počtu tříd intervalů při rozdělení četností. Histogram četností – grafické znázornění rozdělení četností, obrazec tvořený pravoúhlými rovnoběžníky, jejichž základny mají délku zvolených intervalů a jejichž výšky mají velikost příslušných třídních četností. Polygon četností – grafické znázornění rozdělení četností, lomená čára, která vznikne spojením středů horních stran jednotlivých rovnoběžníků histogramu. Kvantity – hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí. Kvartily – dělí uspořádaný soubor na čtyři stejně obsazené části. První kvartil (dolní) odděluje 25% nejmenších hodnot. Prostřední kvartil je totožný s mediánem a dělí výběr na dvě stejně obsazené části. Třetí (horní) kvartil odděluje 25% největších hodnot znaku. Decily – dělí uspořádaný soubor na deset stejně obsazených částí. Percentily – dělí datový soubor na sto stejně obsazených částí. Rozpětí kvartilové – diference horního a dolního kvartilu. Odchylka kvartilová – polovina kvadrilového rozpětí. Pětičíselný souhrn statistik – podává rychlou a přehlednou informaci o poloze, variabilitě i případné asymetričnosti rozložení hodnot zkoumaného statistického souboru. Zahrnuje dolní kvartil, medián, horní kvartil, minimální hodnotu a maximální hodnotu. Boxplot – grafické znázornění pětičíselného souhrnu statistik. Pozorování odlehlá – hodnoty, které jsou od horního nebo dolního kvartilu vzdáleny více než 1,5 násobek kvadrilového rozpětí. Pozorování odlehlá – důvody – údaje se do souboru dostaly v důsledku nějakých hrubých chyb (měření, zápisu atd.), pozorování nepocházejí z téhož základního souboru, správný údaj reprezentovaný mimořádným případem. Aritmetický průměr výběrový – náhodná veličina, jejíž střední hodnota je rovna střední hodnotě sledovaného statistického znaku X, ale její rozptyl je n-krát menší než rozptyl tohoto statistického znaku. Rozdělení výběrová – rozdělení χ2 (chí-kvadrát), studentovo t-rozdělení, F-rozdělení (Fischerovo Snedecorovo)
3. Teorie odhadu Indukce statistická – souhrn metod, které umožňují zkoumat náhodný výběr a činit závěry o základním souboru. Teorie odhadu – určení typu rozdělení sledovaného znaku respektive některých charakteristik a to na základě výběrových dat. Odhady parametrů – možno provést dvěma metodami: bodový odhad, interval spolehlivosti. -3-
www.cz-milka.net Odhad bodový – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru základního souboru. Interval spolehlivosti – uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru základního souboru. Odhad bodový – požadavky – odhadová statistika musí být nestranná, konzistentní, vydatná, postačující. Odhad bodový nestranný – statistika T dává nestranný odhad charakteristiky θ, jestliže E(T)=θ. Je-li E(T)>θ, statistika T dává pozitivně vychýlený odhad. Je-li E(T)<θ, statistika t dává negativně vychýlený odhad. Odhad bodový konzistentní – s rostoucím rozsahem výběru roste pravděpodobnost, že hodnota odhadu populační charakteristiky se liší od skutečné hodnoty populační charakteristiky nepatrně. Odhad bodový vydatný – statistika T dává vydatný (nejlepší nestranný) odhad populační charakteristiky θ, jestliže má ze všech nestranných odhadů charakteristiky θ nejmenší rozptyl. Odhad bodový postačující – statistika T je postačující, jestliže obsahuje všechny informace o populační charakteristice θ => neexistuje-li žádná další statistika, která by obsahovala o odhadované populační charakteristice nějakou další informaci. Odhad bodový – typy – bodový odhad průměru základního souboru, bodový odhad rozptylu základního souboru. Odhad intervalový – na základě náhodného výběru určíme meze intervalu, který s předem danou pravděpodobností obsahuje neznámou hodnotu populační charakteristiky. Spolehlivost – pravděpodobnost, s jakou v daném intervalu spolehlivosti budou konkrétní hodnoty obsažené. Meze spolehlivosti – hranice intervalu spolehlivosti. Přesnost odhadu – délka intervalu daného souboru, maximální chyba, které se můžeme dopustit při určité pravděpodobnosti. Spolehlivost odhadu = koeficient spolehlivosti – pravděpodobnost, že interval spolehlivosti obsahuje neznámou populační charakteristiku. Označuje se 1–α. Hladina významnosti – pravděpodobnost α. Interval spolehlivosti – lze udat trojím způsobem – omezeny pouze shora, omezeny pouze zdola, omezeny zdola i shora. Interval spolehlivosti jednostranný – omezeny pouze shora, omezeny pouze zdola. Interval spolehlivosti dvoustranný – omezeny zdola i shora. Interval pravostranný – omezen shora. Interval levostranný – omezen zdola. Odhad intervalový – typy – intervalový odhad průměru základního souboru, intervalový odhad rozptylu σ2 normálně rozděleného základního souboru, intervalový odhad parametru p alternativního rozdělení. Odhad intervalový – průměru základního souboru – Přípustná chyba ∆ – vyjadřuje se v závislosti na tom, zda je nám rozptyl základního souboru σ2 znám, či pouze odhad s2, zda se jedná o výběr s opakováním nebo bez opakování, či zda jde o dvoustranný nebo jednostranný interval spolehlivosti. Náhodný výběr dvoufázový – 1. fáze předvýběr, zkusmo provedeme menší náhodný výběr, z něhož vypočteme rozptyl a požadovaný rozsah souboru pro výběr s opakováním a bez opakování. 2. fáze – pokud m
4. Testování statistických hypotéz Indukce statistická – představuje soubor metod, pomocí nichž můžeme pomocí náhodného výběru formulovat určité závěry o vlastnostech základního souboru. Hypotéza statistická – každé tvrzení o tvaru nebo charakteristikách rozdělení jednoho či několika statistických znaků. -4-
www.cz-milka.net Test statistické hypotézy – postup, jímž na základě náhodného výběru ověřujeme, zda tato hypotéza platí či nikoliv. Hypotézy parametrické – týkají se hodnot parametrů rozdělení. Testy parametrické – slouží k ověřování parametrických hypotéz. Hypotézy neparametrické – tvrzení o zákonu rozdělení základního souboru Testy neparametrické – slouží k ověřování neparametrických hypotéz. Hypotéza nulová – testovaná statistická hypotéza, označuje je H0. Hypotéza alternativní – hypotéza, která popírá platnost nulové hypotézy, přijímáme ji tehdy, jestliže jsme nulovou hypotézu zamítli jako nesprávnou. Hypotéza může být vymezena jako oboustranná alternativa (H1: θ≠ θ0) nebo jednostranná, respektive pravostranná a levostranná (H1: θ>θ0 a H1: θ<θ0) Kriterium testové = statistika testová – informaci obsaženou v náhodném výběru shrneme pomocí nějaké statistiky. Je to míra nesouladu výsledků pokusu s testovanou hypotézou. Je-li testové kritérium rovno nule, odpovídají výběrová data nulové hypotéze. Od nuly se kriterium odchyluje tím více, čím více se výběrové hodnoty odklánějí k H1. Obor kritický K – obor zamítnutí nulové hypotézy. Je tvořen třemi možnými hodnotami testové statistiky T, jejichž výskyt je za předpokladu platnosti nulové hypotézy málo pravděpodobný. Pokud vypočtená hodnota statistiky patří do K, zamítáme nulovou hypotézu, protože jev se neměl uskutečnit, za platnosti nulové hypotézy měl velmi nízkou pravděpodobnost, jelikož však nastal, je tím platnost nulové hypotézy zpochybněna a proto ji zamítáme. Obor přijetí – je tvořen těmi možnými hodnotami testové statistiky T, které nejsou v rozporu s nulovou hypotézou. Pokud vypočtená hodnota statistiky patří do oboru přijetí, nezamítáme nulovou hypotézu. Hodnoty kritické – hodnoty, jimiž je oddělen obor přijetí od oboru kritického. Chyba 1. druhu – jestliže vypočtená hodnota testového kriteria T padal do kritického oboru K a zamítneme tedy nulovou hypotézu, i když ta je správná. Chyba 2. druhu – znamená nezamítnutí nulové hypotézy, i když není správná. Pokud nulová hypotéza neplatí, ale vlivem náhody jsme dostali výsledek kdy testové kriterium T nepadlo do K a nulovou hypotézu nezamítáme. Pravděpodobnost chyby 1. druhu = hladina významnosti – označuje se α a udává výši rizika, s jakým se nulová hypotéza zamítá, i když platí. Pravděpodobnost chyby 2. druhu = síla testu – značí se β. Hodnota 1–β vyjadřuje pravděpodobnost správného zamítnutí testované hypotézy. Testy významnosti – statistické testy, které bezprostředně berou v úvahu pouze pravděpodobnost chyby 1. druhu. Hladina významnosti – volba – je libovolná, ale čím menší je α, tím je test přísnější a nulovou hypotézu je obtížnější zamítnout. Testy parametrické – test hypotézy o rozptylu normálního rozdělení, test hypotézy o průměru normálního rozdělení (jednovýběrový t-test), test hypotézy o parametru p alternativního rozdělení, srovnání rozptylů dvou normálních rozdělení (F-test), porovnání průměrů dvou normálních rozdělení, párový t-test, test hypotézy o parametrech p1 a p2 dvou alternativních rozdělení, porovnání průměrů více než dvou normálních rozdělení (analýza rozptylu), mnohonásobné porovnávání (podrobnější hodnocení výsledků analýzy rozptylu), porovnání rozptylů více než dvou normálních rozdělení. Test hypotézy o rozptylu normálního rozdělení – řeší problematiku posouzení přesnosti měřících přístrojů, zařízení, strojů atd., respektive posouzení stability technologických procesů. Test hypotézy o průměru normálního rozdělení = jednovýběrový t-test – kdy na základě náhodného výběru o rozsahu n, provedeného ze základního souboru s normálním rozdělením, máme ověřit hypotézu, že průměr µ v základním souboru je roven určité konstantní hodnotě. Test hypotézy o parametru p alternativního rozdělení – v sérii n nezávislých opakování náhodného pokusu se nějaký náhodný jev A, který má stálou, ale neznámou pravděpobnost p, vyskytl m-krát. Výsledek takové skupiny n opakování pokusu lez považovat za náhodný výběr o rozsahu n ze základního souboru, který má alternativní rozdělení s parametrem p. Srovnání rozptylů dvou normálních rozdělení = F-test – provádíme-li měření určité veličiny v různých podmínkách. Porovnání průměrů dvou normálních rozdělení – porovnáváme například hektarové výnosy dvou odrůd určité plodiny, užitkovost dvou různých plemen krav, spotřebu pohonných hmot u motorů dvou různých typů, korozi materiálu při dvou různých způsobech úpravy povrchu atd. Provádí se za předpokladu nezávislosti výběrových souborů. Dvě varianty – test hypotézy při stejných rozptylech = Dvouvýběrový t-test, test hypotézy při nestejných rozptylech = Welchův test. Dvouvýběrový t-test – oba rozptyly jsou stejné. -5-
www.cz-milka.net Welchův test – předpoklad, že rozptyly se značně liší. Párový t-test – je-li předpoklad, že výběrové soubory jsou závislé každý prvek jednoho výběru tvoří pár s určitým prvkem druhého výběru. Například zjišťování velikosti určitého znaku u téže statistické jednotky ve dvou časových okamžicích. Test hypotézy o parametrech p1 a p2 dvou alternativních rozdělení – pracujeme-li se dvěma velkými soubory (rozsah řádově větší než 100). Porovnání průměrů více než dvou normálních rozdělení = analýza rozptylu – řeší se problém, zda rozdíly mezi m disponibilními výběrovými soubory jsou pouze náhodné, nebo zda se mezi nimi projevují nějaké systematické odchylky. Analýza rozptylu – etapy – zpravidla se provádí ve dvou etapách. V první etapě pomocí analýzy rozptylu testujeme nulovou hypotézu. Pokud jí nezamítneme, výpočet končí. Pokud dojde k zamítnutí nulové hypotézy, ve druhé etapě je nutno vyřešit otázku, které soubory se od sebe významně liší. Analýza rozptylu – představuje zobecnění dvouvýběrového t-testu na případ více než dvou výběrů. Používá se, sledujeme-li vliv jednoho nebo několika faktorů na zkoumaný kvantitativní statistický znak. Analýza rozptyly při jednoduchém třídění – zkoumáme vliv pouze jediného faktoru na daný statistický znak. Naměřené hodnoty třídíme do skupin podle úrovní faktoru. Tečkový způsob zápisu součtů a průměrů – umožňuje přehlednější vyjádření vzorců užívaných v analýze rozptylu. Mnohonásobné porovnávání = podrobnější hodnocení výsledků analýzy rozptylu – při zamítnutí nulové hypotézy v analýze rozptylu je závěr, že neplatí shoda mezi porovnávanými průměry, příliš neurčitý, proto je nutné výsledky analýzy rozptylu doplnit podrobnějšími informacemi pomocí metod mnohonásobných porovnávání. Scheffého metoda = S-metoda – jedna z metod mnohonásobných porovnávání, je univerzálně použitelná. Tukeyova metoda = T-metoda – jedna z metod mnohonásobných porovnávání, je citlivější na rozdíly mezi středními hodnotami, vyžaduje, aby pokusný plán byl vyvážený. Porovnání rozptylů více než dvou normálních rozdělení – Bartlettův test, Hartleyův test. Testy dobré shody – předpoklad, že základní soubor, z něhož analyzovaný náhodný výběr pochází, má rozdělení určitého typu, testy nulové hypotézy „náhodný výběr pochází z daného rozdělení“. Test shody χ2 – jeden z nejfrekventovanějších testů dobré shody, při jeho provádění se výběrové výsledky nejdříve rozdělí do k disjunktních tříd s četností a poté se vypočtou teoretické (očekávané) četnosti. Lze ho použít pro ověřování shody s libovolným typem rozdělení. Četnosti empirické – výběrové výsledky rozdělené do k disjunktních tříd. Test normality Davidův – jeden z testů dobré shody, lze ho použít pro stanovení nulové hypotézy „náhodný výběr pochází z normálního rozdělení“. Testy neparametrické – situace, kdy se setkáváme s výběrem poměrně malého rozsahu, který pochází z výrazně nenormálních souborů nebo ze souborů, o jejichž rozdělení nic nevíme. Jejich hlavní předností je nezávislost na tvaru rozdělení studovaných veličin, jsou použitelné pro studium znaků kvantitativních i kvalitativních a jsou jednoduché na výpočet. Jejich nedostatkem je menší síla, která je částečně kompenzována širšími možnostmi použití. Test dvouvýběrový Wilcoxonův – představuje neparametrickou analogii dvouvýběrového t-testu. Slouží k testu hypotézy, že dva nezávislé výběry pocházejí ze stejného základního souboru proti alternativě, že se významně liší svou polohou. Výběrové hodnoty uspořádáme podle velikosti a přiřadíme jim pořadová čísla (očíslujeme od nejmenší k největší, stejně velkým hodnotám přiřadíme stejné průměrné pořadí). Zjistíme součky a vypočteme veličiny. Test Wilcoxonův – je neparametrickou analogií párového t-testu. Používáme ho tehdy, chceme-li ověřit, zda se dva párové (závislé) výběry významně liší svou polohou. Pro každou dvojici závislých pozorování se vypočte diference a absolutním hodnotám diferencí přiřadíme pořadová čísla (nulové diference vynecháme). Sečteme pořadová čísla kladných diferencí a záporných diferencí. Test Kruskal-Wallisův – neparametrická obdoba jednoduché analýzy rozptylu. Umožňuje test hypotézy, že m nezávislých výběrů s rozsahy pochází z téhož rozdělení. Hodnoty m seřadíme do rostoucí posloupnosti, určí se pořadí. Metody mnohonásobného porovnávání neparametrické – jsou obdobou S-metody nebo T-metody v případě analýzy rozptylu. Při práci s vyváženým pokusným plánem doplníme Kruskalův-Wallisův test doplnit Neményiho metodou mnohonásobného pozorování. Metoda mnohonásobného pozorování Neményiho – slouží k doplnění Kruskal-Wallisova testu. Test náhodnosti – předpokladem je náhodnost uspořádání analyzovaného výběru. Předpoklad musí být ověřen některým testem náhodnosti, například test založený na bodech zvratu. -6-
www.cz-milka.net
5. Korelační a regresní analýza – statistická analýza vztahů mezi veličinami Korelace = závislost – slouží k určení míry závislosti. Analýza korelační – ukazuje, jak je silný vztah mezi sledovanými veličinami. Analýza korelační – zabývá se vzájemnými závislostmi, kdy se klade důraz především na sílu (intenzitu) vzájemného vztahu. Analýza korelační – důvody užitečnosti – čím jsou určité veličiny těsněji vázány, s tím větší pravděpodobností lze očekávat, že změny jedné veličiny budou mít za následek změny veličiny s ní statisticky vázané; stupeň vázanosti náhodných veličin charakterizuje, jaká je vypovídací schopnost užitého regresního modelu. Korelace – označuje míru stupně závislosti dvou proměnných. Dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Koralce formální – když se zjišťuje korelace procentuálních charakteristik, jež se navzájem doplňují do 100%. Nehomogenita – populace, kterou studujeme, obsahuje subpopulace, pro něž se průměrné hodnoty proměnných X a Y liší. Příčina společná – vztahy mezi některými mírami těla. Korelace zdánlivé – jsou způsobené časovým faktorem nebo faktorem modernizace u dvou řad údajů. Proměnné rušivé (matoucí) – korelují jak s cílovou proměnnou, tak s proměnnou ovlivňující, nelze rozlišit vliv matoucí a sledované ovlivňující proměnné na cílovou proměnnou. Závislost příčinná (kauzální) – jeden jev (příčina) vyvolává existenci (vznik, změnu, zánik apod.) jevu druhého. Jeden jev podmiňuje jev jiný. Výskyt určitého jevu souvisí (má za následek, vyvolává) s existencí jiného jevu. Koeficient korelační Pearsonův – nejdůležitější míra síly vztahu dvou náhodných spojitých proměnných X a Y. Vyjadřuje pouze sílu lineárního vztahu, je velmi ovlivněn odlehlými hodnotami, nerozlišuje mezi závisle a nezávisle proměnnou, není úplným popisem dat při velmi silném lineárním vztahu. Koeficient korelační – vlastnosti – <-1, 1>, pokud |r| = 1 leží všechny body na nějaké přímce, pokud r = 0 nazýváme X a Y nekorelované proměnné, pokud r < 0 tak se Y v průměru zmenšuje. Těsnost závislosti r – r < 0,3 nízká, 0,3 ≤ r < 0,5 mírná, 0,5 ≤ r < 0,7 význačná, 0,7 ≤ r < 0,9 velká, 0,9 ≤ r < 1 velmi vysoká. Koeficient determinance – druhá mocnina koeficientu korelace, udává, jaké procento rozptýlení empirických hodnot závisle proměnné je důsledkem rozptylu teoretických hodnot závisle proměnné odhadnuté na základě regresní přímky. Index determinance – udává, jaké procento rozptýlení empirických hodnot závisle proměnné je důsledkem rozptylu teoretických hodnot závisle proměnné odhadnutých na základě příslušné regresní funkce. Těsnost závislosti r2 – r2 < 10% nízká, 10% ≤ r2 < 25% mírná, 25% ≤ r2 < 50% význačná, 50% ≤ r2 < 80% velká, 80% ≤ r2 velmi vysoká. Index korelace – poskytuje stejné informace o těsnosti závislosti jako index determinance, ale má menší vypovídací schopnost. Měří míru těsnosti závislosti mezi náhodnými veličinami X a Y. Používá se k měření těsnosti závislosti pro libovolnou regresní funkci, jejíž parametry byly odhadnuty metodou nejmenších čtverců. Poměr determinance (korelační) – udává, jaké % rozptylu závisle proměnné lze vysvětlit vlivem nezávisle proměnné X. Je to odmocnina z poměru determinance. Korelační koeficient výběrový – poskytuje bodový odhad korelačního koeficientu základního souboru, není to odhad nestranný, ale je asymptoticky nestranný a konzistentní. Koeficient pořadové korelace Spearmanův – neparametrická charakteristika, jeho využití není vázáno na splnění předpokladu dvourozměrné normality základního souboru ani předpokladu linearity regrese. Měří těsnost jakékoliv statistické závislosti, která je monotónní. Přichází v úvahu hlavně při malém počtu pozorování, je velmi důležité provést test významnosti koeficientu. Měří sílu vztahu X a Y, když nemůžeme předpokládat linearitu očekávaného vztahu nebo normálního rozdělení proměnných X a Y. <-1, 1> Analýza regresní a korelační – soubor postupů a metod, dovolujících řešení otázky závislosti dvou nebo většího počtu veličin. Analýza regresní a korelační – cíle – popis statistických vlastností vztahu dvou nebo více proměnných. Analýza regresní – zabývá se jednostrannými závislostmi, kdy proti sobě stojí vysvětlují (nezávisle) proměnná v úloze příčin a vysvětlovaná (závisle) proměnná v úloze následků. Jde o přesnější popis tvaru vztahu mezi proměnnými X a Y a charakterizování jeho vhodnosti pro predikci hodnot závisle proměnné pomocí hodnot nezávisle proměnné. Analyzujeme vztah mezi jednou proměnnou zvanou cílová (závislá, Y) a několika dalšími, které nazýváme nezávislé (ovlivňující, X). Úloha regresní – zjistit formu závislosti a vyjádřit jí matematickou (regresní) funkcí. -7-
www.cz-milka.net Úloha korelační – určit stupeň síly s jakou se daná závislost projevuje uprostřed různých rušících vedlejších faktorů. Závislost – funkční a statistická. Závislost funkční – dané hodnotě jednoho znaku odpovídá jediná hodnota druhého znaku a naopak. Závislost statistická – závislost, kdy dané hodnotě jednoho znaku odpovídá několik hodnot druhého znaku. Závislost jednoduchá – závislost pouze mezi dvěma náhodnými veličinami X a Y. Závislost vícenásobná (mnohonásobná) – závislost veličiny Y na více jak dvou veličinách X. Proměnná – vysvětlovaná (závisle), vysvětlující (nezávisle). Prokládání dat přímkou – pokud graf ukáže lineární vztah mezi proměnnými, hledáme přímku, jež je experimentálním bodům co možná nejblíže. Odchylka náhodná (reziduální) = náhodná chyba – odchylka i-tého pozorování veličiny Y. Odchylka reziduální – rozdíl mezi naměřenou a očekávanou hodnotou. Parametry – stanovení – metodou nejmenších čtverců. Koeficient regresní (teoretický) – značí se β, charakterizuje průměrnou změnu závisle proměnné, jež odpovídá změně nezávisle proměnné o jednu její jednotku. Je-li kladný, dochází s růstem hodnot nezávisle proměnné X v průměru také k růstu závisle proměnné Y. Je-li záporný, dochází při růstu hodnot nezávisle proměnné v průměru k poklesu hodnot závisle proměnné. Závislost pozitivní = přímá – s růstem hodnot nezávisle proměnné X v průměru dochází k růstu závisle proměnné Y. Závislost negativní = nepřímá – při růstu hodnot nezávisle proměnné dochází v průměru k poklesu hodnot závisle proměnné. Metoda nejmenších čtverců – postup stanovení parametrů u jednoduché lineární závislosti. Slouží k získávání bodových odhadů a, b parametrů α, β regresní přímky. Metoda vychází z požadavku, aby součet čtverců odchylek pozorovaných hodnot veličiny Y od odhadované regresní funkce byl minimální. Metoda nejmenších čtverců – předpoklady – regresní parametry β mohou nabývat libovolných hodnot, regresní model je lineární v parametrech, vysvětlující proměnné jsou nenáhodné a bez funkční lineární závislosti, rušivé složky jsou normálně rozdělené nezávislé náhodné veličiny s nulovými středními hodnotami a s konstantním rozptylem, náhodné chyby mají nulovou střední hodnotu a konstantní a konečný rozptyl a jsou vzájemně nekorelované. Přímka odhadu – je nejlepším odhadem teoretické regresní přímky α+βx. Rozptýlenost bodů kolem přímky – charakterizována zbytkovým (reziduálním) rozptylem nebo směrodatnou chybou odhadu při regresi. Hodnoty empirické (pozorované) – zjištěné hodnoty proměnné Y. Hodnoty vyrovnané (teoretické) – hodnoty vypočtené z rovnice regresní přímky. Odchylky – odchylka mezi empirickými a vyrovnanými hodnotami se nazývá reziduum. Rezidua – odchylka mezi empirickými a vyrovnanými hodnotami. Přímka regresní – popisuje průběh závislosti veličiny Y na veličiny X, tzv. regresi Y na X. Závislost jednostranná – veličina X má jednoznačně charakter příčiny (nezávisle proměnná) a veličina X vystupuje jako následek (závisle proměnná). Závislost oboustranná – nelze-li jednoznačně rozhodnout, která z obou veličin je nezávisle proměnná, a která závisle proměnná. Má tedy smysl uvažovat závislost v obou směrech. Interpolace – předmětem zájmu je některá z použitých kombinací vysvětlujících proměnných. Extrapolace – pozornost je upřena na hodnotu proměnné Y pro předpokládané budoucí nebo výzkumně zajímavé kombinace hodnot proměnné Y. Pás konfidenční (spolehlivosti) – ohraničují ho dvě větve hyperboly, nachází se okolo regresní přímky. Test rovnoběžnosti – zjišťuje, zda obě regresní přímky jsou rovnoběžné. To by znamenalo, že v obou sledovaných souborech se v důsledku změn nezávisle proměnné mění závisle proměnná v průměru stejně. Regrese nelineární – metody odhadu parametrů jsou numericky velmi zdlouhavé. Některé je možné převést na lineární tvar. Odhad regresní přímky intervalový – interval spolehlivosti, který s danou pravděpodobností pokrývá hledanou regresní přímku základního souboru. Model – významnost – pokud F-test i všechny t-testy jsou nevýznamné, je model považován za nevhodný (nevystihuje variabilitu proměnné y). Pokud F-testi všechny t-testy jsou významné, model je vhodný k vystižení proměnné y. Pokud F-test je významný a t-testy u některých regresních parametrů nevýznamné, model je považován za vhodný a provádí se případné vypouštění vysvětlujících proměnných, pro které jsou parametry β -8-
www.cz-milka.net nevýznamně odlišné od nuly. Pokud F-test vychází významný a t-testy parametrů β indikují nevýznamnost všech vysvětlujících proměnných, jde o důsledek multikolinerarity. Diagnostika regresní – provádí se v případě, kdy nejsou splněny předpoklady o datech a regresním modelu a kdy není metoda nejmenších čtverců vhodná ke stanovení regresních parametrů. Obsahuje postupy k identifikaci kvality dat pro navržený model, kvality dat pro daná data a splnění předpokladů metody nejmenších čtverců. Analýza průzkumová – využívá se metod pro určení statistických zvláštností, k posouzení párových vztahů, k ověření předpokladů o rozdělení. Součástí je stanovení volby rozsahu a rozmezí dat, jejich variability a přítomnosti vybočujících pozorování. Umožňuje identifikovat nevhodnost dat, nesprávnost navrženého modelu, multikolinearitu, nenormalitu v případě, kdy jsou vysvětlující proměnné náhodné veličiny. Data – kvalita – výskyt vlivných bodů, zkreslení odhadů a růst rozptylů. Tři skupiny: hrubé chyby způsobené měřenou veličinou, body s vysokým vlivem, které byly přesně změřeny a které obvykle rozšiřují schopnosti modelu, zdánlivě vlivné body vzniklé jako důsledek nesprávně navrženého regresního modelu. Pozorování vybočující – na ose y se výrazně liší od ostatních. Extrém – liší se v hodnotách na ose x nebo v jejich kombinaci. Rezidua – základní diagnostický nástroj při hodnocení kvality regresní funkce a dat a obecněji i při posuzování oprávněnosti předpokladů zvoleného lineárního regresního modelu. Je to lineární kombinace všech chyb. Rezidua klasická – rozdíly mezi skutečnými a odhadnutými hodnotami vysvětlované proměnné Y. Jsou korelovaná, s nekonstantním rozptylem, jeví se normálnější. Rezidua predikovaná – počítaná bez i-tého pozorování, jsou zbavena vlivu tohoto pozorování, je vypočteno jako rozdíl skutečné hodnoty a takto odhadnuté hodnoty. Jsou korelovaná, mají normální rozdělení s nulovou střední hodnotou a s nestejným rozptylem. Rezidua normovaná – jsou to normálně rozdělené veličiny s nulovou střední hodnotou a jednotkovým rozptylem. K jejich ocenění se používá pravidlo tří sigma, hodnoty větší jsou brány za vybočující. Rezidua standardizovaná – mají konstantní rozptyl, nulovou střední hodnotu a jednotkový rozptyl. Rezidua Jackknife – alternativa standardizovaných reziduí, mají za předpokladu normality chyb Studentovo rozdělení s n-m-1 stupni volnosti, používají se pro odhalení neznámých příliš vlivných či podezřelých pozorování. Rezidua nekorelovaná – jsou lineární transformací klasických reziduí se stejným reziduálním součtem čtverců. Rezidua rekurzivní (dopředná nebo zpětná) – umožňují identifikovat nestabilitu modelu. Grafická analýza reziduálních hodnot – graf závislosti reziduí na indexu i, graf závislosti reziduí na proměnné xi, graf závislosti reziduí na predikci y’i. Bod odlehlý – leží mimo základní konfiguraci bodů v grafu. Pozorování vlivná – body, jejichž vynecháním dochází k zásadní změně regresních charakteristik. Je nutné je identifikovat, protože jsou-li chybné, dochází ke značnému zkreslení regresních výsledků. Analýza regresní lineární – postup – návrh modelu, předběžná analýza dat, odhadování parametrů, regresní diagnostika, konstrukce zpřesněného modelu, zhodnocení kvality modelu, testování různých hypotéz. Model zcela lineární – předpokládá součtový vliv všech činitelů a regresní funkcí je rovnice nadroviny Y = β0 + β1X1 + … + βkXk + ε, ve které β0 je absolutní člen a β1, β2,… , βk jsou strukturní parametry nebo též (dílčí) regresní koeficienty. Model racionální celistvé a lomené funkce – nejznámější je model regresní paraboly s-tého stupně Y = β0 + β1X1 + β2X2 + … + βsXs + ε a zvláště regresní parabola druhého stupně, kdy s = 2. Častý je také model regresní hyperboly s-tého stupně Y = β0 + β1X-1 + β2X-2 + … + βsX-s + ε a její speciální případ, kdy s = 1. Model lineární v parametrech – je zobecněním jiných modelů, Y = β0 + β1f1 + … + βRfr + ε, každá vysvětlující proměnná je zastoupena právě jedním regresorem. Modely převoditelné transformací na lineární model – předpoklad obecně součinového regresního modelu Y = εη, ve kterém η je regresní funkce (hypotetická) a ε rušivá složka. Časté je použití lineární exponenciální regresní funkce η = β0β1X nebo η = exp(β0 + β1X), modelu kvadratické exponenciály ve tvaru η = exp(β0 + β1X + β2X2 + ε), obecného lineárně-exponenciálního regresního modelu s k vysvětlujícími proměnnými zapsaného ve tvaru exp(β0 + β1X + … + βkXk + ε). Modely nelineární z hlediska parametrů – je možné je třídit například podle stupně a formy nelinearity, pro jednu vysvětlující proměnnou bývá zvykem funkce třídit podle tvaru křivky. Model vnitřně lineární – nelineární regresní model, který lze vhodnou transformací převést na lineární. Funkce regresní nelineární – typy křivek – aditivní – kvadratická, kubická, lineární lomená, kvadratická lomená, iracionální, logaritmická, multiplikativní – exponenciální, mocninná. Analýza v nelineárním modelu – intervalové odhady parametrů, testy hypotéz o odhadech parametrů, těsnost proložení regresní křivky, statistická analýza reziduí, grafická analýza reziduí. -9-
www.cz-milka.net Mnohonásobná regrese a korelace – umožňuje studovat, jak několik faktorů (nezávislých respektive vysvětlujících proměnných) ovlivňuje současně závisle proměnnou Y (vysvětlovanou). Regrese mnohonásobná – je prostředkem zkoumání statistické závislosti pomocí modelu, jenž zahrnuje jednu závisle proměnnou a několik nezávisle proměnných. Regresní koeficienty dílčí – udávají odhad toho, jak by se změnila v průměru vysvětlovaná (závisle) proměnná Y při jednotkové změně vysvětlující proměnné před tečkou, za předpokladu konstantní úrovně proměnných uvedených za tečkou. Koeficient dílčí regrese – udává průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné x1 za předpokladu, že ostatní sledované nezávisle proměnné jsou konstantní. Vzorce rekurentní – postup, ve kterém se dílčí regresní koeficient určitého řádu vyjadřuje pomocí několika koeficientů o řád nižších. Tečky – v indexu koeficientu dílčí regrese jsou před tečkou uvedeny dvě proměnné – na prvním místě závisle proměnná, jejíž změnu koeficient vyjadřuje, na druhém místě nezávisle proměnná, u níž je uvažována změna o příslušnou měrnou jednotku. Za tečkou jsou uváděny další zúčastněné nezávisle proměnné, jejichž vliv je vyloučen, přičemž nezáleží na pořadí. Koeficient vícenásobné korelace – měří těsnost závisle proměnné Y na všech vysvětlujících proměnných. Koeficient mnohonásobné korelace – vyjadřuje společné působení nezávisle proměnných na závisle proměnnou a určuje spolehlivost regresního odhadu. Je třeba změřit sílu závislosti mezi závisle proměnnou a jednotlivou nezávisle proměnnou při vyloučení vlivu ostatních nezávisle proměnných. Koeficienty parciální (dílčí) korelace – slouží ke změření síly závislosti mezi závisle proměnnou a jednotlivými nezávisle proměnnými při vyloučení vlivu ostatních nezávisle proměnných. Test významnosti výběrového koeficientu mnohonásobné korelace – znamená ověření hypotézy o nulovém korelačním koeficientu mnohonásobné korelace v základním souboru. Průkaznost vícenásobné regresní funkce – je ověřována pomocí analýzy rozptylu. Hodnoty reziduální – zobrazují se pomocí grafu stonku a listu nebo pomocí normálního grafu. Body vlivné – podstatně ovlivňují odhady regresních koeficientů. Pozorování vybočující – nezvyklé konfigurace hodnot týkající se společného rozdělení nezávislých proměnných. Hodnoty odlehlé – nápadně velké reziduální hodnoty upozorňující na špatnou predikci závisle proměnné. Multikolinearita – silná vzájemná závislost vysvětlujících proměnných. Multikolinearita – identifikace – jednoduché korelační koeficienty dvojic vysvětlujících proměnných, determinant korelační matice, použití kritéria M, Farrarův-Glauberův test. Multikolinearita – důsledky – nadhodnocení součtu čtverců regresních koeficientů, zvyšuje rozptyly odhadů (=> snižuje přesnost odhadů, nízké hodnoty, rozpor mezi nevýznamnými výsledky testů, nestabilní odhady regresních koeficientů), komplikuje interpretaci, způsobuje numerické potíže. Multikolinearita – odstranění – pořídit kvalitnější data, maximálně využít všechny informace o regresním modelu a jeho parametrech. Vlivná pozorování mohou maskovat nebo zakrýt existenci multiokolinearity => identifikovat a případně vyloučit příliš vlivná pozorování. Regrese dopředná (forward) – proměnné se do modelu postupně přidávají Regrese zpětná (backward) – proměnné se z modelu postupně odebírají. Regrese Stepwisse (stupňovitá) – sleduje, co by se stalo, kdyby vysvětlující proměnné byly vybírány do regresní funkce v jiném pořadí. Rovnice se postupně slučují a určují se nová rezidua, postup končí, když žádná závislost rezidua není statisticky významná. Kódování efektů – přiřazujeme všem kódovaným proměnným, které reprezentují jednotlivé úrovně faktoru A, číslo 1 pro danou úroveň a jinak nulu až na jednu vybranou úroveň, jíž je pro všechny kódovací proměnné přiřazena hodnota –1. Kódování kontrastů – používá se za hodnoty jedné kódovací proměnné jakákoli množina čísel, jejíž součet dává nulu, s další podmínkou, že žádný sloupec (obsahující hodnoty pro kódovací proměnnou) nesmí být možné vyjádřit jako kombinaci ostatních sloupců (přesněji lineární kombinaci ostatních sloupců). Kódování – výhody – možnost míchat různé typy proměnných, možné pružněji zařazovat nezávisle proměnné do analýzy, zprůhledňuje přístup k analýze rozptylu. Model obecný lineární – model lineární regresní analýzy rozšířený o indikátorové kódovací proměnné a příslušné interakční ceny. Analýza kovariance – statistická metoda, která kombinuje vlastnosti a principy analýzy rozptylu a rozšiřuje některé možnosti využití lineárních regresních modelů. Zkoumá závislosti ve složitém souboru proměnných Základem je rozšíření nebo modifikace modelu analýzy rozptylu. Dalším cílem je očištění studované závislosti vysvětlovaných proměnných. - 10 -
www.cz-milka.net Analýza kovariance – typy proměnných – jedna nebo několik vysvětlujících proměnných, jedna nebo několik vysvětlovaných proměnných, jedna nebo více doprovodných proměnných. Analýza kovariance – předpoklady – náhodnost výběru, nezávislost výběru, normální rozdělení, homoskedasticita, lineární závislost Y na X, shoda regresních koeficientů (rovnoběžnost regresních přímek). Homoskedasticita – stejné rozptyly ve všech populacích.
6. Analýza kategoriálních dat Data kategoriální – kvalitativní znaky, např. zaměstnání, pohlaví, typ auta atd. Data se zachycují pomocí jedno, dvou nebo vícerozměrných tabulek četností nebo relativních četností. Závislost kategoriálních proměnných – zabývá se statistickou analýzou četností tabulek, jde o analogii korelační analýzy spojitých proměnných a o podobnost s analýzou rozptylu. V případě analýzy četnostních tabulek považujeme obě kategoriální proměnné za náhodné a v analýze rozptylu posuzujeme vliv faktoru na chování náhodné závisle proměnné. Kontingence – zabývá se zkoumáním vztahu mezi množnými znaky, které mají větší počet obměn. Tabulka kontingenční – hodnotíme tabulky dvoudimenzionální, tabulky vzniklé tříděním podle dvou proměnných. Předpokládáme, že každá jednotka může být klasifikována podle dvou proměnných. V tabulce zkoumáme vzájemný vztah dvou proměnných. Hypotéza homogenity – předpokládá, že pravděpodobnostní rozdělení kategoriální proměnné B je stejné v různých populacích, které jsou identifikovány faktorem A. V testech dobré shody nám pak jde o shodu rozdělení kategoriální proměnné Hypotéza nezávislosti – obě proměnné A a B se považují za náhodné proměnné, přičemž předpokládáme jejich úplnou nezávislost. Hodnota proměnné A neovlivňuje podmíněné rozdělení proměnné B a naopak. Hypotéza nulová – obě proměnné jsou na sobě stochasticky nezávislé. Koeficient kontingence Pearsonův – koeficient průměrné čtvercové kontingence C, slouží ke změřeni těsnosti závislosti. Koeficient Cramerův (Cramerovo V) – měří sílu závislosti. Koeficient kontingence Čuprovův – měří sílu závislosti. Tabulka asociační – tabulka 2x2. Test χ2 – využívá se v asociační tabulce pokud n > 40, nebo pokud 20 < n ≤ 40 a není-li žádná očekávaná četnost menší než 5. V kontingenční tabulce ho NElze použít, pokud je více než 20% teoretických četností menší než 5. Test Fischerův – využívá se v asociační tabulce pokud n ≤ 20 nebo pokud 20 < n ≤ 40 a některá z teoretických četností je menší než 5. Přímka asociační – vyjadřuje závislost podílu prvků s jedním znakem na podílu prvků s druhým znakem. Koeficient asociace V (rab) – výpočtem shodný s korelačním koeficientem v případě jednoduché lineární závislosti. Koeficient asociace Yuleův – je obdobou koeficientu asociace V (rab). Koeficient koligace – je obdobou koeficientu asociace V (rab). Proměnné dichotomické – proměnné, které jsou zkoumány dvakrát, před pokusem a po něm, týká se především osob. Test McNemarův – prověřuje homogenitu rozdělení alternativních dat dvou závislých výběrů, je speciálním případem znaménkového testu pro dvě závislé skupiny. Vztah výsledků obou měření zobrazujeme četnostní tabulkou typu 2x2. Test Cochranův – prověřuje hypotézu homogenity ve více závislých výběrech alternativních dat. Test podle Bowkera – je zobecněním McNemarova testu, jedná se o test symetrie v tabulce typu n x n. Testuje se, zda alespoň pár pravděpodobností symetricky položených políček v tabulce n x n nacházejících se mimo diagonálu se od sebe liší.
7. Analýza časových řad Řada časová – posloupnost věcně a prostorově srovnatelných pozorování, která jsou jednoznačně uspořádána z hlediska času ve směru minulost – přítomnost. Analýza časových řad – soubor metod, které slouží k popisu těchto dynamických systémů (a případně k předvídání jejich budoucího chování). Řada časová – dělení – podle rozhodného časového hlediska, podle periodicity, podle druhu sledovaných ukazatelů, podle způsobou vyjádření údajů. Řada časová – podle rozhodného časového hlediska – intervalové, okamžikové. - 11 -
www.cz-milka.net Řada časová – podle periodicity, s jakou jsou údaje v řadách sledovány – roční (dlouhodobé), krátkodobé. Řada časová – podle druhu sledovaných ukazatelů – časové řady absolutních ukazatelů, časové řady odvozených charakteristik (součtové, průměrné, poměrové). Řada časová – podle způsobu vyjádření údajů – časové řady naturálních ukazatelů, časové řady peněžních ukazatelů. Řada časová – intervalová – velikost ukazatele závisí na délce intervalu, za který je sledován, musí se vztahovat ke stejně dlouhým intervalům. Řada časová – okamžiková – sestavovány z ukazatelů, které se vztahují k určitému okamžiku. Řada časová – srovnatelnost údajů z hlediska věcného (údaje stejně obsahově vymezené), prostorového (údaje vztahující se ke stejným geografickým územím), časového (údaje se mají vztahovat ke stejně dlouhým intervalům), cenového (použití běžných nebo stálých cen). Diference první (absolutní) – rozdíl dvou po sobě jdoucích členů řady, charakterizuje přírůstek hodnoty ukazatele časové řady v určitém období proti období bezprostředně předcházejícímu. Diference druhé (absolutní) – určují zrychlení na základě porovnávání absolutních přírůstků. Tempo růstu – určuje poměr mezi daným a předchozím členem časové řady. Koeficient růstu – index růstu vyjádřený v procentech, udává, o kolik procent vzrostla hodnota časové řady v časovém okamžiku t proti období předcházejícímu. Index růstu průměrný – úhrnná charakteristika relativních změn pro celou časovou řadu, je geometrickým průměrem z jednotlivých koeficientů růstu. Tempo přírůstku – ukazatel zkoumání dynamiky časové řady, představuje porovnání prvního absolutního přírůstku (první diference) s příslušnou hodnotou časové řady. Koeficient zrychlení – vyjádření rychlosti změn v časových řadách. Indexy bazické – zjišťují, k jakým změnám dochází v časové řadě vzhledem k základnímu období. Modelování časových řad – jednorozměrné (klasický formální model, Boxova-Jenkinsova metodologie, spektrální analýza), vícerozměrné modely. Model jednorozměrný klasický (formální) – jde pouze o popis forem pohybu, vychází z dekompozice řady na čtyři složky (trendovou, periodickou (sezónní nebo cyklickou) a náhodnou. Tvar aditivní – yt = Tt + Pt + εt Tvar multiplikativní – yt = Tt . Pt . εt Řada časová periodická – yt = Tt + Pt + εt Řada časová sezónně zatížená – yt = Tt + St + εt Řada časová neperiodická – když Pt = 0, St = 0 Řada časová stacionární – Tt = k. Trend – hlavní tendence dlouhodobého vývoje hodnot analyzovaného ukazatele v čase (rostoucí, klesající, konstantní). Složka sezónní – pravidelně se opakující odchylka od trendu, vyskytující se u časových řad údajů s periodicitou kratší než jeden rok nebo rovnou právě jednomu roku. Složka cyklická – nazývá se kolísání okolo trendu v důsledku dlouhodobého cyklického vývoje s délkou vlny delší než jeden rok. Složka náhodná – nelze jí popsat žádnou funkcí času a která zbývá po vyloučení trendu, sezónní a cyklické složky, jejím zdrojem jsou drobné, vzájemně nezávislé a v jednotlivostech nepostižitelné příčiny. Metodologie Boxova-Jenkinsova – považuje za základní prvek konstrukce modelu časové řady náhodnou složku. Analýza spektrální – časovou řadu považujeme za směs sinusovek a kosinusovek o rozličných amplitudách a frekvencích. Vyrovnání neperiodických časových řad – graficky, mechanicky klouzavými průměry, analyticky trendovými funkcemi. Průměry klouzavé – spočívá v nahrazení skutečných hodnot časové řady průměrem z určitého počtu hodnot. Nejpřesnější je tehdy, když pro výpočet volíme počet hodnot časové řady, který se rovná délce daného cyklu. Řada časová neperiodická – klouzavé průměry počítáme zpravidla z nepárového počtu hodnot, např. tříleté, pětileté, sedmileté atd. Řada časová periodická – s cyklickým kolísáním se doporučuje počítat klouzavé průměry z 2k, respektive 2(k+1) období. Průměry klouzavé centrované – počítají se buď jako jednoduchý aritmetický průměr ze dvou sousedních klouzavých průměrů nebo přímo ze zjištěných hodnot časové řady jako chronologický průměr. Funkce trendové – pro vyrovnávání se používají křivky, zejména lineární, kvadratická, logaritmická, exponenciální, mocninná, odmocninná, kombinovaná, logistická. - 12 -
www.cz-milka.net Funkce – výběr – porovnání absolutních nebo relativních diferencí bezprostředně po sobě následujících hodnot časové řady. Funkce lineární – absolutní přírůstky jsou konstantní. Funkce exponenciální – pro stejné absolutní přírůstky časové proměnné t relativní přírůstky analyzované proměnné zůstávají stálé. Funkce logaritmická – absolutní přírůstky analyzované proměnné jsou přímo úměrné relativním přírůstkům časové proměnné t. Funkce mocninná – relativní přírůstky sledované proměnné jsou přímo úměrné relativním přírůstky časové proměnné t. Trend lineární – lze jej použít, když je potřeba určit alespoň orientačně základní směr vývoje časové řady nebo může soužit v určitém omezeném časovém intervalu jako vhodná aproximace jiných trendových funkcí. Trend exponenciální modifikovaný – ve vývoji má asymptotu, podíly sousedních hodnot prvních diferencí údajů analyzované řady jsou přibližně konstantní. Trend logistický – původně odvozena jako křivka vyjadřující biologický růst populací za podmínek omezených zdrojů, patří mezi trendové funkce s kladnou horní asymptotou a jedním inflexním bodem. S-křivka – trendová funkce s kladnou horní asymptotou a jedním inflexním bodem, vymezuje na časové ose pět základních vývojově odlišných fází cyklu. Křivka Gompertzova – patří do skupiny s-křivek, ale je asymetrická. Volba vhodného modelu – střední chyba odhadu (ME), střední čtvercová chyba (MSE), RMSE, střední absolutní chyba (MAE), střední procentuální chyba (MPE), střední absolutní procentuální chyba (MAPE). Kritéria interpolační – vhodný model trendu hledáme na základě analýzy časové řady v minulosti. Kritéria extrapolační – smyslem popisu trendu časové řady je konstrukce extrapolačních prognóz budoucího vývoje. Složka sezónní – soubor přímých či nepřímých příčin, které se opakují. Výkyvy sezónní – pravidelné výkyvy zkoumané řady nahoru a dolů vůči určitému „nesezónnímu“ normálnímu vývoji řady v průběhu let. Model sezónnosti konstantní – nejjednodušší vyjádření sezónnosti, předpokládá, že velikost sezónní složky časové řady je v jednotlivých sezónách (měsících) rozdílná, zatímco v jednotlivých za sebou následujících letech zůstává konstantní. Model sezónnosti proporcionální – předpokládá, že velikost sezónní složky se v dané sezóně j a v jednotlivých letech i mění úměrně s dosaženou úrovní trendu, takže sezónní složka je přímo úměrná (proporcionální) složce trendové. Model sezónnosti smíšené – předpokládá, že určitá část sezónních výkyvů je konstantní a část sezónních výkyvů je úměrná velikosti trendu. Test hypotézy o existenci sezónnosti – procedura, která testuje oprávněnost zařazení sezónního parametru do modelu. Intenzita kolísání sezónního – měří se pomocí absolutních sezónních odchylek a sezónních indexů. Odchylky absolutní – jsou definované jako rozdíl mezi empirickými hodnotami a aritmetickým průměrem. Je možné je použít jako míru pro vyjádření velikosti periodického kolísání. Použijí se když není závislost mezi vývojem průměrů a kolísáním sezónní složky prokázána. Hodnoty vyrovnané – stanovené například pomocí klouzavých průměrů nebo některou metodou analytického vyrovnávání, aritmetickým průměrem, absolutními odchylkami, průměrnými sezónními indexy, standardizací průměrných sezónních indexů (výsledkem jsou sezónní faktory). Index sezónní – používá se na měření sezónnosti, když je prokázána kladná závislost mezi sezónní složkou a vyrovnanými hodnotami (průměry). Index sezónní průměrný – chceme-li odstranit nebo zmenšit složku náhodného kolísání. Faktory sezónní – hodnoty, které jsou výsledkem standardizace průměrných sezónních indexů. Hodnoty vyrovnané – aritmetický průměr skutečných hodnot za období celé periody sezónního cyklu, vyrovnané hodnoty stanovené pomocí klouzavých průměrů nebo některou metodou analytického vyrovnávání. Očištění sezónní – výpočtem klouzavých průměrů, určením sezónních indexů, očištěním údajů. Periodogram – soupis všech hodnot teoretických rozptylů, je založen na vyjádření původních hodnot časové řady ve formě goniometrických funkcí při zahrnutí interference vlnění. Metoda zbytku – způsob, jak v sezónně očištěné časové řadě rozpoznávat cyklické výkyvy, předpokladem použití je nalezení vhodného trendu původních údajů řady a jejich sezónní očištění. Následuje určení odchylek sezónně očištěných údajů od trendu a vyjádření odchylek v procentech. - 13 -
www.cz-milka.net Interpolace – přibližné určení chybějící hodnoty sledovaného ukazatele časové řady za předpokladu, že známe jeho sousední hodnoty. Lze provést prostřednictvím použití dvou sousedních hodnot (aritmetický průměr sousedních hodnot nebo součin předcházející hodnoty časové řady a průměrného koeficientu růstu) nebo prostřednictvím využití více či všech hodnot časové řady, kdy pomocí metody nejmenších čtverců určíme parametry trendové funkce, ze kterých potom odhadneme chybějící údaj. Extrapolace – konstrukce předpovědí budoucího vývoje zkoumaného ukazatele, určení hodnot časové řady za interval známých hodnot časové řady. Chyba předpovědi modelová – chyba ex ante – nevíme, jaký vývojový mechanismus bude chování předvídané veličiny v budoucnu. Chyba vlastního prognostického modelu – chyba ex post – nelze získat bezchybnou předpověď. Předpověď bodová – odhad vyjádřený jediným číslem a získaný přímým dosazením časového údaje, pro který má být předpověď provedena, do trendové funkce. Předpověď intervalová – zohlednění náhodného kolísání a vyjádření přípustné chyby odhadu. Předpovědní rozpětí – konstrukce – všechny přijatelné modely časové řady lze uspořádat extrémně v tom smyslu, že část z nich bude představovat optimistické bodové předpovědi a část předpovědi pesimistické. Mezi těmito extrémy se mohou objevit i předpovědi kvalitativně neutrální. Rozpětí předpovědní – obor hodnot, který vznikne, když se hodnoty předpovězené jednotlivými přijatými modely transformují tak, aby vycházely ze stejného místa na počátku předpovědi (z referenčního bodu, referenční hodnoty), a u každého z těchto modelů se převedou jím prognózované hodnoty na tempa růstu, která se aplikují na referenční bod. Chyba předpovědi absolutní – jednoduchý způsob hodnocení přesnosti odhadů, rozdíl mezi předpovídanou a skutečnou hodnotou pro daný čas a horizont předpovědi. Předpověď podceňující – pokud je absolutní chyba předpovědi menší než nula. Předpověď nadceňující – pokud je absolutní chyba předpovědi větší než nula. Chyba předpovědi čtvercová – nezáporná veličina, hraniční nulové hodnoty nabývá v případě bezchybných předpovědí. Chyba předpovědi průměrná – odmocnina z čtvercové chyby předpovědi. Koeficient nesouladu Theilův – míra variability relativních chyb předpovědi. Chyba předpovědi relativní – odmocnina z koeficientu nesouladu T. Složka náhodná – výsledek působení blíže nespecifikovaného souboru náhodných (stochastických) vlivů. Jejím zdrojem jsou náhodné vlivy, které se v rámci časové řady vykompenzují. Šum bílý – pokud náhodné poruchy s nulovými středními hodnotami mají konstantní rozptyl a jsou vzájemně lineárně nezávislé. Heteroskedasticita náhodných poruch – předpokládá se, že náhodné poruchy s nulovými středními hodnotami jsou vzájemně nezávislé s měnlivými rozptyly. Porucha náhodná – v čase t se skládá ze dvou složek: ze složky závislé na předchozí poruše a z náhodné složky. Test autokorelace Durbin-Watsonův – ověřujeme, zda jsou náhodné poruchy nezávislé. Modely adaptivní (s měnlivými parametry) – neobjasňují kauzální mechanismus vývoje analyzované proměnné, popisují její průběh v čase, nepředpokládají stabilitu analytického tvaru ani strukturálních parametrů v čase ani spojitost trendové funkce. Vychází z předpokladu, že pro konstrukci prognózy budoucího vývoje mají cenu nejnovější pozorování časové řady. Nejnovějším pozorováním přiřazují největší váhu, berou v úvahu „stárnutí“ informací. Vyrovnávání exponenciální – Brownovým exponenciálním vyrovnáváním, Holtovým lineárním exponenciálním vyrovnáváním, Wintersovým sezónním vyrovnáváním. Vyrovnávání exponenciální Brownovo – pracuje s vyrovnávací konstantou z intervalu (0, 1) jednoduché (trend je možno považovat v krátkých úsecích za konstantní), dvojité = lineární (trend se v časové řadě modeluje po částech přímkou), trojité = kvadratické (trend v časové řadě je popisován po částech parabolou). Vyrovnávání exponenciální lineární Holtovo – odhadují se zde dvě vyrovnávací konstanty z intervalu (0, 1). Vyrovnávání sezónní Wintersovo – pokrývá vedle trendu rovněž sezónní složku, vychází se z multiplikativního modelu. Korelace zdánlivá – někdy je možné pozorovat silnou závislost mezi proměnnými i v případě, kdy mezi proměnnými ve skutečnosti závislost buď skoro nebo vůbec neexistuje. Dochází k ní proto, že obě proměnné vykazují stejný lineární trend. Autokorelace – korelace mezi sousedními odchylkami od trendu. Korelace opožděná – vliv určitého jevu na jiný jev se neprojevuje ve stejných obdobích, ale často až po určité době, tj. po uplynutí jednoho, dvou nebo více období. - 14 -
www.cz-milka.net
Přehled pojmů 1. Základy počtu pravděpodobnosti: Jev náhodný – jev, který v závislosti na náhodě může, ale nemusí při uskutečňování daného komplexu podmínek nastat. Náhoda – souhrn drobných, nezjistitelných nebo nekontrolovatelných příčin. Pokus náhodný – realizace určitého komplexu podmínek. Jev hromadný – jevy, které mohou být výsledkem opakovaných realizací komplexu základních podmínek. Jev jistý U – jev, který za daného komplexu podmínek nastává vždy. Jev nemožný V – jev, který za daného komplexu podmínek nemůže nastat nikdy. Sjednocení – jev spočívající v zastoupení alespoň jednoho z jevů A nebo B (A + B). Průnik – jev spočívající v současné realizaci jak jevu A, tak jevu B (A . B). Jev neslučitelný – jevy, jejichž průnik je jevem nemožným. Diagram Vennův – grafické znázornění vztahů mezi náhodnými jevy. Jev složený – jestliže jev A můžeme vyjádřit jako sjednocení dvou jevů B a C, z nichž žádný nebude roven jevu A. Prostor elementárních (prvotních) jevů – množina všech elementárních jevů. Pravděpodobnost klasická – může-li určitý pokus vykázat konečný počet n různých výsledků, které jsou stejně možné a jestliže m těchto výsledků má za následek nastoupení jevu. Pravděpodobnost statistická – při malém počtu pokusů má relativní četnost do značné míry náhodný charakter, s rostoucím počtem pokusů se však stabilizuje a přibližuje se k určitému konstantnímu číslu. Pravděpodobnost axiomatická – nejobecnější definice pravděpodobnosti, zahrnuje v sobě definici klasickou i statistickou. Věta o sčítání pravděpodobností – vyjadřuje pravděpodobnost sjednocení náhodných jevů. Věta o násobení pravděpodobností – vyjadřuje pravděpodobnost průniku jevů. Pravděpodobnost průniků jevů A a B je rovna součinu pravděpodobnosti jednoho z nich a podmíněné pravděpodobnosti druhého z nich, vypočtené za předpokladu, že prvý jev lze realizovat. Pravděpodobnost podmíněná – charakterizuje závislost náhodných jevů. Jev náhodný – charakterizuje výsledek náhodného pokusu kvalitativně (slovně). Veličina náhodná – charakterizuje výsledek náhodného pokusu kvantitativně. Proměnná, která nabývá konkrétních hodnot v závislosti na náhodě. Veličina náhodná diskrétní (nespojitá) – veličina, která nabývá pouze konečného nebo spočetného množství od sebe navzájem oddělených hodnot. Veličina náhodná spojitá – může nabývat libovolných hodnot z konečného či nekonečného intervalu. Zákon rozdělení náhodné veličiny – každé hodnotě nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že náhodná veličina nabude této hodnoty nebo hodnoty z tohoto intervalu. Řada rozdělení – nejjednodušší forma vyjádření zákona rozdělení pro diskrétní veličiny. Je to tabulka, v jejímž prvním řádku sou uvedeny všechny možné hodnoty diskrétní veličiny X a v druhém jim odpovídající pravděpodobnosti. Polygon rozdělení pravděpodobností – grafické znázornění řady rozdělení. Funkce distribuční – neuniverzálnější forma vyjádření zákona rozdělení, je jí možno použít pro diskrétní i spojité náhodné veličiny. Je to funkce, která každému reálnému číslu přiřazuje pravděpodobnost, že náhodná veličina nabude hodnoty menší než toto číslo. Paradox nulové pravděpodobnosti – pravděpodobnost výskytu libovolné konkrétní spojité náhodné veličiny je rovna nule. Funkce distribuční – grafické znázornění – grafem diskrétní náhodné veličiny je nespojitá schodovitá čára, grafem spojité náhodné veličiny spojitá křivka. Hustota pravděpodobnosti = diferenciální zákon rozdělení – derivace distribuční funkce F(X). Funkce distribuční sdružená – pravděpodobnostní chování systému náhodných veličin. Funkce distribuční marginální – funkce jednotlivých náhodných veličin. Charakteristiky polohy – určují střed rozdělení dané náhodné veličiny, kolem něhož jsou hodnoty náhodné veličiny soustředěny. Např. střední hodnota náhodné veličiny E(X) , rozptyl náhodné veličiny D(X). Charakteristiky variability – popisují kolísání či proměnlivost jednotlivých hodnot náhodné veličiny kolem příslušné střední hodnoty. Směrodatná odchylka – charakteristika variability, která má týž rozměr jako sledovaná náhodná veličina. -1-
www.cz-milka.net Rozdělení alternativní – tzv. nula-jedničkové veličiny, které lze například využít pro kvantifikaci výsledků pokusů, jež nelze číselně vyjádřit. Rozdělení binomické – rozdělení diskrétní náhodné veličiny, je rozdělením, které přestavuje počet výskytů jevu A při n nezávislých pokusech, přičemž pravděpodobnost jevu A je v každém pokusu konstantní. Pokusy nezávislé – pokusy, kdy pravděpodobnost libovolného výsledku každého pokusu nezávisí na výsledcích předcházejících pokusů. Rozdělení Poissonovo = zákon vzácných jevů – limitní případ binomického rozdělení, kdy počet pokusů je velmi velký a pravděpodobnost výskytu jevu A je velmi malá. Zákon vzácných jevů – jevy, které mají velmi malou pravděpodobnost výskytu, takže i v rozsáhlých souborech se vyskytují vzácně. Rozdělení hypergeometrické – vztahuje se k modelu, kdy předpokládáme, že v souboru N prvků jich má M určitou vlastnost. Ze souboru vybereme náhodně bez vracení n prvků. Lze ho nahradit biomickým (jestliže N→∞ a n a p zůstávají konstantní) nebo Poissonovým (je-li M/N<0,1 a n/N<0,1) Rozdělení normální (Gausssovo) – nejdůležitější typ rozdělení náhodných veličin, řídí se jím spojité náhodné veličiny. Grafem hustoty je tvz. Gaussova křivka. Rozdělení se zkráceně označuje N(µ,σ2). Křivka Gaussova – zvonovitá křivka, která je symetrická okolo přímky procházející střední hodnotou. Rozdělení normální normované – pokud µ=0 a σ2=1. Jeho hustota bývá tabelována Pravidlo tří sigma – v intervalu (µ-3σ, µ+3σ) se nacházejí prakticky všechny hodnoty této náhodné veličiny. Je téměř nemožné, aby se pozorované hodnoty této veličiny odchylovaly od střední hodnoty o více než 3σ.
2. Náhodný výběr Statistika – vědecká disciplína, která se zabývá soubory hromadných pozorování, jejich sběrem, analýzou a využitím pro racionální rozhodování a předpovědi. Soubor statistický – konečná neprázdná množina prvků, které mají z daného hlediska určité společné vlastnosti. Jednotky statistické – prvky statistického souboru. Rozsah souboru – počet statistických jednotek obsažených v daném souboru. Znaky statistické – veličiny sledované na statistických jednotkách = vyšetřovaná vlastnost statistického souboru. Soubor statistický jednorozměrný – na každé statistické jednotce se zjišťuje pouze jeden statistický znak. Soubor statistický vícerozměrný – zjišťujeme větší počet statistických znaků a zkoumáme jejich vzájemný vztah. Znaky kvantitativní – mohou nabývat pouze jednotlivých izolovaných (diskrétních) hodnot, dají se vyjádřit číselně. Znaky kvalitativní – jejich jednotlivé obměny se musí popsat slovně nebo definicí. Alternativní – mohou nabývat pouze dvou variant. Množné – mohou nabývat znaků „mnoho“. Soubor statistický – modifikovaná definice – konečný soubor zjištěných hodnot některé náhodné veličiny. Soubor základní – soubor všech statistických jednotek, může být konečný nebo nekonečný; obsahuje všechny jednotky, které by nás v určitém statistickém zpracování mohly zajímat. Soubor výběrový – nahrazuje (reprezentuje) základní soubor, není-li možné nebo vhodné provést úplné (vyčerpávající) zjišťování, zkoumáme základní soubor pomocí statistických jednotek, které byly ze základního souboru podle určitých zásad vybrány. Výběr záměrný – o výběru určitých statistických jednotek do výběrového souboru rozhodujeme subjektivní úvahou na základě nějakých logických důvodů. Výběr náhodný – o zařazení určitých statistických jednotek do výběrového souboru rozhoduje pouze náhoda, možnosti: losování, tabulky náhodných čísel, generátory náhodných čísel. Výběr náhodný prostý – volbu výběrového souboru provádíme tak, aby každý výběrový soubor o rozsahu n měl stejnou pravděpodobnost, že bude vybrán, například losování, tabulka náhodných čísel atd. Výběr náhodný prostý s vracením (s opakováním) – vybranou jednotku po provedeném šetření statistického znaku opět vrátíme do základního souboru. Výběr náhodný prostý bez vracení (bez opakování) – statistickou jednotku po zjištění statistického znaku již do základního souboru nevracíme. Prostor výběrový – množina všech možných výběrů. Výběr náhodný z jednorozměrného rozdělení – na každé statistické jednotce zjišťujeme pouze jeden statistický znak. Výběr náhodný z vícerozměrného rozdělení – na každé statistické jednotce zjišťujeme hodnoty k statistických znaků. -2-
www.cz-milka.net Charakteristiky statistické – ukazatele, jejichž výpočtem lze provést zhuštění informací (individuální údaje jsou nepřehledné). Čísla, která ve stručné a koncentrované formě popisují hlavní vlastnosti statistického souboru. Charakteristiky polohy – reprezentují vhodnou střední hodnotu daného souboru kolem níž se soustřeďují hodnoty tohoto souboru. Charakteristiky variability – měří rozptýlení hodnot příslušného souboru, určují rozmezí, v němž se výběrové údaje vyskytují, informují nás o kolísavosti souboru. Průměr – může být aritmetický, harmonický, geometrický, lze ho vyjádřit formou prostou (není-li provedeno třídění) nebo váženou (je-li provedeno třídění). Průměr aritmetický x – nejdůležitější a nejčastěji počítaná charakteristika polohy. Medián ~ x – prostřední hodnota řady pozorování, uspořádané podle velikosti. Je-li rozsah n vyjádřen lichým číslem, je medián hodnota s pořadovým číslem (n+1)/2. Je-li rozsah n vyjádřen sudým číslem, za medián se volí průměr dvou prostředních hodnot a mediánem je umělá hodnota. Modus xˆ – nejčetnější hodnota znaku, hodnota nejtypičtější pro daný soubor. Výběrové variační rozpětí R – rozdíl největší a nejmenší hodnoty znaku. Charakteristiky variability absolutní – měřeno pomocí výběrového rozptylu a výběrové směrodatné odchylky. Charakteristiky variability relativní – pro srovnání variability statistického znaku dvou nebo více soborů, které se výrazně liší úrovní znaku, nebo chceme-li porovnat variabilitu několika statistických znaků vyjádřených v různých měrných jednotkách. Systematizace – setřídění pozorovaných hodnot velikosti a zjistíme, kolikrát se která hodnota vykytuje. Výsledek se zapisuje do tabulky rozdělení četností. Četnosti – udávají, kolikrát se která hodnota znaku v souboru vyskytuje. Rozdělení četností prosté (relativní, kumulativní) – sledování nespojitého statistického znaku. Rozdělení četností intervalové (skupinové) – při sledování spojitého statistického znaku, variační rozpětí se rozdělí na určitý počet intervalů a zjistí se počty hodnot znaku patřících do těchto intervalů. Pravidlo Sturgesovo – pravidlo sloužící k určení počtu tříd intervalů při rozdělení četností. Histogram četností – grafické znázornění rozdělení četností, obrazec tvořený pravoúhlými rovnoběžníky, jejichž základny mají délku zvolených intervalů a jejichž výšky mají velikost příslušných třídních četností. Polygon četností – grafické znázornění rozdělení četností, lomená čára, která vznikne spojením středů horních stran jednotlivých rovnoběžníků histogramu. Kvantity – hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí. Kvartily – dělí uspořádaný soubor na čtyři stejně obsazené části. První kvartil (dolní) odděluje 25% nejmenších hodnot. Prostřední kvartil je totožný s mediánem a dělí výběr na dvě stejně obsazené části. Třetí (horní) kvartil odděluje 25% největších hodnot znaku. Decily – dělí uspořádaný soubor na deset stejně obsazených částí. Percentily – dělí datový soubor na sto stejně obsazených částí. Rozpětí kvartilové – diference horního a dolního kvartilu. Odchylka kvartilová – polovina kvadrilového rozpětí. Pětičíselný souhrn statistik – podává rychlou a přehlednou informaci o poloze, variabilitě i případné asymetričnosti rozložení hodnot zkoumaného statistického souboru. Zahrnuje dolní kvartil, medián, horní kvartil, minimální hodnotu a maximální hodnotu. Boxplot – grafické znázornění pětičíselného souhrnu statistik. Pozorování odlehlá – hodnoty, které jsou od horního nebo dolního kvartilu vzdáleny více než 1,5 násobek kvadrilového rozpětí. Pozorování odlehlá – důvody – údaje se do souboru dostaly v důsledku nějakých hrubých chyb (měření, zápisu atd.), pozorování nepocházejí z téhož základního souboru, správný údaj reprezentovaný mimořádným případem. Aritmetický průměr výběrový – náhodná veličina, jejíž střední hodnota je rovna střední hodnotě sledovaného statistického znaku X, ale její rozptyl je n-krát menší než rozptyl tohoto statistického znaku. Rozdělení výběrová – rozdělení χ2 (chí-kvadrát), studentovo t-rozdělení, F-rozdělení (Fischerovo Snedecorovo)
3. Teorie odhadu Indukce statistická – souhrn metod, které umožňují zkoumat náhodný výběr a činit závěry o základním souboru. Teorie odhadu – určení typu rozdělení sledovaného znaku respektive některých charakteristik a to na základě výběrových dat. Odhady parametrů – možno provést dvěma metodami: bodový odhad, interval spolehlivosti. -3-
www.cz-milka.net Odhad bodový – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru základního souboru. Interval spolehlivosti – uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru základního souboru. Odhad bodový – požadavky – odhadová statistika musí být nestranná, konzistentní, vydatná, postačující. Odhad bodový nestranný – statistika T dává nestranný odhad charakteristiky θ, jestliže E(T)=θ. Je-li E(T)>θ, statistika T dává pozitivně vychýlený odhad. Je-li E(T)<θ, statistika t dává negativně vychýlený odhad. Odhad bodový konzistentní – s rostoucím rozsahem výběru roste pravděpodobnost, že hodnota odhadu populační charakteristiky se liší od skutečné hodnoty populační charakteristiky nepatrně. Odhad bodový vydatný – statistika T dává vydatný (nejlepší nestranný) odhad populační charakteristiky θ, jestliže má ze všech nestranných odhadů charakteristiky θ nejmenší rozptyl. Odhad bodový postačující – statistika T je postačující, jestliže obsahuje všechny informace o populační charakteristice θ => neexistuje-li žádná další statistika, která by obsahovala o odhadované populační charakteristice nějakou další informaci. Odhad bodový – typy – bodový odhad průměru základního souboru, bodový odhad rozptylu základního souboru. Odhad intervalový – na základě náhodného výběru určíme meze intervalu, který s předem danou pravděpodobností obsahuje neznámou hodnotu populační charakteristiky. Spolehlivost – pravděpodobnost, s jakou v daném intervalu spolehlivosti budou konkrétní hodnoty obsažené. Meze spolehlivosti – hranice intervalu spolehlivosti. Přesnost odhadu – délka intervalu daného souboru, maximální chyba, které se můžeme dopustit při určité pravděpodobnosti. Spolehlivost odhadu = koeficient spolehlivosti – pravděpodobnost, že interval spolehlivosti obsahuje neznámou populační charakteristiku. Označuje se 1–α. Hladina významnosti – pravděpodobnost α. Interval spolehlivosti – lze udat trojím způsobem – omezeny pouze shora, omezeny pouze zdola, omezeny zdola i shora. Interval spolehlivosti jednostranný – omezeny pouze shora, omezeny pouze zdola. Interval spolehlivosti dvoustranný – omezeny zdola i shora. Interval pravostranný – omezen shora. Interval levostranný – omezen zdola. Odhad intervalový – typy – intervalový odhad průměru základního souboru, intervalový odhad rozptylu σ2 normálně rozděleného základního souboru, intervalový odhad parametru p alternativního rozdělení. Odhad intervalový – průměru základního souboru – Přípustná chyba ∆ – vyjadřuje se v závislosti na tom, zda je nám rozptyl základního souboru σ2 znám, či pouze odhad s2, zda se jedná o výběr s opakováním nebo bez opakování, či zda jde o dvoustranný nebo jednostranný interval spolehlivosti. Náhodný výběr dvoufázový – 1. fáze předvýběr, zkusmo provedeme menší náhodný výběr, z něhož vypočteme rozptyl a požadovaný rozsah souboru pro výběr s opakováním a bez opakování. 2. fáze – pokud m
4. Testování statistických hypotéz Indukce statistická – představuje soubor metod, pomocí nichž můžeme pomocí náhodného výběru formulovat určité závěry o vlastnostech základního souboru. Hypotéza statistická – každé tvrzení o tvaru nebo charakteristikách rozdělení jednoho či několika statistických znaků. -4-
www.cz-milka.net Test statistické hypotézy – postup, jímž na základě náhodného výběru ověřujeme, zda tato hypotéza platí či nikoliv. Hypotézy parametrické – týkají se hodnot parametrů rozdělení. Testy parametrické – slouží k ověřování parametrických hypotéz. Hypotézy neparametrické – tvrzení o zákonu rozdělení základního souboru Testy neparametrické – slouží k ověřování neparametrických hypotéz. Hypotéza nulová – testovaná statistická hypotéza, označuje je H0. Hypotéza alternativní – hypotéza, která popírá platnost nulové hypotézy, přijímáme ji tehdy, jestliže jsme nulovou hypotézu zamítli jako nesprávnou. Hypotéza může být vymezena jako oboustranná alternativa (H1: θ≠ θ0) nebo jednostranná, respektive pravostranná a levostranná (H1: θ>θ0 a H1: θ<θ0) Kriterium testové = statistika testová – informaci obsaženou v náhodném výběru shrneme pomocí nějaké statistiky. Je to míra nesouladu výsledků pokusu s testovanou hypotézou. Je-li testové kritérium rovno nule, odpovídají výběrová data nulové hypotéze. Od nuly se kriterium odchyluje tím více, čím více se výběrové hodnoty odklánějí k H1. Obor kritický K – obor zamítnutí nulové hypotézy. Je tvořen třemi možnými hodnotami testové statistiky T, jejichž výskyt je za předpokladu platnosti nulové hypotézy málo pravděpodobný. Pokud vypočtená hodnota statistiky patří do K, zamítáme nulovou hypotézu, protože jev se neměl uskutečnit, za platnosti nulové hypotézy měl velmi nízkou pravděpodobnost, jelikož však nastal, je tím platnost nulové hypotézy zpochybněna a proto ji zamítáme. Obor přijetí – je tvořen těmi možnými hodnotami testové statistiky T, které nejsou v rozporu s nulovou hypotézou. Pokud vypočtená hodnota statistiky patří do oboru přijetí, nezamítáme nulovou hypotézu. Hodnoty kritické – hodnoty, jimiž je oddělen obor přijetí od oboru kritického. Chyba 1. druhu – jestliže vypočtená hodnota testového kriteria T padal do kritického oboru K a zamítneme tedy nulovou hypotézu, i když ta je správná. Chyba 2. druhu – znamená nezamítnutí nulové hypotézy, i když není správná. Pokud nulová hypotéza neplatí, ale vlivem náhody jsme dostali výsledek kdy testové kriterium T nepadlo do K a nulovou hypotézu nezamítáme. Pravděpodobnost chyby 1. druhu = hladina významnosti – označuje se α a udává výši rizika, s jakým se nulová hypotéza zamítá, i když platí. Pravděpodobnost chyby 2. druhu = síla testu – značí se β. Hodnota 1–β vyjadřuje pravděpodobnost správného zamítnutí testované hypotézy. Testy významnosti – statistické testy, které bezprostředně berou v úvahu pouze pravděpodobnost chyby 1. druhu. Hladina významnosti – volba – je libovolná, ale čím menší je α, tím je test přísnější a nulovou hypotézu je obtížnější zamítnout. Testy parametrické – test hypotézy o rozptylu normálního rozdělení, test hypotézy o průměru normálního rozdělení (jednovýběrový t-test), test hypotézy o parametru p alternativního rozdělení, srovnání rozptylů dvou normálních rozdělení (F-test), porovnání průměrů dvou normálních rozdělení, párový t-test, test hypotézy o parametrech p1 a p2 dvou alternativních rozdělení, porovnání průměrů více než dvou normálních rozdělení (analýza rozptylu), mnohonásobné porovnávání (podrobnější hodnocení výsledků analýzy rozptylu), porovnání rozptylů více než dvou normálních rozdělení. Test hypotézy o rozptylu normálního rozdělení – řeší problematiku posouzení přesnosti měřících přístrojů, zařízení, strojů atd., respektive posouzení stability technologických procesů. Test hypotézy o průměru normálního rozdělení = jednovýběrový t-test – kdy na základě náhodného výběru o rozsahu n, provedeného ze základního souboru s normálním rozdělením, máme ověřit hypotézu, že průměr µ v základním souboru je roven určité konstantní hodnotě. Test hypotézy o parametru p alternativního rozdělení – v sérii n nezávislých opakování náhodného pokusu se nějaký náhodný jev A, který má stálou, ale neznámou pravděpobnost p, vyskytl m-krát. Výsledek takové skupiny n opakování pokusu lez považovat za náhodný výběr o rozsahu n ze základního souboru, který má alternativní rozdělení s parametrem p. Srovnání rozptylů dvou normálních rozdělení = F-test – provádíme-li měření určité veličiny v různých podmínkách. Porovnání průměrů dvou normálních rozdělení – porovnáváme například hektarové výnosy dvou odrůd určité plodiny, užitkovost dvou různých plemen krav, spotřebu pohonných hmot u motorů dvou různých typů, korozi materiálu při dvou různých způsobech úpravy povrchu atd. Provádí se za předpokladu nezávislosti výběrových souborů. Dvě varianty – test hypotézy při stejných rozptylech = Dvouvýběrový t-test, test hypotézy při nestejných rozptylech = Welchův test. Dvouvýběrový t-test – oba rozptyly jsou stejné. -5-
www.cz-milka.net Welchův test – předpoklad, že rozptyly se značně liší. Párový t-test – je-li předpoklad, že výběrové soubory jsou závislé každý prvek jednoho výběru tvoří pár s určitým prvkem druhého výběru. Například zjišťování velikosti určitého znaku u téže statistické jednotky ve dvou časových okamžicích. Test hypotézy o parametrech p1 a p2 dvou alternativních rozdělení – pracujeme-li se dvěma velkými soubory (rozsah řádově větší než 100). Porovnání průměrů více než dvou normálních rozdělení = analýza rozptylu – řeší se problém, zda rozdíly mezi m disponibilními výběrovými soubory jsou pouze náhodné, nebo zda se mezi nimi projevují nějaké systematické odchylky. Analýza rozptylu – etapy – zpravidla se provádí ve dvou etapách. V první etapě pomocí analýzy rozptylu testujeme nulovou hypotézu. Pokud jí nezamítneme, výpočet končí. Pokud dojde k zamítnutí nulové hypotézy, ve druhé etapě je nutno vyřešit otázku, které soubory se od sebe významně liší. Analýza rozptylu – představuje zobecnění dvouvýběrového t-testu na případ více než dvou výběrů. Používá se, sledujeme-li vliv jednoho nebo několika faktorů na zkoumaný kvantitativní statistický znak. Analýza rozptyly při jednoduchém třídění – zkoumáme vliv pouze jediného faktoru na daný statistický znak. Naměřené hodnoty třídíme do skupin podle úrovní faktoru. Tečkový způsob zápisu součtů a průměrů – umožňuje přehlednější vyjádření vzorců užívaných v analýze rozptylu. Mnohonásobné porovnávání = podrobnější hodnocení výsledků analýzy rozptylu – při zamítnutí nulové hypotézy v analýze rozptylu je závěr, že neplatí shoda mezi porovnávanými průměry, příliš neurčitý, proto je nutné výsledky analýzy rozptylu doplnit podrobnějšími informacemi pomocí metod mnohonásobných porovnávání. Scheffého metoda = S-metoda – jedna z metod mnohonásobných porovnávání, je univerzálně použitelná. Tukeyova metoda = T-metoda – jedna z metod mnohonásobných porovnávání, je citlivější na rozdíly mezi středními hodnotami, vyžaduje, aby pokusný plán byl vyvážený. Porovnání rozptylů více než dvou normálních rozdělení – Bartlettův test, Hartleyův test. Testy dobré shody – předpoklad, že základní soubor, z něhož analyzovaný náhodný výběr pochází, má rozdělení určitého typu, testy nulové hypotézy „náhodný výběr pochází z daného rozdělení“. Test shody χ2 – jeden z nejfrekventovanějších testů dobré shody, při jeho provádění se výběrové výsledky nejdříve rozdělí do k disjunktních tříd s četností a poté se vypočtou teoretické (očekávané) četnosti. Lze ho použít pro ověřování shody s libovolným typem rozdělení. Četnosti empirické – výběrové výsledky rozdělené do k disjunktních tříd. Test normality Davidův – jeden z testů dobré shody, lze ho použít pro stanovení nulové hypotézy „náhodný výběr pochází z normálního rozdělení“. Testy neparametrické – situace, kdy se setkáváme s výběrem poměrně malého rozsahu, který pochází z výrazně nenormálních souborů nebo ze souborů, o jejichž rozdělení nic nevíme. Jejich hlavní předností je nezávislost na tvaru rozdělení studovaných veličin, jsou použitelné pro studium znaků kvantitativních i kvalitativních a jsou jednoduché na výpočet. Jejich nedostatkem je menší síla, která je částečně kompenzována širšími možnostmi použití. Test dvouvýběrový Wilcoxonův – představuje neparametrickou analogii dvouvýběrového t-testu. Slouží k testu hypotézy, že dva nezávislé výběry pocházejí ze stejného základního souboru proti alternativě, že se významně liší svou polohou. Výběrové hodnoty uspořádáme podle velikosti a přiřadíme jim pořadová čísla (očíslujeme od nejmenší k největší, stejně velkým hodnotám přiřadíme stejné průměrné pořadí). Zjistíme součky a vypočteme veličiny. Test Wilcoxonův – je neparametrickou analogií párového t-testu. Používáme ho tehdy, chceme-li ověřit, zda se dva párové (závislé) výběry významně liší svou polohou. Pro každou dvojici závislých pozorování se vypočte diference a absolutním hodnotám diferencí přiřadíme pořadová čísla (nulové diference vynecháme). Sečteme pořadová čísla kladných diferencí a záporných diferencí. Test Kruskal-Wallisův – neparametrická obdoba jednoduché analýzy rozptylu. Umožňuje test hypotézy, že m nezávislých výběrů s rozsahy pochází z téhož rozdělení. Hodnoty m seřadíme do rostoucí posloupnosti, určí se pořadí. Metody mnohonásobného porovnávání neparametrické – jsou obdobou S-metody nebo T-metody v případě analýzy rozptylu. Při práci s vyváženým pokusným plánem doplníme Kruskalův-Wallisův test doplnit Neményiho metodou mnohonásobného pozorování. Metoda mnohonásobného pozorování Neményiho – slouží k doplnění Kruskal-Wallisova testu. Test náhodnosti – předpokladem je náhodnost uspořádání analyzovaného výběru. Předpoklad musí být ověřen některým testem náhodnosti, například test založený na bodech zvratu. -6-
www.cz-milka.net
5. Korelační a regresní analýza – statistická analýza vztahů mezi veličinami Korelace = závislost – slouží k určení míry závislosti. Analýza korelační – ukazuje, jak je silný vztah mezi sledovanými veličinami. Analýza korelační – zabývá se vzájemnými závislostmi, kdy se klade důraz především na sílu (intenzitu) vzájemného vztahu. Analýza korelační – důvody užitečnosti – čím jsou určité veličiny těsněji vázány, s tím větší pravděpodobností lze očekávat, že změny jedné veličiny budou mít za následek změny veličiny s ní statisticky vázané; stupeň vázanosti náhodných veličin charakterizuje, jaká je vypovídací schopnost užitého regresního modelu. Korelace – označuje míru stupně závislosti dvou proměnných. Dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Koralce formální – když se zjišťuje korelace procentuálních charakteristik, jež se navzájem doplňují do 100%. Nehomogenita – populace, kterou studujeme, obsahuje subpopulace, pro něž se průměrné hodnoty proměnných X a Y liší. Příčina společná – vztahy mezi některými mírami těla. Korelace zdánlivé – jsou způsobené časovým faktorem nebo faktorem modernizace u dvou řad údajů. Proměnné rušivé (matoucí) – korelují jak s cílovou proměnnou, tak s proměnnou ovlivňující, nelze rozlišit vliv matoucí a sledované ovlivňující proměnné na cílovou proměnnou. Závislost příčinná (kauzální) – jeden jev (příčina) vyvolává existenci (vznik, změnu, zánik apod.) jevu druhého. Jeden jev podmiňuje jev jiný. Výskyt určitého jevu souvisí (má za následek, vyvolává) s existencí jiného jevu. Koeficient korelační Pearsonův – nejdůležitější míra síly vztahu dvou náhodných spojitých proměnných X a Y. Vyjadřuje pouze sílu lineárního vztahu, je velmi ovlivněn odlehlými hodnotami, nerozlišuje mezi závisle a nezávisle proměnnou, není úplným popisem dat při velmi silném lineárním vztahu. Koeficient korelační – vlastnosti – <-1, 1>, pokud |r| = 1 leží všechny body na nějaké přímce, pokud r = 0 nazýváme X a Y nekorelované proměnné, pokud r < 0 tak se Y v průměru zmenšuje. Těsnost závislosti r – r < 0,3 nízká, 0,3 ≤ r < 0,5 mírná, 0,5 ≤ r < 0,7 význačná, 0,7 ≤ r < 0,9 velká, 0,9 ≤ r < 1 velmi vysoká. Koeficient determinance – druhá mocnina koeficientu korelace, udává, jaké procento rozptýlení empirických hodnot závisle proměnné je důsledkem rozptylu teoretických hodnot závisle proměnné odhadnuté na základě regresní přímky. Index determinance – udává, jaké procento rozptýlení empirických hodnot závisle proměnné je důsledkem rozptylu teoretických hodnot závisle proměnné odhadnutých na základě příslušné regresní funkce. Těsnost závislosti r2 – r2 < 10% nízká, 10% ≤ r2 < 25% mírná, 25% ≤ r2 < 50% význačná, 50% ≤ r2 < 80% velká, 80% ≤ r2 velmi vysoká. Index korelace – poskytuje stejné informace o těsnosti závislosti jako index determinance, ale má menší vypovídací schopnost. Měří míru těsnosti závislosti mezi náhodnými veličinami X a Y. Používá se k měření těsnosti závislosti pro libovolnou regresní funkci, jejíž parametry byly odhadnuty metodou nejmenších čtverců. Poměr determinance (korelační) – udává, jaké % rozptylu závisle proměnné lze vysvětlit vlivem nezávisle proměnné X. Je to odmocnina z poměru determinance. Korelační koeficient výběrový – poskytuje bodový odhad korelačního koeficientu základního souboru, není to odhad nestranný, ale je asymptoticky nestranný a konzistentní. Koeficient pořadové korelace Spearmanův – neparametrická charakteristika, jeho využití není vázáno na splnění předpokladu dvourozměrné normality základního souboru ani předpokladu linearity regrese. Měří těsnost jakékoliv statistické závislosti, která je monotónní. Přichází v úvahu hlavně při malém počtu pozorování, je velmi důležité provést test významnosti koeficientu. Měří sílu vztahu X a Y, když nemůžeme předpokládat linearitu očekávaného vztahu nebo normálního rozdělení proměnných X a Y. <-1, 1> Analýza regresní a korelační – soubor postupů a metod, dovolujících řešení otázky závislosti dvou nebo většího počtu veličin. Analýza regresní a korelační – cíle – popis statistických vlastností vztahu dvou nebo více proměnných. Analýza regresní – zabývá se jednostrannými závislostmi, kdy proti sobě stojí vysvětlují (nezávisle) proměnná v úloze příčin a vysvětlovaná (závisle) proměnná v úloze následků. Jde o přesnější popis tvaru vztahu mezi proměnnými X a Y a charakterizování jeho vhodnosti pro predikci hodnot závisle proměnné pomocí hodnot nezávisle proměnné. Analyzujeme vztah mezi jednou proměnnou zvanou cílová (závislá, Y) a několika dalšími, které nazýváme nezávislé (ovlivňující, X). Úloha regresní – zjistit formu závislosti a vyjádřit jí matematickou (regresní) funkcí. -7-
www.cz-milka.net Úloha korelační – určit stupeň síly s jakou se daná závislost projevuje uprostřed různých rušících vedlejších faktorů. Závislost – funkční a statistická. Závislost funkční – dané hodnotě jednoho znaku odpovídá jediná hodnota druhého znaku a naopak. Závislost statistická – závislost, kdy dané hodnotě jednoho znaku odpovídá několik hodnot druhého znaku. Závislost jednoduchá – závislost pouze mezi dvěma náhodnými veličinami X a Y. Závislost vícenásobná (mnohonásobná) – závislost veličiny Y na více jak dvou veličinách X. Proměnná – vysvětlovaná (závisle), vysvětlující (nezávisle). Prokládání dat přímkou – pokud graf ukáže lineární vztah mezi proměnnými, hledáme přímku, jež je experimentálním bodům co možná nejblíže. Odchylka náhodná (reziduální) = náhodná chyba – odchylka i-tého pozorování veličiny Y. Odchylka reziduální – rozdíl mezi naměřenou a očekávanou hodnotou. Parametry – stanovení – metodou nejmenších čtverců. Koeficient regresní (teoretický) – značí se β, charakterizuje průměrnou změnu závisle proměnné, jež odpovídá změně nezávisle proměnné o jednu její jednotku. Je-li kladný, dochází s růstem hodnot nezávisle proměnné X v průměru také k růstu závisle proměnné Y. Je-li záporný, dochází při růstu hodnot nezávisle proměnné v průměru k poklesu hodnot závisle proměnné. Závislost pozitivní = přímá – s růstem hodnot nezávisle proměnné X v průměru dochází k růstu závisle proměnné Y. Závislost negativní = nepřímá – při růstu hodnot nezávisle proměnné dochází v průměru k poklesu hodnot závisle proměnné. Metoda nejmenších čtverců – postup stanovení parametrů u jednoduché lineární závislosti. Slouží k získávání bodových odhadů a, b parametrů α, β regresní přímky. Metoda vychází z požadavku, aby součet čtverců odchylek pozorovaných hodnot veličiny Y od odhadované regresní funkce byl minimální. Metoda nejmenších čtverců – předpoklady – regresní parametry β mohou nabývat libovolných hodnot, regresní model je lineární v parametrech, vysvětlující proměnné jsou nenáhodné a bez funkční lineární závislosti, rušivé složky jsou normálně rozdělené nezávislé náhodné veličiny s nulovými středními hodnotami a s konstantním rozptylem, náhodné chyby mají nulovou střední hodnotu a konstantní a konečný rozptyl a jsou vzájemně nekorelované. Přímka odhadu – je nejlepším odhadem teoretické regresní přímky α+βx. Rozptýlenost bodů kolem přímky – charakterizována zbytkovým (reziduálním) rozptylem nebo směrodatnou chybou odhadu při regresi. Hodnoty empirické (pozorované) – zjištěné hodnoty proměnné Y. Hodnoty vyrovnané (teoretické) – hodnoty vypočtené z rovnice regresní přímky. Odchylky – odchylka mezi empirickými a vyrovnanými hodnotami se nazývá reziduum. Rezidua – odchylka mezi empirickými a vyrovnanými hodnotami. Přímka regresní – popisuje průběh závislosti veličiny Y na veličiny X, tzv. regresi Y na X. Závislost jednostranná – veličina X má jednoznačně charakter příčiny (nezávisle proměnná) a veličina X vystupuje jako následek (závisle proměnná). Závislost oboustranná – nelze-li jednoznačně rozhodnout, která z obou veličin je nezávisle proměnná, a která závisle proměnná. Má tedy smysl uvažovat závislost v obou směrech. Interpolace – předmětem zájmu je některá z použitých kombinací vysvětlujících proměnných. Extrapolace – pozornost je upřena na hodnotu proměnné Y pro předpokládané budoucí nebo výzkumně zajímavé kombinace hodnot proměnné Y. Pás konfidenční (spolehlivosti) – ohraničují ho dvě větve hyperboly, nachází se okolo regresní přímky. Test rovnoběžnosti – zjišťuje, zda obě regresní přímky jsou rovnoběžné. To by znamenalo, že v obou sledovaných souborech se v důsledku změn nezávisle proměnné mění závisle proměnná v průměru stejně. Regrese nelineární – metody odhadu parametrů jsou numericky velmi zdlouhavé. Některé je možné převést na lineární tvar. Odhad regresní přímky intervalový – interval spolehlivosti, který s danou pravděpodobností pokrývá hledanou regresní přímku základního souboru. Model – významnost – pokud F-test i všechny t-testy jsou nevýznamné, je model považován za nevhodný (nevystihuje variabilitu proměnné y). Pokud F-testi všechny t-testy jsou významné, model je vhodný k vystižení proměnné y. Pokud F-test je významný a t-testy u některých regresních parametrů nevýznamné, model je považován za vhodný a provádí se případné vypouštění vysvětlujících proměnných, pro které jsou parametry β -8-
www.cz-milka.net nevýznamně odlišné od nuly. Pokud F-test vychází významný a t-testy parametrů β indikují nevýznamnost všech vysvětlujících proměnných, jde o důsledek multikolinerarity. Diagnostika regresní – provádí se v případě, kdy nejsou splněny předpoklady o datech a regresním modelu a kdy není metoda nejmenších čtverců vhodná ke stanovení regresních parametrů. Obsahuje postupy k identifikaci kvality dat pro navržený model, kvality dat pro daná data a splnění předpokladů metody nejmenších čtverců. Analýza průzkumová – využívá se metod pro určení statistických zvláštností, k posouzení párových vztahů, k ověření předpokladů o rozdělení. Součástí je stanovení volby rozsahu a rozmezí dat, jejich variability a přítomnosti vybočujících pozorování. Umožňuje identifikovat nevhodnost dat, nesprávnost navrženého modelu, multikolinearitu, nenormalitu v případě, kdy jsou vysvětlující proměnné náhodné veličiny. Data – kvalita – výskyt vlivných bodů, zkreslení odhadů a růst rozptylů. Tři skupiny: hrubé chyby způsobené měřenou veličinou, body s vysokým vlivem, které byly přesně změřeny a které obvykle rozšiřují schopnosti modelu, zdánlivě vlivné body vzniklé jako důsledek nesprávně navrženého regresního modelu. Pozorování vybočující – na ose y se výrazně liší od ostatních. Extrém – liší se v hodnotách na ose x nebo v jejich kombinaci. Rezidua – základní diagnostický nástroj při hodnocení kvality regresní funkce a dat a obecněji i při posuzování oprávněnosti předpokladů zvoleného lineárního regresního modelu. Je to lineární kombinace všech chyb. Rezidua klasická – rozdíly mezi skutečnými a odhadnutými hodnotami vysvětlované proměnné Y. Jsou korelovaná, s nekonstantním rozptylem, jeví se normálnější. Rezidua predikovaná – počítaná bez i-tého pozorování, jsou zbavena vlivu tohoto pozorování, je vypočteno jako rozdíl skutečné hodnoty a takto odhadnuté hodnoty. Jsou korelovaná, mají normální rozdělení s nulovou střední hodnotou a s nestejným rozptylem. Rezidua normovaná – jsou to normálně rozdělené veličiny s nulovou střední hodnotou a jednotkovým rozptylem. K jejich ocenění se používá pravidlo tří sigma, hodnoty větší jsou brány za vybočující. Rezidua standardizovaná – mají konstantní rozptyl, nulovou střední hodnotu a jednotkový rozptyl. Rezidua Jackknife – alternativa standardizovaných reziduí, mají za předpokladu normality chyb Studentovo rozdělení s n-m-1 stupni volnosti, používají se pro odhalení neznámých příliš vlivných či podezřelých pozorování. Rezidua nekorelovaná – jsou lineární transformací klasických reziduí se stejným reziduálním součtem čtverců. Rezidua rekurzivní (dopředná nebo zpětná) – umožňují identifikovat nestabilitu modelu. Grafická analýza reziduálních hodnot – graf závislosti reziduí na indexu i, graf závislosti reziduí na proměnné xi, graf závislosti reziduí na predikci y’i. Bod odlehlý – leží mimo základní konfiguraci bodů v grafu. Pozorování vlivná – body, jejichž vynecháním dochází k zásadní změně regresních charakteristik. Je nutné je identifikovat, protože jsou-li chybné, dochází ke značnému zkreslení regresních výsledků. Analýza regresní lineární – postup – návrh modelu, předběžná analýza dat, odhadování parametrů, regresní diagnostika, konstrukce zpřesněného modelu, zhodnocení kvality modelu, testování různých hypotéz. Model zcela lineární – předpokládá součtový vliv všech činitelů a regresní funkcí je rovnice nadroviny Y = β0 + β1X1 + … + βkXk + ε, ve které β0 je absolutní člen a β1, β2,… , βk jsou strukturní parametry nebo též (dílčí) regresní koeficienty. Model racionální celistvé a lomené funkce – nejznámější je model regresní paraboly s-tého stupně Y = β0 + β1X1 + β2X2 + … + βsXs + ε a zvláště regresní parabola druhého stupně, kdy s = 2. Častý je také model regresní hyperboly s-tého stupně Y = β0 + β1X-1 + β2X-2 + … + βsX-s + ε a její speciální případ, kdy s = 1. Model lineární v parametrech – je zobecněním jiných modelů, Y = β0 + β1f1 + … + βRfr + ε, každá vysvětlující proměnná je zastoupena právě jedním regresorem. Modely převoditelné transformací na lineární model – předpoklad obecně součinového regresního modelu Y = εη, ve kterém η je regresní funkce (hypotetická) a ε rušivá složka. Časté je použití lineární exponenciální regresní funkce η = β0β1X nebo η = exp(β0 + β1X), modelu kvadratické exponenciály ve tvaru η = exp(β0 + β1X + β2X2 + ε), obecného lineárně-exponenciálního regresního modelu s k vysvětlujícími proměnnými zapsaného ve tvaru exp(β0 + β1X + … + βkXk + ε). Modely nelineární z hlediska parametrů – je možné je třídit například podle stupně a formy nelinearity, pro jednu vysvětlující proměnnou bývá zvykem funkce třídit podle tvaru křivky. Model vnitřně lineární – nelineární regresní model, který lze vhodnou transformací převést na lineární. Funkce regresní nelineární – typy křivek – aditivní – kvadratická, kubická, lineární lomená, kvadratická lomená, iracionální, logaritmická, multiplikativní – exponenciální, mocninná. Analýza v nelineárním modelu – intervalové odhady parametrů, testy hypotéz o odhadech parametrů, těsnost proložení regresní křivky, statistická analýza reziduí, grafická analýza reziduí. -9-
www.cz-milka.net Mnohonásobná regrese a korelace – umožňuje studovat, jak několik faktorů (nezávislých respektive vysvětlujících proměnných) ovlivňuje současně závisle proměnnou Y (vysvětlovanou). Regrese mnohonásobná – je prostředkem zkoumání statistické závislosti pomocí modelu, jenž zahrnuje jednu závisle proměnnou a několik nezávisle proměnných. Regresní koeficienty dílčí – udávají odhad toho, jak by se změnila v průměru vysvětlovaná (závisle) proměnná Y při jednotkové změně vysvětlující proměnné před tečkou, za předpokladu konstantní úrovně proměnných uvedených za tečkou. Koeficient dílčí regrese – udává průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné x1 za předpokladu, že ostatní sledované nezávisle proměnné jsou konstantní. Vzorce rekurentní – postup, ve kterém se dílčí regresní koeficient určitého řádu vyjadřuje pomocí několika koeficientů o řád nižších. Tečky – v indexu koeficientu dílčí regrese jsou před tečkou uvedeny dvě proměnné – na prvním místě závisle proměnná, jejíž změnu koeficient vyjadřuje, na druhém místě nezávisle proměnná, u níž je uvažována změna o příslušnou měrnou jednotku. Za tečkou jsou uváděny další zúčastněné nezávisle proměnné, jejichž vliv je vyloučen, přičemž nezáleží na pořadí. Koeficient vícenásobné korelace – měří těsnost závisle proměnné Y na všech vysvětlujících proměnných. Koeficient mnohonásobné korelace – vyjadřuje společné působení nezávisle proměnných na závisle proměnnou a určuje spolehlivost regresního odhadu. Je třeba změřit sílu závislosti mezi závisle proměnnou a jednotlivou nezávisle proměnnou při vyloučení vlivu ostatních nezávisle proměnných. Koeficienty parciální (dílčí) korelace – slouží ke změření síly závislosti mezi závisle proměnnou a jednotlivými nezávisle proměnnými při vyloučení vlivu ostatních nezávisle proměnných. Test významnosti výběrového koeficientu mnohonásobné korelace – znamená ověření hypotézy o nulovém korelačním koeficientu mnohonásobné korelace v základním souboru. Průkaznost vícenásobné regresní funkce – je ověřována pomocí analýzy rozptylu. Hodnoty reziduální – zobrazují se pomocí grafu stonku a listu nebo pomocí normálního grafu. Body vlivné – podstatně ovlivňují odhady regresních koeficientů. Pozorování vybočující – nezvyklé konfigurace hodnot týkající se společného rozdělení nezávislých proměnných. Hodnoty odlehlé – nápadně velké reziduální hodnoty upozorňující na špatnou predikci závisle proměnné. Multikolinearita – silná vzájemná závislost vysvětlujících proměnných. Multikolinearita – identifikace – jednoduché korelační koeficienty dvojic vysvětlujících proměnných, determinant korelační matice, použití kritéria M, Farrarův-Glauberův test. Multikolinearita – důsledky – nadhodnocení součtu čtverců regresních koeficientů, zvyšuje rozptyly odhadů (=> snižuje přesnost odhadů, nízké hodnoty, rozpor mezi nevýznamnými výsledky testů, nestabilní odhady regresních koeficientů), komplikuje interpretaci, způsobuje numerické potíže. Multikolinearita – odstranění – pořídit kvalitnější data, maximálně využít všechny informace o regresním modelu a jeho parametrech. Vlivná pozorování mohou maskovat nebo zakrýt existenci multiokolinearity => identifikovat a případně vyloučit příliš vlivná pozorování. Regrese dopředná (forward) – proměnné se do modelu postupně přidávají Regrese zpětná (backward) – proměnné se z modelu postupně odebírají. Regrese Stepwisse (stupňovitá) – sleduje, co by se stalo, kdyby vysvětlující proměnné byly vybírány do regresní funkce v jiném pořadí. Rovnice se postupně slučují a určují se nová rezidua, postup končí, když žádná závislost rezidua není statisticky významná. Kódování efektů – přiřazujeme všem kódovaným proměnným, které reprezentují jednotlivé úrovně faktoru A, číslo 1 pro danou úroveň a jinak nulu až na jednu vybranou úroveň, jíž je pro všechny kódovací proměnné přiřazena hodnota –1. Kódování kontrastů – používá se za hodnoty jedné kódovací proměnné jakákoli množina čísel, jejíž součet dává nulu, s další podmínkou, že žádný sloupec (obsahující hodnoty pro kódovací proměnnou) nesmí být možné vyjádřit jako kombinaci ostatních sloupců (přesněji lineární kombinaci ostatních sloupců). Kódování – výhody – možnost míchat různé typy proměnných, možné pružněji zařazovat nezávisle proměnné do analýzy, zprůhledňuje přístup k analýze rozptylu. Model obecný lineární – model lineární regresní analýzy rozšířený o indikátorové kódovací proměnné a příslušné interakční ceny. Analýza kovariance – statistická metoda, která kombinuje vlastnosti a principy analýzy rozptylu a rozšiřuje některé možnosti využití lineárních regresních modelů. Zkoumá závislosti ve složitém souboru proměnných Základem je rozšíření nebo modifikace modelu analýzy rozptylu. Dalším cílem je očištění studované závislosti vysvětlovaných proměnných. - 10 -
www.cz-milka.net Analýza kovariance – typy proměnných – jedna nebo několik vysvětlujících proměnných, jedna nebo několik vysvětlovaných proměnných, jedna nebo více doprovodných proměnných. Analýza kovariance – předpoklady – náhodnost výběru, nezávislost výběru, normální rozdělení, homoskedasticita, lineární závislost Y na X, shoda regresních koeficientů (rovnoběžnost regresních přímek). Homoskedasticita – stejné rozptyly ve všech populacích.
6. Analýza kategoriálních dat Data kategoriální – kvalitativní znaky, např. zaměstnání, pohlaví, typ auta atd. Data se zachycují pomocí jedno, dvou nebo vícerozměrných tabulek četností nebo relativních četností. Závislost kategoriálních proměnných – zabývá se statistickou analýzou četností tabulek, jde o analogii korelační analýzy spojitých proměnných a o podobnost s analýzou rozptylu. V případě analýzy četnostních tabulek považujeme obě kategoriální proměnné za náhodné a v analýze rozptylu posuzujeme vliv faktoru na chování náhodné závisle proměnné. Kontingence – zabývá se zkoumáním vztahu mezi množnými znaky, které mají větší počet obměn. Tabulka kontingenční – hodnotíme tabulky dvoudimenzionální, tabulky vzniklé tříděním podle dvou proměnných. Předpokládáme, že každá jednotka může být klasifikována podle dvou proměnných. V tabulce zkoumáme vzájemný vztah dvou proměnných. Hypotéza homogenity – předpokládá, že pravděpodobnostní rozdělení kategoriální proměnné B je stejné v různých populacích, které jsou identifikovány faktorem A. V testech dobré shody nám pak jde o shodu rozdělení kategoriální proměnné Hypotéza nezávislosti – obě proměnné A a B se považují za náhodné proměnné, přičemž předpokládáme jejich úplnou nezávislost. Hodnota proměnné A neovlivňuje podmíněné rozdělení proměnné B a naopak. Hypotéza nulová – obě proměnné jsou na sobě stochasticky nezávislé. Koeficient kontingence Pearsonův – koeficient průměrné čtvercové kontingence C, slouží ke změřeni těsnosti závislosti. Koeficient Cramerův (Cramerovo V) – měří sílu závislosti. Koeficient kontingence Čuprovův – měří sílu závislosti. Tabulka asociační – tabulka 2x2. Test χ2 – využívá se v asociační tabulce pokud n > 40, nebo pokud 20 < n ≤ 40 a není-li žádná očekávaná četnost menší než 5. V kontingenční tabulce ho NElze použít, pokud je více než 20% teoretických četností menší než 5. Test Fischerův – využívá se v asociační tabulce pokud n ≤ 20 nebo pokud 20 < n ≤ 40 a některá z teoretických četností je menší než 5. Přímka asociační – vyjadřuje závislost podílu prvků s jedním znakem na podílu prvků s druhým znakem. Koeficient asociace V (rab) – výpočtem shodný s korelačním koeficientem v případě jednoduché lineární závislosti. Koeficient asociace Yuleův – je obdobou koeficientu asociace V (rab). Koeficient koligace – je obdobou koeficientu asociace V (rab). Proměnné dichotomické – proměnné, které jsou zkoumány dvakrát, před pokusem a po něm, týká se především osob. Test McNemarův – prověřuje homogenitu rozdělení alternativních dat dvou závislých výběrů, je speciálním případem znaménkového testu pro dvě závislé skupiny. Vztah výsledků obou měření zobrazujeme četnostní tabulkou typu 2x2. Test Cochranův – prověřuje hypotézu homogenity ve více závislých výběrech alternativních dat. Test podle Bowkera – je zobecněním McNemarova testu, jedná se o test symetrie v tabulce typu n x n. Testuje se, zda alespoň pár pravděpodobností symetricky položených políček v tabulce n x n nacházejících se mimo diagonálu se od sebe liší.
7. Analýza časových řad Řada časová – posloupnost věcně a prostorově srovnatelných pozorování, která jsou jednoznačně uspořádána z hlediska času ve směru minulost – přítomnost. Analýza časových řad – soubor metod, které slouží k popisu těchto dynamických systémů (a případně k předvídání jejich budoucího chování). Řada časová – dělení – podle rozhodného časového hlediska, podle periodicity, podle druhu sledovaných ukazatelů, podle způsobou vyjádření údajů. Řada časová – podle rozhodného časového hlediska – intervalové, okamžikové. - 11 -
www.cz-milka.net Řada časová – podle periodicity, s jakou jsou údaje v řadách sledovány – roční (dlouhodobé), krátkodobé. Řada časová – podle druhu sledovaných ukazatelů – časové řady absolutních ukazatelů, časové řady odvozených charakteristik (součtové, průměrné, poměrové). Řada časová – podle způsobu vyjádření údajů – časové řady naturálních ukazatelů, časové řady peněžních ukazatelů. Řada časová – intervalová – velikost ukazatele závisí na délce intervalu, za který je sledován, musí se vztahovat ke stejně dlouhým intervalům. Řada časová – okamžiková – sestavovány z ukazatelů, které se vztahují k určitému okamžiku. Řada časová – srovnatelnost údajů z hlediska věcného (údaje stejně obsahově vymezené), prostorového (údaje vztahující se ke stejným geografickým územím), časového (údaje se mají vztahovat ke stejně dlouhým intervalům), cenového (použití běžných nebo stálých cen). Diference první (absolutní) – rozdíl dvou po sobě jdoucích členů řady, charakterizuje přírůstek hodnoty ukazatele časové řady v určitém období proti období bezprostředně předcházejícímu. Diference druhé (absolutní) – určují zrychlení na základě porovnávání absolutních přírůstků. Tempo růstu – určuje poměr mezi daným a předchozím členem časové řady. Koeficient růstu – index růstu vyjádřený v procentech, udává, o kolik procent vzrostla hodnota časové řady v časovém okamžiku t proti období předcházejícímu. Index růstu průměrný – úhrnná charakteristika relativních změn pro celou časovou řadu, je geometrickým průměrem z jednotlivých koeficientů růstu. Tempo přírůstku – ukazatel zkoumání dynamiky časové řady, představuje porovnání prvního absolutního přírůstku (první diference) s příslušnou hodnotou časové řady. Koeficient zrychlení – vyjádření rychlosti změn v časových řadách. Indexy bazické – zjišťují, k jakým změnám dochází v časové řadě vzhledem k základnímu období. Modelování časových řad – jednorozměrné (klasický formální model, Boxova-Jenkinsova metodologie, spektrální analýza), vícerozměrné modely. Model jednorozměrný klasický (formální) – jde pouze o popis forem pohybu, vychází z dekompozice řady na čtyři složky (trendovou, periodickou (sezónní nebo cyklickou) a náhodnou. Tvar aditivní – yt = Tt + Pt + εt Tvar multiplikativní – yt = Tt . Pt . εt Řada časová periodická – yt = Tt + Pt + εt Řada časová sezónně zatížená – yt = Tt + St + εt Řada časová neperiodická – když Pt = 0, St = 0 Řada časová stacionární – Tt = k. Trend – hlavní tendence dlouhodobého vývoje hodnot analyzovaného ukazatele v čase (rostoucí, klesající, konstantní). Složka sezónní – pravidelně se opakující odchylka od trendu, vyskytující se u časových řad údajů s periodicitou kratší než jeden rok nebo rovnou právě jednomu roku. Složka cyklická – nazývá se kolísání okolo trendu v důsledku dlouhodobého cyklického vývoje s délkou vlny delší než jeden rok. Složka náhodná – nelze jí popsat žádnou funkcí času a která zbývá po vyloučení trendu, sezónní a cyklické složky, jejím zdrojem jsou drobné, vzájemně nezávislé a v jednotlivostech nepostižitelné příčiny. Metodologie Boxova-Jenkinsova – považuje za základní prvek konstrukce modelu časové řady náhodnou složku. Analýza spektrální – časovou řadu považujeme za směs sinusovek a kosinusovek o rozličných amplitudách a frekvencích. Vyrovnání neperiodických časových řad – graficky, mechanicky klouzavými průměry, analyticky trendovými funkcemi. Průměry klouzavé – spočívá v nahrazení skutečných hodnot časové řady průměrem z určitého počtu hodnot. Nejpřesnější je tehdy, když pro výpočet volíme počet hodnot časové řady, který se rovná délce daného cyklu. Řada časová neperiodická – klouzavé průměry počítáme zpravidla z nepárového počtu hodnot, např. tříleté, pětileté, sedmileté atd. Řada časová periodická – s cyklickým kolísáním se doporučuje počítat klouzavé průměry z 2k, respektive 2(k+1) období. Průměry klouzavé centrované – počítají se buď jako jednoduchý aritmetický průměr ze dvou sousedních klouzavých průměrů nebo přímo ze zjištěných hodnot časové řady jako chronologický průměr. Funkce trendové – pro vyrovnávání se používají křivky, zejména lineární, kvadratická, logaritmická, exponenciální, mocninná, odmocninná, kombinovaná, logistická. - 12 -
www.cz-milka.net Funkce – výběr – porovnání absolutních nebo relativních diferencí bezprostředně po sobě následujících hodnot časové řady. Funkce lineární – absolutní přírůstky jsou konstantní. Funkce exponenciální – pro stejné absolutní přírůstky časové proměnné t relativní přírůstky analyzované proměnné zůstávají stálé. Funkce logaritmická – absolutní přírůstky analyzované proměnné jsou přímo úměrné relativním přírůstkům časové proměnné t. Funkce mocninná – relativní přírůstky sledované proměnné jsou přímo úměrné relativním přírůstky časové proměnné t. Trend lineární – lze jej použít, když je potřeba určit alespoň orientačně základní směr vývoje časové řady nebo může soužit v určitém omezeném časovém intervalu jako vhodná aproximace jiných trendových funkcí. Trend exponenciální modifikovaný – ve vývoji má asymptotu, podíly sousedních hodnot prvních diferencí údajů analyzované řady jsou přibližně konstantní. Trend logistický – původně odvozena jako křivka vyjadřující biologický růst populací za podmínek omezených zdrojů, patří mezi trendové funkce s kladnou horní asymptotou a jedním inflexním bodem. S-křivka – trendová funkce s kladnou horní asymptotou a jedním inflexním bodem, vymezuje na časové ose pět základních vývojově odlišných fází cyklu. Křivka Gompertzova – patří do skupiny s-křivek, ale je asymetrická. Volba vhodného modelu – střední chyba odhadu (ME), střední čtvercová chyba (MSE), RMSE, střední absolutní chyba (MAE), střední procentuální chyba (MPE), střední absolutní procentuální chyba (MAPE). Kritéria interpolační – vhodný model trendu hledáme na základě analýzy časové řady v minulosti. Kritéria extrapolační – smyslem popisu trendu časové řady je konstrukce extrapolačních prognóz budoucího vývoje. Složka sezónní – soubor přímých či nepřímých příčin, které se opakují. Výkyvy sezónní – pravidelné výkyvy zkoumané řady nahoru a dolů vůči určitému „nesezónnímu“ normálnímu vývoji řady v průběhu let. Model sezónnosti konstantní – nejjednodušší vyjádření sezónnosti, předpokládá, že velikost sezónní složky časové řady je v jednotlivých sezónách (měsících) rozdílná, zatímco v jednotlivých za sebou následujících letech zůstává konstantní. Model sezónnosti proporcionální – předpokládá, že velikost sezónní složky se v dané sezóně j a v jednotlivých letech i mění úměrně s dosaženou úrovní trendu, takže sezónní složka je přímo úměrná (proporcionální) složce trendové. Model sezónnosti smíšené – předpokládá, že určitá část sezónních výkyvů je konstantní a část sezónních výkyvů je úměrná velikosti trendu. Test hypotézy o existenci sezónnosti – procedura, která testuje oprávněnost zařazení sezónního parametru do modelu. Intenzita kolísání sezónního – měří se pomocí absolutních sezónních odchylek a sezónních indexů. Odchylky absolutní – jsou definované jako rozdíl mezi empirickými hodnotami a aritmetickým průměrem. Je možné je použít jako míru pro vyjádření velikosti periodického kolísání. Použijí se když není závislost mezi vývojem průměrů a kolísáním sezónní složky prokázána. Hodnoty vyrovnané – stanovené například pomocí klouzavých průměrů nebo některou metodou analytického vyrovnávání, aritmetickým průměrem, absolutními odchylkami, průměrnými sezónními indexy, standardizací průměrných sezónních indexů (výsledkem jsou sezónní faktory). Index sezónní – používá se na měření sezónnosti, když je prokázána kladná závislost mezi sezónní složkou a vyrovnanými hodnotami (průměry). Index sezónní průměrný – chceme-li odstranit nebo zmenšit složku náhodného kolísání. Faktory sezónní – hodnoty, které jsou výsledkem standardizace průměrných sezónních indexů. Hodnoty vyrovnané – aritmetický průměr skutečných hodnot za období celé periody sezónního cyklu, vyrovnané hodnoty stanovené pomocí klouzavých průměrů nebo některou metodou analytického vyrovnávání. Očištění sezónní – výpočtem klouzavých průměrů, určením sezónních indexů, očištěním údajů. Periodogram – soupis všech hodnot teoretických rozptylů, je založen na vyjádření původních hodnot časové řady ve formě goniometrických funkcí při zahrnutí interference vlnění. Metoda zbytku – způsob, jak v sezónně očištěné časové řadě rozpoznávat cyklické výkyvy, předpokladem použití je nalezení vhodného trendu původních údajů řady a jejich sezónní očištění. Následuje určení odchylek sezónně očištěných údajů od trendu a vyjádření odchylek v procentech. - 13 -
www.cz-milka.net Interpolace – přibližné určení chybějící hodnoty sledovaného ukazatele časové řady za předpokladu, že známe jeho sousední hodnoty. Lze provést prostřednictvím použití dvou sousedních hodnot (aritmetický průměr sousedních hodnot nebo součin předcházející hodnoty časové řady a průměrného koeficientu růstu) nebo prostřednictvím využití více či všech hodnot časové řady, kdy pomocí metody nejmenších čtverců určíme parametry trendové funkce, ze kterých potom odhadneme chybějící údaj. Extrapolace – konstrukce předpovědí budoucího vývoje zkoumaného ukazatele, určení hodnot časové řady za interval známých hodnot časové řady. Chyba předpovědi modelová – chyba ex ante – nevíme, jaký vývojový mechanismus bude chování předvídané veličiny v budoucnu. Chyba vlastního prognostického modelu – chyba ex post – nelze získat bezchybnou předpověď. Předpověď bodová – odhad vyjádřený jediným číslem a získaný přímým dosazením časového údaje, pro který má být předpověď provedena, do trendové funkce. Předpověď intervalová – zohlednění náhodného kolísání a vyjádření přípustné chyby odhadu. Předpovědní rozpětí – konstrukce – všechny přijatelné modely časové řady lze uspořádat extrémně v tom smyslu, že část z nich bude představovat optimistické bodové předpovědi a část předpovědi pesimistické. Mezi těmito extrémy se mohou objevit i předpovědi kvalitativně neutrální. Rozpětí předpovědní – obor hodnot, který vznikne, když se hodnoty předpovězené jednotlivými přijatými modely transformují tak, aby vycházely ze stejného místa na počátku předpovědi (z referenčního bodu, referenční hodnoty), a u každého z těchto modelů se převedou jím prognózované hodnoty na tempa růstu, která se aplikují na referenční bod. Chyba předpovědi absolutní – jednoduchý způsob hodnocení přesnosti odhadů, rozdíl mezi předpovídanou a skutečnou hodnotou pro daný čas a horizont předpovědi. Předpověď podceňující – pokud je absolutní chyba předpovědi menší než nula. Předpověď nadceňující – pokud je absolutní chyba předpovědi větší než nula. Chyba předpovědi čtvercová – nezáporná veličina, hraniční nulové hodnoty nabývá v případě bezchybných předpovědí. Chyba předpovědi průměrná – odmocnina z čtvercové chyby předpovědi. Koeficient nesouladu Theilův – míra variability relativních chyb předpovědi. Chyba předpovědi relativní – odmocnina z koeficientu nesouladu T. Složka náhodná – výsledek působení blíže nespecifikovaného souboru náhodných (stochastických) vlivů. Jejím zdrojem jsou náhodné vlivy, které se v rámci časové řady vykompenzují. Šum bílý – pokud náhodné poruchy s nulovými středními hodnotami mají konstantní rozptyl a jsou vzájemně lineárně nezávislé. Heteroskedasticita náhodných poruch – předpokládá se, že náhodné poruchy s nulovými středními hodnotami jsou vzájemně nezávislé s měnlivými rozptyly. Porucha náhodná – v čase t se skládá ze dvou složek: ze složky závislé na předchozí poruše a z náhodné složky. Test autokorelace Durbin-Watsonův – ověřujeme, zda jsou náhodné poruchy nezávislé. Modely adaptivní (s měnlivými parametry) – neobjasňují kauzální mechanismus vývoje analyzované proměnné, popisují její průběh v čase, nepředpokládají stabilitu analytického tvaru ani strukturálních parametrů v čase ani spojitost trendové funkce. Vychází z předpokladu, že pro konstrukci prognózy budoucího vývoje mají cenu nejnovější pozorování časové řady. Nejnovějším pozorováním přiřazují největší váhu, berou v úvahu „stárnutí“ informací. Vyrovnávání exponenciální – Brownovým exponenciálním vyrovnáváním, Holtovým lineárním exponenciálním vyrovnáváním, Wintersovým sezónním vyrovnáváním. Vyrovnávání exponenciální Brownovo – pracuje s vyrovnávací konstantou z intervalu (0, 1) jednoduché (trend je možno považovat v krátkých úsecích za konstantní), dvojité = lineární (trend se v časové řadě modeluje po částech přímkou), trojité = kvadratické (trend v časové řadě je popisován po částech parabolou). Vyrovnávání exponenciální lineární Holtovo – odhadují se zde dvě vyrovnávací konstanty z intervalu (0, 1). Vyrovnávání sezónní Wintersovo – pokrývá vedle trendu rovněž sezónní složku, vychází se z multiplikativního modelu. Korelace zdánlivá – někdy je možné pozorovat silnou závislost mezi proměnnými i v případě, kdy mezi proměnnými ve skutečnosti závislost buď skoro nebo vůbec neexistuje. Dochází k ní proto, že obě proměnné vykazují stejný lineární trend. Autokorelace – korelace mezi sousedními odchylkami od trendu. Korelace opožděná – vliv určitého jevu na jiný jev se neprojevuje ve stejných obdobích, ale často až po určité době, tj. po uplynutí jednoho, dvou nebo více období. - 14 -
21.2.2005
Matematická statistika I. Literatura: Kába, Svatošová: Statistika (2004) – Přednášky Prášilová, Svatošová: Cvičení ze statistiky
Základní statistické pojmy Čím se statistika zabývá:
Moderní statistika se zabývá analýzou dat hromadného charakteru. V moderním pojetí představuje aplikaci metod teorii pravděpodobnosti na zpracování dat hromadného charakteru. Data jsou pro nás důležitá, abychom na jejich základě zpracování dokázali racionálně rozhodnout. Definice: Statistika je vědecká disciplína, která se zabývá soubory hromadných pozorování, jejich sběrem, analýzou a využitím pro racionální rozhodování a předpovědi.
Základní statistické pojmy:
Statistický soubor: Konečná neprázdná množina prvků, které mají určité konečné vlastnosti. Např. studenti (= konečná neprázdná množina určitých prvků s určitými společnými vlastnostmi) Statistická jednotka: Je jednotka statistického souboru. Statistický znak: Vyšetřovaná vlastnost statistického souboru.
Statistický soubor:
Rozsah souboru – počet jednotek, které jsou obsažený v daném statistickém souboru. Členění na typy: základní: obsahuje všechny jednotky, které by nás v určitém statistickém zpracování mohly zajímat mohou být velmi rozsáhlé, i nekonečné jejich zpracovávání je zdlouhavé a drahé výběrový: do určité míry nahrazuje, reprezentuje základní soubor – představuje zmenšeninu základního souboru objevuje se to např. ve statistické kontrole jakosti náhodné výběry: vše se ponechává na náhodě může se stát, že nám výběr poskytne špatnou možnost výběru na druhou stranu je zde velmi velká pravděpodobnost blížící se 100%, že náhodný výběr bude fungovat velmi dobře možnosti výběru: losování, tabulky náhodných čísel (představují již předem vybrané náhodná čísla z výběru losování), generátory náhodných čísel záměrný: je zde subjektová, pokud mají dané prvky určité vlastnosti, pak je tam zařadí, jinak je tam nezařadí Velikost souboru: malé soubory – do 30 jednotek střední soubory – 30-100 jednotek velké soubory – nad 100 jednotek
Statistické znaky:
kvantitativní: charakteristika, která se dá vyjádřit číselně diskrétní spojité kvalitativní: znaky, které mají slovní popis alternativní: takové, které mohou nabývat pouze dvou variant, dvou obměn množné: mohou nabývat znaků „mnoho“ (barva očí, květů apod.)
Základní statistické zpracování: 1.
X : x1 , x2 ,..., xn - kde n je rozsah souboru; většinou pro malý soubor Strana 1
2. 3.
variační řada – soubor řazený podle velikosti; zápis: x(1) Ł x(2) Ł ... Ł x( n- 1) Ł x( n) ; můžeme si to dovolit u malého souboru Rozdělení četností: a. prosté rozdělení četností: Hodnoty znaku xi Četnosti ni
x1
b.
n1
x2 n2 … … xk nk celkem k intervalové rozdělení četností: Intervaly hodnoty Četnosti ni 10-20 3 20-30 9 … … celkem k (výše je uveden možný příklad) Vznikají zde problémy: I. Kolik intervalů volit? Není jednoznačný návod, jak to dělat, existují pouze orientační pravidla. n počet intervalů < 50 5-6 50-100 6-8 8-10 > 100 Sturgesovo pravidlo: K 1+ 3,3log n Jiné pomocné pravidlo: K n (toto pravidlo poněkud nadhodnocuje, proto je lepší spíše se řídit Sturgesovým pravidlem nebo výše uvedenou tabulkou. II. Délka tříd: R l= , kde R = xmax - xmin , přičemž R je tzv. variační rozpětí K III. Kam s koncovými hodnotami: Musí se zcela jednoznačně zařadit jednotka do jedné hodnoty. Obecné pravidlo: Zařazovat koncové nebo počáteční hodnoty se sudým pořadovým číslem (začíná se od jedničky). IV. Vynášení do grafu: Polygon rozdělení četností (lineární graf s lomenou čarou) Histogram (sloupcový graf) Na ose x je hodnota znaku, na ose y je četnost 28.2.2005
Statistické charakteristiky; průzkumová statistika
Definice: Statistické charakteristiky jsou čísla, která ve stručné a koncentrované formě popisují hlavní vlastnosti statistického souboru.
Charakteristiky polohy (úrovně) (location):
souborně informují o středové, průměrné hodnotě souboru:
aritmetický průměr:
X=
ĺ
X=
ĺ
xi n xi ni n
– prostý aritmetický průměr (prostá forma arit. průměru) (simple) , kde n =
ĺ
ni – vážený arit. průměr (vážená forma arit. průměru) (simple mean)
medián – x – prostřední hodnota souboru seřazeného dle velikosti: 3+ 4 = 3,5 rozsah souboru je sudé číslo: n = 4 , tj. např. 1,3,4,50 x = 2 b) rozsah souboru je liché číslo: např. n = 4 , čísla: 1,3,4,7,40 x = 4 modus – x – nejčetnější hodnota z daného souboru (hodnota, která se vyskytuje nejčastěji) a)
Charakteristiky variability:
informují nás o kolísavosti, variabilitě souboru
variační rozpětí: Strana 2
R (range); R = xmax - xmin
rozptyl (variance): n
2
ĺ (x - x) i
s2 =
i= 1
n- 1 n
2
ĺ (x - x) ×n i
s2 =
– prostá forma, používáme, pokud pracujeme s netříděným souborem
i= 1
n- 1
i
– vážená forma, používáme, pokud pracujeme s utříděnými soubory
směrodatná odchylka (standard deviation):
s = s2 výše uvedené charakteristiky jsou absolutní charakteristiky, používají se zejména, pokud pracujeme se souborem, kde sledujeme jen jednu hodnotu
variační koeficient:
představuje tzv. relativní charakteristiku variability - V =
s x
×100 [%] . využívá se při relativní
porovnávání více údajů.
Kvantily:
Definice: Jsou to čísla, která dělí soubor seřazený podle velikosti, na určitý počet stejně obsazených (početních) částí.
Kvartily:
Decily:
devět čísel, které rozdělí soubor na 10 stejně početných částí, x 0,1 , x 0,2 ,..., x 0,9
Percentily:
čísla, která rozdělí soubor na čtyři části – tj. tři čísla: x 0,25 - dolní kvartil (1.kvartil), x 0,50 - medián, x 0,75 - horní kvartil (3.kvartil)
99 čísel, které rozdělí soubor na 100 stejně početných částí
Pěticiferný souhrn:
x min , x 0,25 , x 0,50 , x 0,75 , x max pěticiferný souhrn (five-number sumary): John Tukey, autor statistické techniky průzkumová analýza dat (Exploratory Data Analysis) EDA EDA se zaměřuje na popsání nejdůležitějších vlastností, ale zejména zvláštností, něco netypického, to, co soubor odlišuje od normy, standardu. Zvláštnostmi rozumíme netypické, extrémní, odlehlé hodnoty, které vybočují z řady příslušného statistického souboru. Určení souboru pomocí grafické metody box-and-whisker plot (boxplot) odlehlá pozorování minimum maximum 1.kvartil 3.kvartil medián
IQR = x 0,75 - x 0,25 - kvartilové rozpětí (interguartile range)– robustní rozpětí variability úsečky z boxplotu vybíhají max. do 1,5 ×IQR - odlehlá pozorování (outliers) pokud leží mezi 1,5×IQR - 3×IQR - pak to jsou extrémy (extremes) boxplot (shrnutí): s mediánem nás informuje o středu rozptyl – pomocí šířce obdélníka (1. a 3. kvartil) informuje nás o případných velkých hodnotách informuje, zda jsou hodnoty rozloženy v souboru symetricky či nikoli boxplot není nic jiného, než grafické vyjádření pětičíselného souboru
stem-and-leaf display:
Příklad: V náhodném výběru 25 studentů, byli studenti dotazováni na dobu, kterou potřebovali na zpracování určitého domácího úkolu. Výsledky v minutách jsou následující: 32 36 45 28 49 19 38 41 63 46 24 42 37 40 64 47 34 30 35 18 33 45 61 42 30 Strana 3
Rozdělit čísla na stem (stonek) a leaf (list). Vytvoříme stem: 1 98 leaf, jednotková část čísla 2 684 3 2874030 4 5916207552 pokud natočíme o 90 st. náznak grafu křivky 5 stem, dekadická část 6 341 Dále se leaf (druhý sloupec) seřadí dle velikosti. Výše uvedená technika se nazývá semigrafický prostředek. 7.3.2005
Zpracování:
1) všechny hodnoty ponecháme, ale musíme to poznamenat 2) některé hodnoty vynecháme, a srovnáme to s první metodou – jak se to bude lišit. Pokud se budou lišit hodně, je nutné zahrnout všechny hodnoty
Statistická indukce Definice:
Představuje soubor metod, které prostřednictvím zkoumáním výběrového souboru umožňují formulovat úsudku o vlastnostech základního souboru. Různé typy (postupy): teorie odhadu testování statistických hypotéz výběr
Typy náhodného výběru:
základní výběr
Prostý náhodný výběr: nejjednodušší typ je to přímý výběr – vybíráme přímo náhodné statistické jednotky (nikoliv skupiny) provádíme jej z netříděného základního výběru všechny jednotky mají stejnou pravděpodobnost výběru způsob výběru: např. losování, tabulky náhodných čísel, generátory náhodných čísel může jít o výběr s opakováním nebo bez opakování
Složené výběry:
Složené výběry jsou charakteristické tím, že se ze základního souboru vytvoří určité dílčí soubory a zjišťování se provádí v rámci těchto dílčích souborů Soubory stratifikované (oblastní výběry): Stratifikovaný výběr spočívá v tom, že celý základní soubor rozdělíme podle určitého hlediska na několik dílčích souborů, které se nazývají oblasti nebo (strata) a z těchto skupin se pořídí nezávislé náhodné výběry. Oblastní výběry se používají tehdy, když celý základní soubor je značně nesourodý a odhady prováděné prostým náhodným výběrem by měli malou přesnost. Rozdělení na oblasti provádíme tak, aby každá oblast byla homogennějším celkem, tzn. aby měla menší variabilitu sledovaného statistického znaku než celý základní soubor. Vícestupňové výběry: Vícestupňové výběry se používají tehdy, jestliže pracujeme se základními soubory, jejichž jednotky jsou značně prostorově rozptýlené. Tuto prostorovou rozptýlenost omezujeme tím, že statistické jednotky nevybíráme přímo, ale v několika stupních. Nejčastěji ve dvou stupních dvoustupňový výběr, méně často se to provádí ve třech stupních trojstupňový výběr, zřídka ve čtyřech stupních čtyřstupňový výběr. Při dvoustupňovém výběru vybíráme v prvém stupni náhodně přirozené skupiny statistických jednotek a tyto skupiny se nazývají primární jednotky. Ve vybraných jednotkách primárních pak vybíráme jednotky druhého stupně, označované též jako sekundární, které představují vlastní jednotky šetření. Příklad: Vybereme si nejdříve určité obce (primární výběr) a v těchto primárních jednotkách (obcích) vybíráme lidi pro průzkum výše je dvoustupňový výběr. Při trojstupňovém výběru bychom např. měli obce, domácnosti, respondenti apod.
Teorie odhadu:
Dělení na:
bodový odhad intervalový odhad
Definice: Strana 4
Ze základního souboru o rozsahu N , který má průměr m a rozptyl s 2 , byl vybrán náhodný výběr
x1 , x2 ,..., xn . Charakteristika základního souboru, tzn. průměr m a rozptyl s 2 , jsou konstanty, jejichž hodnoty neznámy a chceme je odhadnou pomocí uvedeného náhodného výběru.
Značení: rozsah aritmetický průměr rozptyl
základní soubor N m
s2
výběrový soubor n x s2
Bodový odhad parametrů základního odhadu:
Spočívá v tom, že se pokoušíme odhadnout charakteristiku základního souboru pomocí jedné hodnoty. Charakteristiky základního souboru se označují jako parametry základního souboru (jsou to konstanty). Výběrové charakteristiky (např. x , s 2 , s atd.) jsou náhodné veličiny. Charakteristiky základního souboru (parametry) se souborně označují řeckým písmenem q (théta). Charakteristiky výběrového souboru (náhodné veličiny) se označují symbolem T , a nazývají se statistiky. T = f (x1 , x2 ,..., xn ) , kde (x1 , x2 ,..., xn ) představují výběrové hodnoty. (Statistika T představuje funkci výběrových hodnot). Bodový odhad charakteristiky q : QT Aby statistika T dávala kvalitní bodový odhad parametru Q musí splňovat určité vlastnosti. Základním a minimálním požadavkem jemuž by měla vyhovovat je tzv. nestrannost odhadu. Statistika T dává nestranný (nezkreslený) odhad parametrů základního souboru Q , jestliže platí: E (T ) = Q . Vždycky se nám projeví určitá diference Q - T , což představuje chyba odhadu. Naší snahou je, aby se chyby ve svém průměru vyrušily, tj. E (q- T ) = 0 , přičemž Q je konstanta, a T je náhodná veličina, pak: E (Q - T ) = Q - E (T ) = 0 Ţ E (T ) = Q . Z výše uvedeného vyplývá následující:
Požadavek nestrannosti odhadů vyjadřuje skutečnost, že statistika T nedává při odhadu parametru q systematické chyby, ale že při tomto odhadu vznikají pouze nepodstatné náhodné chyby, které se ve svém průměru vyruší. Nestranný odhad průměru základního souboru m :
1 n ĺ xi n i= 1 ć1 n ö 1 n 1 1 ÷= ĺ (xi ) = (m+ m+ ... + m) = ×n ×m = m výběrový aritmetický průměr x ? E (x ) = m , E çç ĺ xi ÷ ÷ n i= 1 çč n i= 1 ř÷ n n je nestranným odhadem průměru základního souboru m . m x =
Nestranný odhad rozptylu základního souboru s 2 : 1 n 2 s s2 = ĺ (xi - x ) n - 1 i= 1 ć 1 n 2ö ? E (s 2 ) = s 2 , E (s 2 ) = E çç (x - x ) ÷÷÷÷= ... ... = s 2 çč n - 1 ĺi= 1 i ř
Pokud budeme chtít provádět odhad daného souboru, pak používáme výběrový rozdíl. Pokud chceme 1 n 2 provádět pouze popis daného souboru, pak je možné použít i s 2 = ĺ (xi - x ) . Pozor na to u n i= 1 kalkulačkách, různého softwaru apod. 14.3.2005
Intervalový odhad parametrů základního souboru:
Ve většině případů dáváme přednost intervalovému odhadu, v němž by se měla nacházet daná hledaná hodnota Spočívá v konstrukci tzv. interval spolehlivosti (confidence interval)– (T1 , T2 ) - meze intervalu, jsou to tzv.
statistiky (náhodné veličiny, jejichž konkrétní hodnoty jsou vypočteny z výsledků příslušného náhodného výběru) Budeme chtít odhadnout parametr Q základního souboru: P (T1 < Q < T2 ) = 1- a , kde a je hladina
výkonnosti (significance level, probability level) nebo hladina významnosti pro praktické použití se často používá a = 0,05 - pětiprocentní hladina spolehlivosti, pak to je 95% interval spolehlivosti; pokud a = 0,1 , pak to je 90% interval spolehlivosti 1- a - koeficient spolehlivosti (spolehlivost) Spolehlivost, je pravděpodobnost, s jakou v daném intervalu spolehlivost budou konkrétní hodnoty obsažené Strana 5
Přesnost odhadu – máme na mysli délku intervalu daného souboru – čím je delší, tím je méně přesný
Intervalový odhad průměru základního souboru m
Je dán náhodný výběr x1 , x2 ,..., xn , který byl pořízen ze základního souboru s rozdělením normálním
N (m, s 2 ) .
Máme x1 , x2 ,..., xn pozorování statistického znaku X
a) odhadu průměru m při známém průměru s 2
průměr m je neznámá konstanta, kterou chceme odhadnout
s 2 je známá konstanta, kterou známe Interval spolehlivost pro průměr m - (x - D , x + D ) , kde D je přípustná chyba D = ua ×
s
, kde ua je kritická hodnota normálního rozdělení, kterou hledáme v tabulkách kritických n hodnot normovaného normálního rozdělení N (0,1) pro zvolenou hodnotu výkonnosti a , např.:
u0,05 = 1,96; u0,01 = 2,58; u0,1 = 1,645
b) odhad průměru základního souboru m při normálním rozptylu s 2
Je dán náhodný výběr x1 , x2 ,..., xn , který byl pořízen ze základního souboru s rozdělením N (m, s 2 ) . Průměr m a rozptyl s 2 jsou neznámé konstanty. Prostřednictvím uvedeného náhodného výběru chceme zkonstruovat intervalový odhad průměru základního souboru. Interval spolehlivost (x - D , x + D ) , kde D je přípustná chyba
D = ta (n- 1) ×
s
, kde s je výběrová směrodatná odchylka, tzn.: s =
1 n 2 (xi - x ) ; ĺ n - 1 i= 1
n ta (n- 1) je kritická hodnota Studentova t-rozdělení, kterou hledáme v tabulkách pro zvolenou hladinu
významnosti a a pro f = n - 1 stupňů volnosti [Příklad:] Zadání: Balící automat určitých potravinových porcí je seřízen na hodnotu 250 gramů. Pro posouzení kvality seřízení bylo náhodně odebráno 16 vzorků n = 16 a na jejich základě byli vypočteny: výběrový průměr x = 250, 219 g a výběrové směrodatná odchylka s = 0, 4707 g . Na základě těchto výsledků je třeba zkonstruovat 95% interval spolehlivosti pro průměrnou hmotnost všech balených porcí. x = 250, 219 g m s = 0, 4707 g n = 16 Zvolíme hladinu a = 0,05 ; (x - D , x + D ) ; v tabulkách studentova rozdělení hledáme kritickou hodnotu pro ta (n- 1) = t0,05(15) = 2,131 . Máme vše připraveno pro dosazení do výpočtu přípustné chyby:
0, 4707 = 2,131× = 0, 2508 0, 251 , můžeme dosadit do intervalu přípustné chyby: n 16 (250, 219 - 0, 251; 250, 219 + 0, 251) = (249,968; 250, 470) - to co nám vyšlo, je 95% interval spolehlivosti celé výroby. Jak bychom tomuto intervalu měli rozumět – často se mylně říká, že ten průměr s 95% pravděpodobností padne do výše uvedeného intervalu špatně je to přeci pevná hodnota, která se nemůže pohybovat, nikam nepadá, prostě buď tam leží s P=1, nebo tam neleží s P=0. Ale co se může měnit, to jsou meze intervalu. Tj. správná interpretace, kterou bychom měli správně uvést říká: „Tento interval s 95% pravděpodobností pokrývá (obsahuje) průměrnou hodnotu neznámého souboru m “. Můžeme říci, že na základě těchto 16-ti měření je automat seřízen správně (tj. hodnota 250 leží v rámci mezí intervalů). [Konec příkladu] oboustranný interval spolehlivosti: (x - D , x + D ) D = ta (n- 1) ×
s
jednostranný interval spolehlivost: pravostranný interval spolehlivosti: nezajímá nás dolní mez, zajímá nás horní mez (- Ą , x + D )
levostranný interval spolehlivost: zajímá nás dolní hranice, horní nikoliv (x - D , + Ą )
Strana 6
výpočet chyb u jednostranných intervalů: s D = u2×a × , jestliže známe s 2 n s D = t2×a (n- 1) × , jestliže neznáme s 2 n [Příklad] Doplnění výše uvedeného příkladu. Vypočtěte pravostranný interval spolehlivost pro průměrnou hmotnost automaticky dávkovaných balíčků. n = 16 x = 250, 219 g s = 0, 4707 g
a = 0,05 , tj. je to 95% pravostranný interval, ale potřebujeme t2a (n- 1) = t0,115 × = 1,753 , tj. zde je změna 0, 4707 tj. = 1, 753× = 0, 206 , n 16 x + D = 250, 219 + 0, 206 = 250, 425 g . Tato hodnota představuje určité maximum, tj. můžeme říci, že s 95% pravděpodobností je toto maximální průměrná hodnota (tj. levostranný interval vymezuje nepravděpodobnější minimální průměrnou hodnotu), tj. jednostranné intervaly vymezují minimum, maximum. Oboustranné intervaly ukazují určitý rozkmit, kdežto, pokud nás zajímá určitá max., min. hodnota, pak to lze zjistit pomocí těchto jednostranných intervalů. [Konec příkladu] ć ö çç(n - 1)s 2 (n - 1)s 2 ÷ ÷ ÷ ç ÷ , 2 Interval spolehlivosti pro rozptyl: çç 2 , kde s 2 je výběrový rozptyl, c jsou tabulkové ÷ ÷ c a çç c a ÷ ÷ 1- (n- 1) ř ÷ çč 2 (n- 1) 2 kritické hodnoty chí-kvadrát. oproti
výše
uvedenému
výpočtu.
D = t2×a (n- 1) ×
s
21.3.2005
[Opakování]: přípustná chyba intervalového odhadu průměru základního soubor: s D = ua . , v případě známého rozptylu s 2 n s D = ta (n- 1). , v případě neznámého rozptylu s 2 n [Konec opakování]
c) určování rozsahu výběru:
D - předepsaná (daná) hodnota, ve vztahu D = ua . ću ×s n = çç a çč D
s n
neznáme velikost výběrového souboru
2
ö ÷ ÷ ř÷
d) metoda dvojfázového náhodného výběru:
s
neznáme skoro nic n V čem metoda spočívá – ve dvou krocích, dvou etapách: 1.fáze – provedení tzv. předvýběru, tj. provedení malého náhodného výběru o rozsahu m a na základě tohoto náhodného výběru určíme výběrovou směrodatnou odchylku z D = ta (n- 1).
2
s=
1 n ĺ (xi - x) a v tabulce Studentova rozdělení najdeme kritickou hodnotu ta(m- 1) . m - 1 i= 1 2
ćt ×s ö Určíme hodnotu n : n = çç a ÷ ÷ . Můžou nastat dva případy: čç D ÷ ř
n > m 2.fáze, která spočívá v doplnění velikosti předvýběru o dalších n - m jednotek na požadovaný rozsah n b) n Ł m [Začátek příkladu] Pokračování výše uvedeného příkladu. x = 250, 219 g m ; s = 0, 4707 g ; n = 16 ; s 2 = 0, 4707 ; D = 0, 2508 ; 95% interval spolehlivosti pro a)
průměr m , P (249,968; 250, 470) , t0,05(15) = 2,131 .
Strana 7
Nyní chceme, aby chyba byla
D = 0,1254 . Tj. n = ? . 2 2
2 ćt ×s ö ćç 2,131×0, 4707 ö ÷ 64 . Původní n bereme jako předvýběr. Dosadíme do výše uvedeného vzorce n = çç a ÷ ÷ ÷ =ç čç D ř÷ čç 0,1254 ř÷ Je třeba 64 - 16 = 48 balíčků, abychom dostali přípustnou chybu na polovinu původní. [Konec příkladu] [Začátek příkladu] Při výrobě žárovek byli provedeny laboratorní zkoušky životnosti 10 žárovek. Z výsledků zkoušek byl vypočten průměr x = 1050 h , s 2 = 41532 . Odhadněte rozptyl základního souboru, pomocí 95% intervalu spolehlivosti.
ć ö çç(n - 1)s 2 (n - 1)s 2 ÷ ÷ ÷ ç ÷ Vzorce pro int. spolehlivost: çç 2 , 2 ÷. ÷ c a çç c a ÷ ÷ 1- (n- 1) ř ÷ çč 2 (n- 1) 2 a = 0,05 . V tabulkách hledáme: 2 c 0,025 (9) = 19,023 - v tabulkách pro c -kvadrát ć9 ×41532 9 ×41532 ÷ ö 2 ç c 0,975 , ÷= (19649, 27; 138440) . Nyní, spočítat 95% interval (9) = 2,7 , tj, když dosadíme, pak: ç çč 19, 023 ÷ 2, 7 ř spolehlivost pro směrodatnou odchylku s stačí meze odmocnit a dostáváme: (140,18; 327,08) . [Konec příkladu]
Shrnutí a závěr:
Interval spolehlivost pro průměr, rozptyl, případně směrodatnou odchylku konstruujeme, jestliže pracujeme se znaky kvantitativními. V případě znaků kvalitativních, jejichž jednotlivé varianty jsou vyjádřeny slovně, nikoliv číselně, není možné průměr, případně rozptyl, počítat. Hlavní statistickou charakteristikou kvalitativních znaků je relativní četnost výskytu sledované varianty kvalitativního znaku.
Intervalový odhad relativní četnosti:
Je dán náhodný výběr o rozsahu n , ve kterém jsme na jeho jednotkách sledovali nějaký kvalitativní znak m výběrovou relativní četnost (podíl, A . Jestliže tento znak se vyskytuje u m jednotek, představuje podíl n m procento) výskytu znaku A . Výběrová relativní četnost představuje bodový odhad relativní četnosti n základního souboru p (p ).
ćm ö çç - D ; m + D ÷ představuje oboustranný interval spolehlivost pro relativní četnost, kde: ÷ ÷ çč n ř n D je přípustná chyba a počítá se: ö m ćç m ÷ ç1- ÷ ř n çč n ÷ , přičemž ua je kritická hodnota normálního rozdělení N (0,1) D = ua × n Jednostranné intervaly spolehlivosti pro relativní četnost: ć ö m a) pravostranný interval çç- Ą , + D ÷ ÷ ÷ çč ř n ćm ö b) levostranný interval çç - D ; + Ą ÷ ÷ ÷ çč n ř
ö m ćç m ÷ ççč1- ÷ ÷ n nř přičemž pro jednostranné intervaly se změní: D = u2a × n [Začátek příkladu] Při kontrole data spotřeby masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 320 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. a) Stanovte 95% oboustranný interval spolehlivosti pro odhad procenta konzerv s prošlou záruční lhůtou. b) Jaký je nejmenší podíl konzerv s prošlou záruční lhůtou? c) Jestliže ve skladu je celkem 30 000 konzerv, jaké bude minimální množství konzerv s prošlou záruční lhůtou? m 59 Známe hodnoty: n = 320 ; m = 59 pak můžeme spočítat = = 0,184 (tj. 18,4 % konzerv, kde byla n 320 zaregistrována prošlá záruční lhůta). Strana 8
ad a)
m ćç m ö ÷ ç1- ÷ 0,184 ×0,816 n çč n ř÷ a = 0,05 , kritická hodnota u0,05 = 1,96 , dosadím do D = ua × = 1,96 × = 0, 042 . n 320 Pak interval spolehlivosti je (0,184 - 0,042; 0,184 + 0,042) = (0,142; 0, 226), tj. (14, 2%; 22,6%). Připouštíme, že s 5% pravděpodobností může být výše uvedený odhad špatných konzerv ve skladu nesprávný. ad b) m Musím spočítat jednostranný interval pro minimum tj. kde - D, n m ćç m ö m ćç m ö ÷ ÷ çč1- ř÷ ç1- ÷ ÷ ç n n n čç n ř÷ , D = u2 a × = u0,1 × n n
D = 1, 645 ×
stále
to
je
95%
levostranný
interval,
tj.
m 0,184 ×0,816 = 0, 0356 . Tj. - D = 0,184 - 0, 0356 0,148 , tj. 14,8% . 324 n
ad c) N = 30 000 - velikost základního souboru. Hledáme minimální počet konzerv, u jakých prošla záruční lhůta. Tj. je to 14,8% z 30 000 , tj. 30000 ×0,148 = 4400 [Konec příkladu] 4.4.2005
Intervalové odhady v případě výběrů bez opakování Intervalový odhad průměru v případě výběru bez opakování:
(x - D , x + D ) , kde D = ua ×
s n
×
N- n s N- n , jestliže známe s 2 ; D = ua (n- 1) × × , jestliže N- 1 N- 1 n
neznáme s 2 .
Intervalový odhad relativní četnosti v případě výběru bez opakování: m ćç m ö ×ç1- ÷ ÷ ćm ö m n čç n ř÷ N - n ÷ ç ç - D; + D ÷ , kde D = u × × a ÷ çč n ř n n N- 1 [Začátek příkladu] Při kontrole jakosti bylo z velké série náhodně vybráno 200 výrobků a mezi nimi bylo nalezeno 12 vadných. a) Sestrojte 95% interval spolehlivosti pro podíl vadných výrobků v celé sérii. b) Jak se změní meze intervalu spolehlivosti, jestliže vybíráme 200 výrobků ze série, která obsahuje 2000 ks. Řešení: ad a): ćm ö m m 12 Náhodný výběr n = 200 ; m = 12 . = = 0, 06 , tj. 6%. Volíme a = 0,05 , tj. interval çç - D ; + D ÷ ÷. ÷ çč n ř n n 200
ö m ćç m ÷ ççč1- ÷ ÷ 0, 06 ×0,94 n nř . Po dosazení D = 1,96 × D = ua × 0, 033 . Tj. výsledný interval má podobu 200 n (0,06 - 0,033; 0,06 + 0,033)= (0,027; 0,093)= (2,7%; 9,3%). Tj. z celé velké neznáme série by se z 95% pravděpodobností by se měl podíl vyskytnout v tomto intervalu. ad b): stejné zadání jako ad a), ale navíc známe zadání základního souboru N = 2000 . Nyní dosazuje do ö m ćç m ÷ ×ç1- ÷ ř N- n 0, 06 ×0,94 2000 - 200 n çč n ÷ D = ua × × = 1,96 × × 0, 031 , tj. (0,029; 0,091) = (2,9%; 9,1%) . n N- 1 200 2000 - 1 Interval se zkrátil ve srovnání s předcházejícím. [Konec příkladu] Pozn.: U pravo- či levostranných intervalech se bude hladina spolehlivosti zvyšovat (2x).
Testování statistických hypotéz Statistické indukce:
teorie odhadu testování statistických hypotéz Strana 9
Definice: Statistická indukce představuje soubor metod, pomocí nichž můžeme pomocí náhodného výběru formulovat určité závěry o vlastnostech základního souboru.
Základní pojmy:
Statistická hypotéza:
Definice: Statistická hypotéza je určité tvrzení o charakteristikách nebo tvaru pravděpodobnostního rozdělení základního souboru. Hypotézy, které se týkají charakteristik základního souboru se nazývají parametrická hypotéza, hypotézy o tvaru pravděpodobnostního rozdělení základního souboru se nazývají neparametrická hypotéza. Testem statistické hypotézy budeme nazývat postup, kterým na základě výběrového souboru budeme ověřovat platnost zformulované hypotézy. Nulová hypotéza H 0 : zápis: H 0 : Q = Q0 , kde Q je parametr (statistická charakteristika) základního souboru; Q 0 je předpokládaná (teoretická) hodnota charakteristiky základního souboru. Alternativní hypotéza A (někdy H1 )
jedná se o popření nulové hypotézy, přijmeme ji tehdy, když popřeme nulovou hypotézu zápis: A : Q ą Q0 - oboustranná alternativa:
A : Q > Q0 - pravostranná alternativa, A : Q < Q0 - levostranná alternativa obě dvě jsou tzv. jednostranné alternativy pozn.: V konkrétním testu si volíme jen jednu alternativu, tu, která vyplývá ze zadání.
Chyby při testování statistických hypotéz: a) chyba prvního druhu: spočívá v zamítnutí nulové hypotézy, která je ve skutečnosti správná Pravděpodobnost chyby 1. druhu se nazývá hladina významnosti a značí se a . Nejčastěji a = 0,05; a = 0,01 b) chyba druhého druhu: spočívá v přijetí nulové hypotézy, která je ve skutečnosti nesprávná Pravděpodobnost chyby 2. druhu se značí b . 1- b - síla testu – tj. nedopustíme se chyby 2.druhu
Testové kritérium (testová kritéria):
T = f (x1 , x2 ,..., xn ) - shrnuje celou informaci, kterou nese výběrový soubor Pojmy: kritický obor, obor přijetí Jestliže vypočtená hodnota testového kritéria padne do tzv. kritického oboru (kritický obor), bude se nulová hypotéza zamítat a přijímat hypotéza alternativní. Jestliže naopak padne do obor přijetí, bude to znamenat, že výběrová data nejsou v rozporu s testovanou nulovou hypotézou.
Jednovýběrový t-test:
Je dán náhodný výběr x1 , x2 ,..., xn , který byl vybrán ze základního soubor s rozdělením normálním
N (m, s 2 ) . Na základě tohoto náhodného výběru je třeba testovat nulovou hypotézu H 0 : m = m0 . 2 a) známe rozptyl základního souboru s :
Testové kritérium U =
x - m0 × n . Na základě této veličiny můžeme zkonstruovat následující: s
Rozhodovací pravidla: Jestliže U > ma zamítáme H 0 : m = m0 a přijímáme A0 : m ą m0 Jestliže U > m2a zamítáme H 0 : m = m0 a přijímáme A0 : m > m0 Jestliže U < - m2a zamítáme H 0 : m = m0 a přijímáme A0 : m < m0 2 b) neznáme rozptyl základního souboru s :
Testové kritérium t =
x - m0 × n. s
Rozhodovací pravidla: Jestliže t > ta (n- 1) zamítáme H 0 : m = m0 a přijímáme A0 : m ą m0 Jestliže t > t2a (n- 1) zamítáme H 0 : m = m0 a přijímáme A0 : m > m0 Jestliže t < - t2a (n- 1) zamítáme H 0 : m = m0 a přijímáme A0 : m < m0 [Začátek příkladu] Spolčenost, která doručuje zásilky tvrdí, že doručí zásilku v průměru za 28 minut. Pro ověření tohoto tvrzení bylo náhodně zkontrolováno 100 zásilek ( n = 100 ) a zaznamenán čas dodání. Z těchto výběrových výsledků bylo vypočteno: průměrný čas dodání x = 31,5 min a s = 5 min .
Strana 10
Postup řešení: Mějme nulovou hypotézu H 0 : m = m0 , kde m0 = 28 . Tuto hypotézu ověřuji. Nutno sestrojit alternativní hypotézu – pro náš případ: oboustrannou alternativu. Vypočítáme si testové kritérium x - m0 31,5 - 28 t= × n= 100 = 7 . s 5 Porovnáváme: t = 7 a t0,05(99) 1,99 , tj. t = 7 > t0,05(99) 1,99 zamítáme H 0 : m= 28 a přejímáme
A : mą 28 11.4.2005 2 c) Test hypotézy o hodnotě rozptylu základního souboru s Vychází z analogické situace jako u jednovýběrového t-testu Je dán náhodný výběr x1 , x2 ,..., xn , který byl pořízen ze základního souboru s rozdělením normálním
N (m, s 2 ) . Průměr m základního souboru a rozptyl s 2 jsou neznámé konstanty. Na základě uvedeného výběru je třeba testovat nulovou hypotézu H 0 : s 2 = s 02 , kde s 02 je předpokládaná (teoretická) hodnota rozptylu s 2 .
(n - 1)s 2
Testové kritérium: c 2 =
Rozhodovací pravidlo: Jestliže c 2 > c a2(n- 1) zamítáme H 0 : s 2 = s 02 a přijímáme alternativní hypotézu A : s 2 > s 02 .
s 02
[Začátek příkladu] Variabilita teploty vzduchu na určitém pracovišti je charakterizována směrodatnou odchylkou 3 stupně Celsia. Bylo proveden 30 kontrolních měření teploty a ze zjištěných údajů byl vypočten výběrový rozptyl s 2 = 10,7 . Je třeba posoudit, zda tato hodnota nesignalizuje zvýšení variability teploty vzduchu. n = 30 s 2 = 10,7 s = 3, 27°C s 0 = 3°C , tj. s 02 = 9
H 0 : s 2 = s 02 = 9 toto tvrdí nulové hypotéza (naše). Proti tomu stojí A : s 2 > s 02 . Dosadíme do testového kritéria: c 2 =
(n - 1)s 2 s 02
=
29 ×10, 7 = 34, 478 . Provádíme rozhodnutí dle rozhodovacího pravidla, zvolíme si 9
2 hladinu významnosti a = 0,05 , v tabulkách si najdeme c 0,05 (29) = 42,557 . Porovnáme, na základě pravidla 2 2 zformulujeme závěr: c 2 = 34, 4479 < c 0,05 (29) = 42,557 nulovou hypotézu H 0 : s = 9 nezamítáme, tzn.
kontrolní měření neprokázala zvýšení variability teploty vzduchu. [konec příkladu]
d) Test hypotézy o hodnotě relativní četnosti
Uvedený test se používá v těch situacích, kdy na jednotkách statistického výběrového souboru sledujeme nějaký kvalitativní statistický znak. m Výběrová relativní četnost ; H 0 : p = p0 , kde p představuje relativní četnost v základním souboru, p0 n je předpokládaná (teoretická) hodnota relativní četnosti m - p0 n Testové kritérium: u = p0 (1- p0 )
n Rozhodovací pravidla: Jestliže u > ua zamítáme H 0 : p = p0 a přijímáme A : p ą p0
Jestliže u > u2a zamítáme H 0 : p = p0 a přijímáme A : p > p0 Jestliže u < - u2a zamítáme H 0 : p = p0 a přijímáme A : p < p0
ua , u2a jsou kritické hodnoty normálního rozdělení N (0,1) , hledáme je v tabulkách [začátek příkladu] Výrobce předpokládá, že o jeho nový výrobek bude mít zájem 40% potenciálních zákazníků. Pro ověření tohoto předpokladu byl proveden průzkum, kde ze 70 náhodně oslovených respondentů o výrobek projevilo zájem 25 dotázaných. Je třeba rozhodnout, zda tato data jsou v souladu s předpokladem výrobcem. Výrobce očekává H 0 : p = p0 , kde p0 = 0, 4 a p je relativní četnost (procento zákazníků) v základním souboru. Provede se náhodný výběr - n = 70 , z toho m = 25 projevilo o výrobek zájem, tj. relativní četnost m 25 = = 0,357 . Zformulujeme alternativní hypotézu – jednostrannou nebo oboustrannou? Je nutno se podívat n 75 Strana 11
na zadání do formulace – neptali jsem se, zda dochází ke zvýšení nebo zmenšení (pak by to byla jednostranná) – ptáme se, zda jsou údaje v souladu nebo nejsou v souladu oboustranná hypotéza A : p ą p0 .
m - p0 0,357 - 0, 4 n = = - 0, 734 . Nyní provedeme rozhodnutí – Dosadíme do testovacího kritéria: u = 0, 4 ×0, 6 p0 (1- p0 ) 70 n vybrali jsme si oboustrannou alternativu, tj. musíme si i pro to vybrat rozhodovací pravidlo: u = 0,734 < u0,05 = 1,96 nulovou hypotézu H 0 nezamítáme, tj. test neprokázal, že by procento zájemců bylo jiné, než předpokládá výrobce. [konec příkladu] všem výše uvedeným testů říkáme, že se jedná o testy „jednovýběrové“
Dvouvýběrový t-test
Jsou dány dva nezávislé výběry x1 , x2 ,..., xn , y1 , y2 ,..., yn , které byly pořízeny ze základních souborů s rozdělením normálním N (m1 , s 12 ) , resp. N (m2 , s 22 ) . Průměry m1 a m2 základních souborů jsou neznámé konstanty. Pomocí uvedených náhodných výběrů chceme testovat nulovou hypotézu: H 0 : m1 = m2 .
a) test při známých rozptylech základních souborů s 12 a s 22 : x- y
Testové kritérium: U =
Rozhodovací pravidla: Jestliže U > ua zamítáme H 0 : m1 = m2 a přijímáme A0 : m1 ą m2
s 12 s 22 + m n
Jestliže U > u2a zamítáme H 0 : m1 = m2 a přijímáme A0 : m1 > m2
Jestliže U < - u2a zamítáme H 0 : m1 = m2 a přijímáme A0 : m1 < m2
b) test při neznámých rozptylech základního souboru s 12 a s 22 :
Je nutno nejprve ověřit dodatečný předpoklad, že s 12 = s 22 . Tento předpoklad se ověřuje pomocí tzv. f-test.
Testové kritérium pro F-test: F =
náhodných výběrů) Jestliže F < Fa [m- 1;n- 1] dodatečný předpoklad s 12 = s 22 budeme považovat za platný. Fa [m- 1;n- 1] jsou
s12 , kde s12 ł s22 ( s12 a s22 jsou výběrové rozptyly uvažovaných s22
tabulkové kritické hodnoty, které hledáme v tabulkách tzv. F-rozdělení pro hladinu významnosti a a pro f1 = m - 1 a f 2 = n - 1 stupních volnosti. Pokud tento předpoklad platí, pak pokračujeme dále.
Test
hypotézy
H 0 : m1 = m2
se
pak
provádí
pomocí
testového
kritéria
x- y
t= s
1 1 + m n
,
kde
1 é(m - 1)s12 + (n - 1)s22 ů. ú ű m + n - 2 ëę Rozhodovací pravidla: Jestliže t > ta (m+ n- 2) zamítáme H 0 : m1 = m2 a přijímáme A : m1 ą m2 . s=
Jestliže t > t2a (m+ n- 2) zamítáme H 0 : m1 = m2 a přijímáme A : m1 > m2 .
Jestliže t > - t2a (m+ n- 2) zamítáme H 0 : m1 = m2 a přijímáme A : m1 < m2 .
Kde ta (m+ n- 2) a t2a (m+ n- 2) jsou kritické hodnoty Studentova rozdělení pro zvolenou hladinu významnosti
a a pro f = m + n - 2 stupňů volnosti (hledáme je v tabulkách). 18.4.2005
[Pozn.: Dneska je nás tu 14 – vč. přednášejícího] [Začátek příkladu] Je třeba posoudit, zda dva typy automobilů se významně liší v průměrné spotřebě benzínu. Bylo náhodně vybráno po 10 automobilech každého typu a při rychlosti 90 km/h naměřeny následující hodnoty spotřeby (v l/100 km). 1.typ: 6,2; 7,3; 6,3; 5,5; 6,8; 6,5; 6,3; 6,6; 7,1; 6,5; 2.typ: 5,7; 5,0; 5,3; 5,6; 6,1; 5,3; 5,8; 5,7; 5,4; 5,5; Strana 12
Řešení: chceme testovat H 0 : m1 = m2 , zformulujeme A0 : m1 ą m2 . K dispozici máme dva nezávislé výběry. Rozptyly s 12 a s 22 základních souborů neznáme. Vyslovíme dodatečný předpoklad s 12 = s 22 a tento předpoklad ověříme F-testem.
m = 10 , n = 10 ;
x = 6,51 ,
y = 5,54 ; s12 = 0, 252 , s22 = 0, 096 . Spočítáme F-test:
F=
s12 2 ; s1 ł s22 , s22
0, 252 = 2, 625 . Dále F = 2,625 < F0,05(9;9) = 3,18 předpoklad s 12 = s 22 jsme nezamítli a můžeme 0, 096 x- y hypotézu H 0 : m1 = m2 testovat dvouvýběrovým t-testem. Testové kritérium t = , kde 1 1 s + m n F=
1 é(m - 1)s12 + (n - 1)s22 ů tj. s = ú ű m + n - 2 ëę
1 6,51- 5,54 = 5, 20 . [9 ×0, 252 + 9 ×0, 096]= 0, 4171 , dále t = 18 2 0, 4171 10 Nyní provedeme rozhodnutí dle t > ta (m+ n- 2) , tj. t = 5, 20 > t0,05(18) = 2, 201 nulovou hypotézu H 0 : m1 = m2 s=
zamítáme a přijímáme alternativu A0 : m1 ą m2 . Nyní jsme oprávněni konstatovat, že výše uvedené dva typy automobilu nemají stejnou průměrnou spotřebu. Můžeme se mýlit s 5% pravděpodobností.
c) Test hypotézy H 0 : m1 = m2 při neznámých rozptylech s 12 a s 22 , jestliže s 12 ą s 22 (t-test při nestejných rozptylech, t-test při heterogenní variance, Welschův test) velšův test
x- y
Testové kritérium: t =
s12 s22 + m n Rozhodovací pravidla dle ta ( f ):
t > ta ( f ) zamítáme H 0 : m1 = m2 a přijímáme A0 : m1 ą m2
t > t2a ( f ) zamítáme H 0 : m1 = m2 a přijímáme A0 : m1 > m2
t > - t2a ( f ) zamítáme H 0 : m1 = m2 a přijímáme A0 : m1 < m2
ć s12 s22 ö÷ çç + ÷ ÷ çč m n ř÷ Určení f : f = . Zaokrouhluje se na celé číslo. 2 2 ć s12 ö÷ ć s22 ö÷ çç ÷ çç ÷ ÷ čç n ř÷ ÷ çč m ř÷ + m- 1 n- 1
d) t-test pro závislé (párové) výběry (párový t-test):
Máme k dispozici dva závislé (párové) výběry:
xi
yi
diference di = xi - yi
x1 x2 : xn
y1 y2 : yn
d1 = x1 - y1 d2 = x2 - y2 : dn = xn - yn
H 0 : m1 = m2
Testové kritérium: t =
Rozhodovací pravidla: Jestliže t > ta (n- 1) zamítáme H 0 : m1 = m2 a přijímáme A : m1 ą m2
d sd
n , kde d je průměr diference a sd je směrodatná odchylka diference
Jestliže t > t2a (n- 1) zamítáme H 0 : m1 = m2 a přijímáme A : m1 > m2
Jestliže t > - t2a (n- 1) zamítáme H 0 : m1 = m2 a přijímáme A : m1 < m2
[Začátek příkladu] V deseti náhodně vybraných vzorcích povrchové vody byl dvěma metodami určován obsah dusičnanů. Je třeba posoudit zda obě metody vedou ke stejným výsledkům.
Strana 13
Metoda A: xi [mg / l ]
Metoda B yi [mg / l ]
diference di = xi - yi
47 53 -6 47,5 52 -4,5 53 48 5 46,5 54 -7,5 46 53 -7 54 47 7 54 47,5 6,5 47 53 -6 46 52 -6 48 53 -5 Zformulujeme H 0 : m1 = m2 a A : m1 ą m2 . Provedeme diferenci párovaných hodnot. Průměrná diference
d = - 2,35 , směrodatná odchylka sd = 5,958 . Dosadíme do t =
d sd
n=
- 2,35 10 = - 1, 247 , porovnáme 5,958
s tabulkovou hodnotou t = 1, 247 < t0,05 (9) = 2, 262 H 0 : m1 = m2 nezamítáme.
Shrnutí:
H 0 : m1 = m2 : nezávislé výběry: známe s 12 a s 22 (rozptyly základního souboru) varianta a)
neznáme s 12 a s 22 :
s 12 = s 22 (F-test) varianta b)
s 12 ą s 22 (F-test) varianta c) závislé výběry: postupujeme pomocí párového t-testu (varianta d))
Test hypotézy rovnosti dvou relativních četností:
H 0 : p1 = p2 , kde p jsou relativní četnosti v 1. resp. 2. základním souboru (při kvalitativních znacích) m1 m2 n1 n2
m1 + m2 m m2 a 1 , jsou výběrové relativní n1 + n2 n1 n2
Testové kritérium: u =
četnosti Rozhodovací pravidla: u > u2a , zamítneme H 0 : p1 = p2 a přijmeme A : p1 ą p2
ć1 1ö ÷ p (1- p )×ççç + ÷ ÷ č n1 n2 ř÷
, kde p =
u > u2a , zamítneme H 0 : p1 = p2 a přijmeme A : p1 > p2 u > - u2a , zamítneme H 0 : p1 = p2 a přijmeme A : p1 < p2 25.4.2005
Pozn.: Dnes je nás zde 18 včetně přednášejícího a 3 lidí, kteří si dělají zkoušku ze statistiky. [začátek příkladu] Ověřovala se účinnost dvou chemických postřiků proti určité chorobě tabáku. Z 200 rostlin ošetřených postřikem A jich bylo chorobou postiženo 23, z 300 rostlin, u kterých byl aplikován postřik B jich bylo zasaženo 27. Je třeba posoudit, zda tyto údaje svědčí o vyšší účinnosti postřiku B. m m 23 27 = 0,115 ; n2 = 300 , m2 = 27 1 = = 0, 09 n1 = 200 , m1 = 23 1 = n1 200 n1 300
H 0 : p1 = p2 , alternativa A0 : p1 > p2 Spočítáme
u=
testové
kritérium:
0,115 - 0, 009 ć 1 1 ö ÷ 0,1×0,9 ×çç + ÷ çč 200 300 ř÷
u=
m1 m2 n1 n2 ć1 1ö ÷ p (1- p )×ççç + ÷ ÷ č n1 n2 ř÷
,
kde
p=
m1 + m2 23 + 27 = = 0,1 , n1 + n2 200 + 300
pak
= 0,913 ; spočítáme s a = 0,05 pro u2a = u0,1 = 1,645 . Porovnáme: u < ua
nulovou hypotézu H 0 : p1 = p2 nezamítáme. Závěr: Na základě zjištěných údajů se vyšší účinnost postřiku B neprokázala. [Konec příkladu] Strana 14
Analýza rozptylů (Analysis of Variance – ANOVA) Zápis: H0 : m1 = m2 = ... = mm , m > 2 Je dáno celkem m nezávislých náhodných výběrů Výběr: výběrové matice řádkové řádkové součty xi · průměry xi · 1 x11 x12 ... x1 j ... x1n x1· x1·
2
x21 x22 ... x2 j ... x2n
x2·
x2·
… i
--- --- --- --xi1 xi 2 ... xij ... xin
x3·
x3·
… n
--- --- --- --xm1 xm 2 ... xmj ... xmn
x4·
x4·
požívají se tzv. tečkové zápisy u řádkových součtů a průměrů Tečkový způsob zápisů součtů a průměrů:
viz např. zápis: x1· = x11 + x12 + ... + x1n =
ĺ
n
X ij trochu nepřehledné
j= 1
obdobně pro řádkový průměr
Vyvážený pokusný plán (ortogonální):
tomuto plánu se budeme snažit dávat přednost, budeme se snažit pro stejný počet výběrů
Nevyvážený pokusný plán:
je charakteristický tím, že alespoň jeden z výběrových souborů má jiný rozsah než ostatní počet pozorování
R. Fischer: matematický model, analýzy rozptylu xij = m+ ai + eij , pro i = 1,..., m; j = 1,..., n ; kde m je obecná střední hodnota, ai je efekt i-tého řádku, eij jsou náhodné chyby
Ekvivalentní zápis nulové hypotézy:
H 0 : a1 = a2 = ... = am = 0 , tj. efekty jsou zanedbatelné Testovaní nulové hypotézy H0 : m1 = m2 = ... = mm , m > 2 probíhá v určité logické posloupnosti jejíž jednotlivé etapy jsou shrnuty do tzv. analýzy rozptylu
Tabulka analýzy rozptylu: Variabilita mezi třídami
Součet čtverců 1 n S1 = ĺ xi2· - C n i= 1
Stupně volnosti
Sr = S - S1
m (n- 1)
uvnitř tříd (reziduální) Celková
S=
ĺ
xij2 - C
n- 1
Rozptyl S1 s = m- 1 Sr sr2 = m (n - 1)
Testové kritérium
2 1
F=
s12 sr2
mn- 1
i, j
C=
x·2· , kde x·2· - celkový součet všech hodnost v pokusném plánu m ×n
Rozhodovací pravidlo:
Jestliže F > Fa ęém- 1, m(n- 1)úů zamítáme nulovou hypotézu H 0 : m1 = m2 = ... = mm ; F > Fa ęém- 1, m(n- 1)úů - F ë
ű
ë
ű
rozdělení, hledáme i v tabulce pro zvolenou hladinu významnosti a a pro f1 = m - 1 a f 2 = m (n - 1) stupňů volnosti
Analýza rozptylu končí pouze tehdy, jestliže nulová hypotéza nebyla zamítnuta. Pokud nulová hypotéza byla zamítnuta, je třeba pokračovat detailnějším vyhodnocením výsledků užitím některé z metod tzv. mnohonásobného porovnávání.
Metody mnohonásobného porovnávání (multiple comarisons):
S-metoda (Scheffé): sheffého sheffeho shefeho xi· - x j · > kritická hodnota pro S - metodu pak tento rozdíl považujeme za platný i v základním souboru Strana 15
ć1 ö çç + 1 ÷ 2 ÷ ÷×(m - 1)×sr ×Fa , kde n1 je rozsah prvního výběru, çç n n ÷ ÷ č i jř
výpočet kritické hodnoty pro S-metodu:
n2 rozsah druhého výběru, …, nm rozsah n-tého výběru metoda připouští nevyvážený výběr Fa je tabulková hodnota 2.5.2005
Pozn.: Dnes je nás zde 16 včetně přednášejícího.
Nevyvážený pokusný plán Pozorované hodnoty xij
řádkové součty
řádkové průměry
x11 x12 ... x1 j ... x1n1
x1·
x1·
x21 x22 ... x2 j ... x2n2
x2·
x2·
--- --- --- --xm1 xm 2 ... xmj ... xmn m
xm·
xm·
Výpočetní tvary součtů čtverců v tabulce analýzy rozptylu i značení stupňů volnosti se oproti tabulce analýzy rozptylu užívané u vyváženého pokusného plánu poněkud pozmění. Součty čtverců: m xi2· - C ; Sr = S - S1 ; S = ĺ xij2 - C S1 = ĺ i, j i = 1 ni Stupně volnosti: m- 1 ; n - m ; m- 1 !poznámka – n = n1 + n2 + ... + nn - celkový počet hodnot, které máme pro analýzu k dispozici [začátek příkladu] V rámci určitého marketingového průzkumu byli ze tří věkových skupin (skupina A: 16-25 let; skupina B: 26-45 let; skupina C: 46-60 let) náhodně vybráni vždy 4 respondenti a dotázání, kolik by byli ochotni zaplatit za určitý typ slunečních brýlí. Získány byli následující výsledky: Věková skupina A Výsledky Součet xi · Průměr xi · A 600 650 650 700 2600 B 500 550 550 500 2100 C 550 600 550 600 2300 x· · = 7000 Je třeba posoudit, zda tyto tři skupiny se statisticky významně liší ve svých odpovědích. Řešení: H 0 : mA = mB = mC . Pokusný plán je vyvážený. m = 3 - počet souborů, které porovnáváme, n = 4 - rozsah porovnávaných souborů. Variabilita Součet čtverců Stupně Rozptyl Testové volnosti kritérium 1 n S1 S1 = ĺ xi2· - C = 31666, 7 s12 = = 15833,3 n- 1 = 2 mezi třídami n i= 1 m- 1 s2 F = 12 = 14, 25 Sr sr uvnitř tříd sr2 = = 1111,11 m (n- 1) = 9 Sr = S - S1 = 10000 (reziduální) m (n - 1) Celková
S=
ĺ
xij2 - C = 41666, 7
mn- 1 = 11
i, j
1)
S1 =
2)
S=
x·2· 1 n 2 1 70002 2 2 2 x C = (2600 + 2100 + 2300 ) = 31666, 7 , kde C = ĺ i· n i= 1 4 3×4 m ×n
ĺ i, j
xij2 - C = 6002 + 6502 + ... + 6002 -
70002 = 41666, 7 3×4
3) Sr = S - S1 = 41666,7 - 31666,7 = 10000 4) dále postup doprava – vypočítáme F 5) F = 14, 25 ł F0,05[2;9] = 4, 26 nulovou hypotézu H 0 : mA = mB = mC zamítáme významnosti a = 0,05 . Tj. alespoň jedna skupina se odlišila – ale jak??
Strana 16
S-metoda: Průměry A
B A - B = 125*
C A - C = 75*
B
---
B - C = 50
ć1 ö ć1 1 ö ÷ çç + 1 ÷ ×(m - 1)×sr2 ×Fa = çç + ÷ ×(3 - 1)×1111,11×4, 26tabulková = 68,8 . çç n n ÷ ÷ ÷ çč 4 4 ÷ ř ÷ č i jř Pozn.: Pokud by plán byl nevyvážený, tak bychom musel pro každou hodnotu výběru plán měnit. Tj. dostaly bychom více hodnot. S touto hodnotou porovnáváme diference z výše uvedené tabulky – pokud jsou statisticky významné - vyznačení * . Druhá a třetí skupina se významně neodlišila, první a druhá a druhá a třetí se významně odlišuje. Nejvíce se odlišuje první skupina. [konec příkladu] Kritická hodnota pro S-metodu:
S-metoda (pokračování):
S-metoda je metoda mnohonásobného srovnávání, která se dá používat pro libovolný typ pokusného plánu (pro vyvážený i nevyvážený), ale tato univerzalita je provázena též určitou nevýhodnou vlastností, která spočívá v poměrně malé síle S-metody.
T-metoda:
od p. Tukey, vyvážený plán s qa [m; f r ]× r , kde n je stejný počet výběrů ve vyváženém pokusném plánu; qa [m; f r ] - tabelované n kritické hodnoty studentizovaného rozpětí, kde m je počet výběrů a f r je počet stupňů volnosti pro reziduální rozptyl. 1111,11 1111,11 = 3,95 × = 65,83 . Dále bychom porovnávali Výpočet pro výše uvedený příklad: q0,05 [3;9]× 4 4 rozdíly v tabulce s touto kritickou hodnotou. T-metoda je o něco silnější než S-metoda, je o něco citlivější, je schopna odhalit jemnější odchylky.
Podmínky použitelnost analýzy rozptylu: 1) 2) 3)
nezávislost porovnávaných výběrů normalita rozdělení analyzovaných výběrů shodné rozptyly analyzovaných výběrů zejména podstatná je poslední podmínka tj. můžeme ji napsat ve tvaru: H 0 : s A2 = s B2 = s C2 - můžeme ji velmi jednoduše testovat pomocí Cochranův test
Cochranův test: kochrenův 2 smax s A2 + sB2 + sC2
G=
pro náš příklad: dosazení G =
Rozhodnutí: G = 0,5 < Ga [m;m- 1] = G0,05[3,3] = 0,798 pak nulovou hypotézu nezamítáme, potvrzujeme
2 smax 1666, 67 = = 0,5 2 2 2 s A + sB + sC 1666, 67 + 833,33 + 833,33
platnost, že data byla kvalitní a měla stejnou variabilitu 9.5.2005
Výše uvedené testy jsou tzv. parametrické
Parametrické hypotézy: parametrická hypotéza
Jsou to tzv. parametry statistického souboru – průměr, rozptyl, relativní četnost.
Parametrické testy: parametrický test
jsou testy statistické silné testy použitelné jen pro zpracování nějakých datových číselných souborů
Neparametrické testy
Neparametrické testy mají hlavní výhodu v tom, že jsou nezávislé na tvaru rozdělení základního souboru a netýkají se parametrů statistického souboru v jejich tradičním smyslu. Další důležitou vlastností neparametrických testů je jejich větší univerzálnost ve srovnání s parametrickými testy (mohou být používány jak pro znaky kvantitativní, tak pro znaky kvalitativní) a jistou předností je i skutečnost, že po výpočetní stránce jsou velmi jednoduché, rychlé a nenáročné.
Strana 17
Nevýhody neparametrických testů:
Mají menší sílu ve srovnání s parametrickými testy. Tj. jsou méně citlivé, spíše přijímají nulové hypotézy, i když je nesprávná.
Pořadí (pořadová čísla)
xi :10,15,9,100,50
pořadí Ri (rank ): 2,3,1,5, 4 (dle čísel nahoře)
Dvouvýběrový Wilcoxonův test wilkoxnův test
(přestavuje neparametrická obdoba dvouvýběrového t-testu pro nezávislé výběry) máme dva nezávislé výběry: x1 ,..., xn ; y1 ,..., yn
místo hodnoty x1 ,..., xn ; y1 ,..., yn budeme brát pořadové číslo Rx1 ,..., Rxn ; Ry1 ,..., Ryn . vytvoříme nejprve součty: Tx = Rx1 + ... + Rxn ; Ty = Ry1 + ... + Ryn ;
vypočteme pomocné veličiny U x a U y podle vzorců:
U x = m ×n +
m (n + 1)
- Tx 2 m (n + 1) U y = m ×n + - Ty 2 testové kritérium: U = min (U x ,U y )
U a - kritická hodnota pro dvouvýběrový Wilcoxonův test (hledáme v tabulce) rozhodovací pravidlo: jestliže U < U a zamítáme nulovou hypotézu [začátek příkladu] Je třeba posoudit, zda životnost určitých výrobků od dvou různých výrobců se liší statisticky významně nebo pouze náhodně. Následující výsledky představují životnost výrobků v hodinách. Výrobce 340 440 310 358 401 Tx = 31 A(xi ): Pořadí Rxi : Výrobce B ( yi ) :
4
11
1
6
9
350
315
405
339
374
380
Ty = 35
5 2 10 3 7 8 Pořadí Ryi : Řešení: Formulace nulové hypotézy. m = 5; n = 6 5 ×6 6 ×7 U x = 5 ×6 + - 31 = 14 , U y = 5 ×6 + - 35 = 16 , testové kritérium U = min (U x ,U y ) = min (14,16) = 14 . 2 2 Kritická hodnota pro a = 0,05 a m = 5, n = 6 najedeme v tabulkách kritickou hodntou U 0,05 = 3 .
U = 14 > U 0,05 = 3 H 0 nezamítáme. [konec příkladu]
Wilcoxonův test wilkoxnův test (přestavuje neparametrická obdoba párového t-testu pro závislé výběry) dva závislé výběry: pořadí xi yi di = xi - yi + – x1 y1 d1 = x1 - y1 … … … xn yn dn = xn - yn
W+
W-
rozhodovací pravidlo: Jestliže W < Wa zamítáme H 0 , kde Wa je kritická hodnota pro Wilcoxonův test a hledáme ji v tabulkách pro zvolenou hladinu významnosti, kde n je počet nenulových diferencí [začátek příkladu] Je třeba posoudit, zda dvě metody určování obsahu dusičnanů ve vzorcích povrchové vody vede ke stejným výsledkům.
Strana 18
Metoda A xi 47 47,5 53 46,5 46 54 54 47 46 48
Metoda B yi 53 52 48 54 53 47 47,5 53 52 53
diference
pořadí dif. +
-6 -4,5 5 7,5 -7 7 6,5 -6 -6 -5
pořadí dif. 5 1
2,5 10 8,5 8,5 7
W + = 18
5 5 2,5 W - = 37
W = 18 > W0,04 = 8 nezamítáme H 0 [konec příkladu] 23.5.2005
Dneska je nás tu 5 (+ lidé, co dělají nějakou ZK):
Kruskal-Wallisův test kruskal wallis walis wolis
(náhrada za neparametrická obdoba neparametrický test analýzy rozptylu) k dispozici K > 2 nezávislých náhodných výběrů s rozsahy n1 ,..., nK - může jít o nevyvážený model
H 0 : všechny výběry pocházejí z jediného základního souboru [začátek příkladu] Následující údaje představují životnost určitých výrobků náhodně vybraných ze čtyř různých sérií. Každá série byla vyrobena z jiného materiálu. Posuďte, zda vliv materiálu na životnost výrobků je statisticky významný. Životnost v hodinách: Série 1620 1630 1670 1700 T1 = 32 1: Pořadí: 6 7 9 10 Série 1590 1660 1720 1770 T2 = 36 2: Pořadí: 4 8 11 13 Série 1740 1780 1860 1840 T3 = 57 3: Pořadí: 12 14 16 15 Série 1530 1540 1550 1600 T4 = 11 4: Pořadí: 1 2 3 5 n1 = n2 = n3 = n4 = 4 K= 4 m1 + m2 + m3 + m4 = 16 Testové kritérium: KW , (H ) - různé značení; KW = Tj. dosadíme: KW =
K Ti 2 12 - 3(n + 1) ĺ n (n + 1) i = 1 ni
12 éę322 362 57 2 112 ů ú- 3×17 = 11, 757 + + + 16 ×17 ęë 4 4 4 4 ú ű
Rozhodovací pravidlo: Jestliže KW > c a2(K - 1) zamítáme nulovou hypotézu H 0 2 Aplikujeme: KW = 11,757 > c 0,04 (3) = 7,81 zamítáme nulovou hypotézu
Protože jsme zamítli nulovou hypotézu, musíme udělat další metodu:
Neményiho metoda neményho neméniho
Pouze tehdy, když jsme zamítli nulovou hypotézu. uděláme si tabulku, hodnoty jsou rozdíly TK v absolutní hodnotě i\j 2 3 4 1 32 - 36 = 4 25 21 -21 25 2 --46 * 3 [konec příkladu] Strana 19
použijeme tabulky kritických hodnot pro Neményiho metodu – lze to použít jen tehdy, když pracujeme s vyváženým plánem – stejný počet pozorování Najdeme si, že kritická hodnota je N * = 34,6 - porovnáme to s výše uvedenou tabulkou, pokud je některá z nich větší – pak je statisticky významná * rozdíl mezi 3 a 4 sérií je statisticky významný
Dixonův test (test extrémních odchylek)
Kvalita statistické analýzy závisí na vstupních datech. Máme výchozí datový soubor x1 ,..., xn - seřadíme jej podle velikosti variační řadu x(1) Ł x(2) Ł ... Ł x(n)
Testová kritéria:
prověřujeme minimální hodnotu: Q1 =
prověřujeme maximální hodnotu: Q1 =
x(2) - x(1) x(n) - x(1) x(n) - x(n- 1) x(n) - x(1)
Rozhodovací pravidla: Jestliže Q1 > Q2 zamítáme H 0 Jestliže Qn > Qna zamítáme H 0
Q1a = Qna - kritické hodnoty pro Dixonův test – hledáme je v tabulkách [začátek příkladu] Posuďte, zda mezi následujícími údaji se nevyskytuje nějaká extrémní hodnota. Hodnoty: 18,0; 18,7; 19,6; 18,4; 18,3 Tučně – extrémní hodnota – podezření. x(n) - x(n- 1) 19, 6 - 18, 4 Q5 = = = 0, 75 . x(n) - x(1) 19,5 - 18, 0
Q5 = 0,75 > Q5;0,05 = 0,642 zamítáme H 0 . [konec příkladu]
Strana 20
Přednáška č. 1; 3. 10. 2005
Matematická statistika II. Literatura apod.: Kába, Svatošová: Statistika (2004) Prášilová, Svatošová: Cvičení ze statistiky (2004) Zápočet: Testy, Zpracování komplexního problému jako domácí cvičení a obhájit jej. Zkouška: písemná a ústní část (z obou semestrů)
Korelační a regresní analýza
Zabývá se zkoumáním tzv. statistické závislosti. Vztah mezi dvěma proměnnými – tj. mezi Y - závisle proměnná (vysvětlovaná proměnná) a mezi veličinou X - nezávisle proměnná (vysvětlující proměnná, regresor). Příkladem této závislosti je např. úspěšnost u zkoušky( Y ) a dobou přípravou na zkoušku ( X ).
Úkoly:
a) určení regrese – určení průběhu závislosti, tvaru závislosti. Pokud toto známe, pak můžeme provádět regresní odhady. b) určení korelace – určení těsnosti závislosti, síly závislosti.
SEMMA:
pět etap statistické analýzy, které bychom měli dodržovat (zejm. v SASu) 1) S – Sample: Pořídit si nějaký výběrový soubor. U velkých databází bychom si měli vzít náhodný výběr. 2) E – Explore: Prozkoumáme vlastnosti našeho datového souboru a zvláštnosti tohoto datového souboru. Charakteristika polohy: aritmetický průměr (mean) – kvalitní charakteristika, pokud v souboru nejsou chyby – extrémy medián (prostřední hodnota ze seřazeného souboru, je to silná charakteristika) modus (nejčetnější hodnota daného souboru – mode). Charakteristiky variability: rozptyl (variance) směrodatná odchylka (standard deviation) variační rozpětí (range) – rozdíl mezi maximální a minimální hodnotou souboru variační koeficient (coefficient of variation – CV) Netypické hodnoty: odlehlá pozorování (outliers) – např. pomocí grafu boxplot 3) M – Modify: upravit určitým způsobem soubor, který nemá požadované vlastnosti (tj. vlastnosti odhalené ve fázi E) nejdříve je nutné data zkontrolovat, zda jsme je zapsali správně případně provedeme modifikaci dat 4) M – Model: zvolíme příslušnou modelovací proceduru dostaneme výsledky, je ovšem provést poslední etapu 5) A – Assess: vyhodnotit výsledky, posouzení jejich kvality a správnost v případě, že najdeme rozpor, musíme se vracet zpátky k E a postup opakovat a opravit a vylepšit
Regresní a korelační úloha:
snažíme se korelačním polem proložit regresní přímku: y ˘ = a + bx , kde a, b jsou parametry regresní přímky,
y
regresní přímka
a je internet, b je regresní koeficient (slope) Pozitivní korelace (závislost) – se vzrůstem jedné proměnné v průměru rostou hodnoty závisle proměnné Negativní korelace – se vzrůstem jedné proměnné dochází k poklesu proměnné vysvětlované korelační pole Nulová korelace – kruhová závislost, když veličiny spolu nesouvisejí x Klíčové vlastnosti reziduí (vzdálenosti od regresní přímky a bodu): rezidua reziduum měla by představovat nezávislé náhodné veličiny s nulovým průměrem a konstantním rozptylem kolísání kolem osy přibližně na stejné úrovni
[Začátek příkladu] U deseti náhodně vybraných studentů byla zjišťována doba přípravy na určitý kontrolní test v hodinách a dále výsledky tohoto testu vyjádřené v bodech (max. 100 b). Strana 21
Příprava: 9, 6, 12, 14, 11, 6, 19, 16, 3, 9 Výsledky: 56, 45, 80, 73, 71, 55, 95, 86, 34, 66 Modul: SAS Insight: Dovoluje v docela přehledné, vizuální, podobě náhled na výstup dat. SAS vypočítá regresní přímku: „Body = 27,4879 + 3,6773 Hodiny“. Zhodnocení: Pokud bych se neučil vůbec, tak mám v průměru kolem 27,5 bodů. Interpretace regresního koeficientu – znaménko je kladné, je tam pozitivní závislost, konkrétně číslo nám říká, o kolik si v průměru změní závisle proměnné, jestliže nezávisle proměnná se změní o jednu svoji jednotku. Jestliže se doba přípravy prodlouží o jednu hodinu, pak je průměrný nárůst o 3,6 bodu. Při pohledu na korelační pole, můžeme konstatovat, že model je na místě, pole vypadá celkem rozumně. Charakteristika „R-Square“ – koeficient determinace – je cca 92,43% – tj. výsledek je z více než 92% určen dobou přípravy. [Konec příkladu]
Strana 22
Přednáška č. 2; 10. 10. 2005
SAS Moduly:
SAS/STAT – vyžaduje, aby uživatel znal některé procedury zapisované v jazyce SASu; každý uživatel si může výstup připravit na míru SAS/INSIGHT – již v nabídkovém interaktivním režimu; náhled, pohled do dat SAS/LAB – je uváděn jako řízená analýza dat (guided data analysis); poskytuje velice širokou pomoc ve formě návodů, kterými nás vede; u jednotlivých výsledků uvádí interpretaci Ke všem modulům existuje bohatý help.
Popis SASu – SAS/LAB.
Nový soubor (pokud nám zůstane stará analýza): File New; Smazání analýzy – Reset – Local – smazání staré analýzy 2) Explore – průzkumová fáze: Summarize (tlačítko) – které proměnné chci zanalyzovat, objeví se nějaký obrázek: histogram a guassova křivka; umístění souboru na číselné ose (line plot) a box-plot (minimální hodnota, dolní kvartil, medián, horní kvartil, maximum – 5 hodnot v box-plotu; křížkem SAS zobrazuje aritmetický průměr) Type of plot: histogram nebo normal probability (normální graf) Normal probability: nelineární distribuční fce je upravena do lineární přímky distribuční fce; pokud data nejsou extrémně vzdálené od přímky, pak považujeme normalitu relativně splněnou SAS nabídne hodnotu Normálního P-Testu Kliknutí na Statistic: Descriptive statistics for cars (proměnná): počet pozorování – n průměr – mean, average směrodatná odchylka – standard deviation rozptyl – variance šikmost – skewness špičatost – kurtosis vpravo je uveden box-plot a jeho hodnoty, range (rozsah), test normality (P: Normal) S vypočtenou hladinou významnosti (tj. P: Normal) porovnáváme s klasickou, standardní hladinou významnosti, obvykle s a = 0,05 , pokud P hodnota bude menší než a , pak nulovou hypotézu zamítneme, pokud bude větší než pět setin, pak ji nezamítneme. Co tam P hodnota znamená: Je to pravděpodobnost, s jakou pravděpodobností by se tyto hodnoty mohli vyskytnout, pokud je nulové hypotéza správná. Pokud je pravděpodobnost vysoká, není žádného sporu – jejich pravděpodobnost je velká. Pokud je pravděpodobnost malá, pak se objevuje spor. Data mají velmi nízkou pravděpodobnost, tato data by se neměla objevit. Pak je nesprávný náš předpoklad nulové hypotézy a musíme ji zamítnout. Pokud je vypočtená P hodnota menší než 0,05, testovanou nulovou hypotézu zamítáme. Jinak ji nezamítáme. Nabídka (tlačítko) Frequencies – četnosti: Budou nám data prezentována ve formě prostého rozdělení četností – soupis hodnot proměnné a vedle jsou vypsané četnosti; 3) Analysis: SAS se zeptá, co s tím dělat: Simple linear regression – jednoduchá lineární fce One-way ANOVA – jednoduchá analýza rozptylu Multiple regression and ANOVA – složitou regresi a analýzu rozptylu Not sure – nejsem si jist My zvolíme SLR – kterou z proměnný jako závisle proměnnou a jakou nezávisle proměnnou. Objeví se korelační pole (scatter plot) – máme tam už zakreslenou přímku, která popisuje závislost. SAS k výsledkům doplní interpretaci. Assumptions – tlačítko (předpoklady) – pokud nás o to SAS požádá; Nabídne nám, co chceme prozkoumat. To, v čem je problém, je modře s hvězdičkou zvýrazněno. V našem případě – to je odlehlé pozorování – Outliers. Testování pomocí Studentizovaných reziduí. Pokud v absolutní hodnotě překročí hodnotu 2 u malých souborů (do 30), pak to příslušné pozorování je považováno za odlehlé. Pokud by překročilo 3 u velkých souborů, pak je považováno za odlehlé. Nulová hypotéze Pr > t , můžeme ji zamítnout. 4) Results: Výsledky, pokud to je vše ok. R-square: korelační koeficient, R 2 je koeficient determinace Strana 23
Tabulka Analýzy rozptylu. Platí analýza jen pro náš soubor, nebo tyto výsledky platí obecně na základní soubor? Zaměřujeme na vypočtenou hladinu významnosti: Pr > F . Nulová hypotéza říká, že model platí jen pro daný výběr. V našem případě zamítáme (hodnota 0,0001); tj. nulovou hypotézu zamítáme, tj. The overall model is significant. Parameter Estimates: odhad parametrů, na výpis rovnice regresní přímky y = ax + b , kde a je označován jako intercept, b je uveden pod jménem nezávislé proměnné 5) Rezidua: body diferencí
Strana 24
Přednáška č. 3; 10. 10. 2005
Korelační a regresní analýza
pět kroků – SEMMA – viz výše; fáze Modify: jak to modifikovat, jak to poznat Studentizovaná rezidua: SAS poskytuje informaci, zda v dané množině hodnot dané proměnné, není nějaká hodnota mimořádně odlišná. SR 2 - pro hodnoty souboru n 30 ; pak se jedná o odlehlá pozorování – outlier
SR 3 - pro hodnoty souboru n 30 ; pak se jedná o odlehlá pozorování – outlier
odlehlá pozorování
leverage: hledání odlehlých pozorování: p 2 - kritická hodnota n stále pracujeme s regresní přímkou y ax b
p pro malé soubory, pak je to pro nás varování – mohlo se to tam dostat chybou; n ale mnohdy odlehlá pozorování mohou být důležitější než normální pozorování pokud leverage 2
vlivná pozorování:
pozorování, která mohou, zkreslit, ovlivnit regresní model Cookova vzdálenost: pro každé pozorování se nám zobrazí hodnoty D pro vzdálenost hodnot xi , yi , je nutné si spočítat kritickou hodnotu
4 4 , pokud Di , pak je toto pozorování bráno jako mimořádně vlivné věnovat n n
mu pozornost Welschova-Kuhova vzdálenost:
DEFITS , kritická hodnota 2
p p ; DEFITS 2 - pak bychom se na tuto hodnotu měli zaměřit n n
[příklad + teorie]: Při zjišťování účinnosti reklamy uvedené v rádiu a televizi na obrat určitého spotřebního zboží byly získány následující údaje: Obrat [tis. Kč] [y] – nezávislá proměnná R/TV [tis. Kč] [x] – závislá proměnná 1119 0 625 25 971 30 1177 35 982 40 1577 45 914 50 1330 55 1436 60 1741 65 1717 70 Měli bychom spočítat: x , s S 0,776 - šikmost –skewers – klíčové je znaménko mínus negativní asymetrie nadprůměrné hodnoty jsou častější než podprůměrné hodnoty K 0,672 - špičatost – kertosis – v případě, že by soubor měl normální rozdělení, tak tato i výše uvedená hodnota by měla být co nejblíže k nule. Heavy tailedness – rozdělení s těžkými konci
Strana 25
Pro testování hypotéz pomocí souboru s těžkými konci je vždy odhad komplikovanější, těžko se to interpretuje apod. Light tailedness – s lehkými konci – tentokráte je vrchol pod vrcholem Gaussovy křivky – toto je naopak vždycky příjemnější. Uděláme si box-plot (ten tady vychází OK). Necháme si spočítat korelační pole a spočítáme (necháme spočítat) přímku. Jako vlivné pozorování vyhodnotil SAS pozorování č. 1. SAS: DFFITS: 2,784 > 2
p 2 2 0,853 je to pozorování nejen odlehlé (viz níže), ale i vlivné co n 11
s tím?
p 2 2 0,364 - co s tím uděláme? Nic –je to sice hodnota zvláštní… n 11 Co s vlivným pozorováním: SAS nám pomůže: 1) nedělat nic – pokud to pozorování je v pořádku 2) je zvolen špatný model – ne přímku, ale třeba parabolu, exp. apod. 3) nebo je chyba v nás – doporučuje se provést analýzu s vlivnými pozorováními a pak bez vlivných pozorování a zjistím, do jaké míry se výsledky rozešli – pokud je odlišnost velká, pak to pozorování hrálo roli a bylo by lepší údaje skutečně vyřadit a) spočtení modelu se všemi údaji: R-square: koeficient determinace: 0,4331 – tzn. že obrat výše obratu je ze 43 % ovlivňována reklamou v rádiu/TV. Vypočtená hladina významnosti: Pr F : 0, 0277. Ta nám říká, zda je náš spočtený model statisticky významný. Model je statisticky vyznaným, pokud je zobecnitelný, pokud má univerzální platnost – to mi vždycky chceme. Nulová hypotéza: Model není statisticky významný (model platí jen pro náš výběr). Pokud je vypočtená hladina menší než 0,05 (alfa), pak model zamítáme konstatujeme, že model, který jsme spočítali je zobecnitelný. Dále nám SAS nabídne parametry pro přímku: intercep – a: 734; RTV – b: regresní koeficient: 11,61, tj. rovnice regresní přímky. je y 734 11,61x . Důležitý je zejm. regresní koeficient: pokud je kladný, pak se jedná o pozitivní vztah – tj. roste-li náklady na reklamu, tak nám roste i sledovanost. Regresní koeficient vyjadřuje, o kolik se v průměru změní závislá proměnná, jestliže se nezávislá proměnná změní o jednu svoji jednotku. Zvýšení výdajů má za následek průměrný nárůst obratu sledovanosti. Regresní přímka mi umožňuje provádět regresní odhady. O kvalitě regresních odhadů nám něco říká koeficient determinace – R-square. Odhady kvality: slabá – 0-0,3; střední: 0,3 – 0,8; silná – 0,8-1; b) spočtení modelu bez vybraných údajů: R-square: 0,6834 – vysvětlení se zlepší na cca 68%; alfa = 0,0032; regresní přímka: y 274 20, 48x velká změna modelu je asi lepší používat upravený model – nehodilo se to do vysvětlení daného problému [konec příkladu + nějaké teorie] Leverage: 0,544 > 2
Strana 26
Přednáška č. 5; 31. 10. 2005
[pokračování příkladu z minule – promítá se různé věci ze SASu] Zobrazení datového souboru třemi způsoby: histogram, line-plot – číselná osa, na níž jsou zobrazeny jednotlivé hodnoty RTW, box-plot; záporná šikmost – nadprůměrné hodnoty častěji než podprůměrné kladná špičatost – těžké konce – hodnoty poměrně rozptýlené od středu P: Normal – vypočtená hladina významnosti (P-hodnota) Vlastní regresní analýza – hledáme závislost obratu (závislá) na reklamě (nezávislá proměnná) – tj. body v poli – scatter plot Blok analýzy rozptylu – chceme zjistit, zda model je statisticky významný; zformulujeme nulovou hypotézu, která říká, že regresní model, který počítáme, je statisticky nevýznamný (platí jen pro naši situaci) – zajímá nás hladina vypočtená hladina významnosti – Pr > F Koeficient determinace – R-square – říká, že reklama ze 43% ovlivňuje obrat Rovnice regresní přímky: Intercept: - parametr a RTV (tj. b) O kolik se změní závislá proměnná, když se nezávislá proměnná změní o jednu jednotku vypočtené hladiny významnosti u jednotlivých hodnot – lépe a detailněji charakterizují tento model Vlivná pozorování – Dffits – mohou ovlivnit, zkreslit kvalitu modelu – musíme si dopočítat mezní
p 2 2 0,853 - v SASu – Dffits – je 2,78 > 0,853 – hodnota překračuje, tzv. n 11 cut-off toto je pozorování vlivné, má podstatný vliv na model; Leverage – odlehlá pozorování – Poznámka: tato přednáška byla vlastně opakováním z minula + doplnění o obrázky… srovnávací hodnotu - 2
Strana 27
Přednáška č. 6; 7. 11. 2005
Vícenásobná regrese a korelace (1)
jednoduchá regrese a korelace – 2 proměnné – jedna závislá, jedna nezávislá vícenásobná – větší počet nezávislých proměnných, jedna závislá Y - závislá proměnná (vysvětlovaná proměnná) X1 ,..., X k - nezávislé proměnné (vysvětlující proměnné, regresory) a) vícenásobná regresní funkce (rovnice): y b0 b1 x1 ... bk xk , kde b0 je absolutní člen, hodnoty b1 ,..., bk jsou parciální regresní koeficienty b) těsnost mnohonásobné závislosti: R 2 - koeficient mnohonásobné determinace: koeficient mnohonásobné determinace vyjadřuje, z kolika procent jsou změny závisle proměnné Y vysvětlitelná změnami vysvětlujících proměnných R – koeficient mnohonásobné korelace: interval: 0 R 1 rozpětí: 0 R 0,3 – slabá závislost; 0,3 R 0,8 – slabá závislost; 0,3 R 1 – silná z.
Předpoklady použitelnosti vícenásobné regresní a korelační analýzy: 1) vysvětlující proměnné X1 ,..., X k jsou navzájem nezávislé (nebo alespoň nekorelované)1 pokud je tento předpoklad porušen, říkáme, že model vykazuje tzv. multikolinearitu, takovýto model má některé negativní vlastnosti; zejména jeho parciální regresní koeficienty vykazují velkou variabilitu a nestabilitu přidání jednoho nebo několika dalších pozorování do regresní analýzy může podstatně změnit hodnoty těchto koeficientů nebo případně i jejich znaménka multikolinearita však nemá závažnější negativní důsledky tehdy, jestliže regresní model je využíván pro extrapolační účely Korelační matice: rij 0, 75 - jedna z proměnných i či j je nežádoucí – multikolinearita; vyřadit VIF – Variance Inflation Factor – faktor zvětšení rozptylu, VIF 10 - hranice nežádoucí multikolinearitiy, některé z proměnných jsou nežádoucí, je nutné je vyřadit 1 TOL (tolerance) – je vázána s VIFem: TOL . TOL 0,1 - nežádoucí multikolinearita VIF 2) rezidua e , e yi yi , i 1, 2,..., n ( yi – skutečná hodnoty závisle proměnné Y , yi – vyrovnané hodnoty veličiny Y , tzn. vypočtené pomocí regresní funkce) jsou nezávisle náhodné veličiny, které mají normální rozdělení s nulovým průměrem a kontrastním rozptylem 2 kontrolováno většinou pomocí grafů 3) v analyzovaných datech by se neměli vyskytovat odlehlé, vybočující a nebo vlivné hodnoty kontrolováno pomocí určitých charakteristik
Zadání příkladu:
u 10 náhodně vybraných studentů byly zjišťovány tři veličiny, veličina hodiny v hodinách příprava na test, IQ a body, což je bodový zisk body Y hodiny X 1 IQ X 2
9 99 56 6 100 45 12 119 80 14 95 73 11 110 71 6 117 55 19 98 95 16 101 86 3 100 34 9 115 66 1) Blok analýzy rozptylu – jestli náš model je statisticky významný – tj. alespoň jeden z koeficientů; Nulová hypotéza říká, že toto platí jen pro těchto deset studentů a nikoliv pro širší soubor; SAS – model je statisticky významný; jak je silná? koeficient determinace „R-Square“ = 0,9148 je silný, doba přípravy je hodně silný faktor 2) Parameter Estimates – odhad parametrů – jak bude vypadat regresní přímka – intercept – závislá proměnná, nezávislá proměnná je pojmenovaná svým názvem; opět testy pro významnost – jakmile je hladina menší jak hladina spolehlivosti, pak jsou koeficienty statisticky významné (tj. nulová hypotéza říká, že nejsou statisticky významné) 1
nekorelovatelnost znamená, že tam není žádný lineární závislost; nezávislost – není mezi nimi žádná závislost Strana 28
3) Regresní diagnostika – prověřování, zda jsou předpoklady splněny; zda model vyhovuje předpokladům o datech atd. – dostáváme základní sestavu výsledků; predicted value – vyrovnané hodnoty, residual – residua; poslední sloupečky – Student residua – slouží k tomu, abychom posoudili, zda v množině Y hodnot, tj. závislé proměnné, není něco netypického (zvláštního) – hranicí je hodnota 2 (v absolutní hodnotě – do 30 pozorování, 3 pro velké soubory) – pak to signalizuje, že v souboru Y je něco netypického – tzv. odlehlá hodnota (outlier); interpretace SASu v hvězdičkách – jedna „*“ je 0,5; nic takového v našem příkladě není, tj. nejsou žádné odlehlé pozorování; může nás zajímat, zda odlehlé pozorování je vlivné – sloupeček Cook – tzv. Cookova vzdálenost – charakteristika, která podává informace o tom, zda nějaké pozorování není vlivné 4 (tj. může model zkreslovat) – musí se spočítat jeho hranice: CookHranice ; nic v našem souboru není – n můžeme náš soubor považovat za kvalitní 4) Regresní diagnostika – u porovnání Y a IQ – není statisticky významný – R-sq má hodnoty 0,0016 – tj. nemá to vliv na zkoušku 5) Vícenásobný regresní model: a. statistická významnost modelu (ano) b. může dojít k zesílení faktorů, k zeslabení faktoru (zde je R-sq 0,9994 zesílení) c. stejně tak parametry jsou významné (ačkoliv předtím v jednoduchém IQ nebylo významné) d. variance inflation – nízká – pod 10 – tj. z tohoto hlediska je všechno v pořádku e. regresní diagnostika – pro y hodnoty – viz výše; pro x hodnoty – sloupeček Hat Diag – tzv. Leverage – zda v množině vysvětlujících proměnných není nějaké netypická hodnota (špatná p hodnota) – musí se vypočítat hranice: hranice 2 , kde p počet parametrů modelu (my máme n 3 teď 3, tj. 2 0, 6 , nic většího se zde nezobrazilo žádný problém; pokud by se objevila větší 10 hodnota, pak se tomu říká vybočující hodnota (leverage points) f. posouzení kvality modelu – nemusí se to objevit ani v x ani v y – tj. podívat se do Cookových hodnot
Strana 29
Přednáška č. 7; 14. 11. 2005
Vícenásobná regrese a korelace (2) g.
posouzení, zda nějaká hodnota není vedena jako vlivná – tj. podívat se do Cook sloupce – pokud hranice překročí více než 2
p p ; stejně jako hodnota DFFITS - 2 - pak by to mohlo být n n
vedeno jako vlivná hodnota možné netypičnosti: hodnota ležící mimo hodnoty korelačního pole – extrémní x i y souřadnice; může bod ovlivnit nějak korelační pole – pokud leží v ose regresní přímky, tak bod je sice extrémní, ale není to bod vlivný extrémní x i y souřadnice, ale bod neleží v ose regresní přímky – extrémní bod, je vlivný extrémní z hlediska x souřadnice, y souřadnice není extrémní – bod je extrémní z hlediska x, nikoliv y, ale stále je vlivný extrémní z hlediska y souřadnice, x souřadnice není extrémní – bod je extrémní z hlediska y, nikoliv x, ale stále je vlivný x i y souřadnice jsou v pořádku – ale je to stále bod vlivní
Zkoumání multikolinearita:
tj. vysvětlující proměnné jsou navzájem nezávislé, neovlivňují se 1) způsob: spočítat všechny korelační koeficienty SAS umí spočítat korelační matici na vedlejší diagonále – korelační koeficient a vypočtená hladina významnosti – nulová hypotéza říká, že tam není statická významnost, v našem případě je 51%, tj. koeficient statisticky významný není Hranice multikolinearity je 0,75; pokud by některý korelační koeficient v matici v absolutní hodnotě překročil 0,75 – pak je tento výsledek výsledkem nežádoucí multikolinearity – proměnné by se nacházely v příliš silném vztahu – pak nemá cenu obě tyto proměnné ponechávat, jednu z nich je třeba vyřadit. Konstatujeme, že model je v pořádku, nevykazuje multikolinearitu 2) způsob – VIF: Variance Inflation Factor – faktor zvětšení rozptylu hranicí je hodnota 10 pod odkazem odhady parametrů – v EN jako Variance Infaltion, v CZ pod Inflace odhadů; v našem případě jsou velmi malé – pod 10
Vícenásobný regresní model s kvantitativními a kvalitativními vysvětlujícími proměnnými proměnné vyjádřené slovy [Příklad] V tabulce je uveden věk a hrubý měsíční plat 10 pracovníků, z toho 5 žen. Zjistěte, zda výše platů (y – závislá proměnná) závisí pouze na věku (x), nebo zda záleží i na tom, jedná-li se o muže či ženu. Věk Pohlaví dummy Plat [tis. Kč] x [u] y 23 m 0 14,0 27 ž 1 14,4 29 m 0 14,9 36 m 0 16,0 37 ž 1 15,7 40 ž 1 16,1 46 m 0 17,5 50 ž 1 17,3 54 ž 1 17,8 59 m 0 19,0 musíme nějak kvantifikovat Pohlaví – tj. zavedeme umělou proměnnou (dummy proměnná) – nabývá v našem případě 0, 1 (nezáleží na tom, která hodnota se komu zvolí) regresní funkce: y b0 b1 x b2u SAS spočítá a dostáváme: y 11,079 0,135x 0, 425u – model popisující závislost platu na věku a pohlaví co nám co říká: regresní koeficienty – tzv. parciální regresní koeficienty; 0,135 u věku – koeficient je kladný – mezi výší platu a věkem existuje přímá/pozitivní závislost – průměrný nárůst platu za každý rok o 135 Kč Strana 30
-0,425 u dummy proměnné – která se vztahuje k tomu, zda se jedná o muže či ženu – pokud dosadím za u=0 – pak dostávám závislost pro muže: y 11,079 0,135x , pro ženy: y 11,079 0,135x 0, 425 , z čehož vyplývá: y 10,639 0,135x rovnice mají stejný regresní koeficient – tj. stejný sklon přímky, je stejná přímá závislost, ale u mužů je vyšší „startovací hodnota“ – tj. dvě rovnoběžné přímky
Strana 31
Přednáška č. 8; 21. 11. 2005
Kvantifikace kvalitativní proměnné s m obměnami
m2 proměnné: Y – výše úspor u individuálního střadatele X – výše příjmu individuálního střadatele věk střadatele – kvalitativní proměnná se třemi variantami (obměnami): a, b, c a – mladí střadatelé – věk 15-29 let b – střední věková skupina – 30-44 let c – nejstarší věková skupina – 45-60 let chceme vyjádřit závislost Y na X a věku střadatele Jestliže kvalitativní proměnná má celkem m kategorií (obměn), kde m 2 , zařazujeme jí do regresního modelu pomocí m 1 nula-jednotkových umělých proměnných u2 1 pro skupinu b, u2 0 pro ostatní skupiny; u3 1 pro skupinu c, u3 0 v případě ostatních skupin regresní vícenásobný model: y b0 b1 x b2u2 b3u3
Výběr vysvětlujících proměnných v regresním modelu Přeurčení modelu (overfitting)
model obsahuje nadbytečný počet vysvětlujících proměnných, které vyjadřují stejné nebo velmi podobné základní faktory nežádoucí důsledky: multikolinearita modelu; nestabilita odhadů parametrů regresního modelu; velká nestabilita těchto odhadů úspornost (parsimonie modelu): Occamova břitva – jednodušší postup je vždy nejlepší jak to udělat? pokud máme P vysvětlujících proměnných, pak celkový počet možných regresních modelu je 2P 1 Pro výběr vhodné podmnožiny vysvětlujících proměnných, která by byla pokud možno malá a co nejlépe by vysvětlovala variabilitu závisle proměnné, se používají různé postupu. Velmi často jsou využívány techniky postupného výběru vysvětlujících proměnných. Jejich reprezentanty jsou: vzestupný výběr (forward selection) sestupný výběr (backward selection) postupná (etapovitá) regrese (stepwise regression) Forward selection: začíná prázdnou množinou regresorů (vysvětlující proměnné) a postupně v každém kroku se do modelu vloží taková vysvětlující proměnné, jejíž příspěvek k vysvětlení variability závisle proměnné je největší a statisticky významný výběr končí, pokud už žádná vysvětlující proměnná, která je ještě mimo model není statisticky významná proměnná, která je zařazena v modelu, v něm trvale zůstává Backward selection: začíná výpočtem modelu, ve kterém jsou zařazeny všechny možné vysvětlující proměnné postupně jsou z modelu vyřazovány ty proměnné, které nejméně přispívají k vysvětlení závisle proměnné a jsou statisticky nevýznamné proces vyřazování končí, pokud všechny vysvětlující proměnné zařazené v modelu jsou statistiky významné Stepwise regression: přestavuje kombinaci vzestupného a sestupného výběru obsahuje jak postupné přidávání vysvětlujících proměnných do modelu, tak případné vylučování z tohoto modelu metoda tím reaguje na skutečnost, že v určitém kroku etapovité regrese může klesnout vliv některé vysvětlující proměnné, která již byla do modelu zařazena postup končí, pokud do modelu nelze žádnou další proměnnou zařadit, ani žádnou vyloučit výsledek těchto etap se nemusí vždy shodovat; [Příklad] - 31 lidí, zátěžový test běhu, tepová frekvence, maximální tepová frekvence, klidová tepová frekvence, věk, váha, spotřeba kyslíku – tj.: obs (observation), age, weight, runtime, rstpulse (rest pulse), run pulse, max pulse, oxygen - vysvětlovaná proměnná – oxygen; ostatní závislé proměnné - konstruuje se model: y b0 b1 x1 b2 x2 ... b6 x6 - jak a které proměnné je možno vyřadit? Koeficienty parciální determinace měří sílu závislosti mezi závisle proměnnou a jednotlivou nezávisle proměnnou při vyloučení vlivů ostatních nezávisle proměnných. Strana 32
Přednáška č. 9; 28. 11. 2005
Vícenásobný regresní modely (2) Stepwise regression: [Příklad] Při testu spotřeby benzínových motorů byla sledována data u 5 proměnných – spotřeba, stáří, obsah [ccm], výkon [kW], počet ventilů. Zkonstruujte regresní model závislosti spotřeby na uvedených vysvětlujících proměnných, posuďte sílu multikolinearity mezi vysvětlujícími proměnnými a vyberte vhodnou podmnožinu vysvětlujících proměnných. Regresní závislost není kauzální závislost.
Regresní diagnostika:
hodnotí kvalitu dat: pomocí Studentizovaných reziduí, zda v množině nebylo něco netypického leverage vlivnost – Cook, DFFITS (Welsh-Kuh vzdálenost) hodnotí kvalitu modelu: podle reziduí – tj. graf reziduí graf rozdělení – normální rezidua – velmi těsně kolem přímky hodnotí splnění předpokladů použitelnosti příslušného modelu: posouzení, zda tam není nežádoucí multikolinearita tzv. regresní triplet
Zhodnocení vhodnosti regresního modelu pomocí globálního F-testu a individuálních t-testů F-test významný významný významný nevýznamný nevýznamný
t-testy všechny jsou významný některé jsou významné žádný není významný některé nebo všechny nevýznamné všechny nevýznamné
Strana 33
Hodnocení 1 – ideální model 2 2 4 – špatný model (jinak) 4 – špatný (jinak)
Přednáška č. 10; 5. 12. 2005
Analýza časových řad (časová řada)
vysvětlující proměnnou je čas – to není náhodná veličina, probíhá nezávisle na nás, nemůže být ovlivňována; představuje určitý agregát Definice: časovou řadou budeme rozumět posloupnost věcně a prostorově srovnatelných pozorování, která jsou jednoznačně uspořádána v čase ve směru minulost – přítomnost. Interpolace (vyrovnání časové řady) – popis dosavadního, minulého vývoje Extrapolace – předvídání budoucího vývoje časové řady
zajímá nás, jak je proměnná závislá na čase
Typy časových řad Časové řady lze členit z různých hledisek. a) podle tzv. Rozhodného časového hlediska řady okamžikové – jsou představovány hodnotami zaznamenávanými k určitému časovému okamžiku nebo určitému datu řady intervalové – vyjadřují kolik případů, věcí, událostí apod. vzniklo, nahromadilo se, spotřebovalo se nebo zaniklo za určitý časový interval b) podle Periodicity – s jakou jsou údaje časové řady sledovány krátkodobé – v době kratší než jeden rok dlouhodobé – periodicita sledování je minimálně jeden rok
Dočištění časové řady od důsledků kalendářních variací
Pro korektní rozbor časové řady je nutné, aby hodnoty sledovaného ukazatele byli vzájemně srovnatelné. U krátkodobých intervalových časových řad mohou nastat určité problémy týkající se této srovnatelnosti. K o yt yt t , kde yt je hodnota očišťovaného ukazatele v příslušném dílčím období, K t je počet Kt
kalendářních dní v daném období, K t je průměrný počet kalendářních dní v daném období [příklad] V následující tabulce máme k dispozici údaje o obratu obchodní firmy ve vybraných měsících roku. Je třeba očistit tato data od kalendářních variancí. Měsíc Obrat v Kč průvodní údaje yt očištěné údaje yt o V. 211 399 207 421 VI. 205 041 207 889 VII. 214 144 210 114 VIII. 213 215 209 203 365 30, 41667 . Průměrný měsíc: Kt 12 30, 41667 30, 41667 Pro V. měsíc: yV o. 211399 207421 , pro VI. měsíc: yVI o. 205041 207889 … 31 30 [konec příkladu]
Shrnování údajů časových řad
Shrnování budeme rozumět výpočet některých souhrnných charakteristik dané řady. U intervalových časových řad se shrnování provádí pomocí prostých součtů nebo pomocí aritmetických průměrů. U okamžikových časových řad nemá součet jejich hodnot věcný smysl. Proto řady tohoto typu se shrnují pomocí tzv. chronologického průměru. [příklad]
Strana 34
Ve velkoobchodě se zeleninou se v jednotlivých měsících roku sledoval objem prodané zeleniny a dále se evidoval počet odběratelů zeleniny. Zjistěte, jaké množství zeleniny se v průměru měsíčně prodalo a kolik odběratelů ji měsíčně odebíralo. Prodané zeleniny: 1 2 3 4 5 6 8 9 10 11 12 měsíc 182 181 173 175 175 173 150 167 172 179 180 prodáno [t] Počet odběratelů: datum Počet odběratelů 1. 1. 2003 48 1. 3. 2003 40 1. 7. 2003 35 1. 12. 2003 50 1. 1. 2004 56 12
y
t
2076 173 [t ] 12 12 průměrný počet odběratelů: nemůžeme to normálně zprůměrňovat; vezmeme dva intervaly, vydělíme dvěma a vynásobíme počtem měsíců, které představují a to vše vydělím součtem vah (tj. 2+4+5+1): 48 40 40 35 35 50 50 56 2 4 5 1 2 2 2 2 y 41,96 , tj. můžeme konstatovat, že průměrně měsíčně tam 12 bylo cca 42 odběratelů. [konec příkladu] y yn y1 y2 d 2 ... n 1 dn 2 2 Vážený chronologický průměr: y , kde d i při i 2,3,..., n jsou časové d 2 d3 ... d n rozpětí mezi jednotlivými okamžiky zjišťování Prostý chronologický průměr: Jestliže se hodnoty časové řady y1 , y2 ,..., yn vztahují k okamžikům stejných vzdáleností používáme prostý chronologický průměr: t1 , t2 ,..., tn y yn y y1 y2 y1 ... n 1 y2 y3 ... n 2 2 2 2 y n 1 n 1 průměrný počet prodané zeleniny za měsíc: y
i 1
Rozklad (dekompozice) časové řady
yt Tt St Ct t , t 1, 2,..., n , kde Tt – trend časové řady, St – sezónní složka, Ct – cyklická složka, St Ct Pt – periodická složka, t – náhodná (reziduální) složka trend, sezónní složka, cyklická složka jsou nenáhodné složky časové řady – tvoří deterministickou část t má náhodný charakter, a předpokládá se, že veličiny t t 1, 2,..., n jsou nezávislé náhodné veličiny, které mají náhodné rozdělení N 0, 2 – tj. má nulový průměr a rozptyl 2 , který je konstantní, zůstává
stálý trend – představuje základní dlouhodobou vývojovou tendenci časové řady sezónní složka – je představována pravidelnými výkyvy, které se opakují v kratších intervalech než jeden rok cyklická složka – výkyvy opakující se s periodicitou v intervalech delší než jeden rok náhodná složka – to co zůstane z časové řady, když odstraníme výše uvedené části V časové řadě se nemusí všechny složky vyskytovat – zejm. periodická složka. neperiodická časová řada neobsahuje periodickou složku periodická časová řada – pokud obsahuje nějakou z periodických složek
Strana 35
Přednáška č. 12; 19. 12. 2005
Elementární charakteristiky časových řad
absolutní diference (přírůstky): dy yt yt 1 , t 2,3,..., n 1. diference: t (2) 2. diference: d yt dyt dyt 1 yt yt 1 yt 1 yt 2 yt 2 yt yt 2 , t 3,..., n dyt relativní přírůstky: yt 1
koeficienty růstu (tempa růstu, řetězové indexy): K t
průměrný absolutní přírůstek:
průměrný koeficient růstu: K n 1 K 2 K3 ... K n n 1
yt , t 2,3,..., n yt 1
yn y1 n 1 yn y1
Rozklad časové řady na její jednotlivé složky (dekompozice časové řady)
aditivní model: yt Tt St Ct et
multiplikativní model: yt Tt St Ct et
Trend:
analytické vyrovnávání časové řady: pokoušíme se trend popsat nějakou matematickou – trendovou – funkcí užívá se tehdy, kdy časová řada vykazuje nějakou stálou deterministickou (nenáhodnou) složku a kdy není výrazně ovlivňována nějakými náhodnými výkyvy mechanické vyrovnávání časové řady [příklad] Pro časovou řadu hodnot spotřeby masa v kilogramech na jednoho obyvatele České republiky vypočítejte průměrný roční absolutní přírůstek pomocí: a) krajních hodnot časové řady, b) pomocí analytického vyrovnání regresní přímkou. t Rok yt tyt t2 1997 1 83,9 1998 2 87,8 1999 3 88,7 2000 4 89,3 2001 5 91,6 2002 6 93,5 2003 7 96,1 2004 8 97,4 Součet 36 728,3 204 3353,7 yn y1 97, 4 83,9 ad a) 1,93 kg / obyv. – průměrná roční spotřeba masa se zvyšovala o 1,93 kg na n 1 7 obyvatele ad b) výpočet regresní přímky – trendová přímka, lineární trend – y a bt ;
b
ntyt t yt nt 2 t
2
, a y b t dosadíme b 1,818 , a 82,857
trend: y 82,857 1,818t [konec příkladu] SAS – kontroluje, zda řada má trend, rozptyl a stacionaritu – řada se nazývá stacionární, jestliže má konstantní trend a konstantní rozptyl model – Mean Absolute Percent Error (MAPE) – pokud MAPE do 10% - je model použitelný, do 5% velice kvalitní zvolím si např. Lineární trend délka předpovědi – horizont předpovědi – maximálně 1/3 délky časové řady
Modely
klasické modely vývojových tendencí: lineární trend, kvadratický, kubický, exponenciální… předností klasických analytických modelů je jejich teoretická a výpočetní jednoduchost, dobrá interpretovatelnost výsledků a snadná konstrukce předpovědí pomocí extrapolace trendu Strana 36
použití: při splnění principu ceteris paribus (za jinak stejných okolností) – tj. vnější podmínky, které determinují vývoj dané časové řady, jsou stabilní adaptivní modely: adaptivní modely jsou schopny pracovat s takovými trendovými složkami, které mění v čase globálně svůj charakter, kde však je možné předpokládat, že časovou řadu lze rozložit na několik krátkých úseků a v těchto úsecích provést vyrovnání pomocí standardních matematických křivek modely exponenciálního vyrovnávání: základním reprezentantem u modelů exponenciálního vyrovnávání je Brownovo jednoduché exponenciální vyrovnávání, je doporučováno tehdy, jestliže v průběhu časové řady existují krátká období, ve kterých lze trend pokládat za konstantní dvojité exponenciální vyrovnávání – pokud v průběhu časové řady existují krátká období, kdy lze krátká období modelovat lineárním trendem, nemusí být stejný pro jednotlivé úseky vyrovnávací konstanty – pokud blíže 1 – zařazují se spíše novější hodnoty, 0 – zařazují se i starší hodnoty – B. modely mají 1 vyrovnávací konstantu Holtův model představuje zobecnění B. modelů – 2 vyrovnávací konstanty – úrovňová vyrovnávací konstanta 0,1 a trendovou vyrovnávací konstantu 0,1
Strana 37
Přednáška č. 13; 2. 1. 2006
Posuzování extrapolačních (prognostických) vlastností modelů časových řad
pomocí pseudoprognóz využijeme toho, že pro výpočet modelu nepoužijeme všechny data z referenčního období, ale jen data ze zkráceného (o h-kroků, h – horizont předpovědí) období; pak provedeme posun o h-kroků vpřed – a to jsou pseudopředpovědi používáme techniku MAPE – střední absolutní procentuální chyba (Mean Absolute Percentage Error) 1 n y yt MAPE t 100 % , kde yt t 1,..., n jsou skutečné hodnoty časové řady a yt t 1,..., n jsou n t 1 yt vyrovnané hodnoty časové řady v SASu – úseky: Data range (celé časové období), Fit range (oblast použitá pro výpočet modelu), Evaluation range; Hold-out sample – sem se zadává hodnota h, jak dlouhou chci dělat předpověď; Horizont – předpovědi – nastavím stejnou délkou, jakou jsem si nastavil do Hold-out sample
Vyrovnávání časových řad
vystižení základní tendence časové řady analytické vyrovnávání – spočívá v tom, že pomocí nějaké matematické funkce chceme popsat vyrovnání časové řady mechanické vyrovnávání – obvykle technikou klouzavé průměry Technika mechanického vyrovnávání je založena na vyrovnání časové řady pomocí průměrných hodnot vypočtených z několika hodnot dané časové řady. Tyto vstupní údaje představují tzv. klouzavou část, která se v dané časové řadě posunuje vždy o jednu hodnotu. Příklad: t trojčlenné klouzavé pětičlenné klouzavé yt průměry průměry 1 215 ----2 219 218,667 (bereme průměr --první tří hodnot) 3 222 225,333 (hodnoty 2, 3, 4) 218,6 4 235 219,667 217 5 202 214,667 … 6 207 197,667 … 7 187 199,333 … 8 204 188,333 9 174 183,333 10 172 182,333 11 201 215,000 --12 271 ---- trojčlenné klouzavé průměry – čísla již vykazují mnohem menší výkyvy, než původní řada výhody metody: jednoduchá, dají se eliminovat výkyvy nevýhody: ztráta počátků a konců časové řady trend získaný pomocí klouzavých průměrů je pouze hrubým odhadem skutečného trendu klouzavé průměry jsou určeny pomocí aritmetických průměrů, které jsou velmi citlivé na případné extrémní hodnoty časové řady věc subjektivního názoru, odhadu – jaké klouzavé průměry použít technika není vhodná pro tvorbu předpovědí
Analýza periodických časových řad
periodické řady kromě trendu obsahují i sezónní, případně cyklická kolísání
Sezónní indexy:
Užívají se pro měření intenzity sezónních vlivů. skutečná hodnota řady yt Jsou to poměrná čísla následujícího typu: . vyrovnané hodnoty řady yt Vyrovnanou hodnotou může být:
yt . Uvedený y způsob výpočtu je vhodný v těch případech, kdy časová řada nemá žádný trend nebo jen velmi malý trend – tato řada stagnuje. b) odhad získaný buď pomocí klouzavých průměrů, nebo pomocí metody analytického vyrovnávání Příklad: Hodnoty časové řady uvedené v tabulce představují hodnotu výroby mražených mléčných výrobků v souboru mlékárenských firem za jednotlivá čtvrtletí v letech 1998–2001 v mil. Kč. Určete sezónní indexy.
a) aritmetický průměr skutečných hodnot za období celé periody sezónního cyklu: St
Strana 38
Rok
1998
Čtvrtletí
yt
I. II. III.
35 46 71
centrované klouzavé průměry ----49,500
jednotlivé sezónní indexy ----71 1, 434 49,5 0,819 0,660 … … … …
očištěné hodnoty 50,51 40,44
IV. 44 53,750 I. 39 59,125 II. 76 … III. 84 … IV. 50 … 2000 I. 34 … II. 61 III. 94 IV. 33 2001 I. 54 II. 70 III. 102 ----IV. 48 ---- vyrovnané hodnoty odhadneme pomocí klouzavých průměrů délka klouzavá části je dána periodou, s níž se sezónní výkyvy opakují – centrovaný klouzavý průměr – jsou 35 46 71 44 4 čtvrtletí, takže po čtyřech, tj. pro první rok: a posunu se o jednu hodnotu dolů a přičtu to 4 35 46 71 44 46 71 44 39 k předchozímu, tj.: a z toho udělám průměr, tj.: 4 4 35 46 71 44 46 71 44 39 1 49,5 – máme první klouzavý průměr; druhý klouzavý průměr: 4 4 2 46 71 44 39 71 44 39 76 1 53, 75 atd. 4 4 2 abychom potlačili vliv náhodné složky, zprůměrňujeme hodnoty sezónních indexů ve stejných obdobích jednotlivých let; nejprve vezmeme sezónní indexy připadající na první čtvrtletí a vypočteme průměr, pak 0, 660 0,581 0,847 totéž opakujeme pro ostatní čtvrtletí – pro 1. čtvrtletí: 0, 696 , 2. čtvrtletí: 3 1, 236 1, 059 1, 051 1,115 , 3. čtvrtletí – 1,473; 4. čtvrtletí – 0,733. Tyto výsledky vložíme do tabulky: 3 Čtvrtletí Průměrný sezónní index Sezónní faktor I. 0,696 0,693 II. 1,115 1,110 III. 1,473 1,467 IV. 0,733 0,730 4,017 4,000 Součet: Součet by měl dát 4 (máme 4 čtvrtletí) – v důsledku zaokrouhlovacích chyb to nevyjde. Abychom chybu odstranili, musíme provést standardizaci – normování průměrných sezónních indexů: Správný součet 4 0,9958 a tímto koeficientem vynásobíme jednotlivé průměrné sezónní vydělíme naším číslem: 4,17 indexy. Interpretace sezónních faktorů: V jarních a letních měsících byla produkce mražených výrobků nadprůměrná. Sezónní očišťování: v původní řadě se nedají srovnávat hodnoty vedle sebe. Aby bylo možné srovnávat po sobě jdoucí údaje v časové řadě, je nutné tyto hodnoty zbavit sezónní a náhodné složky. Každou hodnotu časové řady vydělíme příslušným sezónním faktorem. Např. první hodnota: 35 – dělím ji sezónním faktorem pro 1. čtvrtletí – viz tabulka nahoře. Tyto hodnoty jsou teprve porovnatelné. 1999
Strana 39
Přednáška č. 14; 9. 1. 2006
opravy na zápočty: 26. 1. ve 14:50 (15?) na E14 poslední možnost získání zápočtu
Modelování sezónních časových řad Wintersův model exponencionálního vyrovnání
adaptivní model pro modelování a extrapolaci sezónních časových řad 3 vyrovnávací konstanty: alfa 0,1 – úrovňová vyrovnávací konstanta
beta 0,1 – tendrová vyrovnávací konstanta
gama 0,1 – sezónní vyrovnávací konstanta
Korelace časových řad
jestliže sledujeme současně několik časových, vzniká otázka, zda mezi nimi neexistuje nějaká souvislost, která by dovolila vysvětlit změny v jedné časové řadě změnami v druhé časové řadě chceme-li zkoumat, zda mezi řadami existuje určitý příčinný vztah, nestačí zkoumat pouze celkovou vývojovou tendenci, nebo sezónní kolísání, protože tyto faktory mohou mít velmi podobný průběh, a vyvolávat tzv. zdánlivou korelaci pro zkoumání mezi řadami je tedy nutné použít metody měření těsnosti závislosti mezi řadami očištěnými od trendů, případně rovněž od sezónní složky [příklad] V určité restauraci byla během deseti po sobě jdoucích dnů sledována tržba realizovaná za poledního provozu a za večerního provozu. Je třeba zjistit, zda mezi vývojem tržeb v poledním a večerním provozu existuje nějaká závislost. Na první pohled by se zdálo, že ano (dle výpisu ze SASu). Ale je třeba tuto závislost případně zjistit z očištěných řad. Lineární trend pro řadu poledního typu: y 36,8 0,782t . Pro večerní tržby: y 173,933 1,394t . Je potřeba pomocí rovnic trendu řady očistit – odstranit z nich trend. Pro první hodnotu – dosazení do trendu pro polední řadu za t dáme 1, vypočítáme a odečteme od zjištěné hodnoty, dostaneme e y a dostaneme rezidua – a mezi nimi počítáme korelaci. Mezi rezidua existuje slabá, záporná závislost. Teprve toto dává správný obrázek. [konec příkladu]
Závislosti kvalitativních dat (kategorických dat)
[příklad] Bylo posuzováno, zda pravidelná účast studentů na přednáškách má vliv na úspěch v prvním termínu u zkoušky. Ověřte, zda existuje závislost, mezi těmito znaky a určete sílu závislost: úspěch\účast na přednáškách ano ne součty ano 30 (a) 15 (b) a+b=40 ne 10 (c) 25 (d) c+d=35 součty a+c=40 b+d=40 n= tabulka 2x2, asociační tabulka, kontingenční tabulka 2x2 údaje představují četnosti – jsou získány jako výsledek výzkumu, jsou to empirické (experimentální) četnosti máme dva kvalitativní znaky: 1. účast na přednáškách, 2. úspěch v 1. termínu nulová hypotéza: uvedené kvalitativní znaky jsou nezávislé analýza závislosti kvalitativních znaků probíhá ve dvou etapách: v 1. etapě testujeme nulovou hypotézu; jestliže ji nezamítneme, analýza končí jestliže tuto hypotézu zamítneme, je třeba v 2. etapě změřit sílu příslušné závislosti sloupcové a řádkové součty: marginální četnosti test nulové hypotézy: 2 n ad bc testovací kritérium: 2 a b c d a c b d
v našem případě:
80 30 20 15 10
2
11, 43 45 35 40 40 rozhodnutí: Jestliže 2 2 1 (jeden stupeň volnosti), pak zamítáme H 0
2 tabulková hodnota: 0,05 1 3,8 zamítáme H 0
2
změříme sílu závislosti: protože nulová hypotéza byla zamítnuta, je třeba v 2. etapě analýzy změřit sílu zjištěné závislosti; k tomuto účelu se používá tzv. Cramerův koeficient (koeficient asociace)
Cramerův koeficient: V
2 n
, tj. v našem případě: V Strana 40
11, 43 0,378 80
Rozmezí C. koef.: 0 V 1 , interpretace: 0 V 0,3 , pak je slabá závislost; 0,3 V 0,8 , pak je střední závislost; 0,8 V 1 , pak je silná závislost
konstatujeme: závislost je statisticky významná, a je středně silná [konec příkladu] [začátek příkladu] Bylo zjišťováno, zda existuje statisticky významná závislost, mezi spokojeností televizních diváků s určitým typem programu a stupněm dosaženého vzdělání těchto diváků. součty spokojenost s programem stupeň vzdělání plně spokojen vcelku spokojen nespokojen 22 (oček. 41,23) 15 (17,43) 133 (111,35) 170 základní 25 (26,68) 11 (11,28) 74 (72,05) 110 střední všeobecné 20 (16,98) 8 (7,18) 42 (45,85) 70 střední odborné 30 (12,13) 7 (5,13) 13 (32,74) 50 VŠ součty 97 41 262 n = 400 kontingenční tabulka 4x3 empirické (experimentální) četnosti očekávané (teoretické) četnosti: součet sloupce součet řádku o n 97 170 např. očekávaná četnost pro základní/plně spokojen: o 41, 23 400
Ei Oi
2
testovací kritérium: 2
výpočet: 2
Rozhodnutí: Jestliže 2 2 f , pak H 0 zamítáme. Počet stupňů volnosti: f K 1 m 1
Náš příklad: 2 53,58 2 6 12,592 , tudíž nulovou hypotézu zamítáme, takže chceme změřit sílu
22 41, 23 41, 23
2
Oi
, kde Ei jsou experimentální četnosti a i jsou očekávané četnosti
15 17, 43
2
17, 43
...
13 32, 75 32, 75
2
53,58
závislosti.
Opět slouží Cramerův koeficient. V
V
2
n q 1
2
n q 1
, kde q min K , m , v našem případě q 3 tj.
53,58 0, 259 . 400 3 1
Závislost mezi spokojeností a vzdělání je prokázaná, je ale slabá. Poznámky: Tyto testy vyžadují splnění určitých předpokladů. Chí-kvadrát test pro kontingenční tabulku nelze použít, jestliže více než 20% očekávaných četností, je menších než 5, případně když alespoň v jednom políčku kontingenční tabulky je očekávaná četnost menší než 1. V těchto případech je nutné některé sousedící skupiny spojit. K tabulce 2x2: Chí-kvadrát test pro tabulku 2x2 se nemá používat, jestliže n < 20, a pokud n 20, 40 , může se tento test používat pouze tehdy, jestliže žádná očekávaná četnost, není menší než 5.
Strana 41
Autokorelace Popis náhodné složky Náhodnou složku εt lze chápat jako výsledek působení blíže nespecifikovaného souboru náhodných (stochastických) vlivů. Lze tedy předpokládat, že - jejich střední hodnoty jsou nulové - mají v čase konstantní rozptyl (homoskedasticita) - jsou vzájemně lineárně nezávislé Pokud výše uvedené body platí, tvoří řada hodnot náhodné složky tzv. bílý šum. Reziduum je odhadem náhodné veličiny εt.. Pomocí Durbin-Watsonův test autokorelace se ověřuje, zda jsou náhodné poruchy nezávislé. n
2
DW
2
2
(e2 e1) ... (en 1 en 2 ) (en en 1 ) 2 2 2 e1 e2 ... en
2 (e t e t 1 )
t 2
n
e2t
t 1
Jeho hodnoty se pohybují v intervalu od nuly do čtyř. Pro nezamítnutí nulové hypotézy se hodnoty testového kritéria musejí pohybovat kolem hodnoty dvě. V systému SAS se hodnota DW testu spočítá z hodnot uvedených v tabulce 1 ve sloupci ERROR. Údaje uvedené v tabulce se musí nejprve uložit do datového souboru. To se provede tak, že se celá tabulka vyčerní, v menu pravého tlačítka myši se vybere FILESAVE DATA AS a tabulka se uloží do vybrané knihovny (WORK nebo SASUSER). V programovém editoru systému SAS se napíše následující program: proc autoreg data=sasuser.Ceny_jat_byku_model; model error = date / dw=4 dwprob; title "Durbinuv-Watsonuv test o nezavislosti nahodnych poruch"; run; Kde příkaz dwprob zobrazí pravděpodobnostní hodnoty (p-values) pro Durbinův-Watsonův test. (Pokud jsou pravděpodobnostní hodnoty výpočetně náročné, tak se nezobrazí defaultně). Příkaz dw= slouží k zadání řádu Durbinovi-Watsonovi statistiky. Výsledný výstup výpočtu Durbinova-Watsonova testu
Durbin-Watsonův test o nezavislosti nahodnych poruch The AUTOREG Procedure Dependent Variable
ERROR
Ordinary Least Squares Estimates SSE 66.7303946 DFE MSE 0.82383 Root MSE SBC 226.272532 AIC Regress R-Square 0.0110 Total R-Square
81 0.90765 221.434851 0.0110
Durbin-Watson Statistics Order DW Pr < DW Pr > DW 1 0.5203 <.0001 1.0000 2 1.2842 0.0004 0.9996 3 1.9661 0.4838 0.5162 4 2.4443 0.9889 0.0111 NOTE: Pr
DW is the p-value for testing negative autocorrelation. Variable Intercept DATE
DF 1 1
Estimate 1.9248 -0.000130
Standard Error 2.0194 0.000137
t Value 0.95 -0.95
Approx Pr > |t| 0.3434 0.3459
U hodnot výpočtu Durbinova-Watsonova testu pro závislosti prvního řádu je hodnota testového kritéria rovna 0,5203 (blíží se k nule); což znamená, že se zamítá nulová hypotéza o nezávislosti náhodných poruch. Vzhledem k tomu, že pravděpodobnostní hodnota pro Pr < DW je velmi nízká (0,0001), tak se zamítá nulová hypotéza ve prospěch alternativní a lze předpokládat, že mezi náhodnými poruchami je přímá závislost. Tuto skutečnost lze vypozorovat analogicky i na základě pravděpodobnostní hodnoty pro Pr > DW. Strana 42
Autokorelace = korelace mezi jednotlivými hodnotami (pozorováními) časové řady Přesvědčit se o ní lze pomocí:
A) koeficientů autokorelace -
nejprve pomocí koeficientů autokorelace 1. řádu = korelační koeficient mezi bezprostředně sousedícími hodnotami analyzované časové řady dále pomocí koeficientů autokorelace 2. řádu = korelační koeficient mezi ob jeden posunutými sousedy analyzované časové řady až po koeficient autokorelace k-tého řádu
Je-li některý vypočtený koeficient vysoký (nejčastěji to bývá hned koeficient autokorelace 1. řádu), jsou údaje v řadě závislé a snadno dojde ke vzniku zdánlivé korelace (tj. korelace jevů, které spolu nemusí logicky souviset).
B) aplikací Durbinova-Watsonova testu Kde se proti H0 o nekorelovannosti hodnot v časové řadě formuluje alternativní hypotéza tvrdící, že mezi hodnotami časové řady existuje závislost. Pro Durbinův-Watsonův test se počítá testové kritérium: n
2
DW
2
2
(y2 y1) ... (yn 1 yn 2 ) (yn yn 1 ) 2 y1
2 y2
...
2 yn
2 (y t y t 1 )
t 2
n
2
yt
t 1
Odstranění autokorelace lze provést tak, že se z původní časové řady eliminuje její systematická složka (odstranění trendu popř. sezónní složky). V programovém editoru systému SAS se napíše následující program: data sasuser.Ceny_jat_byku_model_2; set sasuser.Ceny_jat_byku_model; ylag = lag1( actual ); run; proc autoreg data=sasuser.Ceny_jat_byku_model_2; model actual = ylag / lagdep=ylag; run;
Durbinuv-Watsonuv test o nezavislosti hodnot CR The AUTOREG Procedure Dependent Variable
ACTUAL
Ordinary Least Squares Estimates SSE 64.9353316 DFE MSE 0.81169 Root MSE SBC 222.386514 AIC Regress R-Square 0.8772 Total R-Square
Durbin h Variable Intercept ylag
8.0453 DF 1 1
Pr > h
Estimate 2.5421 0.9324
80 0.90094 217.573075 0.8772
0.0001 Standard Error 1.4635 0.0390
t Value 1.74 23.90
Approx Pr > |t| 0.0862 <.0001
Korelace mezi časovými řadami Pro zjištění skutečné závislosti mezi dvěma řadami musí být odstraněna autokorelace. K prozkoumání toho, zda je vztah mezi časovými řadami příčinný, je nutné použít metody měření těsnosti závislosti řad náhodné složky. Při hledání závislosti mezi oběma řadami se korelují odhady náhodných složek tzv. reziduí (ei = yi – yi´). Strana 43
Rezidua každé časové řady se podrobí zkoušce na nezávislost jejich uspořádání (nejlépe opět DurbinovýmWatsonovým testem). n
2
DW
2
2
(e2 e1) ... (en 1 en 2 ) (en en 1 ) 2 2 2 e1 e2 ... en
2 (e t e t 1 )
t 2
n
e2t
t 1
Pokud výsledek testu není uspokojivý, musí se systematické části lépe odstranit, tzn. odhady hodnot časové řady musí být změněny. Následuje tvorba nových reziduí a zopakování Durbinova-Watsonova testu). Při uspokojivé odezvě (obě sady jsou náhodně uspořádány) se vypočítají korelační koeficienty reziduí, z nichž lze usuzovat na těsnost závislosti původních časových řad.
Teorie autokorelace - provádíme pro rezidua a pro skutečné hodnoty - náhodná složka – výsledek nějakého blíže nespecifikovaného souboru náhodných vlivů - reziduum je odhad náhodné složky, pracuje se s ním - pomocí Durbin-Watsonova testu se počítá autokorelace reziduí, nabývá hodnot od 0 do 4. stanovujeme nulovou hypotézu. Neexistuje závislost mezi rezidui. Pro nezamítnutí nulové hypotézy se hodnota Durbin-Watsonova testu se pohybuje v rozmezí 1,5 – 2,5. - Autokorelace prvního až -kátého řádu DW Pr
1,2,3,4,… tzn. prvního až čtvrtého řádu Autokorelace skutečných hodnot časové řady – můžeme použít dvě možnosti, jak se o ní přesvědčit o Koeficienty autokorelace – netestuje se zde nulová hypotéza, koeficient autokorelace prvního až kátého řádu, jestliže je nějaký koef. Autokorelace vysoký tak jsou údaje v řadě závislé a snadno tak dojde ke vzniku zdánlivé korelace(závislost jevů, které spolu nemusí nutně logicky souviset) o Využití Durbin-Watsonova testu – nulová hypotéza je stejná (o nekorelovanosti hodnot v časové řadě), alternativní: mezi hodnotami v časové řadě existuje závislost; z původní časové řady se eliminuje její systematická složka (odstranění trendů, případně sezónní složky) o Korelace mezi časovými řadami – na to není procedura, ale vzoreček…. korelace mezi časovými řadami (korelace na základě …blablablba časových řad) - V případě korelace časových řad nás zajímá především hledání závislosti mezi oběma řadami.
Strana 44
Strana 45