Tvorba trendové funkce a extrapolace pro roční časové řady Příklad: Základem pro analýzu je časová řada živě narozených mezi lety 1970 a 2005. Prvním úkolem je vybrat vhodnou trendovou funkci pro vystižení vývoje a dále provést předpověď stavu živě narozených na rok 2006. Tab. č. 1: Živě narození v letech 1970 až 2005 Rok 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 Živě narození 147 865 154 180 163 661 181 750 194 215 191 776 187 378 181 763 178 901 172 112 Rok 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Živě narození 153 801 144 438 141 738 137 431 136 941 135 881 133 356 130 921 132 667 128 356 Rok 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Živě narození 130 564 129 354 121 705 121 025 106 579 96 097 90 446 90 657 90 535 89 471 Rok 2000 2001 2002 2003 2004 2005 90 910 90 715 92 786 93 685 97 664 102 211 Živě narození
Tvorba trendových funkcí vychází z principů a z procedur regresní analýzy (tedy vztahu závislé a nezávislé proměnné). Za nezávislou proměnnou je volena časová proměnná ti , která je přiřazena jednotlivým rokům. Proto data musí být pro danou analýzu připravena do sloupců proměnné „rok“, zjištěných hodnot proměnné „živě narození“ a příslušné časové proměnné „t“. Náš excellový soubor casovky si na listu živě narození připravíme pro import do systému Statistica tak, že v každém sloupci bude jedna proměnná. Tab. č. 2: Formát dat připravený k importu do systému Statistica rok zive_nar t1 1970 147 865 1 1971 154 180 2 1972 163 661 3 1973 181 750 4 1974 194 215 5 … … … … … … 2001 90 715 32 2002 92 786 33 2003 93 685 34 2004 97 664 35 2005 102 211 36
Vlastnímu řešení příkladu by opět měla předcházet (nebo ho přinejmenším doplňovat) vizuální analýza pomocí grafu korelačního pole v nabídce GRAFY | BODOVÉ
GRAFY,
jako
proměnnou pro osu x vybereme proměnnou čas „t1“ a pro osu y „zive_nar“ (viz obrázek č. 1).
Obr. č. 1: Dialogové okno pro volbu možností k bodovému grafu
Výsledkem pak je opět bodový graf kombinací obou sledovaných znaků – viz obrázek č. 2. Charakteristiky v pravé horní části obrázku 1 – R kvadrát, Korelace – jsou počítány pouze pro přímku, i když se zadá jiný typ funkce!!!
Obr. č. 2: Vývoj počtu živě narozených
Na obrázku č. 2 jsou ve vývoji počtu živě narozených patrné 2 extrémy, bude se tedy jednat o polynomiální funkci. Pokud jsou dva extrémy, budeme uvažovat polynom třetího stupně (polynom vždy o jeden vyšší, než je počet extrémů). Řešení příkladu budeme opět provádět v nabídce STATISTIKA | POKROČILÉ NELINEÁRNÍ MODELY
| JEDNODUCHÁ
NELINEÁRNÍ REGRESE,
LINEÁRNÍ A
kdy v úvodním dialogovém okně
zadáme, že v regresním modelu budeme pracovat s oběma proměnnými. V dalším dialogovém okně však již zaškrtneme, že v modelu použijeme nelineární transformaci v podobě druhé a třetí mocniny proměnné – polynom třetího stupně (nabídka „X^2“ a „X^3“ – viz obrázek č. 3). Jedná se o trendovou (regresní) funkci v obecném tvaru y´= b0 + b1.t1 + b2.t12+ b3.t13.
Obr. č. 3: Dialogové okno transformace použitých proměnných
Po stisknutí OK specifikujeme již konkrétně v dalším dialogovém okně (obrázek č. 4) tvar požadované regresní funkce (y´= b0 + b1.t1 + b2.t12+ b3.t13). Je nutno zadat, že jako závislá proměnná bude vystupovat v rovnici proměnná „zive_nar“. Na straně nezávislých proměnných se vedle původní proměnné čas „t1“ vyskytuje i její druhá a třetí mocnina (tedy zároveň zaškrtnutá volba „V2**2“ neboli druhá mocnina proměnné t1 a „V2**3“, která představuje třetí mocninu proměnné t1). K dané trendové (regresní) funkci se tedy přistupuje tak, že proměnná „zive_nar“ je závislá na proměnné čas „t1“ a na její druhé a třetí mocnině.
Obr. č. 4: Dialogové okno pro volbu závisle a nezávisle proměnných
Poznámka: proměnná 1-zive_nar je vždy označena jako V1 (variable 1), proměnná 2-t1 (čas) je vždy označená jako V2 (variable 2).
Z okna pro výstupy provedených analýz (viz obrázek č. 5) získáme tabulku korelačních a regresních charakteristik a tabulku analýzy rozptylu celého regresního modelu.
Obr. č. 5: Dialogové okno pro výběr výstupů modelu
Vzhledem k hodnotě indexu korelace (položka „Vícenás. R“) r = 0,95319 můžeme říci, že zvolená funkce velmi dobře vystihuje vývoj živě narozených. Danou funkcí je vývoj vystižen z více jak 90 % (hodnota indexu determinace – „Vícenás. R^2“ = 0,9085) – viz obr. č. 5. Na kartě „Výsledky: výpočet regrese“ získáme parametry trendové funkce a jejich významnost – viz obrázek č. 6. Obr. č. 6: Parametry trendové funkce a jejich významnost
Parametry je možné vyčíst ze sloupce „B“ – celá rovnice má potom tvar: y´= 157583,5 + 5760,7.t1 – 578,1.t12+ 10,4.t13. V posledním sloupci „p“ vidíme, že všechny parametry „b0 – b3 jsou statisticky významné („p“ je menší než uvažovaná hladina významnosti alfa = 0,05). Při ohodnocení vhodnosti (statistické významnosti) celé trendové funkce analýzou rozptylu byl model jako celek shledán jako statisticky významný (položka „p“ – viz obrázek č. 7). Obr. č. 7: Hodnocení statistické významnosti celého modelu analýzou rozptylu
Pro zjištění předpokládaného počtu živě narozených (predikce) v roce 2006 (v našem modelu je to období 37) si otevřeme nabídku „Residua/předpoklady/předpovědi“. Nejprve zaškrtneme „Výpočet intervalové předpovědi“, např. na hladině alfa 0,05. Poté zvolíme kartu se zelenou šipkou „Předpověď závisle proměnné“. Je nutno zadat nejen hodnotu 37 pro proměnnou čas „t1“, ale i příslušnou hodnotu pro t12 v trendové funkci, tedy 372 = 1369 v nabídce „V2**2“ a pro t13 v trendové funkci → 373 = 50 653 v nabídce „V2**3“ – viz obrázek č. 8.
Obr. č. 8: Definování hodnot nezávisle proměnné t1 pro tvorbu předpovědi
Po potvrzení OK dostaneme výsledky predikce ve formě tabulky (viz obr. č. 9). Obr. č. 9: Definování hodnot nezávisle proměnné t1 pro tvorbu předpovědi
Z posledního sloupce obrázku č. 9 je patrné, že předpověď na námi zvolené období 37 (rok 2006) činí 107 203 živě narozených. Poslední dvě hodnoty z téhož sloupce vyjadřují 95 % interval spolehlivosti, znamená to tedy, že počet živě narozených v období 37 (rok 2006) se může s 95 % pohybovat mezi 80 277 a 134 129.