Smíšené regresní modely a možnosti jejich využití Karel Drápela
Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace nevysvětlené variability
Využití regresní analýzy model vztahu mezi vysvětlující a vysvětlovanou proměnnou
predikce hodnot pro určité období do budoucna,
Vybrané podmínky MNČ data jsou nezávislá,
pro každou hodnotu x je variabilita y stejná (homoskedasticita)
Strukturace dat Hlavní příčiny strukturace dat časové hledisko (opakovaná měření) prostorová agregace (shluky) hierarchická struktura dat
Hlavní problémy data nejsou vzájemně nezávislá data vykazují korelační strukturu (data „uvnitř skupin“ jsou si navzájem „podobnější“ než data „mezi skupinami“) výsledkem použití „klasické“ MNČ je „nadhodnocení“ nevysvětlené variability
Příklad strukturovaných dat
Globální model
Globální model
y = 0 + 1 x
Lokální modely i =1 y = 01 + 11 x
i =2 y = 02 + 12 x
Lokální vs. globální model
Lokální vs. globální model i =1 y = 01 + 11 x
y = 0 + 1 x
i =2 y = 02 + 12 x
Nevýhody lokálního a globálního modelu Globální model ignoruje strukturu dat a všechna data považuje za vzájemně nezávislá pracuje se všemi daty najednou – vysoká variabilita a široké odhady parametrů
Lokální modely parametry modelu platí jen pro určitou skupinu – obtížná možnost zobecnění v případě velkého počtu skupin nutnost počítat velké množství modelů s mnoha parametry
Model se smíšenými parametry nazývá se také víceúrovňový nebo hierarchický (mixed model, multilevel model, hierarchical model)
smíšený model – parametry modelu jsou dvojího druhu – pevné (fixed) a náhodné (random) pevné parametry jsou společné všem skupinám, náhodné vyjadřují odchylky jednotlivých skupin od pevných („globálních“) parametrů je to „kompromis“ mezi globálním a lokálním modelem – každá skupina může mít vlastní model, ale tyto modely jsou určitým způsobem „svázány“ s „globálním“ modelem, takže jejich parametry nemohou nabývat zcela libovolných hodnot jako u lokálních modelů
Základní struktura smíšeného modelu model se rozdělí na tolik úrovní, s kolika stupni strukturace dat uvažujeme
základní model má 2 úrovně – např. strom - plocha, jedinec – druh, apod. i – počet skupin (úroveň2) i = 1,2, …, m k – počet jedinců v rámci skupiny (úroveň 1) k = 1,2, …., ni yik – měřená hodnota na k-tém jedinci v rámci i-té skupiny i=1
i=2
Základní struktura smíšeného modelu Model úrovně 1 yik = β0i + β1ixik + ik ik N(0, 2) y = β01 + β11x
y = β02 + β12x
Model úrovně 1 popisuje vztah mezi y a x v rámci skupin
Model úrovně 2 β0i = + β0 + u0i β1i = + β1 + u1i
u 0i u 1i
0 τ 02 N , 0 τ 01
τ 01 2 τ1
Model úrovně 2 „uvolňuje“ parametry 0i a 1i. Náhodné parametry u0i a u1i představují odchylku parametrů 0i a 1i od „globálních“ parametrů 0 a 1. Tato odchylka ovšem nemůže být libovolná, ale je dána rozdělením náhodných parametrů
Základní struktura smíšeného modelu Vytvoření smíšeného modelu
y = (β0 + u0i)+(β1 + u1i) x abs.člen
směrnice
Pevné parametry:
β0 , β1 , 2,02, 12, 01
Náhodné parametry: y = (β0 + u01)+(β1 + u11) x y = β0 + β1x
y = (β0 + u02)+(β1 + u12) x
ik, u0i, u1i
y = β0 + β1xik + u0i+ u1ixik + ik část modelu s pevnými parametry
část modelu s náhodnými parametry
Srovnání lokálních a smíšených modelů Lokální model
Smíšený model
parametry modelu jsou interpretovány jako pevné
parametry modelu jsou interpretovány buď jako pevné nebo jako náhodné
nejvhodnější pokud srovnání modelů jednotlivých skupin je cílem výzkumu
nejvhodnější, pokud cílem výzkumu není model pro určitou skupinu, ale charakteristika rozdělení parametrů modelu
vhodný pokud proměnná definující strukturu dat je zároveň hlavním zkoumaným prediktorem
vhodný pokud proměnná definující strukturu dat je především třídící proměnnou
vhodný pro velmi malý počet skupin
vhodný pro vysoký počet skupin
vyžaduje výpočet velkého množství parametrů (zvláště v případě modelů počítaných pro mnoho skupin)
počet počítaných parametrů nezávisí na počtu skupin
v případě výpočtu velkého počtu parametrů v případě velmi malého počtu skupin mohou existuje tendence ke zvyšování variability odhadů nastat problémy s odhadem parametrů rozdělení parametrů náhodných faktorů
Tvorba smíšeného modelu Je nutné vytvořit 4 základní stupně modelů a testovat jejich „přínos“: Název
Model
Význam
globální model
yik = β0 + β1xik + ik
základní model , který ignoruje případnou strukturu v datech, nutný pro testování přínosu smíšeného modelu
model průměru
L1: yik = β0i + ik L2: β0i = β0 + u0i
model bez prediktoru, potřebný pro odhad 2 a 2 (ik N(0, 2); u0i N(0,2))
1. srovnáním s globálním modelem se testuje model s L1: yik = β0i +β1xik + ik významnost struktury v datech náhodným abs. L2: β0i = β0 + u0i 2. srovnáním s modelem průměru se testuje členem význam prediktoru 1. úrovně model s L1: yik = β0i +β1xik + ik základní model pro testování významu náhodným abs. L2: β0i = β0 + u0i prediktorů 2. úrovně (proměnné společné pro i regresním β1i = β1 + u1i všechny jedince 1. úrovně) členem
Tvorba smíšeného modelu V dalším kroku se přidávají prediktory 2. úrovně ( proměnné, které jsou měřeny na úrovni skupin a jsou pro všechny jedince 1. úrovně stejné, např. věk v rámci zkusné plochy stejnověkého porostu). Prediktory 2. úrovně jsou používány k odhadu parametrů na úrovni skupin. Prediktory 2. úrovně mohou být doplněny do modelu jak pro abs. člen, tak pro směrnici, tak pro oba členy modelu.
Kalibrace smíšených modelů Kalibrovaná predikce (parametrizace) pokud je vytvořen smíšený model s potřebnými prediktory na všech úrovních modelu, je možná kalibrovaná parametrizace modelu pro nová měření na základě velmi málo měřených hodnot vysvětlované proměnné používá se metoda BLUP (best linear unbiased predictor) pokud hodnoty vysvětlované proměnné nejsou měřeny, model se chová jako model s pevnými efekty (využívá pouze pevných hodnot parametrů použitých prediktorů)
Výšková funkce
Kalibrace smíšených modelů
Kalibrace smíšených modelů - náhodný výběr stromů (P1)
Kalibrace smíšených modelů – míry shody s lokálním modelem (náhodný výběr stromů, P1)
Kalibrace smíšených modelů - náhodný výběr stromů (P56)
Kalibrace smíšených modelů – míry shody s lokálním modelem (náhodný výběr stromů, P56)
Kalibrace smíšených modelů – výběr podle kvantilů (P1)
Kalibrace smíšených modelů – míry shody s lokálním modelem (výběr stromů podle 20% intervalů, P1)
Kalibrace smíšených modelů – výběr podle kvantilů (P56)
Kalibrace smíšených modelů – míry shody s lokálním modelem (výběr stromů podle 20% intervalů, P56)