Statistické modelování v S-Plus
Pravidla jen tak mezi námi • • • •
Všechny modely jsou špatné Některé modely jsou lepší než jiné Nikdy si nejsme jisti, že model je správný Čím je model jednodušší, tím je lepší
Typy modelů • • • • •
Nulový Minimální adekvátní (MAM) Současný Maximální Saturovaný
Zjednodušování modelu na MAM Krok Postup
Vysvětlení
1
Fituj maximální model
Fituj všechny faktory, interakce a kovariáty, které lze. Zkontroluj reziduály. Zkontroluj overdispersion (Poissonovo n. binomické rozložení chyb; rescale)
2
Začni se zjednodušováním
Prohlédni si parametry pomocí disp e. Odstraň člen vysvětlující nejméně deviance pomocí fit -. Začni s interakcemi nejvyšší třídy.
3
Pokud zjednodušení způsobí nevýznamnou změnu deviance
Nech parametr mimo model. Prohlédni si parametry a opět odstraň člen vysvětlující nejméně deviance
4
Pokud zjednodušení způsobí významnou změnu deviance
Vrať parametr do modelu pomocí fit+. Jde o statisticky průkazný člen
5
Pokračuj v odstraňování parametrů
Opakuj kroky 3 a 4 tak dlouho, dokud model neobsahuje jen průkazné členy. Výsledný model je minimální adekvátní.
Slučování (agregace) • Spojování úrovní faktorů, které jsou významné, ale neliší se průkazně jedna od druhé • Např. ANOVA: „nízká“ a „střední“ úroveň faktoru se od sebe průkazně neliší, ale liší se průkazně od úrovně „vysoké“
Okamova břitva Jsou-li ostatní věci stejné, pak: • model s n – 1 parametry je lepší než model s n parametry • model s k – 1 vysvětlujícími proměnnými je lepší než model s k proměnnými • lineární model je lepší než nelineární • model bez interakcí le lepší než model s interakcemi
Okamova břitva • Snadno a levně měřitelné proměnné jsou lepší než proměnné těžko či nákladně měřitelné • Modely odovozené z teoretických opředpokladů jsou lepší než čistě empirické
Další doporučení pro modelování • To, že nám dalo mnoho práce zkoumání faktoru, který se ukázal jako nevýznamný, nás neopravňuje k tomu, abychom ho uchovávali v modelu • Jeví-li se nevýznamný faktor jako důležitý (je např. blízko významnosti), opakujte experiment s větším vzorkem
Vzorec modelu • závisle proměnná ~ vysvětlující proměnná(-é) • y~x • y ~ sex
• prává strana znázorňuje: – počet a identitu vysvětlujících proměnných (vlastnosti typu kontinuální vs. kategoriální bývají definovány před fitováním modelu) – interakce mezi vysvětlujícími proměnnými (jsou-li) – nelineární členy vysvětlující proměnné(-ných) – další možnosti: • offset • Error
Vzorec modelu Symboly odlišné od aritmetických • • • • •
+ * / I, např. y ~ xIz
Vzorec modelu Výrazy se speciálním významem • • • •
A*B*C je A+B+C+A:B+A:C+B:C+A:B:C A/B/C je A+B%in%A+C%in%B%in%A (A+B+C)^3 je A*B*C (A+B+C)^2 je A*B*C-A:B:C
Interakce mezi vysvětlujícími proměnnými • interakce mezi kategoriálními proměnnými – počet interakcí je (a-1)(b-1), kde a a b je počet úrovní kategoriálních proměnných
• interakce mezi kontinuálními proměnnými • x*z je x+z+x:z, stejné je nejprve spočítat x.krat.z_x*z a pak fitovat y~x+z+x.krat.z – pomněte, že definování interakce součinem je předpoklad, nikoli fakt; skutečná interakce může být např. x*z^2
Interakce mezi kontinuálními a kategoriálními proměnnými • y~A*x – ANCOVA; fituje zvláštní sklon a průsečík pro každou úroveň faktoru
Hierarchické uspořádání (nesting) • y~A/B je totéž co y~A+A:B či y~A+B%in%A • znamená, že nedává smysl fitovat efekt proměnné B (jde např. o číslo stromu)
Nelineární členy a polynomy vyšších řádů • y~poly(x,3)+poly(z,2) • y~(A+B+C)^2 • I: přepíše to, co by bylo interpretováno jako vzorec modelu, když ve skutečnosti chceme, aby šlo o aritmetický operátor • y~1/x vs y~I1/x – I musíme použít, i když chceme na pravé straně násobit pomocí* (jinak by bylo interpretováno jako interakce) či když chceme na pravé straně použít mocninu pomocí ^ (jinak by bylo interpretováno jako interakce řádu ^)
Několikanásobné nevysvětlené variability (Error terms) • hierarchická uspořádání (nesting), časové a prostorové pseudoreplikace: Error se stává součástí vzorce modelu
Split-plot design
Error term pro split-plot desin • y~A*B*C*D+Error(A/B/C)
Nulový model • y~x • y~x-1 • y~sex-1 – dá průměry pro každé pohlaví místo rozdílu mezi průměry
Update • model_lm(y~A*B) • model1_update(model,~.-A:B)
Modelové vzorce pro regresi y = a + bx
y~x
y = a +bx + cz
y~x+z
• je-li x kontinuální proměnná, program předpokládá, že chceme fitovat regresi • pro nelineární regrese: nls • pro nelineární smíšené regrese: nlme
Modelové vzorce pro ANOVU • y ~ w, kde w je kategoriální proměnná s k úrovněmi • w_factor(w) (pokud w nejsou písmenka)
• reprezentace ANOVY pro w se dvěma úrovněmi (např. pohlaví: mužské a ženské) • y=a+bw1+cw1 • y=a+bw1+c×0=a+bw1 pro muže • y=a+b×0+cw2=a+cw2 pro ženy
• bude-li a celkový průměr pro muže a ženy, pak: • b bude rozdíl mezi průměry pro muže a celkovým průměrem • c bude rozdíl mezi průměry pro ženy a celkovým průměrem
• v ANOVĚ je průsečík průměr a ostatní parametry jsou rozdíly mezi průměry
Modelové vzorce pro ANCOVU Dva průsečíky a dva sklony • směs kontinuálních a kategoriálních proměnných, např. pohlaví a věk: • y ~ a1 + b1x pro muže • y ~ a2 + b2x pro ženy
• y~w*x • první parametr je průsečík, druhý sklon, třetí rozdíl mezi dvěma průsečíky a čtvrtý rozdíl mezi dvěma sklony
Modelové vzorce pro ANCOVU Dva průsečíky a společný sklon • y~w+x • y ~ a1 + bx pro muže • y ~ a2 + bx pro ženy
• první parametr je průsečík, druhý je rozdíl mezi průsečíky a třetí je společný sklon
Příklady typů modelů
Kde se modely objevují • v modelových funkcích • lm(y~x), aov(y~x),gam(y~s(x)), tree(y~x+z)
• v grafických funkcích • plot(x,y), xyplot(y~xIz),coplot(y~xIz), wireframe(y~x*z)
Fitování statistických modelů v S-Plus • • • • • • • • •
lm aov glm: error, link gam lme nls nlme loess tree
Obecně použitelné funkce • summary: pro lm a aov – summary.aov: ANOVA table výsledků – summary.lm: seznam parametrů a standardních chyb
• • • • • • •
plot anova update coef fitted resid predict