Strukturální regresní modely
určitý nadhled nad rozličnými typy modelů
Jde zlepšit odhad k-NN? ●
Odhad k-NN konverguje pro slušné k očekávané hodnotě.
●
ALE POMALU!
●
Jiné přístupy přidají předpoklad o funkci
●
lineární regrese předpokládá při odhadu modelu nepodmiňujeme x-em.
●
Srovnání: ●
lin. reg. aproximuje f(x) globálně lineární funkcí
●
k-NN aproximuje f(x) lokálně konstantní funkcí.
Aproximace funkcí (úvod) ●
Aproximujeme
●
Nejčastěji přidáváme předpoklady o f(x), první:
●
●
tj. existují vnější vlivy mimo X, které vytvářejí chybu predikce nezávislou na X. ALE: pro klasifikaci můžeme modelovat pro binární G, 0-1 kódování kde rozptyl závisí na x! LZE: aproximovat logaritmus podílu P() .. logistická regrese
Expanze lineární báze ●
Hledáme parametry modelu minimalizující
●
●
kde náš model je tvaru kde hk je zvolená množina funkcí vstupu, např. pro neuronové sítě ale třeba i logaritmy či
●
.
Pokud volíme hk např. rozhodovací stromy, mluvíme o kombinaci modelů.
Strukturální regresní modely ●
penalizace za složitost, bayesovské metody Lasso, Ridge reg., i např. kubický splajn
●
jádrové (kernal) metody a lokální regrese
●
slovníkové metody, báze funkcí
Lineární metody pro regresi
● ●
Ridge, Lasso – penalizace PCR, PLS – změna souřadného systému + selekce
Vybereme nejlepší podmnožinu
●
do p=30,40 lze upočítat,
●
jinak postupně přidávat, postupně ubírat, apod.
Jak velkou podmožinu vybrat? ●
např. krosvalidace
●
1 std. err. interval u chyby nejsložitějšího,
●
nejmenší model, co se do intevalu vejde.
Ridge
●
Lambda parametr, penalizujeme součet β
●
se záměrně neobjevilo v penaltě.
●
můžeme centrovat příznaky a fixovat
●
Pro centrované vstupy
●
pro ortonormální vstupy
2
.
Ridge coef. - Cancer example
Lasso regression
●
tj. penalta je
●
nutí některé koeficienty být nulové
●
ekvivalentí formulace
Ridge x Lasso
Best subset, Ridge, Lasso ●
Pro ortonormální vstupy se koeficienty změní:
Srovnání koef. metod, korelov. X
Penalta ~ apriorní pravděp. modelů ●
Ridge
●
je-li apriorní pravděpodobnost parametrů nezávislé,
●
pak je Ridge maximálně pravděpodobný odhad. ●
Bayesův vzorec – –
P ( β / X )=
P ( X / β )⋅P ( β ) P(X )
P(X) konstanta, P ( β ) apriorní pravděpodobnost, P ( X / β ) věrohodnost, P ( β / X ) aposteriorní pravd.
Strukturální regresní modely ●
penalizace za složitost,
●
jádrové (kernal) metody a lokální regrese
●
slovníkové metody, báze funkcí
Jádrové metody - příklad ●
●
Jádrová funkce určuje váhu bodu dle vzdálenosti od x0 Nadaraya-Watson vážený průměr
Jádrové metody a lokální regrese ●
Hledáme odhad
jakožto
, kde
minimalizuje
je parametrizovaná funkce, např. polynom nízkého řádu:
Strukturální regresní modely ●
penalizace za složitost, bayesovské metody Lasso, Ridge reg., i např. kubický splajn
●
jádrové (kernal) metody a lokální regrese
●
slovníkové metody, báze funkcí
●
MARS
Pro splajny máme jednorozměrný vstup X (pak teprve zobecníme na MARS).
Splajny ●
1. stupně: po částech lineární funkce
●
uzly pevně dané nebo v datových bodech
●
v uzlech spojité napojení
●
lze popsat jako součet: ●
lineání funkce plus
●
pro každý uzel –
bazická funkce *βi
Kubický splajn ●
Po částech polynomy 3. stupně
●
v uzlech spojitá druhá derivace.
●
Lze zapsat jako součet:
●
kubická funkce plus
●
pro každý uzel ●
bazická funkce*βi
Přirozený kubický splajn ●
●
Na koncích lineární, mezi uzly kubický (resp. podle stupně ve jménu). U krajů se těžko predikuje, velký rozptyl odhadů ●
proto raději volíme jednodušší model.
Do více dimenzí ●
Součiny jednorozměrných.
●
Ale je jich moc,
●
proto přidávat jen „potřebné“ prvky báze.
Počet stupňů volnosti – složitost f ●
Potřebujeme vyjádřit, že model s menším je jednodušší
●
●
●
efektivní počet stupňů volnosti
u jiných modelů např. počet parametrů, VapnikChervonenkis dimenze, ... k-NN složité zhruba N/k.
singulární rozklad
Singular Value Decomposition SVD (centered)
●
di jsou singulární čísla matice X (singular values) ●
je-li nějaké nulové, je X singulární.
PCA - Analýza hlavních komponent
vlastní čísla, vlastní vektory
PCR, PLS ●
●
PCR Principal component regression ●
volí směry odpovídající největším vlastním číslům
●
pro tyto směry spočte regresní koeficienty.
●
Při size=p odpovídá lineární regresi.
Partial least squares – navíc bere v potaz Y ●
spočte regresní koeficienty
●
tím váží vstupy a spočte první vlastní číslo a vektor
●
odtud první směr PLS, další obdobně, kolmé na 1.