Probabilisztikus modellek
Nagy Dávid
Statisztikai tanulás az idegrendszerben, 2016
valószínűségi kalkulus
jelölések
jelölések valószínűségi változók megf´az´as 1 1 0 0
k¨oh¨og´es 0 1 0 1
val´osz´ın˝ us´eg 0.01 0.04 0.855 0.095
valószínűségi változók lehetséges értékei
jelölések
M 1 1 0 0
K 0 1 0 1
P 0.01 0.04 0.855 0.095
jelölések
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
jelölések M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
P (m ^ k) = P (m, k) = 0.04 P (M, K) =
jelölések
P (M, K) =
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
P (m ^ k) = P (m, k) = 0.04 P (M = m, K = k) = P (m, k) 6= P (M, K)
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
P (M, K) =
az igazságtáblázatot függvényként reprezentáljuk
K ¬k k ¬k k
•
M m m ¬m ¬m
probability mass function
P 0.01 0.04 0.855 0.095
P (M, K) =
valószínűségszámítás •
összegszabály ö
•
szorzatszabály s
összegszabály P (k) = P (k, m) + P (k, ¬m) P(“köhögök”)
P(“köhögök és meg vagyok fázva”) vagy P(“köhögök és nem vagyok megfázva”)
P (x) =
X
0
P (x, y )
y 0 2Y
marginális valószínűség, “vagy”-szabály
összegszabály
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
M m ¬m
P 0.05 0.95
szorzatszabály P (m, k) = P (m)P (k|m) P(“meg vagyok fázva és köhögök”)
P(“meg vagyok fázva”) és P(“köhögök ha meg vagyok fázva”)
P (x, y) = P (x|y)P (y) lánc-szabály, “és”-szabály
szorzatszabály
P (m, k) P (m, k) = P (m|k) PP(m, (m|k) (m,k) k)= =PP(m) (m)P (k|m) P (m) = P (m|k) P (m)
szorzatszabály
P (m, k) = P (k|m) (m|k) P (m, k) = P (m)P P (m)
szorzatszabály
P (m, k) = P (k|m) (m|k) P (m, k) = P (m)P P (m)
szorzatszabály P (m, k) = P (k|m) (m|k) P (m, k) = P (m)P P (m)
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
}
X
P (·) = 1
P (m, ¬k) + P (m, k) =1 const
const = P (m)
valószínűségszámítás P (X, Y ) probabilisztikus modell
P (x) =
X
0
P (x, y )
y 0 2Y
P (x, y) = P (x|y)P (y) feltételes valószínűség Bayes szabály
P (x, y) = P (x|y) P (y) P (y|x)P (x) = P (x|y) P (y)
valószínűségszámítás P (A, B, C, D, E, F, G, H, I) teljes modell
P (D, G, H, I) P (D, G|H, I) = P (H, I) P P (D, G|H, I) = P
A,B,C,E,F
(feltételes valószínűség)
P (A, B, C, D, E, F, G, H, I)
A,B,C,E,F,D,G
P (A, B, C, D, E, F, G, H, I)
mintavételezés •
egy adott probabilisztikus modellhez készíthető* mintavételező gép •
kimenetei (minták) lehetséges világok
•
a lehetséges világok relatív gyakoriságai tartanak a valószínűségeikhez
•
különböző trükökkel lehet mintát venni külön a változókból (marginális eloszlásból) vagy a feltételes eloszlásokból is •
P (M, K) =
M m m ¬m ¬m
K ¬k k ¬k k
P 0.01 0.04 0.855 0.095
• • • • • • • • •
nem fázott meg és nem köhög nem fázott meg és nem köhög nem fázott meg és nem köhög nem fázott meg és köhög nem fázott meg és nem köhög nem fázott meg és nem köhög nem fázott meg és nem köhög nem fázott meg és nem köhög nem fázott meg és nem köhög nem fázott meg és nem köhög
probléma Mi a valószínűsége hogy egy véletlenszerűen választott ember pontosan 1.7 m magas?
P (X = 1.7) = 0 P (X = 1.737894613982395) = 0
pmf (x)
x
probléma Mi a valószínűsége hogy egy véletlenszerűen választott ember pontosan 1.7 m magas?
P (X = 1.7) = 0 P (X = 1.737894613982395) = 0 pdf (x) probability density function Z b pdf (x) dx = P (a < x < b) a
sűrűségfüggvény
1.5
2
x
mit jelölünk P-vel? Mindent.
pmf pdf (x) =
pdf X i
pmf (xi ) (x
xi )
valószínűségszámítás P (X, Y )
probabilisztikus modell
P (x) =
X
P (x, y 0 )
y 0 2Y
P (x, y) = P (x|y)P (y)
valószínűségszámítás P (X, Y )
probabilisztikus modell
P (x) =
Z
Y
P (x, y) dy
P (x, y) = P (x|y)P (y)
X y
!
Z
dy
valószínűségszámítás P (X, Y )
probabilisztikus modell
P (x) =
Z
Y
P (x, y) dy
P (x, y) = P (x|y)P (y)
feltételes valószínűség Bayes szabály
P (x, y) = P (x|y) P (y) P (y|x)P (x) = P (x|y) P (y)
összefoglalás •
ismerjük a valószínűségi kalkulus két szabályát, a szorzatszabályt és az összegszabályt
•
tudjuk mit jelent mintákat venni egy eloszlásból ezeket ki tudjuk terjeszteni folytonosan sok értékű változókra
• •
a valószínűségszámításban már mindent* tudunk, most már csak kényelmi** fogalmakat vezetünk be •
* : azért nem mindent, mert ha (a valós számokhoz hasonlóan) más matematikai objektumokra is ki szeretnénk terjeszteni (pl val. változók amelyeknek a lehetséges értékei is valószínűségi eloszlások vagy végtelen sok val. változó), az nem mindig triviális. • mértékelmélet
•
** : néha a kényelmi megoldások teszik lehetővé hogy praktikusan is ki lehessen számolni valamit, ne csak elméletben (exponenciális komplexitás)
függetlenség p(x, y) = p(x)p(y) x?y
p(x|y) = p(x)
ha megtudjuk hogy “y”, az semmit nem változtat “x” valószínűségén •
az előbb 4-est dobtunk. Mit fogunk most dobni?
P (d1 |d2 )P (d2 ) = P (d1 )P (d2 ) •
az előbb 4-es dobtunk, most dobunk mégegyet, mi lesz a kettő összege?
P (d1 + d2 |d2 )P (d2 ) 6= P (d1 + d2 )P (d2 )
feltételes függetlenség p(x, y|z) = p(x|z)p(y|z)
x?y|z
p(x|y, z) = p(x|z)
ha már tudjuk hogy “z”, és megtudjuk hogy “y”, az semmit nem változtat “x” valószínűségén •
a kérdés hogy kapok-e vastapsot a koncert után. Ha tudjuk hogy jól zongorázom az változtat ezen a valószínűségen?
z 6? t •
Ha tudjuk hogy jól sikerült a koncert, akkor számít hogy egyébként általában is jól zongorázom?
z?t|k
•
a függetlenség és a feltételes függetlenség nem implikálják egymást, erre majd látunk több példát
irányított grafikus modellek
P (X1 , X2 , X3 , X4 ) = P (X1 |X2 , X3 , X4 ) P (X2 |X3 , X4 ) P (X3 |X4 ) P (X
X3 , X4 ) = P (X1 |X2 , X3 , X4 ) P (X2 |X3 , X4 ) P (X3 |X4 ) P (X4 )
X3 ? X4 X2 ? X4 | X3
X4
X3
X 1 ? X 3 , X4 | X 2 = P (X1 |X2 ) P (X2 |X3 )P (X3 )P (X4 ) P (X1 , X2 , ..., Xn ) =
n Y i
X2
X1
P (Xi | P arent(Xi ))
grafikus modellek •
az eloszlás faktorizálódik a gráf szerint
•
a gráf az eloszlás függetlenségi struktúráját kódolja
•
a függetlenségi relációk leolvashatóak a gráfról
•
hogyan?
X4
X3
P (X1 , X2 , X3 , X4 ) = P (X1 |X2 , X3 , X4 ) P (X2 |X3 , X4 ) P (X3 |X4 ) P (X
= P (X1 |X2 ) P (X2 |X3 )P (X3 )P (X4 )
P (X1 , X2 , ..., Xn ) =
n Y i
X2
X1
P (Xi | P arent(Xi ))
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
tud terjedni hatás?
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
tud terjedni hatás?
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
tud terjedni hatás?
Felv. pont
megfigyelt változó
ZH jegy
hatásterjedés Nehéz
Intell.
ZH pont
Felv. pont
megfigyelt változó
ZH jegy
hatásterjedés Nehéz
Intell.
ZH pont
? ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
? ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
? ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
? ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
? ZH jegy
Felv. pont
hatásterjedés Nehéz
Intell.
ZH pont
ZH jegy
Felv. pont
tüdőrák
T
M K köhögés
megfázás
explaining away
tüdőrák
T
M
megfázás
K köhögés
-“köhögök, jaj, lehet hogy tüdőrákom van” -“köhögök, de mondjuk meg is vagyok fázva, tehát talán nincs tüdőrákom”
explaining away {T=0,M=1,K=1} ¬T⋀M⋀K T
M P(T|K,notM)
P(T|K)
K
P(T)
P(T|K,M)
d-szeparáció tétel •
az előbbi kis gráfokból összekombinálható az összes lehetséges függőségi reláció
•
azt akarjuk leolvasni hogy u és v változók függetlenek-e különböző m megfigyelések mellett •
u és v között minden lehetséges útra ellenőrizzük hogy blokkolva van-e, feltéve hogy megfigyeljük m-et
v
v
m
u
v m
m
u
u
v
u m
d-szeparáció m
u
v
u
v m
m
u
v
d
v
m
u
nem juthat át hatás
Markov takaró Y
8Y : X ? Y | M B(X) •
szülők
•
gyerekek
•
gyerekek szülei
X
M B(
)=
M B(
)=
grafikus modell építés P (I) = N (I|µint ,
µint
µ Nehéz
int )
int
Intell.
Zmax
P (N ) = N (N |µ, ) ZH pont
házi feladat
Felv. pont
I P (Z) = Binomial(Z | Zmax , ) N ZH jegy
irányítatlan grafikus modellek
összefoglalás •
tudjuk mit jelent a függetlenség probabilisztikus modellekben
•
az irányított grafikus modellek az eloszlás függetlenségi struktúráját jelenítik meg
•
a gráf a teljes eloszlás egy faktorizációját adja meg, amelynek segítségével kevesebb számmal is meg lehet adni az eloszlást
•
•
ezt kihasználva hatékonyabb inferencia algoritmusokat lehet kitalálni
•
a gráfról a függetlenségi relációkat a d-szeparáció tétel alapján le tudjuk olvasni
a grafikus modell abban is segít hogy egy intuitívan ismert rendszerből probabilisztikus modellt tudjunk felírni
bayes-i inferencia
inferencia
mi az amit megfigyelünk? • • • •
fotonok becsapódása levegő gyors rezgései hőmérséklet ingadozása bizonyos molekulák
mire vagyunk kíváncsiak? • • • • • •
milyen tárgyak vannak körülöttem milyen messze kik vannak körülöttem mire gondolnak miért köhögök mik a fizika törvényei
f
f
}
generatív folyamat
f
}
generatív folyamat
f
f
}
inverz inferencia
-1
f
}
generatív folyamat
P (o|h)
P (h|o)
P (o|h)
P (h|o)
ha ilyen lenne a világ akkor mit figyelnénk meg?
P (o|h)
ha ilyen lenne a világ akkor mit figyelnénk meg?
P (h|o)
ha ezt figyeljük meg akkor milyen a világ?
• • • •
forward probability generatív irány prediktív irány “szimulátor”
P (o|h)
ha ilyen lenne a világ akkor mit figyelnénk meg?
P (h|o)
ha ezt figyeljük meg akkor milyen a világ?
• • • •
• • •
forward probability generatív irány prediktív irány “szimulátor”
P (o|h)
ha ilyen lenne a világ akkor mit figyelnénk meg?
inverse probability Bayes-i inferencia modell inverzió
P (h|o)
ha ezt figyeljük meg akkor milyen a világ?
P (o|h)
P (o|h)P (h) P (h|o) = P (o)
}
prior
P (o|h)P (h) P (h|o) = P (o)
}
}
likelihood prior
P (o|h)P (h) P (h|o) = P (o)
posterior
}
} }
likelihood prior
P (o|h)P (h) P (h|o) = P (o)
posterior
}
} }
likelihood prior
}
P (o|h)P (h) P (h|o) = P (o) evidence
}
}
}
posterior
likelihood prior
P (o|h)P (h) P (h|o) = R P (o|h)P (h)dh
likelihood prior
}
} }
posterior
P (h|o) / P (o|h)P (h)
megfordítottuk a generatív modellt
likelihood prior
}
} }
posterior
P (h|o) / P (o|h)P (h)
megfordítottuk a generatív modellt
likelihood prior
}
} }
posterior
P (h|o) / P (o|h)P (h)
miért kell a prior?
betegség
f
tünet
-1
f
betegség
betegség
f
miért köhögök?
tünet
-1
f
betegség
miért köhögök?
P (illness|symptom) / P (symptom|illness)P (illness)
kéztörés
tüdőrák
megfázás
miért köhögök?
P (illness|symptom) / P (symptom|illness)P (illness)
kéztörés
tüdőrák
megfázás
P (illness|symptom) / P (symptom|illness)P (illness) megfázás
milyen gyakori a
tüdőrák kéztörés
?
kéztörés
tüdőrák
megfázás
kéztörés
tüdőrák
megfázás
P (illness|symptom) / P (symptom|illness)P (illness) megfázás
ha
tüdőrák kéztörés
lenne a betegség attól köhögnék?
kéztörés
tüdőrák
megfázás
kéztörés
tüdőrák
megfázás
kéztörés
tüdőrák
megfázás
P (illness|symptom) / P (symptom|illness)P (illness) valószínűleg megfáztam
b XY f =P
Z Y X
b XY nem injektív f =P
Z Y X
b XY nem injektív f =P f
1
nem egyértelmű
Z Y X
hipotézis tér: minden lehetséges 3D drótváz
hipotézis tér: minden lehetséges 3D drótváz
imag
e da
ta
hipotézisek amelyekre magas a prior
hipotézis tér: minden lehetséges 3D drótváz
imag
e da
ta
hipotézisek amelyekre magas a prior
hipotézisek amelyekre nem 0 a likelihood
hipotézis tér: minden lehetséges 3D drótváz
e da
ta
hipotézisek amelyekre magas a prior
posterior
imag
hipotézisek amelyekre nem 0 a likelihood
színek
szén v. hó
hány foton?
megvilágítás
elnyelési görbe (anyag)
spektrális eloszlás
megvilágítás
látósejtek érzékenysége
elnyelési görbe (anyag)
spektrális eloszlás
3 szám
megvilágítás
látósejtek érzékenysége
elnyelési görbe (anyag)
spektrális eloszlás
3 szám
anyag?
beszédfelismerés
mondatok értelmezése
történet 1 Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, látta hogy szénné van égve. A férfi dühösen kirohant anélkül, hogy fizetett vagy borravalót hagyott volna.
történet 1 Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, látta hogy szénné van égve. A férfi dühösen kirohant anélkül, hogy fizetett vagy borravalót hagyott volna. történet 2 Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, nagyon elégedett volt vele és mielőtt elhagyta az éttermet nagy borravalót hagyott a pincérnek.
történet 1 Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, látta hogy szénné van égve. A férfi dühösen kirohant anélkül, hogy fizetett vagy borravalót hagyott volna. történet 2 Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, nagyon elégedett volt vele és mielőtt elhagyta az éttermet nagy borravalót hagyott a pincérnek. Megette a férfi a hamburgert?
-“Elnézést, kártyával lehet fizetni?” -“Persze”
-“Elnézést, kártyával lehet fizetni?” -“Persze” -“Egy ászból és királyból tud visszaadni?”
-“Elnézést, kártyával lehet fizetni?” -“Persze” -“Egy ászból és királyból tud visszaadni?”
humor = téves inferencia felfedezése?
aszimptotikus bizonyosság
a paraméter posterior végtelen adat esetén a valódi paraméterérték körüli delta eloszláshoz konvergál
aszimptotikus konszenzus a különböző priorokból induló posteriorok közötti különbség az adat növekedésével eltűnik
összefoglalás •
ami érdekel az általában közvetlenül nem megfigyelhető
•
a rejtett állapotok kikövetkeztetésében segít a tapasztalatokat generáló folyamat ismerete
•
ennek megfordítása a likelihood: melyek azok a rejtett állapotok amelyek összeegyeztethetőek a megfigyelésekkel?
•
de ez még nem elég, kell prior is hogy feloldja az empirikus aluldetermináltság problémáját
•
a kettő szorzata a posterior, ami megadja jelenlegi tudásunkat a nem megfigyelt változók értékeinek plauzibilitásáról
közelítő inferencia •
az adat és egy adott hipotézistér mellett a posterior eloszlások a legtöbb amit tudunk mondani
•
viszont ezt sokszor nehéz vagy lehetetlen egzaktul kiszámolni, ezért közelítésekre kényszerülünk • •
pontbecslések sztochasztikus közelítő módszerek • •
•
mintavételezés aszimptotikusan (végtelen sok ideig futtatva) egzaktak
determinisztikus közelítő módszerek •
pl: variációs Bayes
•
nem kell végtelen sok idő, de sosem egzakt eredmény
pontbecslések
eloszlás
egy szám
posterior
MAP becslés
* *
0.7 0.5
várható érték
E[X] =
Z
X
x p(x) dx
variancia
V ar[X] = E[(X
E[X])2 ]
kovariancia
Cov[X, Y ] = E[(X
E[X])(Y
E[Y ])]
korreláció Cov[X, Y ] Corr[X, Y ] = V ar[X] V ar[Y ]
házi feladat Készíts generatív valószínűségi modellt, ami autógyártók éves bevételének jóslására használható •
válaszd ki a fontos változókat
•
a változók közötti függetlenségi viszonyok alapján rajzolj grafikus modellt
•
válassz diszkrét vagy folytonos eloszlásokat a szükséges marginálisok és kondicionálisok formájául (https:// en.wikipedia.org/wiki/List_of_probability_distributions)
•
gondolkodj el rajta, hogy mik azok a feltételezések, amiket beleépítettél a modellbe, de sejthetően nem egyeznek a valósággal