Strukturált Generátorrendszerek Online Tanulása és Alkalmazásai Szabó Zoltán
Problémamegoldó Szeminárium
2010. nov. 5
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Tartalomjegyzék
Motiváció, példák Regressziós feladatok (generátorrendszer fix) Legkisebb négyzetes becslés Lasso feladat (ritkaság) Group lasso feladat (csoportok) Általános csoportok és nem-konvex regularizáció
Generátorrendszerek tanulása: ˝ Fokomponens analízis (PCA) Nem-negatív mátrix faktorizáció (NMF) Batch vs online tanulás Hiányos megfigyeltség
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
˝ Példák: fényképezogép ˝ tevodik ˝ Látható színek: RGB értékekbol össze, de
szenzor minden pontban csak az R/G/B értékek egyikét méri
Kérdések: ∀ képpontban a hiányos mérések kitöltése. ˝ mik a kitöltéshez ’jó’ képi jellemzok? ezek kialakíthatók (tanítóhalmaz)? Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Példák: dokumentumok
Adottak: szövegek (pl egy adott konferencián megjelent cikkek / Wiki dokumentumok)
Kérdések: Mennyire jól tömörítheto˝ ez az adatbázis? Mik a dokumentumhalmaz tömörítéséhez ’jó’ témák? Meg tudjuk ezeket a teljes Wiki memóriába való betöltése nélkül becsülni? Ha hiányoznak szavak, ki tudnánk tölteni a dokumentumokat?
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Regressziós feladatok: legkisebb négyzetes becslés
Adott: x ∈ Rdx , D ∈ Rdx ×dα . Feladat: f (α) = kx − Dαk22 → min . α∈Rdα
(1)
˝ Megoldás (Moore-Penroose inverzbol): α ˆ = D+ x.
(2)
Ez optimális, abban az értelemben, hogy a kx − Dαk22 -t minimalizálók közül minimális 2-es normájú. ’Gond’: túl sok/akár ∀ D oszlopot használhat. Pl: x dokumentum, D(ictionary) oszlopai témák. ⇒ ritkaság.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Regressziós feladatok: ritkaság – Lasso és csoportok A ritkasági kényszer megragadható regularizációval: Lasso feladat [k·k1 –ritkaság indukáló norma]: f (α) = kx − Dαk22 + λ kαk1 → min . α∈Rdα
(3)
Group-lasso: csoportok–dokumentumokra gondolva a témák közt lehet összefüggés. f (α) = kx −
Dαk22
+
K X i=1
λi αGi 2 → min , α∈Rdα
(4)
ahol {Gi }Ki=1 a {1, . . . , dα } halmaz egy partíciója.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Regressziós feladatok: átfedo˝ csoportok, nem-konvex regularizáció Group lasso kiterjesztések, átfedo˝ csoportok: f (α) = kx − Dαk22 +
K X i=1
λi αGi 2 → min , avagy α∈Rdα
f (α) = kx − Dαk22 + Ω(α) → min , α∈Rdα
ahol G = {Gi }Ki=1 nem feltétlenül partíció és
K
(0 < η < 1). Ω(α) = λi αGi 2 i=1
(5) (6)
(7)
η
Sikeres egyéb alkalmazás példák: génmintázatok elemzése, arckifejezés felismerés, képekhez kulcsszavak rendelése ˝ (annotálása; keresomotorok) Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Generátorrendszerek tanulása–PCA
Adott: xt ∈ Rdx , t = 1, . . . , T mintapontok. ˝ Feladat (fokomponens analízis): keressük azt a dα -dimenziós alteret (D ∈ Rdx ×dα ), i h f (D) = E kx − projD (x)k2
(8)
minimális. Megoldás: cov(x) dα db domináns sajátvektora =: D.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
˝ Fokomponens analízis: példa
(A)
(B)
(D)
(E)
(C)
(F)
(A): eredeti kép, (B)-(F):1, 2, 5, 10, 20%-ra tömörítés. Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Generátorrendszerek tanulása–NMF (nem-negativitási kényszer)
Adott: xt ≥ 0 ∈ Rdx , t = 1, . . . , T mintapontok (X). Feladat (nem-negatív mátrix faktorizáció): keressük azt a D ∈ Rd+x ×dα mátrixot és hozzá tartozó A = [α1 , . . . , αT ] ≥ 0 reprezentációt, amire f (D, A) = kX − DAk2F
(9)
minimális.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
NMF-demo Adatbázis: arcképek (19 × 19; xt ) – Generátorrendszer (D):
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Generátorrendszerek tanulása–NMF++ Mixture-of-topic modell (xt szógyakoriságok): D-re (=témákra)Pkényszer: di ≥ 0 oszlopok és l1 -gömbbeliek ( j dij ≤ 1), α-ra megkötés: α ≥ 0,
G: hierarchikus felépítés, Gi az i-edik nódus a gyerekeivel.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Generátorrendszerek tanulása–batch vs online, hiányos megfigyelések
Batch vs online D becslés: Batch: Becslés módja: X = {x1 , . . . , xT } → D. Hátrány: xt nagydimenziós lehet (pl Wiki-nél) ⇒ nem fér be a memóriába.
Online: t = 0: D0 . t = 1: D0 ,x1 → D1 . t = 2: D1 ,x2 → D2 . ...
˝ csak Hiányos megfigyelések: minden egyes xt -bol ˝ bizonyos koordináták mérhetok.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Generátorrendszerek tanulása: általános feladat
Felmerült természetes kényszerek: csoport ritkaság és nem-konvex regularizáció ({Gi }Ki=1 , Ω), ˝ D és α-ra: kényszerek lehetosége (pl korlátosság, nem-negativitás) online tanítás, hiányos megfigyelések.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Példa Szereposztás: xt mintapontok: természetes képek képrészletei
α tóruszon realizálva: a {Gi }Ki=1 szomszédságok környezetek, η = 0.5 (Ω)
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Példa–folyt.
Kialakuló generátorrendszer (D): ritka reprezentáció (Gi = {i}) vs másodszomszédokkal
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Igény
˝ akik megfelelo˝ Olyan emberek jelentkezését várom (≤ 2 fo), harci kedvet éreznek a témában a legfrissebb irodalmi eredmények elsajátításához és Matlab-os numerikus kísérletekhez a megközelítés 1-1 alkalmazásban való kipróbálására.
Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Köszönöm a figyelmet!
Kontakt: E-mail:
[email protected] URL: http://nipg.inf.elte.hu/szzoli Szabó Zoltán
Strukturált Generátorrendszerek Online Tanulása és Alk-ai