Hloubka dat. a její použití pro klasifikaci

Hloubka dat a její použití pro klasifikaci

Daniel Hlubinka, Lukáš Kotík, Ondˇrej Vencálek, Stanislav Nagy a Miroslav Šiman Univerzita Karlova v Praze Matematicko-fyzikální fakulta ˇ Katedra pravdepodobnosti a matematické statistiky

Novohradské statistické dny Nové Hrady, cˇ erven 2012

Úvod Co je vlastneˇ hloubka dat? • Zcela obecne: ˇ pˇriˇrazení poˇradí mnohorozmerné ˇ náhodné

ˇ Klidneˇ i nekoneˇcnerozm ˇ ˇ veliˇcine. erné (funkcionální ˇ promenné). • Bud’ X : (Ω, F, P) → (E, E, PX ) náhodná veliˇcina. Hloubka

ˇ ˇ je funkce rozdelení náhodné veliˇciny a bodu˚ ve výberovém prostoru: D : (E, PE ) → R+

(pˇríp. → [0, 1]).

• Mužeme ˇ ˚ používat ruzná ˚ znaˇcení. Nejˇcasteji

D(x, Q) = DQ (x), pˇrípadneˇ D(x) bude-li jasné o jaké ˇ rozdelení se jedná.

Jaké podmínky na hloubku klást?

• Hloubka by mela ˇ zohlednovat ˇ polohu bodu s ohledem na

ˇ rozdelení. • Typicky se jedná o cˇ ásteˇcné lineární uspoˇrádání. Hloubku

každých dvou bodu˚ lze porovnat, body se stejnou hloubkou tvoˇrí kontury hloubky. Tyto kontury lze chápat ˇ ˇ jako variantu kvantilu˚ rozdelení mnohorozmerných ˇ náhodných veliˇcin (které nelze pˇrirozene definovat kvuli ˚ absenci lineárního uspoˇrádání). • Jak název napovídá, body u „okraje“ nosiˇce rozdelení ˇ by

ˇ mít malou hloubku, naopak budy „uprostˇred“ mely ˇ ˇ mít hloubku velkou. rozdelení by mely

Intuitivní pojetí hloubky

• Ochrana krále: Duležitá ˚ osoba musí mít ze všech stran

ˇ v okruhu svých krytá záda. Musí být ukryta nejhloubeji strážcu. ˚ • Slavnostní veceˇ ˇ re: Význaˇcní hosté jsou „uprostˇred“ a s

ˇ klesajícím významem hostu˚ se zvetšuje vzdálenost jejich sezení od centra. • Uspoˇrádání zevnitˇr-ven: Data, která jsou „uvnitˇr“

ˇ ˇ pravdepodobnostního rozdelení dostanou velkou hloubku, data vneˇ dostanou malou hloubku. ˇ • Opak odlehlosti: Cím ˇ hloubka, tím méneˇ jsou data vetší „odlehlá“ a naopak.

Serflinguv ˚ pruvodce ˚ po hloubce

• Liu (1990) udává nekolik ˇ žádoucích vlastností hloubky.

H1 Hloubka má být afinneˇ invariantní funkcí. ˇ H2 Hloubka má být maximální v centru symetrie rozdelení. ˇ H3 Hloubka má klesat smerem od nejhlubšího bodu. H4 Hloubka má jít nule pro body jdoucí k nekoneˇcnu (od nejhlubšího bodu). • Serfling a Zuo (2000) pak zkoumají jednotlivé hloubky s

ohledem na H1–H4 a jako statistickou hloubku definují ˇ nezápornou omezenou funkci splnující H1–H4.

Serflinguv ˚ pruvodce ˚ po hloubce

• Serfling a Zuo (2000) dále delí ˇ hloubku na nekolik ˇ typu: ˚

A D(x, P) = EP h(x; X1 , . . . , Xr ), kde h je libovolná nezáporná ˇ ritelná funkce meˇ ˇ rící blízkost bodu x k bodum omezená meˇ ˚ x1 , . . . , xr . −1 B D(x, P) = 1 + EP h(x; X1 , . . . , Xr ) , kde h je libovolná ˇ ritelná funkce meˇ ˇ rící vzdálenost nezáporná neomezená meˇ bodu x od bodu˚ x1 , . . . , xr . −1 C D(x, P) = 1 + O(x, P) , kde O(x, P) je funkce udávající ˇ odlehlost bodu x vzhledem k rozdelení P. D D(x, P; H) = infH∈H P[x ∈ H], kde H je vhodná tˇrída ˇ ritelných množin. meˇ

Hloubka je globální funkcionál • Pˇrirozeneˇ se naskýtá otázka: je hustota hloubkou? • Mohla by být v širším smyslu; hloubka ale je zavedena jako

ˇ funkcionál zduraz ˚ nující globální nebo alesponˇ ne limitní ˇ charakter pravdepodobnostní míry. • V nekterých ˇ pˇrípadech ale hloubka a hustota úzce

souvisejí: z vlastností H1–H4 plyne, že pro unimodální ˇ elipticky symetrická absolutneˇ spojitá rozdelení musí existovat neklesající funkce φ : R+ → R+ propojující hloubku a hustotu, tj D(x, P) = φ fP (x) , ˇ kde fP je hustota rozdelení P vuˇ ˚ ci Lebesgueoveˇ míˇre.

• Hustotu tedy nebudeme považovat za hloubkový

funkcionál.

Hloubka a kvantil • Oznaˇcme úrovnové ˇ množiny a kontury hloubky

L(D, P, q)= {x : D(x, P) ≤ q}, C(D, P, q)= L(D, P, q) \ L◦ (D, P, q) kde L◦ je vnitˇrek množiny. • Kontura hloubky muže ˇ ˚ být použita jako mnohorozmerná

analogie kvantilu. • Je tedy žádoucí, aby definice hloubky použitá na

ˇ jednorozmerná data definovala kvantil (ve skuteˇcnosti dva symetrické kvantily). • Vnoˇrení jednotlivých úrovnových ˇ množin hloubky je

samozˇrejmostí.

Kvantil a hloubka

• Pokud máme vhodnou definici mnohorozmerného ˇ kvantilu

ve smyslu uzavˇrených (do sebe vnoˇrených) kontur Q(P, p), lze definovat hloubku pomocí jejích kontur množin ˇ C D, P, ψ(p) = Q(P, p) pro nejakou klesající ψ.

ˇ • Cím ˇ kvantil, tím má menší hloubku (je dál od stˇredu). vetší • Aby šlo o rozumnou hloubku, je nutné aby kvantil mel ˇ

rozumné vlastnosti. • Kvantil a hloubka se tedy dají v urˇcitém pˇrípadeˇ sjednotit

do jednoho pojmu.

Hloubka = kvantil

C1−2α • Mnohorozmerným ˇ ˇ hloubkou. mediánem je bod s nejvetší • Body se stejnou hloubkou tvoˇrí kvantilové kontury. • Hloubka zobecnuje ˇ ˇ u. kvantil do více rozmer ˚ Místo dvojice

kvantilu˚ qα a q1−α máme kvantilovou konturu C1−2α .

Neparametrické hloubky • Hloubkových funkcí je možná více, než matematiku˚

zabývajících se jimi. • Historicky první a nejznámejší ˇ je poloprostorová hloubka

definovaná poprvé v cˇ lánku (Tukey, 1975). • Poloprostorová hloubka je typický pˇredstavitel hloubky typu

D. • Velkou popularitu získala i simplexová hloubka definovaná

v (Liu, 1990). • Simplexová hloubka zastupuje hloubky typu A. • Hloubku typu C reprezentuje napˇríklad Mahalanobisova

−1 hloubka D(x, P) = 1 + MD(x, P) , hloubku typu B pak napˇríklad hloubka založená na objemu náhodného simplexu.

Semiparametrické kvantily

• Pro mnohorozmerné ˇ kvantily je možné použít definici

regresních kvantilu. ˚ • Místo regresní pˇrímky (kˇrivky), ale volíme vhodnou tˇrídu

ˇ uzavˇrených kˇrivek a místo uspoˇrádání vetší/menší volíme uspoˇrádání uvnitˇr/vneˇ (spolu se vzdáleností od kˇrivky). • Typicky volme parametrický tvar kˇrivky, proto jde o

semiparametrický pˇrístup. • Vhodné jsou napˇríklad elipsy. Pak jde o eliptické kvantily. • Vhodnout volbou ztrátové funkce snadno dostaneme

pˇrírozenou afinní ekvivarianci eliptických kvantilu˚ a tím pádem afinní invarianci pˇríslušné hloubky.

ˇ u, Mnoho rozmer ˚ problémy na obzoru

• Nekdy ˇ ˇ lze ˇríci, že nejaký bod není moc hluboko a jiný je. • Ale nekdy ˇ to tak jednoznaˇcné není.

Hloubka a klasifikace

• Chaudhuri a Ghosh (2005) zkoumali klasifikaci pomocí

maximální hloubky. • To se zdá být pˇrirozeným postupem a hloubkovou analogií

ˇ k verohodnostní klasifikaci. • Bohužel bayesovská optimalita muže ˚ být zaruˇcena pouze

ˇ pro unimodální elipticky symetrická rozdelení se stejnou varianˇcní maticí. • Na druhou stanu: to není pˇrekvapivé, protože v tom

ˇ hloubka odpovídá vyšší hustote. ˇ pˇrípadeˇ vetší

Nestejné rozptyly jsou problém

• Pˇredstavme si dveˇ rozdelení: ˇ N(0, 1) a N(0, 4). • Klasifikace pomocí hustot dává bayesovskou optimalitu:

klasifikujme do N(0, 1), pokud |x| <

8 log 2 3

1/2

.

• Proti tomu stojí fakt, že každý bod kromeˇ poˇcátku má

ˇ vuˇ hloubku vetší ˚ ci N(0, 1) než vuˇ ˚ ci N(0, 4). • Hlavní duvod ˚ je v invarianci hloubky (na rozdíl od hustoty,

která invariantní není).

ˇ D-D diagram pro dva výbery

• Vykreslíme dvojice D(x, P1 ), D(x, P2 ) , kde za bod x

dosazujeme pozorované body.

• Pamatujeme si, které pozorování patˇrí ke kterému výberu ˇ a

ˇ na této tréninkové skupineˇ zvolíme nejvhodnejší klasifikaˇcní kritérium. • Tento postup se poprvé objevuje v preprintu (Cuesta-Albertos a kol., 2009–10).

Jak obelstít invarianci?

• Místo maximální hloubky najdeme jiné pravidlo na

klasifikaci.

Jak obelstít invarianci?

• Napˇríkladu zmenou ˇ ˇ smernice obcházíme afinní invarianci

hloubky. Namísto klasifikace D(x, P1 ) >1⇒k =1 D(x, P2 ) ˇ použijeme pro nejakou vhodnou konstantu c pravidlo D(x, P1 ) > c ⇒ k = 1. D(x, P2 ) • To nápadneˇ pˇripomíná test pomerem ˇ ˇ verohodností. • Ale zárovenˇ se mužeme ˚ ptát, proˇc tak trváme na invarianci

hloubky, když ji potom obcházíme.

Invariance hloubky

• O užiteˇcnosti invariance pro statistické metody píše

Serfling (2010). • Jednorozmerné ˇ kvantily jsou ekvivariantní vuˇ ˚ ci libovolné

rostoucí transformaci. • Neco ˇ podobného ve více rozmerech ˇ je nedosažitelné. • Afinní invariance hloubky a z ní plynoucí afinní

ekvivariance kvantilu založeného na hloubce je asi ˇ rozumný požadavek na invarianci. nejsilnejší

Klasifikace pomocí hloubky

• Klasifikovat mnohorozmerná ˇ data pomocí bayesovského

ˇ ˇ je nároˇcné. kriteria (verohodnostn e) • Je složité a asymptoticky pomalé odhadnout hustoty. • Hloubka dat muže ˚ být vhodnou alternativou redukce

dimenze ke známé metodeˇ hlavních komponent. • Hloubka redukuje rozmer ˇ opravdu dukladn ˇ na ˚ e;

ˇ jednorozmernou hodnotu. • Jak jsme videli, ˇ je potˇreba ješteˇ druhý krok: vhodný

klasifikátor založený na hloubce. • Nabízí se, opet ˇ jakési bayesovské kritérium: odhadnout

ˇ u˚ v D-D diagramu. Poˇcet „hustotu“ jednotlivých výber ˇ u˚ je roven poˇctu tˇríd. rozmer

Na hloubce záleží

• Dvoustupnová ˇ klasifikace pomocí hloubky. • Spoˇcítejme hloubku každého bodu tréninkového výberu ˇ

ˇ vuˇ ˚ ci všem rozdelením. • Krok 1: místo puvodního ˚ pozorování použijme vektor

y = D(x, P1 ), . . . , D(x, Pk ) —redukce dimenze.

• Krok 2: na pozorováních Y odlad’me nejaké ˇ vhodné

klasifikaˇcní pravidlo. Toto pravidlo použijme na nová ˚ ci všem pozorování, respektive na jejich vektor hloubek vuˇ ˇ rozdelením. • V obou krocích je možné hledat optimální volbu.

Globální a pˇreci lokální

• Pokud má hloubka být co nejvhodnejší ˇ pro klasifikaci z

ˇ hlediska bayesovského pravidla, musí nejakým zpusobem ˚ ˇ ˇ zohlednovat lokální vlastnosti rozdelení, nebo • klasifikaˇcní pravidlo založené na hloubce musí být v

ˇ nejakém smyslu lokální. • Nabízejí se tedy dveˇ možnosti. • Použijeme lokální variantu hloubky. • Klasifikaˇcní pravidlo nebude založené jen na hodnoteˇ

hloubky.

Lokální hloubka

• K definici hloubky pˇriˇradíme váhovou funkci. • Napˇríklad vážená poloprostorová hloubka: každý bod v

daném poloprostoru dostane váhu odpovídající jeho ˇ ˇ vzdálenosti od smerového vektoru a od delící nadroviny. • Typicky ztratíme afinní invarianci hloubky, nekdy ˇ i

jednoznaˇcnost nejhlubšího bodu. • Získáme hloubkové kontury, které jsou ponekud ˇ bližší

konturám hustoty. • Výsledky klasifikace pomocí D-D diagramu se zlepší • Symetrickou variantu dostaneme vydelením ˇ vážených

ˇ pravdepodobností protilehlých poloprostoru. ˚

Nejblíže hlubocí sousedé

• Pozorování je zaˇrazeno do skupiny, kde Lebesgueova míra

množiny nejblíže hlubokých sousedu˚ je nejmenší • Jde o obdobu metody k nejbližších sousedu; ˚ blízkost není

dána geometrickou vzdáleností, ale hloubkou. • Tato metoda je podstatneˇ lepší než metoda nejvetší ˇ

hloubky. • Asymptotická optimalita se dá dokázat pro i pro nestejná

ˇ elipticky symetrická rozdelení.

ˇ erozm ˇ ˇ ˇ Hloubka a nekonecn erné veliciny

• Hloubka nepotˇrebuje k definici hustotu ani distribuˇcní

funkci. • Je vhodná i pro funkcionální data (není tˇreba se zabývat

ˇ rozdelením na funkˇcních prostorech). • Vetšina ˇ souˇcasných definic jsou hloubky typu A. • Kromeˇ funkˇcních hodnot lze do výpoˇctu zapojit i další

charakteristiky funkcí. Napˇríklad derivace.

8 6 4 2 0 −2

−2

0

2

4

6

8

Klasifikace funkcionálních dat

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

• Tato data sestávají z funkcí s mírneˇ odlišnou stˇrední

hodnotou a velmi rozdílnou kovarianˇcní strukturou. • Ukážeme si, jak moc závisí na volbeˇ hloubkového

funkcionálu.

0.0

−2

0

0.1

2

0.2

GLP

4

0.3

6

0.4

8

Hloubka Lopez-Pintado (2009)

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.1

0.2

0.3 GLP

0.4

−2

0.15 0.00

0

0.05

0.10

2

4

AKLP

0.20

6

0.25

8

0.30

ˇ hodnoty i derivace Hloubka zahrnující funkcní

0.0

0.2

0.4

0.6

0.8

1.0

0.00

0.05

0.10

0.15 AKLP

0.20

0.25

0.30

0.35

−2

0.10 0.00

0

0.05

2

4

RKLP

6

8

0.15

Hloubka zahrnující hlavneˇ derivaci

0.0

0.2

0.4

0.6

0.8

1.0

0.00

0.05

0.10 RKLP

0.15

0.20

GLP

0.0

0

0.1

2

0.2

4

0.3

6

0.4

8

Ješteˇ více názorný pˇríklad

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.1

0.2

0.3

0.4

0.15 0.00

0

0.05

2

0.10

AKLP

4

0.20

6

0.25

8

0.30

GLP

0.0

0.2

0.4

0.6

0.8

1.0

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.00

0

0.05

2

RKLP

4

0.10

6

0.15

8

AKLP

0.0

0.2

0.4

0.6

0.8

1.0

0.00

0.05

0.10 RKLP

0.15

0.20

Hloubka dat. a její použití pro klasifikaci

Recommend Documents