Pannon Egyetem Műszaki Informatika Kar Villamosmérnöki és Információs Rendszerek Tanszék
Számítógépes döntéstámogatás Előadási vázlatok
Dr. Kozmann György
Veszprém, 2012/2013
Számítógépes döntéstámogatás tematika, 2012
Tematika 1. Leíró és kísérletes biostatisztikai/epidemiológiai vizsgálatok fő típusai, paraméterek, a paraméterek maximum-likelihood becslései. Mintavételi módszerek (SK:3-53 alapján) 2. Következtetések adatokból, hipotézisvizsgálati módszerek a következtetéseknél, teszt statisztika és standard error fogalom az átlagszámításnál (FLH: 213-248) 3. Egymintás t-teszt, kétmintás t-teszt, párokra vonatkozó t-teszt, ANOVA, három, vagy több eloszlás átlagának összehasonlítása, Bonferroni-féle korrekció (FLH: 213-248, R: 314317) 4. Arányok becslésének és összehasonlításának módszerei, z-approximáció, khi-négyzet teszt. Standardizált mortalitási statisztika. (FLH: 213-248) 5. Korrelációs együtthatók becslése és összehasonlítása, Fisher-transzformált, konfidencia intervallumok, determinációs együttható számítása (FLH: 60-64, R: 509-514)) 6. Lineáris regresszió, logisztikus regresszió és alkalmazása rizikóbecsléseknél (FLH: 403415, R: 443-465) 7. Túlélési statisztikák számítása, Kaplan-Meier módszer (FLH: 306-317, R: 609-615) 8. Osztályozás: Bayes-típusú osztályozás két osztályra, a módszer kiterjesztése K-osztályra (YC: 12-18, 22-24). Az a priori valószínűség (prevalencia) meghatározása, a feltételes valószínűség sűrűségfüggvények becslése. Legközelebbi szomszédok elve (NN) alapján történő osztályozás (YC: 90-99) 9. Lineáris diszkriminancia analízis, lineáris szeparálhatóság, páronkénti szeparálhatóság (YC: 109-118), a Perceptron tanítása „végtelenített” validált adatokkal, a tanítás kiterjesztése K-osztályra. Lineáris diszkriminancia analízis módszerei nem-szeparálható osztályokra, Fischer-féle lineáris diszkrimináns (YC:138-140) 10. Lényegkiemelés: a Karhunen-Loève transzformáció lényege, a transzformáció bázisvektorainak meghatározási módja, a kovariancia mátrix fogalma (YC: 224-233)
Irodalom: Sahai, Kurshid: Statistics in epidemiology, CRC, Boca Raton, 1996. Forthofer RN, Lee ES, Hernandez M: Biostatistics, Academic Press, Amsterdam, 2007. Rosner B: Biostatistics, Duxbury, Belmont, 1995. Young TY, Calvert TW: Classification, estimation and pattern recognition. Elsevier, New York, 1974 Kozmann Gy. Számitógépes döntéstámogatás, Veszprém
I. rész: Epidemiológiai és klinikai döntések statisztikai módszerei
Bevezetés
A statisztika szerepe a tudományos tevékenységben
A kutatás alapvető feladata új ismeretek szerzése, a tudomány különböző területein a megfelelően igazolt tudásmennyiség növelése. A tudásmennyiség három fő csoportba osztható: 1. Jelenségek leírása a megfigyelhető karakterisztikumok alapján 2. Jelenségek közötti kapcsolatok leírása 3. A jelenségek között fennálló ok-okozati kapcsolatok leírása Az egyes tudományterületeken a fenti három terület részesedése az össz-tudásmennyiségből más és más lehet. Az egzakt természettudományokon belül (fizika, kémia) a harmadik elem dominál, más tudományokon belül (társadalom- és élőtudományok) az első kettő részesedése a magasabb. Minden tudományterületen belül igaz azonban, hogy a megállapítások tartalmaznak egy bizonytalanságot is, amit a kutatók minimalizálni akarnak, ill. jellemezni kívánják a bizonytalanság mértékét. Ezen a ponton lép be a kutatás eszköztárába a statisztika. A „Számítógépes döntéstámogatás” c. tárgy – elsősorban az orvosi, egészségügyi, népegészségügyi tudományok igényei szempontjából – a tudás megszerzésével kapcsolatos döntések kérdéseivel foglalkozik. Az előtanulmányok szempontjából a valószínűségszámításra és a statisztikára támaszkodik. Az előadások a felmerülő döntési feladatok elvi kérdéseit érintik, a kapcsolódó gyakorlatok során a feladatok megválaszolásának számítógépes megoldásait mutatjuk be.
1. Biostatisztikai vizsgálatok típusai, statisztikai vizsgálatok mintavételi módszerei Statisztikai típusú orvosi vizsgálatok A vizsgálatok két fő típusa: Leíró (observational) vizsgálat: valamilyen szempont szerint kiválasztott egy vagy több csoport tagjainak jellemzőit rögzíti, anélkül, hogy a spontán folyamatokba művi beavatkozás történne. Kísérletes (expermiental, klinikai: ha betegeken végzik) vizsgálat: a fentiekhez hasonlóan választott csoportok jellemzőit rögzíti, miközben az élettani folyamatokba jól definiált beavatkozás történik (gyógyszer adagolás, kezelés). A fő típusok finomabb osztályozása: Leíró (epidemiológiai) vizsgálatok: - case-control (eset-kontroll) vizsgálat (retrospektív) - keresztmetszeti (cross-sectional) vizsgálat (prevalencia vizsgálat) - követéses típusú (cohort) vizsgálat (prospektív, longitudinális) Kísérletes vizsgálatok: (Kívánatos formája a kontrollált kísérlet, ahol két csoport összehasonlítását (referencia ill. beavatkozások) végzik. Ennél gyengébb, amikor a kontrollcsoport nélkül számolnak be eredményekről. - Párhuzamos (parallel v. concurrent) vizsgálatok - randomizált - nem-randomizált - Szekvenciális vizsgálat - önkontrollos - cserélős (crossover) Epidemiológiai vizsgálatok célja a betegségek oki tényezőinek, kockázati tényezőinek felderítése. Arra keresi a választ, hogy a kóroki tényező megléte mennyivel növeli az új megbetegedések (évenkénti) gyakoriságát, incidenciáját. Fogalmak: Incidencia: adott időszak (pl. 1 év) alatt megjelenő új megbetegedések száma Pravalencia: Egy adott pillanatban valamely betegség gyakorisága a populációban.
Leíró típusú vizsgálatok logikai felépítése Az epidemiológiai vizsgálatok kontingencia táblája
beteg
kockázati tényezővel A
egészséges
kockázati tényező nélkül B
Összesen A+B
C
D
C+D
A+C
B+D
A+B+C+D
↑
↑
Összesen ↑
Prospektív vizsgálatok mintavételezett csoportjai
Keresztmetszeti (prevalencia) vizsgálatok mintavételezett csoportja
Eset-kontroll típus: kockázati tényezőnek kitett csoport: A
kockázati tényező mentes csoport: B
esetek : A+B (beteg)
kockázati tényezőnek kitett csoport: C
egészségesek: C+D kockázati tényező mentes csoport: D t: idő vizsg. kezdete
követés iránya (retrospective stody)
← Mintavételezett csoport a ← retrospektív vizsgálatoknál
Epidemiológiai vizsgálatoknál használt valószínűségek (alapparaméterek) p1: annak a valószínűsége, hogy kockázati tényezővel rendelkező megbetegszik p2: annak a valószínűsége, hogy kockázati tényezővel nem rendelkező megbetegszik. Az alapparaméterek becslése: p1 =
A C ; p2 = A+ B C+D
az alapparaméterek binomiális eloszlást követnek, azaz n P( x = k ) = p k q n− k k E ( x ) = np Var ( x ) = npq Származtatott paraméterek: Rizikó különbség:
p1 − p 2
Relatív rizikó: Odds (esély):
p1 / p 2
p1 1 − p1 Odds (esély) hányados:
ill.
p2 1 − p2
p1 / (1 − p1 ) p 2 /(1 − p 2 )
Megjegyzés: Véges mintából történő becslés jelentősen eltérhet az elméleti értékektől. A későbbi fezetekben több módszert tárgyalunk a becslések ill. az ebből levont következtetések helyességének garantálása érdekében.
Keresztmetszeti típus: Az epidemiológiai vizsgálatok kontingencia táblája kockázati tényezővel A
beteg egészséges
kockázati tényező nélkül B
Összesen A+B
C
D
C+D
A+C
B+D
A+B+C+D
↑
↑
← Mintavételezett csoport a ← retrospektív vizsgálatoknál
Összesen ↑
Prospektív vizsgálatok mintavételezett csoportjai
Keresztmetszeti (prevalencia) vizsgálatok mintavételezett csoportja
Általános esetben a prevalencia vizsgálatoknál vizsgált populáció az alábbi ábrának megfelelően alakul: beteg csoport: A+B vizsgált populáció: A+B+C+D
egészséges csoport: C+D
a vizsgálat „egy pillanatra” vonatkozik A prevalencia fogalom alkalmazható (pl. munkaegészségügyi vizsgálatoknál) valamilyen veszélyeztető körülménynek kitett ill. attól mentes csoportokra is. Ilyenkor a betegség prevalenciáját számíthatjuk az ennek megfelelően szűkített csoportokra, az alábbi módon: Alap paraméterek:
p1 =
A A+C
p2 =
B B+D
Származtatott paraméterek: prevalencia differencia: prevalencia hányados: prevalencia esély (odds) arány:
p1 − p 2 p1 / p 2 p1 /(1 − p1 ) p 2 /(1 − p 2 )
Amennyiben valamely betegség prevalenciája: p, akkor ha az adott betegség incidencia értéke (I) állandó az idő függvényében, akkor p = Id , 1− p ahol: d: a betegség átlagos hossza. Követéses típus (cohort): Az epidemiológiai vizsgálatok kontingencia táblája
beteg
kockázati tényezővel A
egészséges
kockázati tényező nélkül B
Összesen A+B
C
D
C+D
A+C
B+D
A+B+C+D
↑
↑
← Mintavételezett csoport a ← retrospektív vizsgálatoknál
Összesen Prospektív vizsgálatok mintavételezett csoportjai
↑ Keresztmetszeti (prevalencia) vizsgálatok mintavételezett csoportja
„vmilyen hatásnak kitett” alcsoport „betegség bekövetkezett”: A populáció
„betegség nem következett be”:C betegség bekövetkezett: B „ a hatásnak nem kitett csoport”
a vizsgálat kezdete nyomkövetés iránya
betegség nem következett be:D
t idő
Alap paraméterek: p1 =
A A+C
p2 =
B B+D
Származtatott paraméterek: Relatív rizikó:
p1 p2
Odds (esély) hányados:
p1 /(1 − p1 ) p 2 /(1 − p 2 )
Rizikó különbség:
p1 − p 2
Tipikus példák: - Framingham study: kardiovaszkuláris rizikó becslése (ld. 1. táblázat) - terápiák összehasonlítása 1. táblázat. A Framingham rizikóbecslések változói változó P (CVD/8 year) P (CHD/10 year)
P (stroke/10 year)
Kor Nem BMI (body mass index)
X X
X X X
X X
dohányzás
X(I/N)
X (db/nap)
X(I/N)
SBP
X
X
X
LVH (EKG alapján)
X(I/N)
X(I/N)
X(I/N)
Diabetes
X(I/N)
X(I/N)
X(I/N)
Pitvar fibrillació
X
CVD
X(I/N)
Összkoleszterin
X
Jelölések: CVD: cardiovascular disease CHD: coronary heart disease SBP: systolic blood pressure
X
Kísérletes vizsgálatok Párhuzamos típus:
kísérleti anyagok
vizsgált populáció
„hatás nem következett be” „hatás bekövetkezett” kontroll csoport
vizsgálat kezdete -
„hatás bekövetkezett”
beavatkozások
„hatás nem következett be”
t idő
A két alcsoport kezelése azonos, kivéve, hogy a kísérleti alanyok hatóanyagot, a kontroll csoport placebót kap. Kísérleti technikák -
randomizált: egy kísérlet, ha a csoportra bontás véletlen, mindenki ugyanolyan eséllyel kerülhet az egyik vagy a másik csoportba.
-
nem randomizált: a fenti kísérlet, ha a csoportba osztás nem véletlen jellegű. A fő érv ez ellen, hogy a kapott eredmény torzított lehet!
-
Blind: amikor a beteg nem tudja, hogy ő a kísérletben melyik csoportban van (terápiás kísérleti v. kontroll csoport)
-
double blind: amikor sem a beteg, sem az „orvos” nem tudja, hogy az adott alany melyik csoportban van,
Szekvenciális vizsgálatok
„van hatás”
„ van hatás” kísérleti cs.
kísérleti cs.
populáció „nincs hatás”
„nincs hatás”
„hatás”
„van hatás”
„nincs hatás” kontroll cs.
vizsgálat kezdete
beavatkozás
„nincs hatás” kontroll cs.
kimosási periódus
beavatkozás
Mintavételi módszerek Random: a vizsgált populáció minden tagja azonos valószínűséggel kerülhet be a ,,mintába" Szokásos technika: véletlen szám generátor használat Systematic sampling: Ha K mintát akarunk, a populációt K csoportra osztva, mindegyikből az azonos sorszamút vesszük. A csoporton belüli sorszám: random Stratified sampling: A populációt alcsoportokra (pl. nem, életkor szerint) bontják, majd minden alcsoporton belül random sampling történik. Cluster sampling: Ugyancsak alcsoportokat képez, de geografiai alapon, majd random módon mintavételez.
A mintákból levont következtetések általánosítása:
cél populáció A teljes populacióra való következtetés akkor lehet, ha a mintavételezett populáció reprezentálja a célpopulációt.
mintavételezett populáció
random minta esetén a mintából következtetni lehet a mintavételezett populációra
minta
Az orvosi gyakorlatban előforduló adatok típusai
Nominal scales = cathegorical observations = qualitative observations = kategorizált adatok Lényeg: az adatok kategorizált, osztályba, típusba sorolt formában állnak rendelkezésre, sokszor csak kétféle kimenet lehet (valamilyen jelenség van vagy hiányzik), azaz bináris adatokról van szó (pl. ffi-nő, fekete-fehér). Ordinal scales (fontossági sorrend szerint rendezett skála): Olyan esetekben, amikor kategóriákba sorolt megfigyelések vannak. A kategóriák orvosi értelemben pl. egyre súlyosabb eseteket foglalnak magukba. • Agyérbetegségek vizsgálatánál használt Rankin-skála: Tünetmentes
0
Enyhe tünetek: nem befolyásolják az életvezetést
1
Enyhe fogyatékosság: korábbi tevékenységet nem tudja ellátni, de önellátó
2
Közepes fogyatékosság: a házi beteggondozást igénybe veszi, de segítség nélkül képes járni
3
Közepesen súlyos fogyatékosság: a házi beteggondozást gyakran igénybe veszi, nem tud segítség nélkül járni
4
Súlyos fogyatékosság: éjjel-nappal felügyeletre szorul, ágyhoz kötött
•
•
5
Pl.: méhnyak rák minősítésére szolgáló O, .., IV skála esetén O: csak a méhnyakra kiterjedő rák, IV: a medencére, vagy a hólyag nyálkahártyára és a végbélre is kiterjedő daganat Más példa a rheumatoid arthritis (reumaszerü izületigyulladás): 1: normál aktivitás 4: tolószékhez kötött
• • •
Tuberculosis bőrreakció minősítése a bőrreakció nagyságától függően, Apgar score: újszülöttek érettségének jellemzése a 0-10 skálán, stb. Sokszor valamilyen algoritmussal végül egy számot rendelnek egy több faktor által meghatározott szituációhoz, pl. Goldman index a szívbetegek sebészeti rizikójának becsléséhez: 0-53 skálán. Rank-order scale: olyan skála, amely pl. a kis súllyal születés leggyakoribb okaitól a különlegesig haladva a gyakoriságot jellemző skálát rendeli. Numerical scales (numerikus skála) Kvantitativ megfigyelések, folytonos vagy diszkrét skálán • • •
Vérnyomás (Hgmm) Elszívott cigaretták száma Percenkénti extra ütések száma
2. Következtetések adatokból, konfidencia intervallumok és hipotézisvizsgálatok
Paraméter becslések Cél: egy minta alapján következtetni valamely keresett paraméter lehetséges értékéről A paraméterbecslő eljárás statisztikai tulajdonságait definiáló tényezők: - a tekintett paramétert meghatározó statisztika (átlag, szórás, arány, stb.) Megjegyzés: Statisztikának a mintabeli változók egy tetszőleges függvényét nevezzük. A statisztika konkrét formája függ attól, hogy milyen paraméter közelítésére szánjuk. - véletlenszerűen választott minta - a választott minta nagysága - annak a populációnak a definiálása, amelyet a minta reprezentál A várhatóértéket meghatározó statisztika eloszlása (sampling distribution of the mean) A populáció eloszlása és a várhatóérték meghatározására szolgáló statisztika eloszlása: - A populáció eloszlása gyakorlatilag akármilyen lehet (független, véges szórású valószínűségi változók) - Az átlagot meghatározó statisztika (amely a mintaelemek számtani közepe) eloszlása, (minél több elemet tartalmaz a minta) a „központi határeloszlás tétel” értelmében közelít a normális eloszláshoz. A központi határeloszlás tétel értelmében: - a „sampling distribution”, a várhatóérték meghatározására szolgáló statisztika, átlaga megegyezik a megfigyelések átlagával - a „sampling distribution” szórása: σ/n1/2, ahol n a minta elemeinek száma, σ a populáció eloszlásának szórása. Angol neve: standard error of the mean Megjegyzések: - n ≥ 30 esetén a központi határeloszlás általában jó közelítésnek tekinthető - amennyiben a populáció szórása nem ismert, a becslésben σ helyett az empirikus szórás értéke használható (amit ugyanabból a mintából számolhatunk), ilyenkor azonban az átlag meghatározására szolgáló statisztika eloszlása már nem normális eloszlású (lsd. később) A fentiek értelmében annak vizsgálatára, hogy egy adott minta mennyire közelíti az elméleti értéket nem szükséges ismételt mintavétellel kísérleteket végezni, egy mintából becsülhető a kapott közelítés pontossága. A konkrét számításoknál gyakran használt transzformált változó definíciója: z= (x - µ) /σ a z változó tulajdonságai: - átlagértéke = 0, szórásra normalizált.
Normál (Gauss) eloszlás sűrűségfüggvénye: f ( x) =
1 2πσ
e
1 x−µ − 2 σ
2
Normalizált Gauss eloszlás eloszlásfüggvénye Φ=
1 2π
α
∫e
−α
−
v2 2
Következtetések az adatokból Hipotézis vizsgálatok: Célja: a vett minta alapján nyert eredményt általánosítani arra a populációra, amelyből származott. Feltételezzük, hogy a mintavétel véletlenszerű volt és szakmailag is helyesen történt. A statisztikai hipotézis tehát végsősoron egy állítás a populáció bizonyos paramétereiről. A hipotézis vizsgálat hibái és ereje I. hiba: II. hiba: power:
elsőfajú hiba: α. A null-hipotézis elvetése, holott igaz másodfajú hiba: β. Nem veti el a null-hipotézist, pedig az alternatív hipotézis igaz. a teszt ereje, képessége, hogy egy adott nagyságú különbséget észleljen, amennyiben az (a különbség) valóban létezik. Számítása: 1-β.
Táblázatos összefoglalás: Valóságos helyzet Van különbség: H1 Van különbség (Ho elutasítása)
* power: 1-β
nincs különbség (Ho igaz)
II. hiba
Nincs különbség: Ho I. hiba
Teszt eredmény *
Gyakran végeznek power (a vizsgálat erejére vonatkozó) analízist egy vizsgálat előtt. Ennek az a célja, hogy kiderítse, hogy egy adott különbség felderítéséhez, legalább mekkora mintát kell választani. Ugyancsak szükséges a power analízis akkor, ha meggyőzően akarják bizonyítani, hogy pl. két gyógyszer között nincs szignifikáns különbség.
A hipotézisvizsgálat lépései: 1. Kérdés megfogalmazás a hipotézisvizsgálat nyelvén: - Ho: azt állítja, hogy nincs különbség a minta alapján meghatározott és a populációra feltételezett érték között (null-hipotézis: nulla tehát nincs különbség) - H1: azt állítja, hogy az előző ellenkezője igaz (alternatív hipotézis az igaz) Megkülönböztetünk: - one-tailed (egy irányú, amikor a hipotézis egy adott irányú bizonyíthatóságára kérdez rá) - two-tailed (két irányú, amikor az eltérés két irányú lehet) vizsgálatokat.
eltérés
Helyesebb arról beszélni, hogy egy null-hipotézis a minta adatok alapján „nem vethető el” ahelyett, hogy „elfogadjuk”
2. „Test statistics” és a hozzátartozó valószínűségeloszlás meghatározása (kiválasztása) Pl. az átlag számítás esetén az un. kritikus arányt használjuk (más esetben pl. a teloszlást): z=
X −µ σ n
A fenti képlet nevezőjében szereplő kifejezést ”standard error”-nak (SE) nevezzük. Az SE tartalmilag azt mutatja, hogy a σ szórású sokaságból vett n elemű minták alapján meghatározott átlagérték milyen módon szóródik a µ elméleti érték körül. Tehát a nevezőben lévő kifejezés az n minta alapján történő átlag becslés szóródását jellemzi, olyan esetben, amikor a mintáinkat egy σ szórású sokaságból vettük. (Fontos azonban megjegyezni, hogy σ általában nem ismert, értékét szintén becsléssel határozzuk meg ugyanabból az n mintából, mint magát az átlagot.) 3. A vizsgálat szignifikancia szintjének meghatározása α elsőfajú hiba fixálása (annak a valószínűsége, hogy elvetjük a null-hipotézist, holott az igaz). Szokásos értékei: 0.05, 0.01, 0.001. P érték megadása. Azt a valószínűséget jelöli, hogy a null-hipotézis igazsága esetén az esetek milyen hányadában fordul elő annyira extrém eredmény, mint amilyet éppen tapasztaltunk (pusztán a véletlen játéka következtében). 4. Annak a kritikus értéknek a meghatározása, aminél ha nagyobb értéket ad a test statistic, akkor azt a szignifikánsnak tekintjük. Egyirányú (one-tailed) vizsgálatnál ez egy szám, két irányúnál (two-tailed) kettő. 5. A tényleges számítások elvégzése 6. Következtetés levonása. Lényeges a következtetés szóbeli megfogalmazása is, valamint a P érték pontos megadása. Újabban nem tekintik elegendőnek a korábban szokásos: <.05 jelölést.
2.1 Számtani középpel kapcsolatos kérdések 1. Egyetlen számtani középpel kapcsolatos döntés: egyenlő vagy nem egy ismert értékkel? - egymintás t-teszt - előjel teszt (nem-paraméteres) 2. A beavatkozás hatására változott-e az átlag? - paired t-test - Wilcoxon teszt (nem-paraméteres) 3. Két különböző csoport átlaga azonos? - kétmintás t-teszt - Wilcoxon rang-összeg teszt (nem-paraméteres) t-eloszlás
Várható érték becsléskor amennyiben a minták egy σ szórású normális eloszlásból származnak, akkor a x empirikus várható érték a µ elméleti érték körül a
(
)
z = x − µ / σ n normális eloszlásnak megfelelően tér el. A gyakorlatban a σ szórás általában nem ismert, ennek becslését ugyancsak a mért n független minta alapján kell elvégezni. Ezt követően azonban az elméleti értéktől való eltérés már nem a normális eloszlást, hanem a „t-eloszlást” követi. Ennek összefüggése
(
)
t = x−µ /s n ahol s: az n mintából számolt empirikus szórás. A t-eloszlás n értékétől függően más és más. Az (n-1) értéket szabadsági foknak nevezik. Ha n≥30, a t-eloszlás jól közelíthető normális eloszlással. Összefoglalva: -
Alkalmazása: átlag becsléskor, ha a mintavételezett sokaság szórása nem ismert Alkalmazhatóság: normális eloszlású minták esetén n>30 esetén sűrűségfüggvénye gyakorlatilag azonos a normális eloszláséval
Egyetlen számtani középpel kapcsolatos vizsgálatok, egymintás t-teszt: -
-
A null és az alternatív hipotézis definiálása A megfelelő teszt-statisztika kiválasztása Az α elsőfajú hiba definiálása A kritikus érték/értékek definiálása (az α-hoz tartozó kritikus értékek (konfidencia határok) által határolt „konfidencia intervallumon” belülre esik a becsült paraméter elméleti értéke a kísérletek 1-α hányadában) Számítások elvégzése, következtetések
Példa: Hipotézis: H o : µ = µ o , H 1 : µ ≠ µ o
teszt statisztika: t =
α → t n −1,α / 2
x − µo s/ n
ill. t n −1,1−α / 2
Értékelés: H o hipotézist megtartjuk, ha t n −1,α / 2 ≤ t ≤ t n −1,1−α / 2 H o hipotézist elvetjük, ha
t < t n −1,α / 2
ill. t > t n −1,1−α / 2
Alkalmazhatósági vizsgálatok és intézkedések -
-
Normalitás vizsgálat Lilliefors grafikonnal Ha nem tekinthető normálisnak az „alapeloszlás”, a minta elemszámát célszerű 30-nál nagyobbra növelni (központi határeloszlás miatt ilyenkor a statisztika a normális eloszlást közelíti) Ha a minta nem növelhető, a P érték vsz. kisebbnek tűnik, mint a valóságban, a konfidencia intervallum is. Normalitás néha megteremthető lin. vagy nem-lineáris transzformációval.
Paired t-test (párokra vonatkozó t-teszt) -
Lényeg a tesztet a beavatkozás előtt és után ugyanazon személyen mért változók különbségére végzik d=
∑d
sd =
n
∑ (d − d )
2
n −1
- Kiértékelés mint várható értéktől való eltérésre vonatkozó t-tesztnél. A vizsgálat lépései: - Hipotézis megfogalmazás H0 : δ = 0 H1 : δ ≠ 0 -
A teszt statisztika kiválasztása
t=
Ahol: SE d = -
d SE d
sd n
Az elsőfajú hiba rögzítése Kritikus érték (konfidencia határ) meghatározása, a null-hipotézist elfogadjuk ha: t n −1,α / 2 < t < t n −1,1−α / 2 következtetés
A vizsgálat feltétele: a változók normális eloszlásúak - Ellenőrzés: Lilliefors grafikonnal
Nem normális eloszlás esetén: - megfelelő transzformáció alkalmazása - nem-paraméteres statisztika alkalmazása Döntés két független minta esetén, kétmintás t-teszt Feltételezések - a minták normális eloszlást követnek - a két mintában azonosnak tekinthetők a szórások (nem kritikus a gyakorlati életben, amennyiben a két mintában azonos v. közel azonos elem van) - amennyiben az elemszámok különböznek az azonos szórástól kell meggyőződni (F-teszt) - a mintáknak egymástól függetleneknek kell lenni A vizsgálat lépései: - Hipotézis megfogalmazás ha.: H o : µ1 ≥ µ 2 , H 1 : µ1 < µ 2 ekkor egy-oldalas t statisztikát használunk. Amennyiben a hipotézis: H o : µ1 = µ 2 , H 1 : µ1 ≠ µ 2 , akkor két-oldalas t-statisztikát használunk. -
A teszt statisztika kiválasztása: x1 − x 2
t=
1 1 + n1 n 2 Vigyázat, a fenti képlet nevezőjében mind a két tört a négyzetgyök jel alatt van! sp
s p = (n1 − 1)s12 + (n2 − 1) s 22 / n1 + n 2 − 2 a szabadságfok : n1 + n2 − 2 Ahol: s p : „pooled” empirikus szórás Pooled SD fogalma: Feltételezve, hogy a két részpopuláció varianciája azonos (ellenőrzését ld. később), a két külön-külön számolt empirikus varianciák súlyozott átlagaként kiszámoljuk a két mintára közösen jellemző, „pooled” varianciát: sp =
(n1 − 1)s12 + (n2 − 1)s22 n1 + n 2 − 2
további lépések: -
Az elsőfajú hiba rögzítése Kritikus érték (konfidencia határ) meghatározása t n1 + n2 ,α / 2 < t < t n1 + n2 ,1−α / 2 Számítás elvégzése, következtetés. A varianciák (szórások) egyenlőségének ellenőrzése
Az erre alkalmas F-teszt, az F = s12 / s 22 Empirikus varianciák hányadosán alapul (a nagyobb a számlálóban). Számítási lépések: - a hányadoshoz két szabadságfokot rendelünk, az első a számláló mintáinak száma mínusz 1, a másik a nevező mintáinak száma mínusz 1. - az α elsőfajú hiba beállítása - kritikus hiba beállítása - Számítások, következtetés
Kétmintás t-teszt különböző varianciával rendelkező független minták esetére (BehrensFisher probléma)
A probléma azonos a fent tárgyalttal, azzal a különbséggel, hogy itt az F-próba elutasította az empirikus szórások azonosságát. Ilyenkor nehéz meghatározni a feladathoz tartozó pontos teloszlást, ehelyett a Satterthwaite approximáció használata a szokásos. A null-hipotézis eldöntésére itt (is) a
x1 − x 2
t=
statisztikát kell alkalmazni. s12 s 22 + n1 n2 Újdonságot a feladathoz rendelendő szabadságfok meghatározása jelenti. Satterthweit szerint ez a d'=
( s12 / n1 + s 22 / n 2 ) 2 ( s12 / n1 ) 2 /(n1 − 1) + ( s 22 / n 2 ) 2 /(n2 − 1)
képlettel számítandó, ill. az itt kapott értéket kell a legközelebbi kisebb egészszámra kell kerekíteni, az így kapott d” érték szolgál a t-statisztika szabadságfokául, ezt követően a hipotézis vizsgálat a szokásos módon a kritikus értékek meghatározásával, az értékelés elvégzésével folytatódik. A döntésekhez szükséges minta nagysággal kapcsolatos kérdések 1. Adott (ismert) középértéktől való eltérés vizsgálata Figyelembe veendő szempontok: - Mekkora elsőfajú hiba megengedett? - A kívánt ereje a vizsgálatnak (1-β). - Mekkora várható érték eltérésnek tulajdonítunk klinikai fontosságot? - A populációra jellemző szórás jó becslése. A z változóra az α első és a β másodfajú hibára tett elvárások alapján a kritikus értékek az alábbiak szerint alakulnak: Zα =
Zβ =
x − µ0 σ/ n x − µ1 σ/ n
A két egyenletből a szükséges minta nagyság az alábbiak szerint adódik: ( Z α + Z β )σ n= µ1 − µ 0
2
A levezetés gondolatmenete: zα =
x − µo σ/ n
→
x = zα .
σ n
+ µo
zβ =
zα . σ n
x + µ1
→
σ/ n
σ n
(z
α
+ µo = − zβ .
σ n
x = −zβ .
σ n
+ µ1
+ µ1
+ z β ) = µ1 − µ o
zα + z β n = σ µ1 − µ o
2
2. Két független csoport átlagérték különbségének vizsgálata: Feltételezve, hogy a két független mintában a két populáció σ szórása azonos, valamint, hogy a minták elemszáma szintén azonos, valamint µ1-µ2 a két populáció közötti különbség, amit igazolni kívánunk, akkor mindkét mintában az alábbi képlet szerinti számú mintaelemnek kell lenni: (Z α + Z β )σ n = 2 µ1 − µ 2 Ilyenkor a számítás alapja hasonlóan az ismert várhatóértéktől való eltérés vizsgálatánál írottakhoz: 2
t=
( x1 − x 2 ) − ( µ1 − µ 2 ) s p 1 / n1 + 1 / n 2
Három, vagy több eloszlás átlagának összehasonlítása, ANOVA Tipikus probléma: Adott egy populáció, amelyet valamilyen szempont szerint alcsoportokra bontunk, pl. nem dohányzók és a különböző „erősségű” dohányzók. Ilyenkor kérdés lehet a dohányzás egészségkárosító hatásának vizsgálata valamilyen paraméterrel, pl. az erőltetett kilégzési görbe 50 %-os pontjánál mért térfogati áramlással jellemezve. Mivel minden alcsoportban szórnak a mért értékek, a károsító hatást az alcsoport átlagok szignifikáns eltérése mutatja. Pl:
α1 α2 α3
Az ANOVA definíciói és képletei Az egy-utas (one-way, egy változós) ANOVA modellje: az egyedi megfigyelés felbontható három komponensre, amely egy megfigyelést a globális átlaggal, a csoport átlaggal és egy maradékkal fejezi ki:
xij = µ + α j + eij ahol: i: egyedi megfigyelés indexe j: az egyedi megfigyelés csoportjának indexe µ: globális átlag (ide képzeljük az origót) αj: j csoporthoz rendelt „effektus” nagysága (csoportátlag) eij: eltérés (hiba), az egyedi megfigyelés és a saját csoportátlagának a különbsége A fenti egyenletet alapján a globális átlagtól való eltérés:
(
)
xij − x = x ij − x j + ( x j − x ) Azaz: (az egyedi megfigyelés távolsága az origótól, a globális átlagtól) = (az egyedi megfigyelés távolsága a saját csoportátlagától) + (a csoport átlag távolsága a globális átlagtól). xij: az i. megfigyelés a j. csoportban x j : a j. csoport átlaga
x : a globális átlag Amennyiben a csoportátlagok egymástól lényegesen eltérnek, akkor az egyes csoportátlagok és a globális átlag közötti szórás lényegesen nagyobb lehet, mint a csoporton belüli szórás. Feltételezés: amennyiben a csoportátlagok közel vannak egymáshoz, akkor a közöttük lévő szórás nem lesz (lényegesen) több mint a csoporton belüli szórás. A vizsgálat az F-teszten alapul és azt dönti el, hogy a csoportátlagok közötti szórás nagyobb-e, mint a csoporton belüli szórás. A null-hipotézis az azonosságot tételezi fel. Az ANOVA definiáló összefüggései A fenti jelöléseket megismételve: xij: az i. megfigyelés a j. csoportban x j : a j. csoport átlaga
x : a globális átlag
Jelölések (egy faktorra és j db csoportra):
(
)
SS E = ∑ xij − x j :2 A csoport átlagtól való eltérések (error) négyzetösszege (sum of squares)
(
)
(
)
SS A = ∑ x j − x : csoport átlagok közötti eltérésének (among-groups) négyzetösszege 2
SS T = .∑ xij − x : össz-eltérések négyzetösszege (a globális átlagtól számított eltérések) 2
Igazolható, hogy: SS T = SS E + SS A Számítási formulák (a fenti képletekkel ekvivalensek, ha a nyers adatok rendelkezésre állnak): ahol N = Σ nj (azaz az összes minta) A négyzetes közepek számítása a szabadságfokok figyelembevételével (osztás a szabadságfokkal): ahol k: a teszttel összehasonlított csoportok száma MS A =
SS A k −1 Varianciák
SS E MS E = N −k
Egy-utas (one-way) ANOVA használata, feltételezései A vizsgálat az F statisztika meghatározására van visszavezetve, amely a korábbi jelölések alapján: F=
MS A MS E
ahol: a számláló szabadságfoka: k-1 a nevező szabadságfoka: N-k amennyiben F> mint a kritikus értékhez tartozó küszöb, a null-hipotézist elvetjük. Feltételezések:
1. A függőváltozó minden faktor esetén normális eloszlást követ 2. Minden csoportban a variancia azonos 3. A megfigyelések függetlenek egymástól. A feltételek fontossága: Az 1. Kritérium mérsékelt megsértésére F nem érzékeny, különösen, ha az esetszámok minden csoportban nagyok. Különben a Kruskal-Wallis nonparametrikus eljárás alkalmazandó. A 2. Kritérium relatíve fontos, különösen, ha az egyes csoportokban nem azonos az esetszám. A 3. Kritérium lényeges megkötés. Csoportpárok összehasonlítása Az ANOVA elvégzése után érdekes lehet annak vizsgálata, hogy a K csoporton belül mely csoportok várható értékei különböznek szignifikánsan! A két kiszemelt csoport összehasonlításánál H0: α1=α2 H1: α1≠α2 Legyen két tetszőlegesen kiszemelt csoport átlaga x1 és x2 Ezen a két érték távolsága +α1 ill. a +α2 várható értéktől normális eloszlást követ, σ²/n1 ill. σ²/n2 varianciával. Amennyiben σ ismert (lenne) az átlagok különbsége a
x1 − x 2
z=
1 1 σ 2 + n1 n 2
statisztikát követné. Valójában σ²-et az adatokból becsülni kell, két osztály esetén: s2 =
∑ [(n
1
i =1
]
− 1)s1 + (n 2 − 1)s 2 / (n1 + n 2 − 2 ) 2
2
Esetünkben, amikor k osztály van, s2 becsléshez az összes minta felhasználandó, azaz: k k k 2 2 s 2 = ∑ (ni − 1)s i / ∑ (ni − 1) = ∑ (ni − 1)s i / n − k = MS A i =1 i =1 i =1
Az s2 becslése esetén a z-statisztika helyett, a t-statisztika érvényes:
t=
x1 − x 2
1 1 s 2 + n1 n 2 n minta és k csoport esetén a tn-k szabadságfokú eloszlást kell használni. H0-t elvetjük, ha
t n−k ,α / 2 ≤ t ≤ t n−k ,1−α / 2
Mivel egy több-osztályos feladatban sok kettes kombináció található, rohamosan növekszik annak a valószínűsége, hogy azonos kritikus szint mellett, csupán a véletlen játéka következtében, szignifikánsnak tűnő különbségre bukkanunk. Ennek elkerülésére a kombinációk számától függ mértékben a student-t küszöbét egy alkalmas szorzóval megnövelik, annak érdekében, hogy a véletlen hatása következtében keletkező fals elutasítások száma csökkenjen, ill. hogy a teljes tesztre vonatkozzon a a megadott α értéke, ne a részeredményekre!. Bonferroni módszere: A módszer az egyes páronkénti összehasonlítások α értékeit úgy változtatja, hogy az összes páronkénti összehasonlítás ,,eredő α-szintje" az általunk előírt értékű legyen. Az előzőekben leírt módszer változatlan marad, csupán a döntési küszöbök az alábbiak szerint módosulnak. tn−k ,α * / 2 ≤ t ≤ tn−k ,1−α * / 2
ahol
k α * = α / 2
Példa az ANOVA használatára Pulmonary Disease A topic of ongoing public health interest is whether or not passive smoking (i.e., exposure to cigarette smoke in the atmosphere among nonsmokers) has a measurable effect on pulmonary health. White and Froeb studied this question by measuring pulmonary function in several ways in the following six groups [1]: (1) Nonsmokers (NS) People who themselves did not smoke and were not exposed to cigarette smoke either at home or on the job. (2) Passive Smokers (PS) People who themselves did not smoke and were not exposed to cigarette smoke in the home but were employed for 20 or more years in an enclosed working area that routinely contained tobacco smoke. (3) Noninhaling Smokers (NI) People who smoked pipes, cigars, or cigarettes, but who did not inhale. (4) Light Smokers (LS) People who smoked and inhaled 1-10 cigarettes per day for 20 or more years. (Note: There are 20 cigarettes in a pack.) j (5) Moderate Smokers (MS) People who smoked and inhaled 11-39 cigarettes per day for 20 or more years. (6) Heavy Smokers (HS) People who smoked and inhaled 40 or more cigarettes per day for 20 or more years. A principal measure used by the authors to assess pulmonary function was forced mid-expiratory flow (FEF). The authors were interested in comparing FEF in the six groups. •••
Group number, i 1 2 3 4 5 6
Group name NS PS NI LS MS HS
Mean FEF (L/s) 3.78 3.30 3.32 3.23 2.73 2.59
sd FEF (L/s) 0.79 0.77 0.86 0.78 0.81 0.82
ni 200 200 50 200 200 200
Több csoport átlagának összehasonlítása a „linear contrast” módszerével A linear contrast fogalmát, mint a csoport átlagok lineáris kombinációját, az alábbiak szerint definiáljuk: k
L = ∑ ci xi i =1
k
∑c i =1
i
=0
A fenti definíciók alapján a hipotézisvizsgálat a „linear contrast” várhatóértékének a 0 voltát van hivatva eldönteni, a t-statisztika segítségével. Tehát a hipotézisvizsgálat célja az alábbi lehetőségek között dönteni: H0 : µL = 0 H1 : µ L ≠ 0 A hipotézisvizsgálat menete a korábbiak mintájára: 1. Az összes csoportra közösen jellemző „pooled” variancia meghatározása k
2. Az L = ∑ ci xi súlyozott átlag kiszámítása i =1
3. Az α érték kiválasztása 4. A feladathoz tartozó t statisztika meghatározása:
t=
L ci2 s ∑ i =1 n i k
2
5. Döntés H 0 , ha : t n− k ,α / 2 ≤ t ≤ t n −k ,1−α / 2 H 1 : egyébként A fenti módszer jól alkalmazható az előző feladat esetében is. Ilyenkor a normál, nem dohányzó csoport súlyfaktora 1, a többi, tehát a különböző intenzitással dohányzók súlyfaktorai egyenként negatívak, értékük úgy választandó meg, hogy összegük -1 legyen, egyenkénti értékük, pedig legyen arányos a gyakoriságukkal.
Változók kapcsolatának vizsgálata, korreláció és regresszió számítás Változók közötti kapcsolat vizsgálata Két változó közötti kapcsolat vizsgálat lényegében arra irányul, hogy az egyik változó ismerete alapján miként lehet megbecsülni a másik értékét. A két változó közül az egyiket függetlennek tekintjük, a másikat függő változónak (angolul: independent vagy explanatory változó ill. dependent vagy response variable) Két módszer: - Korreláció - Regresszió számítás. A különbség lényegében a célokban van, a korreláció esetében a kapcsolat kimutatása a feladat, a regresszió esetében az egyik ismeretében a másik jóslása a cél. Kapcsolódások: korrelációs együttható ↔ regressziós egyenlet Korreláció
Korrelációs együttható számítása: rxy =
∑(x
i
− x )( y i − y )
i
∑ (x
i
− x)2
i
∑(y
i
− y)2
i
Az r korrelációs együttható négyzete: determinációs együttható. Ennek értéke megmutatja, hogy az egyik változó megváltozása a másik változó változásának hány %-át képes megmagyarázni. Tehát a kapcsolat erősségét egyetlen számmal jellemzi. Az orvosi irodalom r2 helyett szívesebben használja az r konfidencia intervallumát. Segédeszköz: Scatter (szóródási) diagram: kvalitatíve mutatja a kapcsolat jellegét (linearitását) és szorosságát, megítélhető, hogy jogos-e a korrelációs együttható vagy a lineáris regressziós egyenlet számítása.
(A)
(B)
(C)
(D)
A t-statisztika alkalmazása a korreláció vizsgálatánál, egymintás t-teszt Probléma: r értéktartománya +1 és –1 közötti. Ha ρ≠0, az egyes becslések ferde eloszlásra vezetnek. Az ρ=0 esetén az nem áll fenn, ilyenkor alkalmazható a t-statisztika, n-2 szabadságfokkal. t=
r n−2 1− r2
Példa a ρ = 0 null-hipotézis vizsgálatára: Tételezzük fel, hogy 20 mintából korrelációs együtthatót becsültünk, amelynek értéke: r=0.42. Vizsgáljuk meg, hogy ez összeférhető-e a null-hipotézissel! Step 1. H0:ρ = 0 (The true correlation is zero.) H1:ρ ≠ 0 (The true correlation is not zero.) Step 2. Since the null hypothesis is a test of whether ρ is zero, the t ratio may be used when the assumptions for correlation (discussed below) are met. Step 3. Suppose the investigators chose α = .01 for this example. Step 4. The degrees of freedom are n-2 = 20 – 2 = 18. The value of t distribution with 18 degrees of freedom that divides the area into the central 99% and the upper and lower 1% is 2.878 (Table A-3). Therefore, we will reject the null hypothesis of no correlation if (the absolute value of) the observed value of t is greater than 2.878. Step 5. The calculation is
t=
0.42 ⋅ 18
1 − 0.42 2 Step 6. The observed value of the t ratio with 18 degrees of freedom is 1.96, which is not greater than 2.878. Therefore, the null hypothesis of zero correlation is not rejected. t α = 0,01
n = 18
99%
2,878
Megjegyzés: A ρ=0 esetre konkrét példa lehet, ha pl. házaspárok koleszterinszintjét vizsgáljuk. Ilyenkor a null-hipotézis alapján annak megerősítését várjuk, hogy a magas koleszterinszint nem attól függ, ami a házaspárok életében közös, tehát pl. az életmód, táplálkozás, stb. Az ilyen típusú vizsgálatok elvetették a null-hipotézist, tehát feltehetőleg a hasonló táplálkozás vezetett az eltérésre. Természetesen az is előfordulhat, hogy már a párválasztásnál a külső vagy belső személyiségjegyekkel korrelált koleszterinszint a „bűnös”...
A korreláció vizsgálata ρ≠0 esetre Általános esetben az eldöntendő hipotézis: H0: ρ=ρ0, Η1: ρ≠ρ0. Α Fisher-transzformáció lehetővé teszi, hogy a korreláció konfidencia intervallumának vizsgálata visszavezethető legyen a z-eloszlás használatára. A transzformáló formula: z (r ) =
1 1+ r ln 2 1− r
A transzformálás után a teszt az alábbi (z= N(0,1) normális eloszlást követi) Egymintás λ-statisztika: λ=
z(r ) − z ( ρ 0 )
1 /(n − 3) Példa az r = 0,86 esethez tartozó 99 %-os konfidencia intervallum meghatározására. Tételezzük fel, hogy a korrelációt n=20 adatból számoltuk (a variancia=1/n-3)! ahol z(r) az r korrelációs együttható Fisher transzformáltja. A vizsgált konkrét esetben a Fisher-transzformált terében a konfidencia tartomány 0,668-tól 1,918-ig tart. A-6 tábla (részlet!!) A korrelációs együttható z – transzformáltja r 0,00 0,01 0,02 0,03 0,04
z(r) 0,000 0,010 0,020 0,030 0,040
r 0,50 0,51 0,52 0,53 0,54
z(r) 0,549 0,563 0,576 0,590 0,604
0,05 0,06 0,07 0,08 0,09
0,050 0,060 0,070 0,080 0,090
0,55 0,56 0,57
0,618 0,633 0,648 0,663 0,678
0,35 0,36 0,37 0,38 0,39
0,365 0,377 0,388 0,400 0,412
0,45 0,46 0,47 0,48 0,49
0,485 0,497 0,510 0,523 0,536
0,58 0,59 0,85
1,256
0,86
1,293
0,87 0,88 0,89 0,95
1,333 1,376 1,422 1,832 1,946 2,092 2,298 2,647
0,96 0,97 0,98 0,99
A sárgával jelölt részek a konfidencia tartomány határait jelölik. Ennek meghatározása a ztartományban történt az α-hoz tartozó kritikus értkek (alsó és felső), valamint λ szórásának ismeretében. A részleteket lsd. a következő oldalon.
33
Példa a Fisher z-transzformáció használatára: A-2 tábla (részlet!!) A standard N(0,1)görbe alatti terület Z
Area between –z & +z
Area in two tails (<-z & >+z)
Area in one tail (<-z or >+z)
0,00 0,05 0,10 0,15 0,20 0,25 1,05 1,10 1,15 1,20 1,25 1,26 1,30 1,35 1,40 1,45 1,50 2,05 2,10 2,15 2,20 2,25
0,000 0,040 0,080 0,119 0,159 0,197 0,706 0,729 0,750 0,770 0,789 0,800 0,806 0,823 0,838 0,853 0,868 0,960 0,964 0,968 0,972 0,976
1,000 0,960 0,920 0,881 0,841 0,803 0,294 0,271 0,250 0,230 0,211 0,200 0,194 0,177 0,162 0,147 0,134 0,040 0,036 0,032 0,028 0,024
0,500 0,480 0,460 0,440 0,421 0,401 0,147 0,136 0,125 0,115 0,106 0,100 0,097 0,089 0,081 0,074 0,067 0,020 0,018 0,016 0,014 0,012
2,30 2,326 2,35 2,40 2,45 2,50 2,55
0,979 0,980 0,981 0,984 0,986 0,988 0,989
0,021 0,020 0,019 0,016 0,014 0,012 0,011 0,010
0,011 0,010 0,009 0,008 0,007 0,006 0,005 0,005
0,009 0,008 0,007 0,006
0,005 0,004 0,003 0,003
2,575
0,990
2,60 2,65 2,70 2,75
0,991 0,992 0,993 0,994
A fentiek alapján a z transzformált terében a korrelációs együttható konfidencia intervalluma: z(r) ± 2,575×
1 = 1,293± (2,575)(0,243) n −3
= 1,293± 0,625 Ebből a Fisher-táblázat segítségével vissza számítható a z-tartományból az r- korrelációk tartományába az eredmény (végeredményt ld. az előző oldal táblázatában feltüntetve!). Egymintás hipotézis vizsgálat a z-tartományban Tipikus probléma: Apák és elsőszülött fiuk testsúlyát vizsgálták. Az eldöntendő kérdés az volt, hogy a minta alapján nyert empirikus korreláció összeegyeztethető-e a genetikai megfontolások alapján várható ρ=0.5 értékkel? (Eredmény: Kimutatható az apa és fia közötti genetikai kapcsolat alapján várható kapcsolat a testsúlyokban.)
34
A feladat statisztikai megfogalmazása: Lépések: 1. Hipotézis felállítása: H0: ρ=ρ1, Η1: ρ≠ρ1. 2. Az r korrelációs együtthatónak és Fisher-transzformáltjának számítása 3. A λ teszt-statisztika kiszámítása: λ=
z ( r ) − z ( ρ1 ) 1 /( n − 3)
4. Kritikus határok meghatározása α alapján 5. Kiértékelés: H0 elfogadása ha: − z1−α / 2 ≤ λ ≤ z1−α / 2 H1 egyébként. A Fisher-transzformáció felhasználása két empirikus korreláció összehasonlítására Tipikus probléma: Tekintsük gyerekek két csoportját! Az egyik csoport éljen a vérszerinti szülőkkel, a másik nevelő szülőkkel. A vizsgált kérdés, hogy a vérnyomásérték (a gyermekek ill. a mamák adatai között!) korreláció értékei azonosnak tekinthetők-e a két csoportban statisztikai vizsgálat szerint? A null-hipotézis tételezze fel az értékek azonosságát! Amennyiben a null-hipotézis nem igaz, az anya és gyermeke közötti genetikai kapcsolat magyarázhatja a vérnyomások kapcsolatát. A probléma statisztikai megoldása: 1. Hipotézis felállítása: H0: ρ1=ρ2, Η1: ρ1≠ρ2. 2. Az r1 és r2 empirikus korrelációk kiszámítása, majd ezekből a z1 és z2 transzformáltak meghatározása. 3. A λ teszt-statisztika kiszámítása: λ=
z1 − z 2 1 1 + n1 − 3 n2 − 3
4. Kritikus határok meghatározása α alapján 5. Kiértékelés: H0 elfogadása ha: − z1−α / 2 ≤ λ ≤ z1−α / 2 H1 egyébként. (Eredmény: Kimutatható az anya és gyermeke közötti genetikai kapcsolat megnyilvánulása a vérnyomásokban.)
35
Két vagy több változó kapcsolatának kiterjesztése a különböző típusú adatokra. Két vagy több változó kapcsolatának jellemzése Numerikus adatok esete (erről szólt a fenti fejezet!) Korrelációs koefficiens (Pearson-féle) r=
∑ ( x − x )( y − y ) ∑ (x − x) ( y − y) 2
2
A korrelációs koefficiens fontosabb tulajdonságai: • • • • • • • •
Értékkészlete: -1 és +1 között Ha + vagy –1, az tökéletes lineáris kapcsolatot jelöl Ha =0, az a lineáris kapcsolat hiányára utal. A változókhoz rendelt scatter diagram r=0 esetén kb. kör, növekvő abszolút érték esetén elliptikus, növekvő nagytengely-kistengely aránnyal. r2 : determináltsági koefficiens (coeff. of determination) azt mutatja, hogy a függő változó variabilitásának milyen hányadát magyarázza a korrelációs (azaz lineáris) kapcsolat. A korrelációs együttható értéke független a mérés egységétől. A korrelációs együttható értékét erősen befolyásolják (torzítják) a kiugró extrém értékek (tehát nem jó leirási módja ferde eloszlású változóknak. A korreláció lineáris kapcsolatot mér, alkalmazása előtt érdemes scatter diagramot rajzolni az esetleges nonlinearitások felfedezésére, a kilógó extrém értékek felderitésére, és kizárására.
Két vagy több változó kapcsolatának jellemzése: Ordinális adatok esete Korrelációs együttható (Spearman rank correlation, Spearman’s rho):
rS =
∑ (R ∑ (R
x
− R X )( R y − R y )
x
− Rx ) 2 (R y − R )
2
Ahol R : az indexben szereplő változó rangja (a nagyság szerint rendezett változók rangja. A Spearman korrelációs koefficiens fontosabb tulajdonságai: • •
Értékkészlete: -1 és +1 között Ha + vagy –1, az tökéletes egyezést jelöl arangok között
Spearman korreláció használandó akkor is, ha csak az egyik változó ordinális és a másik numerikus (pl. Apgar score vs. születési súly). Két vagy több változó kapcsolatának jellemzése: Nominális adatok esete
36
Nominális adatok esetén a feladat annak a megállapitása, hogy az adatok között van-e szignifikáns kapcsolat egyáltalán, s nem ennek a „nagyságára” vagyunk kíváncsiak. Máskor viszont éppen az a kérdés, hogy két nominális mennyiség közötti kapcsolat erősségét jellemezzük. Ilyen pl. ha arra vagyunk kíváncsiak, hogy egy bizonyos esemény egy bizonyos rizikótényező esetén bekövetkezik vagy nem. Kétféle hányadost szokás használni a relatív rizikó becslésére, ezek a következők: Relative risk (Risk ratio): RR Definició szerint RR: incidence of exposed persons to incidence of non exposed persons. • RR csak cohort study vagy clinical trial esetén számítható, amennyiben a kontrol és a test csoport (rizikó nélküli és rizikós) definiálásra került és huzamos ideig figyeljük, hogy a kérdéses kimenet megjelent-e. Odds ratio: OR (cross-product ratio) Definíció szerint: Az OR annak az esélye, hogy egy beteg rendelkezik egy bizonyos rizikófaktorral osztva annak az esélyével, hogy egy nem beteg rendelkezik azzal a bizonyos rizikófaktorral. Táblázatok és képletek:
Rizikófaktorral Rizikó nélkül
RR =
Beteg A C A+C
Nem beteg B D B+D
A+B C+D
A /( A + B) rizikós _ beteg / összes _ rizikós = C /(C + D) rizikó _ nélküli _ beteg / összes _ rizikó _ nélküli
OR =
〈 A /( A + C )〉 / 〈C /( A + C )〉 AD = 〈 B /( B + D)〉 / 〈 D /( B + D )〉 BC
37
Lineáris regresszió y’ = a + bx alakban keres kapcsolatot a független változó és az y függő változó becsült értéke y’-között. a regressziós egyenes és az adatok viszonya: y = y '+ε regressziós egyenes jellemzése y’
y ∆y
y’
∆x
ε
Meredekség: b = ∆y / ∆x a: tengelymetszék Tengely
y
x
x
A regressziós egyenlet számításának elve: A
∑(y
i
− y ' ) 2 négyzetes eltérés összegének minimalizálása (legkisebb négyzetek elve)
i
Eredmény: Meredekség:
∑ ( x − x )( y − y ) b= ∑ (x − x) i
i
i
2
i
i
(Számláló: Lxy „korrigált szorzat összeg”, nevező: Lxx „korrigált x2 összeg”. A korrigálás az átlagérték kivonására utal) Tengelymetszet: a = y − bx y’ További összefüggések az r ismeretében: b=r
sy
r =b
sx sy
sx Az összefüggés fordítva is igaz:
38 x
x
x
x
A regresszió számítás feltételezései: sx , sy : -
x ill. y szórása
Minden x értékhez tartozó y értékek normális eloszlásúak, amelynek várható értéke megegyezik a becsült értékkel. Minden x értékhez tartozó y értékek azonos szórással rendelkeznek. Feltételezzük, hogy a különböző x értékekhez tartozó várható értékek egy egyenes mentén helyezkednek el. Az y értékek függetlenek egymástól.
A regressziós egyenes becslés hibája A regressziós becslés reziduális eltéréseinek négyzetes átlaga:
s y,x = 2
∑(y
− y i' ) 2
i
i
n−2
Tekintettel arra, hogy a regressziós egyenes becslésénél a tengelymetszés és a meredekség és valószínűségi változó, mindkettőt külön-külön kell vizsgálni. Erre az (n-2) szabadságfokú tstatisztika alkalmas: Az a tengelymetszék becslésnél az se(a):
se (a) = s
2 y,x
2 1 x + n ∑ xi − x i
(
2
)
A b meredekség becslésnél az se(b):
se (b) = s
2 y.x
1 (x − x)2 i ∑ i
Kétoldalas (1-α) regressziós egyenes paraméter konfidencia intervallumok A két intervallum: a ± t n −2,1−α / 2 se (a) ill. b ± t n− 2,1−α / 2 se(b) A fenti konfidencia intervallumbecslések akkor hasznosak, ha a „mostani becslésünket” egy „másik” (pl. korábbi, vagy az irodalomban olvasott) becsléshez akarjuk hasonlítani.
39
Példa a tengelymetszék 0-tól való eltérésének vizsgálatára: Step 1. H0:β0 =0 (The intercepts is zero) H1:β0 ≠ 0 (The intercepts is not zero.) Step 2. Since the null hypothesis is a test of whether the intercept is zero, the t ratio may be used if the assumptions are met. The t ratio is t =
a − β0 1 s y,x 2 + n
x
2
∑ (x − x )
2
Step 3. Let us use α = .05 for this example. Step 4. The degrees of freedom are n-2 = 42 – 2 = 40. The value of t distribution with 40 degrees of freedom that divides the area into the central 95% and the combined upper and lower 5% is 2.021 (Table A-3). Therefore, we will reject the null hypothesis of a zero intercept if (the absolute value of) the observed value of t is greater than 2.021. Step5. The calculation follows; a computer program has been used to calculate sy,x = 1.82 and ∑(x- x )²= 487.4. Step6. The absolute value of the observed t ratio is 0.784, which is not greater than 2.021. Therefore, the null hypothesis of a zero intercept cannot be rejected. − 1 . 61 − 0
t = 1 . 82
2
1 24 . 667 2 + 487 . 4 42
= − 0 . 784
Példa a regressziós egyenes b meredekségének konfidencia intervallumára A meredekség becslés általános összefüggése és alkalmazási példája (95%-os konfidencia intervallum esetében egy konkrét példára): 1 1 = 0.406 ± 2.021 (1.82) 2 b ± t n− 2,1−α / 2 s y2. x 2 ∑ x − x 487.4 or = 0.239 to 0.573 Note: Because the interval excludes zero, we can be 95% confident that the regression coefficient is not zero but that it is between 0.239 and 0.573.
(
)
40
41
Regressziós egyenlet alkalmazásával végzett becslések konfidencia intervallumai: Az y’ becsült értékek várhatóértékének standard hibája se( y ' ): 1 ( x − x) 2 se ( y ' ) = s y2, x + n ∑ xi − x i
(
2
)
konfidencia intervalluma:
y ' ± t n − 2,1−α / 2 s
2 y,x
1 ( x − x) 2 + n ∑ xi − x i
(
2
)
Az egyedi y’ becslések standard hibája se(y’):
se ( y ' ) = s
2 y,x
2 1 + 1 + ( x − x ) n ( xi − x ) 2 ∑ i
konfidencia intervalluma:
y '±t n − 2,1−α / 2 s
2 y,x
2 1 + 1 + ( x − x) n ∑i ( xi − x ) 2
42
Megjegyzés: - A konfidencia intervallum minimális: x − nál -
A konfidencia intervallum határok konkávok, ugyanis a regressziós egyenes két véletlen paramétere közül (az x és y változók átlagai által meghatározott pont, amelyen a regressziós egyenes átmegy, és a meredekség) x − nál a meredekség változások hatása nem érződik, tehát itt csak az átlagképzések varianciája érvényesül, ettől pozitív és negatív irányban eltávolodva az x-tengely mentén, a meredekség varianciája egyre jobban kifejti a hatását és a konfidencia intervallumot konkávvá teszi!
Többváltozós regresszió A regressziós összefüggés formája: y = α + β 1 x1 + β 2 x 2 + ... + β i xi + ε ahol: βi parciális regressziós koefficiens A minimalizálandó kifejezés:
[ y − (a + b1 x1 + b2 x2 + ... + bi xi )]2
43
Többváltozós logisztikus regresszió Az itt tárgyalt módszer kiterjesztése a regresszió fogalomnak, arra az esetre, amikor az y függő változó nem a korábban megkövetelt normális eloszlást, hanem a binomiális eloszlást követi. Az ilyen feladatok tipikus példája a rizikóbecslés. A kockázat becslésére több tanulmány alapján, különböző populációkra különböző módszereket dolgoztak ki. Ezek nagy része a többváltozós logisztikus regresszió módszerét veszi eszközül. A logisztikus regresszió módszere a következőképpen közelíti az új betegség bekövetkezésének (incidenciájának) valószínűségét egy meghatározott időtartamon belül (pl. 8 éven belül). A képlet azokra vonatkozik, akik a vizsgálat idején egészségesnek tekinthetők!:
p=
1 1 + e -(α + β1x1 + β2 x2 +
+ β k xk )
melyből:
p = α + ln 1 p −
k
∑
i =1
β i xi ,
ahol p a megbetegedés valószínűsége, xi-k a kockázati tényezők, α és βi-k a konstans tag és a kockázati tényezőkhöz tartozó regressziós együtthatók.
44
Ezek a képletek az egyén abszolút kockázatát írják le, sokszor szükség lehet azonban annak a vizsgálatára, hogy ez a kockázat mennyiben különbözik a népesség átlagos kockázatától, vagy egy-egy adott kockázati tényezőtől mentes képzeletbeli személy kockázatától. Ilyen esetben érdekes lehet valamilyen relatív kockázati érték kiszámítása, például az odds ratio (OR) értéké. Ez a következőképpen történik:
OR =
p /(1 − p) β ∆ = e∑ j j pr /(1 − pr )
ahol p az adott személy megbetegedésének valószínűsége, pr a referenciaszemély megbetegedésének valószínűsége, ∆j a tényleges és a referencia kockázati tényezők közti különbség, j a befolyásolható kockázati tényezők indexe. Összefüggés a logisztikus regresszió ill. A kontingencia táblák alapján végzett analízis között: Odds ratio: OR (cross-product ratio) Definíció szerint: Az OR annak az esélye, hogy egy beteg rendelkezik egy bizonyos rizikófaktorral osztva annak az esélyével, hogy egy nem beteg rendelkezik azzal a bizonyos rizikófaktorral. Táblázatok és képletek:
Rizikófaktorral Rizikó nélkül
Beteg A C A+C
Nem beteg B D B+D
OR =
A+B C+D
〈 A /( A + C )〉 / 〈C /( A + C )〉 AD = 〈 B /( B + D)〉 / 〈 D /( B + D )〉 BC
A regressziós összefüggés együtthatóinak meghatározása: A Framingham-tanulmány A Framingham-tanulmány a szív- és érrendszeri betegségek területén végzett kísérletek között a leghosszabb ideje tartó. 1948-ban kezdték az adatok gyűjtését Framingham város lakosai körében. A tanulmány résztvevői 30-74 év közötti férfiak és nők. A kísérletben gyűjtött adatok alapján különböző kimenetelekre, ill. különböző becslési módszerek alapján több formulát is kidolgoztak. Ezekre egy jellemző példa: 8 éves CVD (dardiovascular disease) incidencia meghatározása logisztikus regresszióval A Framingham-tanulmányból kidolgozott módszernél behelyettesítendő együtthatók a Táblázat-ban találhatók.
45
a
logisztikus
egyenletbe
Táblázat: 8 éves CVD incidenciára vonatkozó logisztikus regressziós együtthatók a Framingham-tanulmány alapján Változó
Együttható Férfi Nő 0,3743307 0,2665693 -0,0021165 -0,0012655 0,0258102 0,0160593 0,0156953 0,0144265 0,5583013 0,0395348 1,0529656 0,8745090 0,6020336 0,6821258 -0,0003619 -0,0002157 -19,7709560 -16,4598427
Életkor (év) Életkor2 Koleszterinszint (mg/ml) Vérnyomás szisztolés értéke (Hgmm) Dohányzás* Balkamrai hipertrófia* Cukorbetegség* Koleszterinszint × Életkor Konstans tag * igen=1, nem=0
Túlélési statisztikák Túlélési idő (survival time) alatt egy adott kiindulási időponttól (diagnózis, beválasztás, valamilyen beavatkozás ideje) egy meghatározott végpontig (legtöbbször halálozás, de lehet más jól meghatározott esemény időpontja; a továbbiakban mindig halálozást említünk) eltelt időt értjük. Az ilyen vizsgálatok fő vonása, amely az elemzés sajátos voltát is indokolja, az, hogy az esetek egy részét a vizsgálók különböző okok miatt (általában a vizsgálat befejeződése miatt) nem követik a halálozás bekövetkezéséig. Azonban ezek az esetek is tartalmaznak hasznosítható információt: azt, hogy az esemény a megfigyelési időnél hosszabb idő múlva következik be - ezek az ún. cenzorált adatok. A túlélés vizsgálatának egyik lehetséges módja a halandósági tábla (life table) készítése. Ez a következőképpen történik: A 0-tól a maximális követési időig terjedő időtartamot szakaszokra osztjuk, és meghatározzuk az egyes szakaszokra jellemző halandóság értékét, amely az abban az időszakban meghalt személyek és az időszak közepén életben levők hányadosa. Ezt az értéket 1-ből kivonva kapjuk az időszakra jellemző túlélési arányt. Annak valószínűsége, hogy egy adott személy valamely időszak végén életben van, az addigi időszakokra számított túlélési arányok szorzata.
A Kaplan-Meier-féle túlélési analízis célja szintén a túlélési görbe meghatározása. Az eljárás nagyon hasonlít a halandósági tábla módszeréhez, azzal a különbséggel, hogy a követési idő nincs szakaszokra osztva, ehelyett a halandósági arányt és a túlélési valószínűséget minden olyan időpontban meghatározzuk, amelyben legalább egy halálozás történt. A túlélési valószínűségeket a követési idő függvényében ábrázolva kapjuk a túlélési görbét (survival curve). Ez formáját tekintve lépcsős függvény, melynek függőleges szakaszai halandósági tábla esetén az egyes időszakok végén, Kaplan-Meier analízis esetén pedig azokban a pontokban vannak, ahol ténylegesen bekövetkezett halálozás.
46
A fenti két módszer felhasználható a túlélési idő átlagának, illetve kellő ideig tartó követés esetén a mediánjának becslésére is. Statisztikai megalapozás, tulajdonságok
t0 , t1 , t2 ,..., ti t0 < t1 < t2 < ..., ti S (ti ) = Pr ob(túlélés t1 − ig ) x Pr ob(túlélés t2 − ig ) (túlélés t1 − ig ) x Pr ob(túlélés t3 − ig ) (túlélés t2 − ig ) x...x Pr ob(túlélés ti − ig ) (túlélés ti −1 − ig ) d d d d S (ti ) = 1 − 1 1 − 2 1 − 3 ...1 − i S1 S 2 Si −1 S0
Az S(ti) túlélési valószínűség ismeretében szokás az un. Hazárd-függvénymeghatározása is, amelynek definiciója: S (t ) − S (t + ∆t ) H (t ) = / ∆t ∆t
A fentiek szerint tehát a hazárd-függvény az „esemény” t pillanatban való bekövetkezésének valószínűségét adja meg.
Az S(ti) túlélési valószínűségek intervallumbecslése: Variancia
{ [ ]}
i
dj
j =1
S j −1(S j −1 − d j )
Var ln Sˆ (t ) = ∑
Intervallum becslés
[ ] { [ ]} [ ] { [ ]} d se{ln [Sˆ (t )]} = ∑ S (S − d )
c1 = ln Sˆ (t i ) − z1−α / 2 se ln Sˆ (t i ) c 2 = ln Sˆ (t i ) + z1−α / 2 se ln Sˆ (t i ) i
i
j =1
j
j −1
j −1
j
Mindkét eljárás alkalmazható egynél több vizsgálati csoport esetén is. Ilyenkor elvégezhető a csoportokra jellemző túlélési idők összehasonlítása. Az összehasonlítást el lehet egy adott
47
követési időtartamra is végezni, általában azonban a teljes görbéket hasonlítják össze: mondható-e, hogy az egyik összességében magasabban van, mint a másik. Az alábbiakban bemutatott táblázatok két csoportra adják meg a túlélési és a hazárd függvényeket, valamint az ezekhez tartozó standard error értékeket. Kaplan-Meier survival estimates Group: 1 (Group Surv = 2) Time
At risk
Dead
Censored
S
SE(S)
H
SE(H)
142
22
1
0
0.954545
0.044409
0.04652
0.046524
157
21
1
0
0.909091
0.061291
0.09531
0.06742
163
20
1
0
0.863636
0.073165
0.146603
0.084717
198
19
1
0
0.818182
0.08223
0.200671
0.100504
204
18
0
1
0.818182
0.08223
0.200671
0.100504
205
17
1
0
0.770053
0.090387
0.261295
0.117378
232
16
3
0
0.625668
0.105069
0.468935
0.16793
233
13
4
0
0.433155
0.108192
0.836659
0.249777
239
9
1
0
0.385027
0.106338
0.954442
0.276184
240
8
1
0
0.336898
0.103365
1.087974
0.306814
261
7
1
0
0.28877
0.099172
1.242125
0.34343
280
6
2
0
0.192513
0.086369
1.64759
0.44864
295
4
2
0
0.096257
0.064663
2.340737
0.671772
323
2
1
0
0.048128
0.046941
3.033884
0.975335
344
1
0
1
0.048128
0.046941
3.033884
0.975335
Median survival time = 233 Mean survival time (95% CI) [limit: 344 on 323] = 241.283422 (219.591463 to 262.975382) Group: 2 (Group Surv = 1) Time
At risk
Dead
Censored
S
SE(S)
H
SE(H)
143
19
1
0
0.947368
0.051228
0.054067
0.054074
165
18
1
0
0.894737
0.070406
0.111226
0.078689
188
17
2
0
0.789474
0.093529
0.236389
0.11847
190
15
1
0
0.736842
0.101023
0.305382
0.137102
192
14
1
0
0.684211
0.106639
0.37949
0.155857
206
13
1
0
0.631579
0.110665
0.459532
0.175219
208
12
1
0
0.578947
0.113269
0.546544
0.195646
212
11
1
0
0.526316
0.114549
0.641854
0.217643
216
10
1
1
0.473684
0.114549
0.747214
0.241825
48
220
8
1
0
0.414474
0.114515
0.880746
0.276291
227
7
1
0
0.355263
0.112426
1.034896
0.316459
230
6
1
0
0.296053
0.108162
1.217218
0.365349
235
5
1
0
0.236842
0.10145
1.440362
0.428345
244
4
0
1
0.236842
0.10145
1.440362
0.428345
246
3
1
0
0.157895
0.093431
1.845827
0.591732
265
2
1
0
0.078947
0.072792
2.538974
0.922034
303
1
1
0
0
*
infinity
*
Median survival time = 216 Mean survival time (95% CI) = 218.684211 (200.363485 to 237.004936) Valóságos klinikai adatokon alapuló példák
Long-term survival among GUSTO-I patients enrolled in United States and Canada. Countryspecific mortality rate in parentheses.
49
A,
Effect of treatment (high-dose versus standard-dose chemotherapy) in patients with p53negative tumors (negative = score 0). B, effect of treatment (high-dose versus standard chemotherapy) in patients with p53-positive tumors (positive = weak or strong positive, score 1-12). C, effect of treatment (high-dose versus standard chemotherapy) in patients with p53-negative tumors (negative = negative or weak positive, score 0-4). D, effect of treatment (high-dose versus standard chemotherapy) in patients with p53-positive tumors (positive = strong positive, score 5-12). (Nicolaus Kröger1, et al: Prognostic and Predictive Effects of Immunohistochemical Factors in High-Risk Primary Breast Cancer Patients Clinical Cancer Research Vol. 12, 159-168, January 2006)
50
II. Diagnosztikai döntések, osztályozások módszerei Az osztályozás mint hipotézisvizsgálat Bayes-típusú osztályozás elve Legyen x egy N dimenziós mintavektor az Ωx N dimenziós euklideszi térben, amit mintatérnek nevezünk. Vegyük figyelembe a két-osztályú problémát a hipotézisekkel: H1: x C1-hez tartozik H2: x C2-höz tartozik Legyen p az elsődleges (a priori) valószínűsége annak, hogy x C1-hez tartozik (azaz H1 igaz), és f1(x)=f(x|C1), f2(x)=f(x|C2) legyenek a feltételes sűrűségfüggvényei x-nek adottak úgy, hogy x C1-hez illetve C2-höz tartozik. Az f1(x) és f2(x) feltételes sűrűségeket gyakran nevezik valószínűségsűrűségfüggvényeknek. A hipotézisvizsgálati probléma értelmezhető az Ωx mintatér két diszjunkt részre történő felosztásaként: Ω1 illetve Ω2 részekre. Ha a vizsgált x minta Ω1-ben van, akkor elfogadjuk a H1 hipotézist és eldöntjük, hogy x C1-hez tartozik; és ha x Ω2-ben van, akkor H2t fogadjuk el. Így tehát van egy döntési függvényünk δ(x) amelyet úgy értelmezünk, hogy δ(x)=C1 ha x Ω1-ben van és δ(x)=C2, ha x Ω2-ben van. Sok módja van annak, hogy Ωx-et két különálló részre osszuk, a probléma az, hogy megtaláljuk a minimális átlagos hibát eredményező döntési függvényt. Két osztályos esetben négy lehetséges kimenetünk lehet, ha teszteljük a fenti két hipotézist: • Elfogadjuk H1-et, amikor H1 igaz; •
elfogadjuk H2-t, amikor H1 igaz;
•
elfogadjuk H1-et, amikor H2 igaz, és
•
elfogadjuk H2-t, amikor H2 igaz.
A négy lehetséges kimenet közül kettő hibás. Ha elfogadjuk H2-t amikor H1 igaz, azaz δ(x)=C2, mikor valójában x C1-hez tartozik, elkövetünk egy elsőfajú hibát. Másrészről elkövetünk egy hibát H1 elfogadásával, amikor H2 igaz, ez a másodfajú hiba. Legyen α feltételes valószínűség, hogy δ(x)=C2 adott amikor H1 igaz, és legyen β megfeleltetve a δ(x)=C1-nek úgy, hogy H2 igaz. Nyilvánvalóan: α = ∫ f1 ( x )dx, Ω2
β = ∫ f 2 ( x )dx Ω1
és α-t illetőleg β-t gyakran hívják egy első- és másodfajú hiba valószínűségének. Így a helyes döntés valószínűsége (1-α) illetve (1-β). Most, ha a c1 költséget hozzárendeljük az elsőfajú hibához és a c2-t a másodfajú hibához, szükségünk van egy olyan döntési szabályra, hogy az átlagos költség minimális legyen. Jelölje a döntésenkénti átlagos költséget ρ, amelyet rendszerint kockázatnak hívnak. Látható, hogy a kockázat magába foglalja a p elsődleges (a priori) valószínűséget valamint, mint az α és β hibákat és ezek költségeit: ρ = c1αp + c 2 β (1 − p) = c1 p ∫ f1 ( x )dx + c 2 (1 − p) ∫ f 2 ( x )dx. Ω2
Ω1
Ebből az egyenletből tisztán látható ρ függése Ω1 és Ω2 döntési területektől, a Bayes osztályozó Ωx-et optimális döntési területekre osztja úgy, hogy a ρ kockázat minimális. Tétel:
51
f 2 ( x) c1 p a valószínűségi arány, és A = . f 1 (x ) c 2 (1 − p) A ρ rizikó akkor minimális, amikor az Ω1 terület tartalmazza x azon értékeit, melyekre teljesül: Λ(x)≤A, és az Ω2 terület tartalmazza x azon értékeit melyekre igaz: Λ(x)>A. Ez a tétel elvezet bennünket a valószínűség-arány (likelihood ratio) teszteléséhez. Ha a valószínűségi-arány Λ(x)>A, elfogadjuk H2-t, ha Λ(x)≤A, akkor H1-et fogadjuk el. Következésképpen a Λ(x)=A egyenlet egy döntési felületet határoz meg, amelyik két diszjunkt részre (Ω1 és Ω2 ) osztja fel a teljes Ωx eseménytartományt. A c1 és c2 költségek és a p elsődleges (a priori) valószínűség csak az A küszöb értékre hat, így a valószínűségi-arány Λ(x) az alapvető lényege a mintaosztályozásnak. A Bayes osztályozó először kiszámolja Λ(x)-t és azután összehasonlítja az A küszöbértékkel. Néha kényelmesebb a logaritmikus valószínűség-arányt használni. Mivel a logaritmus egy monoton növekvő függvény, a valószínűségi-arány tesztelése ekvivalens a következő döntési szabállyal: elfogadja H2-t, ha log Λ(x) > log A, elfogadja H1-et, ha log Λ(x) ≤ log A. A ρ minimum kockázatot hívjuk Bayes kockázatnak. Ha c1=c2=1, Legyen Λ(x) =
ρ = p ∫ f1 (x)dx + (1 − p )∫ f 2 (x)dx , Ω2
Ω1
p . 1− p Mivel Ω2-ben f2(x)> Af1(x), amelyik magába foglalja pf1(x)<(1-p)f2(x), és hasonlóképpen Ω1-ben (1-p)f2(x)≤pf1(x), Bayes kockázatra kapjuk: ρ = ∫ min[ pf 1 (x), (1 − p ) f 2 (x)]dx , A=
Ωx
(1)
amelyet Bayes hiba-valószínűségnek, vagy Bayes hiba aránynak nevezünk. A Bayes módszer kiterjesztése K-osztályos hipotézisekre A fentiekben tárgyalt Bayes alapesetben két hipotézisünk, és ennek megfelelően két osztályunk volt. Általános osztályozási feladat esetében K hipotézis van, azaz Ck, k=1, 2, …, K, ilyenkor összetett hipotézisről beszélünk, mindegyik hipotézis megfeleltethető egy osztálynak. Így kapjuk: Hk: x a Ck-hoz tartozik, k=1, 2, …, K. Ez az általánosabb probléma az Ωx mintateret K darab diszjunkt döntési területre osztja: Ω1, Ω2, …, ΩK. Legyen pk az elsődleges (a priori) valószínűsége annak, hogy x Ck-hoz tartozik, és fk(x)=f(x|Ck) a feltételes sűrűség-függvény vagy valószínűség-függvény. A továbbiakban az egyszerűbb tárgyalás érdekében feltesszük, hogy a különböző fajtájú hibák költsége azonos, azaz, c=1. Ekkor a kockázatot társítjuk egy tetszőleges δ’(x) döntési függvénnyel és a Ω1' , Ω '2 , K , Ω 'K döntési területekkel, K ρ (δ ' ) = ∑ ∫ ' ∑ pl f l (x) dx Ωk k =1 l≠k
(2)
52
a hiba-valószínűség. A Bayes osztályozó, ami minimalizálja ρ-t, úgy fogja felosztani Ωx-et K diszjunkt területekre, hogy minden Ωj területet az jellemzi, hogy x olyan értékeiből áll, amelyre igaz, hogy pjfj(x) ≥ pkfk(x) minden k≠j esetre. A fenti állítás igazolásához megjegyzendő, hogy Ωj-ben az előzőt írhattuk volna: ∑ pl f l (x) ≤ ∑ pl f l (x) minden k≠j esetre. l≠ j
l ≠k
Legyen δ(x) a megfelelő Bayes osztályozóhoz tartozó döntési függvény, a hibavalószínűséget megkapjuk az előző egyenletnek megfelelően: K (3) ρ (δ ) = ∑ ∫ ∑ pl f l (x) dx = ∫ min ∑ pl f l (x) dx . Ωj Ωx k j =1 l ≠k l≠ j Ez az egyenlet az (1) egyenletre egyszerűsödik K=2 esetben. A (2) és a (3) megmutatja, hogy a Bayes hiba-valószínűség (3)-ban minimális, így az integrandus minimális x minden értékére.
Ez az ábra bemutatja a Bayes osztályozó egy implementációját. Amikor az x mintavektort vizsgáljuk, először kiszámoljuk az fk(x) valószínűség függvényeket, összeszorozzuk mindegyiket a megfelelő pk elsődleges (a priori) valószínűséggel, majd kiválasztjuk a legnagyobb értéket és úgy döntünk, hogy x a pkfk(x) maximumát meghatározó osztályhoz tartozik. Kiegészítő megjegyzések Az alap osztályozó sémák egy másik lehetősége az összetett vizsgálatok szerinti osztályozás. Feltesszük, hogy az x1, x2, …, xn-t mintavektorokat vizsgáljuk, továbbá a sorozat minden vektora azonos osztályból jön, vagy C1-ből, vagy C2-ből. Így a két hipotézis: H1: xi a C1-hez tartozik, i=1, 2, …, n, H2: xi a C2-höz tartozik, i=1, 2, …, n. Nyilvánvaló, hogy használhatjuk a valószínűség-arány tesztet: f (x , x , K , x n ) Λ n = Λ ( x1 , x 2 , K, x n ) = 2 1 2 , f 1 ( x1 , x 2 , K , x n ) ahol fk( x1 , x 2 , K, x n ) adott x i ∈ C k , i = 1, 2, K , n sorozat valószínűség függvénye. Ha feltesszük, hogy x1 , x 2 , K, x n függetlenek : n
f k (x1 , x 2 , K, x n ) = ∏ f k (x i ), k = 1, 2 .
(4)
i =1
Megjegyzendő, hogy az x1 , x 2 , K, x n végtelen sorozat tagjai azonos osztályba tartoznak, vagy C1-be, vagy C2-be.
53
A valószínűség arányt a fenti feltevés alapján kapjuk: n
Λ n = ∏ λi , i =1
ahol f 2 (x i ) . f 1 (x i ) Néha kényelmesebb a logaritmikus valószínűség arányt használni: λi =
n
n
i =1
i =1
log Λ n = ∑ log λi = ∑ [log f 2 (x i ) − log f1 (x i )] . Paraméteres és nem-paraméteres feltételes sűrűség becslések Paraméteres becsléseknél feltesszük, hogy a Ck feltételes sűrűségfüggvények, fk(x|θ) függvényalakja ismert, kivéve valamilyen θ paraméter vektort (pl.: normális eloszlásnál a várhatóérték ill. a szórás). Sok osztályozási problémában azonban nincs az eloszlásról ilyen mélységű ismeretünk, és az osztályozáshoz csak az x1, x2, … minták sorozata használható. Egy egyszerű paraméter nélküli metódusban az egydimenziós mintateret Ki egyforma és két végtelen intervallumra van osztva. Amikor az x1, …, xn minta sorozatot vizsgáljuk, megszámoljuk nk-t, a k-adik intervallumba eső minták számát. Tisztán nk/n a valószínűség egy olyan becslése, hogy a véletlen változók rendelkeznek értékkel a k-adik intervallumban. Ezen a módon megkapjuk az ismeretlen sűrűségfüggvény, f(x), becslését. A becslés pontossága függ az intervallumok méretétől és a minták számától, ntől. Parzen módszere a (feltételes) valószínűség sűrűségfüggvények közelítésére Az egydimenziós esetet tekintve, amikor az x1, x2, ... minták sorozata statisztikailag független és a véletlen változók egyenlően elosztottak. n vizsgált minta esetén a következő közelítést használjuk f(x)-re: 1 n 1 x − xi , (5) fˆn ( x ) = ∑ K n i =1 α n α n ahol αn n-től függő állandó, és K(x-xi/αn) az xi környéki közelítés alapfüggvénye. 2 K(v) szokásos függvényei: K(v)=(1/2)e-|v|, K (v ) = (1 2π )e − v / 2 , és K(v)=1/2 v≤|1| esetén, nulla különben. Fontos megjegyezni, hogy míg f(x) meghatározott függvénye x-nek, addig fˆn ( x ) egy véletlen függvénye x-nek az x1, …, xn minták véletlenszerűségének következtében. Parzen megmutatta, hogy az alábbi feltételek teljesülése esetén, az fˆn ( x ) véletlen függvény konvergál a valódi sűrűséghez, f(x)-hez, midőn n tart a végtelenhez. Tétel: Legyen K(v) egy függvény, amely kielégíti a feltételeket: 0≤ K(v)≤M<∞ minden v-re,
∫
∞
−∞
K (v )dv = 1 ,
lim vK (v ) = 0 ,
v → ±∞
és {αn} a pozitív számok egy olyan sorozata, melyre teljesül: 54
lim α n = 0 , n →∞
lim nα n = ∞ . n→∞
Ekkor f(x) minden folytonos pontjában: lim M fˆn ( x) = f ( x) ( lim E fˆn ( x ) = f ( x) ),
[ ] [ ] lim D [ fˆ ( x)] = 0 ( lim Var [ fˆ ( x)] = 0 ), n →∞
n →∞
2
n
n →∞
n →∞
n
ahol fˆn ( x ) definiálva lett (5)-ben. Legközelebbi szomszédok elve (NN) alapján történő osztályozás A legközelebbi szomszéd osztályozás nem-paraméteres módszer, tehát nem feltételezi fel a feltételes sűrűségfüggvények függvényi alakjának ismeretét. Legyen Χ n ={x1, …, xn} n független minta halmaza. Az egyszerűség kedvéért tekintsük a két-osztályú problémát, és tegyük fel, hogy az Χ n -beli összes minta osztályozása ismert. A mintákat és az osztályozásukat tároljuk a számítógépben. Amikor új x mintavektort vizsgálunk és osztályozni kívánunk, rendre kiszámoljuk a távolságokat x és xi, i=1, …, n között, és xˆ n -nek nevezzük x legközelebbi szomszédját, ha min( x − x i ) T (x − x i ) = (x − xˆ n ) T (x − xˆ n ), x i , xˆ n ∈ Χ n , ahol az n index xˆ n -ben jelzi, hogy xˆ n a legközelebbi szomszédja x-nek az n mintavektor halmazában. Ezt követően osztályozásként x vektorhoz a hozzá eső legközelebbi xˆ n szomszédjának osztályozását rendeljük. Amint n elegendően nagy, x legközelebbi szomszédja nagyon közel lesz x-hez. Feltételezhetjük ugyanis, hogy ha az ismeretlen keverék sűrűségfüggvénye f(x), és a két véletlen minta x és xi, P{ x − x i < ε } = pε > 0 , ahol ε>0 és x − x i a normája x-xi-nek a következőképp definiálva: x − xi
2
= (x − x i ) T (x − x i ) .
Mivel x1, …, xn függetlenek és xˆ n a legközelebbi szomszédja x-nek, kapjuk, hogy P{ x − xˆ n ≥ ε } = ∏ P{ x − x i ≥ ε } = (1 − pε ) n , n
i =1
így, mivel n→∞, lim P{ x − xˆ n ≥ ε } = 0 , n →∞
azaz az xˆ n legközelebbi szomszéd konvergál x-hez. A továbbiakban viszonyítani kívánjuk a legközelebbi szomszéd módszerrel elkövetett osztályozási hibát a Bayes eljárás hibájához. Ennek érdekében először térjünk vissza a Bayes osztályozás hibájához. Mint korábban is láttuk, a Bayes hiba-arány: ρ = ∫ min[ p1 f1 (x), p 2 f 2 (x)]dx , Ωx
ahol f1(x) és f2(x) adott C1 és C2 feltételes sűrűségei, p1, p2 az elsődleges (a priori) valószínűségek. Definiáljuk a: p f ( x) q1 (x) = 1 1 , f ( x)
55
p 2 f 2 (x) , f ( x) mennyiségeket, ahol f(x)=p1f1(x)+p2f2(x) azaz a keverék sűrűség. Tartalmilag a fenti módon definiált q1 (x) = P{x ∈ C1 | x}, q 2 (x) = P{x ∈ C 2 | x} (6) nem más, mint az un. későbbi (a posteriori), valószínűsége C1-nek és C2-nek az adott x esetén. Mivel a Bayes osztályozásban x a C1 osztályba került, ha q1(x)>q2(x), és C2-be, ha q1(x)≤q2(x), r (x) = min[ q1 (x), q 2 (x)] a feltételes Bayes hiba-valószínűség adott x esetén. Nyilvánvaló ezekből a definíciókból, hogy a Bayes hiba-arány felírható: ρ = ∫ f (x) min[ q1 (x), q 2 (x)]d x = M [r (x)] . (7) q 2 (x) =
Legközelebbi szomszéd osztályozásnál a feltételes hiba adott x-re rˆ(x, xˆ n ) = P{x ∈ C1 , xˆ n ∈ C 2 | x} + P{x ∈ C 2 , xˆ n ∈ C1 | x} , (8) és hasonlóan (7)-hez, a hiba arány ρˆ n = M [rˆ(x, xˆ n )] . A (8) nyilvánvaló, mivel x a legközelebbi szomszéd osztályozása által lett osztályozva. A (6)ból és x és xˆ n függetlenségéből kapjuk: rˆ(x, xˆ n ) = q1 (x)q 2 (xˆ n ) + q 2 (x)q1 (xˆ n ) . Definiáljuk, hogy n→∞, rˆ(x) = lim rˆ(x, xˆ n ) , n →∞
ρˆ = lim ρˆ n . n →∞
Tétel Legyenek f1(x) és f2(x) folytonos valószínűségi sűrűség függvények. Az aszimptotikus legközelebbi hiba arány, ρˆ , korlátos: ρ ≤ ρˆ ≤ 2 ρ (1 − ρ ) , ahol ρ a Bayes hiba arány.
Az aszimptotikus hiba értéke K osztály esetén A fenti módszer kiterjeszthető K osztályra is. Az alábbiakban ezen változat aszimptotikus hibáját mutatjuk be: K ρ ≤ ρˆ ≤ ρ (2 − ρ) K −1 k-NN osztályozás Létezik a NN módszernek olyan értelmű kiterjesztése is, amely nem csupán egyetlen, (legközelebbi) szomszéd alapján végez osztályozást, hanem felhasznál páratlan számú (k) legközelebb szomszédot és ezek alapján többségi szavazással dönt. Lineáris diszkriminancia analízis Legyen ismert az x1, …, xn gyakorló minták sorozata és a minták osztályozása. A minták száma n, az Ωx mintatér N dimenziója sokkal kisebb, mint n. Lineáris diszkrimináns függvény 56
A diszkrimináns függvények legegyszerűbb változata a lineáris. A lineáris diszkrimináns függvényeket a következőképp definiáljuk: Dk (x) = x1α 1k + K + x N α Nk + α N +1,k , k= 1, 2, …, K, ahol K az osztályok száma, x1, …, xN az x mintavektor N komponense, az α számok a súlyozó együtthatók. Vektoros formában felírva: T Dk ( x) = ~ xT αk = αk ~ x, ahol ~ x T = [x T ,1] a transzponáltja ~ x -nak, a megnövelt mintavektornak, és αk a k-adik súlyozó vektor, amely tartalmazza az N+1 súlyozó együtthatót. Azt a gépet, amelyik a lineáris diszkrimináns függvényeket alkalmazza lineáris gépnek nevezzük. A K súlyozó vektort tanuló mintákból becsülik. A tanulás után a gép osztályozza a mintavektorokat, felhasználva a következő döntési szabályt: δ (x) = C j , ha D j (x) > Dk (x) , minden k≠j, ahol δ(x) a döntési függvény. A döntési felületeket a következő egyenlet határozza meg: Dj(x)-Dk(x)=0. Lineáris gép összetett osztályozáshoz:
Két osztály esetén sokkal kényelmesebb meghatározni a diszkrimináns függvényt: D (x) = D1 (x) − D2 (x) = α T ~ x. A küszöbelemeket gyakran használják d(x) kimeneteként, melyet a következőképp definiálunk: 1 ha D(x) > 0, d ( x) = − 1 ha D(x) ≤ 0. d(x) értékei x-et osztályozzák C1 illetve C2 osztályokba, és d(x) nyilvánvaló, hogy hasonló a δ(x) döntési függvényhez. A blokk diagramja a következő ábrán látható. Az ilyen szerkezeteket gyakran hívják küszöb logikai egységnek (Threshold Logic Unit – TLU).
Lineáris szeparálhatóság Legyen δ x = {x i , i = 1,K, n} a gyakorló minták halmaza ismert osztályozással, és tekintsünk egy két osztályú felismerési problémát. A δ x halmaz lineárisan szeparálható, ha létezik legalább egy olyan D(x) lineáris diszkrimináns függvény, amelyre igaz: D(xi)>0 minden C1-beli xi-re és x i ∈ δ x , D(xi)<0 minden C2-beli xi-re és x i ∈ δ x . A D(x)=0 meghatároz egy elválasztó felületet Ωx-ben. Legyen Ω ~x a megnövelt mintatér. Ha δ x lineárisan szeparálható Ωx-ben, akkor lineárisan szeparálható az Ω ~x -ben az origón áthaladó elválasztó felület által, mivel ~ x = 0 felület x = 0 -t magába foglalja a D (x) = α T ~
57
(hipersík). Az elválasztó felületre illeszkedő mintavektorok meghatározottak a ~ x N +1 = 1 által ahol ~ x N +1 az (N+1)-edik eleme ~ x -nek. A mintavektorok, x1, …, xn, reprezentatív minták. Ez azt jelenti, hogy minden Ck-beli x nagyon közel lesz minden olyan xi-hez, amelyik tagja δ x -nek és Ck-hoz tartozik. Feltesszük továbbá, hogy x egyszerre csak az egyik osztályhoz tartozhat. Így létezik legalább egy lineáris diszkrimináns függvény: D(x)>0 minden C1-beli x-re, D(x)<0 minden C2-beli x-re. Megjegyzés: egy lineárisan nem szeparálható δ x mintavektor halmaz gyakran lineárisan szeparálhatóvá válhat, ha növeljük a lineárisan független változók számát, azaz dimenzióját (N). Ugyanakkor N korlátozott, nem lehet több, mint a minták száma. Egy rögzített n minta méret esetén x nemlineárisan mindig szeparálható, és lehet polinomokat használni, hogy közelítsük egy nemlineáris diszkrimináns függvényhez. K>2 többosztályú probléma esetén az osztályok lineárisan szeparálhatók, ha léteznek D1(x), …, DK(x) lineáris diszkrimináns függvények, hogy: Dj(x)> Dk(x) minden Cj-beli x-re és minden k≠j-re. (9) Az osztályok páronként lineárisan szeparálhatók, ha minden Cj, Ck osztálypár lineárisan szeparálhatók. Más szóval létezik minden k≠j-re egy Djk lineáris diszkrimináns függvény: Djk(x)>0 minden Cj-beli x-re, Djk(x)<0 minden Ck-beli x-re. (10) Érthetően: ha C1, …, Ck lineárisan szeparálhatók, akkor páronként lineárisan szeparálhatók, mivel (9) speciális esete (10)-nek: Djk(x)=Dj(x)-Dk(x). A Perceptron A Perceptron egy neuron modellező TLU volt, mely képes a tanulásra. A bemenete összetett, a kimenete egyértékű: 1 vagy -1, annak megfelelően, hogy a neuron kisül-e vagy sem. A tanulási képessége a mintaosztályozásban fontos. A Perceptron irányított tanulása Legyen S x a tanító esetek halmaz ismert osztályozással. Két osztály van, és a mintavektorok lineárisan szeparálhatók. Létezik továbbá egy α ismeretlen súlyozó vektor, hogy: αT ~ x > 0 minden C1-beli x-re és x ∈ S x , T~ α x < 0 minden C2-beli x-re és x ∈ S x , ahol ~ x kiterjesztett vektora x-nek. Legyen Σ ~x a tanítóminták sorozata. Minden S ~x -beli ~ x tagja Σ ~x -nek, és S ~x minden tagja végtelenszer fordul elő Σ ~x -ben. Legyen ~ x i az i-edik tagja az S x~ végtelen sorozatnak, és α(i) a súlyozó vektor i-edik becslése. A kezdő becslés önkényesen választott. A tanuló algoritmus a következő: 1. Ha ~ x i -t helyesen osztályozta a TLU az α(i) súlyozó vektorral, akkor a súlyozó vektor változatlan marad. Más szavakkal leírva: α (i + 1) = α(i ) ha α T (i )~ xi > 0 és ~ x i C1 - beli elem T ha α (i )~ x < 0 és ~ x C - beli elem i
i
2
58
2. Ha ~ x i -t helytelenül osztályozta a TLU α(i)-vel, akkor ebben az esetben változik az értéke a következő szabály szerint: α (i + 1) = α (i ) + ~ x i ha α T (i )~ x i ≤ 0 és ~ x i C1 - beli elem α (i + 1) = α (i ) − ~ x ha α T (i )~ x ≥ 0 és ~ x C - beli elem i
i
i
2
A tanuló algoritmus egy hibajavító eljárás, amely a súlyozó vektort akkor módosítja, ha ~ xi rosszul lett osztályozva. Más formában leírva: x ha ~ x C1 - beli ~ y~ = ~ ~ − x ha x C 2 - beli α (i ) ha α T (i )~ yi > 0 α (i + 1) = (11) T ~ ~ α (i ) + y i ha α (i ) y i ≤ 0 Konvergencia tétel: Legyen S x ={x1, …,xn} tanuló halmaz. Minden S x -beli mintavektor vagy a C1-hez vagy a C2höz tartozik, és az osztályozások ismertek. Ha S x lineárisan szeparálható, a gyakorló algoritmus (11) konvergál véges számú lépésben. Kiterjesztések és általánosítások Kiterjesztési lehetőség: mintavektorok összetett osztályaira felkészíteni a lineáris gépet. Tegyük fel, hogy K>2 lineárisan elkülönülő osztály van, azaz létezik K darab, α1, …, αK, súlyozó vektor úgy, hogy (12) α Tj ~ x > α Tk ~ x minden Cj-beli x-re és minden k≠j-re. A tanuló eljárás ötlete itt is a hiba javításon alapul, azaz: Ha ~ x i jó lett osztályozva, tehát α Tj (i )~ x i > α Tk (i )~ x i minden k≠j-re, akkor nem változtatjuk a súlyozó vektort, α k (i + 1) = α k (i) , k= 1, …, K. ~ Ha x rosszul lett osztályozva, i
tehát
α Tj (i )~ x i ≤ α Tl (i )~ xi ,
ahol
α Tl (i )~ x i = max[ α 1T (i )~ x i , K , α TK (i )~ xi ], l ≠ j , csak α j (i ) -t és α l (i ) -t módosítjuk, azaz: ~ α j (i + 1) = α j (i ) + x i , α l (i + 1) = α l (i) − ~ x i , α k (i + 1) = α k (i ), k ≠ j , k ≠ l . Meg lehet mutatni, hogy a gyakorló algoritmus véges számú lépés után megszakad α1, …, αKnál, ami kielégíti (12)-t minden δ x -beli x-re. Ha a K darab osztály páronként lineárisan szeparálható, megtalálhatjuk minden osztálypárhoz egy Djk(x) lineáris diszkrimináns függvényt a két-osztályú eset tanuló algoritmusa segítségével. Lineáris diszkriminancia analízis módszerei nem-szeparálható osztályokra Nem-szeparálható osztályok esetében is a cél olyan szeparáló sík (hipersík) definiálása, amely a hibás döntéseket – valamilyen kritérium szerint – optimálisan állítja be. Az alábbi eljárások az optimális szeparáló sík normálisának az irányát határozzák meg. Az eredeti mérési adatok vetülete az így meghatározott egyenesre olyan új változót eredményez (az eredeti adatok vetületeit), amely a két (vagy több) csoport közötti távolságot maximalizálja (a választott kritérium szerint). A cél, hogy a vetületként előálló új változóknál a szeparálandó osztályok (relatív) távolsága növekedjen, miközben az azonos osztálybeli mintavektorok közelebb kerülnek egymáshoz.
59
Fischer-féle lineáris diszkrimináns A Fisher-féle lineáris diszkrimináns egy olyan transzformációt valósít meg, amely az eredeti N dimenzionalitást K-1-re redukálja, ahol K a tekintett osztályok számát jelenti. A transzformáció ugyanakkor úgy van megvalósítva, hogy az optimálisan biztosítsa (őrizze meg) az osztályok közötti szeparációs tulajdonságokat. A fentiek szerint tehát a dimenzió redukálásának mértéke nem szabadon választható, azt meghatározza az eredeti dimenzió valamint a szeparálandó osztályok száma. A feladat megoldásához szükséges a szeparálhatóság mérőszámát meghatározni. Az alábbiakban részletesen ismertetjük a módszert két-osztályos esetre, majd később bemutatjuk a feladat általánosítását K osztályra. Tekintsük ismét a két-osztályos problémát, n mintavektoros, ismert osztályozású S x tanító halmazzal. A feladatunk a korábbi módszerekhez hasonlóan egy olyan α meghatározása, amelynek az xi mintavektorokkal vett skaláris szorzata olyan új yi mintákat eredményez, amelyek optimálisan szeparálhatók. Tehát: yi = α T x i A tanuló mintavektorok átlagai a két osztályban: 1 m1 = ∑ xi , n1 xi ∈C1 (16) 1 m2 = ∑ xi , n2 xi ∈C 2 A vetület mintavektorok átlagai a két osztályban: 1 µˆ 1 = α T m1 , ∑ n1 xi ∈C1 µˆ 2 =
1 n2
∑a
x i ∈C2
T
m2 ,
Egy 1×N-es α T transzformáció esetén, az α egyenesre vetített új yi változókra a csoportátlagok ν1 távolságának értéke abszolút értékben: ν 1 = µˆ1 − µˆ 2 = α T (m1 − m 2 ) (17) Ezek után a két osztály elemeinek szóródását a saját várhatóértékük körül jellemezzük az alábbi, csoportokon belüli szóródási (kovariancia) mátrixokkal: 1 W1 = (x i − m 1 )(x i − m1 )T , ∑ n1 xi ∈C1 (18) 1 T W2 = ∑ (x i − m 2 )(x i − m 2 ) n 2 xi ∈C2 A vetített új y változóknál a csoportátlagokhoz viszonyított, csoporton belűli szórásnégyzetek átlagai az alábbiak szerint számíthatók: 1 v02 = α T ( W1 + W2 )α = α T Wα (19) 2 Ugyanis: 1 1 1 σ 12 = ( y i −µˆ1 ) 2 = (α T x i − α T m1 ) 2 = α T (x i − m1 )(x i − m1 ) T α = α T W1α ∑ ∑ ∑ n1 − 1 xi ∈C1 n1 − 1 xi ∈C1 n1 − 1 xi ∈C1
60
Hasonló kifejezés írható fel C2 esetében is a másik csoport szórásnégyzetére, végül a kettő átlagaként adódik (19). A fenti gondolatmenethez hasonlóan, jellemezzük most az osztályok közötti szóródást, ami alatt értsük a csoportátlagok szóródását, ami két-osztályos esetben: B = (m1 − m 2 )(m1 − m 2 )T (20) a korábbiakhoz hasonlóan a két vetületi átlag szórásnégyzete: ( µˆ 1 − µˆ 2 ) 2 = α T Bα (21) A későbbiek szempontjából fontos megjegyezni, hogy a Bv = (m1 − m 2 )(m1 − m 2 ) T v (22) alakú kifejezés végeredménye mindig (m1-m2) irányú vektor, ugyanis a fenti kifejezés második és harmadik tényezője egy skalár szorzat. A fenti bevezetés után, a Fisher-féle diszkrimináns a α T Bα (23) α T Wα hányados értékét kívánja maximalizálni α megfelelő megválasztásával, azaz olyan vetületet keres, amelynél az osztályok közötti szórás nagy az osztályon belüli szóráshoz képest. Kimutatható, hogy a keresett α a W −1Bα = λα (24) sajátvektor feladat megoldása. A fenti okfejtés alapján azonban Bα mindig (m1-m2) irányú vector, amelynek nagyságát ha önkényesen λ-val tesszük egyenlővé, ( 22 )-ből kapjuk: α = W −1 (m1 − m 2 ) (25) A fentiekben bemutatott levezetés és eredmény két osztály szeparálására vonatkozott. Az eljárás általánosítható K osztály esetére is. Ennél az általános problémánál (is) igaz, hogy az eredetileg N dimenziós mérési térből a döntési feladat áttranszformálódik egy K-1 dimenziós döntési térbe, miközben optimálisan megőrzi az osztályok szeparálhatósági tulajdonságait. (Két osztály esetén a döntési tér ebből következően egy dimenziós.) Az általános esetben használt definíciók az osztályon belüli kovariancia mátrixra: K
W = ∑ Wi
(26)
i =1
A teljes minta várhatóértéke az osztályok várhatóérték vektorával kifejezve: m=
1 K ∑ ni m i n i =1
(27)
az osztály átlagok kovariancia mátrixa: K
B = ∑ ni (m i − m)(m i − m) T
(28)
i =1
Ezek után csak azt kell figyelembe venni, hogy K osztály esetén nem csupán egyetlen α vektort és egyetlen új változót kell meghatározni, hanem összesen K-1-et. A redukált dimenzióhoz rendelt W és B mátrixokat y index-xel ellátva, azok a (26 és 28)-ből az alábbi módon számíthatók (lényegében arról van szó, hogy az N dimenziós mérési vektorokat rávetítjük az osztályok közötti különbségeket legjobban ábrázoló K-1 dimenziós altérre): Wy = T T WT B y = T T BT
(29)
61
ezekkel most a: T T BT (30) T T WT hányados értékének maximalizálása a T mátrixok megfelelő megválasztásával végzendő, amit a T mátrix oszlopait alkotó α vektorok meghatározásával lehet elérni, a korábban látott sajátérték feladatokon keresztül: W −1Bα i = λα i i= 1, 2, ... K-1 Tehát a keresett vektorok a W-1B mátrix sajátvektorai (összesen K-1 darab).
62
Lényegkiemelés Lényegkiemelés és lényegkiválasztás Ahogy az 1.1. ábrán látható, a minta-felismerés két lépésre osztható: lényegkiemelés és osztályozás. Legyen Ω x az N dimenziós mintatér és Ω y az M dimenziós lényegtér, M
x Ω x-ben,
y Ω y-ban.
(1)
Meg kell jegyezni, hogy általában M
1.1. ábra: A mintafelismerés általános blokkdiagramja
A szakirodalomban gyakran keveredik a „minta” és a „mérés” fogalma. Ebben a fejezetben a mérést azonosnak tekintjük a mintatérrel. A mérés kiválasztása a gyakorlati minta-felismerésbeli korábbi tudásunkon vagy benyomásunkon alapul, és az Ω x mintateret az általunk kiválasztott mérés definiálja. A lényegkiemelés vagy -kiválasztás más felől így nem más, mint egy olyan eljárás, ami a dimenziókat N-ről M-re csökkenti. A mérést általában egy személy választja ki a feldolgozást megelőzően, míg a lényegkiemelést egy gép implementálja automatikusan. Ez a fejezet a lényegkiemelés elméletével foglalkozik. Meg kell jegyezni, hogy a fenti gondolatsor nem azt jelenti, hogy a mérés megválasztása nem lényeges. Épp ellenkezőleg, a minta felismerés sikere vagy sikertelensége nagyrészt a mérés helyes megválasztásán múlik. A mérés megválasztásának szisztematikus taglalásában az a nehézség, hogy elválaszthatatlan a különleges minta-felismerési problémától, amiről pillanatnyilag szó van. Példának felhozható az elektrokardiogramm osztályozása és a karakterfelismerés. A két terület teljesen eltérő mérési eljárást igényel, ezek megválasztása különböző fizikai megfontolásokon alapszik. Mégis, ha meg van a választott mérési eljárás, a lényeg kiemelési és osztályozási megoldások mindkét területen egyformán alkalmazhatók. Végül az elektrokardiogramm osztályozási kérdéseire fogunk fókuszálni. A lineáris lényegkiemelés A lineáris lényegkiemelés egy T, M × N méretű mátrixként definiálható, y = Tx ,
(2)
ahol a T mátrix sorai lineárisan függetlenek egymástól, azaz ortogonálisak egymásra.
63
Mivel a lényegkiemelés csökkenti a dimenzionalitást, a Ω x mintatér információ tartamának egy része elvész. De a következő okok miatt indokolt lehet a lényegkiemelés alkalmazása: (1) A Ω y lényegtér szakmai szempontból hasznosíthatóbb az Ω x mintatérnél. Például köztudott, hogy a beszédanalízisben a frekvencia spektrum jóval több információt hordoz, mint maga a beszéd hanghullám. A Fourier transzformáció alkalmazásával a frekvencia komponensek jobb tulajdonságok az osztályozáshoz, mint az időtartománybeli tulajdonságok. A dimenzionalitás pedig csökkenthető néhány frekvencia komponens összevonásával és a fázis információ elhagyásával. (2) Ismert, hogy a mérések többnyire redundások, magasan korreláltak. Ekkor a dimenzionalitás csökkenthető minimális információvesztés mellett. (3) A mérések és az osztályozás fizikailag más helyen történik, és az adatok továbbítása szükséges különböző kommunikációs csatornákon keresztül. (4) Csak kevéssé ismertek a minta vektorok, és kívánatos különböző bonyolult tanuló eljárások alkalmazása, mint például a valószínűségi eloszlás függvény becslése. Ilyen eljárások alkalmazása nagy dimenzionalitású terekben gyakran igen bonyolult, és elengedhetetlen először a dimenzionalitás csökkentése. Lényeg kiválasztás A lényeg kiválasztás tekinthető a lineáris lényegkiemelés egy speciális esetének. Az N mérés közül az M tulajdonság kiválasztása során valamilyen hiba valószínűség minimalizálása vagy egyéb észszerű kritérium teljesítése a szempont. A kritériumok számítása általában a rendelkezésre álló mintavektorokon, vagy a mintaosztályok ismert valószínűségi eloszlásán alapszanak. Néhány nagyon speciális esettől eltekintve az optimális kiválasztás csak úgy lehetséges, hogy az N mérésből az összes lehetséges M lényegre ki kell N N! számolni a kritériumokat, azaz = -t. A probléma az, hogy ez gyakran M M !( N − M )! hosszadalmas számításokat eredményez. Például abban az esetben, ha 60 mérésből kell 60! kiválasztani 10 lényeget. Ekkor a kritériumot -szor kell kiszámolni, ami több mint 10!50! 7,5 × 1010 . Még ha egy másodperc alatt 1000 variáció lenne kiszámítható, akkor is 7,5 × 10 7 másodpercet, azaz több mint 20800 órát venne igénybe a számítás. Mivel már egy ilyen szerény probléma is hatalmas számítási időt igényel, heurisztikus megközelítéseket kell alkalmazni. Érdekesség, hogy sok esetben a lényeg kiemelés számítása egyszerűbb, mint a lényeg kiválasztásé. A Karhunen-Loève transzformáció A legközismertebb és leghasznosabb lényeg-kiemelési eljárás a Karhunen-Loève transzformáció. Ez az eljárás egy négyzetes-közép kritériumot minimalizál. Legyen x mintavektor az alábbi valószínűségi sűrűség függvénnyel K
f(x) =
∑ pkfk(x),
(6)
k=1
64
ahol pk a Ck osztály ismert valószínűsége, fk(x) x feltételes sűrűsége adott Ck osztályra és az osztályok száma K rendszerint nagyobb kettőnél. Általánosan feltételezhető, hogy E[x]=0, mivel egy nem-zérus átlagú véletlen vektor transzformálható egy nullaátlagú vektorba, ami nem más, mint egy lineáris művelet. Ekkor az R kovariancia mátrix a következő lesz R = E[xxT] =
K
∑ pkEk[xxT],
(7)
k=1
ahol E[xxT] a Ck osztály mintavektorainak várható értéke. A Karhunen-Loève kiterjesztés az x véletlenszerű vektor kiterjesztése az R sajátvektorainak szempontjából. A sajátvektor probléma A sajátvektor probléma jól ismert. Adott egy N × N méretű R mátrix, és ehhez meg kell határozni λ skalárokat és u vektorokat úgy, hogy teljesüljön rájuk az alábbi feltétel Ru = λu.
(8)
A λ és u megoldásokat sajátértékeknek illetve sajátvektoroknak nevezzük. Az alábbi lemma igen hasznos a sajátvektorok tulajdonságaira nézve. LEMMA 1. Legyen λ j és uj az R mátrix j-ik sajátértéke és sajátvektora, amelyekre teljesül a (8) egyenlet. Ha R szimmetrikus és pozitív szemidefinit (ez a kovariancia mátrixok esetében mindig teljesül!), akkor λj ≥ 0,
(9)
ujTul = 0 ha λj ≠ λl.
(10)
Azaz a sajátvektorok ortogonálisok, merőlegesek egymásra. Bizonyítás Balról uj-vel megszorozva a (8) egyenletet, ujTRuj = λjujTuj
(11)
A jelenleg vizsgált esetben uj nem nulla-velktor, ezért ujTuj>0 és λ j≥0. λj és λl sajátértékekre és a hozzájuk tartozó sajátvektorokra vonatkozó egyenleteket balról megszorozva az l ill. j indexű sajátvektorokkal: ulTRuj = λjulTuj,
(12)
ujTRul = λlujTul.
(13)
Mivel R szimmetrikus, a bal oldalak egyenlősége miatt írható:
65
(ulTRuj)T = ujTRul = λlujTul.
(14)
A (12) és (13) egyenleteket egymásból kivonva: (λj - λl)ujTul = 0,
(15)
De mivel és λ j≠λl, ezért szükségszerűen ujTul=0, azaz a sajátvektorok lineárisan függetlenek, ortogonálisak. Meg kell jegyezni, hogy ha u megoldása a (8) sajátérték egyenletnek, akkor cu is megoldása tetszőleges c konstansra, mivel uj normalizálható, ujTuj = 1. Ha λj = λl, uj és ul minden lineáris kombinációjára teljesül a (8) egyenlet. Ennél fogva u1, u2,…, uN N darab ortonormált sajátvektor tertozik λ1 ≥ λ2 ≥ … λN > 0 sajátvektoraival az R kovariancia mátrixhoz. A Karhunen-Loève transzformáció optimalitása Legyen egy lényegkiemelés az alábbi jelölésekkel TT = [u1,u2,…uM], (16) ST = [uM+1,uM+2,…uN], ahol {vj} az ortonormált vektorokat jelöli. Az x {vj}-vel kifejezve, a következő: N
x=
∑ cjuj,
(17)
j =1
cj = xTuj,
(18)
koefficiensekkel. Az y lényeg vektor így yT = xTTT =
N
∑ cjujT[u1,u2,…uM] = [c1,c2,…cM].
(19)
j =1
A legutolsó lépés a vj ortonormalitásából következik. Így az y lényeg vektor az első M koefficienst tartalmazza, a z=Sx vektor pedig a maradék (N-M) koefficienst. Logikus azt remélni, hogy egy jól megválasztott T mátrix eredménye általában egy nagy ||y||2 és egy kis ||z||2. E[||z||2] a közepes négyzetes hiba u1, u2,…, uM-mel becsülve x-et. TÉTEL 1. Egy optimális M × N méretű lineáris lényegkiemelő mátrix, ami maximalizálja E[||y||2]-t, vagy ekvivalensen fogalmazva minimalizálja E[||z||2]-t, a következő TT = [u1,u2,…,uM],
(20)
ahol u1, u2,…, uM a sajátvektorok, amelyek R kovariancia mátrix M legnagyobb sajátértékeihez tartoznak.
66