Segédanyag a Leíró és matematikai statisztika tantárgyhoz
• mennyiségi ismérv: az egyedek számszer¶en mérhet® tulajdonsága. Két fajtájukat különböztetjük meg: diszkrét: véges vagy megszámlálhatóan sok értéket vehet fel folytonos: egy adott intervallumon belül kontinuum számosságú értéket felvehet • id®beli ismérv: az egységek id®beli elhelyezésére szolgáló rendez®elvek • területi ismérv: az egységek térbeli elhelyezésére szolgáló rendez®elvek Az ismérvek típusai II. • közös ismérvek: tulajdonságok, amik szerint a sok. egyedei egyformák • megkülönböztet® ismérv: azok a tulajdonságok, amik szerint a sokaság egyedei különböznek egymástól Legyen a sokaság: szobában lév® hallgatók. Példák ismérvekre: min®ségi: szemszín, nem közös: orrok száma diszkrét mennyiségi: testvérek száma megkülönböztet®: testsúly folytonos mennyiségi: testmagasság id®beli: születési id® területi: születési hely
2016. március 1. Közgazdasági értelemben a statisztika a valóság tömör, számszer¶ jellemzésére szolgáló tudományos módszertan, illetve gyakorlati tevékenység. A statisztika ágai: • Leíró statisztika: magában foglalja az információk összegy¶jtését, összegzését, tömör, számszer¶ jellemzését szolgáló módszereket • Matematikai statisztika: matematikai tudomány, a valószín¶ségi változókkal jellemezhet® jelenségek leíró adatainak feldolgozásáról, értelmezésér®l és felhasználásáról szóló tudományos módszertan Statisztikai következtetés: a valóságban a teljes sokaságot nem tudjuk vagy akarjuk meggyelni, ezért csak az egyedek egy sz¶kebb csoportját gyeljük meg. A viszonylag kisszámú egyedre vonatkozó információk alapján szeretnénk a teljes sokaság egészére, egyes jellemz®ire, tulajdonságaira érvényes következtetéseket kimondani. Statisztikai egység: a statisztikai vizsgálat tárgyát képez® egyed. Minden statisztikai egységnek tárgyi, területi és id®beli szempontból egyaránt egyértelm¶en körülhatárolhatónak kell lennie. Statisztikai sokaság: a meggyelés tárgyát képez® egyedek összessége, halmaza. Röviden sokaságnak hívjuk. A sokaság egysége: a sokaság egy eleme. A sokaságok csoportosítása: 1.) A sokaság egységeinek megkülönböztethet®sége szerint • diszkrét: a sokaság egységei elkülönülnek egymástól (pl. tanulók a teremben) • folytonos: a sokaság egységeit nem tudjuk természetes módon elkülöníteni (pl. bauxittermelés) 2.) A sokaság id®pontra vagy id®tartamra értelmezhet®-e: • álló: csak egy adott id®pontra értelmezhet® • mozgó: csak egy adott id®tartamra értelmezhet® 3.) A sokaság számossága szerint: • véges (a gyakorlatban általában ilyenekkel foglalkozunk) • végtelen
Ismérvváltozatok: az ismérvek lehetséges kimenetelei. Például ha az is-
mérv a hallgatók neme, akkor az ismérvváltozatok: ú, lány. Ugyan természetes valójukban csak a mennyiségi ismérv változatai konkrét számok, de a többi ismérvfajta lehetséges értékeit is számérték¶vé lehet alakítani. Például a nemeknél a úkhoz rendeljük hozzá az 1-et, a lányokhoz pedig a 0-t. Ilyenkor viszont ezekkel a számokkal a hagyományos számtani m¶veleteknek nem feltétlen lesz értelme. Matematikai szempontból az ismérv függvényként fogható fel, amely valamilyen értékeket rendel a sokaság egyedeihez. Ekkor az ismérvváltozatok halmaza az ismérv függvény értékkészlete. Mérési szintek: • Névleges (nominális) mérési skála: a számok csak ún. kódszámok, amik a sokaság egyedeinek azonosítására szolgálnak. Ezek között matematikai relációkat és m¶veleteket nincs értelme végezni. Pl. a hallgatók neme. • Sorrendi (ordinális) skála: a sokaság egyedeinek valamely tulajdonság alapján sorba való rendezése. Pl. a hallgatók jegyei egy tárgyból. • Intervallumskála: a skálaértékek különbségei is valós információt adnak a sokaság egyedeir®l. A skálán a nullpont meghatározása önkényes. Ilyen skálákhoz mértékegység is tartozik. Pl. h®mérséklet.
Statisztikai ismérv (röv.: ismérv): a sokaság egyedeit jellemz® tulajdonság. Az ismérvek típusai I. • min®ségi ismérv: az egyedek számszer¶en nem mérhet® tulajdonsága 1
• Arányskála: a skálának van valódi nullpontja is. Minden matematikai m¶velet elvégezhet® ezekkel a számokkal. Pl. a hallgatók magassága. Tipikusan a min®ségi ismérvek mérési szintje nominális, esetleg sorrendi skála; a mennyiségi ismérvek mérési szintje különbségi vagy arányskála; a területi ismérvek mérési szintje nominális skála; az id®beli ismérveké pedig különbségi skála. Néha az intervallum- vagy arányskálán mérhet® tulajdonságokat metrikus ismérv eknek nevezik.
• Leíró sor: különböz® fajta, gyakran eltér® mértékegység¶ statisztikai adatokat tartalmaz Az ismérvek fajtája szerint beszélhetünk min®ségi, mennyiségi, id®beli és területi sorokról. Például ha egy statisztikai sor tartalmazza az osztályteremben a hallgatókat nemek szerint, akkor ez min®ségi csoportosító sor.
Statisztikai tábla tágabb értelemben: a statisztikai sorok összefügg® rendszere. A tábla dimenziószáma az a szám, amennyi statisztikai sorhoz egy-egy táblabeli adat tartozik. Általában 2, maximum 3 dimenziós táblákkal dolgozunk, ennél magasabb dimenziósat már nehéz áttekinteni. A statisztikai táblák fajtái: • Egyszer¶ tábla: nincs benne csoportosító (összegz®) sor • Csoportosító tábla: egyetlen csoportosító sort tartalmaz • Kombinációs vagy kontingenciatábla : legalább két csoportosító sort tartalmaz
Statisztikai adat: valamely sokaság elemeinek száma vagy a sokaság valamilyen másféle számszer¶ jellemz®je, mérési eredmény. A statisztikai adatok fajtái: • Alapadatok: közvetlenül a sokaságból származnak (méréssel, megszámlálással) • Leszármaztatott adatok: alapadatokból m¶veletek eredményeként adódnak (pl. átlagolással, osztással) A statisztikai adatok nem mindig pontosak: a tényleges és a mért adat közti különbség eltérhet nullától. Jelölje A a tényleges adatot, míg Aˆ a mért adaˆ érték mutatja az abszolút hibát, ami a tényleges tot. Ekkor a := |A − A| adat hiányában a gyakorlatban általában ismeretlen. Így aztán a se lesz ismert, de rendszerint tudunk adni rá egy fels® becslést, jelölje ezt a ˆ, és ˆ hívjuk abszolút hibakorlátnak! Ekkor |A − A| = a ≤ a ˆ egyenl®tlenséget átrendezve kapjuk, hogy Aˆ − a ˆ ≤ A ≤ Aˆ + a ˆ, azaz a tényleges A érték benne van az Aˆ ± a ˆ intervallumban. Ha az adatokat bizonyos nagyságrendre közelítve adják meg, akkor az abm szolút hibakorlát a következ®képp számítható: a ˆ = 102 . Itt m jelöli a nagyságrendet, például ha az adatok ezerben forintban állnak rendelkezésünkre, akkor m = 3. Relatív hiba: Aa , ami megint ismeretlen; becslését relatív hibakorlátnak hívjuk: aˆˆ . Általában százalékban szoktuk megadni.
A statisztikai elemzések egyik legfontosabb eszközei a viszonyszámok. A viszonyszám két statisztikai adat hányadosa. Jelölések: A V = , B ahol V : viszonyszám; A: a viszonyítás tárgya; B : a viszonyítás alapja. A viszonyszámok fajtái: • Megoszlási: a sokaság egy részét a sokaság egészéhez viszonyítjuk. • Koordinációs: a sokaság egy részének a sokaság egy másik részéhez való viszonyítása. • Dinamikus: két id®pont vagy id®szak adatának hányadosa. • Intenzitási: különböz® fajta adatok viszonyítása egymáshoz; gyakran a mértékegységük is eltér®. Ha egy teljes sokaságra és annak m részére rendelkezésre áll a viszonyszám alapja és részei, akkor a viszonyszámokat ki tudjuk számolni a teljes sokaságra (jel. V , ezt összetett viszonyszám nak hívják) és annak részeire is (jel. V1 , . . . , Vm ). Ekkor a teljes sokaságra számolt viszonyszám kiszámítási lehet®ségei: m m m P P P Ai Bi V i Ai i=1 i=1 V = i=1 = = m m m P P P Ai Bi Bi Vi i=1 i=1 i=1 | {z } | {z }
A
Statisztikai sor tágabb értelemben: a sokaság egyes jellemz®inek felsoro-
lása. A statisztikai sorok fajtái: • Csoportosító sor: a sokaság egy megkülönböztet® ismérv szerinti osztályozásának eredménye; az adatok összegezhet®k (van 'Összesen' sor) • Összehasonlító sor: a sokaság egy részének a sokaságot egy megkülönböztet® ismérv szerinti osztályozásának eredménye; az adatok nem összegezhet®k
súlyozott számtani átlag
2
súlyozott harmonikus átlag
A leíró statisztikai szakirodalomban az i indexeket pongyola módon le szokták hagyni: P P P A BV A V =P = P = PA B B V
• Ha a mennyiségi ismérv folytonos vagy sok ismérvérték van, akkor osztályközös gyakorisági sor t készítünk. Jelölje n a sokaság elemszámát. Az osztályközök meghatározása nem egyértelm¶, gyakran választják az osztályok számának a k = min{k : 2k > n} értéket. Ha azonos hosszúságú (h) osztályközöket akarunk létrehozni, akkor min h = xmax −x . k Standard jelölések osztályközös gyakoriságú mennyiségi soroknál: • xi,a : az i. osztályköz alsó határa; • xi,f : az i. osztályköz fels® határa; x +x • xi : az i. osztályközép, azaz xi = i,a 2 i,f ; • fi : gyakoriság az i. osztályközben; i P • fi0 : kumulált gyakoriság az i. osztályközben, azaz fi0 = fi ;
Id®sorok elemzése (alapok) Id®sorok fajtái: • állapotid®sor: a benne lév® adatok egy-egy adott id®pontra vonatkoznak (pl. egy cég raktárkészlete adott napokon); • tartamid®sor: a benne lév® adatok id®szakra vonatkoznak (pl. egy cég havi nyereségei). Véges id®sor: Y1 , . . . , Yn , ahol Yi -k valószín¶ségi változók. Ezek realizációját, konkrét értékeit jelöljük y1 , . . . , yn -nel. Az id®sor meggyelt értékeib®l számíthatunk dinamikus viszonyszámokat. A din. viszonyszámok fajtái: • Bázisviszonyszámok: bt = yybt , ahol t = 1, . . . , n; b x, neve: bázisid®szak; yt • Láncviszonyszámok: lt = yt−1 , ahol t = 2, . . . , n.
• gi : relatív gyakoriság az i. osztályközben, azaz gi = • • • •
Állítás. A bázisviszonyszámok id®sorából ki lehet számítani a láncviszony-
számok id®sorát és fordítva: • láncból bázis: bt = l2 · l3 · ... · lt (t = 1, . . . , n); bt (t = 2, . . . , n). • bázisból lánc: lt = bt−1 Az id®sor átlagos értékének kiszámítása:
• tartamid®sor esetén sima számtani átlaggal: y = • állapotid®sor esetén kronologikus átlaggal: y k = Az id®sor átlagos változásának vizsgálata: n −y1 • a fejl®dés átlagos mértéke: d = yn−1 q • a fejl®dés átlagos üteme: l = n−1 yyn1
gi0 : kumulált relatív gyakoriság az i. osztályközben; si : az i. osztályköz értékösszege: zi = xi · fi ; s0i az i. osztályköz kumulált értékösszege. zi : az i. osztályköz relatív értékösszege: zi = Psisi ;
k=1 Pfi ; fi i
i
• zi0 az i. osztályköz kumulált relatív értékösszege.
Koncentráció: a sokasághoz tartozó teljes értékösszeg jelent®s része a so-
n P
kaság kevés egységére összpontosul. Legyen a sokaság n elem¶, a minket érdekl® ismérv szerint aPkülönböz® ismérvértékek x1 , ..., xk , ezek gyakoriságai pedig legyenek fj -k ( fj = n).
yt
j
t=1
n
Gini-együttható: G =
n−1 P 1 y + yt + 12 yt 2 1 t=2
1 n(n−1)
k P k P i=1 j=1
fi fj |xi − xj |.
Lorenz-görbe: a koncentráció mértékét szemléltet® ábra. A vízszintes tengelyen a gi0 kumulált relatív gyakoriságok, a függ®leges tengelyen a zi0 kumulált relatív értékösszegek szerepelnek, 0-t®l 100%-ig. Behúzzuk a 45 fokos egyenest. Végül megrajzoljuk a (0, 0), (g10 , z10 ), (g20 , z20 ), . . . , (gk0 , zk0 ), (1, 1) pontok összekötésével kapott töröttvonalat. Koncentrációs területnek hívjuk a töröttvonal és az átló által közbezárt területet. Er®s a koncentráció, ha a töröttvonal közel van a négyzet oldalaihoz. Gyenge a koncentráció, ha a töröttvonal közel van az átlóhoz. A koncentráció mutatószámai: G • Koncentrációs együttható : L = 2x
n−1
Mennyiségi sorok elemzése Mennyiségi sor készítése: • Ha a mennyiségi ismérv diszkrét és viszonylag kevés ismérvérték van, akkor minden ismérvértéket felsorolunk. 3
Ez nem más, mint a koncentrációs terület 2-szerese. Értéke 0 és 1 között van. Minél nagyobb, annál er®sebb a koncentráció. k P zi2 • Herndahl-index : HI = Értéke
• Iq1 =
Ip1 Ip0
és 1 közötti; minél nagyobb, annál er®sebb a koncentráció.
• Összetett indexek:
Bázisid®szaki súlyozású vagy Laspeyres-féle
Index fajtája - Árindexek:
Ip0 =
- Volumenindexek:
Iq0 =
, - Értékindex: Iv =
• Ip0 =
=
Tárgyid®szaki súlyozású vagy Paasche-féle
P P q0 p1 q p P 0 0 P q1 p0 q0 p0
Ip1 = Iq1 =
P P q1 p1 q p P 1 0 P q1 p1 q0 p1
=
Ip0 · Ip1
IqF =
q
Iq0 · Iq1
P q p P q00 p11
P Pq0 p0 ·iv q0 p0
=
P
0) q0 p0 (iq −Iq0 )(ip −IP P q0 p0 Ip0 Iq0
= 1 + Vip Viq R(ip , iq ) = 1 +
x∈R
• Mo= argmax P (X = xi ), ha X diszkrét. x1 ,x2 ,...
Nem biztos, hogy létezik, és ha létezik, akkor se biztos, hogy egyértelm¶.
Deníció. Ferdeség (skewness): skew(X) = Értelmezése: • skew(X )=0 • skew(X )>0 a • skew(X )<0 a
Fisher-féle
IpF =
Iq1 Iq0
maximumhelye(i), diszkrét eloszlás esetén pedig az eloszlás maximumhelye(i). Tehát • Mo= argmax f (x), ha X abszolút folytonos;
= ip ·iq
q
=
invertálható, akkor qz = F −1 (z)-re egyszer¶södik (0 < z < 1) Fontos speciális kvantilisek: kvartilisek: • Q1 := q 1 alsó kvartilis 4 • Q2 = M e := q 1 medián (középs® mintaelem) 2 • Q3 := q 3 fels® kvartilis 4 Deníció. Módusz: abszolút folytonos eloszlás esetén a s¶r¶ségfüggvény
⇒ ⇒ ⇒
E(X−EX)3 (DX)3
az eloszlás szimmetrikus az eloszlás balra ferdült az eloszlás jobbra ferdült
Deníció. Csúcsosság (kurtosis): kurt(X) =
E(X−EX)4 (DX)4
−3 • kurt( X )=0 ⇒ az eloszlás csúcsossága a standard norÉrtelmezés: máliséval megegyez® V • kurt(X )<0 ⇒ az eloszlás laposabb a st. norm.-nál V • kurt(X )>0 ⇒ az eloszlás csúcsosabb a st. norm.-nál V Minta: X1 , . . . , Xn valószín¶ségi változó sorozat, jel. X = (X1 , . . . , Xn )T A továbbiakban feltesszük, hogy függetlenek és azonos eloszlásúak ezt röviden i.i.d. mintá nak hívjuk (independent, identically distributed). Az elméleti értékeket nagy, a konkrét, realizált mintából számolt értékeket mindig kis bet¶ fogja jelölni, azaz minta esetén x1 , ..., xn .
P P q1 p1 q0 p0
Néhány összefüggés: • Iv = Iq0 · Ip1 = Iq1 · Ip0 = P Pq0 p0 ·ip q0 p0
iv =
q1 p1 q0 p0
iq
Deníció. z -kvantilis: q(z) = qz = inf{x : F (x) ≥ z}, és amennyiben F
összetartozó adatok átlagos változását mutató összetett viszonyszám. Tegyük fel, hogy m különböz® terméket értékesítünk két különböz® id®szakban, és az értékesítés árbevételét szeretnénk elemezni. Jelölések: • q0,j : a j . termékb®l eladott mennyiség a bázisid®szakban • q1,j : a j . termékb®l eladott mennyiség a tárgyid®szakban • p0,j (p1,j ): az j . termék egységára a bázis- (tárgy)id®szakban • v0,j : a j . termék értékesítéséb®l származó árbevétel (tágabb értelemben termelési érték ) a bázisid®szakban, számítása: v0,j = q0,j · p0,j • v1,j : a j . termék értékesítéséb®l származó árbevétel a tárgyid®szakban, számítása: v1,j = q1,j · p1,j • Egyedi indexek: (mostantól a j indexeket lehagyjuk) 1,j Egyedi volumenindexek: iq,j = qq0,j iq = qq10 v1 v0
P q p P q11 p11
Az indexek képleteiben lév® osztások helyett különbségeket P is lehet Pképezni, 0 ekkor az I és i helyett K -t és k -t írunk. Például Kp = q0 p 1 − q0 p 0 .
Érték-, ár- és volumenindexek Index vagy indexszám: közvetlenül nem összesíthet®, de gazdaságilag
1,j Egyedi árindexek: ip,j = pp0,j ip = pp10 v1,j ·p1,j Egyedi értékindexek: iv,j = v0,j = pq1,j 1,j ·p0,j
=
A tárgyi és bázis súlyozású összetett indexek közti kapcsolatot számszer¶síti a Bortkiewicz-összefüggés : P
i=1
1 k
P Pq0 p1 ·iq q0 p1
qP 1 p1
q1 p1 iv
ip
4
Statisztika: a minta valamely függvénye: T : X → ... Becslés: a minta eloszlásának ismeretlen paraméterét közelíti a minta se-
fj : a kvantilist tartalmazó osztályköz gyakorisága • Interkvantilis terjedelem : IQR = Q3 − Q1 • Tapasztalati módusz : a legtöbbször el®forduló érték. Értelmezése: a minta tipikus, leggyakrabban el®forduló értéke. Osztályközös gyakoriságok esetén interpolációra van szükség, ekkor a a következ® becslést lehet használni: Mo= xmo,a + dad+d · hmo , ahol f xmo,a : a móduszt tartalmazó osztályköz alsó értéke; hmo : a móduszt tartalmazó osztályköz hossza; da : a móduszt tartalmazó osztályköz gyakorisága mínusz a móduszt közvetlenül megel®z® osztályköz gyakorisága df : a móduszt tartalmazó osztályköz gyakorisága mínusz a móduszt közvetlenül követ® osztályköz gyakorisága
gítségével. Megj.: Minden becslés statisztika. Néhány lényeges statisztika: • Rendezett minta : X1∗ ≤ ... ≤ Xn∗ nem csökken® sorrendbe tesszük a mintaelemeket • Terjedelem : R = Xn∗ − X1∗ (R=range) n P
• Mintaátlag : X =
Xi
i=1
n
• Tapasztalati szórás : Sn =
s
n P
(Xi −X)2
i=1
n
Értelmezése: az átlagtól való átlagosseltérés abszolút mértékegységben n P
• Korrigált tapasztalati szórás : Sn∗ =
• Tapasztalati ferdeség :
1 n
(Xi −X)2
i=1
• Tapasztalati csúcsosság :
n−1
• Szórási együttható : V = SXn Értelmezése: az átlagtól való átlagos eltérés százalékban Megj.: relatív szórásnak is hívják n P
Tétel.
n P
(Xi −X)3
i=1 1 n
3 Sn n P
(Xi −X)4
i=1 4 Sn
−3
(Glivenko-Cantelli)
A tapasztalati eloszlásfüggvény 1 valószín¶séggel egyenletesen tart a valódi eloszlásfüggvényhez, formálisan P lim sup|Fn (x) − F (x)| = 0 = 1.
I(Xi <x)
n→∞x∈R
• Tapasztalati eloszlásfüggvény : Fn (x) = i=1 n ( 1 ha Xi < x ahol I(Xi < x) = karakterisztikus függvény 0 ha Xi ≥ x • Tapasztalati z-kvantilis : Realizált mintából sokféleképpen számolható, interpolációs módszer: 1.) Sorszám megállapítása: (n + 1)z = e + t (e: egészrész, t: törtrész) 2.) qz = x∗e + t(x∗e+1 − x∗e ) Értelmezése: a mintaelemek z -ed része legfeljebb a qz értéket veszi fel, (1 − z )-ed része pedig legalább qz . Osztályközös gyakorisági sorban rendelkezésre álló minta esetén a következ® becsést lehet használni: keressük meg kumulálással azt az osztályközt, ahol a qz van, sorszám: (n + 1)z . Jelölje j az osztályköz
Boxplot ábra: (ez fekv®, de lehet álló is) ahol a bet¶k a következ® értékeket jelentik:
• • • • • •
z·(n+1)−f 0
j−1 hj számát. Ezután qz = xj,a + fj xj,a : a kvantilist tartalmazó osztályköz alsó értéke; hj : a kvantilist tartalmazó osztályköz hossza; 0 : a kvantilist közvetlenül megel®z® osztályköz osztályköz ku fj−1 mulált gyakorisága
5
A = max{x∗1 , Q1 − 1, 5 · IQR}; B = Q1 ; C = M e; D = Q3 ; E = min{x∗n , Q3 + 1, 5 · IQR}; F : kies® értékek, azokat tüntetjük fel pontokként, amik A-n vagy E -n kívülre esnek.
Állítás.
Nagy • • •
számú (x1 , ..., xn ) adat elemzése: Adathibák keresése, irreális adatok, értékek törlése; esetleg korrigálása Alkalmas osztályközös gyakorisági sor készítése Középértékek kiszámítása Átlag (számtani vagy mértani amelyiknek értelme van) Helyzeti középértékek: ∗ Módusz az osztályközös gyakorisági sorból ∗ Medián • Szóródási mutatók kiszámítása Terjedelem Interkvantilis terjedelem Szórás Relatív szórás • Alakmutatók kiszámítása Ferdeség Csúcsosság • Ábrák készítése: S¶r¶séghisztogram Boxplot ábra Lorenz-görbe (értékösszeg sor esetén)
• Ha X és Y függetlenek egymástól, akkor korrelálatlanok is. • Ha X és Y korrelálatlanok, akkor ebb®l nem következik, hogy függetlenek is!!!!! • X, Y függetlenek ⇔ FX,Y (x, y) = FX (x) · FY (y) • X, Y függetlenek ⇔ fX,Y (x, y) = fX (x) · fY (y) • X, Y függetlenek ⇔ P (X = x, Y = y) = P (X = x) · P (Y = y) • X, Y függetlenek ⇒ E(XY ) = EX · EY ⇒ Cov(X, Y ) = 0
Állítás. Legyenek X, Y, Xi , Yj valószín¶ségi változók; a, b, ci , dj ∈ R. Ekkor • P (a ≤ X < b) = FX (b) − FX (a) n n P P • E ci Xi = ci EXi ; i=1
i
•
Geometriai (Pascal)
Jelölése Ind(p)
Geo(p)
Eloszlása
P (X = 1) = p P (X = 0) = 1 − p P (X = k) = p(1 −
p)k−1
k=1,2,... Hipgeo(N, M, n)
P (X = k) =
D2 X
p
p(1 − p)
M k
N −M n−k N n
Binomiális
Bin(n, p)
n k
P (X = k) =
k=0,1,...,n Negatív miális Poisson
bino-
NegBin(n, p)
P (X = k) =
k=n,n+1,... Poi(λ)
P (X = k) =
Jelölése
nM N
nM N
1− M N
k−1 pn (1 − p)k−n n−1
k=0,1,...
np n p
λ
i,j
D2 Xi
+2
i=1
P
Cov(Xi , Xj )
1≤i<j≤n
Eloszlásfüggvény ha x ≤ a 0 x−a ha a < x ≤ b b−a 1 ha b < x ( 1 − e−λx ha x ≥ 0 0 különben
Egyenletes
E(a, b)
Exponenciális
Exp(λ)
Gamma
Γ(α, λ)
...
N (0, 12 )
Φ(x) = ...
N (m, σ 2 )
...
pk (1 − p)n−k
λk −λ e k!
Xi ) =
n P
∼ N (0, 1).
X−m σ
Nevezetes abszolút folytonos eloszlások:
n−1 1− N −1
k=0,1,...,n
j
Állítás. Φ−1 (q) = −Φ−1 (1 − q) 0 < q < 1
1−p p2
1 p
n P
Állítás. Normálás. Legyen X∼ N (m, σ 2 ). Ekkor Állítás. Φ(−x) = 1 − Φ(x)
Eloszlás neve
Hipergeometriai
EX
D2 (
i=1
Nevezetes diszkrét eloszlások: Eloszlás neve Karakterisztikus (indikátorvált.)
i=1
• D2 (aX + b) = a2 D2 X 2 Y + 2·Cov(X, Y ) • D2 (XP+ Y ) =PD2 X + DP • Cov( ci Xi , dj Yj ) = ci dj Cov(Xi , Yj )
np(1 − p)
S¶r¶ségfüggvény
(
ha a < x ≤ b 0 különben ( λe−λx ha x ≥ 0 0 különben
(
n(1−p) p2
Standard normális
λ
Normális
Deníció. X val.változó eloszlásfüggvénye: FX (x) = P (X < x). Deníció. X és Y kovarianciája: Cov(X, Y ) = E [(X − EX)(Y − EY )].
1 b−a
1 λα xα−1 e−λx Γ(α)
ha
0
különben
• f(x)=F'(x); • f(x) ≥ 0;
Ha Cov(X, Y ) = 0, akkor azt mondjuk, hogy X és Y korrelálatlanok. 6
D2 X
a+b 2
(b−a)2 12
1 λ
1 λ2
α λ
α λ2
0
1
m
σ2
2
x √1 e− 2 2π
√1 e 2πσ
−
(x−m)2 2σ 2
Állítás. Legyen X abszolút folytonos eloszlású. Ekkor
Köv.: Cov(X, Y ) = E(XY ) − EXEY .
x≥0
EX
x∈R x∈R
•
R∞
becslése g(ϑ)-nak.
f (x) dx = 1;
Deníció. Er®s konzisztencia:
−∞
• P (X = x) = 0 ∀x-re; • P (a < X ≤ b) = P (a ≤ X < b) = F (b) − F (a).
A Tn (X) becsléssorozat (n = 1, 2, ...) 1 vsz.-gel
er®sen konzisztens becslése a g(ϑ)-nak , ha Tn (X) −−−−−→ g(ϑ) ∀ϑ ∈ Θ
R∞
Abszolút folytonos val.változó várható értéke: EX =
xf (x) dx.
−∞ R∞
Abszolút folytonos val.változó l. momentuma: EX l =
n→∞
n→∞
esetén. Másképpen: Pϑ ({ω : Tn (X(ω)) −−−→ g(ϑ) } )=1 ∀ϑ ∈ Θ esetén. S¶r¶ségfüggvény becslése magfüggvény segítségével n elem¶ mintából: n P i Parzen-Rosenblatt becslés: fn (x) = nh1n , ahol hn alkalmas k x−X hn
xl f (x) dx.
−∞
Tétel. Nagy számok (er®s) törvénye (NSZT):
i=1
0-hoz tartó sorozat. Ez felel meg a mintapont körüli intervallum hossza felének.
Legyenek X1 , X2 , . . . i.i.d. val. változók, EX1 = m < ∞. n n→∞ Ekkor X1 +...+X → m 1 valószín¶séggel. n
Tétel. A Parzen-Rosenblatt becslés konzisztenciája. Alkalmas felté-
Paramétertér: Θ, ahol Θ ⊆ Rp összefügg® és nyílt halmaz.
telek esetén hn -re és a magfüggvényre, az fn (x) Parzen-Rosenblatt becslés aszimptotikusan torzítatlan és er®sen konzisztens becslése a valódi s¶r¶ségfüggvénynek.
Deníció. Torzítatlan becslés:
Állítás.
Becsléselmélet T(X) statisztika torzítatlan becslése g(ϑ)-nak, ha Eϑ T (X) = g(ϑ) ∀ϑ ∈ Θ-ra. Deníció. Legyenek T1 (X) és T2 (X) torzítatlan becslései g(ϑ)-nak. Ekkor azt mondjuk, hogy T1 (X) hatásosabb T2 (X)-nél, ha Dϑ2 (T1 (X)) ≤ Dϑ2 (T2 (X)) minden ϑ ∈ Θ esetén.
• Az eloszlásfüggvény torzítatlan és er®sen konzisztens becslése a tapasztalati eloszlásfüggvény. • A várható érték torzítatlan és er®sen konzisztens becslése a mintaátlag. • A szórásnégyzet aszimptotikusan torzítatlan és er®sen konzisztens becslése a tapasztalati szórásnégyzet. • A szórásnégyzet torzítatlan és er®sen konzisztens becslése a korrigált tapasztalati szórásnégyzet.
Deníció. Hatásos becslés: A T (X) tozítatlan becslést hatásosnak nevezzük, ha minden torzítatlan becslésnél hatásosabb. Tétel. A hatásos becslés egyértelm¶sége.
Ha T1 (X) és T2 (X) hatásos becslései g(ϑ)-nak, akkor minden paraméterértékre 1 valószín¶séggel megegyeznek, azaz Pϑ (T1 (X) = T2 (X)) = 1 ∀ϑ ∈ Θ esetén.
Deníció. Likelihood függvény: Legyen X = (X1 , ..., Xn ) i.i.d. minta
Deníció. Aszimptotikus torzítatlanság: A Tn (X) becsléssorozat (n =
• L(ϑ, x) = fϑ (x) =
n→∞
fϑ (xi ), ha az eloszlás folytonos
i=1
1, 2, ...) aszimptotikusan torzítatlan becslése a g(ϑ)-nak, ha Eϑ Tn (X) −−−→ g(ϑ) ∀ϑ ∈ Θ esetén.
• L(ϑ, x) = Pϑ (X = x) =
n Q
Pϑ (Xi = xi ), ha az eloszlás diszkrét.
i=1
Deníció. Gyenge konzisztencia: A Tn (X) becsléssorozat (n = 1, 2, ...)
Deníció. Log-likelihood függvény: l(ϑ, x) = log(L(ϑ, x)).
sztochasztikusan
gyengén konzisztens becslése a g(ϑ)-nak , ha Tn (X) −−−−−−−−−−→ g(ϑ) n→∞
n Q
Paraméterbecslési módszerek • Maximum likelihood módszer (ML-módszer): Azt a para-
n→∞
∀ϑ ∈ Θ esetén. Másképpen: ∀ > 0-ra Pϑ (|Tn (X) − g(ϑ)| ≥ ) −−−→ 0 ∀ϑ ∈ Θ esetén.
méterértéket keressük, ahol a likelihood függvény a legnagyobb értéket veszi fel: max L(ϑ, x)
Tétel. Elégséges feltétel gyenge konzisztenciára. Ha Eϑ Tn (X) −−−→ n→∞
ϑ
n→∞
g(ϑ) és Dϑ2 Tn (X) −−−→ 0, akkor Tn becsléssorozat gyengén konzisztens
Amennyiben a függvény deriválható ϑ szerint, akkor a maximumot 7
kereshetjük a szokásos módon, az els® és második deriváltak segítségével, azonban a feladatunkat jelent®sen megnehezíti, hogy olyan n-szeres szorzatot kellene deriválni, amelyiknek minden tagjában ott van az a változó, ami szerint deriválnunk kellene. Ezért likelihood függvény helyett a log-likelihood függvény maximumhelyét keressük. Ha ϑ 1 dimenziós, akkor az els®rend¶ feltétel: ∂ϑ l(ϑ, x) = 0 ϑˆ 2 másodrend¶ feltétel: ∂ϑ l(ϑ, x) < 0 Ha ϑ p dimenziós, akkor ϑ = (ϑ1 , ..., ϑp ), az els®rend¶ feltétel: ϑˆi (i = 1, ..., p) ϑˆ = (ϑˆ1 , ..., ϑˆp ) ∂ϑi l(ϑ, x) = 0 másodrend¶ feltétel: H(ϑ1 , ..., ϑp ) = ∂ϑi ∂ϑj l(ϑ, x) i,j=1,...,p Hessemátrix negatív denit a ϑ = ϑˆ helyen
függetlenek egymástól. Mostantól α egy 0-hoz közeli pozitív szám lesz (például 0, 05 = 5%), és vezessük be a következ® jelöléseket: • uα : N (0, 1) eloszlás (1 − α)-kvantilise, azaz uα = Φ−1 (1 − α) • zα := u1−α (sok könyvben ezt használják) • tn,α : n szabadságfokú t-eloszlás (1 − α)-kvantilise • χ2n,α : n szabadságfokú χ2 -eloszlás α-kvantilise α : m, n szabadságfokú F-eloszlás α-kvantilise • Fm,n
Deníció. Kondencia intervallum: Adott α-hoz legalább (1 − α) valószín¶séggel tartalmazza az adott paramétert (vagy annak egy függvényét): Pϑ T1 (X) < ϑˆ < T2 (X) ≥ 1 − α. Gyakran keresünk szimmetrikus kondencia intervallumot, ilyenkor T1 = T2 =: ∆, és az intervallum ϑˆ ± ∆ alakba írható.
• Momentum módszer: A mintából számítható tapasztalati momenP xi
tumokat (mi := nj j ) egyenl®vé tesszük az elméleti momentumokkal (Mi := Eϑ X i ), az els®t®l kezdve, mégpedig annyit, amennyi paraméter van. Tehát p darab ismeretlen paraméter esetén a következ® p ismeretlenes egyenletrendszert oldjuk meg: M1 = m1 .. .
Legyen X1 , ..., Xn ∼ N (m, σ) i.i.d. minta • m-re kondencia intervallum ha σ ismert, akkor x ± u α2 √σn
∗
ha σ ismeretlen, akkor x ± tn−1, α2 √snn •
Mp = mp Megjegyzés: m1 = x
σ 2 -re
kondencia intervallum:
(n−1)·(s∗n )2 (n−1)·(s∗n )2 ; χ2 χ2n−1,1− α n−1, α 2
2
Kondencia intervallum a valószín¶ségre (p) nagy minta esetén, ha normális q eloszlással közelítünk:
Fisher-tétel: Ha ϑ ML-becslése ϑˆ, akkor tetsz®leges g függvény esetén g(ϑ)
pˆ ± u α2
pˆ(1−ˆ p) n .
ˆ. ML-becslése g(ϑ)
Hipotézisvizsgálat Hipotézis ∼ valami állítás, aminek igazságát vizsgálni szeretnénk
Deníció. χ2 -eloszlás:
Az X valószín¶ségi változó n szabadságfokú χ2 eloszlást követ (jel.: X ∼ χ2n ), ha X = U12 + ... + Un2 , ahol Ui ∼ N (0, 1) minden i-re és függetlenek egymástól. Deníció. t-eloszlás: Az X valószín¶ségi változó n szabadságfokú Student-féle t-eloszlást követ (jel.: X ∼ tn ), ha X =
qZ
Yn n
Paramétertér: Θ = Θ0 ∪∗ Θ1 −→ "valóság" Mintatér: X = Xe ∪∗ Xk −→ "látszat" - MINTÁBÓL Xk : kritikus tartomány - azon X meggyelések halmaza, amikre elutasítjuk a nullhipotézist Xe : elfogadási tartomány - azon X meggyelések halmaza, amikre elfogadjuk a nullhipotézist
, ahol Z ∼ N (0, 1) és
Yn ∼ χ2n függetlenek egymástól. Deníció. F-eloszlás: Az X valószín¶ségi változó m, n szabadságfokú Feloszlást követ (jel.: X ∼ Fm,n ), ha X =
Ym m Zn n
Hipotézisvizsgálati feladat: H0 : ϑ ∈ Θ0 H1 : ϑ ∈ Θ1
, ahol Ym ∼ χ2m és Zn ∼ χ2n 8
nullhipotézis ellenhipotézis
Tehát ha X ∈ Xe , akkor elfogadjuk H0 -t; ha X ∈ Xk , akkor pedig elutasítjuk H0 -t. Amennyiben a Θ0 halmaz egyelem¶, akkor azt mondjuk, hogy H0 egyszer¶. H1 -re ugyanígy.
mányba egészen addig, míg az adott α terjedelmet el nem érjük. Diszkrét esetben ehhez általában véletlenítésre van szükség, azaz bizonyos x-ek esetén nem 1 vagy 0, hanem egy, e két szám közé es® (jelöljük pα -val) valószín¶séggel vetjük el a nullhipotézist.
Az X mintatér felosztását általában egy statisztika (neve: próbastatisztika) segítségével végezzük el: legyen T: X → R, Xk = {x ∈ X : T(x) > c} c neve: kritikus érték Xe = {x ∈ X : T(x) ≤ c} Döntés H0 -t "Valóság" elfogadjuk (Xe ) elutasítjuk (Xk ) H0 teljesül (Θ0 ) helyes döntés els®fajú hiba H0 nem teljesül (Θ1 ) másodfajú hiba helyes döntés
Néhány konkrét próba − az α végig a próba terjedelmét jelöli, ami el®re adott 1.) Egymintás próbák
a.) Egymintás u-próba
X1 , . . . , Xn ∼N(m, σ 2 ), ahol σ ismert, m paraméter a.) H0 : m = m0 b.) H0 : m = m0 c.) H0 : m = m0 H1 : m > m0 H1 : m < m0 H1 : m 6= m0 √ X−m0 H0 esetén ∼ N (0, 1) A próbastatisztika: T(X)=u = n σ A kritikus tartományok: a.) Xk = {x : |u| > uα/2 } b.) Xk = {x : u > uα } c.) Xk = {x : u < −uα }
P(els®fajú hiba)=α(ϑ)=Pϑ (Xk ), ahol ϑ ∈ Θ0 P(másodfajú hiba)=β(ϑ)=Pϑ (Xe ), ahol ϑ ∈ Θ1 Er®függvény: ψ : Θ1 → R, ψ(ϑ) = Pϑ (Xk ) Terjedelem: α = sup {α(ϑ): ϑ ∈ Θ0 } Azt mondjuk, hogy az 1-es próba er®sebb a 2-es próbánál, ha α1 = α2 és ψ1 (ϑ) ≥ ψ2 (ϑ) ∀ϑ ∈ Θ1 . Próbafüggvény: ϕ: X →[0,1] ennyi valószín¶séggel vetem el a H0 -t a minta alapján x ∈ Xk ⇒ ϕ(x) = 1 x ∈ Xe ⇒ ϕ(x) = 0 p-érték: az az α terjedelem, ami esetén a próbastatisztika értéke egyenl® a kritikus értékkel : T(x)= cα . A p-érték a legkisebb terjedelem, amire még elutasítjuk a H0 -t. Ha egy próbát számítógép segítségével végzünk el, rendszerint a p-érték révén tudunk dönteni: ha (p-érték)< α, akkor elvetjük H0 -t.
b.) Egymintás t-próba
X1 , . . . , Xn ∼N(m, σ 2 ), ahol σ , m paraméter a.) H0 : m = m0 b.) H0 : m = m0 c.) H0 : m = m0 H1 : m 6= m0 H1 : m > m0 H1 : m < m0 √ X−m0 H0 esetén A próbastatisztika: T(X)=t = n s∗ ∼ tn−1 n A kritikus tartományok: a.) Xk = {x : |t| > tn−1,α/2 } b.) Xk = {x : t > tn−1,α } c.) Xk = {x : t < −tn−1,α } 2.) Kétmintás próbák
Ha mind H0 , mind H1 egyszer¶, akkor adott α terjedelemhez lehet leger®sebb próbát találni, ezt pedig úgy hívják, hogy valószín¶ség-hányados próba. A hipotéziseket folytonos esetre írom fel. Diszkrétre a s¶r¶ségfüggvény helyett a konkrét eloszlást kell írni. H0 : f = f0 H1 : f = f1 n o A valószín¶ség-hányados próba kritikus tartománya: Xk = x : ff10 (x) > c α (x) Tehát azokat az x-eket, amire az
f1 (x) f0 (x)
X1 , . . . , Xn ∼N(m1 , σ12 ) Y1 , . . . , Ym ∼N(m2 , σ22 ) Az elvégzend® próbák H0 : m1 = m2 nullhipotézis esetén: σ1
és
σ2
ismert
a két minta
a két minta
független
nem független
b.) kétmintás u-próba
egymintás u-próba a különbségekre
el®zetes F-próba
σ1
nagy, bepakoljuk a kritikus tarto9
és
σ2
ismeretlen
σ1 = σ2
σ1 6= σ2
egymintás t-próba
c.) kétmintás t-próba
d.) Welch-próba
a különbségekre
a.) F-próba
Osztályok Valószín¶ségek Gyakoriságok
m1 , m2 , σ1 , σ2 paraméterek H0 : σ1 = σ2 és H1 : ami a szövegkörnyezetben értelmes ∗2 (s∗1 )2 H0 esetén ∼ Fn−1,m−1 ha s∗1 > s∗2 2) A próbastatisztika: F = (s ∗ 2 (s2∗ )2 H0 esetén ∼ Fm−1,n−1 ha s∗2 > s∗1 (s )
b.) kétmintás u-próba
i=1
m1 , m2 paraméterek, σ1 , σ2 ismert H0 : m1 = m2 és H1 : ami a szövegkörnyezetben értelmes H0 esetén A próbastatisztika: u = rX−Y ∼ N(0,1) 2 2
(n−1)(s1 ) +(m−1)(s2 ) n+m−2
d.) Welch-próba
m1 , m2 , σ1 6= σ2 paraméterek H0 : m1 = m2 és H1 : ami a szövegkörnyezetben értelmes H0 esetén A próbastatisztika: t0 = r ∗X−Y ∼ tf , ahol ∗ 2 2 =
c=
c2 n−1
+
(s2 ) m
(1−c)2 m−1
2 (s∗ 1) n ∗ 2 (s1 )2 (s∗ 2) + m n
Összesen 1 n
H0 esetén
−→
χ2r−1 eloszlásban, ha n → ∞
lyen eloszlású, viszont a paramétereir®l nincs sejtésünk. Ilyenkor amennyiben ML-módszerrel becsüljük meg az s darab ismeretlen paramétert, akkor H esetén a próbastatisztika: Tn 0−→ χ2r−1−s eloszlásban, ha n → ∞. Nagyon fontos: a próba csak akkor hajtható végre, amennyiben az egyes osztályokban elegend® számú gyakoriság szerepel. Nem egyértelm¶, milyen határvonalat húzzunk meg. Hüvelykujjszabályként azt lehet mondani, hogy a kisebb mintáknál legalább 3, közepeseknél legalább 5, nagyobbaknál legalább 10 elem szerepeljen az egyes cellákban. Általánosan korlátként lehet √ alkalmazni még a 5 n számot. Amennyiben a cellákban túl alacsony a gyakoriságok száma, akkor az érintett osztályokat össze kell vonni. Illeszkedésvizsgálat "szemmel": Q-Q plot és P-P plot Jelölje F az illesztett eloszlás eloszlásfüggvényét, x∗k pedig a k. rendezett mintaelemet. Q-Q plot: az illesztett eloszlás kvantiliseit vetjük össze kvan a tapasztalati k ∗ −1 tilisekkel, azaz a következ® pontokat ábrázoljuk: F n+1 , xk , ahol k = 1, ..., n. P-P plot: az illesztett eloszlás valószín¶ségeit vetjük össze a tapasztalati vak , F (x∗k ) , ahol lószín¶ségekkel, azaz a következ® pontokat ábrázoljuk: n+1 k = 1, ..., n. Mindkét ábránál be szokták húzni a 45 fokos egyenest és minél jobban rásimulnak a pontok az egyenesre, annál jobbnak tekinthet® az illeszkedés.
m1 , m2 , σ1 = σ2 paraméterek H0 : m1 = m2 és H1 : ami q a szövegkörnyezetben értelmes H0 esetén nm r X−Y A próbastatisztika: t = n+m ∼ tn+m−2 ∗ 2 ∗ 2
1 f
r pr Nr
Becsléses illeszkedésvizsgálat : csak annyit "sejtünk", hogy a minta valami-
c.) kétmintás t-próba
+
... ... ...
A kritikus tartomány: Xk = {x : Tn (x) > χ2r−1,1−α }
σ + m2
(s1 ) n
2 p2 N2
H0 : a valószín¶ségek: p=(p1 , . . . , pr ) H1 : nem ezek a valószín¶ségek r P (Ni −npi )2 A próbastatisztika: Tn = npi
1
σ1 n
1 p1 N1
, ha s∗1 > s∗2
χ2 -próbák
a.) Diszkrét illeszkedésvizsgálat
Feladat: adott egy X = (X1 , . . . , Xn ) n elem¶ minta, és azt akarjuk eldönteni, hogy a minta egy általunk "remélt" eloszlásból származik-e. Diszkrét illeszkedésvizsgálatnál feltesszük, hogy a mintaelemek r különböz® értéket vehetnek fel: P(Xi = xj ) = pj j = 1, . . . , r. Jelöljük Nj -vel a gyakoriságokat, azaz azt, hogy az n elem¶ mintában hány darab xj szerepel.
b.) Diszkrét homogenitávizsgálat Feladat: van két független minta, mindkett® egy közös szempont szerint
r osztály egyikébe sorolva. Azt kell eldönteni, hogy a két minta azonos eloszlásúnak tekinthet®-e.
10
Osztályok
1
2
...
r
Összesen
p1 N1
p2 N2
... ...
pr Nr
1 n
1. minta
Valószín¶ségek Gyakoriságok
2. minta
2
12 N21 ) Ha r = s = 2, akkor a próbastatisztika Tn = n · (NN111•NN222•−N N•1 N•2 -re egyszer¶södik, az aszimptotikus eloszlás pedig 1 szabadságfokú χ2 .
Valószín¶ségek q1 q2 . . . qr 1 Gyakoriságok M1 M 2 . . . Mr m H0 : a valószín¶ségek: (p1 , . . . , pr ) = (q1 , . . . , qr ) H1 : nem ezek a valószín¶ségek 2 Ni M r − mi P H0 esetén 2 n −→ χr−1 eloszlásban, ha n → ∞ A próbastat.: Tn,m = Ni +Mi
Feladat: Y val. változót szeretnénk közelíteni X val. változó lineáris függvénye segítségével:
A kritikus tartomány: Xk = {x : Tn,m (x) > χ2r−1,1−α }
Feladat (lineáris regresszió): Adottak (x1 , y1 ), . . . , (xn , yn ) pontok, ezekre szeretnénk egyenest illeszteni (neve: regressziós egyenes ) legkisebb négyzetek módszerével. A modell: Yi =PaXi + b + εi , ahol Eεi = 0 és D2 εi = σ 2 < ∞ (i = 1, . . . , n) Pi −x)(yi 2−y) , ˆ Megoldás: a ˆ = (x b=y−a ˆx (xi −x) Reziduumok: εˆi = yi − a ˆxi − ˆb (i=1,. . . , n) P P P Pi −x)(yi 2−y) Reziduális négyzetösszeg: RNÖ= εˆ2i = (yi − y)2 − (x (xi −x)
E[Y − (aX + b)]2 −→ min a,b
c.) Függetlenségvizsgálat
Feladat: van egy minta, két szempont szerint csoportosítva. Azt kell eldönteni, hogy a két szempont független-e egymástól. pi,j =P(egy meggyelés az (i,j) osztályba kerül) Ni,j =ennyi meggyelés kerül az (i,j) osztályba
1. szempont
1 .. . i .. . r
Összesen s P ahol Ni• = Nij j=1
σ ˆ2 =
1 N11 .. .
2. szempont ... j ... . . . N1j . . . .. .
s N1s .. .
Összesen N1• .. .
Ni1 .. .
Nij .. .
Nis .. .
Ni• .. .
Nrs N•s
Nr• n
Nr1 N•1
...
... ...
és N•j
...
Nrj . . . N•j . . . r P = Nij
aopt =
Cov(X,Y ) D2 (X)
bopt = EY − aopt EX
i=1
A mintavétel eredménye:
Megoldása:
RNÖ
n−2
P (xi −x)(yi −y) . P (xi −x)2 · (yi −y)2
Tapasztalati korrelációs együttható: R = √P
Ennek négy-
zetét, R2 -et determinációs együttható nak hívjuk, és ezzel mérjük a modell jóságát. Az R2 mutatja meg, hogy százalékban a modell az Y változékonyságából mennyit magyaráz meg. Értéke 0 és 1 között lehet, ha 0-hoz közeli, akkor a modell gyengén teljesít, ha 1-hez, akkor jól.
i=1
H0 : a szempontok függetlenek, azaz pi,j = pi• · p•j ∀i, j -re H1 : nem azok ! r P s 2 P Ni,j H0 esetén 2 A próbastatisztika: Tn = n −→ χ(r−1)(s−1) eloszNi• N•j − 1 i=1 j=1
lásban, ha n → ∞ A kritikus tartomány: Xk = {x : Tn (x) > χ2(r−1)(s−1),1−α } 11