Informatika II.
Széchenyi István Egyetem
4. előadás Statisztikai alkalmazások, Trendvonalak, regresszió Dr. Szörényi Miklós, Dr. Kallós Gábor 2013–2014 11
Informatika II.
Széchenyi István Egyetem
Tartalom Statisztikai alapfogalmak Populáció, mérési skálák, hisztogram Alapstatisztikák: átlag, módusz, medián, tapasztalati szórás Lapultság, ferdeség Korreláció
Az Excel statisztikai (alap)függvényei Az adatelemzés bővítmény Példafeladat Alapstatisztikák, gyakoriság, leíró statisztika
Trendvonalak Lineáris, polinomiális, logaritmikus és exponenciális közelítések
Többváltozós regresszió
2
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak (Statisztikai) populáció ~ alapsokaság population A vizsgálandó egyedek vagy objektumok adatainak az a (teljes) köre, amelyre a vizsgálat irányul, azaz amelyre következtetéseinket vonatkoztatni szeretnénk
Minta sample A vizsgálandó egyedek vagy objektumok adatainak az a köre, amelyeket ténylegesen megvizsgálunk, azaz amelyeken következtetéseink alapulnak
Megfigyelési egység observational vagy experimental unit A populáció, illetve a minta egy eleme, egy egyed vagy objektum adata, amelyet feljegyezünk (lehet egy ember vagy állat, egy vérminta, egyedek egy csoportja, pl. egy család, stb. adata)
Változó variable Adat, jellemző, ismérv, tulajdonság, amelyet a mintabeli egyedeken megfigyelünk, megmérünk, feljegyzünk (életkor, testtömeg, kapott kezelés típusa, időtartama, stb.) A mintán megfigyelt adatokat az adatmátrix tartalmazza; szokásos elrendezésében minden sor egy mintavételi egységnek és minden oszlop egy változónak felel meg 3
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Mérési skálák measurement scales Nominális nominal – csak kategóriák, se rendezés, se aritmetika (szemszín, foglalkozás) Ordinális ordinal – rendezés van, aritmetika nincs („jó – közepes – rossz”, katonai rendfokozat) Intervallum interval – a különbség értelmes, az arány nem (°C vagy ºF) Arány vagy abszolút rate, absolute – az arány is értelmes, van abszolút 0 (testtömeg) Konverzió intervallum vagy abszolút skáláról ordinálisra Csoportosítás, pl. életkor helyett korcsoport, testtömeg helyett „kicsiközepes-nagy“, stb. vagy Rangsorolás (az adatokat sorba rendezzük és rangszámot rank adunk nekik), pl.
4
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Hisztogram histogram: tapasztalati sűrűségfüggvény Vízszintes tengelyén: osztályintervallumok, fölötte olyan téglalapok, amelyek területe megegyezik a megfelelő relatív, vagy százalékos gyakorisággal Így a hisztogram teljes területe 1, vagy 100% lesz Diszkrét változó esetén a változó értékei az intervallumok közepén helyezkednek el A hisztogram – ha a minta elemszámát növeljük – közelíti a valószínűségi változó elméleti sűrűségfüggvényét (Hisztogram helyett gyakorisági poligon is rajzolható)
(Kumulatív hisztogram ~ tapasztalati eloszlásfüggvény) 5
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Alapstatisztikák Az eloszlás közepére vonatkozóak: az átlag, a medián és a módusz Átlag average, mean Legyenek a minta elemei x1, x2, …, xn Ekkor: Az átlag az az érték, amely a „legközelebb” van a minta elemeihez A mintabeli értékek és a mintaátlag közti eltérések összege mindig 0
Módusz mode A leggyakrabban előforduló érték, jelölés: M0
Medián median Sorbarendezett adatok középső eleme (50%-os vágóérték), jelölés: Me
Percentilis: adott százalékos vágóérték Kvartilis (alsó, felső): 25, ill. 75%-os vágóérték Jelölés: Q1 és Q3, Q2 a medián 6
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Alapstatisztikák (folyt.) Tapasztalati szórás és szórásnégyzet vagy más néven variancia variance A szórás a variancia négyzetgyöke (a képletben s a szórás, ennek négyzete pedig a variancia, s2) A szórás azt mutatja meg, hogy az adataink átlagosan milyen távol helyezkednek el a számtani középtől
Egyes esetekben – csak normális eloszlásúnak tekinthető val. változó esetén – az ún. korrigált tapasztalati szórást (Standard Deviation: SD) használjuk *Miért n – 1-gyel osztunk: eggyel csökken a szabadsági fok (normális eloszlás) A programok általában használják a korrigált szórást is (nagy n esetén alig van eltérés, csak kicsi mintaelemszám esetén van szerepe)
7
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Alapstatisztikák (folyt.) Ha a mintából készített hisztogram elég jól közelíti a normális görbét, akkor a normális eloszlás táblázatából kiolvasható, hogy az ( x − s, x + s ) intervallumban van adataink kb. 68%-a (kb 2/3-a), az ( x − 2 s, x + 2 s ) intervallumban van kb. 95%-a, az ( x − 3s, x + 3s ) intervallumba pedig kb. 99,7%-uk esik (majdnem mind)
Standard hiba (standard error, SE) teljes neve „a mintaátlag standard hibája”, azaz szórása SE ( x ) = SD( X ) / n (itt n a mintaelemszám): Szemléletes jelentés: 100-szor több adatból 10-szer pontosabb statisztikai eredményt kapunk
Matematikailag bizonyítható (Centrális határeloszlás tétel), hogy függetlenül a mintaelemek eloszlásától, a minta átlagának eloszlása mindig a normális eloszláshoz tart, és az átlag várható értéke a populáció várható értékével egyezik meg Kísérletsorozat: Az első felbukkanó szám nem rögzített, más és más lehet; de pl. tíz felbukkanó szám után már lehet tapasztalatokat levonni
Pl. kérdőíves felmérésnél megbecsüljük, hogy hány adat alapján lehet kellően megbízható kijelentést tenni (a korlátot a populáció mérete is befolyásolja) De: egy bizonyos elemszám felett a becslés megbízhatósága már csak kevéssé javul (pártszimp. felmérés Mo-on, 1000 vagy 2000 fő – majdnem mindegy, de a 2000 jóval drágább)
8
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Lapultság kurtosis Az eloszlás lapultságára, csúcsosságára vonatkozó statisztika Normális eloszlás esetén értéke 0, laposabb eloszlás esetén negatív, csúcsosabb eloszlás esetén pozitív
Aszimmetria asymmetry ill. ferdeség skewness Az eloszlás aszimmetriájára, ill. ferdeségére vonatkozó statisztika Az aszimmetria mérhető a módusz és a medián segítségével is, pl.: x − M s Szimmetrikus esetben a mérőszámok értéke 0 (ekkor: módusz = medián és a kvartilisek átlaga = medián, de fordítva nem igaz a következtetés!) Aszimmetria: jobboldali kidudorodásnál negatív mérőszámok (jobboldali aszimmetria), baloldalinál pozitív Ferdeség: jobboldali kidudorodásnál szintén negatív mérőszámok (de: ez a balra ferde eloszlás) 0
9
Informatika II.
Széchenyi István Egyetem
Statisztikai alapfogalmak Korreláció correlation Két változó közötti kapcsolat erősségének mérőszáma („együttfutás”) Pl. igaz-e, hogy ha kétszer akkora az autó tömege, akkor a fogyasztása is jóval nagyobb?
Teljesül: − 1 ≤ r ≤ 1 1 közeli értékek: erős kapcsolat; –1 közeli értékek: erős, de szembefutó kapcsolat; 0 közeli értékek: gyenge kapcsolat, függetlenség feltételezhető Ábrázolás: a pontokat összekötni nem szabad, de trendvonal húzható
Kovariancia covariance Szintén változók közötti függőségek mérésére; a korreláció a kovariancia skálázott változata (osztjuk a szórásokkal)
R-négyzet A korrelációs együttható négyzete, mindig nemnegatív
10
Informatika II.
Széchenyi István Egyetem
Az Excel statisztikai függvényei (Részben eml.: múlt félév) Átlag, Módusz, Medián, Kvartilis, Percentilis, Szórás, Var Kicsi, Nagy, Ferdeség, Csúcsosság Korrel, Kovar, Rnégyzet, Gyakoriság – blokkfüggvény
11
Informatika II.
Széchenyi István Egyetem
Az Excel adatelemzés bővítménye Az Analysis ToolPak (Adatelemzés) bővítmény sok statisztikai lehetőséget kínál, néhány fontosabb (egyszerűbb): Leíró statisztika Korreláció-analízis Hisztogram Véletlenszám-generálás Többváltozós lineáris regresszió Statisztikai próbák
Indítás: Adatok menüszalag Ha nem látjuk: bekapcsolás a szokásos módon (Fájl backstage) Ezután a megfelelő elem kiválasztható
12
Informatika II.
Széchenyi István Egyetem
Példafeladat (autók) Alapstatisztikák
13
Informatika II.
Széchenyi István Egyetem
Példafeladat (autók) Gyakoriság és hisztogram (tömeg)
14
Informatika II.
Széchenyi István Egyetem
Példafeladat (autók) Egyváltozós (leíró) statisztikák Numerikus adatokra kérhető
15
Informatika II.
Széchenyi István Egyetem
Példafeladat (autók) Korrelációs mátrix Elég a mátrix felét vizsgálni (pl. alsó háromszög)
16
Informatika II.
Széchenyi István Egyetem
Példafeladat (autók) Regressziós becslés az autók árára ár = a1*tömeg + a2*teljesítmény + … + c Az együtthatók értéke becsülhető, de ez már egy „munkás” feladat Végül: a becsült ár és a tényleges ár összehasonlítható (alul- és túlárazott autók)
17
Informatika II.
Széchenyi István Egyetem
Trendvonal, regresszió Az Excel lehetővé teszi adatsorok tendenciáinak vizsgálatát, és előrejelzések is készíthetők A trend lehet: lineáris, polinomiális (többféle fok megadható), logaritmikus, exponenciális Kérhetjük a közelítő egyenlet és az R-négyzet értékének megjelenítését
18
Informatika II.
Széchenyi István Egyetem
Trendvonal, regresszió További információk pl. a hivatalos Office oldalról
19
Informatika II.
Széchenyi István Egyetem
Trendvonal, regresszió A legkisebb négyzetek módszere (szemléltetés)
20
Informatika II.
Széchenyi István Egyetem
Többváltozós regresszió Tipikus feladat: mérési vagy gazdasági adatokhoz minél pontosabban illeszkedő (összetettebb) függvényt kell találnunk, ahol a függvény bizonyos jellemzőit/tulajdonságait ismerjük A jelenség elméleti modellje alapján (szakmai gyakorlatból jövő tudás) Összetettebb: a függvény most nem „sima” lineáris, négyzetes vagy logaritmikus, hanem több tényezőből, tagból áll
A mi mostani feladatunk Egy mérés eredménye zajjal terhelt Most az alapjel és a zajos jel is adott (a zaj nálunk véletlen számokkal generált)
Készítsünk minél pontosabb regressziós függvényt, ha tudjuk, hogy a függvény ae-dxsin(bx + c) + e alakba írható, és nagyjából meg tudjuk becsülni az a, b, c, d, e paraméterek értékét
Megoldás Felírjuk a regressziós közelítő függvény képletét Meghatározzuk a regressziós (négyzetes) eltérést pontonként Az eltérés négyzetösszegét a Solver segítségével minimalizáljuk 21
Informatika II.
Széchenyi István Egyetem
Többváltozós regresszió
22
Informatika II.
Széchenyi István Egyetem
Többváltozós regresszió
23