Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo˝ szakirány
Varga László Valószínuségelméleti ˝ és Statisztika Tanszék Matematikai Intézet Természettudományi Kar Eötvös Loránd Tudományegyetem
Honlap: vargal4.elte.hu E-mail:
[email protected] Szoba: D 3-309
2017. március 6.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
1 / 72
Tudnivalók a tantárgyról ˝ Kötelezo˝ irodalom: az eloadásokon elhangzottak – a bemutatott módszerek, definíciók, tételek, bizonyítások, példák, ellenpéldák, feladatok, feladatok, feladatok, feladatok. Ja, és a feladatok. Ajánlott irodalom: Korpásné: Általános statisztika I. tankönyv leíró statisztikához Molnárné-Tóthné: Általános statisztika példatár I. példatár leíró statisztikához Bolla-Krámli: Statisztikai következtetések elmélete. tankönyv matematikai statisztikához Fazekas (szerk.): Bevezetés a matematikai statisztikába. tankönyv matematikai statisztikához Móri-Szeidl-Zempléni: Matematikai statisztika példatár. Pröhle-Zempléni: Statistical Problem Solving in R. Elérési helye: http://zempleni.elte.hu/Stat_R_Prohle_Zempleni ˝ a benne szereplo˝ statisztikai témák erosen ˝ R programnyelv bevezeto, ˝ átfednek az eloadással Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
2 / 72
Tudnivalók a tantárgyról Gyakorlat Gyakjegy szükséges ahhoz, hogy vizsgázhass. ˝ majd a gyakorlaton... A gyakjegy feltételeirol A folyamatos gyakorlás, feladat-, problémamegoldás nagyon fontos, anélkül nem lehet elsajátítani a tananyagot!
Vizsga: írásbeli, 2-3 órás, 100 pontos ˝ feladatok) Nagy része feladatmegoldás (tesztes és kifejtos Definíciók, tételek, bizonyítások, módszerek bemutatása R nyelvu˝ számítógépes output-ok, számítások végeredményeinek kiértékelése, szöveges értelmezése Két részes: I. rész: 40 pontos, minimum 60%-ot (24 pontot) el kell érni – tesztfeladatok, definíciók, tételek, rövid keresztkérdések ˝ ˝ kérdések II. rész: 60 pontos: foleg kifejtos
Számológép (6= mobiltelefon) használható karó (1) 0 – 34,99 elégséges (2) 35 – 49,99 50 – 64,99 Osztályozás: közepes (3) jó (4) 65 – 79,99 jeles (5) 80 – 100 Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
3 / 72
A tananyagról
Tervezett tematika: a honlapomon – ld. syllabus A Statisztika két fo˝ ága: Leíró statisztika (3-4 héten keresztül) Matematikai statisztika (9-10 héten keresztül) Néhol van/lesz átfedés
A matematika a táblán fog megszületni; a leíró statisztikai anyagrészek nagy része, közérdeku˝ infók, feladatok szövegei, érdekességek, szimulációk, egyéb ábrák lesznek kivetítve Mindig gondold végig, hogy amit kiszámoltál, hogyan tudod szövegesen, értelmes és szép, kerek magyar mondatban értelmezni!
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
4 / 72
Szimulációkhoz használt szoftver/programnyelv: R Statisztikai modellezésre, adatok elemzésére kiválóan alkalmas programnyelv Gyakorlaton mindenki használni fogja Nyílt forráskódú, ma már alig van probléma, feladat, aminek a megoldására ne lenne valamilyen package – akár több is Népszerusége ˝ 2017 februárjában az összes programozási nyelv ˝ mezonyében: 9. hely – PYPL index 16. hely – TIOBE index
Jelenleg a legelterjedtebb matematikai célú programnyelv ˝ A gyakorlaton mindenki használni fogja, az eloadáson ezzel mutatok be szimulációkat, a vizsgán kell R-es output-ot elemezni/értelmezni (a gyakomon is lesznek R-es beadandók) Letöltési helye: https://cran.r-project.org/ Szövegszerkesztésre ajánlott szoftver: RStudio letöltési helye: https: //www.rstudio.com/products/rstudio/download3/ Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
5 / 72
A statisztika története Kezdetek: népszámlálások az ókorban (Kína, Római Birodalom) A statisztika szó eredete (vitatott): status [latin]: állapot Staat [német]: állam
Sokáig a statisztika az állam állapotáról fontos információk begyujtését ˝ jelentette. Tudománnyá válásának kezdete: 17. század – demográfia (népesség/társadalomstatisztika) A 19. századtól a statisztika mindenféle információ begyujtésének, ˝ feldolgozásának és értelmezésének a tudományává vált Összekapcsolódás a valószínuségelmélettel ˝
˝ A számítógépek megjelenésével fejlodése felgyorsult és ˝ ˝ jelentosége megnott A statisztika megítélése vegyes, az eredményeket mindig kritikusan kell szemlélni Churchill: "I only believe in statistics that I doctored myself " (Csak azoknak a statisztikáknak hiszek, amiket én magam hamisítottam.) Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
6 / 72
Motiváció Kérdések, amikre statisztikai eszközökkel – bizonyos mértékig – választ tudunk adni: Az idei egy nagyon hideg január volt a Kárpát-medencében. Állíthatjuk-e, hogy nincs is globális felmelegedés? A dohányzás mennyivel növeli annak az esélyét, hogy valaki 70 ˝ éves koráig tüdorákban betegszik meg? A legutóbbi USA-beli elnökválasztáson a közvélemény-kutatók ˝ átlagosan Wisconsin államban közvetlenül a választás elott ˝ 6,5%-os Clinton-elonyt mértek. Mi az esélye, hogy Wisconsin-ban ˝ Trump fog gyozni? [ 0,7%-kal Trump nyert] Vajon állíthatjuk-e, hogy egy év során a bizonyos méretet ˝ tudjuk meghaladó napfoltok száma Poisson-eloszlást követ? Elore jelezni a múltbeli adatok alapján, hogy 2017-ben hány napfoltot fognak észlelni? Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
7 / 72
A statisztika fogalma és ágai
Statisztika: a valóság tömör, számszeru˝ jellemzésére szolgáló tudományos módszertan, illetve gyakorlati tevékenység. Ágai: Leíró statisztika: magában foglalja az információk összegyujtését, ˝ összegzését, tömör, számszeru˝ jellemzését szolgáló módszereket Matematikai statisztika: matematikai tudomány, a valószínuségi ˝ változókkal jellemezheto˝ jelenségek leíró adatainak feldolgozásáról, ˝ és felhasználásáról szóló tudományos módszertan értelmezésérol Megjegyzés: a statisztika szó másik jelentése – matematikai statisztikai értelemben a statisztika egy valószínuségi ˝ (vektor)változó, ˝ bovebben) ˝ amit a mintából számolunk (késobb
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
8 / 72
Leíró statisztikai alapfogalmak I. Statisztikai egység: a statisztikai vizsgálat tárgyát képezo˝ egyed Statisztikai sokaság: a megfigyelés tárgyát képezo˝ egyedek összessége, halmaza. Röviden: sokaság. Statisztikai adat: valamely sokaság elemeinek száma vagy a ˝ mérési sokaság valamilyen másféle számszeru˝ jellemzoje, eredmény. Statisztikai ismérv: a sokaság egyedeit jellemzo˝ tulajdonság. Röviden: ismérv. Ismérvváltozatok: az ismérvek lehetséges kimenetelei. Minta: a sokaság véges számosságú részhalmaza. [A minta más ˝ késobb...] ˝ értelmezéseirol Statisztikai következtetés: a valóságban a teljes sokaságot nem tudjuk vagy akarjuk megfigyelni, ezért csak az egyedek egy szukebb ˝ csoportját figyeljük meg. A viszonylag kisszámú egyedre vonatkozó információk alapján szeretnénk a teljes sokaság egészére, egyes ˝ jellemzoire, tulajdonságaira érvényes következtetéseket kimondani. Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
9 / 72
Leíró statisztikai alapfogalmak Példák: Sokaság: Statisztikai egység: Adat: Ismérv: Ismérvváltozatok: Minta:
most a teremben lévo˝ homo sapiensek a teremben lévo˝ oktató a legmagasabb hallgató testtömegindexe nem férfi (→ 1), no˝ (→ 0) 5 véletlenül választott hallgató
Sokaság:
az ELTE TTK Matematikai szakgyujteményében ˝ lévo˝ könyvek a BF 13873 raktári jelzetu˝ könyv a szakgyujteményben ˝ lévo˝ könyvek száma oldalak száma 631, 321, 153, 463, . . . a Rényi: Valószínuségszámítás ˝ címu˝ könyvek
Statisztikai egység: Adat: Ismérv: Ismérvváltozatok: Minta: Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
10 / 72
Leíró statisztikai alapfogalmak A sokaságok csoportosítása: ˝ 1.) A sokaság egységeinek megkülönböztethetosége szerint: diszkrét: a sokaság egységei elkülönülnek egymástól folytonos: a sokaság egységeit nem tudjuk természetes módon elkülöníteni (pl. bauxittermelés)
˝ ˝ ˝ 2.) A sokaság idopontra vagy idotartamra értelmezheto-e: ˝ álló: csak egy adott idopontra értelmezheto˝ ˝ mozgó: csak egy adott idotartamra értelmezheto˝
3.) A sokaság számossága szerint: véges (a gyakorlatban általában ilyenekkel foglalkozunk) végtelen
A statisztikai adatok fajtái: Alapadatok: közvetlenül a sokaságból származnak (méréssel, megszámlálással) Leszármaztatott adatok: alapadatokból muveletek ˝ eredményeként adódnak (pl. átlagolással, osztással) A statisztikai adatok nem mindig pontosak – a mért és a tényleges adat eltérhet egymástól, például kerekítési okokból. Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
11 / 72
Feladatok
E1.) Döntsd el, hogy az alábbiak egy sokaságot definiálnak, a sokaság egy-egy egyedére vonatkoznak, vagy statisztikai adatok! A sokaságok és az adatok esetében határozd meg azok típusát! a.) az épület melletti parkolóban álló autók száma b.) az épület melletti parkolóban álló autók c.) az épület melletti parkolóban álló ASY-766 rendszámú Opel Vectra d.) az épület melletti parkolóban álló Opelek aránya e.) az egy hét alatt legyártott selejtes termékek f.) bankszámlámon jóváírt kamatok ˝ ˝ eléro˝ másodéves hallgató (nem g.) az oszi ELTE 5 km-en legjobb idot volt holtverseny)
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
12 / 72
Leíró statisztikai alapfogalmak Az ismérvek típusai I. ˝ ◦ minoségi ismérv: az egyedek számszeruen ˝ nem mérheto˝ tulajdonsága ◦ mennyiségi ismérv: az egyedek számszeruen ˝ mérheto˝ tulajdonsága. Két fajtájukat különböztetjük meg: diszkrét: véges vagy megszámlálhatóan sok értéket vehet fel folytonos: egy adott intervallumon belül kontinuum számosságú értéket felvehet
˝ ˝ ˝ ◦ idobeli ismérv: az egységek idobeli elhelyezésére szolgáló rendezoelvek ˝ ◦ területi ismérv: az egységek térbeli elhelyezésére szolgáló rendezoelvek
Az ismérvek típusai II. ◦ közös ismérvek: tulajdonságok, amik szerint a sok. egyedei egyformák ◦ megkülönbözteto˝ ismérv: azok a tulajdonságok, amik szerint a sokaság egyedei különböznek egymástól Legyen a sokaság: a teremben lévo˝ hallgatók. Példák ismérvekre: ˝ minoségi: szemszín, nem közös: ˝ diszkrét mennyiségi: testvérek száma megkülönbözteto: folytonos mennyiségi: testmagasság ˝ idobeli: születési ido˝ területi: születési hely Varga László (ELTE)
Leíró és matematikai statisztika
orrok száma testsúly
2017. március 6.
13 / 72
Leíró statisztikai alapfogalmak Mérési skálák (mérési szintek): Névleges (nominális): a számok csak ún. kódszámok, amik a sokaság egyedeinek azonosítására szolgálnak. Ezek között matematikai relációkat és muveleteket ˝ nincs értelme végezni. Pl. a hallgatók neme. Sorrendi (ordinális): a sokaság egyedeinek valamely tulajdonság alapján sorba való rendezése. Az egyedek tulajdonsága közötti különbséget nem lehet mérni. Pl. a hallgatók jegyei egy tárgyból. Intervallumskála: a skálaértékek különbségei is valós információt ˝ A skálán a nullpont meghatározása adnak a sokaság egyedeirol. önkényes. Ilyen skálákhoz mértékegység is tartozik. Pl. ˝ homérséklet. Arányskála: a skálának van valódi nullpontja is. Minden matematikai muvelet ˝ elvégezheto˝ ezekkel a számokkal. Pl. a hallgatók magassága. [Metrikus skála: intervallum- és arányskála közös neve – ritkábban használatos elnevezés] Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
14 / 72
Leíró statisztikai alapfogalmak
Az ismérvek és a mérési skálák kapcsolódása: Területi
/ Nominális 5
˝ Minoségi
/ Ordinális 5
Mennyiségi
/ Különbségi 5
˝ Idobeli
Varga László (ELTE)
)
Leíró és matematikai statisztika
Arány
2017. március 6.
15 / 72
Feladatok
E2.) Határozd meg, hogy a következo˝ ismérvek milyen típusúak és ˝ Mennyiségi ismérvek esetén állapítsd hogy milyen skálán mérhetok! meg, hogy az adott ismérv diszkrét vagy folytonos! a.) szemszín b.) testmagasság ˝ c.) homérséklet d.) munkahely e.) születési ido˝ f.) egy vállalat bérköltsége
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
16 / 72
Leíró statisztikai alapfogalmak ˝ Statisztikai sor: a sokaság egyes jellemzoinek felsorolása. ˝ ˝ Az ismérvek fajtája szerint beszélhetünk minoségi, mennyiségi, idobeli és területi sorokról. A statisztikai sorok további csoportosítása: Csoportosító sor: a sokaság egy megkülönbözteto˝ ismérv szerinti ˝ (van osztályozásának eredménye; az adatok összegezhetok ’Összesen’ sor) Összehasonlító sor: a sokaság egy részének a sokaságot egy megkülönbözteto˝ ismérv szerinti osztályozásának eredménye; az ˝ adatok nem összegezhetok Leíró sor: különbözo˝ fajta, gyakran eltéro˝ mértékegységu˝ statisztikai adatokat tartalmaz Például ha egy statisztikai sor tartalmazza az osztályteremben a ˝ hallgatókat nemek szerint, akkor ez a sor minoségi csoportosító sor. Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
17 / 72
Leíró statisztikai alapfogalmak
Statisztikai tábla: a statisztikai sorok összefüggo˝ rendszere. A statisztikai táblák fajtái: Egyszeru˝ tábla: nem tartalmaz csoportosítást, nincs benne összegzo˝ sor Csoportosító tábla: egyetlen csoportosító sort tartalmaz Kombinációs tábla vagy kontingenciatábla vagy kereszttábla: legalább két csoportosító sort tartalmaz
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
18 / 72
Feladatok E3.) Milyen típusúak az alábbi táblák és milyen típusú sorokat tartalmaznak? Határozd meg a táblázatbeli csoportosítás alapját képzo˝ ismérvek típusát és azok mérési skáláját! a.) Egy vállalatnak 10 telephelye van. Három telephely dolgozóinak megoszlása életkor szerint: Életkor (év) 18–30 31–40 41–50 50–62 Összesen
2. telephely 20 20 20 20 80
8. telephely 20 30 30 20 100
9. telephely 30 20 50 10 110
b.) Egy golfklub tagjainak megoszlása nem és testtömegindex szerint: Testtömegindex –25 25–30 30– Összesen Varga László (ELTE)
Férfi 30 10 5 45
No˝ 20 5 2 27
Összesen 50 15 7 72
Leíró és matematikai statisztika
2017. március 6.
19 / 72
Feladatok ˝ c.) A szobámban lévo˝ sok növény közül két növény néhány jellemzoje: A növény neve Súly (kg) Magasság (cm) Tüskék száma (db) Miss Jukka 2,4 52 0 Mr. Kaktusz 1,1 43 1111 ˝ E4.) Az alábbi mondatokban milyen viszonyszámok rejtoznek? Azok milyen típusúak? Add meg kiszámításuk pontos képletét! ˝ csoportban a lányok részaránya 40%. a.) Egy 25 fos b.) Idén 180, a tavalyihoz képest 10%-kal kevesebb hallgató vette fel a Diszkrét matematika tantárgyat. c.) Marika összesen 2000 km-es nyaralása alatt autója átlagfogyasztása 8 l/100 km volt. d.) Az ELTE-n 4000 oktató van, az egy oktatóra jutó hallgatók száma 20.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
20 / 72
Leíró statisztikai alapfogalmak A statisztikai elemzések egyik legfontosabb eszközei a viszonyszámok (alias: indikátorok). A viszonyszám két statisztikai adat hányadosa. Jelölések:
V =
A B
ahol V : viszonyszám; A: a viszonyítás tárgya; B: a viszonyítás alapja. A viszonyszámok fajtái: Megoszlási: a sokaság egy részének a sokaság egészéhez való viszonyítása Koordinációs: a sokaság egy részének a sokaság egy másik részéhez való viszonyítása ˝ ˝ Dinamikus: két idopont vagy idoszak adatának hányadosa Intenzitási: különbözo˝ fajta adatok viszonyítása egymáshoz; ˝ gyakran a mértékegységük is eltéro. Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
21 / 72
A statisztikai elemzés lépései 1.) Tervezés a.) Mit vizsgálunk, mi a probléma/feladat b.) Hogyan gyujtjük ˝ az adatokat ˝ c.) Elozetes sejtések, hipotézisek megfogalmazása 2.) Terepmunka – adatgyujtés ˝ 3.) Adatbevitel, kódolás (ha szükséges) 4.) Adatok validálása (biztosan rossz értékek kiszurése, ˝ mint például életkornál a 9999) ˝ 5.) Adatelemzés, adatellenorzés: leíró statisztikákkal, grafikonok készítése 6.) Hibás adatok kijavítása vagy kihagyása 7.) Adatelemzés, statisztikai következtetések levonása – a matematikai statisztika módszereivel 8.) Az eredmények értelmezése, visszacsatolás
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
22 / 72
A grafikus megjelenítés szerepe ˝ kommunikációs eszközei a diagramok. A statisztikus legfobb Az emberek többsége utálja a barokkos körmondatokkal teletuzdelt ˝ statisztikai jelentéseket. számokkal teli táblázatokat.
Az adatokban rejlo˝ információk gyorsabb kinyerését és feldolgozását segítik az azokból készített különféle ábrák, diagramok: kördiagram: megoszlás érzékeltetésére ˝ oszlopdiagram: idosorok ábrázolására ˝ vonaldiagram: idosorok ábrázolására hisztogram: mennyiségi sorok ábrázolására stb.
Milyen a jó diagram? illeszkedik az ábrázolt adatok fajtájához és a probléma jellegéhez a célközönség meg tudja érteni ˝ olvashatók rajta a feliratok, jelölések áttekintheto, kreatív, esztétikus Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
23 / 72
Összetett viszonyszámok Adott egy sokaság és annak m része. Jelölje Vi = ABii az i. részsokaságra vonatkozó viszonyszámot (i = 1, . . . , m). Nevük: részviszonyszámok. Jelölje a teljes sokaságra számolt viszonyszámot V . Neve: összetett viszonyszám. m P m P Bi Vi Ai i=1 i=1 ˝ Kiszámítási lehetoségek: V = P = = m m P Bi B i i=1 {z } | i=1 súlyozott számtani átlag
m P i=1 m P
Ai Ai Vi
|i=1 {z }
súlyozott harmonikus átlag
A leíró statisztikai szakirodalomban indexeket P az i P P – pongyola A BV A P P P módon – le szokták hagyni: V = B = A B = V
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
24 / 72
Feladatok
E5.) Egy szálloda 2016-os vendégforgalmáról az alábbiakat ismerjük: Származási ország szerint a vendég Belföldi Külföldi Összesen
Vendégéjszakák száma (éj) 5000 4000 9000
Egy vendégéjszakára jutó szállás díja (Ft/éj) 16000 12000 ...
Egy vendégre jutó vendégéjszakák száma ˝ (éj/fo) 4 2 ...
Határozd meg a teljes hotelre vonatkozóan az egy vendégéjszakára jutó szállás díjat és az egy vendégre jutó vendégéjszakák számát!
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
25 / 72
˝ Idosorok elemzése [leíró statisztikai eszközök] ˝ Véges idosor: y1 , y2 , . . . , yn ˝ Az idosorok fajtái: ˝ ˝ állapotidosor: a benne lévo˝ adatok egy-egy adott idopontra vonatkoznak (pl. egy cég raktárkészlete adott napokon); ˝ ˝ tartamidosor: a benne lévo˝ adatok idoszakra vonatkoznak (pl. egy cég havi nyereségei). ˝ ˝ számítható dinamikus viszonyszámok: Az idosor értékeibol Bázisviszonyszámok: bt = yyBt , ahol t = 1, . . . , n; B fix, neve: ˝ bázisidoszak (tipikusan B = 1); yt , ahol t = 2, . . . , n. Láncviszonyszámok: lt = yt−1 l1 -et nem értelmezzük, táblázatban kihúzandó! A bázisviszonyszámokból ki lehet számítani a láncviszonyszámokat és fordítva: láncból bázis: bt = lB+1 · lB+2 · ... · lt (t = 1, . . . , n); bt bázisból lánc: lt = bt−1 (t = 2, . . . , n). Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
26 / 72
˝ Idosorok elemzése [leíró statisztikai eszközök] ˝ Az idosor átlagos értékének kiszámítása: n P
˝ tartamidosor esetén sima számtani átlaggal: y = ˝ állapotidosor esetén kronologikus átlaggal: y K =
yt
t=1
n n−1 P 1 yt + 21 yn y + 2 1 t=2
n−1
˝ ˝ Az idosor átlagos változásának vizsgálata (állapotidosor esetén értelmes): n −y1 ˝ a fejlodés átlagos mértéke: d = yn−1 q ˝ a fejlodés átlagos üteme: l = n−1 yyn1
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
27 / 72
Feladatok E6.) Egy vállalat bankszámláján lévo˝ pénz az egyes években január 1-jén (millió forint): Év 2009 2010 2011 2012
Pénzösszeg (M Ft) 190 200 210 225
Év 2013 2014 2015 2016
Pénzösszeg (M Ft) 260 280 300 310
a.) Határozd meg a fent látható statisztikai sor típusát! b.) Határozd meg a bázisviszonyszámokat 2010-es bázissal, valamint a láncviszonyszámokat! c.) 2010-ben átlagosan hány forint volt a cég bankszámláján? d.) A 2010. január elsejét követo˝ 5 évben (2010 és 2015 között) átlagosan hány forint volt a cég bankszámláján? ˝ 2016. január elsejére évente átlagosan e.) 2010. január elsejérol mennyivel változott a cég pénzvagyona? Értelmezd szövegesen az eredményt! Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
28 / 72
Mennyiségi sorok elemzése Adatok mennyiségi sorba helyezése: ha a mennyiségi ismérv diszkrét és az ismérvváltozatok száma "kevés", akkor gyakorisági sort készítünk: a
Ismérvértékek x1 .. .
Gyakoriságok f1 .. .
xk Összesen
fk n
n: minta mérete k : különbözo˝ ismérvértékek száma fi : hányszor fordul elo˝ az i-edik ismérvérték (i = 1, . . . , k )
ha a mennyiségi ismérv folytonos vagy "sok" ismérvváltozat van, akkor osztályközös gyakorisági sort készítünk: Ismérvértékek Gyakoriságok a x1,a – x1,f f1 xi,a : az i-edik osztályköz alsó .. .. .. határa . . . xk ,a – xk ,f Összesen Varga László (ELTE)
fk n
xi,f : az i-edik osztályköz felso˝ határa
Leíró és matematikai statisztika
2017. március 6.
29 / 72
Mennyiségi sorok elemzése Osztályközös gyakorisági sor létrehozása nem egyértelmu˝ Hány osztályköz legyen? Mik legyenek az osztályközök? Hüvelykujjszabály: Osztályközök száma: k = blog2 nc Azonos hosszúságú osztályközök, hosszuk: h = xmax k−xmin Jelölések (osztályközös) gyakorisági soroknál: x +x xi = i,a 2 i,f az i. osztályközép/ismérvérték i i P P fi gyakoriság fk kumulált gyak. fi0 = k =1
gi =
Pfi
fi
relatív gyak.
k =1
i
s i = x i · fi
i P
értékösszeg
i P k =1
zi =
Psi si
relatív értékösszeg
i Varga László (ELTE)
gi0 = si0 = zi0 =
k =1 i P
k =1 i P k =1 i P
gk
kumulált rel. gyak.
sk
kum. értékösszeg
zk
kum. rel. értékö.
k =1
Leíró és matematikai statisztika
2017. március 6.
30 / 72
Példa - magyarországi jövedelmek 2015-ben Decilis jövedelemosztály 1 2 3 4 5 6 7 8 9 10 Összesen
Bruttó éves átlagjövedelem (e Ft) 366 652 886 1025 1210 1368 1489 1771 2164 3470 1440
Személyek ˝ száma (e fo) 965 967 970 964 971 964 969 965 967 967 9669
gi (%) 10 10 10 10 10 10 10 10 10 10 100
gi0 (%) 10 20 30 40 50 60 70 80 90 100 –
si (Mrd Ft) 353 630 859 989 1175 1318 1443 1710 2092 3355 13924
zi (%) 3 5 6 7 8 9 10 12 15 24 100
zi0 (%) 3 7 13 20 29 38 49 61 76 100 –
Megjegyzések: A KSH (Központi Statisztikai Hivatal) háztartásokra összegezte a jövedelmeket, majd ˝ nyilván számolt átlagjövedelmet, így az átlagkeresetek gyerekekre is vonatkoznak, pedig ok nem dolgoznak. Ezek csak a legális jövedelmek, nincs bennük becslés az illegális jövedelmekre. A táblázatban lévo˝ számok kerekített értékek. Forrás: https: //www.ksh.hu/docs/hun/xstadat/xstadat_eves/i_zhc014a.html?down=1634 Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
31 / 72
Mennyiségi sorok elemzése ˝ része Koncentráció: a sokasághoz tartozó teljes értékösszeg jelentos a sokaság kevés egységére összpontosul. Legyen a sokaság n elemu, ˝ a különbözo˝ ismérvértékek x1 , . . . , xk , ezek gyakoriságai f1 , . . . , fk . k P k P 1 fi fj |xi − xj |. Gini-együttható: G = n(n−1) i=1 j=1
A koncentráció mutatószámai: G Koncentrációs együttható: L = 2x Ez nem más, mint a koncentrációs terület (ld. következo˝ fólia) 2-szerese. ˝ Értéke 0 és 1 között van; minél nagyobb, annál erosebb a koncentráció. k P Herfindahl-index: HI = zi2 i=1
Értéke
1 k
˝ és 1 közötti; minél nagyobb, annál erosebb a koncentráció.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
32 / 72
Mennyiségi sorok elemzése Lorenz-görbe – a koncentráció mértékét szemlélteto˝ ábra Vízszintes tengely: gi0 kumulált relatív gyakoriságok ˝ Függoleges tengely: zi0 kumulált relatív értékösszegek A 45 fokos egyenest (átló) berajzolása Koncentrációs görbe berajzolása: (0; 0), (g10 ; z10 ), (g20 ; z20 ), . . . , (gk0 −1 ; zk0 −1 ), (gk0 ; zk0 ) = (1; 1) pontok összekötésével kapott töröttvonal Koncentrációs terület: a koncentrációs görbe és az átló által közbezárt terület ˝ a koncentráció, ha a koncentrációs görbe közel van a négyzet Eros oldalaihoz. Gyenge a koncentráció, ha a koncentrációs görbe közel van az átlóhoz.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
33 / 72
Példa – magyarországi jövedelmek 2015-ben 1.0
Lorenz−görbe
0.4
L = 0, 3089
0.2
0.6
Piros: koncentrációs görbe (töröttvonal)
HI = 0, 134 0, 1 ≤ HI ≤ 1
0.0
Kumulált relatív értékösszeg
0.8
Kék: koncentrációs terület
0.0
0.2
0.4
0.6
0.8
1.0
Mihez viszonyítsuk a koncentráció mértékét?
Kumulált relatív gyakoriság Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
34 / 72
Példa – Lorenz-görbe A tejágazat koncentrációja különbözo˝ országokban
Forrás: http://docplayer.hu/189090-A-magyar-tejagazat-helyzete-es-fejlodesenek-lehetseges-iranya.html Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
35 / 72
Feladatok E7.) Egy piacon 4 azonos méretu˝ vállalat muködik ˝ (a piaci forgalomból azonos mértékben részesednek). Számszerusítsük ˝ a Herfindahl-indexszel a piaci koncentráció változását, ha az egyik cég felvásárolja a másikat! E8.) Legyen az X valószínuségi ˝ változó a.) eloszlása P(X = 0) = P(X = 2) = P(X = 3) = 13 ; b.) sur ˝ uségfüggvénye ˝ f (x) = (2x − 2)I(1 < x < 2). Határozd meg X kvantilisfüggvényét! E9.) Határozzuk meg a standard normális eloszlás móduszát, mediánját, ferdeségét és lapultságát! E10.) Határozzuk meg a standard Cauchy-eloszlás (Cauchy(0;1)) és a Pareto-eloszlás várható értékét! E11.) Legyenek X ∼ Γ(α, λ), Y ∼ Γ(β, λ) függetlenek! Mutassuk meg, X függetlenek, és határozzuk meg az hogy U = X + Y és V = X +Y eloszlásukat! Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
36 / 72
Eddig megismert eloszlások Jelölése
Eloszlása P(X = 1) = p P(X = 0) = 1 −p
Ind(p) Hipgeo(N, M, n)
Geo(p) NegBin(n, p)
N(m, σ 2 ) Exp(λ)
k
Eloszlásfüggvény 0 ha x ≤ a x−a ha a < x ≤ b b−a 1 ha b < x
Sur ˝ uségfüggvény ˝ ( 1 ha a < x ≤ b b−a 0 különben
... ( 1 − e−λx 0
√1 e ( 2πσ λe−λx 0
Varga László (ELTE)
−
ha x ≥ 0 különben
D2 X
p
p(1 − p)
nM N
n−1 nM 1− M 1− N−1 N N
np
np(1 − p)
1 p
1−p p2
n p
n(1−p) p2
λ
λ
P(X = k ) = λk ! e−λ k = 0,1, . . .
Poi(λ)
E(a, b)
P(X = k ) =
N−M n−k N n
k = 0, 1, . . . , min(n, M) P(X = k ) = kn pk (1 − p)n−k k = 0, 1, . . . , n P(X = k ) = p(1 − p)k −1 k = 1, 2, . . . −1 n P(X = k ) = kn−1 p (1 − p)k −n k = n, n + 1, . . .
Bin(n, p)
Jelölése
M k
EX
(x−m)2 2σ 2
x ∈R
ha x ≥ 0 különben
Leíró és matematikai statisztika
EX
D2 X
a+b 2
(b−a)2 12
m
σ2
1 λ
1 λ2 2017. március 6.
37 / 72
További abszolút folytonos eloszlások Eloszlás neve Cauchy
Jelölése
Eloszlásfüggvény 1 arctg π
Cauchy (a, b) a ∈ R, b > 0
( Pareto∗ ∗
Pareto(α, β) α, β > 0
1−
x−a b
β x
α
0
Sur ˝ uségfüggvény ˝
+ 21
1 2 πb 1+ x−a
x ∈R
ha x ≥ β
b α β α+1
ha x ≥ β
ha x < β
0
ha x < β
β
x
EX
D2 X
A∃
A∃
αβ α−1
β2 α (α−1)2 (α−2)
˝ A Pareto-eloszlásnak akkor van véges várható értéke a képletnek megfeleloen, ha α > 1, szórásnégyzete pedig akkor, ha α > 2.
Eloszlás neve
Jelölése
Lognormális
LN(m, σ 2 ) m ∈ R, σ > 0
Gamma
Γ(α, λ) α, λ > 0
Béta
Beta(α, β) α, β > 0 χ2k k ∈ N
Khínégyzet Student
Fisher
tν ν > 0
Fd ,d 1 2 d1 , d2 > 0
Varga László (ELTE)
Sur ˝ uségfüggvény ˝
√1
(log x−m)2 − 2σ 2 e
x 2πσ 0 ( 1 λα e−λx x α−1 Γ(α)
0 ( Γ(α+β) Γ(α)Γ(β)
0
ha x ≤ 0
EX
D2 X
2 em+σ /2
2 2 (eσ −1 )e2m+σ
α λ
α λ2
α α+β
αβ (α+β)2 (α+β+1)
k
2k
hax < 0 ha x ≥ 0 ha x < 0
x α−1 (1 − x)β−1
x ∈ [0, 1] különben
1 x k /2−1 e−x/2 x ∈ R 2k /2 Γ(k /2) ν+1 Γ ν+1 2 − 2 2 1 + xν √ πνΓ ν 2 d1 +d2 Γ d d1 d1 2 1 2 x 2 −1 1+ d1 d2 d2 d d Γ 1 Γ 2 2 2
0 (ha ν > 1) − d1 +d2 2 x
Leíró és matematikai statisztika
d2 d2 −2
(ha
d2 > 2)
ν ν−2
(ha ν > 2)
2d 2 (d1 +d2 −2) 2 d1 (d2 −2)2 (d2 −4)
(ha d2 > 2) 2017. március 6.
38 / 72
0.4
Vastag szélu˝ (fat tailed) eloszlások
0.3
Standard normális Standard Cauchy
végtelen vagy nem létezik a szórás fontos vastag szélu˝ eloszlások:
0.1
0.2
Cauchy-eloszlás Pareto-eloszlás Student-féle t-eloszlás alacsony szabadságfok esetén
0.0
"extrém" események, például −3
−2
−1
0
1
2
3
0.015
0.020
0.025
0.030
Standard normális Standard Cauchy
nagy természeti katasztrófák, ˝ u-katasztrófák, atomerom ˝ globális pénzügyi válságok, az Internet összeomlása, sejtekben ritka mutációk stb.
0.000
0.005
0.010
valószínuségének ˝ becslésére jóval alkalmasabbak a normális eloszlásnál 3.0
3.2
3.4
3.6
Varga László (ELTE)
3.8
4.0
Leíró és matematikai statisztika
2017. március 6.
39 / 72
Standard normális versus vastag szélu˝ eloszlások Legyenek X ∼N(0;1), Y ∼Cauchy(0;1), U ∼Pareto 2; 12 és V ∼ t2 Ekkor a hiY = alakulása:
P(Y >i) P(X >i) ,
i 2 3 4 5 6 7 8
Varga László (ELTE)
hiU =
P(U>i) P(X >i)
hiY 6, 5 7, 6 · 101 2, 5 · 103 2, 2 · 105 5, 3 · 107 3, 5 · 1010 5, 9 · 1013
és hiV =
P(V >i) P(X >i)
hiU 2, 7 2, 1 · 101 4, 9 · 102 3, 4 · 104 7, 0 · 106 4, 0 · 109 5, 9 · 1012
Leíró és matematikai statisztika
hányadosok
hiV 4, 0 3, 5 · 101 9, 0 · 102 6, 6 · 104 1, 4 · 107 7, 7 · 109 1, 1 · 1013
2017. március 6.
40 / 72
Karl Pearson (1857 – 1936) angol matematikus, statisztikus a matematika statisztika atyja hisztogram Pearson-féle korreláció és kapcsolata a lineáris regresszióval momentum módszer hipotézisvizsgálat elméletének lefektetése, p-érték χ2 -próba ˝ fokomponens analízis (principal component analysis, PCA) "Statistics is the grammar of science." Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
41 / 72
Ronald Fisher (1890 – 1962) angol statisztikus és biológus F -eloszlás, Student-féle t-eloszlás elégséges statisztika Fisher-információ a statisztika bayes-i megközelítése diszkriminancia analízis extrémérték-elmélet (extreme value theory) újramintavételezés – Fisher-féle permutációs teszt
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
42 / 72
Mintavétel a gyakorlatban Az adatokkal szemben támasztott követelmények: pontosság – ne legyenek hibásak és a szükséges pontosságban álljanak rendelkezésre ˝ gyorsaság – hamar be lehessen oket szerezni gazdaságosság – az adatgyujtés ˝ legyen "olcsó" Az adatgyujtés ˝ fajtái: teljes köru˝ – például a népszámlálás részleges – a gyakorlatban ez a jellemzo˝ A részleges adatgyujtés ˝ fajtái: ˝ reprezentatív (mintavételes): a teljes sokaság jellemzoit ˝ megfeleloen tükrözo˝ részsokaságból, ún. mintasokaságból szerezzük be az adatokat monográfia: egy vagy néhány kiemelt egyed részletes vizsgálata egyéb – például önkéntes kitöltésen alapuló internetes teszt Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
43 / 72
Az adatelemzés elemei 1.) Adathibák keresése, irreális adatok, értékek törlése. Ha lehet, akkor a hibák korrigálása. 2.) Ha sok a különbözo˝ adat, akkor alkalmas osztályközös gyakorisági sor készítése 3.) Középértékek kiszámítása: átlag (számtani vagy mértani – amelyiknek értelme van) helyzeti középértékek: módusz (az osztályközös gyakorisági sorból) és medián
4.) Szóródási mutatók kiszámítása: szórás és relatív szórás terjedelem és interkvartilis terjedelem
5.) Alakmutatók kiszámítása: ferdeség csúcsosság
6.) Ábrák készítése: hisztogram/sur ˝ uséghisztogram ˝ boxplot ábra Lorenz-görbe (értékösszeg sor esetén)
7.) Visszacsatolás Varga László (ELTE)
a felfedezett adathibák javítása Leíró és matematikai statisztika
2017. március 6.
44 / 72
Tapasztalati eloszlás Tapasztalati eloszlás: minden megfigyeléshez azonos, rendelünk ⇒ ez egy diszkrét eloszlás
1 n
súlyt
A mintaátlag éppen ennek a várható értéke A tapasztalati eloszlás eloszlásfüggvényét hívjuk tapasztalati eloszlásfüggvénynek, ami egy tiszta ugrófüggvény, értéke minden mintaelem helyén n1 nagyságot ugrik felfelé. A tapasztalati eloszlásfüggvény az x helyen: n P
I(x1 < x) + I(x2 < x) + . . . + I(xn < x) = n
I(xi < x)
i=1
n
Azt mutatja meg, hogy a mintaelemek hányad része kisebb x-nél.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
45 / 72
Középértékek számítása Adott az n elemu˝ x = (x1 , x2 , . . . , xn ) tapasztalati minta; osztályközös gyakorisági sor esetén k jelöli az osztályok számát, xi az osztályközepeket, fi pedig a gyakoriságokat. n P Mintaátlag: az adatok átlagos értéke xi Számítása közvetlenül az adatokból: x = i=1n Számítása osztályközös gyakorisági sorból: x =
k P
fi xi
i=1
n
˝ Módusz: a legtöbbször eloforduló ismérvérték Számítása osztályközös gyakorisági sorból: a Mo= xmo,a + dad+d · hmo , ahol f a móduszt tartalmazó osztályköz: amelyikben egységnyi osztályköz hosszra a legnagyobb gyakoriság jut ( korrigált gyakoriságok!) xmo,a : a móduszt tartalmazó osztályköz alsó értéke hmo : a móduszt tartalmazó osztályköz hossza da : a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz a ˝ o˝ osztályköz korrigált gyakorisága móduszt közvetlenül megeloz df : a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz a móduszt közvetlenül követo˝ osztályköz korrigált gyakorisága Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
46 / 72
Középértékek számítása Adott az n elemu˝ x = (x1 , x2 , . . . , xn ) tapasztalati minta; osztályközös gyakorisági sor esetén k jelöli az osztályok számát, xi az osztályközepeket, fi pedig a gyakoriságokat. n P Mintaátlag: az adatok átlagos értéke xi Számítása közvetlenül az adatokból: x = i=1n Számítása osztályközös gyakorisági sorból: x =
k P
fi xi
i=1
n
˝ Módusz: a legtöbbször eloforduló ismérvérték Számítása osztályközös gyakorisági sorból: a Mo= xmo,a + dad+d · hmo , ahol f a móduszt tartalmazó osztályköz: amelyikben egységnyi osztályköz hosszra a legnagyobb gyakoriság jut ( korrigált gyakoriságok!) xmo,a : a móduszt tartalmazó osztályköz alsó értéke hmo : a móduszt tartalmazó osztályköz hossza da : a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz a ˝ o˝ osztályköz korrigált gyakorisága móduszt közvetlenül megeloz df : a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz a móduszt közvetlenül követo˝ osztályköz korrigált gyakorisága Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
46 / 72
Középértékek számítása Jelölje x1∗ ≤ x2∗ ≤ . . . ≤ xn∗ a rendezett tapasztalati mintát. ˝ Medián: azon ismérvérték, amelynél ugyanannyi kisebb vagy egyenlo, mint nagyobb vagy egyenlo˝ ismérvérték fordul elo˝ a mintában (a ˝ elem) "középso" Számítása közvetlenül az adatokból: x ∗n+1 , ha n páratlan Me= x ∗n 2+x ∗n 2 2 +1 , ha n páros 2 Számítása osztályközös gyakorisági sorból – két lépésben lineáris interpolációval: 0 1. Melyik osztályközben van a medián: azon i, amire fi−1 ≤
2. Me = xi,a +
0 n 2 −fi−1
fi
n 2
és fi0 ≥
n 2
· hi , ahol
xi,a : a mediánt tartalmazó osztályköz alsó értéke hi : a mediánt tartalmazó osztályköz hossza 0 ˝ o˝ osztályköz kumulált gyakorisága fi−1 : a mediánt közvetlenül megeloz fi : a mediánt tartalmazó osztályköz gyakorisága Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
47 / 72
Tapasztalati kvantilisek számítása Tapasztalati y -kvantilis: azon ismérvérték, amelynél a mintaelemek ˝ míg (1 − y )-ad része nagyobb vagy y -ad része kisebb vagy egyenlo, ˝ 0 < y < 1. egyenlo, Számítása nem egyértelmu, ˝ mi mindig az egyik interpolációs módszert alkalmazzuk két lépésben: 1. hányadik mintaelem a keresett kvantilis sorszám: s := (n + 1)z 2. lineáris interpolációval a kvantilis kiszámítása. Számítása közvetlenül az adatokból 1. Sorszám: s = e + t (e: egészrész, t: törtrész) ∗ 2. qy = xe∗ + t(xe+1 − xe∗ )
Számítása osztályközös gyakorisági sorból – két lépésben lineáris interpolációval: 0 1. Melyik osztályközben van az s-edik elem: jelölje ezt i, azaz fi−1 ≤ s és 0 fi ≥ s s−f 0
2. qy = xi,a + fii−1 hi , ahol 0 ˝ o˝ fólia alján, csak az xi,a , hi , fi−1 és fi ugyanazokat jelöli, mint az eloz adott y -kvantilisre vonatkozóan Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
48 / 72
Tapasztalati kvantilisek számítása Tapasztalati y -kvantilis: azon ismérvérték, amelynél a mintaelemek ˝ míg (1 − y )-ad része nagyobb vagy y -ad része kisebb vagy egyenlo, ˝ 0 < y < 1. egyenlo, Számítása nem egyértelmu, ˝ mi mindig az egyik interpolációs módszert alkalmazzuk két lépésben: 1. hányadik mintaelem a keresett kvantilis sorszám: s := (n + 1)z 2. lineáris interpolációval a kvantilis kiszámítása. Számítása közvetlenül az adatokból 1. Sorszám: s = e + t (e: egészrész, t: törtrész) ∗ 2. qy = xe∗ + t(xe+1 − xe∗ )
Számítása osztályközös gyakorisági sorból – két lépésben lineáris interpolációval: 0 1. Melyik osztályközben van az s-edik elem: jelölje ezt i, azaz fi−1 ≤ s és 0 fi ≥ s s−f 0
2. qy = xi,a + fii−1 hi , ahol 0 ˝ o˝ fólia alján, csak az xi,a , hi , fi−1 és fi ugyanazokat jelöli, mint az eloz adott y -kvantilisre vonatkozóan Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
48 / 72
Nevezetes kvantilisek
A szakirodalomban a tapasztalati és az elméleti értékek között nem tesznek különbséget, mindegyiket nagy betuvel ˝ írják (ami néha ˝ meglehetosen zavaró...). Jelölje qy a tapasztalati y -kvantilist. tercilisek: T1 = q1/3 , T2 = q2/3 kvartlisek: Q1 = q1/4 (alsó kvartilis) Q2 = Me = q2/4 (középso˝ kvartilis vagy medián) Q3 = q3/4 (felso˝ kvartilis)
kvintilisek: K1 = q1/5 , K2 = q2/5 , K3 = q3/5 , K4 = q4/5 decilisek: Di = qi/10 , i = 1, 2, . . . , 9 percentilisek: Pi = qi/100 , i = 1, 2, . . . , 99
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
49 / 72
Szóródási mutatók számítása Terjedelem: R = xn∗ − x1∗ (R=range) Interkvartilis terjedelem: IQR = Q3 − Q1 Tapasztalati szórás: az átlagtól való átlagos eltérés abszolút s n mértékegységben P 2 (xi −x)
Számítása közvetlenül az adatokból: sn =
i=1
ns
k P
fi (xi −x)2
i=1
Számítása osztályközös gyakorisági sorból: sn = n Korrigált tapasztalati szórás: az átlagtól valósátlagos eltérés abszolút n P mértékegységben 2 Számítása közvetlenül az adatokból: sn∗ =
(xi −x)
i=1
n−1 s
sn∗
k P
fi (xi −x)2
i=1
Számítása osztályközös gyakorisági sorból: = n−1 ezt "szeretjük" a legjobban, minden szoftver, programcsomag szórás számításánál ezt veszi alapértelmezettnek Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
50 / 72
Szóródási mutatók számítása Relatív szórás vagy szórási együttható: az átlagtól való átlagos eltérés százalékban; lehet a korrigált és a korrigálatlan tapasztalati ˝ is számítani: szórásnégyzetbol V =
sn∗ sn vagy V = x x
Kevésbé gyakran használt, szóródást méro˝ mutatók: n P
átlagos abszolút eltérés: Gini-együttható: G =
Varga László (ELTE)
|xi −x|
i=1
1 n(n−1)
n n P n P
|xi − xj |.
i=1 j=1
Leíró és matematikai statisztika
2017. március 6.
51 / 72
Alakmutatók számítása A szórást ezeknél is választhatjuk a tapasztalati vagy a korrigált tapasztalati szórásnak egyaránt. Tapasztalati ferdeség
n P
Számítása közvetlenül az adatokból:
(xi −x)3
i=1
(sn )3
Számítása osztályközös gyakorisági sorból: Tapasztalati csúcsosság
n P
Számítása közvetlenül az adatokból:
fi (xi −x)3 (sn )3
(xi −x)4
i=1
(sn )4
Számítása osztályközös gyakorisági sorból:
Varga László (ELTE)
n P i=1
Leíró és matematikai statisztika
−3 n P
fi (xi −x)4
i=1
(sn )4
−3
2017. március 6.
52 / 72
Fontos leíró statisztikai ábrák
4 3 2
Gyakoriságok
az fi gyakoriságokat ábrázoljuk a ˝ függoleges tengelyen
1
ha azonos hosszúságú (h) osztályközöket akarunk létrehozni, x ∗ −x ∗ akkor h = n k 1
5
Hisztogram – Ha a mennyiségi ismérv folytonos vagy sok ismérvérték van, akkor alkalmas módon osztályokat képezünk, majd minden egyes adatot pontosan egy osztályhoz rendeljük. A hisztogram az osztályok gyakoriságait ábrázolja. az osztályok száma: k = blog2 nc
0
sur ˝ uséghisztogramnál ˝ a gi = nfi 12 14 16 18 20 relatív gyakoriságokat ábrázoljuk a Lemerülési ido (óra) ˝ függoleges tengelyen ha az osztályközök különbözo˝ hosszúságúak, akkor a gyakoriságokat egy közös hosszra kell arányosítani Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
22
53 / 72
Fontos leíró statisztikai ábrák ˝ de lehet álló is Boxplot ábra (Box&Whiskers diagram) – ez fekvo,
A betuk ˝ a következo˝ értékeket jelentik: A = max{x1∗ , Q1 − 1, 5 · IQR} B = Q1 C = Me D = Q3 E = min{xn∗ , Q3 + 1, 5 · IQR} F : kieso˝ érték (outlier) azokat az adatpontokat tüntetjük fel, amik A-n vagy E-n kívülre esnek ahol IQR = Q3 − Q1 az interkvartilis terjedelem Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
54 / 72
Feladatok E12.) Azonos felhasználási körülmények között megmérték 15 azonos típusú mobiltelefon akkumulátorának lemerülési idejét teljes ˝ (óra) feltöltöttségrol: 18 16 15 20 12 16 -15 23 14 11 17 15 200 19 18 20 a.) Nézd át nagy vonalakban az adatokat, reálisak-e! Próbáld meg kijavítani az esetleges adathibákat! b.) Ábrázold a tapasztalati eloszlásfüggvényt! Számítsd ki és értelmezd a 16 helyen! c.) Készíts alkalmas sávszélességu˝ hisztogramot! ˝ az alapstatisztikák: az átlag, a korrigált d.) Elemezd a lemerülési idot tapasztalati szórás, szórási együttható és boxplot ábra (kvartilisek) segítségével! Számítsd ki a tapasztalati ferdeséget és csúcsosságot! Értelmezd is az eredményeket! Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
55 / 72
Megoldás (értelmezések) ˝ a.) Adatjavítás: -15 és 200, a helyes értékek vélhetoen 15 és 20 b.) Az akkumulátorok 3/8-ad része 16 óránál hamarabb merült le. d.) Az akkumulátorok átlagosan 16,8 óra alatt merültek le. Az egyes ˝ ol ˝ akkumulátorok lemerülési ideje az átlagos lemerülési idot átlagosan 3,19 órával, azaz 18,96%-kal tért el. Az akkumulátorok egynegyede legfeljebb 15 óra alatt lemerült, míg háromnegyede legalább 15 órán keresztül ébren volt. Az akkumulátorok egyik fele legfeljebb 16,5 óra alatt lemerült, míg másik fele legalább 16 és fél órán keresztül tudta árammal ellátni a telefont. Az akkumulátorok 75%-a legfeljebb 19,75 óra alatt lemerült. Az akkumulátorok lemerülési idejének eloszlása nagyjából szimmetrikus, csúcsossága a normális eloszláséhoz viszonyítva laposabb.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
56 / 72
Tipikus rossz értelmezések: (válogatások a tavalyi beadandókból, a mostani feladat szövegkörnyezetébe ültetve) Az akkumulátorok átlaga 16,8 óra. A lemerülési ido˝ szórása 3,19 óra. Az alsó kvartilis 15 óra. Az adatok átlaga 16,8 óra. A minta relatív szórása 4,8%, tehát az átlagtól való eltérés 4,8%. A relatív szórás azt fejezi ki, hogy az egyes ismérvértékek átlagosan hány százalékkal térnek el az átlagtól. A medián 16,5, ami a középso˝ mintaelem a rendezett mintában (az elemek nemcsökkeno˝ sorban helyezkednek el). Az alsó kvartilis 15, ami a legkisebb és a medián között középen elhelyezkedo˝ adat számértéke a rendezett mintában. A standard normális elosztáshoz képest a nikkel elosztása 0,002%-kal jobbra ferdül és 0,836%-kal laposabb. A hármas kvartilis értéke 19,75 óra, azaz ... Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
57 / 72
Feladatok ˝ E13.) Egy megyében a kistermelo˝ gazdaságok termoterület szerinti megoszlása: ˝ Termoterület (hektár) – 4 4 – 10 10 – 20 20 – 30 30 – 50 50 – Összesen
Gazdaságok száma 200 90 80 60 10 10 450
a.) Készíts hisztogramot! Milyen az eloszlás ferdesége? ˝ termoterület ˝ b.) Jellemezd (szövegesen is) a kistermelok szerinti eloszlását alapstatisztikák (mintaátlag, korrigált tapasztalati szórás, tapasztalati módusz és kvartilisek) segítségével! ˝ c.) Mennyire koncentrálódik a termoterület? Készíts Lorenz-görbét! Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
58 / 72
Feladatok ˝ hogy az szabályos-e, avagy E14.) El szeretnénk dönteni egy érmérol, ˝ cinkelt. Írjuk fel a problémát leíró statisztikai mezot! E15.) Legyen X1 , . . . , Xn i.i.d. Bin(4; p) eloszlású valószínuségi ˝ változó, ahol p ∈ (0; 1) ismeretlen valós paraméter. a.) Adjuk meg a mintateret és a paraméterteret! b.) Határozzuk meg az ismeretlen paraméter ML-becslését! c.) Határozzuk meg az ismeretlen paraméter momentum becslését! d.) Torzítatlan, illetve konzisztens az ML-becslés? Amennyiben nem torzítatlan, tegyük azzá! e.) Adj torzítatlan becslést g(p) = p2 (1 − p)2 -re! f.) Adj torzítatlan becslést g(p) = p1 -re! g.) Legyen T (X) = 41 I(X2 = 1). Mutasd meg, hogy ez a statisztika torzítatlanul becsüli a p paramétert! Melyik hatásosabb: ez, vagy a torzítatlanná tett ML-becslés? Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
59 / 72
Feladatok
E16.) Minden nap a Mester utca megállónál szállok fel a 4-es/6-os villamosok valamelyikére. E hét munkanapjain az alábbi várakozási ˝ idoket mértem (perc): 1,2 2 1,5 3 2,1 ˝ ol ˝ tegyük fel, hogy exponenciális eloszlású. A várakozási idor a.) Adjuk meg a mintateret és a paraméterteret! b.) Határozzuk meg az ismeretlen paraméter ML-becslését! c.) Határozzuk meg az ismeretlen paraméter momentum-becslését! d.) Szimulációval vizsgáljuk meg, hogy 10, 20, 50 és 100 elemu˝ exponenciális mintából számolt ML-becslés torzítatlanul becsüli-e az ismeretlen paramétert! e.) Torzítatlan, illetve konzisztens az ML-becslés? Amennyiben nem torzítatlan, tegyük azzá!
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
60 / 72
E17.) Legyen X1 , . . . , Xn i.i.d. abszolút folytonos valószínuségi ˝ változók sorozata. a.) Adjuk meg az i-edik rendezett mintaelem, azaz Xi∗ eloszlás- és sur ˝ uségfüggvényét ˝ (1 ≤ i ≤ n)! b.) Milyen eloszlású Xi∗ , amennyiben a mintaelemek (0; 1)-en egyenletesek? Határozzuk meg az EXi∗ mennyiséget! E18.) Egy véletlen szám generátorral 20 véletlen számot állítunk elo˝ egy ismeretlen (a, b) intervallumból. A kapott véletlen számok sorrendbe téve és (egyszeruség ˝ kedvéért) egészre kerekítve: 10 11 12 13 13 14 17 19 21 22 23 24 25 27 31 31 32 35 36 38 a.) Adjuk meg a mintateret és a paraméterteret! b.) Határozzuk meg az ismeretlen paraméterek maximum likelihood becslését! c.) Határozzuk meg a paraméterek momentum-becslését! d.) Tegyük torzítatlanná az ML-becsléseket! e.) Konzisztensek az ML-becslések? Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
61 / 72
Hipotézisvizsgálat menete I. ˝ 1.) A terjedelem (α) lefixálása, ami jellemzoen 1% és 10% közötti, tipikusan 5% Megbízhatóság=1-α, általában %-osan írjuk 2.) Nullhipotézis (H0 ) felírása – sokévi, megszokott, elvárt értékeknek megfelelo˝ paramétertartomány 3.) Alternatív hipotézis (H1 ) felírása – a minta alapján bennünket érdeklo˝ kérdésnek megfelelo˝ paramétertartomány 4.) A probléma megoldására alkalmas próba vagy próbák kiválasztása ˝ – feltételek ellenorzése 5.) Próbastatisztika kiszámítása 6.) Kritikus érték kiszámítása, kritikus tartomány (Xk ) megállapítása 7.) Döntés: ˝ döntés, H1 -et elfogadjuk, H0 -t elvetjük/elutasítjuk x ∈ Xk eros x ∈ Xe gyenge döntés, H1 -et elutasítjuk, H0 -t nem tudjuk elutasítani Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
62 / 72
Hipotézisvizsgálat menete II.
1.) 2.) 3.) 4.) 5.)
A terjedelem (α) lefixálása Nullhipotézis (H0 ) felírása Alternatív hipotézis (H1 ) felírása A probléma megoldására alkalmas próba vagy próbák kiválasztása ˝ o˝ fólián lévo˝ 5.)-6.)-7.) helyett Számítógéppel dolgozva, az eloz dönthetünk az ún. p-érték alapján is: p-érték < α ⇔ x ∈ Xk ⇔ H1 -et elfogadjuk
p-érték: az a terjedelem, amire a kritikus érték megegyezik a próbastatisztikával
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
63 / 72
Illeszkedésvizsgálat
H0 : a minta egy adott eloszlásból származik H1 : a minta nem ilyen eloszlású
Végrehajtása: "szemmel": Q-Q plot statisztikai próbával: diszkrét eloszlás esetén χ2 -próbával folytonos eloszlás esetén diszkretizálás (mesterséges osztályok létrehozása) esetén χ2 -próbával Kolmogorov-Szmirnov próbával Cramér-von Mises próbával
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
64 / 72
Q-Q plot
1 2 3 −1 −3
Az illesztett eloszlás kvantiliseit vetjük össze a tapasztalati kvantilisekkel, azaz a következ o˝ pontokat ábrázoljuk: k ∗ −1 k = 1, . . . , n F n+1 , xk ahol
Sample Quantiles
Illeszkedésvizsgálat "szemmel"
−3
−2
0
1
2
3
Nem helyettesíti a statisztikai próbákat
2
3
5 4 3 2 1 0
Sample Quantiles
F : az illesztett eloszlás eloszlásfüggvénye xk∗ a k. rendezett mintaelem
Be szokták húzni a 45 fokos egyenest és minél jobban rásimulnak a pontok az egyenesre, annál jobbnak tekintheto˝ az illeszkedés.
−1
Theoretical Quantiles
−3
−2
−1
0
1
Theoretical Quantiles
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
65 / 72
Illeszkedésvizsgálat χ2 -próbával Osztályok Valószínuségek ˝ Gyakoriságok
1 p1 N1
2 p2 N2
... ... ...
r pr Nr
Összesen 1 n
H0 : a valószínuségek: ˝ p=(p1 , . . . , pr ) H1 : nem ezek a valószínuségek ˝ r P (Ni −npi )2 H0 esetén 2 −→ χr −1 elo.-ban, ha n → ∞ Próbastatisztika: Tn (X) = npi i=1
Kritikus tartomány: Xk = {X : Tn (X) > χ2r −1,1−α } Becsléses illeszkedésvizsgálat: csak annyit "sejtünk", hogy a minta ˝ nincs sejtésünk. valamilyen eloszlású, viszont a paramétereirol Ilyenkor amennyiben ML-módszerrel becsüljük meg az s darab H esetén
ismeretlen paramétert, akkor a próbastatisztika: Tn (X) 0−→ χ2r −1−s eloszlásban, ha n → ∞. A χ2 -próba végrehajtásának feltételei (hüvelykujjszabályok): n ≥ 50 √ Ni ≥ 5 n minden i-re, különben osztályokat kell összevonni Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
66 / 72
Illeszkedésvizsgálat Kolmogorov-Szmirnov próbával
H0 : FX1 (x) = F (x) ∀x ∈ R, ahol F egy adott eloszlás elofv.-e H1 : ∃x ∈ R : FX1 (x) 6= F (x) Próbastatisztika: Dn (X) = sup|Fn (x) − F (x)| x∈R √ A próbastatisztika n-szeresének eloszlása H0 esetén az ún. Kolmogorov-eloszláshoz tart (n → ∞). Jelöljük Kα -val a Kolmogorov-eloszlás α-kvantilisét. √ Kritikus tartomány: Xk = {X : nDn (X) > K1−α } Dn kiszámításához elég csak a mintapontokban tekinteni az eltérést.
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
67 / 72
Függetlenségvizsgálat I. Feladat: van egy minta, két ismérv szerint csoportosítva. Azt kell eldönteni, hogy a két szempont független-e egymástól. pi,j = P(egy megfigyelés az (i, j) osztályba kerül) Ni,j =ennyi megfigyelés kerül az (i, j) osztályba s N1s .. .
Összesen N1• .. .
...
Nis .. .
Ni• .. .
Nr 1 . . . Nrj . . . Összesen N•1 . . . N•j . . . s r P P ahol Ni• = Nij és N•j = Nij
Nrs N•s
Nr • n
1 .. . 1. szempont
j=1 Varga László (ELTE)
i .. . r
1 N11 .. .
2. szempont ... j ... . . . N1j . . . .. .
Ni1 .. .
...
Nij .. .
i=1 Leíró és matematikai statisztika
2017. március 6.
68 / 72
Függetlenségvizsgálat II. Itt formálisan a mintánk két dimenziós: a megfigyelések az (X1 , Y1 )T , . . . , (Xn , Yn )T , ahol az X -ek r , az Y -ok pedig s különbözo˝ értéket vehetnek fel nemnulla valószínuséggel: ˝ pi,j = P(X1 = xi , Y1 = yj ), ahol i = 1, . . . , r és j = 1, . . . , s. r P s P Továbbá Ni,j = I(Xk = xi , Yl = yj ). k =1 l=1
H0 : az ismérvek függetlenek, azaz pi,j = pi• · p•j ∀i, j-re H1 : az ismérvek nem függetlenek ! r P s 2 P Ni,j H0 esetén 2 −→ χ(r −1)(s−1) elo.-ban Próbast.: Tn (X, Y) = n Ni• N•j − 1 i=1 j=1
n→∞
Kritikus tartomány: Xk = {(X, Y) : Tn (X, Y) > χ2(r −1)(s−1),1−α } 2
12 N21 ) Ha r = s = 2, akkor a próbastatisztika Tn = n · (NN111•NN222•−N N•1 N•2 -re egyszerusödik, ˝ az aszimptotikus eloszlás pedig 1 szabadságfokú χ2 . Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
69 / 72
E19.) Egyre több problémát okoz, hogy hackerek megszerzik valaki jelszavát, és így titkos információk kerülnek ki. Informatikus kollégánknak az jut az eszébe, hogy ne csak a leütött karakterek ˝ helyességét ellenorizzük, hanem azt is, hogy az egyes karaktereket milyen gyorsan üti le a jelszó valódi tulajdonosa. A vállalat igazgatója 10 karakteres jelszóval rendelkezik, a begépelés ˝ az alábbiak (mp): során az egyes karakterek leütése közti idok 0,14 0,2 0,21 0,23 0,18 0,4 0,31 0,24 0,29 ˝ Tegyük fel, hogy a leütési idoközök normális eloszlást követnek. a.) Vizsgáljuk meg Q-Q plot segítségével, hogy a minta normális ˝ eloszlásúnak tekintheto-e! b.) Adjunk 95%-os megbízhatóságú konfidenciaintervallumot a leütési ˝ idoközök várható értékére és szórására! ˝ c.) Vizsgáljuk meg azt a hipotézist, hogy a leütési idoközök várható értéke meghaladja-e a 0,2 mp-et (és a 0,18 mp-et?)! d.) A rendszerbe éjjel 2-kor lépnek be az igazgató jelszavával, a ˝ következo˝ leütési idoközöket regisztráltuk (mp): 0,2 0,23 0,25 0,2 0,28 0,44 0,35 0,3 0,49 ˝ hogy vajon feltörték-e a jelszót! Döntsünk arról a hipotézisrol, Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
70 / 72
E20.) Valaki azt állítja, hogy a klíma változik, és ezt azzal véli bizonyítottnak, hogy az elmúlt 10 évben 2-szer is volt jégeso˝ december 2-án, pedig korábban az egyes évekre a jégeso˝ valószínusége ˝ a hivatalos adatok alapján csupán p = 0, 1 volt. Írjuk fel a hipotéziseket, ˝ a próbát és állapítsuk meg az elsofajú hiba valószínuségét, ˝ valamint ˝ az erofüggvényt a p = 0, 2 pontban! ˝ E21.) Egy gyártó megfigyelte, hogy 100, általa eloállított SSD merevlemezen 5 év használat után hány hibás szektort talál az ezek felkutatására készített szoftver: Hibás szektorok száma Gyakoriságok
0 45
1 35
2 12
3 5
4 1
5 1
7 1
Összesen 100
Vizsgáljuk meg, hogy a szektorhibák száma Poisson-eloszlást követ-e!
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
71 / 72
E22.) Egy webtervezo˝ azt gyanítja, hogy az általa létrehozott internetes vásárlás honlapján a vásárlások mértéke összefügg azzal, ˝ hogy milyen nap van a héten. Ennek a sejtésnek az ellenorzésére egy héten kereszül adatokat gyujt ˝ – összesen 3758 látogatót számlált meg: Vásárlás H K Sz Cs P Sz V Össz. Nem vásárolt 399 261 284 263 393 531 502 2633 1 vásárlás 119 72 97 51 143 145 150 777 Több vásárlás 39 50 20 15 41 97 86 348 Összesen 557 383 401 329 577 773 738 3758 Alkalmas statisztika próbával döntsünk arról, hogy helyes-e a webtervezo˝ sejtése! E23.) Alkalmas statisztika próbával döntsünk arról, hogy a következo˝ minta E(0, 10) eloszlásból származik-e: 4,2 2 5,6 8,1 1,2 0,6 5,4 8,9 7,5 9,3
Varga László (ELTE)
Leíró és matematikai statisztika
2017. március 6.
72 / 72