Statisztikai módszerek 2. feladatsor Tapasztalati sűrűségfüggvény (hisztogram) és tapasztalati eloszlásfüggvény A munkalap megnyitásakor engedélyezzük a makrókat. A munkalap az előző gyakorlaton tárgyalt 1. Feladatot kidolgozva tartalmazza, mert ehhez kapcsolódva folytatjuk az elemzést.
1. Feladat – az 1. feladatsor 1. feladatának második része c. Készítsen tapasztalati sűrűségfüggvényt (hisztogramot) és vesse össze az előző mennyiségekkel! d. Határozza meg a 81 és 95 LE közé esés relatív gyakoriságát közelítőleg a hisztogram segítségével és pontosan az eredeti adatsor alapján! e. Készítsen tapasztalati eloszlásfüggvényt az eredeti adatsorból! f. Készítsen tapasztalati eloszlásfüggvényt a hisztogramból! Célja
Tapasztalati sűrűségfüggvény (hisztogram) megismerése Tapasztalati eloszlásfüggvény megismerése Intervallumba esés valószínűségének számítási módja
Megjegyzés Az Excel rendelkezik beépített hisztogram készítővel (analysis toolpack), de hiába adunk meg eltérő oszlopszélességeket, az ábrázolás (szélesség és magasság is) olyan, mintha egyformák lennének az oszlopszélességek. Megoldás menete c. Hisztogram készítése o Javasolt intervallum szám kiszámolása 100-nél több adat esetén:. M5: =KEREKÍTÉS(LOG(F4;2)+1;0), (100-nél kevesebb adatra "gyök(n)") o L8:L20 cellákba soroljuk fel a számokat 1-től 13-ig o Célunk úgy megválasztani az intervallum határokat, hogy minden oszlopba kb. azonos mennyiségű adat essen. A percentilis függvény első paramétere egy tömb, második paramétere egy arányszám. Visszaadott értéke az az érték aminél a tömbben lévő elemek akkora része kisebb mint ami a második paraméter. Így: Alsó és felső határok: M8: =PERCENTILIS($B$4:$B$4197,(L8-1)/13) N8: =PERCENTILIS($B$4:$B$4197,L8/13)
1
o
o
o
o o
Megegyezés szerint azokat az elemeket amik pont intervallum határra esnek soroljuk a határtól jobbra lévő intervallumba (kivéve a az utolsó intervallumot, mert attól már nincs jobbra). Az oszlopmagasság megállapításánál az a célunk, hogy az oszlop területe megegyezzen az intervallumba esés relatív gyakoriságával. A relatív gyakoriság kiszámításához először határozzuk meg a gyakoriságokat: O8: =DARABTELI(B$4:B$4197;"<"&N8)-DARABTELI(B$4:B$4197;"<"&M8) húzzuk le végig, majd az utolsó cellában javítsuk ki az első "<" jelet "<="-re O20: =DARABTELI(B$4:B$4197;"<="&N20)DARABTELI(B$4:B$4197;"<"&M20) Az oszlopmagasság számítás tehát: "Terület/szélesség", azaz "(gyakoriság/összelemszám)/szélesség" P8: =(O8/F$4)/(N8-M8), majd lehúzás vagy duplaklikk A hisztogram rajzoláshoz megadjuk azoknak a pontoknak az x-y koordinátáit, aminek összekötéséből létrejön a hisztogram. Ezek: (első intervallum kezdőértéke;0) majd minden oszlopra (beleértve az elsőt is): (intervallum kezdőpont;oszlopmagasság) (intervallum végpont;oszlopmagasság) (intervallum végpont;0) Lehet kézzel is összekattogtatni, de használhatjuk az előre elkészített makrót. A makrók használata nem követelmény zh-n. Nézet/Makrók vagy Office gomb/Az Excel beállításai/Népszerű Elemek/Fejlesztőeszközök lap megjelenítése a szalagon A makró helyes működéséhez kattintsunk az első intervallum sorszámának cellájába (L8) Indítsuk el a makrót, ami legenerálja a szükséges adatokat: Nézet/Makrók/HisztogramAdatElokeszito Jelöljük ki a legenerált adatokat, majd rajzoljunk belőle diagramot: Beszúrás/Diagramok/Pont/Pont vonalakkal Nevezzük át az adatsort "Hisztogram" nevűre Az eloszlás nem szimmetrikus hanem „pozitív ferdeség” figyelhető meg, azaz a jobboldali farok hosszabb Jelenítsük meg az átlagot a hisztogramban egy függőleges vonallal A vonal rajzolásához segítségül számoljuk ki a legenerált adatsor y koordinátái közül a legkisebbet és a legnagyobbat. Q48: max: R48: =MAX(R8:R47) Q49: min: R49: =MIN(R8:R47) Készítsük elő az átlag és a medián ábrázolásához szükséges adatokat R52: = F3 2
R53: = F3 S52: =F13 S53: =F13 T52: =R49 T53: =R48 Kattintsunk a hisztogramra, majd Adatok kijelölése/Hozzáadás Adatsor neve: Átlag X értékek kiválásztása: R52:R53 Y értékek kiválásztása: T52:T53 o Jelenítjük meg a mediánt is a hisztogramban X értékek kiválásztása: S52:S53 Y értékek kiválásztása: T52:T53 o A pozitív ferdeség miatt az átlag a mediántól pozitív irányban helyezkedik el. o Vessük össze a hisztogramot a boxplottal Ehhez célszerű a boxplotot "vízszintesen ábrázolni: Jobb klikk a boxplot diagramján/Más diagramtípus/Sáv/Halmozott sáv Méretezzük át a két diagram (belsejét) egyforma szélesre d. Intervallumba esés relatív gyakoriságának számítása: o A hisztogram használata az eredeti adatok helyett információ vesztéssel jár így a hisztogramból nyert információk általában csak közelítőleg felelnek meg a pontos értékeknek. o Feladat: A hisztogram segítségével határozzuk meg, hogy a határon átlépett autók mekkora része esik 81 és 95 LE közé? A hisztogram segítségével arra tudunk (közelítő) választ adni, hogy mekkora a [81,95) intervallumba esés relatív gyakorisága? (A határok azért így vannak, mert a hisztogramot is úgy konstruáltuk, hogy az oszlophatárra eső pontokat a jobboldali intervallumba soroltuk.) Ekkor a relatív gyakoriság megegyezik az intervallum feletti területtel. Jelen esetben egy háromnegyed, és két egész oszlop területéről van szó, melyek területeit összeadva: M23: =(N16-M16)*P16+(N15-M15)*P15+(N14-M22)*P14 o Megjegyzés: A közelítés itt abból a feltételezésből fakadt, hogy a [80,84) intervallumba eső adatok háromnegyed része esik a [81,84) intervallumba. Tehát, intervallumon belül egyenletes eloszlást feltételeztünk, ami a valóságban általában nem teljesül pontosan. A pontos számítás elvégezhető az alábbi képlettel, ami "elég közeli" eredményt ad: M24: =(DARABTELI(B4:B4197;"<"&N22)-DARABTELI(B4:B4197;"<"&M22))/F4 e. Tapasztalati eloszlásfüggvény az eredeti adatsorból: o Ez a függvény minden teljesítményértékhez hozzárendel egy részarányt: Az adatok mekkora része kisebb az adott teljesítménynél? A legkisebb adatnál kisebb teljesítményekre a függvény értéke 0. A legkisebb és a második legkisebb adat közti teljesítményekre 1/n. 3
f.
Az i. és az i+1. Adat között i/n A legnagyobb adat fölött 1 o Az egyszerűbb ábrázolás érdekében rendezzük sorba a teljesítményadatokat. Jelöljük ki a teljesítményeket Adatok/Rendezés (A->Z) o Az A oszlopban sorszámozzuk meg a teljesítményeket o A D oszlopban számoljuk ki a szükséges részarányokat D4: =A4/F$4 Duplaklikk. o Az ábrázoláshoz jelöljük ki az B és D oszlopot o Beszúrás/Pont/Pont csak jelölőkkel o Állítsuk a jelölő méretét minimálisra o Hagyjunk helyet a hisztogram alatt a következő feladat számára. Tapasztalati eloszlásfüggvény a hisztogramból: o A hisztogram „veszteségesen tömörített” információ az adatainkról Annyit tudunk pl., hogy 26 és 53 között előfordult 276 adat, de az nem tudjuk, hogy pontosan mennyi volt ezeknek az adatoknak az értéke. o A tapasztalati eloszlásfüggvény ilyenkor durvábban rajzolható meg: Az első intervallumtól „balra” a függvény értéke 0, sőt az első intervallumhoz tartozó szakaszon is 0 és csak az első intervallum végpontja után ugrik a fv. a 276/n értékre Mivel a második intervallumban 368 elem található, a második intervallumot is elhagyva a függvény felugrik a (276+368)/n értékre. Az utolsó intervallumot is elhagyva a fv. értéke felugrik 1-re. o Számoljuk ki azokat az értékeket amiket a tapasztalati eloszlásfüggvény a fentiek alapján felvesz: Először számoljuk ki a kumulált gyakoriságokat: S8: =SZUM($O$8:O8) lehúzás Ezeket a minta elemszámmal osztva a szükséges arányokat: T8: =S8/$F$4 lehúzás o A rajzolás itt is algoritmizálható, és készült rá egy makró, ami ugyanúgy működik, mint a hisztogram esetében Egészítsük ki a felső határok oszlopát egy 300-as értékkel (eddig ábrázoljuk majd a tapasztalati eloszlásfüggvényt). Az első intervallum sorszámára kell pozícionálni a makró indítása előtt. o Méretezzük a grafikont a hisztogrammal azonos szélességűre. o Szükség esetén a vízszintes tengelyen állítsuk át a skálát 0-300 ig.
Megjegyzés Az eloszlásfüggvény valójában vízszintes balról nyílt, jobbról zárt szakaszokból áll, de mi nem ragaszkodtunk az ilyen ábrázoláshoz.
4
Gyakorló adatsor Ha maradt még idő, vagy otthoni gyakorlásra megismételhetjük a 2. feladat lépéseit egy negatív ferdeségű adatsoron. Tipp önellenőrzéshez: A két adatsor egyforma hosszú, így ha a sorba rendezett gyakorló adatokkal felülírjuk a 2. feladat alapadatait akkor az a,b,c,e,f feladatokra megkapjuk a helyes eredményeket (a d-re nem igaz).
5