Statisztikai módszerek 1. gyakorlat Alapok,Boxplot Adminisztratív tudnivalók
tárgy célja, tematikája stb.: Lásd előadáson
Követelmények Aláírás birtokában lehet vizsgázni Aláírás a zh vagy pzh min elégséges megírásával szerezhető o zh: márc.29. 18 órától, o pzh: pótlási héten ugyanabból az anyagból. o ppzh: NINCS Jegy: vizsgaeredmény o 3 vizsgaalkalom a vizsgaidőszakban Elmaradó gyakorlatok Két egymás utáni csütörtök: márc. 8. és 15. elmaradnak: o 7-én szerdaiaknak, 14-én csütörtökieknek tartunk gyakorlatot Ápr. 25. szerda elmarad o Nincs pótlás, de Ápr. 26-a csütörtök gyakorló óra (nincs új anyag)
Excel alapok Döntően feladatmegoldás közben a probléma felmerülésekor ismertessük.
Abszolút/relatív hivatkozás Függvények Tömb megadása Cella "lehúzása"
1. Feladat Egy magyarországi határátkelőhelyen adott héten kilépő magyarországi papírokkal rendelkező gépkocsikat típusuk szerint csoportosítva tartalmazza az alábbi táblázat. Számolja ki az egyes típusok relatív gyakoriságát, és ábrázolja ezeket Pareto diagramon (oszlopdiagramon) és kördiagramon. Célja
Excel használat alapjainak elsajátítása Relatív gyakoriság fogalmának megismerése abszolút/relatív hivatkozások képletmásolások ("lehúzás") Oszlop- és kördiagram készítése (nem számszerűsíthető kategóriák esetén)
1
Megoldás menete Összeg kiszámítása. B28: =SZUM(B4:B27) o Tömb paraméter beírva, vagy egérrel Új oszlop: C3: rel.gyak. relatív gyakoriságok számítása: C4: =B4/B$28 o $ jel magyarázata!!! C4 jobb alsó sarkának "lehúzása" vagy duplaklikk. o érdemes kipróbálni mindkettőt o nézzük meg a másolt képleteket (absz./rel. hivatkozások) Jelöljük ki a Típusokat: A4:A27 (az összesen-t már ne) Jelöljük ki a relatív gyakoriságokat: C4:C27 Beszúrás/Oszlopdiagram/Csoportosított oszlop (rögtön az első) Húzzuk szélesebbre a diagramot, hogy az összes típusfelirat elférjen Most készítsünk úgy diagramot, hogy nincsenek előre kijelölve az adatok.
Kattintsunk egy üres cellába Beszúrás/Torta/Kör Az üres diagram területen jobb-klikk-> Adatok kijelölése... Adatforrás kiválasztása ablak o Hozzáadás gomb, felugró ablak:Adatsor szerkesztése Adatsor neve: Gépkocsipark adatsor értékei mező mögötti kis gomb relatív gyakoriság adatok kijelölése egérrel kis gomb a felugró ablakban OK gomb: Az "Adatsor szerkesztése" ablak bezárul o Adatforrás kiválasztása ablak jobb oldalán: Vízszintes tengelyfeliratok Szerkesztés gomb hasonlóan az előzőhöz típusok kijelölése egérrel o Adatforrás kiválasztása ablak OK diagram méretezése
2. Feladat Az első feladatban szereplő határállomáson a gépkocsik típusán kívül a teljesítményüket is feljegyezték. a. Számolja ki az átlagos teljesítményt és a teljesítmény korrigált tapasztalati szórását. b. Jellemezze az adatsort a boxplot segítségével is majd számolja össze a felfelé kiugró és a felfelé extrém kiugró értékeket. Célja
Boxplot készítés Kiugró értékek
2
Megoldás menete a. Az átlagos teljesítményt számoljuk ki az Excel beépített függvényének segítségével. F3: =ÁTLAG( o Ezen a ponton kell megadni a tartományt: Kattintsunk az egérrel a legelső teljesítményadatra A CTRL+SHIFT+↓ segítségével kijelöljük az egész tömböt Bezárjuk a zárójelet: ) A CTRL+↑ segítségével visszaugrunk a lap tetejére o A szórás kiszámítása előtt magyarázzuk a fogalmat (különösen, ha megelőzzük az előadást): A tapasztalati szórás az „Átlagtól vett átlagos négyzetes eltérés gyöke” A korrigált tapasztalati szórás esetén n helyett (n-1)-gyel osztunk. Ennek okát az „elméleti szórás” és a „torzítatlan becslés” fogalmainak megismerése után tudjuk megmagyarázni. o A teljesítmény adatok melletti oszlopban számoljuk ki az egyes teljesítmények átlagtól vett négyzetes eltéréseit: C4: =(B4-F$3)^2 Kattintsunk duplán a C4 jobb alsó sarkára a „lehúzás” helyett. o Állapítsuk meg a minta elemszámát (n) F4: =DARAB(B4:B4197) A tartomány kijelölését mint az átlagnál… o A korr.tap. szórás kiszámítása: F5: =GYÖK(SZUM(C4:C4197)/(F4-1)) o A korrigált tapasztalati szórásra létezik beépített függvény, ami ezentúl használható. o Ellenőrizzük most az eredményünket ezzel: F6: =SZÓRÁS(B4:B4197) b. A boxplot megrajzolása előtt tisztázzuk a kvartilisek fogalmát: o A k. kvartilis egy olyan teljesítmény érték aminél a mintában előforduló teljestmények k/4 része kisebb és (4-k)/4 része nagyobb. Ez még nem definiálja egyértelműen az értéket minden esetben csak azt, hogy melyik két érték közé kell esnie. Ilyenkor az elemek között lineáris interpolációt használunk. o Speciálisan: A 0. Kvartilis értéke a minimális elem A 4. Kvartilis értéke a maximális elem A 2. Kvartilis (ami felezi a mintát) más néven medián. o A kvartilisek kiszámításához: E11: 0 és E12: 1 után jelöljük ki mindkettőt és „húzzuk le” a megkezdett sorozatot, amit az Excel folytat a számtani sorozatnak megfelelő értékekkel. o F11: =KVARTILIS(B$4:B$4197;E11) (első paraméter:adatsor, második: hányadik kvartilis) o Az Excel nem kínál beépített boxplot diagramot, így a meglévő eszközök trükkös felhasználásával rajzolunk ilyet: Halmozott oszlopdiagramot készítünk Q1, Q2-Q1, Q3 értékekkel (a különböző kvartiliseket jelölöm így) A Q1-nek készítünk egy negatív hibasávot Q1-Q0 értékkel A Q3-nak készítünk egy pozitív hibasávot Q4-Q3 értékkel Eltűntetjük Q1 kitöltését a másik két oszlopét pedig keretre változtatjuk. 3
o
o
o
A fenti ötlet technikai végrehajtása Q1-Q0, Q1, Q2-Q1, Q3-Q2, Q4-Q3 értékek kiszámítása Jelöljük ki a Q1, Q2-Q1, Q3-Q2 adatokat Beszúrás/Oszlop/Kétdimenziós oszlop/halmozott oszlop Jobb klikk a diagramon, majd Adatok kijelölése… Sor/Oszlop váltása gomb A grafikonban az alsó oszlop kijelölése Az ablak tetején lévő fülek közül: Elrendezés/elemzés/hibasávok/további hibasáv beállítások… Megjelenítés: mínusz A hiba mértéke: egyéni o Válasszuk ki a Q1-Q0 értéket Ugyanígy adjunk hozzá a felső oszlophoz egy plusszos, Q4-Q3 nagyságú hibasávot Legalsó oszlopon jobb-klikk: Adatsorok formázása/Kitöltés/Nincs Kitöltés Másik két oszlopon ugyanez és még szegélyszín: folytonos fekete vonal A boxplot értékelése: Az autók középső 50%-a 71 és 100 LE közé esik. Ez az úgynevezett "interkvartilis tartomány" (IQR) A felső 25% terjedelme sokkal nagyobb mint az alsó 25%-é. A medián enyhén az átlag alatt található, tehát több az átlag alatti teljesítményű autó mint az átlag feletti. (Ez úgy fordulhat elő, hogy az átlag alattiak általában csak kevéssel átlag alattiak az átlag fölöttiek viszont sokkal átlag fölöttiek.) Határozzuk meg a kiugró és az extrém kiugró értékek számát (csak felfelé irányban). Felfelé kiugró, ha az adott érték > Q3+1,5*IQR Felfelé extrém kiugró, ha az adott érték > Q3+3*IQR E17: IQR F17: =F14-F12 E18: kiugró, ha > F18: =F14+1,5*F17 E19: extr. kiugr. Ha > F19: =F14+3*F17 H18: kiugró (db) I18: =DARABTELI(B4:B4197;">"&F18) H19: e.kiug.(db) I19: =DARABTELI(B4:B4197;">"&F19)
3. Feladat Egy európai nagyváros turisztikai hivatala a város repülőterén készít felmérést, a várost éppen elhagyó nem helyi lakosok megkérdezésével. Két kérdést tesznek fel: 1. Milyen céllal érkezett az illető a városba? (Lehetséges válaszok: üzleti út, turista, egyéb.) 2. Naponta átlagosan hány Eurót költött a városban? 4
Készítse el a mindhárom úticélhoz tartozó boxplot diagrammot és ezek összevetéséből vonjon le következtetéseket! Célja Adatok szétválogatása. Boxplot készítés gyakorlása. Megoldás menete Válogassuk szét az adatokat az úticélok szerint. o A "D" oszolop soraiba kerüljön üres string, ha nem üzleti úthoz tartozik, és kerüljön a megadott összeg, ha üzteti út: o D5: =HA($B5=D$4;$C5;"") o A fenti képlet másolható oldalra és lefelé is. Számoljuk ki a kvartiliseket az egyes úttípusok esetén. o Paraméterként adhatunk a KVARTILIS függvénynek "hézagosan feltöltött" tömböt, úgyis csak a számot tartalmazó cellákat veszi figyelembe. o J5: =KVARTILIS(D$5:D$124;$I5) o Ez a képlet is másolható jobbra és lefelé. Számoljuk ki az ábrázoláshoz szükséges mennyiségeket. o Az I12:I16 tömbbe írjuk be a szükséges mennyiségek neveit: o Q1-MIN, Q1, Q2-Q1, Q3-Q2, Q4-Q3 o Ezek képletei triviálisak. Az ábrázolás menete megegyezik a 2. Feladatban leírtakkal. o Kivéve: Itt valószínűleg nem kell használni a Sor/Oszlop váltása gombot. o A végén: Adatok kijelölése/Vízszintes tengelyfeliratok/Szerkesztés
5