STATISZTIKA KÉSZÍTETTE: TAKÁCS SÁNDOR
ALAPFOGALMAK • Statisztika: latin status szóból ered: állapot – Mindig egy állapotot tükröz
• Véletlen tömegjelenségek tanulmányozásával foglakozik – Adatok – megfigyelés, kísérlet eredményei, mindig rögzítettek • Mérhető adatok – számokkal kifejezhetőek • Megállapítható adatok pl: igen/nem
– „Egy adat nem adat”
• Minta – egy vizsgálandó halmaz részhalmaza. A vizsgálandó halmazt mintasokaságnak, vagy populációnak nevezzük. • Leíró statisztika: mintát önmagában tekinti, nem foglalkozik azzal, hogy mi van mögötte. • Matematikai statisztika: a mintát eszköznek tekinti a populáció megismerésére • Anekdota: a pénzügyminiszter letekint a Gellért hegyről a gyalogosokra, és mit lát? adóalanyokat
Mire jó a statisztika • Görög bölcs mondája – olajprések felvásárlása, majd eladása • Nagyvállalat sikeres tanácsadója –szélhámos – tippeit a jósnőtől kapta – Ne jusson el a információ a konkurenciához – Milyen értéket képvisel a statisztika? Titkolják az alkalmazását? – Student próba: Gasset az igazi szerző, Student fedőnév: sörgyári alkalmazott – Minőségi ellenőrzés – Szekvenciális analízis – Columbia egyetem – „bizalmas” kategóriába sorolták – „hintába ültetés”
Feladat • Stst ábrázolás
Rendszerezés • Statisztika emberek vagy tárgyak csoportjait (mintáját) vizsgálja. – – – –
Sokaság csoport (statisztikai sokaság) Egyedek a csoport tagjai Sokaság mérete: az egyedek száma Ismérv egyedek vizsgált tulajdonságai • Tetszőleges számú ismérvet vizsgálhatunk • Érdektelen ismérv – felesleges vizsgálni
– Adat ismérv egy konkrét előfordulása – Pl: vizsgáljuk az iskola tanulóit hajuk színe szerint. • • • • •
Sokaság: iskola tanulói Egyed: Szabó Kitti Sokaság mérete: 350 tanuló Ismérv: haj színe Adat: szőke (barna?)
feladatok 1. A cukorgyárban az egyik minőségi ellenőr azt vizsgálja, hogy mennyi cukrot töltenek a gépek a zacskókba. Ebben az esetben mi a statisztikai sokaság, és mi az ismérv? Mi az adat? 2. Készítsünk képzeletbeli vizsgálatot a drogot használók körében! Mi a statisztikai sokaság? Mik legyenek az ismérvek? Készítsünk a felméréshez kérdőívet! 3.
Készítsünk felmérést a diákok kedvenc együtteseiről! Mi a statisztikai sokaság? Mik az ismérvek? Készítsünk a felméréshez kérdőívet!
Ismérvek és adatok fajtái • Minősítéses ismérvek – Számmal nem kifejezhető, vagy számmal jelölt, de nem szám jellegű ismérv – Pl: egyed neme, kerület száma, utca neve New Yorkban – Nincs értelme matematikai műveleteket végezni • Rendezhető (pl: iskolai osztályzatok) – Ha van értelme a rendezésnek
• Nem rendezhető (pl: hajszín)
– Méréses ismérvek • Számmal meghatározható • Van értelme matematikai műveleteket végezni • Mindig rendezhető – Diszkrét ismérv véges sok, vagy felsorolható értékeket vehet fel – Folytonos ismérv bizonyos határok között bármilyen értéket felvehet
Gyakoriság • Adat gyakorisága megmutatja, hogy hányszor fordul elő az adatok között. • Gyakorisági táblázat (gyakorisági eloszlás): a lehetséges adatokat és azok gyakoriságát tartalmazza. • Pl: iskolai felmérés, 40 diákot kérdezetek, kinek hány testvére van? – Ismérv: testvérek száma – Diszkrét – A lehetséges értékek: 0,1,2,3,4
•
Testvérek száma
Gyakoriság
0
7
1
19
2
9
3
4
4
1
Összese n
40
Osztályközös gyakoriság • Az adatokat osztályokba soroljuk. • Az osztályokon alapuló gyakorisági eloszlást osztályközös gyakoriságnak nevezzük. • Mikor alkalmazzuk? – Sok különböző adat, viszonylag kis gyakoriságokkal – Folytonos ismérvek esetén
• Mire vigyázzunk? – Osztályoknak nem lehet közös része – Le kell fednie a teljes tartományt – Osztályok száma • Sem tú kevés, sem túl sok nem jó • Általában 10-15 –nél több ne legyen • Ajánlás: k0: osztályok száma, N a sokaság mértéke
k 1
2 N 2 ; akkor k 0 k 1 k
•
Pl: egy mozicsatorna szeptemberi filmjeinek hossza percben megadva (100 film) – – – –
A legrövidebb: 29 perc A leghosszabb: 135 perc Ajánlás szerint 7 osztály (135-29)/715 perc, egy osztály szélessége
Osztály
Gyakoriság
[29-44)
10
[44-59)
6
[59-74)
25
[74-89)
31
[89-104)
12
[104-120)
7
[120-135]
9
Relatív gyakoriság • Ismérv relatív gyakorisága (gyakorisági sűrűsége) a gyakoriság és az adatok számának hányadosa – Gyakoriság: k – Sokaság mérete: N – Relatív gyakoriság: k/N
0
k 1 n
– Szokás százalékban is megadni – Relatív gyakorisági táblázat (relatív gyakoriság szerepel)
Testvérek száma
Gyakoriság
Relatív gyakoriság
0 1 2 3 4 Összesen
7 19 9 4 1 40
17,5% 47,5% 22,5% 10% 2,5% 100%
Ábrázolási módok
Nyaralás 11
Oszlopdiagram Vízszintes oszlopdiagram Térbeli oszlopdiagram – Oszlopok magassága az adatok nagyságát jelképezik – Lehet a nagyságuk helyett a gyakoriságukat is ábrázolni – Pl: tanulók a nyáron milyen közlekedési eszközzel utaztak nyaralni:
Közlekedési eszköz Autó
Összesen
9
10
8
8 5
6
3
4 2 0 autó
busz
vonat
repülőgép kerékpár
Közlekedési eszköz
Nyaralás
Közlekedési eszköz
kerékpár
3 5
vonat
8 11
autó
9
9 0
5
10
Gyerekek száma
Busz
11 Nyaralás
Vonat Repülőgép
Kerékpár
8 5
3
12
Gyerekek száma
• • •
Gyerekek száma
12
10 8 6 4 2 0
autó
vonat Közlekedési eszköz
kerékpár
15
150 100 50
11
9
8
5
vo na t
re pü lő gé p
m
ás
bu sz
au tó
Közlekedési eszköz
Nyaralás 111
110
Gyerekek száma
110
110
Közlekedési eszköz
t na vo
p őg é re p
ül
m ás
bu
sz
1
tó
– Ha az adatok közt van egy nagyon nagy. (a többi egymással nehezen hasonlítható össze) – Ha az adatok nagyon kicsit különböznek egymástól
200
200
0
– Gyakoriságot, relatív gyakoriságot, vagy valamilyen mennyiségeket szeretnénk összehasonlítani – Adat időbeli változását akarjuk bemutatni
• Mikor ne használjuk?
250
au
• Mikor használjuk?
Gyerekek száma
Oszlopdiagram
Nyaralás
4
Hisztogram
3,5 3 2,5
• Egy speciális oszlopdiagram – Oszlopok közt nincsenek hézagok – Gyakoriságok a téglalap területével arányosak – Téglalap magassága: táblázatban szereplő gyakoriságokat osztjuk a megfelelő osztályköz szélességével – Pl: tanulók tömegét mérték – 100 tanuló esetében:
2 1,5 1 0,5 0 35
45
55
65
75
85
95
tömeg
gyakoriság
Oszlop magasság
30-40
2
0,2
40-50
10
1
50-60
24
2,4
60-70
35
3,5
70-80
19
1,9
80-90
6
0,6
90-100
4
0,4
Töröttvonal-grafikon
Hónap
december
november
október
szeptember
augusztus
július
június
május
április
március
február
40 35 30 25 20 15 10 5 0
január
Átlaghőmérsékletek Tuinszban
hőmérséklet (C°)
• Valamely mennyiség időbeli változásának szemléltetésére használják. • Más neve: vonaldiagram • A pontokat összekötő szakaszok csak a változást érzékeltetik, két pont között nincs értelme értékről beszélni.
Kördiagram
Pistike napi időtöltése
9%
•
•
•
Relatív gyakoriságok (elsősorban %ban megadott) ábrázolására használjuk. Az ábrázolt százalékérték a körcikk középponti szögével egyenesen arányos. Kördiagram helyett néha tortadiagramot használnak. A középponti szögek torzulása miatt nem mindig ajánlott. Mikor használjuk? –
•
25%
evés 16%
pihenés házi feladat 8%
33%
egyéb
Pistike napi időtöltése
Százalékban megadott relatív gyakoriságokat akarunk ábrázolni Ha túl sok az adat Sok kis adat mellett egy sokkal nagyobb van
Pl: Pistike napi időtöltése: – – – – – –
Iskola alvás
Mikor ne használjuk? – –
•
9%
Iskola: Alvás: Evés: Pihenés: Házi feladat: Egyéb:
25% 33% 8% 16% 9% 9%
9%
9%
Iskola 25%
alvás evés pihenés
16% 8%
33%
házi feladat egyéb
Feladatok Egy országos élelmiszer áruházlánc évi forgalmának megoszlása: – – – – – – – – – –
Nem élelmiszer: Egyéb élelmiszer: Kávé: Szeszesitalok: Üditők, szörpök: Konzervek, mirelit: Tej, sajt, tejtermék: Kenyér, péksütemény: Zöldség, gyümölcs: Édesipari áruk, fűszerek:
14,3% 6,7% 2,9% 9,7% 5,8% 12,7% 19,5 14,2% 2,9% 11,3%
• Ábrázoljuk a megoszlást kördiagramon! • Mekkorák az egyes körcikkek középponti szögei? • Ha az évi forgalom 20 milliárd forint volt, számítsuk ki, mennyi bevétel származott az egyes kategóriákból! • Ennek bemutatására készítsünk oszlopdiagramot!
Sávdiagram Sávdiagram
• Akkor használjuk, amikor a kördiagramot • A százalékos adat egy téglalapban van megadva. – Téglalap szélessége lényegtelen – Téglalap hossza 100% – A belsejében levő csíkok hossza a százalékos adatokkal arányos – Ha több az adat, szerencsésebb, mint a kördiagram
• Függőleges helyzetű sávdiagramhalmozott oszlopdiagram – Adatok összehasonlítására egymás mellé helyezett halmozott oszlopdiagramokat használnak. • Ha az oszlopok magassága az összmennyiséggel arányos, torzulnak a részletek • Egyforma magasságú (100 %-ig halmozott oszlopdiagram) esetén a százalékos arány nyomon követhető
0%
20%
40%
60%
80%
100%
Halmozott oszlop diagram 30 25 20 15 10 5 0 1
2
100%-ig halmozott oszlop diagram 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 1
2
Gyűrűdiagram • A kördiagram egy részlete, egy körgyűrű-sávot levágunk a kördiagramból. – több adathalmaz összehasonlítása: az egyes gyűrűkben ábrázolhatjuk a különböző adathalmazokat. • Csak indokolt esetben, mert az egyforma típusú adatokat ábrázoló sávok elcsúszása egymáshoz viszonyítva zavaró lehet. Gyűrűdiagram
1 6%
9 23%
Gyûrûdiagram összehasonlítással
9 11%
2 12% 8 16%
8 6% 7 6%
3 23%
5 18%
4 6%
9 23%
1 5% 1 6%
8 6% 7 6% 7 22%
2 8% 2 12%
3 14%
3 23% 5 18%
4 6% 5 5%
4 19%
Sugár – Pókháló diagram – ahány adat szerepel az adathalmazban, annyi egy pontból kiinduló félegyenest veszünk fel – a szomszédosok egyforma szöget zárnak be. – Minden egyes adatot a neki megfelelő félegyenesen ábrázolunk, – a kapott pontokat egy törött vonallal összekötjük.
• Szintén az adatok változásának szemléltetésére alkalmas – Az adatok változásának nagysága az egyenesek meredekségéből olvasható le – minél jobban az origó felé tart egy szakasz, annál jobban csökken az adat nagysága, és fordítva.
Sugár (Pókháló) diagram
1 8 12
2 6 4
11
3
2 0 10
4
9
5 8
7
Módusz • Az adathalmazból kapott, az adathalmazra jellemző számokat statisztikai mutatóknak nevezzük. • Módusz: az adathalmazban előforduló adat, amelynek a legnagyobb a gyakorisága. Jel: Mo – Ha a gyakoriság egyszer fordul elő egymóduszú, ha többször, többmóduszú eloszlás
• Pl: megfigyelik egy áruházban, hogy ki, hány palack ásványvizet vásárol egyszerre.
• Mo=5
Egyszerre vásárolt palackok száma
Gyakoriság
1 2 3 4 5
32 16 4 43
65
6 7 8 9
51 7 3 1
Medián • Az adathalmaz mediánja a nagyság szerint rendezett elemek közül a középső. Jel: Me – – – –
A halmaz elemeit sorba kell rendezni Csak rendezhető adatoknak lehet mediánja Páratlan számú adat: Me a középső (van) Páros számú adat esetén: Me a két középső számtani közepe (nincs egy középső) – A medián a sorba rendezett adatokat két részre osztja. A medián előtt ugyanannyi adat van, mint utána.
Kvartilisek • A medián alatti adatok mediánja az alsó kvartilis: Q1. Az alsó kvartilis alatt az adatok ¼ része, fölötte ¾ része van. • A medián feletti adatok mediánja a felső kvartilis: Q3. Az felső kvartilis alatt az adatok ¾ része, fölötte ¼ része van. • A medián a középső kvartilis: Q2 Q1
Me
Q3
Számtani közép • Két adat számtani közepe a két adat összegének a fele. – Csak akkor van értelme, ha az összeg értelmezhető
x1 x2 x 2
• Méréses adatoknak van számtani közepe • Minősítéses adatoknak nincs
• Több adat számtani közepét úgy kapjuk meg, hogy az adatokat összeadjuk, és elosztjuk az adatok számával.
n
x1 x2 x3 ... xn x n
x i 1
n
i
Súlyozott átlag Osztály
Egységek száma
Egységek értéke
C1
f1
x1
C2
f2
x2
… Ci
… fi
… Xi
… Ck
… fk
… xk
Összesen :
n
f1 x1 f 2 x2 f 3 x3 ... f k xk x n vagy k
x
fx i
i 1
n
i
Összefoglalás Minősítéses ismérv
Méréses ismérv
Nem rendezhető
Rendezhető
Diszkrét
Folytonos
módusz
módusz
módusz
módusz
medián
medián
medián
számtani közép
számtani közép
• Méréses ismérveknél mindhárom az adatok között helyezkedik el. (nagyobb, mint a legkisebb, kisebb mint a legnagyobb) • A számtani közép nagyon érzékeny a kiugró értékekre. • A medián ezzel szemben nem érzékeny a kiugró értékekre. Ezért néha használják számtani közép helyett, ha azt a kiugró értékek „nagyon elvinnék” – A medián esetében pontosan annyi adat van előtte, mint utána
Szóródás • Csak méréses adatokkal foglalkozunk • Megmutatják, hogy az adatok mennyire tömörülnek a középértékek körül • Szóródási mutatók – Terjedelem – Átlagos abszolút eltérés – Szórás
Terjedelem • A legkisebb és legnagyobb adat közti különbség a terjedelem – Mértékegysége azonos a méréses ismérv mértékegységével – A terjedelem intervallumában minden adat benne van – Interkvartilis terjedelem: Q3-Q1 különbsége Q1
1/4
Me
Q3
½ Interkvartilis terjedelem
1/4
Hőmérsékletek • Magyarország és Tunézia átlaghőmérsékleti adatai • Készítsünk vonaldiagramot a két hőmérsékleti eloszlásról egy koordinátarendszerben • Határozzuk meg a hőmérsékletek középértékeit • Melyik ország átlaghőmérséklete körül tömörülnek jobban az adatok – Számítsuk ki a terjedelmet mindkét esetben – Jelöljük különböző színnel a grafikonon
Hónap
HU
Tunézia
január
-2,0 C
16,0 C
február
0,5 C
17,0 C
március
4,0 C
19,0 C
április
10,4 C
21,0 C
május
13,1 C
25,0 C
június
18,4 C
27,0 C
Július
20,3 C
31,0 C
augusztus
19,6 C
32,0 C
szeptember
15,6 C
31,0 C
Október
10,2C
26,0 C
November
4,4 C
20,0 C
december
-0,1 C
17,0 C
Apák-fiúk magassága • Állapítsuk meg a táblázat alapján, hogy az apák, vagy a fiúk magasságainak átlaga körül tömörülnek jobban az adatok! • Állapítsuk meg az apák és a fiúk esetében is: Me,Q1,Q3 • Mely adatok találhatók az interkvartilis terjedelem intervallumában?
Apák 167 168 169 171 172 172 174 175 176 182
Fiúk 164 166 166 168 169 170 170 171 173 177
Hiányzások • A táblázat azt mutatja, hogy egy 30 fős osztály tanulói mennyit hiányoztak 5 hónap alatt. • Számítsuk ki, hogy az osztály tanulói átlagosan mennyit hiányoztak! • Mi a minta terjedelme, mediánja, módusza? • Állapítsuk meg az interkvartilis terjedelmet!
Mulasztott napok száma 7 8 3 9 4 2 3 0 4 5 3 2 4 2 3 5 3 8 1 6 6 5 0 3 4 6 1 4 1 5
Átlagos eltérések Vizsgáljuk meg a Magyarország havi középértéktáblázatában, hogy az egyes hónapok középhőmérsékletei mennyire térnek el az átlagtól! (havi középhőmérsékletből kivonjuk az átlagot) havi középhőmérsékletek átlaga: 9,53 C Pl. januárra:
x1 x1 x 2 9,53 11,53
Hónap
HU
január
-2,0 C
február
0,5 C
március
4,0 C
április
10,4 C
május
13,1 C
június
18,4 C
Július
20,3 C
augusztus
19,6 C
szeptember
15,6 C
Október
10,2C
November
4,4 C
december
-0,1 C
• Számítsuk ki, hogy mennyi az átlagos eltérés az átlagos középhőmérséklethez képest!
x1 x2 ... x12 x 12 • Mennyi lett az eredmény? • Az eredmény: 0 – – – –
az adatok az átlagtól átlagosan nem térnek el bizonyítható, hogy az eltérések összege mindig 0 a pozitív és negatív számok kiegyenlítik egymást nem sok információval szolgál
Átlagos abszolút eltérés a számtani középtől • Vegyük az eltérések abszolút értékét: ______
x
x1 x2 ... x12 12
• Mennyi az eredmény? • az eredmény: 6,7925 • Meghatározás: A számtani középtől való átlagos abszolút eltérés az eltérések abszolút értékének számtani közepe. ______
x
x1 x2 ... xn n
Átlagos abszolút eltérés • Definíció: Egy adott a valós számtól vett átlagos abszolút eltérés az adathalmaz értékeinek az adott a számtól vett eltérések abszolút értékeinek számtani közepe. ______
xa
x1 a x2 a ... xn a n
• Feladat: Határozzuk meg a leghidegebb és a legmelegebb hónap középhőmérsékletétől vett átlagos abszolút eltérést! • Megjegyzés: Az a számtól vett átlagos abszolút eltérés az abszolútérték-függvény tulajdonságai miatt akkor a legkisebb, ha az a szám a mediánnal egyenlő. (a=Me) • Definíció: Az átlagos abszolút eltérés a mediántól vett eltérések abszolút értékeinek számtani közepe. ______
__________ _
x xMe
x1 Me x2 Me ... xn Me n
Feladatok 1. Határozzuk meg Magyarország klímatáblázata alapján a havi középhőmérsékletek mediánját, majd az átlagos abszolút eltérést! 2. Az alábbi táblázat a munka alól felmentésüket kérő rabok életkorát mutatja egy fegyintézetben. 18 20 25 30 37 18 22 27 32 55 60 32 35 45 47 51 18 23 37 42 57 62 75 67 65 Számítsuk ki a minta terjedelmét, a számtani középtől vett átlagos abszolút eltérését és az átlagos abszolút eltérését!
Feladatok 3. Tizenkét diák részére matematikából egyhetes intenzív verseny-előkészítőt tartottak. A hét végén egy 50 pontos felmérőt írtak. Az alábbi eredmények születtek:
42 29 21 37 40 33 38 26 29 47 30 45 Mi az adatok mediánja és számtani közepe? Számítsuk ki a számtani középtől vett átlagos eltérést és az átlagos abszolút eltérést!
Szórás • ha a különböző előjelű számok semlegesítő hatását négyzetre emeléssel szűntetjük meg, egy adott számtól való átlagos négyzetes eltérést kapjuk. • ha a= x , akkor minimálisszórásnégyzet • Definíció: A szórásnégyzet az eltérések négyzetének számtani közepe. 2 2 2 x x x x ... x x 2 n 2 1
n • A szórás a szórásnégyzet négyzetgyöke.
2
Feladatok 1. Számítsuk ki a klímatáblázat szórását! – 2=59,2489 – =7,69
2. Számítsuk ki a következő adatok számtani közepét és szórását: a. b. c. d.
1;4;8;9;10; 3,2;4,7;5,1;5,2;6,3 103;109;110;112;125;131 -5;-2;0;1;2;3