I. Adatok, adatgyűjtés Adatgyűjtés → adatok minőségének értékelése. Gazdasági adatokról lesz szó! Adat: rögzített ismeret. Számszerű adatokkal fogunk foglalkozni. Általában az adatok nem teljes körűek (komplettek). Az adatgyűjtés fő kérdései: 1. Mi(k) a releváns populáció(k)? 2. Mik az adatforrások? 3. Hány embert kérdeztünk meg és hogyan válogattuk ki őket? 4. Hogyan gyűjtöttük össze az információkat? 5. Kik nem válaszoltak? 6. Milyen típusú adatokat gyűjtöttünk? ad.1. Sokaság (populáció) Fontos a kiválasztás precizitása. A megkérdezetteknek tudni kell, miről van szó! Ez tehát alapvető marketing probléma! (lásd ott!) ad.2. Adatforrások Szegmentálás, célcsoport kiválasztás → Ismérvek! GIGO (szemét be, szemét ki) Eredetük szerint: • Elsődleges (eredeti) adatok • Másodlagos (származékos) adatok ad.3. A megkérdezettek kiválasztása a.) A CENSUS (népszámlálás, összeírás) Ez nem kíván semmilyen szelekciót, hiszen mindenkire vonatkozik! b.) Véletlen kiválasztás A vizsgált sokaság minden elemének azonos esélye van a mintába kerülésre! Pl. véletlen szám generálás útján való kiválasztás c.) Nem véletlen kiválasztás Előzetes szűréssel a sokaság egy részét kizárjuk a mintából. Kvóta minta: a sokaságot többféle jellemző azonosítja. Minden jellemző alapján egy-egy részt választunk ki. (pl. nem, életkor, munka) A mintában az egyes jellemzők aránya hasonló lesz az alapsokaságéhoz! (Pl. férfi-nő aránya a valóságban 46 % 54 %., akkor a mintában is ilyennek kell lennie.) 1
d.)
Számosság
Minél heterogénabb az alapsokaság, annál nagyobb minta kell! (Egy homogén sokaságból elég 1 elemet vizsgálni!) A minta elemszámától függ a vizsgálat pontossága. e.)
Komplexebb véletlen minták
Ha az alaposság rétegezhető, akkor a mintában is jelen lesznek a rétegek. Tehát minden rétegből - súlyának megfelelően - választani kell eleme(ke)t. Ha vannak rétegek, de nem tudjuk őket azonosítani, akkor először a rétegekre kell rákérdeznünk, s csak azután foghatunk a mintavételhez. (Utólagos rétegezés!) Clusterezés (csoportosítás) Ha vannak (eredendően) olyan csoportok, amelyek eleve tükrözik az alapsokaságot, azokból kell választani. Több lépcsős tervezés Ez a fokozatos szűkítés technikája. ad.4. Kérdezés A kérdezés mikéntje igen fontos! a.)
Kérdőív-tervezés Legyen világos a vizsgálat tárgya, témája! Világos és tömör kérdések! A kérdés ne tartalmazza a választ (ne is utaljon rá!) A kérdések logikus sorrendet kövessenek! A nyelvezet egyszerű, könnyen érthető legyen! A kérdés ne korlátozza a válaszadót! A kérdőív rövid és tömör legyen! A kérdés lehet: nyitott, zárt, segítő, szűkítő, szűrő, többszörös válaszadó (zártkérdés alternatív kimenetekkel) A válasz lehet: szabad, rögzített, (választással!), igen-nem, skálán elhelyezhető.
b.)
Interjúk A személyes „varázs” hatása érvényesülhet. Bizalmi viszony jöhet létre. Felszínre jöhetnek meg nem értési problémák. Segítségadás a kérdezettnek, stb.
2
c.)
Postai kérdőívek Válaszborítékkal küldjük ki. A válaszadás önkéntes! Személytelenség! A visszaérkezési arány (!) 20 - 40 % !
ad.5. Kik nem válaszolnak? okok: a.) személyes érdektelenségűek b.) lakcímváltozás miatt nem találhatók c.) kifutás a határidőből d.) az együttműködést elvből megtagadók e.) a lusták ad.6. Az adatok típusa Méréselméleti problémák! Skálák: nominális, sorrendi, intervallum, arány Milyen az adat? Minőségi: csak nominális skálán mérhető. Mennyiségi: minden skálán mérhető lehet! ↓ Milyenek az értékek? Diszkrétek vagy folytonosak Az adatok megjelenítése 1. Az adatok táblázatba foglalása Lehetséges módjai:
a.) minden érték felsorolása b.) minden különböző érték felsorolása előfordulásuk gyakoriságával együtt c.) intervallumokba sorolás (gyakoriságokkal együtt!)
2. Megjelenítés - ábrák - diagramok Diszkrét adatok megjelenítése: - kördiagramok, sávdiagramok - piktogramok Folytonos adatok megjelenítése: - hisztogramok 3. Grafikonok használata • grafikonok készítése • idősorok ábrázolása • logaritmikus grafikonok
3
II. Adatok elemzésének statisztikai módszerei 1. Statisztikai sorok A statisztikai sor: statisztikai adatok valamilyen szempont szerinti felsorolása Statisztikai sorok: (a.) a keletkezés módja szerint: - csoportosító sor - összehasonlító sor b.) az ismérv fajtája szerint: - idősor - területi sor - minőségi sor - mennyiségi sor Mennyiségi sorok: - gyakorisági sor: a sokaság hogyan oszlik meg a mennyiségi ismérv szerint /f/; - értékösszeg sor: a mennyiségi ismérvnek a gyakoriságával szorzott adata /f*x/ 1. példa: a) Minden lehetséges értéket felsoroló gyakorisági és értékösszeg sor legyen a következő: Ismérvérték (x) csoportlétszám (fő) 3 4 7 9 12 13 15 18 21 23 24 26 29 31 34 38 39 Összesen:
Gyakoriság (f) csoportok száma (db) 5 7 4 13 8 2 8 11 16 3 7 12 10 6 9 9 7 137 gyakorisági sor 4
Értékösszeg (f*x) létszám (fő) 15 28 28 117 96 26 120 198 336 69 168 312 290 186 306 342 273 2910 értékösszeg sor
Listánkat leegyszerűsíthetjük, ha nem sorolunk fel minden értéket, hanem az ismertérték adatokból ún. osztáyközöket képezünk. Ebben az esetben az értékösszeg sor pontos reprodukálása nem lehetséges, de megfelelő becslést kaphatunk, ha az osztályközöket az ún. osztályközepekkel helyettesítjük, és ezen értékeket szorozzuk a gyakorisággal. b. Osztályközös gyakorisági és értékösszeg sor: csoportlétszám osztály köz osztályközép 0-10 5 10-20 15 20-30 25 30-40 35 Összesen: -
csoportok száma (gyakoriság) 29 29 48 31 137
becsült értékösszeg 145 435 1200 1085 2866
- az osztályközép a két határ számtani átlaga - a két értékösszeg eltérése: 2910-2866 = 44 fő Ezen különbséget hívjuk „abszolút becslési hibának”. Százalékosan kifejezve a „relatív becslési hibát” kapjuk: 100 ⋅
44 = 1,51 % 2910
2. Viszonyszámok (egyszerű viszonyszámok) A viszonyszám két, egymással valamilyen kapcsolatban álló statisztikai adat hányadosa. Viszonyszámok fajtái: megoszlási, koordinációs, dinamikus, tervteljesítési és intenzitási Dinamikus viszonyszám: az időbeli változások jellemzői. Két különböző időszak vagy időpont - azonos fajta adatainak egymáshoz való arányát mutatja. Két fajtája van: a lánc- és bázisviszonyszám. Láncviszonyszám: az idősor adataiból egymáshoz láncszerűen kapcsolódó viszonyszámok, ahol mindig két szomszédos adatot hasonlítunk össze, tehát ún. változó bázissal számolunk.
li =
xi xi-1
5
Bázisviszonyszám: az idősor minden adatát ugyanazon időszak adatával osztjuk el, tehát az ún. állandó bázissal számolunk.
bi =
xi xo
(Nagyon lényeges a helyes bázis kiválasztása!)
2. példa: Egy vállalat teljes termelési érték adatai a következők: év
termelési érték (mFt)
előző évi termelés %-ában
1994. évi termelés %-ában
1994. 1995. 1996. 1997. 1998. 1999.
2130 2420 2690 3050 3270 3490
113,6 111,1 113,4 107,2 106,7
100,0 113,6 126,3 143,2 153,5 163,8
Milyen összefüggések vannak a bázis- és láncviszonyszámok között? 1. az első tárgyidőszak lánc- és bázisviszonyszáma egyenlő: l 1 = b 1 2. az első „k” láncviszonyszám szorzata a „k”-ik bázisviszonyszámot adja:
k
∏ l i = bk i =1
3. bázisviszonyszámból ugyanúgy számíthatunk láncviszonyszámot, mint az eredeti abszolút számokból). 3. Középértékek Középérték: az azonos jellegű számadatok közös jellemzője. A középértékkel szemben támasztott követelmények: - közepes helyet foglaljon el: x min < K < x max - tipikus legyen, tehát álljon közel az előforduló értékek zöméhez - egyértelműen legyen definiálva (pl. képlet formájában). Két fő csoportja ismert a középértékeknek: - helyzeti és - számított 6
3.1. A helyzeti középértékek Jellemzője: - nagyságát az előforduló értékek egy része nem befolyásolja, - számításuk egyszerű; gyakran „rátekintéssel” megállapítható a helyzeti középérték). A helyzeti középérték fajtái: módusz és medián
Módusz: a leggyakrabban előforduló ismérvérték Meghatározásához nincs szükség számítására, értéke a gyakorisági sorra történő rátekintéssel megállapítható. 3. példa: A Statisztikai alapismeretek tárgyból a hallgatók az alábbi érdemjegyeket érték el: érdemjegy x 1 2 3 4 5 Összesen:
vizsga „db” f 15 27 38 22 12 114
f*x 15 54 114 88 60 331
Feladatok: 1. Állapítsuk meg az érdemjegyek móduszát! A módusz 3, mert ezen osztályzathoz tartozik a legnagyobb gyakoriság (38). Határozzuk meg ugyanezen gyakorisági sor számtani átlagát. x = 331 : 114 = 2,904
2. Hogyan értelmezhető a fenti módusz? A hallgatók leggyakrabban közepes osztályzatot kapnak. Ezzel szemben a 2,904-es számtani átlagnak nincs ilyen értelmű tárgyi jelentése, hiszen 2,9-re nem lehet „felelni”.
7
Nézzük meg, hogy az ismételt vizsgák után hogyan alakulnak az eredmények: érdemjegy
vizsga („db”)
x 1 2 3 4 5 Összesen:
f 33 45 24 12 114
f*x 66 135 96 60 357
Feladatok: 1. Határozzuk meg most a számtani átlagot: −
x = 357:114= 3,132 Tehát az átlag változott azáltal, hogy az érdemjegynek nem számítható elégtelen osztályzatokat kijavították. Ezzel szemben a módusz értéke nem változott! Megállapítás: a módusz értékét a szélső értékek nem befolyásolják. (Ugyanígy 3 lenne a módusz értéke, ha az eredeti adatok közül - mint nem értékelhetőt - az elégteleneket teljesen figyelmen kívül hagynánk.)
Medián: az ismérvhalmaz azon értéke, amelynél ugyanannyi kisebb, mint nagyobb érték fordul elő. Hogyan határozható meg a medián? Az ismérvértékeket monoton növekvő sorrendbe rendezzük, s az
n +1 2
sorszámú tagja a medián (ha „n” páratlan), vagy ha "n" páros, úgy a két középső tag számtani átlaga.
4. példa: Határozzuk meg az 1. példa adatainak mediánját. n = 137; medián a =
137 + 1 - ik tag, tehát a 69. tag = 21 2
Tehát 68 csoportben ennél kevesebb vagy egyenlő, 68-ban pedig több vagy egyenlő a létszám.
8
3.2. Számított középértékek A számított középértékek jellemzője, meghatározásuk számítás útján történik, értéküket minden átlagolt érték befolyásolja. Számított középérték fajták: -
Számtani átlag:
Képlete: x =
számtani átlag, harmonikus átlag, mértani átlag, négyzetes átlag.
az átlagolandó ismérvértékek összegét osztjuk az ismérvek db számával. Σx n
5. példa: Egy karbantartó brigád 2002. február havi dolgozónkénti bruttó keresete: 1. 2. 3. 4. 5. 6. 7.
A brigád átlagkeresete:
Kiss Gábor Kovács Jenő Balogh Antal Nagy Imre Huzián Mihály Gyergyói Pál Tóth Károly
132.000,- Ft 136.000,- Ft 141.000,- Ft 136.000,- Ft 132.000,- Ft 132.000,- Ft 136.000,- Ft
Összesen:
945.000,- Ft
945000 = 135.000,- Ft/fő 7
Számtani átlagot alkalmazunk, ha az átlagolandó értékek összegének van tárgyi értelme. (pl. a dolgozók bruttó összkeresete) Az egyes átlagolandó értékek többször is előfordulhatnak az értéksorban. Ezek összeadását szorzással helyettesítjük: 3 x 132000 + 3 x 136000 + 1 x 141000 = 135000,- Ft 7
Ezzel eljutottunk a súlyozott számtani átlag fogalmához. 9
A súlyozott számtani átlag képlete: x=
Σ fi xi Σ fi
Értékét a következő két tényező befolyásolja:
• •
az átlagolandó értékek nagysága a súlyok nagysága, a súlyarányok.
Harmonikus átlag:
Képlete: x h =
a tagok db számát elosztjuk az átlagolandó értékek reciprokainak összegével.
n n
∑
i =1
1 xi
6. példa: Három kubikos brigád - az eltérő talajszerkezet miatt - 10 fm alapárok ásási munkáit az alábbi idők alatt végzi el: „A” brigád: „B” brigád: „C” brigád:
2 óra 4 óra 8 óra
Feladat: Határozzuk meg, mennyi ideig tart átlagosan 10 fm-nyi alapárok kiásása? (az összeadásnak nincs értelme!) _
_
t = xh =
3 3 3 24 = = = = 3, 43 óra 1 1 1 4 2 1 7 7 + + + + 2 4 8 8 8 8 8
Természetesen a harmonikus átlagnak is van súlyozott formája: xh =
Σf f Σ x
10
7. példa:
Egy iparvállalat munkaügyi adatai az alábbiak: Egység 1. üzemrész 2. üzemrész 3. üzemrész Vállalat:
Havi béralap (Ft) 800.000,900.000,480.000,2.180.000,-
Átlagbér (Ft/fő) 40.000,30.000,48.000,?
Feladat: Számítsuk ki a vállalati átlagbért! átlagbér
=
Σ létszám =
átlagbér
=
Σ béralap ; a béralap ismert, a létszám nem. Σ létszám Σ béralap ; ezek után Σ átlagbér
Σ béralap béralap Σ átlagbér
Melyek az átlagolandó értékek? Az átlagbérek! Mik a súlyok? A béralapok! Így: vállalati átlagbér =
800 .000 + 900 .000 + 480 .000 2.180 .000 = = 36.333,- Ft 800 .000 900 .000 480 .000 60 + + 40.000 30.000 48.000
8. példa: Egy vállalat két üzemegységének termelési adatai:
egység 1. üzemegység 2. üzemegység Vállalat:
beszámolási időszak termelése (Ft) 432.000,960.000,1.392.000,-
tervteljesítés (%) 108 96 ?
Feladat: Határozzuk meg a vállalat tervteljesítési %-át! Magyarázzuk meg az eredményt! - az átlagolandó értékek a tervteljesítési %-ok. - a súlyok a beszámolási időszaki termelési értékek. 11
Vállalati tervteljesítés % = 1 . 392 . 000 1 . 392 . 000 432 . 000 + 960 . 000 = = = 0 ,9943 = 99 , 43 % 432 . 000 960 . 000 400 . 000 1 . 000 . 000 1 . 400 . 000 + + 1, 08 0 ,96
Az átlag a nagyobb súlyú üzemegység felé tolódik el. A harmonikus átlagot akkor alkalmazzuk, ha az átlagolandó értékek reciprok értékei összegének tárgyi értelme van, általában viszonyszámok - sebesség, teljesítmény, stb. átlagaként számítjuk. Mértani átlag:
Képlete:
az a szám, melyet ha az átlagolandó értékek helyébe teszünk, azok szorzata változatlan marad.
x g = n x1 x 2 x 3 ....x n ; azaz: az átlagolandó érték szorzatból n-edik gyököt vonunk.
Mikor van értelme? Ha az átlagolandó értékek szorzatának tárgyi jelentése van. Ismerünk-e ilyen esetet? Igen! Láncviszonyszámok szorzata = bázisviszonyszám. A mértani átlag súlyozott formája: x g = Ahol:
Négyzetes átlag:
Képlete:
m
n
∏
j =1
f
xj
j
fj = a j-edik adatcsoport gyakorisága n = az összes elem száma xj = a j-edik adatcsoport ismérvértéke az átlagolandó ismérvértékek négyzeteinek szummájából képzett számtani átlag négyzetgyöke. xq =
Σ x2 , ill. súlyozott formában: x q = n
Σ fx 2 n
Akkor használjuk, ha az átlagolandó értékek különböző előjelét négyzetre emeléssel kívánjuk „eltüntetni”. (Ugyanis: olyan esetet nem ismerünk, amikor az átlagolandó értékek négyzetösszegének tárgyi jelentése van.) Ezt a módszert a „szórás” mutató számításánál alkalmazzuk (lásd később!) 12
3.3. Idősorok elemzése 9. példa:
Egy vállalat raktáraiban „A” anyag leltár szerinti készletértékei a következők szerint alakultak: Leltári időpont
készletérték
1996. 01. 01. 02. 01. 03. 01. 04. 01.
460 480 520 440
ezer Ft ezer Ft ezer Ft ezer Ft
Határozzuk meg az 1996. I. negyedévi készletet. Milyen módszerrel tehetjük ezt, ha azt akarjuk, hogy az időbeli változások jól kifizetésre jussanak? (Kérjünk hallgatói véleményeket). Számoljunk először minden hónapra átlagkészletet: 01. havi átl.:
460 + 480 = 470 ezer Ft 2
02. havi átl.:
480 + 520 = 500 ezer Ft 2
03. havi átl.:
520 + 440 = 480 ezer Ft 2
Miután ezek az átlagok nagyjából egyenlő időszakokra vonatkoznak, ezért - második lépésként - számíthatjuk a negyedéves átlagot ezek átlagából:
470 + 500 + 480 = 483,33 ezer Ft 3 - vonjuk össze a két lépést: 460 + 480 480 + 520 520 + 440 460 440 + + + 480 + 520 + 2 2 2 2 = 2 483,33 = 3 3
Ezzel az un. kronológikus átlaghoz jutottunk el! - hogyan számítjuk tehát a kronológikus átlagot? Összeadjuk az első és az utolsó tag felét a többi taggal, az összeget pedig osztjuk az adatok száma, mínusz eggyel. 13
Képlete:
Yo Y + Y1 + ...Yn -1 + n 2 Yk = 2 n
(Miért van a nevezőben „n”, és nem „n-1”? Mert Yo -val, és nem Y1 -gyel kezdtünk a számlálóban.) 3.4. A fejlődés intenzitásának vizsgálata
Példa: adott építőipari vállalat éves termelési értékének alakulása: időszak 1993. 1994. 1995. 1996. 1997.
termelési érték ezer Ft-ban
változás előző évben
640.000 660.000 720.000 780.000 870.000
20.000 60.000 60.000 90.000
Feladat: Határozzuk meg a fejlődés (változás) mértékét. 20.000 + 60.000 + 60.000 + 90.000 = 230.000 ezer Ft. Az eltérések összege egyenlő az első és utolsó tag közötti különbséggel: D = 870.000 - 640.000 = 230.000 ezer Ft. A változás mértéke tehát igen egyszerűen számolható. 4. Szóródás számítás
A középértékek egyetlen számba sűrítve jellemzik a vizsgált sokaságot. Mi ennek a hátránya? Eltüntetik, kiegyenlítik a különbözőségeket, ugyanis az egyes értékeknek az átlagtól való eltérései nagyon különbözők lehetnek. Hogyan határozhatjuk meg az ismérvértékek átlagtól való eltérését? Az értékek átlag körüli szóródásának megállapításával, az ún. szóródásszámítással. A szóródás: az azonos értékek különbözősége, az átlagolt értékeknek az átlagtól való eltérése. 14
Szóródási mutatók -
szóródás terjedelme átlagos eltérés szórás relatív szórás
/R/ /δ/ /б/ /V/
A szóródás terjedelme: a legnagyobb és legkisebb érték különbözősége.
Képlete: R = x max − x min 10. példa:
Határozzuk meg az 1. példa adatainak terjedelme mutatóját a „létszám” adatokra. x max = 342 ; x min = 15 R = 342 - 15 = 327
- mit világít meg az „R” mutató? Hogy mekkora értékközben mozognak - ingadoznak - az ismérvértékek. - mi a hiányossága az „R” mutatónak? Csupán 2 értékre támaszkodik, ezért szeszélyes, nem jellemző érték is éreztetheti hatását esetenként. Átlagos (v. abszolut) eltérés: az egyes értékek és azok számtani átlaga közötti eltérések abszolút értékeinek számtani átlagát. Képlete: δ = Σ /d/ , ahol d = az átlagtól való eltérés értéke n 11. példa:
Hat vállalat kollektív szerződése az esztergályos szakmunkások személyi órabérét rendre az alábbiak szerint rögzíti: A vállalat: 1150,- Ft B vállalat: 1180,- Ft C vállalat: 1200,- Ft D vállalat: 1230,- Ft E vállalat: 1240,- Ft F vállalat: 1260,- Ft Feladat: határozzuk meg a δ (delta) mutatót! 15
- először kiszámítjuk a számtani átlagot: x=
δ=
1150 + 1180 + 1200 + 1230 + 1240 + 1260 = 1210,− Ft 6
60 + 30 + 10 + 20 + 30 + 50 200 = = 33,33 Ft 6 6
- a kiszámított adat jelentése: az egyes órabérek átlagosan 33,33 Ft-tal térnek el az órabérek átlagától. Szórás: az átlagtól való eltérések négyzetes átlaga.
Képlete: б =
Σ d2 n
A szórás a szóródás jelenségének egyik mutatója, mérőszáma! 12. példa:
Számítsuk ki az iménti 6 órabér szórását.
б=
602 + 302 + 102 + 202 + 302 + 502 = 6
8400 = 14 00 = 37,4 Ft 6
Látható, hogy б > δ. Miért? Mert x q 〉 x. A 37,4 értékű „szigma” mutató jelentése ugyanaz, mint a 33,3 értékű deltáé! A két, azonos jelentésű mutató számszerű eredményének eltérése nem okoz problémát, ha mindig ugyanazon mutatókat hasonlítjuk. Kérdés: változik-e a dolgozók fizetésének szórása, ha egységesen 50,- Ft-al emelik minden dolgozó órabérét? Nem! Változik-e a szórás, ha a fizetéseket 5 %-al emelik? Igen, 5 %-al nő.
16
Relatív szórás: a szórás és a számtani átlag hányadosa.
Képlete:
V=
σ
x A relatív szórás mutatót különböző nagyságrendű sokaságok szóródásának öszszehasonlításánál alkalmazzuk. 13. példa:
Feladat: számítsuk ki a 11. Példában szereplő 6 személyi órabér relatív szórását! V=
37,4 = 0,178 210
A relatív szórás 0,178 értéke azt jelenti, hogy az egyes órabérek átlagosan 17,8 %-al térnek el az átlagos órabértől. 5. Összetett viszonyszámok
Eddig olyan viszonyszámokat ismertünk meg, melyek a statisztikai vizsgálat (pl. adatgyűjtés) során nyert két adatot hasonlítanak egymáshoz valamilyen logika szerint, és az összehasonlítás (osztás) eredményeképp egy újabb statisztikai adathoz jutottunk, amely megmutatja a két adat egymáshoz képest bekövetkezett változását. (Pl. két időszak azonos jellegű adatának összevetése, vagy tény- és tervadatok viszonyítása, stb.). A gyakorlatban sűrűn előforduló igény, hogy ne csupán két-két adatot viszonyítsunk, hanem több adat együttes-átlagos változását állapítsuk meg, pl. egyik időszakról a másikra. Ilyen jellegű vizsgálatra a megismert egyszerű viszonyszámok nem alkalmasak, hanem az ún. összetett viszonyszámokat kell alkalmaznunk. Ezeket az összetett viszonyszámokat statisztikai indexeknek nevezzük, és ezeknek is léteznek „egyszerűbb” fajtái, az ún. alapindexek, melyek eredeti (nem származékos, számított) adatokkal számolnak, és összetett fajtái az ún. standardizáláson alapuló indexek∗, melyek intenzitási viszonyszámok, átlagok - együttes - átlagos változásait számszerűsítik. Statisztikai index: két, vagy több, egymással közvetlenül nem összegezhető adat együttes-átlagos változását kifejező mutatót. Az index a dinamikus viszonyszám sajátos fajtája, sajátossága abban áll, hogy a benne foglalt adatok nem összegezhetők. Miért nem összegezhetők az index-számítás módszerével vizsgált adatok? ∗
az elnevezés meglehetősen elterjedt, de nem túl találó 17
Eltérő mennyiségi egységük miatt, pl. egy-egy termelő szervezet több különféle terméket állít elő, melyek természetes mértékegységben történő számbavétele során a legkülönfélébb mértékegységekkel találkozunk. (Lásd később az indexszámítás módszerének bemutatására szolgáló példát.) Az indexszámítás úgy hidalja át ezt a problémát, hogy nem az eredeti adatokkal, pl. a termelt mennyiségekkel, hanem mindig az ún. érték adatokkal, pl. az egyes termékekre vonatkozó „termelési értékekkel” számol. 5.1. Alapindexek
Az alapindexek a termelési mennyiségek, az árak és a termelési érték között teremtenek kapcsolatot. A termelt mennyiségek - q - és az egyes termékek egységárai - p- összeszorozva az értéket - v - adják. Tehát termékenként kiszámoljuk a q x p = v adatokat, majd ezeket összegezzük. Két különböző időszak
n
∑
i =1
q i x p i adata már összehasonlítható, elosztható
egymással. (A továbbiakban az egyszerűség kedvéért a futóindexet nem jelöljük!) Az alapindexek: - árindex - volumenindex - értékindex
Árindex:
A termelt termékek árai megváltozásának hatását a termelési értékre, vagyis az egyes árváltozások együttes - átlagos hatását. Úgy tekintjük tehát, mintha a vállalat két egymást követő évben valamennyi termékből azonos mennyiségeket állított volna elő, csupán az árak változtak volna meg.
Az árindex számításához meg kell határoznunk az előző évi - ún. bázisidőszaki termelési értéket: Σ qo x po
Ezután kiszámítunk egy következő évi - ún. tárgyidőszaki -, feltételezett termelési értéket, ahol a mennyiségek azonosak a bázisidőszaki adatokkal, az árak viszont megváltoztak: Σ q o x p1 18
Az árindex képlete ( I p ): Ip=
Σ q o x p1 Σ qo x po
Mi állapítható meg a képletből? Itt a bázisidőszaki mennyiségekkel számoltunk a tárgyidőszakban is, de az a feltételezés, hogy a termelt mennyiségek „nem változtak” fordítva is elképzelhető, tehát úgy, hogy mindkét időszakban a tárgyidőszaki mennyiségekkel számolunk. Ezek szerint kétféle árindex képlet létezik! - az iménti, amit az első alkalmazójáról Laspeyres, (ejtsd: laszper) formulának nevezünk, - továbbá a következő képlet:
Σ q1 x p1 , Σ q1 x p o amelyet Paasche, (ejtsd: páse) formulának hívunk. Ip=
Hangsúlyozzuk a kétféleképp számolt, de azonos jellegű index számszerű különbözőségét és némiképp eltérő jelentését! Volumenindex: Megmutatja, hogy hogyan változott volna a termelés összértéke, ha az érték két tényezője, a mennyiségek és egységárak közül csak a termelt mennyiségek változtak volna, és az árak az összehasonlított két időszakban azonosak lettek volna.
Választhatjuk „változatlan árnak” a bázisidőszak árait is, és a tárgyidőszaki árukat is, tehát itt is két képlet, formula létezik. A volumenindex képlete ( I q ): Iq =
Σ q1 x p o Σ qo x po
Iq =
Σ q1 x p1 Σ q o x p1
L
illetve
P
Értékindex: Együtt vizsgálja a mennyiségek és árak együttes - átlagos változásának hatását az értékre. Itt tehát mindkét tényező megváltozik. 19
Az értékindex képlete ( I v ) Iv=
Σ q1 x p1 Σ qo x po
Itt értelemszerűen csak egyféle képlet létezik! Az egyes termékekre tehát fennáll a v i = q i x p i összefüggés. A három indexre is fennáll a szorzatszerű összefüggés, de csak ha a két különböző formulával számolt ár- és volumenindexet szorozzuk össze.) Azaz: I p × I q = I v , azaz 1. L
P
Σ q o × p1 Σ q1 × p1 Σ q1 × p1 × = , illetve Σ qo × po Σ qo × po Σ q o × p1
2.
I p × I q = I v , azaz P
L
Σ q1 × p o Σ q1 × p1 Σ q1 × p1 × = Σ qo × po Σ q1 × p o Σ qo × po
Kialakult hazai gyakorlat, hogy az árindexet tárgyidőszaki mennyiségekkel, tehát Paasche formulával, a volumenindexet bázisidőszaki árakkal, tehát Laspeyres formulával számoljuk.
20
14. példa:
Egy vállalat egyik üzeme által előállított 5 termék jellemző adatai az alábbiak: termék neve
mennyiség egység
A B C D E
db fm m3 q m2
termelt mennyiség 2000. 2001.
egységár 2000. 2001.
qo
q1
po
p1
200 1000 50 300 20
250 900 60 350 30
50 15 180 70 250
60 10 200 60 280
Feladatok: a.) Számítsuk ki az összes lehetséges indexet!
A B C D E Összesen:
qo po
q1 p o
q o p1
q 1 p1
10.000 15.000 9.000 21.000 5.000 60.000
12.500 13.500 10.800 24.500 7.500 68.800
12.000 10.000 10.000 18.000 5.600 55.600
15.000 9.000 12.000 21.000 8.400 65.400
IP=
Σ q o p1 55.600 = = 0,927 (Laspeyres) Σ qo po 60.000
IP=
Σ q1 p1 65.400 = = 0,951 (Paasche) Σ q1 p o 68.800
Iq=
Σ q1 p o 68.800 = = 1,147 (Laspeyres) Σ qo po 60.000
65.400 Iq = Σ q1 p1 = = 1,176 (Paasche) 55.600 Σ qo p1 Iv=
Σ q1 p1 65.400 = = 1,090 Σ qo po 60.000
21
b.) Győződjünk meg arról, hogy a korábban megállapított indexösszefüggés valóban fennáll-e! I v = I q × I p = 1,176 × 0,927 = 1,090 P L illetve I v = I q × I p = 1,147 × 0,951 = 1,090 L P
c.) Mit fejez ki pl. a Laspeyres formulával számolt volumenindex 1,147-es adata? A megtermelt 5 termék termelési mennyiségének változása termelési „érték” 14,7 %-os növekedését eredményezte volna, ha mindenütt az 1980-as év árait vennénk figyelembe.
5.2. Standardizáláson alapuló indexek
Az alapindexek eredeti adatokkal számolnak, azonban gyakran előforduló eset, hogy olyan adatok együttes-átlagos változásait kell vizsgálnunk, melyek az ún. származékos adatok, pl. viszonyszámok. A probléma jobb megértéséhez tekintsük ismét a viszonyszám általános képletét! A V= A viszonyszám általános képlete: B Kérdés: Hogyan vizsgálható több „A/B” jellegű adat együttes-átlagos változása? I=
Σ A1 Σ A o : Σ B1 Σ B o
(Nyilvánvaló, hogy itt is egyfajta indexről van szó, ezért alkalmaztuk az „I” jelölést.) Ez a képlet még mindig „A” és „B” jellegű, tehát „eredeti” adatokkal számol. Mi a helyzet azonban akkor, ha „V” jellegű és „B” jellegű adataink, tehát viszony-számaink és azok előfordulási gyakoriságai állnak rendelkezésre?
22
V=
A , ebből A = B × V, B
ezt behelyettesítve: I=
Σ B1 x V1 Σ B o x Vo : Σ B1 Σ Bo
Ez az ún. főátlag index, más néven változó állományú index, jele: I
_
v
A főátlag index: kifejezi az egyes viszonyszám, vagy átlag jellegű adatok - pl. a vállalat egyes állománycsoportjainak átlagbérei és az egyes csoportok létszámai - megváltozásának együttes hatását, pl. a vállalati átlagbérre, az ún. „főátlagra”. Logikáját tekintve ez az index a korábban megismert értékindexnek felel meg, ti. mindkét tényező „együtt” változik. Megvizsgálhatjuk itt is a két tényező külön-külön történő változásának hatását a főátlagra. Ekkor a másik tényezőt mindig változatlannak, „standardnak” tekintjük, ezért nevezzük a módszert „standardizálásnak”. Vizsgáljuk meg először azt az esetet, mintha csak az egyes viszonyszámok, v. átlagok változtak volna és súlyuk (előfordulásuk száma) nem, tehát pl. megváltoznának az egyes állománycsoportok átlagbérei, de az állománycsoportok létszámai változatlanok maradnának. Ez az ún. részátlag, v. változatlan állományú index. A részátlag index képlete: Iv, =
Σ B1 x V1 Σ B1
:
Σ B1 x Vo Σ B1
Ez esetben is létezhet kétféle képlet, de kialakult gyakorlat, hogy a tárgyidőszak súlyaival, tehát " B1 " -ekkel számolunk. A részátlag index kifejezi a részátlagok megváltozásának a főátlag változására gyakorolt hatását, vagyis megmutatja, hogy hogyan változott volna a főátlag, ha ez a változás kizárólag a részátlagok megváltoztatásából adódna.
23
A képlet " ΣB1 " -el egyszerűsíthető, így Iv, =
Σ B1 x V1 Σ B1 x Vo
Ha az egyes részátlagok ( " Vi " -k) nem változnának, hanem csupán súlyuk, tehát egymáshoz viszonyított részarányaik ( " B i " -k) változnának meg, akkor az ún. összetétel index, más néven arányeltolódási index mutatja meg ezen változás együttes-átlagos számszerű hatását a főátlagra. Az összetétel index képlete: I v ,, =
Σ B 1 x Vo Σ B o x Vo : Σ B1 Σ Bo
Az index-technika eddig megismert logikájából egyértelműen következik, hogy miért " Vo " -val számolunk, és így itt sem használunk két különféle képletet! Az összetétel index kifejezi az ún. „fősokaság” összetételében bekövetkezett változásnak a főátlag változására gyakorolt hatását, vagyis megmutatja, hogy hogyan változott volna a főátlag, ha a változás kizárólag az összetétel megváltozásából adódna. A megismert három index között számszerű összefüggés: főátlag index = részátlag index × összetétel index Iv
=
Iv ,
×
I v ,,
azaz: Σ B1 V1 Iv =
Σ B1 V1
Σ B1 Vo
Σ B1 Σ B1 Σ B1 = × Σ B o Vo Σ B1 Vo Σ B o Vo Σ Bo Σ Bo Σ B1
15. példa:
Tekintsük az alábbi, első ránézésre egyszerűen áttekinthető adatokat, melyek egy vállalat átlagos havi béralakulását mutatják meg bázis- és tárgyidőszakra munkás-csoportonként és együttesen: 24
Összes munkabér (1.000,- Ft) bázis tárgy Ao A1
Létszám (fő) bázis tárgy Bo B1
Átlagos havi bér (Ft/fő) bázis tárgy Vo V1
Szakmunkás
13200
15862
300
350
44000
45320
Segédmunkás
4800
4896
150
150
32000
32640
Együtt
18000
20758
450
500
40000
41520
Munkás csoportok
Az adatok látszólag semmi „furcsaságot” sem mutatnak, azonban ha megvizsgáljuk az egyes munkáscsoportok havi átlagbérének és az együttes átlagbérének a változását, a következő adatokat kapjuk: •
a szakmunkások átlagos havi bérének változása: V1 45320 = = 1,03 = 103,0 % , Vo 44000
•
a segédmunkások átlagos havi bérének változása: V1 32640 = = 1,02 = 102,0 % , Vo 32000
•
az átlagos havi bérek együttes változásai: V1 41520 = = 1,038 = 103,8 % ! Vo 40000
Hogyan lehetséges az, hogy 3 %-os szakmunkás és 2 %-os segédmunkás havi átlagbér emelkedés mellett a vállalati átlagbér mindkét munkáscsoporténál jobban, 3,8 %-al növekedett? A kérdésre a standardizáláson alapuló indexek adnak választ, ui. a látszólagos furcsaság nyilvánvaló oka az, hogy nem csak az egyes átlagos havi bérek, hanem a munkások létszáma, tehát a létszám összetétel aránya is megváltozott.
25
Számítsuk ki rendre a megismert indexeket! • Főátlag index: Iv = =
Σ B 1 V1 Σ B1
Σ B o Vo
:
Σ Bo
=
350 × 45320 + 150 × 32640 300 × 44000 + 150 × 32000 : 350 + 150 300 + 150
= 103,8 %
• Részátlag index: Iv =
Σ B 1 V1 Σ B 1 Vo
350 × 45320 + 150 × 32640 = 1,0276 ≈ 102,8 % 350 × 44000 + 150 × 32000
=
Eszerint a vállalatnál az egyes munkáscsoportok havi átlagos bére átlagosan 2,8 %-al növekedett. • Összetétel index: I v ,, =
Σ B 1 Vo Σ B1
:
Σ B o Vo Σ Bo
=
350 × 44000 + 150 × 32000 300 × 44000 + 150 × 32000 =101,0 % : 300 + 150 350 + 150
A létszámarányoknak a magasabb havi átlagbérű szakmunkás csoport javára történő eltolódása önmagában 1,0 %-al növelte a munkások együttes átlagbérét. • A három index összefüggése: I v = I v ,× I v , , , azaz 1,038 = 1,028 × 1,01
26
III. Valószínűség, bizonytalanság, eloszlások A gazdasági életben vizsgált jelenségek lehetnek: - determinisztikusak (azaz egy meghatározott módon végbemenők), - sztochasztikusak (azaz több lehetséges kimenettel rendelkezők).
1. A valószínűség fogalma
Néhány alapfogalom: Elemi esemény: egy végrehajtott kísérlet lehetséges eredménye! (Nem maga a kísérlet, hanem az eredmény!!) Eseménytér: ( Ω ) : a lehetséges eredmények halmaza. Műveletek eseményekkel: Legyen A és B két tetszőleges elemi esemény. Mivel A és B egy-egy halmaz, így igazak rájuk a halmazműveletek szabályai! Azaz A + B : azt jelenti, hogy a két esemény közül az egyik bekövetkezik. AB : mind az A, mind a B esemény bekövetkezik. A : azt jelenti, hogy A esemény nem következik be. (Komplementer képzés). Ezért: A - B = A B : azt jelenti, hogy A bekövetkezik, de B nem. A ⊂ B : azt jelenti, hogy az A bekövetkezése maga után vonja a B bekövetkezését. AB= O : azt jelenti, hogy A és B kizárja egymást. 16. példa:
300 kereső embert véletlenszerűen kiválasztunk, s feljegyezzük a következő táblázatot.
650 eFt alatt
férfi nő ∑
30 50 80
Éves jövedelem 650-1900 eFt 1900 eFt felett között 50 80 50 40 100 120 27
∑ 160 140 300
Mi olvasható ki ebből a táblázatból? P (férfiak) =
160 = 0,533 300
P (nők) =
140 = 0,467 ⇒ 300
gyakoriság/összes előfordulás = relatív gyakoriság Ha a sokaság elég nagy, vagy a próbát elég sokszor ismételjük, a relatív gyakoriság egy határértékhez tart, aminek a neve valószínűség. (Nagy számok törvénye!!!) Levonható következtetések: P (férfiak) + P (nők) = 1 P (férfiak) + P (nem férfiak) = 1 → másként P (f) = 1 - P (nem férfi) Általában: "n" lehetséges kimenetet feltételezve, amiből az egyik biztosan bekövetkezik a P(1), P(2), P(3), ........ + P(n) eseményhalmazzal állunk szemben. Ez az ún. teljes eseményrendszer! (csak ezzel foglalkozunk!) A valószínűség = a várt eredmény bekövetkezési gyakorisága elég sok próba esetén! Tehát:
Várt érték = valószínűség × próbák száma
Ennek alapján a definíciót tetszőleges E esemény valószínűségére kiterjesztve: P (E) =
E előfordulásának gyakorisága az összes mért kimenet száma
Néhány fontos megállapítás: 1.) 2.) 3.)
O ≤ P (E) ≤ 1 ! P (Biztos esemény) = 1
Egymástól független, egymást kölcsönösen kizáró eseményeknél P (1) + P (2) + ...... + P (n) = 1
↓ Pl. kockadobás! P (1) + P (2) + ....... + P (6) = 1
28
→ Valamelyik biztosan bejön!
4.) Egymást kölcsönösen ki nem záró eseményeknél! Egynél több tulajdonság együttes (vagy külön-külön) előfordulása esetén találkozunk ezzel. Nézzük ezt a következő (17.) példán! 17. példa:
Megkérdeztek 100 felnőttet, hogy érdekli-e őket a politika. A válaszokat az alábbi táblázatba foglaltuk: 20 férfit érdekel
30 férfit nem érdekel
10 nőt érdekel
40 nőt nem érdekel
Feladat: Határozzuk meg annak valószínűségét, hogy a 100-as mintából találomra választva olyan személyt kérdezünk meg aki vagy férfi, vagy nem érdekli a politika! Ez a valószínűség: P (férfi vagy nem érdekli) = P (férfi) + P (nem érdekli) - P (férfi és nem érdekli) 50 = 0,5 100 70 = 0,7 P (nem érdekli) = 100 30 P (férfi és nem érdekli) = = 0,3 100
Mivel: P (férfi) =
így
P (f + né) = 0,5 + 0,7 - 0,3= 0,9
5.) Függetlenül események: Ha két (vagy több) esemény hat egy jelenségre, de egymástól függetlenül, akkor együttes bekövetkezésük valószínűsége P (A és B) = P(A) × P(B) = P(AB) Például: textilipar → leállás! Okok: ány! 6.) Feltételes valószínűség
29
A: géptörlés! B: anyaghi-
18. példa: 5 férfiból és 5 nőből álló csoportból kell egymás után 2 személyt kiválasztanunk!
Feladat: Mi a valószínűsége annak, hogy másodszorra nőt választunk, feltéve, hogy először férfit választottunk? Legyen A : férfit választottunk B : nőt választottunk A fenti kérdés formális megfogalmazása: P (B/A) = ? Megoldás: Ha a két esemény független lenne, akkor a P(AB) együttes bekövetkezési valószínűséget a P(AB) = P(A) ⋅ P(B) összefüggés adná meg. Írjuk most P (B) helyére a P (B/A)-t, hiszen B esemény függ A eseménytől! Így most P (AB) = P (A) ⋅ P (B/A), ahonnan P (B/A) =
P (AB) P (A)
Nézzük most a konkrét példát! Az első választáskor = P (B) = 0,5. Mivel ezután már csak 9 személy marad, így a második választás esetén, ha először A jött ki: P (A) =
4 9
és P (B) =
5 5 5 25 ⋅ = → P (AB) = 9 10 9 90
Így: 25 5 P (B/A) = 90 = ! 5 9 10
30
2. Valószínűség-fák
A valószínűség-fák illusztrálják az eseménysorokat! 19. példa:
Legyen két dolog együttes előfordulását reprezentáló adatsorunk az alábbi 1.) Kimenetek: A, B vagy C; valószínűségük: 0,3; 0,2; 0,5 2.) Kimenetek: X, Y ; „ : 0,6 és 0,4 Feladat: Rajzoljuk fel a valószínűség-fát! Ha az események kölcsönösen kizáróak, akkor: P (A+B+C) = 1
és
P (X+Y) = 1
X A
0,6
0,3
Y
P(AX)=0,3x0,6=0,18 P(AY)=0,3x0,4=0,12
0,4 X B
0,6
0,2
Y 0,4
P(BX)=0,2x0,6=0,12 P(BY)=0,2x0,4=0,08
X C 0,5
P(CX)=0,5x0,6=0,30
0,6 Y 0,4
P(CY)=0,5x0,4=0,20 1,00
Alkalmazhatjuk ezt nyitó példánkra is! (Házi feladat!) ( P (A) =
80 100 120 160 140 , PLY ) = ) , P (B) = , PCC ) = , P (x) = 300 300 300 300 300
31
3. Várható érték és döntési fák
20. példa:
Pénzérmét dobunk fel 100-szor! Ha fej, nyerünk 100 Ft-ot, ha írás, vesztünk 200-at! Az elemi események legyenek: A: nyerünk, B: veszítünk. Mit várhatunk a játéktól!? Átlagosan az várható, hogy 50-szer nyerünk és 50-szer veszítünk, hiszen P(A) = P(B) = 0,5 Azaz a várható eredmény: 50 × 100 - 50 × 200 = - 5.000 Ft Ez lesz ennek a sorozatnak a várható értéke (VÉ) vagy várható pénzértéke (VPÉ). Ha ábrázoljuk a játékot: 100 A (Bonyolultabb esetekben így keletkezik a döntési fa!) B - 200
21. példa (órai bemutatással!):
Új terméket fejlesztettünk ki. A tervezése 1.000 eFt-ba került. A termék piacra dobásának költsége várhatóan 1.500 eFt lesz, míg az esetleges piackutatás 500 eFt-ba fog kerülni. A termék lehet nagyon sikeres, sikeres és sikertelen, aminek az eredménye 10.000, 4.000 és - 6.000 eFt lehet. Az egyes variációkhoz az alábbi táblázat szolgáltat további információkat a (kockázatok) esélyek tekintetében! 32
Kimenet Nagy siker (Közepes) siker Bukás
Nincs Piackutatás 0,2 0,5 0,3
Sikeres piackutatás van 0,6 0,2 0,2
Sikertelen piackutatás van 0,1 0,3 0,6
Az előző termékeken szerzett tapasztalatok alapján 40 % esély van a sikeres piackutatásra! Feladat: Oldjuk meg a problémát döntési fa segítségével! 4. Bayes tétele
Amint azt korábban láttuk az egymástól nem független események bekövetkezési valószínűsége erősen függ a megelőző eseményektől. A tétel azt mondja ki, hogy egy sokszor ismétlődő döntési folyamatban a már bekövetkezett események visszahatnak az a'priori valószínűségekre!
Képletben megfogalmazva: P (A j /X) =
P (X/A j ) P (A j ) n
∑ P (X/A ) P (A ) i
i =1
i
Szemléltessük mindezt egy példán keresztül! 22. példa:
Egy vállalat alapanyag beszerzéséről az alábbi információk állnak rendelkezésünkre. A szállítók 70 %-a pontosan betartja a szállítási szerződést, míg 30 %-uk nem. A két legfontosabb nyersanyag aránya az első csoportnál 50-50 %, míg a másodiknál 60-40 %. Szemléltesse mindezt egy valószínűségi-fa, melyben A: pontos, B: a hibás szállítást, X és Y pedig a két alapvető nyersanyagot reprezentálja.
33
X P(AX)=0,18
0,6
A 0,3
Y
P(AY)=0,12
0,4
X P(BX)=0,35
0,5 B 0,7 Y
P(BY)=0,35
0,5
Ha most tudjuk (!), hogy a X következett be (azaz egy beérkező szállítmányban X jelű anyagot kaptunk), akkor ez vagy A vagy B eseményen keresztül történt. Próbáljuk meg megtalálni ezek valószínűségeit! Mivel most a két lehetséges kombináció (A és X, B és X) egymást kizáró lesz, ez a két valószínűség együttesen fogja kiadni X bekövetkezési valószínűségét, azaz P(X/A vagy B) = P(A és X) + P(B és X) = 0,18 + 0,35 = 0,53. Ha A következett be először♦, akkor P (X/A) = 0,6 és P (A) = 0,3 , amiből P (AX) = P (A) · P (X/A) = 0,18 vagyis megadható a fordított eset is, azaz:
P (A/X) =
♦
P (AX) X valószínűsége A - n keresztül = = X valószínűsége bármelyeseményenkeresztül P (AX) + P (BX)
Nagyon fontos a sorrend!! 34
=
P (X/A) ⋅ P(A) P (A) ⋅ P (X/A) + P (X/B) ⋅ P (B)
=
0,18 = 0,3396 0,53
Ezt felhasználva: P (B/X) =
0.35 = 0,6604 0,53
Így megkülönböztethetővé válnak az előzetes (a’ priori) és az utólagos (a' posteriori) valószínűségek. A esetében ezek: Pe = 0,3 Pp = 0,3396 (a kimenet visszahatásának köszönhetően). 5. Markov láncok (fakultatív rész!)
A Markov lánc kombinálja a valószínűségi elemeket a mátrixos megjelenítéssel. Feltételezi, hogy a valószínűségek hosszabb távon fixek maradnak, míg az a rendszer, amelyet modelleznek úgy képes átalakulni egyik állapotból a másikba, hogy közben a rögzített értékeket tranziens valószínűségekként használja. Tekintsünk például az alábbi tranziens mátrixot: ⎡ E1 E 1 ⎢ 0,8 P = E 2 ⎢ 0,3 ⎣
E2 ⎤ 0,2 ⎥ 0,7 ⎥ ⎦
Ez azt jelenti, hogy ha a rendszer az E1 -el jelölt állapotban van, akkor annak valószínűsége, hogy E 2 -be megy át 0,2. Ugyanúgy: ha a rendszer E 2 állapotban van, akkor az E1 -be való átmenet valószínűsége 0,3, míg annak esélye, hogy E 2 ben marad 0,7. Ez a mátrix egy irányított gráffal is szemléltethető. Az időről-időre történő átalakulásokat szemlélteti az alábbi ábra: E1
0,8 0,2
E2
E1
0,8
0,3
0,7 Első periódus
0,2 E2
E1 0,3
0,7 Második periódus
35
E2
Annak a valószínűsége, hogy két periódusos befejeződése után az: E1 -ből induló rendszer E1 -ben lesz: P (E 1 → E 1 → E 1 ) + P (E 1 → E 2 → E 1 ) = 0,8 ⋅ 0,8 + 0,2 ⋅ 0,3 = 0,7 E 1 -ből kiindulva E 2 -ben lesz: P (E1 → E 2 → E 2 ) + P (E 1 → E 1 → E 2 ) = 0,2 ⋅ 0,7 + 0,8 ⋅ 0,2 = 0,3 E 2 -ből kiindulva E 1 -ben lesz: P (E 2 → E 2 → E 1 ) + P (E 2 → E 1 → E 1 ) = 0,7 ⋅ 0,3 + 0,3 ⋅ 0,8 = 0,45 E 2 -ből kiindulva E 2 -ben lesz: P (E 2 → E 2 → E 2 ) + P (E 2 → E 1 → E 2 ) = 0,7 ⋅ 0,7 + 0,3 ⋅ 0,2 = 0,55
Így két periódus után a tranziens mátrix a következő lesz: ⎡ E1 E 1 ⎢ 0,7 P' = E 2 ⎢ 0,45 ⎣
E2 ⎤ 0,3 ⎥ 0,55 ⎥ ⎦
Ez a mátrix pedig nem más, mint P mátrix négyzete, P 2 . Ugyanígy: négy periódus után P ' =P 4 . A rendszerállapotok a gyakorlatban sokfélék lehetnek. Pl. - a vállalkozás profitot termel ( E1 ) vagy veszteséges ( E 2 ) - a piackutatás sikeres ( E1 ) vagy sikertelen ( E 2 ) stb. Eddig a valószínűség alapfogalmait tárgyaltuk. (Egy esemény valószínűségét, vagy események egyidejű előfordulását, vagy egymásutánságát.) Az üzleti életben ezt bővíteni kell. A használatos modellek egy része a valószínűségi változókhoz és eloszlásokhoz kötődik.
36
6. Valószínűségi változók, eloszlások
Valószínűségi változóknak egy az elemi események Ω halmazán értelmezett függvényt nevezünk. A valószínűségi változó létének feltétele, hogy ugyanazt a kísérletet sokszor hajtsuk végre! A valószínűségi változó a kísérlet (vizsgálat) jellegétől függően felvehet - diszkrét (egész szám, pl. kockadobás eredménye) és - folytonos értékeket (csak a mérés pontossága szab határt, pl. tömegmérés, hosszmérés, stb.) A sokszor ismételt kísérlet eredményei valamilyen eloszlási képet mutatnak, s kijelölnek valamilyen halmazt. Jelöljük ezt a halmazt E-vel. Tekintsük ezután annak valószínűségét, hogy kísérletünk eredménye, azaz a valószínűségi változó e halmazba esik. P( v ∈ E) . Ezen valószínűségek megadása azonban nehézkes, ezért célszerű egy olyan egyszerűbb, új fogalmat bevezetni, amelyből ezek a keresett valószínűségek mind származtathatók. Legyen x a számegyenes egy rögzített pontja és tekintsük az F (x) = P (v 〈 x ) valószínűségét. Ha most x-et - ∞ -től + ∞ -ig futtatjuk (azaz elképzelünk bármilyen lehetséges eredményt!), akkor egy függvényt kapunk. Ezt az F (x) függvényt fogjuk a v valószínűségi változó eloszlásfüggvényének nevezni: Az eloszlásfüggvény tulajdonságai: a.)
F (x 1 ) ≤ F (x 2 ) , ha x 1 〈 x 2
b.)
lim F ( x ) = 0 x → -∞
c.)
F ( x ) minden x pontban balról folytonos. lim F ( x n ) = F (x) ha x 1 〈 x 2 és lim x n = x
és
lim F (x) =1 x → ∞
n → -∞
n → ∞
Lássuk most, hogy hogyan származtathatók a P ( v ∈E) valószínűségek ebből a függvényből. Mivel P(v < a) + P(a ≤ v < b) = P(v < b), ha a < b
37
F(x) definíciójából következik, hogy P(a ≤ v < b) = F(b) - F(a)
Ezt ábrán bemutatva: F(x) 1 F(b)
P(a≤ v < b) = P(b) - P(a) F(a)
a
x
b
7. Az eloszlások osztályozása
1. Diszkrét eset, ha v lehetséges értékei egy véges vagy végtelen x 1 , x 2 , x 3 ...... x ... sorozatot alkotnak.
Ekkor az F ( x ) eloszlás függvény helyett szívesebben használjuk az egyedi valószínűségeket, azaz p k = P (v = x k ), ahol k = 1, 2, 3... ugyanis, ha v = x k és x k ∈E -nek, akkor bármely xk értékét veszi is fel v , az benne lesz az E halmazban, s így teljesül a
P(v∈E)= ΣP (v = xk) k
egyenlőség!
2. Folytonos esetről van szó akkor, ha van olyan f (x) ≥ 0 függvény, hogy a számegyenes minden (a,b) intervalluma esetén b
F (b) - F(a) = P (a 〈 v 〈 b) = ∫ f (x) dx a
Az f ( x ) függvényt a v valószínűségi változó sűrűségfüggvényének nevezzük. 38
3. Kevert eset: ez ritkán fordul elő, tehát nem tárgyalják. 8. A valószínűségi változók jellemzői
1. A várható érték
Az a szám, amelyhez a kísérletek egymás után végtelen sokszor való végrehajtása során nyert számértékek számtani átlaga konvergál. Jelölése: M ( v) → μ Diszkrét esetben: M ( v) = ∑ x i p i Folytonos esetben: M ( v) =
i ∞
∫ x f (x) dx
−∞
2. Szórás A v - M (v) valószínűségi változó négyzetének várható értékéből vont pozitív négyzetgyök. Jele: D ( v) → σ Definíció szerint tehát: 9.
[
D ( v) = M ( v - M ( v)) 2
]
Fontosabb eloszlások
9.1. Egyenletes eloszlás Ilyen eloszlást mutat a teljesen véletlenszerűen választott természetes egész számok halmaza. Itt minden elemnek egyforma az előfordulási gyakorisága. Ha pl. 0-10 között választunk véletlenszerűen, akkor minden egyes számnak 1/10 esélye lesz a kiválasztásra. Itt nem állapítható meg egy pregnáns várható érték, hiszen minden elem egyformán valószínűen fordulhat elő.
9.2. A binomiális eloszlás Diszkrét eloszlás. A változónak két alternatív ismérve létezik. Jelöljük az egyik lehetséges eredményt S-sel (pl. selejtes termék) és legyen ennek a valószínűsége: P (S) = p. Ekkor az alternatív esemény valószínűsége (pl. jó termék): P (J) = 1 - p = q.
39
Ha egy kísérlet eredménye, x valószínűségi változó binomiális eloszlást követ, akkor annak valószínűsége, hogy 'n' kísérlet esetén (pl. az n elemű mintában) az x valószínűségi változó pontosan k értékét vegye fel (k = 0,1,2 ..., n; pl. az n elemű mintában k selejtes legyen):
P (x = k) = p k =
n! ⋅ pk ⋅ q n -k , (n - k)!k!
ahol k = 0,1,2 ......n
Eloszlásfüggvénye: F (k) = P (x 〈 k ) =
k −1
∑
i=o
n! ⋅ pi ⋅ q n -i (n - i)! i!
A binomiális eloszlás jellemzői: Várható értéke: Szórása:
μ = n⋅ p
σ = n ⋅p⋅ q
A binomiális eloszlás jól közelíthető Poisson-eloszlással (p = 0,1 alatt, vagy p = 0,9 felett, illetve, ha n >> k és n×p ≅ állandó), vagy normális eloszlással (ha p közel esik 0,5-höz, vagy n eléggé nagy, illetve np ≅ 5), amelyek számítástechnikailag sokkal könnyebben kezelhetők. 23. példa
Egy folyamatos munkarendben dolgozó üzem alkatrészellátása egy adott napon 80 %-os valószínűséggel zavartalan. Egy hetet vizsgálva mi annak a valószínűsége, hogy a) pontosan négy napon lesz zavartalan a termelés? b) Legalább öt napon lesz zavartalan a termelés? Megoldás: A probléma megoldására a binomiális eloszlást használjuk. Ennek megfelelően: q = 0,8 és p = 0,2 (a zavar valószínűsége) , n = 7 a) k = 7 - 4 = 3, aminek felhasználásával p3 =
7! ⋅ 0,23 ⋅ 0,8 4 = 0,2753 4!⋅3! 40
b) A legalább öt nap zavartalan termelés egyenértékű a legfeljebb két nap problémás időszakkal, így k = 0, 1, 2 , amit felhasználva: P(x ≤ 2) = p 0 + p1 + p 2 = 0,2097 + 0,3670 + 0,2753 = 0,8520 9.3. A Poisson-eloszlás
Diszkrét eloszlás. Ha egy x valószínűségi változó Poisson-eloszlást követ, akkor annak valószínűsége, hogy x értéke pontosan k legyen (k = 0,1,2, ..., n): P (x = k) = p k =
λk k!
e - λ , k = 0,1,2, ...., n
ahol λ : az eloszlás paramétere, egy pozitív állandó, ami nem más, mint maga μ. A Poisson-eloszlás eloszlásfüggvénye:
λi -λ F(k)= P(x〈 k) = ∑ e i=o i! k-1
A Poisson-eloszlás jellemzői: Várható értéke: μ = n ⋅ p = λ Szórása:
σ= λ
A Poisson-eloszlás λ > 15 esetén jól közelíthető a vele egyenlő várhatóértékű és szórású normális eloszlással. 24. példa
Egy forgalmas postahivatalban egy év alatt 1090 címzés nélküli levelet adtak fel. Mi annak a valószínűsége, hogy egy nap kettőnél több címzés nélküli levelet adnak fel? Megoldás: A probléma Poisson-eloszlást mutat. Így: λ = 1090/365 ≈ 3 címzetlen levél/nap, aminek felhasználásával: P ( x > 2) = 1 − ( p 0 + p1 + p 2 ) = 1 − (0,0498 + 0,1494 + 0,2240) = 0,5768 41
9.4. A normális eloszlás
A gyakorlat számára legfontosabb eloszlástípus. Folytonos eloszlás! Egy x valószínűségi változó normális eloszlást követ, ha sűrűségfüggvénye:
f(x) =
1 ⋅e σ 2Π
-
(x - μ ) 2 2σ 2
Az eloszlás függvénye:
F(x)=
(x-μ)2 x − 2 2σ
1 ⋅ ∫e σ 2Π −∞
dx
ahol μ = az eloszlás várható értéke, σ = az eloszlás szórása. A gyakorlati számítások egyszerűsítésére az ún. standard normális eloszlással dolgozunk. Ennek paraméterei: μ = 0 és σ = 1, így sűrűségfüggvénye:
φ (z) =
1 ⋅e 2Π
-
z2 2
eloszlásfüggvénye:
Φ (z) =
1 2Π
Látható, hogy a standardizálást a
z
∫e
-
z2 2
dz
−∞
z=
x-μ
σ
való segítségével végeztük.
A normális eloszlás igen nagy gyakorlati jelentőségű. Az elméleti és gyakorlati munka során igen sokszor találkozunk normális vagy jó közelítéssel normális eloszlással, amit a már említett központi határeloszlás tétele indokol. Sokszor használható a binomiális és Poisson-eloszlások közelítésére. 25. példa
Automata palacktöltő export konyakot tölt. A megrendelő kikötése szerint az 510 ml űrtartalom alatti palackok aránya legfeljebb 3 % lehet. 42
Egy N = 20.000 db-os tétel paramétereit minta alapján meghatározták: _
x = 532,4 ml. A töltőgép σ= 6 ml szórással tölti a kérdéses konyakfajtát. Egy palack konyak ára 800,- Ft Határozzuk meg: - az optimális töltési szintet, - a jelenlegi tétel esetén az esetleges túltöltés forint értékét! Megoldás: Tudjuk, hogy a töltési űrtartalom valószínűségi változóként fogható fel, és eloszlása normális eloszlás. A normális eloszlású valószínűségi változóra érvényes, hogy P(v < x) = Φ( z ), ahol z=
x-μ
σ
Az az információ, hogy az 510 ml űrtartalom alatti palackok aránya legfeljebb 3 % lehet, azt jelenti, hogy adott szórás mellett az 510 ml űrtartalom alatti palackok valószínűsége 0,03 ! Az 510-es érték pedig az adott x érték! Írjuk ezt fel képlettel: P ( v < 510 ) = 0,03 vagyis Φ(z) = 0,03 Ebből kiszámítható az optimális töltési érték, mert a z=
x -μ
σ
- ból kapjuk : μ = x − z ⋅ σ
Ha μ > x, akkor értéke negatív, így a Φ ( - z ) = 1 - Φ ( + z) egyenletet alkalmazva táblázatból (1.sz. táblázat) kaphatjuk meg z értékét. Példánkban
Φ(- z ) = 1- 0,03 = 0,97,
amihez a táblázatból kiolvasva és helyes előjellel értelmezve a z = - 1,88 tartozik. Ezt az értéket helyettesítsük a μ = x - z · б egyenletbe; így megkapjuk az optimális töltési szintet, vagyis μ = 510 + 1,88 · 6 = 521,3 ml. A jelenlegi tétel átlaga x = 532,4 ml, a túltöltés tehát 532,4 – 521,3 = 11,1 ml palackonként. 43
Ez 20.000 palack esetén 20.000 · 11,1 = 222.000 ml. Ez a mennyiség optimális töltés esetén 222.000 : 521,3 ≈ 425 db palacknak felel meg. A veszteség tehát á. 800,- Ft-tal számolva: 425 · 800 = 340.000,- Ft A változók kombinálása
Ha x és y két független, normális eloszlású véletlen változó μ1 és μ 2 várható értékkel és σ 12 és σ 2 2 varianciával, akkor
μ = μ1 + μ 2 és σ 2 = σ 12 + σ 2 2
X + Y - ra : és
μ = μ1 − μ 2
X − Y - ra :
és σ 2 = σ 12 + σ 2 2
9.5. A központi határeloszlás tétele
Ha egy statisztikai sokaságból k-szor veszünk n elemű mintát, akkor a mintaátlagból képzett statisztikai sokaság normális eloszlást követ, és n növelésével határértékként közelíti az alapsokaság μ várható értékét!! Minél nagyobb a minta elemszáma, annál kisebb lesz a szórás. Ez azt jelenti, hogy a mintaátlagok a következő elosztást mutatják: x ≈ N (μ ,
ahol n a minta elemszáma. (
σ n
σ2 n
)
a standard hiba!) 50 elemû minta
20 elemû minta alapsokaság
μ 44
10. Konfidencia intervallumok
A statisztikai vizsgálatok kényes pontja a mintavétel. Vizsgálatainkban fel fogjuk tételezni, hogy mintáink egyszerű véletlen mintavétellel keletkeztek. A mintavételezés mindig információvesztéssel jár, azaz a mintából levont következtetések bizonytalansága nagyobb, mintha ugyanazt a teljes alapsokaságból vonnánk le. Ezért egy új fogalmat kell bevezetnünk, a statisztikai következtetés fogalmát. Három bázisfaktor fog hatni eredményeinkre. Ezek: 1. A minta nagysága 2. A változékonyság a releváns populációban 3. Az eredményben elérni kívánt megbízhatósági szint A minta elemszámainak növelésével csökken a bizonytalanság, de nem egyenes arányban! Milyen biztonság az elfogadható? (90, 95, 99 %?) 10.1. Következtetések az alapsokaság átlagára, konfidencia intervallumok
Jelölésünkben a következő elveket fogjuk követni: Alapsokaság átlag variancia elemszám
Minta
μ
x
σ2
s2
N
n
Mivel az alapsokaságból vett minták átlaga nem egyezik meg μ-vel, úgy ezeket valószínűségi változóként fogjuk fel, s a belőlük képzett sokaság átlagával közelítjük μ-t. Ez azonban nem pontos; a közelítésnek van bizonyos hibája. Ez azt jelenti, hogy a μ egy olyan intervallumba esik, amelynek nagysága x
± mintavétel hibája.
Ezzel gyakorlatilag egy intervallum becslést készítettünk n-re! Ha mintánk elég nagy (n 〉 30) , akkor a mintaátlagok eloszlása normális elosztást követ μ átlaggal és
σ n
szórással.
45
A normális eloszlás táblázatából megállapítható, hogy a változók 95 %-a az átlag körüli ± 1,96σ intervallumba esik! Alkalmazva ezt esetünkre a következő formulát kapjuk
P ( x - 1,96 ⋅
σ n
≤ μ ≤ x + 1,96
σ n
) = 0,95
Amint az látható, a minta elemszámának növelése szűkíti a becslési intervallumot! Újrarendezve fenti képletünket megkapjuk az alapsokaság átlagára (μ) vonatkozó 95 %-os konfidencia intervallumot.
μ = x ± 1,96 ⋅
σ n
26. példa:
Egy bankfiókban találomra kiválasztottak 100 számlát és azt találták, hogy azok átlagban 25.300 forintról szóltak. Ha tudjuk, hogy a befizetések szórása 7.000 Ft, határozzuk meg az átlag 95 %-os konfidencia intervallumát. Megoldás: n = 100
σ = 7.000 Ft
x = 25.300 Ft
Ebből: μ = 25.300 m 1,96 ⋅
7000 = 25.300 ± 1.372 10
vagy másként 23.928 < μ < 26.672 Mindössze 5 % a valószínűsége annak, hogy napi befizetési átlag ezen határokon kívül lesz! Ha σ nem ismert, közelítsük azt a minta szórásával (s) !! 1. Konfidencia intervallum (nagyszámú statisztikai adat feldolgozása révén)
Az adatgyűjtés során adataink rendezetlen formában kerülnek birtokunkba. Az adatok nagyság szerinti sorba rendezésével sem tudunk azonban lényegesen javítani a halmaz áttekinthetőségén. Az áttekinthetőséget az adatok osztályozásával tehetjük megfelelőbbé. Az adathalmaz valamennyi értékét magába foglaló teljes értékköz felosztását azonos
46
nagyságú rész-értékközökre, és az adatoknak ezen belüli csoportosítását osztályba sorolásnak nevezzük. A rész értékközt osztályköznek nevezzük. Az osztályköz középső értékét (rendszerint számtani átlagát) osztályközépnek nevezzük. Az osztályközt határoló két érték az alsó, illetve felső osztályhatár. Osztályba sorolás esetén az osztályközön belüli közönség értékű adatokat egyetlen érték, az osztályközép jellemzi. Az osztályközök számának és az osztályhatárok megfelelő megállapításával adataink egyértelműen osztályba sorolhatók és ezután megszámlálhatjuk, hogy egyegy osztályközbe hány adat esik. Gyakoriságnak ( f i ) nevezzük az osztályközben lévő adatok számát. Az egyes osztályközökbe eső adatok gyakoriságainak megállapításával tulajdonképpen azt is megkapjuk, hogy az egyes osztályközök között adathalmazunk hogyan oszlik meg, vagyis ismerjük adathalmazunk gyakorisági eloszlását. Lehetséges, hogy az egyes osztályközök gyakoriságának aránya érdekel bennünket. Ekkor a relatív gyakoriságokat ( g i ) kell megállapítanunk. A gyakoriságot az adathalmaz elemszámával (n) osztva kapjuk a relatív gyakoriságot. Gyakran kíváncsiak vagyunk arra, hogy egy adott értéknél kisebb érték milyen gyakorisággal fordul elő. A kumulált gyakoriságok előállításával kapunk erre választ. A kumulálást úgy végezzük, hogy az eredeti gyakoriságokat rendre halmozva összeadjuk. Megemlítjük, hogy kevés adatot nem érdemes osztályba sorolni. Általában 1520 adatnál kevesebbet nem sorolunk osztályba. Célszerűen 10-15 osztályközt érdemes kialakítani. A statisztikai jellemzőket folytonos eloszlás esetén az alábbi módon számítjuk: A számtani átlag ( x ):
∑ fi x=A+ ahol
n
x ,i
⋅ h (vagy x =
Σ fi x i ) n
A = a legnagyobb gyakoriságú osztály osztályközepe, x −A x i, = i , h x i = az egyes osztályok osztályközepe, 47
h = az osztályköz szélessége, f i = az osztályköz gyakorisága, n = a feldolgozott adatok száma. A terjedelem (R): R = x max − x min ⋅ A szórás (s): 2 2 Σ fi x i, ⎡ Σ fi x i, ⎤ ⎥ s = h⋅ −⎢ n n ⎢ ⎥ ⎣ ⎦ A relatív szórás (v): s v = ⋅ x
Σ f i x i 2 [Σ (f i x i)]2 s= − n −1 n (n - 1)
vagy
A várható érték (≈ a számtani átlag) és a szórás ismeretében a normális eloszlás táblázatainak alkalmazásával határozhatjuk meg a kérdéses jellemzőket. Diszkrét adatok esetén hasonló elvek alapján dolgozzuk fel az adatokat, és a megfelelő diszkrét eloszlás táblázatos adataiból meghatározzuk a kérdéses jellemzőket. Nézzük mindezt egy példán! 27. példa
A családok heti jövedelmét 150 elemű mintán vizsgálva az alábbi adatokat kaptuk: Heti jövedelem (eFt) 10 és 20 között 20 és 30 között 30 és 40 között 40 és 60 között 60 és 100 között
x=
Gyakoriság (fi) 10 28 42 50 20
Σ fi x i 6420 = = 42,8 eFt n 150
48
xi 15 25 35 50 80
fi × x i 150 700 1470 2.500 1.600 6.420
fi xi
2
2.250 17.500 51.450 125.000 128.000 324.200
(Σ f i x i ) 2 Σ fi x i 2 324.200 6420 2 s= = − − = 18,213 eFt n -1 n (n - 1) 149 150 ⋅ 149 azaz 18,213 μ = 42,8 ± 1,96 ⋅ = 42,8 ± 2,91 eFt 150 2. A minta nagysága
A minta nagysága (ahogy az az előzőekből látszik) jelentősen hat a konfidencia intervallum szélességére. A túl széles intervallum nem közöl semmi érdemlegeset. A felhasználók pontos(abb) információkat igényelnek. Induljunk ki az
μ=x±z
s n
összefüggésből. A pontosságot meghatározó rész (jelöljük e-vel): s e=z× n n-re átrendezve a formulát kapjuk:_ ⎛z×s⎞ n =⎜ ⎟ ⎝ e ⎠
(e= error)
2
Így a hiba ismeretében (adott konfidencia szint mellett (z)) meghatározható a minta elemszáma. 28. példa
Egy nagy csomag számlából hányat kell kiemelnünk ahhoz, hogy ± 500 Ft határok között 95 %-os konfidencia intervallumot kapjunk, ha a számlák értékének szórása 6.000,- Ft? Megoldás: z = 1,96,
e = 500 Ft,
s = 6.000,- Ft,
2
⎛ 1,96 ⋅ 6000 ⎞ n= ⎜ ⎟ = 553,19 ≈ 554 db ⎝ 500 ⎠ Tehát véletlen választással 554 számlát kell ellenőrizni! 49
így
10.2. Következtetések a sokaság százalékos megoszlására 1. Konfidencia intervallumok
Úgy, ahogy x -ot használunk μ becslésére, ugyanúgy használhatjuk a minta p százalékarányát az alapsokaság Π százalékarányának a becslésére. A minták százalékarányai mintáról mintára változunk, de elég nagy minták esetén ugyanúgy követik a Központi Határeloszlás Tételét, mint a mintaátlagok. A kapott normális eloszlás átlaga Π lesz, standard hibája pedig Π (100 − Π ) n A százalékarányra vonatkozó 95 %-os konfidencia intervallum: Π = p ± 1,96
Π (100 - Π ) n
⋅
(1)
A valószínűség függvény most a következő lesz: P ( p − 1,96
Π (100 − Π ) 〈 Π 〈 p + 1,96 n
Π (100 - Π ) = 0,95 ) n
(2)
Mivel az (1) egyenlet jobb oldalán szereplő Π nem ismert, úgy azt a mintákból nyerhető p-vel kell helyettesíteni! Így:
Π = p ± 1,96
p (100 - p) n
29. példa:
Társaságunk havi számláiból véletlenszerűen kiválasztunk 100-at és 12-ről megállapítjuk, hogy pontatlan. Feladat: Határozzuk meg a pontatlan számlák arányának 95 %-os konfidencia intervallumát! Megoldás: 12 A helytelen számlák aránya: p = = 0,12 ⇒ 12 % 100 Így: Π = 12 ± 1,96
12 (100 − 12 ) = 12 ± 6,4 % 100 50
Másként:
5,6 % < Π < 18,4 %
2. A minta méretét itt is az átlagoknál megismert módszerhez hasonlóan határozzuk meg.
A hiba (error, e): p ( 100 − p) , ahonnan n
e = z 2
⎛z⎞ n = ⎜ ⎟ ⋅ p (100 - p ) ⎝e⎠ 30. példa:
Előző példánknál maradva arra keressük a választ, hogy n milyen értékénél esik rossz számlák átlaga a p körüli ± 3 % − os intervallumba 95 %-os valószínűséggel. 2
⎛ 1,96 ⎞ n =⎜ ⎟ ⋅ 12 ⋅ 88 = 450,75 ≈ 451 db ⎝ 3 ⎠ Ha p-re nincs semmiféle előzetes információnk, akkor mint legrosszabb még elfogadható arányt, 50 %-ot adjunk meg! 10.3. Véges alapsokaságok problémája
Ha az alapsokaság maga is kicsi (elemszáma 20-30), akkor a belőle vett minta becslésre történő felhasználásakor alkalmazni kell egy korrekciós faktort, melynek értéke: n⎞ ⎛ ⎜1 − ⎟ , ahol n: minta elemszáma, N: alapsokaság elemszáma N⎠ ⎝ Ilyenkor a 95 %-os konfidencia intervallum: μ = x + 1,96 ⋅
n ⎞ s2 ⎛ ⎜1 − ⎟ × N⎠ N ⎝
51
10.4. Konfidencia intervallum a mediánra
A számított középérték sok esetben nem megfelelő az átlag kifejezésére. Ilyen esetben célszerűbb a mediánt használni. Mivel azonban a mediánt az adatok rangsorolásával, majd a középen álló elem kiválasztásával kapjuk, a valószínűség eloszlás diszkrét lesz (a medián konfidencia intervallumát közvetlenül meghatározhatnánk a binomiális eloszlással!. Mivel azonban nagy ( n > 30 ) elemszám esetén a normális eloszlás is jó közelítést ad, így ezt fogjuk használni!) Tekintsük az alábbi értékeket: x1 , x 2 , x 3 ..... x n ,
x i +1 〉 x i
ahol
A medián (n+1)/2-dik helyen áll a sorban. A konfidencia intervallum határai most a következők lesznek: FH =
AH =
n n + 1,96 ⋅ 2 2
← helyen álló elem! Ë
n n − 1,96 +1 2 2
, ahol n a minta elemszáma.
31. példa
Egy egyetemi évfolyamon 36 hallgató vizsgajegyét gyűjtöttük ki Statisztikából és az alábbi adatsort kaptuk: x 2 3 4 5
f 7 13 9 7
Feladat: Határozzuk meg a 95 %-os konfidencia intervallumot! Megoldás: 36 36 = 18 + 2 ⋅ 3 = 24 . FH = + 1,96 ⋅ → 4 2 2 AH =
36 36 − 1,96 ⋅ + 1 = 18 − 2 ⋅ 3 + 1 = 13 . 2 2
Azaz 3 ≤ medián ≤ 4 95 % valószínűséggel! 52
→
3
A mintából meghatározható medián a 18-19. elem átlaga = 3. Ez pontbecslés a mediánra. Ha az intervallumot adjuk meg, akkor intervallumbecslésről van szó! 10.5. Egyoldalú konfidencia intervallumok:
Sok olyan vizsgálat lehet, ahol csak az a kérdés, hogy az alapsokaság adott paramétere egy előre megadott határérték alá vagy fölé esik-e! A standard normális eloszlás eloszlásfüggvényén bemutatva ezt Φ(z)
1 Φ(z) = 1 - Φ(-z) 0,5
- z1
z
z1
0
Φ (z1 ) megmutatja, hogy mi a valószínűsége annak, hogy z 〈 z 1 . Ezt kivonva 1-ből annak valószínűségét kapjuk, hogy z ≥ z1 . Ha a 95 %-os konfidencia intervallumot keressük, akkor 1.) átlagérték − 1,645 standard hiba lesz a becslés, ha felette és 2.) átlagérték + 1,645 standard hiba lesz a becslés, ha alatt lévő intervallumot határozunk meg. 1. Egyoldalú becslés az átlagra
Használva az előzőekben már megismert jelöléseket: μ > x − 1,645 ⋅
s 95 %-os konfidencia intervallum esetén (alsó határ) n
és μ < x + 1,645 ⋅
s n
95 %-os konfidencia intervallum esetén (felső határ) 53
32. példa
5 l-es motorolaj kannák töltésénél véletlenszerűen kiválasztottak 20 kannát és megmérték térfogatukat. Az átlag 5, 1 lnek adódott, míg a szórás 0,25 l volt. Feladat: Konstruáljunk egy alkalmas 95 %-os konfidencia intervallumot! Megoldás: Az alsó határ, felhasználva a 95 %-os egyoldalú konfidencia intervallum képletét: 0,25 = 5,01 liter ! μ > 5,1 − 1,645 × 20 Kétoldalú becslésnél:
μ = 5,1 ± 1,96
0,25 = 5,1 ± 0,11 l 20
4,99 ≤ μ < 5,21 l Ebben az esetben az egyoldalú becslés precízebben határozta meg az aktuális állapotot! 2. Egyoldalú becslés a százalékos megoszlásra
Az előzőekhez mindenben hasonló gondolatmenet szerint kell eljárni. Így az alsó határ: Π > p - 1,645
p (100 - p) n
95 %-ban biztosak lehetünk, hogy a populáció valóságos százalékos megoszlása a számított érték fölött lesz. Ez különösen a marketingben fontos, ahol így megadható pl. a 95 %-os valószínűséggel elérhető minimális piaci részesedés %-os értéke! Hasonlóképpen egy felső határ alá esés mértékét a Π < p + 1,645
p ( 100 - p) n
formulával lehet megadni!
54
33. példa
Egy szállítmányból 40 db-ot véletlenszerűen kiválasztanak és 5-öt selejtesnek találnak. Feladat: Készítsünk egy 95 %-os konfidencia intervallumot. Megoldás: n = 40, k = 5 → p =
5 = 12,5 % 40
Elkészíthetjük a felső határra vonatkozó konfidencia intervallumot, amely így Π < 12,5 % + 1,645 x
12,5 ⋅ 87,5 = 21,1 % 40
(A kétoldalú becslés esetén ∏ = 12,5 ± 10,25. Itt is az egyoldalú becslés adja a kedvezőbb eredményt.) 10.6. Független minták különbsége
A 95 %-os konfidencia intervallumok:
s12 s 22 + Δμ = μ1 − μ 2 = x 1 − x 2 ± 1,96 ⋅ n1 n 2 Ez az eljárás ugyanazon alapsokaság különböző mintái közötti különbözőséget határozza meg. Hasonlóképpen: p (100 − p1 ) p 2 (100 − p 2 ) Δ Π = Π1 − Π 2 = p1 − p 2 ± 1,96 ⋅ 1 + n1 n2 Ez a vizsgálat a jelenségek (időbeli) változásának nyomonkövetésére alkalmas. 34. példa
Egy termék értékesítésének vizsgálata során kiválasztottak 120 olyan családot, aki biztosan olvassa a hirdetést és úgy találták, hogy közülük 18 vette meg a terméket. A hirdetést nem olvasó 150 családból 6 vásárolt a termékből. Feladat: Alkossuk meg a vásárlói viselkedések különbözőségét bemutató 95 %os konfidencia intervallumot! 55
Megoldás:
p1 =
n1 = 120
n 2 = 150
18 ⋅ 100 = 15 % 120
p2 =
6 ⋅ 100 = 4 % 150
Innen: Π1 − Π 2 = 15 − 4 ± 1,96
15 ⋅ 85 4 ⋅ 96 + == 11 ± 7,1 % 120 150
azaz: 3,9 % < Π ≤ 18,1 % Mivel a tartomány sem negatív értéket sem zérót nem tartalmaz, így a hirdetés szignifikánsan befolyásolta a vásárlói magatartást. 10.7. A t-eloszlás
Az eddigiekben vizsgálatainkban feltételeztük, hogy vagy az alapsokaság szórása (σ) ismert, vagy pedig a minta elég nagy elemszámú ahhoz, hogy szórása (s) helyettesítse az alapsokaság szórását. Ha ezek a feltételek nem teljesülnek, nem jogos feltételeznünk, hogy a minta (szórása) normális eloszlást követ. Ez esetben is ki tudjuk ugyan számítani a szórást, de az magasabb lesz, mint normál esetben lett volna! Mivel kis elemszámú mintáknál nem modellezhető jól az alapsokaság variabilitása, azaz egy-egy változás hatása nagyobb, mint az alapsokaságban, úgy a minta szórása nem közelíti jól az alapsokaság szórását. A konfidencia intervallum meghatározása a
μ = x ± z⋅
σ
n
összefüggésével csak akkor lehetséges, ha σ ismert! Ha csak a minta szórása (s) ismert, akkor a s μ =x ±t⋅ n összefüggést kell alkalmazni, ahol t a t-eloszlásból kiolvasható kritikus érték! A t-eloszlás ugyanolyan szimmetrikus eloszlás, mint a normális eloszlás, de annál szélesebb!
56
Az eloszlás szélessége és magassága a szabadsági foktól függ! A szabadsági fok (ν= nű) a minta elemszámától függ és definíciószerűen ν= n - 1 (ahol n = minta elemszáma). Ha ν alacsony, a t-eloszlás széles és lapos. Ha ν növekszik, az eloszlás keskenyebbé és magasabbá válik, s közelít a normális eloszláshoz. A t-eloszlás használata táblázatos formában történik.
57
IV. Statisztikai próbák 1. Szignifikancia tesztek
A szignifikancia tesztek a sokaság paraméterére vonatkozó állítások igazolására szolgálnak - a minta alapján. Ez igaz a konfidencia intervallumokra is, de más hangsúllyal. A hangsúly itt annak megállapításán van, hogy vajon támogatja-e, vagy konzisztens-e a minta az alapsokasággal. Így a szignifikancia teszt eredménye általában két szó lesz: igen vagy nem. (Aszerint, hogy a minta alátámasztja vagy sem a feltételezést!) Mivel mi a mintát vizsgáljuk, s nem az alapsokaságot, így kapott eredményeinket egy adott szinten értelmezzük (pl. 5 % vagy 1 %). Ezek a rossz konklúzió levonásának esélyét rögzítik. 1.1.
Konfidencia intervallumra épülő szignifikancia tesztek
A szignifikancia teszt a feltevés elutasítására vagy elfogadására vonatkozik. A feltevéseket hipotézisnek fogjuk nevezni. Ha ezek közül van egy olyan, amelyet különösen fontos tesztelnünk, akkor ezt fogjuk null-hipotézisnek nevezni. A null-jelző a változatlanságot, a különbségmentességet sugallja. A folyamat: felállítjuk a null-hipotézist, majd elfogadjuk vagy elvetjük azt a statisztikai nyilvánvalóság alapján. Ha a null-hipotézis a konfidencia intervallumba esik, elfogadjuk, egyébként elvetjük. 35. példa:
Véletlenszerűen kiválasztott 80 háztartásban átlagosan 140 Ft-ot költöttek havonta szappan vásárlására. A szórás 15 Ft volt. Tételezzük fel, hogy a minta elég nagy, ezért normális eloszlásúnak tekinthető. A vizsgálatot egy áruház rendelte meg azzal a céllal, hogy ellenőrizze azon feltevését, hogy a családok havonta 150 Ft-ot költenek szappanra Feladat: vizsgáljuk meg, hogy feltételezésünk igaz-e 95 %-os konfidencia intervallum esetén. Megoldás: A null-hipotézis: H o : μ = 150 Ft . A konfidencia intervallum: μ =140 ± 1,96
15 80
= 140 ± 3,3 Ft
vagy másként 136,70 ≤ μ ≤ 143,30 Ft 58
Mivel a megállapított konfidencia intervallum (amely a lehetséges hipotéziseket tartalmazza!) a 150 Ft-ot nem tartalmazza, így a hipotézist el kell utasítanunk!
elfogadható Ho
el nem fogadható Ho
1.2.
μ
136,70
143,30
el nem fogadható Ho
Hipotézis-vizsgálat egyszeri mintavétel alapján
A hipotézis-vizsgálat egy alternatív megnevezése a szignifikancia vizsgálatnak. Ez a megnevezés kihangsúlyozza, hogy az alapsokaságra vonatkozóan, hipotézisként megfogalmazott feltételezést vizsgálunk. Ilyenkor mindig két feltételezéssel van dolgunk: 1. az egyik a feltételezett állapotra, (null-hipotézis, stb.) 2. a másik az alternatív állapotra vonatkozik. Leírva ezt: 1. H o : μ = μ o
vagy
Ho : Π = Πo
2. Az alternatív hipotézis H o tagadása, azaz HA : μ ≠ μo
vagy
HA : Π = Πo
A teszt során H o igaz voltából indulunk ki, azt akarjuk igazolni. A legtöbb tesztet 5 %-os szignifikancia szint mellett végezzük, ahol z = ± 1,96. (Azaz 5 % a valószínűsége, hogy rossz állítást fogadunk el!)
Eszerint:
nem utasítjuk el Ho-t
elutasítjuk Ho-t
-1,96
μ
59
1,96
elutasítjuk Ho-t
Az eljárás lépései: 1. Felállítjuk a kiinduló hipotézist. Pl. μ = μ o vagy Π = Π o 2. Rögzítjük a szignifikancia szintet. Pl. 5 % 3. Rögzítjük a kritikus értékeket. Pl. z = ± 1,96 4. Kiszámítjuk a tényleges z-t. Pl. z = 2,5 5. Összehasonlítjuk z-t a kritikus értékekkel. Pl. 2,5 > 1.96 6. Levonjuk a következtetést. Pl. elvetjük a null-hipotézist 7. Megfogalmazzuk a tényleges helyzetet. Pl. a minta nem támasztja alá azt az eredeti feltételezést, hogy az átlag egy megállapított érték volt. 1. Teszt statisztika az alapsokaság átlagára
Az előző fejezet 4. pontjában a z érték meghatározása szerepel. Adott minta esetén ez a _
z=
x −μ
σ
összefüggéssel történik
n
Ha σ nem ismert, de a minta szórása igen, akkor z=
x − μo s n
Most előző példánkon kövessük végig az eljárást: 1.) A null-hipotézis az a feltételezés, miszerint H o : μ = 150 Ft H A : μ ≠ 150 Ft
2.)
A szignifikancia szint 5 %.
3.)
A kritikus z értékek: + 1,96 és - 1,96. 60
4.)
A valóságos z érték: z=
140 - 150 = − 5,96 15 80
5.)
z < zk (-5,96 < -1,96 < 1,96)
6.)
5 %-os szignifikancia szinten elvetjük a null-hipotézist.
7.)
A minta nem támasztja alá a menedzser azon vélekedését, hogy a háztartások havi 150 Ft-ot költenek szappanra. A tényleges költség szignifikánsan különbözik a 150 Ft-os feltételezésből.
(Vigyázat! A hipotézis-vizsgálatokbeli eltérésnek nem az értéke, hanem a ténye szignifikáns. Ez tehát statisztikai és nem üzleti minősítés!) 2. Teszt az alapsokaság százalékarányára z=
p - Πo Π o (100 − Π o ) n
36. példa
A revizor a cég számlái átvizsgálása során úgy találta, hogy azok 10 %-a hibás. Ellenőriztük ezt egy 100 elemű mintán, amelyben 12 hibásat találtunk. Feladat: Vizsgáljuk meg, hogy 5 %-os szignifikancia szinten igaz-e a revizor állítása. Megoldás: 1.)
H o : Π o = 10 % H 1 : Π o ≠ 10 %
2.)
Szignifikancia szint 5 %.
3.)
A kritikus értékek: ± 1,96
4.)
A minta százalékaránya: p = z=
12 ⋅ 100 = 12 % , így 100
12 - 10 10 ⋅ (100 - 10) 100 61
= 0,67
5.)
-1,96 < z < 1,96
, hiszen z = 0,67
6.)
Nem utasíthatjuk el a revizor feltételezését.
7.)
A mintából nyilvánvaló, hogy a revizor állítása a mintával konzisztens.
Figyeljünk fel a 6. pont megfogalmazására! Nem utasítjuk el a revizor megfigyelését, de nem is fogadjuk el azt! Az elfogadás korlátja a bizonyosság hiánya, hiszen nem dolgoztuk fel az egész alapsokaságot! 1.3. Egyoldalú szignifikancia tesztek
Előző tesztjeinkben azt vizsgáltuk, hogy az alapsokaság paramétere egyenlő-e egy adott értékkel, avagy sem. Sokszor fordul elő azonban az a helyzet is, amikor arra a kérdésre kell válaszolnunk, hogy az alapsokaság paramétere meghalad-e (vagy alatta marad-e) egy adott értéket (értéknek). Az egyoldalú szignifikancia tesztek pontosan erre valók! A null-hipotézis ez esetben az lesz, hogy a két érték egyenlő, azaz pl. : H o : Π = Π o , míg az alternatív hipotézis szétválik H A : Π < Π o vagy Π > Π o formára! Ilyenkor az 5 %-os szignifikancia szinthez tartozó z érték ± 1,645. Azaz a.)
z = - 1,645 , ha H o : Π = Π o és H A : Π < Π o
b.)
z = 1,645 , ha H o : Π = Π o és H A : Π > Π o
A kalkulált z érték értelmezése most csupán azon döntés kérdése, hogy az a normális eloszlás két szegmense közül melyikbe esik! 1. Egyoldalú teszt a sokaság átlagára
Itt a hipotézist a sokaság átlaga vagy egy kívánt érték jelenti. Nézzük a következő példát.
62
37. példa
Elemek gyártása során feltételezzük, hogy a becsült élettartam 299 óra. Új töltési eljárásra áttérve a gyártó vizsgálni akarja az élettartam változást. 200 elemű mintán veszünk, s az átlagos élettartamra 300 óra adódik, míg a szórás 8 óra lesz. Feladat: Végezzük el a tesztet 5 %-os szignifikancia szint mellett. Megoldás: 1.) H o : μ = 299 H 1 : μ 〉 299
2.)
A szignifikancia szint 5 %.
3.)
A kritikus érték + 1,645.
5.)
300 - 299 = 1,77 8 200 A számított érték nagyobb, mint a kritikus! (1,77 > 1,645)
6.)
Ezért el kell vetnünk a null-hipotézist!
4.)
z=
(Megjegyezzük, hogy kétoldalú vizsgálatnál ez éppen fordítva lett volna!) 7.)
A mintából kapott eredmény alátámasztja azt a feltételezést, hogy a telepek élettartama szignifikánsan növekedett!
Természetesen hiba lenne túlértékelni ezt az eredményt, s erre alapozva indítani egy reklámkampányt. A szignifikáns viselkedés ugyanis csak a mintára igaz biztosan - az alapsokaságra nem! Ezért fontos különbséget tenni a statisztikai szignifikancia és a fontosság között! 2. Egyoldalú teszt a százalékos megoszlásra
A módszer ugyanaz, mint ami az előbb volt. 38. példa
Egy társaság azt állítja, hogy a Rögös út Kft. által szállított alkatrészek 4 %-a selejtes. Az állítás ellenőrzésére 500 elemű mintát vettek, amelyben 12 elem volt selejtes. Feladat: 5 %-os szignifikancia szint mellett vizsgáljuk meg társaságunk állításának helyes vagy helytelen voltát! 63
Megoldás:
2.) 3.)
Ho : Π = 4 % HA : Π < 4 % Szignifikancia szint 5 %. Kritikus z érték: - 1,645
4.)
Minta százalékaránya =
1.)
z=
5.) 6.) 7.)
12 ⋅ 100 = 2,4 % 500
2,4 - 4 = − 1,826 4 (100 - 4) 500
- 1,826 < - 1,645 Elutasítjuk H o -t. A minta elemzése azt mutatja, hogy hibás az az állításunk, miszerint a Rögös út Kft. alkatrészeinek 4 %-a selejtes.
3. Az eladó és a vevő kockázata
Az egyoldali tesztek kitűnően alkalmazhatók ennek vizsgálatára. Világítsuk meg ezt egy példán. Legyen a vizsgált objektum egy csomag írógéppapír! Tegyük fel, hogy a névleges tartalma 500 lap! Az eladó azt szeretné, ha a csomagba nem kerülne több 500 lapnál, míg a vevő azt szeretné, ha a csomagban nem lenne kevesebb 500 lapnál. Az egyoldali tesztben tehát a két fél hipotézise a következő módon alakul: Gyártó: Vevő:
Ho : μ = μo Ho : μ = μo
, HA : μ > μo , HA : μ < μo
4. A hibák fajtái
Mivel a tesztjeink minta alapján adnak információt az alapsokaságról, így az eredmények megbízhatósága sohasem 100 %-os. Ez azt jelenti, hogy döntésünkben kétféle hibát is elkövethetünk: I. fajú hiba: igaz hipotézist elutasítunk II. fajú hiba: hamis hipotézist elfogadunk 95 %-os megbízhatósági szint esetén az elsőfajú hiba elkövetésére van 5 % esélyünk! 64
A hipotézis tesztek lehetséges eredményei:
Ha H o igaz Ha H o hamis
Elfogadjuk H o -t
Elutasítjuk H o -t
Korrekt döntés
I. fajú hiba
II. fajú hiba
Korrekt döntés
A másodfajú hiba nagysága a teszt elvégzése előtt nem állapítható meg. Ezen hiba annál valószínűbb, minél közelebb esik a számított z érték a megállapított határhoz! Ha a minta elemszáma nem éri el a 30-at, úgy a normális eloszlás helyett ajánlatos a t-eloszlással számolni! 2. Nem paraméteres próbák
Az előző fejezetben olyan teszteket tekintettünk át, ahol egy egyedi paramétert kiemeltünk a mintából, majd összehasonlítottuk azt az alapsokaság egy ismert (vagy feltételezett) értékével! Itt tehát ismert paraméterekkel dolgoztunk, ún. paraméteres próbákat hajtottunk végre. Sok olyan eset van azonban, amikor a paraméterek nem számíthatók ki, ezért szükség van másféle megoldásokra is. Ebben a fejezetben ezekből válogattunk néhányat. A paraméteres teszteknél teljesülni kell az alábbi feltételeknek: 1.) Fel kell állítani a paraméternek megfelelő null-hipotézist. 2.) Olyan mérési szintet kell választani, hogy azon a különbségek érvényesek legyenek. 3.) A statisztikának valamely ismert eloszlást kell követnie. Nem mindig tudunk azonban értelmes paramétert definiálni! (Például mi az, hogy átlagos szemszín?) Hasonlóan, nem mindig lehet értelmet adni az értékekben megjelenő különbségeknek. Pl. ha az üdítőitalokat az áruk vagy az ízük alapján rangsoroljuk. Ha a fent felsorolt feltételek nem állnak fenn, akkor ún. nem paraméteres teszteket kell alkalmaznunk! Jegyezzük meg azonban, hogy vannak esetek, amikor egyszerűen nincs alkalmas vizsgálati módszer. (Az is lehet, hogy a statisztikailag szignifikáns jelenségnek nincs gyakorlati fontossága!) A nem paraméteres teszt is hipotézis próba. Általában a mintaadatok nem egy valamely paraméterét tekinti, hanem általában tekint az eloszlásra, s azt igyekszik valamilyen ismert vagy várt értékkel összehasonlítani. 65
2.1. A khi-négyzet ( χ2 ) próba
Ez a nem paraméteres próba hasonlít leginkább az eddig tárgyalt tesztjeinkhez. Akárcsak előzőleg, most is felállítunk egy null-hipotézist, kiszámítjuk a statisztikát és összehasonlítjuk ezt egy táblázatból vett értékkel, s eldöntjük, hogy elutasítjuk-e a null-hipotézist vagy sem! Két alkalmazást fogunk vizsgálni. 1.) Kérdőíves felmérési adatokat vizsgálunk, és kapcsolatot keresünk egy kérdéspárra adott válaszok között. 2.) A második esetben azt vizsgáljuk, hogy egy adatsorunk követ-e valamilyen ismert eloszlást. 1. Összefüggés vizsgálatok
A probléma megvilágítására lássunk egy példát! Tételezzük fel, hogy egy kérdőíves vizsgálatban két kérdést tettünk fel, s az alábbi válaszokat kaptuk! 1.) Milyen lakásban lakik Ön? Válaszok:
Családi házban:
150
Tömblakásban:
100
Albérletben:
45
Egyéb:
5 ∑
300
2.) Milyen gyakran jár Ön sportolni? Válaszok:
Havonta egyszer:
40
Hetente egyszer: 200 Hetente kétszer:
50
Még sűrűbben:
10
∑
300
A két szimpla statisztika azt mutatja meg, hogy a megkérdezettek 50 %-a családi házban lakik, míg közel 2/3-uk hetente egyszer sportol! Ha azonban a két kérdést össze akarjuk kapcsolni, s például azt keressük, hogy a családi házban lakók közül mennyien sportolnak hetente kétszer, akkor egy ún. KERESZT-TÁBLÁT kell készítenünk. 66
Példánkban ez legyen a következő: M-táblázat Sportolás gyakorisága Havonta egyszer Hetente egyszer Hetente kétszer Többször Összesen:
Családi ház 30 110 5 5 150
Lakás típusa Tömblakás Albérlet 5 4 80 8 10 33 5 0 100 45
Egyéb 1 2 2 0 5
Összesen 40 200 50 10 300
Az esetek nagy részében ezen táblázat elkészítése igen munkaigényes, jobb ezt számítógépre bízni. Most már könnyebbnek tűnik összefüggést keresni a két kérdésre adott válaszok között, de mivel különböző számú ember lakik a különféle lakástípusokban, így nem nyilvánvaló, hogy sportolási szokásaik függhetnek a lakástípusuktól. A khi-négyzet próba lehetővé teszi a két kérdésre adott válaszok közötti statisztikai kapcsolat megtalálását! A teszt most is ugyanabból a hét lépésből áll, mint amit korábban már megismertünk. 1. lépés: Ho : H1 :
Felállítjuk a hipotéziseket. Nincs összefüggés a két kérdésre adott válaszok között. Van összefüggés a két kérdésre adott válaszok között.
2. lépés:
Állapítsuk meg a szignifikancia szintet. Akárcsak a paraméteres próbáknál, legyez ez 5 %.
3. lépés:
Állapítsuk meg a kritikus értéket. Ehhez először határozzuk meg a szabadsági fokot (ν) az alábbi képlet alapján: ν = (s-1)·(v-1)
, ahol s = sorok száma v = oszlopok száma
Ezután keressük ki a táblázatból a kritikus értéket. 2 Ez itt: χ krit = 16,9 ! 4. lépés:
A teszt-statisztika kiszámítása.
67
A χ 2 statisztika az alábbi formulával számítható: ⎡ (M - V) 2 ⎤ χ = ∑⎢ ⎥ V ⎣ ⎦ 2
ahol:
M = a megfigyelt cella gyakoriság (aktuális válaszok) V = a várt cella gyakoriság (ha a null-hipotézis igaz!)
Tekintsük a táblázat első celláját, s végezzünk el néhány egyszerű számítást (lásd korábbiak!)! 150 • a családi házban élők aránya = = 0,5 300 40 • A „havonta” egyszer sportolók aránya = = 0,133 300 Így annak valószínűsége, hogy valaki családi házban él és havonta egyszer sportol: 0,5 · 0,133 = 0,0665 Mivel a mintában 300 ember van, így azok „számított” értéke, akik mindkét feltevésnek megfelelnek: 0,0665·300 ≈ 20 fő. (Megjegyezzük, hogy a megfigyelt érték 30 fő volt!) Ebből levezethető a számítási eljárás, azaz számított gyakoriság = sor összeg × oszlop összeg / főösszeg Ezt az eljárást kell ezután minden cellára lefolytatni. Esetünkben ez az alábbi táblázatot eredményezi V-táblázat
Havi egyszer Heti egyszer Heti kétszer Többször Összesen:
Családi ház 20 100 25 5 150
Tömblakás 13,3 66,7 16,7 3,3 100
Albérlet 6 30 7,5 1,5 45
Egyéb Összesen 0,7 40 3,3 200 0,8 50 0,2 10 5 300
(M - V) 2 Ezután az M és V táblázatok minden adat-párjával kiszámítjuk az érV
tékeket, majd ezeket szummázva kapjuk a χ 2 - számított értékét. Példánkban χ 2 sz. = 140,875 ! 68
5. lépés:
Összehasonlítás Hasonlítsuk össze a számított χ 2 értékét a táblázatból vett kritikus értékkel! 140,875 > 16,9
6. lépés:
Következtetések levonása Mivel négyzetről van szó, így tudjuk, hogy 0-nál kisebb érték nem jöhet ki. Ha minden elvárt érték megegyezik a megfigyelt értékkel, akkor a χ 2 = 0. Ha az értékek között különbség van, annak az az oka, hogy vagy hibás a minta, vagy kapcsolat van a válaszok között. Minél nagyobb a különbség, annál valószínűbb a kapcsolat. Ezért, ha a számított χ 2 értéke nagyobb, mint a kritikus érték, akkor elutasítjuk a null-hipotézist, míg ha kisebb, akkor nem vetjük el azt! Példánkban elvetjük a null-hipotézist!
7. lépés:
Megfogalmazzuk a konklúziókat. Úgy tűnik, hogy kapcsolat van az emberek lakáskörülményei és sportolási szokásai között!
Kiegészítés Jóllehet a teszt alapmódszere korrekt, mégis van egy probléma. Az egyik alapfeltétel ugyanis az, hogy a várt gyakoriságok mindegyikének 5 felett kell lennie! Ez pedig példánkban nem igaz! A megoldás a kategóriák összevonása! Konkrét példánkban ez azt jelenti, hogy össze kell vonnunk egyrészt az albérlet és egyéb, másrészt a hetente kétszer vagy gyakrabban kategóriákat. Az új táblázatunk most az alábbi lesz:
Családi ház
Tömblakás
Egyéb
Havonta egyszer
30
5
5
Hetente egyszer
110
80
10
Gyakrabban
10
15
35
Megfigyelt gyakoriságok:
69
Számított gyakoriságok: Havonta
20
13,3
6,7
Hetente
100
66,7
33,3
Gyakrabban
30
20
10
A szabadsági fok most: (3-1)·(3-1) = 4, így 5 %-os szignifikancia szint mellett 2 χ krit . = 9,49. Az előző eljárást lefolytatva a számított χ 2 értéke 107,6-re adódik. Mivel 107,6 lényegesen nagyobb, mint 9,49, így a null-hipotézist most is el kell vetnünk! A probléma láthatóan az, hogy mely kategóriákat kell összevonnunk, és milyen értelmet kell azoknak tulajdonítanunk! A fentiekből látható, hogy ez az eljárás kézi módszerrel meglehetősen sok időt igényel. A gyakorlatban használható számítógépes eljárások azonban segítenek ezen. 2. Illeszkedés vizsgálatok
Ha a begyűjtött adataink bizonyos rendszert mutatnak, akkor hasznos lehet annak azonosítása, s az esetleges statisztikai eloszláshoz való tartozás kimutatása. A χ 2 próba erre is alkalmas. Pl. Feltesszük a kérdést, hogy vajon Poisson eloszlást követ-e a ZWACK unikum eladása? Ha a válaszunk „igen”, akkor ezáltal könnyebbé válik az eladások alakulásának előrejelzése. A χ 2 kiszámítása itt is az előző pontban megismert ⎡ (M - V) 2 ⎤ módon, a χ = ∑ ⎢ ⎥ formula segítségével történik. ⎣ V ⎦ 2/a.) Teszt az egyenletes eloszlásra 2
Az egyenletes eloszlás esetén minden érték előfordulásának valószínűsége egyforma.
70
40. példa
Egy esztergályos műhelyben öt munkás dolgozik. Napi teljesítményüket a következő táblázat mutatja: Munkás
Elkészült munkadarab (db) 27 31 ⇐ M 29 27 26 140
Józsi Laci Feri Pista Jani Összesen:
Kérdés: Egyenletes eloszlású-e a dolgozók teljesítménye? Megoldás: 1. lépés: Állítsuk fel a hipotéziseket H o : Minden dolgozó teljesítménye egyforma (azaz az eloszlás egyenletes!) H 1 : A dolgozók teljesítménye változó 2. lépés: A szignifikancia szint legyen 5 % . 2 értéket 3. lépés: Határozzuk meg a szabadsági fokot, majd a χ krit ν = cellák száma - a várt gyakoriságok számításához szükséges paraméterek száma - 1 = 5 - 0 -1 = 4, így 2 χ Krit = 9,49
4. lépés: Mivel egyenletes eloszlással van dolgunk, így a várt értékeket (V) a 140 = 28 számítás adja mind az öt munkára. 28 Így χ 2 = 0,5714 5. lépés: Összehasonlítás 0,5714 < 9,49 6. lépés: Nem vetjük el a null-hipotézist. 7. lépés: Nincs egyértelmű bizonyíték arra, hogy a munkások teljesítménye különböző lenne.
71
2/b.) Teszt a binomiális vagy a Poisson eloszlásra
Az eljárás most is hasonló, de a várt értékek számításához mindkét eloszlás esetén ismernünk kell egy-egy paramétert. A binomiális eloszlásnál ez p (a siker valószínűsége), míg a Poisson eloszlásnál a λ (átlagérték) paraméter. 41. példa
Egy elektronikus alkatrészeket gyártó folyamatot 96 napig vizsgáltak abból a célból, hogy kiszűrjék a hibás adatokat. A vizsgálat eredménye az alábbi volt: Hibás darabok száma/nap: Napok száma:
0 15
1 20
2 20
3 18
4 13
5 10
←M
Feladat: Állapítsuk meg 1 %-os szignifikancia szint mellett, hogy a hibás darabok binomiális eloszlásúak-e, avagy sem! Megoldás: 1.)
H o : Az eloszlás binomiális H1 :
2.) 3.) 4.)
Az eloszlás nem binomiális A szignifikancia szint 1 %. A szabadságfok: ν = 6 − 1 − 1 = 4 2 Ebből a kritikus érték: χ krit = 13,3 A várható gyakoriságok megállapításához ismerni kell a hibás darabok előfordulásának valószínűségét. Ehhez először a mintaeredmények átlagára van szükség. 216 x = [0·15 + 1·20 + 2·20 + 3·18 + 4·13 + 5·10]/96 = = 2,25 db 96 Mivel binomiális eloszlásnál x = n ⋅ p , ahol n a selejtes darabok maximális mennyisége, így
p=
x 2,25 = = 0,45 n 5
Ezt használjuk fel azután a ⎛n⎞ n p(k) = ⎜⎜ ⎟⎟ p ⋅ (1 − p) n -k ⎝k⎠
formula segítségével a várható
gyakoriságok kiszámítására. (Lásd következő oldal!) 72
Mivel két esetben is összevonást kell elvégeznünk, így módosítani kell a 2 szabadsági fokot és a χ krit értékét is.
ν = 4 −1−1= 2
→
2 χ krit = 9,21
Ezután használva a már jól ismert ⎡ (M - V) 2 ⎤ χ =Σ⎢ ⎥ formulát V ⎣ ⎦ = 20,4231 2
kapjuk: χ sz k 0, 1 2 3 4, 5
P (k) 0,0503 + 0,2059 0,3369 0,2757 0,1127 + 0,0185 1,0000
Várt gyakoriság = 96 x P (k) 4,83 + 19,77 = 24,60 32,34 26,47 ←V 10,82 + 1,77 = 12,59 96,00
5.)
20,4231 > 9,21
6.)
Elvetjük a null-hipotézist.
7.)
Nincs olyan nyilvánvaló eredmény, ami azt bizonyítaná, hogy a selejtes darabok termelése binomiális eloszlást követ 1 %-os szignifikancia szint mellett!
42. példa:
Egy alkatrészraktárban 100 napon keresztül kísérték figyelemmel a napi alkatrészkivételezések alakulását. Az eredmény az alábbi volt: Kivételezések száma (db/nap) 0 1 2 3 4 5 vagy több
Napok száma 7 17 26 22 17 11 73
Ha az a feladatunk, hogy egy ezt leíró modellt készítsünk, feltételezhetjük-e, hogy a raktári kivételezések Poisson-eloszlást követnek! (Használjunk 5 %-osszignifikancia szintet!) Megoldás: 1.)
H o : Az eloszlás Poisson eloszlás H1 :
Az eloszlás nem Poisson
2.)
A szignifikancia szint 5 %.
3.)
A szabadságfok: ν = 6 − 1 − 1 = 4 2 χ krit = 9,49
4.)
A Poisson eloszlás átlaga (λ) a táblázat adataiból.
λ=x=
0 × 7 + 1 × 17 + 2 × 26 + 3 × 22 + 4 × 17 + 5 × 9 + 6 × 2 = 2,6 100
Behelyettesítve a P (k) = k 0 1 2 3 4 5 (vagy több) Σ
λk ⋅ e - λ k!
formulába:
P (k)
Várt (számított) gyakoriság = P (k) x 100
0,0743 0,1931 0,2510 0,2176 0,1414 0,1236 1,0000
7,43 19,31 25,10 21,76 14,14 12,26 100,00
← V
A szokásos módon elvégezve a számítást : χ 2 = 1,0442 5.)
1,0442 < 9,49
6.)
Nem vetjük el a null-hipotézist.
7.)
A megfigyelések eredménye azt sugallja, hogy a raktári kivételezések alakulása Poisson eloszlást követ! 74
2/c.) Teszt a normális eloszlásra
Ez a teszt több adatmanipulálást foglalhat magába, mivel táblázatos (csoportosított) adatokat igényel, s két paramétert (átlag és szórás) is meg kell határozni, mielőtt a várható gyakoriságokat kiszámítanánk. 43. példa 150 személy jövedelmi viszonyainak vizsgálata során jutottunk az alábbi összesített adatokhoz: Heti jövedelem (Ft) 20.000 Ft alatt 20.000 - 30.000 30.000 - 40.000 40.000 - 60.000 60.000 - 100.000 100.000 felett Összesen:
Emberek száma 30 40 45 20 10 5 150
Feladat: Vizsgáljuk meg, hogy normális eloszlást követnek-e az adatok! Megoldás: 1.)
H o : Az eloszlás normális H1 :
Az eloszlás nem normális
2.)
A szignifikancia szint 5 %.
3.)
A szabadságfok: ν = 6 − 2 − 1 = 3 2 χ krit = 7,81
4.)
A nagyszámú adatokra korábban felírt empirikus formulákkal meghatározzuk az átlagot és a szórást x = 36.600 Ft
σ = s = 23.902 Ft
A vár értékek megtalálása okából: a.) alakítsuk át az eredeti csoport határokat z értékké ⎛ x -x⎞ ⎜⎜ z = ⎟⎟ σ ⎝ ⎠ 75
b.) adjuk meg az ehhez tartozó valószínűségeket a normális eloszlás táblázatából c.) határozzuk meg a várt gyakoriságokat A következő táblázathoz fogunk jutni: Havi jövedelem (eFt) 20 alatt 20 - 30 30 - 40 40 - 60 60 - 100 100 fölött
z
valószínűség
- 0,7 - 0,28 0,14 0,98 2,65
0,2420 0,1471 0,1666 0,2708 0,1595 0,00402 1,0000
várt gyakoriság = val. 150 36,3 22,065 24,99 ← V 40,62 23,922* 0,603* * összevonandók
Mivel a két utolsó csoportot összevontuk, így változik a szabadsági fok.
ν = 5 − 2 −1= 2 →
2 χ krit = 5,99 !
2 ⎡ ⎤ ( M V) 2 összeget. Ebből Ezután kiszámítjuk a χ = ∑ ⎢ ⎥ ⎣ V ⎦ χ sz2 = 45,86
5.)
45,8605 > 5,99
6.)
Elvetjük a null-hipotézist.
7.)
Nincs okunk feltételezni, hogy a jövedelmek normális eloszlásúak.
Összefoglaló megjegyzések a.)
A χ 2 egy szimbólum.
b.)
A χ 2 sohasem lehet kisebb nullánál! (négyzetre emelés!)
c.) d.)
A χ 2 a mért és a várt gyakoriságok összehasonlításához kötődik. Ha a mért és várt gyakoriságok között nagy a megegyezés, akkor a számított χ 2 nullához tart, ami a null-hipotézis igaz voltát sugallja.
e.)
Ha a mért és a várt értékek erősen különbözőnek, akkor a χ 2 értéke magasra szökik, s ez azt sugallja, hogy a null-hipotézist el kell vetni!
χ 2 -nek nincs jelentése!
76
V. Korreláció-, regresszió- és trendszámítás 1. Trendszámítás
A trend fogalmán alapirányzatot, jellemző fejlődési irányt, a változás tartósan érvényesülő fő irányzatát értjük. Trendet időszak adataiból számítunk. (A trend fogalmi meghatározásából is kitűnik az időbeliség érvényesülése.) A trendszámítás feladata tehát az idősorok „ingadozásának” kiegyenlítése, kisimítása, hogy a trendvonalat tisztán láthassuk. Az ingadozások lehetnek: - ciklikus, - szezonális és - véletlen. A trendvonal meghatározásának két fő módszere ismert: - mozgó átlagolás - analítikus kiegyenlítés. 1. A mozgó átlagolás módszere
Az idősor előre meghatározott darabszámú elemének számtani átlagát számítjuk, majd az első tagot elhagyjuk, a következőt pedig bevonjuk az átlagszámításba mindaddig, amíg az idősor végére nem érünk. Ezen módszer előnye, hogy egyszerű és gyors. A módszer hátránya, hogy az így „kiegyenlített” sor rövidebb az eredetinél, továbbá nem kapunk analitikusan is kezelhető görbét. 44. példa:
Egy vállalatnál 9 egymást követő munkanapon az alábbiak szerint alakult a munkából kiesett órák száma: munkanap
kiesett óra
1. 2. 3. 4. 5. 6. 7. 8. 9.
120 110 100 90 110 70 60 80 70 77
Feladat: Egyenlítsük ki ezen idősor ingadozásait 3 tagú mozgó átlagok képzésével. Megoldás: munkanap 1.
kiesett óra 120
mozgó összeg -
mozgó átlag -
2.
110
330
110
3.
100
300
100
4.
90
300
100
5.
110
270
90
6.
70
240
80
7.
60
210
70
8.
80
210
70
9.
70
-
-
Az eredeti idősor helyenként erős ingadozásai ellenére (pl. 4., 5., 6. napon 90, 110, 70 óra) a mozgó átlagokra tekintve világosan kitűnik a kiesett órák csökkenő irányzata, alapvonala. Látható továbbá a kapott trendérték-sor rövidülése (két taggal rövidebb az eredeti idősornál). A trendérték-sor rövidülésének mértéke attól függ, hogy hány tagú mozgó átlagot számítottunk. Ha mozgó átlagunk k tagú, a rövidülés mértéke k-1. A mozgó átlag tagszámával kapcsolatos két lényeges megállapítást kell tegyünk: - nyilvánvaló, hogy a véletlen ingadozások hatásának kikapcsolása annál tökéletesebb, minél nagyobb tagszámú mozgó átlagokat számítunk, - szezonális ingadozás esetén az átlagok egy teljes idényciklust kell, hogy átfogjanak. 45. példa:
Növeljük mozgó átlagunk tagszámát és számítsunk előző példánk alapján 4 tagú mozgó átlagokat. Feladat: vizsgáljuk meg és értelmezzük a kapott eredményeket!
Megoldás: 78
munkanap
kiesett óra
1.
120
2.
110
3.
100
4.
90
5.
110
6.
70
7.
60
8.
80
9.
70
mozgó összeg
mozgó átlag
-
-
420
105,0
410
102,5
370
92,5
330
82,5
320
80,0
280
70,0
-
-
Az így kiszámított trendértékek két-két nap közé esnek, így értelmezésük nehéz. Hogyan segíthetünk a fenti problémán? A megoldás az ún. „középre igazítás”, azaz centrírozás, vagyis a kiszámított mozgó átlagokból újabb, kéttagú mozgó átlagok számítása. A centrírozás nem érdemi lépés, csak az adatok kezelését könnyíti meg. 2. Analitikus trend
Az analitikus trend gondolata abból a megfontolásból ered, hogy gyakran adódik olyan idősor, mely valamilyen matematikai függvénnyel leírható, kézenfekvő tehát, hogy éljünk is ezzel a lehetőséggel. Egyszerű esetben a trend lineáris. Ekkor a trendvonal egyenlete: y = a + bx, ahol
x jelöli az egyes időszakokat, Y a hozzátartozó (mért) adatokat, y a trendértékeket.
Ahhoz, hogy a trendet kifejező egyenest meghatározzuk, „a” és „b” értékeit kell megállapítanunk. A konstansok megállapítására a "legkisebb négyzetek" módszerét fogjuk használni. A trendet kifejező egyenes a következőképp szemléltethető. (Tekintsük a következő oldali ábránkat!)
79
Mért értékek (Y) illetve függőváltozó (y)
x x
x x x x y x xY idő
A trendnek - nyilvánvalóan - mindkét irányban azonos nagyságú területet kell „levágnia”, ami képlet formájában képlet formájában az alábbi módon szemléltethető: n
∑ ( y i − Yi ) = 0
kell legyen.
i =1
Az egyes különbségek előjele váltakozva pozitív, vagy negatív. Miután az előjel számunkra érdektelen, ezért „eltüntetjük” azokat a különbségek négyzetre emelésével, vagyis az ( y i − Yi ) 2 értékek összegét képezzük. Az az egyenes tekinthető trendvonalnak, amelyre nézve ezen négyzetösszeg, azaz a Σ ( y i − Yi ) 2 i
a legkisebb.
80
Mivel a fenti szumma értéke "a" és "b" értékétől függ, ezért felírható az alábbi függvény: f(a,b) = Σ ( y i − Yi ) 2 . i
Most helyettesítsük be az egyenes egyenletét a függőváltozó (y) helyére, s az "a" és "b" változókra nézve az alábbi függvényt kapjuk. f(a,b) = Σ (b·x i + a − Yi ) 2 i
Tudjuk, hogy ezen függvénynek ott van a maximuma, ahol az "a", illetve "b" szerinti parciális differenciálhányadosok értéke nulla. A differenciálhányadosokat azok zérus értékénél két egyenletnek tekintve az így kapott egyenletrendszert "a"-ra és "b"-re megoldjuk. A módszer további részletezésétől eltekintünk. Hangsúlyozzuk, hogy nemcsak lineáris, hanem például parabolikus, exponenciális, stb. trend is van. 46. példa:
Határozzuk meg a 45. feladat esetében az analitikus trendet! Megoldás: Első lépésként készítsük el az alábbi táblázatot: nap ( x i ) 1. 2. 3. 4. 5. 6. 7. 8. 9. ∑
kiesett óra (Yi ) 120 110 100 90 110 70 60 80 70 810
ti
t i2
Yi ⋅ t i
-4 -3 -2 -1 0 1 2 3 4
16 9 4 1 0 1 4 9 16 60
-480 -330 -200 -90 0 70 120 240 280 -390
A t i értékek meghatározása úgy történik, hogy - ha x i páratlan számú adatot tartalmaz, akkor a középső érték nulla, s ettől felfelé +1, +2, stb. lefelé -1, -2, stb. értéket adunk az aktuális időadatnak, míg - ha x i páros számú adatot tartalmaz, akkor a két középső érték -1 és +1, a szomszédos értékek pedig -3, -5 stb. illetve +3, +5 stb. lesznek.
81
Ezzel elérhető az, hogy Σ t i = 0 legyen, miáltal a trend egyenlet konstansai: a= b=
Σ Yi 810 = = 90 óra n 9 Σ Yi t i Σ
t i2
=
− 390 = − 6,5 óra/nap, 60
s így a trendvonal egyenlete y = 90 - 6,5· t , vagy y = 122,5 − 6,5·x Ezt felhasználva kiszámítható, hogy pl. a 11. napon mennyi lesz a várható időkiesés: y = 122,5 - 6,5 · 11 = 51 óra 2. Korrelációszámítás
A gazdasági élet egyes területeit, folyamatait általában két, vagy még több jelenség jellemzi, befolyásolja. E jelenségek kölcsönösen hatnak egymásra, hatásuk, kapcsolatuk vizsgálata a statisztika fontos feladata. Az egyes jelenségek kapcsolata lehet: - függvényszerű: az egyik ismérv változása a másik meghatározott változását hozza magával; - független: nincs az ismérvek között kimutatható kapcsolata; - sztochasztikus (v. valószínűség) kapcsolat: az egyik ismérv változása a másik bizonyos változását hozza.) A korrelációszámítás feladata a valószínűségi (v. sztochasztikus) kapcsolat szorosságának meghatározása. A korreláció szorosságát azért vizsgáljuk, hogy mielőtt további vizsgálódásokat végeznénk, meg tudjuk állapítani, hogy a kapcsolat jelentős-e, ugyanis laza kapcsolat vizsgálatának nem volna értelme. A korreláció szorosságának meghatározására az ún. előjel korrelációs együttható, valamint a lineáris korrelációs együttható meghatározásának módszerét ismerjük. Két ismérv sztochasztikus összefüggése a kapcsolat irányát illetően lehet pozitív vagy negatív, azaz az egyik ismérv alacsony értékei a másik ugyancsak alacsony értékeivel járnak együtt, illetve fordítva. 82
1. Előjel korrelációs együttható
Az előjel korrelációs együttható úgy határozható meg, hogy képezzük mindkét vizsgált ismérvérték sor számtani átlagát, majd - külön-külön - meghatározzuk az átlagtól való eltéréseket. Ezután megvizsgáljuk az együvé tartozó két eltérés előjelét: ha a korreláció szoros, úgy az eltérések többsége azonos előjelű - pozitív korreláció esetén -, vagy különböző előjelű - negatív korreláció esetén - lesz. Az előjelek egyezése (vagy különbözősége) jellemzi tehát a korreláció szorosságát. Ezen tulajdonságot felhasználva képezhető az előjel korrelációs együttható. c=
Képlete:
u-v u-v = , ahol: u+v n
u = előjel egyezések száma, v = előjel eltérések száma.
Ezen mutató maximális értéke „+1”, ha minden esetben előjel egyezés van, illetve „-1”, ha az előjelek minden esetben eltérnek. E két érték a pozitív, illetve a negatív előjel korreláció „ideális” esete. 47. példa:
Egy vállalat 6. szúrópróbaszerűen kiválasztott szerelő szakmunkásának munkában töltött ideje és átlagos havi keresete közötti összefüggést kívánjuk vizsgálni az alábbi adatok alapján: sorszám 1.
x y munkában töltött idő (év) havi átlagkereset (Ft/hó) 2 37.000
2.
3
37.000
3.
5
42.000
4.
7
42.000
5.
8
43.000
6.
11
45.000
Feladat: Határozzuk meg az előjel korrelációs együtthatót! Megoldás: Az első lépés a két számtani átlag kiszámítása: x=
2 + 3 + 5 + 7 + 8 + 11 36 = =6 6 6 83
év
y=
37.000 + 37.000 + 42.000 + 42.000 + 43.000 + 45.000 = 41.000,− Ft 6
Ezután következik mindkét ismérvérték sor átlagtól való eltérésének meghatározása. 1. 2. 3. 4. 5. 6.
dx (év) -4 -3 -1 +1 +2 +5
dy (Ft/hó) - 4000 (egyezés) - 4000 (egyezés) + 1000 (eltérés) + 1000 (egyezés) + 2000 (egyezés) + 4000 (egyezés)
Ezek után számítható a „C” mutató: C=
5 -1 4 = = 0,66 6 6
Tehát a közepesnél erősebb, pozitív korrelációval a kereset és a munkában el töltött idő között. 2. Lineáris korrelációs együttható
A „C” mutató hiányossága, hogy nem veszi figyelembe az eltérések nagyságát, számszerű értékét, holott ez nyilvánvalóan nem lehet közömbös számunkra. Ezen hiányosság úgy küszöbölhető ki, ha az eltérések szorzatát összegezzük; így előjelük helyes marad, emellett ez a számszerű érték az eltérések nagyságát is tükrözi. Ez a szám tehát a korreláció fontos mérőeszköze, képletben: ∑ dx·dy. Ezen szám önmagában nem alkalmas arra, hogy összehasonlíthatóan mérje a korreláció szorosságát, ugyanis a nagysága függ egyrészt attól, hogy hány adatot vizsgálunk, másrészt attól, hogy mekkora az egyes adatok nagyságrendje (pl. mértékegység megválasztásából adódóan). Ez a nehézség úgy hidalható át, hogy - osztunk „n”-nel (az adatok számából eredő nagyságrendi eltérés miatt) és - osztunk x és y értékek szórásával (a mértékegység választás és a változó nagyságrendek hatásának kiküszöbölése miatt). Ezek után a lineáris korrelációs együttható: r=
Σ dxdy n ⋅σ x ⋅σ y 84
A lineáris korrelációs együttható értéke +1 és - 1 közé eső szám lesz. 48. példa:
Számítsuk ki a 47. példa adatai alapján az „r” mutatót! sorszám
dx·dy
d2x
1.
+ 16.000
16
16.000.000
2.
+ 12.000
9
16.000.000
3.
- 1.000
1
1.000.000
4.
+ 1.000
1
1.000.000
5.
+ 4.000
4
4.000.000
6.
+ 20.000
25
16.000.000
Összesen:
52.000
56
54.000.000
d2y
Σ d2x 56 σx = = 9,33 = 3,055 év = n 6 Σ d2y 54.000.000 σy = = 9.000.000 = 3.000 Ft/hó = n 6 r=
52.000 52.000 = = 0,946 6·3,055·3000 54.490
Nagyon erős sztochasztikus kapcsolat - szoros korreláció - van a munkában töltött idő és a kereset között. Mivel magyarázható, hogy az „r” mutató értéke nagyobb a „C” mutatónál? Azzal, hogy a dx·dy szorzatösszeg képzésében az azonos előjelű adatok „súlya” sokkal nagyobb. A különbség tehát éppen a „C” mutató hiányosságának megszüntetéséből fakad. A korrelációszámítás segítségével tehát a sztochasztikus kapcsolatok szorosságát és irányát határoztuk meg. Lehetőség van azonban ezen kapcsolat törvényszerűségeinek feltárására is, ha a megfelelő trendvonal kereséséhez hasonló módon ún. regresszióvonalat állapítunk meg, melynek leírását az ún. regressziós függvény adja.
85
3. Regresszió számítás
A regressziós függvény használatának szemléltetésére a két változós lineáris regressziót fogjuk bemutatni. Válasszuk a 48. példát a szemléltetéshez! Ez esetben két változó között kapcsolatot az y=a+b·x regressziós egyenessel írjuk le, melynek konstansai: b=
Σ dx ⋅ dy 52.000 = = 928,6 Ft/év 56 Σ d2x
a = y − b ⋅ x ≅ 35.430 Ft A regressziós egyenes egyenlete tehát az alábbi lesz: y = 928,6·x + 35.430 Az egyenlet felhasználásával számítsuk ki, hogy mennyit keres egy dolgozó 4 év munkaviszony után! Megoldás: y = 928,6·4 + 35.430 = 38.750 Ft/hó.
86
Standardizált normális eloszlás eloszlásfüggvény értékei 1. táblázat A 0,0 0,1 0,2 0,3 0,4
0,00 0,0000 0,0396 0,0791 0,1180 0,1556
0,01 0,0039 0,0436 0,0831 0,1218 0,1593
0,02 0,0079 0,0475 0,0870 0,1256 0,1630
0,03 0,0110 0,0515 0,0909 0,1294 0,1666
0,04 0,0158 0,0555 0,0948 0,1332 0,1703
0,05 0,0198 0,0594 0,0987 0,1370 0,1739
0,06 0,0237 0,0634 0,1064 0,1407 0,1775
0,07 0,0277 0,0673 0,1064 0,1445 0,1811
0,08 0,0317 0,0713 0,1103 0,1482 0,1846
0,09 0,0356 0,0752 0,1141 0,1519 0,1882
0,5 0,6 0,7 0,8 0,9
0,1917 0,2259 0,2581 0,2881 0,3158
0,1952 0,2292 0,2643 0,2938 0,3210
0,1987 0,2325 0,2673 0,2966 0,3236
0,2022 0,2358 0,2673 0,2966 0,3236
0,2056 0,2391 0,2704 0,2994 0,3262
0,2091 0,2423 0,2734 0,3022 0,3287
0,2125 0,2455 0,2764 0,3050 0,3313
0,2159 0,2487 0,2793 0,3338
0,2192 0,2518 0,2823 0,3077 0,3362
0,2226 0,2550 0,2852 0,3131 0,3387
1,0 1,1 1,2 1,3 1,4
0,3411 0,3641 0,3847 0,4031 0,4192
0,3435 0,3663 0,3886 0,4065 0,4222
0,3459 0,3684 0,3886 0,4065 0,4222
0,3483 0,3705 0,3905 0,4082 0,4237
0,3506 0,3726 0,3923 0,4098 0,4251
0,3529 0,3747 0,3942 0,4114 0,4265
0,3552 0,3768 0,3960 0,4130 0,4279
0,3575 0,3788 0,3978 0,4146 0,4293
0,3597 0,3808 0,3996 0,4162 0,4306
0,3619 0,3828 0,4014 0,4177 0,4320
1,5 1,6 1,7 1,8 1,9
0,4333 0,4454 0,4556 0,4643 0,4715
0,4346 0,4465 0,4566 0,4651 0,4722
0,4358 0,4476 0,4575 0,4659 0,4728
0,4371 0,4486 0,4584 0,4666 0,4734
0,4383 0,4497 0,4593 0,4673 0,4740
0,4397 0,4507 0,4602 0,4881 0,4746
0,4407 0,4517 0,4610 0,4688 0,4752
0,4419 0,4527 0,4619 0,4605 0,4758
0,4431 0,4537 0,4627 0,4702 0,4763
0,4442 0,4547 0,4635 0,4708 0,4769
2,0 2,1 2,2 2,3 2,4
0,4774 0,4823 0,4862 0,4893 0,4917
0,4780 0,4827 0,4865 0,4895 0,4919
0,4785 0,4831 0,4868 0,4898 0,4922
0,4790 0,4835 0,4872 0,4901 0,4924
0,4795 0,4839 0,4875 0,4903 0,4926
0,4800 0,4843 0,4878 0,4906 0,4928
0,4805 0,4847 0,4881 0,4908 0,4929
0,4809 0,4851 0,4884 0,4911 0,4931
0,4814 0,4854 0,4487 0,4913 0,4933
0,4818 0,4858 0,4890 0,4915 0,4935
2,5 2,6 2,7 2,8 2,9
0,4937 0,4952 0,4963 0,4972 0,4979
0,4938 0,4953 0,4965 0,4974 0,4980
0,4940 0,4954 0,4965 0,4974 0,4980
0,4942 0,4955 0,4966 0,4974 0,4981
0,4943 0,4957 0,4967 0,4975 0,4981
0,4945 0,4958 0,4968 0,4976 0,4982
0,4946 0,4959 0,4969 0,4977 0,4982
0,4948 0,4960 0,4970 0,4977 0,4983
0,4949 0,4961 0,4971 0,4978 0,4983
0,4950 0,4962 0,4971 0,4978 0,4984
3,0 3,1 3,2 3,3 3,4 3,5
0,4984 0,4988 0,4991 0,4993 0,4995 0,4996
0,4985 0,4989 0,4992 0,4994 0,4495
0,4985 0,4989 0,4992 0,4994 0,4995
0,4986 0,4989 0,4992 0,4994 0,4995
0,4986 0,4989 0,4992 0,4994 0,4996
0,4986 0,4990 0,4992 0,4994 0,4996
0,4987 0,4990 0,4993 0,4994 0,4996
0,4987 0,4990 0,4993 0,4995 0,4996
0,4987 0,4991 0,4993 0,4995 0,4996
0,4988 0,4991 0,4993 0,4995 0,4996
87
A standardizált normális eloszlás görbe alatti területének értékei az 1. táblázatban találhatók. A táblázat megadja a standardizált normális eloszlás görbe alatti területét 0...........z tetszőleges - tegyük fel x - értékéig. A táblázat használatához x értéke az z =
x - x
σ
képlet alapján számítható. Ha z pozitív szám, akkor z vagy az ennél kisebb érték valószínűsége meghatározható, ha a táblázatból kikeresett értékhez 0,5000-t adunk. Ha z negatív szám, akkor z vagy az ennél kisebb értéknek a valószínűségét úgy kapjuk meg, hogy kikeressük a táblázatból a pozitív z-nek megfelelő értéket és kivonjuk 0,5000-ből. Ha z vagy ennél nagyobb érték valószínűségének meghatározása a feladat, akkor a számítás megegyezik z és ennél kisebb érték valószínűségének a meghatározásával, de az eredményt egyből ki kell vonni. 1. példa: Ha z = 1,645, a táblázat alapján a + 1,645-hez tartozó érték 0,4500. Így 1,645 vagy ennél kisebb érték valószínűsége 0,4500+0,500=0,9500. 2. példa: Ha z = - 1,96, a táblázat alapján a + 1,96-hoz tartozó érték 0,4752. Ennek megfelelően a z = -1,96 vagy ennél kisebb érték valószínűsége 0,5000-0,4752=0,0248.
88