1
´ AZ INFORMATIKABA ´ BEVEZETES II. ´ EPES ´ IT ´ OG ´ SZAM STATISZTIKA Csendes Tibor
[email protected]
• 1 kredit ´ el˝oad´as + 2 ora ´ gyakorlat (B´anhelyi Bal´azs) • heti 1 ora • Az el˝oad´ashoz 3 fokozatu´ min˝os´ıt´es tartozik (1, 3, 5). ´ as dolgozat lesz az el˝oad´as anyag´abol. ´ • A f´el´ev v´eg´en egy 1 or´ ´ itt, az • A dolgozat javasolt id˝opontja 2005. m´ajus 3., kedd 16-17 ora, el˝oad´as helysz´ın´en. • Ez alapj´an megaj´anlott jegy, amit lehet vizsg´aval jav´ıtani. ´ epes Statisztik´aba. • A jegyzet: Csendes Tibor: Bevezet´es a Sz´am´ıtog´ ¨ Kaphato´ a Vit´ez utcai jegyzetboltban, de van bel˝ole a konyvt´ arban is. El´erhet˝o m´eg a http://www.inf.u-szeged.hu/ ∼ csendes/stat.ps.gz
c´ımen (egy kivonat). ¨ ´ • Az el˝oad´asra j´arni nem kotelez˝ o, de katalogus alapj´an + pont j´ar annak, aki rendszeresen jelen van. ¨ ´ • Aki koveti az el˝oad´asokat, e´ s a feltett k´erd´esekre felelni tud, ujabb + pontokat kaphat. ´ • A t´argyhoz kapcsolodik a k´es˝obb hallgatott Statisztika t´argy. • A t´argy bevezet´est ad az SPSS nevu˝ statisztikai program haszn´a¨ eges alapvet˝o statisztikai fogalmakat lat´aba, e´ s az ehhez szuks´ ismerteti meg. • Felment´est az kaphat, aki az SPSS programot a leadott anyagnak megfelel˝o szinten ismeri. ´ ebb˝ol is meg lehet e´ lni... • Motiv´acio:
2
A STATISZTIKA
van hazugs´ag, nagy hazugs´ag e´ s statisztika” ” ´ statisztik´aval b´armit ki lehet mutatni” elegend˝o sz´amu´ adatbol ” csak abban a statisztik´aban hiszek, amit magam hamis´ıtottam” ” ¨ ulte¨ A statisztikai elj´ar´asok nem el´eg gondos, nem elegend˝oen kor ˝ o hib´as eredm´ekint˝o haszn´alata eset´en megk´erd˝ojelezhetetlennek tun˝ nyeket kaphatunk. A statisztikai programcsomagok ismertet´ese sor´an a leggyakoribb ¨ esukh ¨ oz ¨ szuks´ ¨ eges l´ep´ehibalehet˝os´egeket is megt´argyaljuk az elkerul´ sekkel. A statisztika szo´ jelent´esei: • Ez a neve a sz´elesen e´ rtelmezett diszciplin´anak, tudom´any´agnak, ¨ is van a´ ltal´anos statisztika, matematikai statisztika b´ar ezen belul stb.), • ´ıgy h´ıvj´ak a statisztikai elj´ar´asokat (... v´egrehajtani a statisztik´at...) ˝ est is e´ rtenek ez alatt (k´esz´ıtsen statisztik´at...). • adatgyujt´ ´ A mi szohaszn´ alatunkban a statisztika olyan elj´ar´asokkal foglalkozik, amelyek m´er´esi adatok, felm´er´esekre kapott v´alaszok vagy m´as ¨ o adatok jellemz˝oit vagy osszef ¨ ¨ esuk ¨ m´erv´eletlen esem´enyekt˝ol fugg˝ ugg´ t´ek´et e´ s jelleg´et hat´arozz´ak meg. Ide tartozik a kapott eredm´enyek olyan megjelen´ıt´ese is, amely az ¨ adatok e´ rtelmez´es´et megkonny´ ıti. http://www.inf.u-szeged.hu/∼csendes/statfolia.pdf
3
´ EPES ´ IT ´ OG ´ SZAM STATISZTIKA ´ epes jelz˝o arra utal, hogy kozvetlen ¨ ¨ A jegyzet c´ım´eben a sz´am´ıtog´ ul ¨ ¨ eseivel foglalkozunk, hanem nem a statisztika fogalmaival, osszef ugg´ ´ ak, mutatok ´ konkr´et adatokra valo´ meghat´astatisztikai elj´ar´asok, prob´ roz´as´aval. A statisztikai programcsomagok ismertet´ese sor´an a leggyakoribb ¨ esukh ¨ oz ¨ szuks´ ¨ eges l´ep´ehibalehet˝os´egeket is megt´argyaljuk az elkerul´ sekkel. N´eh´any statisztikai elj´ar´as m´as jellegu˝ programban is el´erhet˝o, ´ıgy p´eld´aul gyakran t´abl´azatkezel˝o programban, vagy a´ ltal´anos numerikus programcsomagokban is tal´alunk ilyeneket: Excel, StarOffice, As-Easy-As, Matlab, Maple, Mathematica, R stb. ˝ statisztikai programok, mint a SigmaStat is, csak egyAz egyszerubb ´ statisztik´akat k´epesek kisz´amolni, cser´eben viszont konnyen ¨ v´altozos ´ olcsobbak. ´ kezelhet˝ok e´ s kisebb kapacit´asu´ g´epen is futtathatok, ¨ ¨ et rendelkez´esre bocs´ato´ proA statisztikai elj´ar´asok kozel teljes kor´ ´ sok van, ezeket f˝oleg PC-n vagy munka´allofesszion´alis programokbol m´asokon haszn´alhatjuk. Ide tartozik a r´eszletesen t´argyalt SPSS mellett p´eld´aul a StatGraphics, a Statistica, a BMPD e´ s az SAS. ¨ nem nagyon t´er el, e´ s b´ar Ezen oszt´aly a´ ltal k´ın´alt algoritmusok kore ¨ onb ¨ oz˝ ¨ o lehet, a c´eljainkra elegend˝o ezek koz ¨ ul ¨ a haszn´alatuk nagyon kul egyet ismertetni. ´ rendszerhez is sz´amos programot lehet tal´alni. Egy Linux oper´acios b˝o lista van ezekr˝ol a http://chps06.ch.unito.it/linux/A/3 ¨ internetes c´ımen (tov´abbi linkekkel e´ s rovid ismertet´essel minden prog´ ramrol).
4
STATISZTIKAI ALAPFOGALMAK ¨ otti ¨ sz´am (0 ≤ p ≤ 1), amely azt jelA val´osz´ınus´ ˝ eg: egy 0 e´ s 1 koz ¨ lemzi, hogy egy esem´eny bekovetkezte milyen es´ellyel, gyakoris´aggal ´ v´arhato. ´ ınus´ ˝ eg csaknem biztos bekovetkez´ ¨ ´ ınus´ ˝ eg Az 1 valosz´ est, a nulla valosz´ ¨ csaknem lehetetlen el˝ofordul´ast jelent. (A koznyelvben itt haszn´alhatunk biztos, illetve lehetetlen el˝ofordul´ast is, a csaknem” a matematikai pon” toss´ag kedv´ee´ rt a´ ll itt.) ¨ ıtik az A k´ıs´erletez´es sor´an tapasztalt relat´ıv gyakoris´agok megkozel´ ´ ınus´ ˝ eget. elm´eleti valosz´ Az adatokat a´ ltal´aban egy t´abl´azatban c´elszeru˝ elrendezni. ¨ Az eset az osszetartoz o´ statisztikai adatok olyan egys´ege, amelyek amiatt k´epeznek egys´eget, mert egy egyedre, vagy m´er´esi k´ıs´erletre ¨ vonatkoznak (pl. a k´ıs´erletben r´esztvev˝o szem´ely, a´ llat, vegyulet stb.). ´ epes rekordban, rendszerint a Az eseteket a´ ltal´aban egy-egy sz´am´ıtog´ t´abl´azat soraiban adjuk meg. ´ A tulajdons´agokat, jellemz˝oket az egyes egyedekre vonatkozoan a ¨ ´ tartalmazz´ak. val´osz´ınus´ ˝ egi v´altoz´ok (roviden v´altozok) ´ ert´ekek alkotj´ak a statisztikai mint´at, Az esetekre vonatkozo´ v´altozo´ ¨ ´ vagy roviden mint´at. Sok esetben jellemz˝o az, hogy a teljes sokas´agbol csak kev´es egyedre vonatkozo´ adat a´ ll rendelkez´esre. ¨ a szavaz´asi hajlandos´ ´ agot, P E´ LDA : statisztikai mint´anak tekinthetjuk ¨ elem´enykutat´as alapailletve a v´alaszt´asi preferenci´akat vizsg´alo´ kozv´ dat´at. Az eseteknek ekkor egy-egy megk´erdezettre vonatkozo´ adathal´ e´ rt´ekeit maz felel meg, m´ıg a feltett k´erd´esekre kapott v´alaszok v´altozok ´ a´ tlag´eletkora p´eld´aul egy olyan statisztikai muadj´ak. A v´alaszadok ´ amit a fenti e´ rtelemben statisztik´anak is szoktak roviden ¨ tato, nevezni.
5
STATISZTIKAI ALAPFOGALMAK 2. ´ gyogyszer ´ ˝ ott ¨ adatP E´ LDA : egy uj hat´asoss´ag´anak vizsg´alat´ara gyujt sor feldolgoz´asa. Ilyenkor k´et csoportra szok´as osztani a p´acienseket, ´ kontroll az egyik csoport kapja a vizsg´alando´ kezel´est, a m´asik (az un. ´ ´ csoport) hat´astalan gyogyszert kap — hogy valoban csak a szer hat´as´at ¨ ne az egy´eb, pl. pszich´es kovetkezm´ ¨ m´erjuk, enyeket. ˝ ott ¨ adatok tartoznak egy esethez, a m´ert e´ rt´ekek A betegenk´ent gyujt ´ pedig egy-egy v´altozohoz. Olyan statisztik´at szok´as vizsg´alni, mint a megc´elzott m´erhet˝o e´ rt´ekek a´ tlagos elt´er´ese a csoportok a´ ltal reprezen¨ ott. ¨ t´alt sokas´agok koz ´ A t´abl´azatkezel˝o programok az eseteket sorokban, a v´altozokat oszlo¨ pokban t´arolj´ak. Ezt kovetik a statisztikai programok is. M´asr´eszt ¨ ´ az esetek e´ s a v´altozok ´ szerepe tobb statisztikai elj´ar´as szempontj´abol ¨ felcser´elhet˝o (mint pl. a klaszterez´es eset´en). A legtobb statisztikai ´ a teszi, hogy mik lesznek az esetek e´ s mik a feldolgoz´as nyilv´anvalov´ ´ v´altozok.
6
´ IN ´ TIPUSAI ´ US ˝ EGI ´ VALTOZ ´ ´ A VALOSZ OK ´ ınus´ ˝ egi v´altozok ´ t´ıpusa fontos a v´egrehajtando´ elj´ar´as szemA valosz´ ´ e´ s az el˝ozetes adatkezel´est is befoly´asolja. Alapvet˝oen k´et pontj´abol, ¨ onb ¨ oztet ¨ ¨ t´ıpust kul unk meg: 1. diszkr´et val´osz´ınus´ ˝ egi v´altoz´o a´ ltal felvehet˝o e´ rt´ekek sz´ama v´eges ´ (vagy megsz´aml´alhatoan v´egtelen, mint pl. az eg´esz sz´amok halmaza), vagy ´ sz´amok halmaz´anak 2. folytonos val´osz´ınus´ ˝ egi v´altoz´o: amely a valos ¨ intervallum´an b´armely e´ rt´eket felvehet. M´as szoval ´ egy vagy tobb ¨ ott ¨ b´armely valos ´ e´ rt´eket felvehet (ilyen p´eld´aul adott hat´arok koz ´ sz´amok halmaza 0 e´ s 1 koz ¨ ott). ¨ a valos ´ megfelelt P E´ LDA : Az el˝obbire a megfelelt – nem felelt meg – kiv´aloan ¨ – piros sz´ınh´armas. Az utobbi ´ min˝os´ıt´es, illetve a k´ek – zold csoportba ´ fogyaszt´asa. tartozik a testmagass´ag, a term´es´atlag, vagy az autok ´ ¨ van a bin´aris vagy dichotom v´altoz´ok (alA diszkr´et v´altozokon belul ternat´ıv ism´ervek) csoportja: ezek csak k´et e´ rt´eket vehetnek fel (pl. igen – nem, vagy f´erfi – n˝o).
7
´ ADATTIPUSOK ¨ is a jelent´esuk ¨ jellege alapj´an lehet oszt´alyozni: Az adatokat el˝oszor eszerint az adat kvalitat´ıv vagy kvantitat´ıv lehet. A kvalitat´ıv (vagy min˝os´egi) adatt´ıpus az objektumok fajt´ait adja meg (pl. neme: f´erfi – n˝o). A kvantitat´ıv (vagy mennyis´egi) adatt´ıpus a sz´ammal kifejezhet˝o jel¨ lemz˝oket mutatja (pl. e´ letkor, jovedelem). ¨ Az adatok ilyen oszt´alyoz´asa a´ ltal´aban term´eszetes, konnyen meg´ m´egis, ha az adatokat sz´amokkal kodoljuk, ´ adhato, akkor ezek a t´ıpusok ´ egy ´ meg. Igy csak a jellemz˝ok eredeti jelent´ese alapj´an hat´arozhatok ´ de 100-as adat´ert´ek lehet m´er´esi eredm´eny (teh´at kvantitat´ıv t´ıpusu), ´ is, ami pedig kvalitat´ıv adatt´ıpusnak felel meg. p´eld´aul sz´ınkod A m´er´esi sk´al´ak (vagy m´er´esi szintek) r´eszletesebb oszt´alyoz´ast adnak az adatokra. Ezek mondj´ak meg, hogy az adatainkat pontosan ¨ ¨ eseket haszn´alhatnak a hogyan szabad e´ rtelmezni, milyen osszef ugg´ ¨ oen befoly´asolhatja az statisztikai elj´ar´asok. Ennek megad´asa dont˝ ¨ eredm´enyunket, e´ s emiatt ez komoly hibalehet˝os´eget is jelent.
8
´ ESI ´ SKAL ´ AK ´ MER Az alkalmazando´ m´er´esi sk´al´at a statisztikai program nem tudja ma´ illetve a program kezel˝oje ga kiv´alasztani, mindenk´eppen a felhaszn´alo, ¨ eg. seg´ıts´eg´ere lesz szuks´ Ez´ert ennek az oszt´alyoz´asnak a megfelel˝o ismerete elengedhetetlen a statisztikai programok megb´ızhato´ haszn´alat´ahoz. ¨ a v´egs˝o felhaszn´alot, ´ vagy kider´ıthetjuk ¨ a B´ar err˝ol megk´erdezhetjuk ˝ szukebb szakm´aban szok´asos, elfogadott oszt´alyoz´ast, de ezt magunk is tiszt´azhatjuk. M´asr´eszt sz´amos k´es˝obb ismertetend˝o r´eszletk´erd´esben mindenk´epp ¨ elfogadott modszertan´ ´ a szakterulet ara kell t´amaszkodnunk, ´ıgy ebben ¨ ¨ allo´ dont´ ¨ esre. az esetben torekedni kell az on´ ´ xA e´ s xB pedig az x Legyen A e´ s B k´et objektum, x egy v´altozo, ¨ v´altozo´ e´ rt´ekei A e´ s B eset´en. A kovetkez˝ o sk´alat´ıpusokat t´argyaljuk (amelyek ebben a sorrendben tartalmazz´ak egym´ast): ¨ allo´ kategori´ ´ at 1. A n´evleges (vagy nomin´alis) sk´ala minden e´ rt´eke egy on´ ¨ az objektumok koz ¨ ott ¨ csak az azonoss´ag vagy kul ¨ onb ¨ oz˝ ¨ os´eg jelol, ¨ esi hely). A-rol ´ e´ s B -r˝ol viszony´at t´etelezi fel (pl. a nem, sz´ın, szulet´ csak annyit tudunk, hogy xA = xB vagy xA 6= xB . Ez a legkev´esb´e informat´ıv m´er´esi sk´ala. ´ Ennek eset´eben teh´at hi´aba kodoltuk az adatokat sz´amokkal, azok˝ kal a szok´asos muveleteket nincs e´ rtelme elv´egezni, hiszen az ´ eredeti inform´acio-tartalom azt nem engedi meg (k´et sz´ınnek nincs ´ pl. sorrendje). Ennek megfelel˝oen az adatunkra vonatkozoan ¨ ´ nyujt ´ o´ e´ rv´enyes m´er´esi sk´al´at kell mindig a legtobb inform´aciot megadni.
9
´ ESI ´ SKAL ´ AK ´ 2. MER ¨ 2. A sorrendi (vagy ordin´alis, ill. rang-) sk´ala eset´en az objektumok ko¨ az azonoss´agon k´ıvul ¨ nagys´agrendi, illetve sorrendi kul ¨ onbs´ ¨ zott e¨ get is meg´allap´ıthatunk (p´eld´aul jo´ – kozepes – rossz, magas – ´ e´ s B -r˝ol mondhatjuk, hogy xA < xB vagy xA = alacsony). A-rol xB vagy xA > xB . A statisztikai programok gyakran t´amogatj´ak ezt a m´er´esi sk´al´at, ¨ e´ s a r´a vonatkozo´ elj´ar´asok term´eszetesen elt´ernek a tobbi m´er´esi ´ ´ırtaktol. ´ sk´al´an m´ert v´altozokra ¨ ak3. Ha az adatainkat intervallum (vagy kul¨ ¨ onbs´egi) sk´al´an m´erhetjuk, ¨ onbs´ ¨ ¨ (p´eld´aul a h˝om´ers´ekkor a kul egek m´ert´ek´et is e´ rtelmezhetjuk ´ xA − xB egys´eggel let, a d´atum). Ha xA > xB , akkor B az A-tol ¨ onb ¨ ozik. ¨ kul ¨ Ez a sk´alat´ıpus m´ar a legtobb magasszintu˝ statisztikai elj´ar´ast megengedi, ebben az e´ rtelemben ennek megl´ete m´ar nem nagyon ¨ et. korl´atozza a v´egrehajthato´ algoritmusok kor´ ´ m´eg e´ rtelmezhet˝o kezd˝opont is 4. Az ar´anysk´al´an az el˝obbieken tul ¨ ott ¨ nemcsak a kul ¨ onbs´ ¨ van, teh´at k´et objektum koz eget, hanem az ar´anyt is meg´allap´ıthatjuk (pl. a sorsz´amok, a fizet´es, az e´ letkor). Ha xA > xB , akkor az A objektum xA /xB -szer nagyobb, mint B . ¨ a legmagasabb m´er´esi szintnek. Az ar´anysk´al´at nevezhetjuk ´ Ism´et meg kell jegyezni, hogy a sz´ammal valo´ kodol´ as miatt term´e´ szetesen minden esetben van ugyan kezd˝opont (hiszen kodol´ asra ´ sz´amok ar´anysk´al´anak felelnek meg), de a l´enyeges haszn´alt valos k´erd´es, hogy a m´ert mennyis´egre e´ rtelmezhet˝o-e ez, illetve hogy ¨ ´ annak kituntetett szerepe van-e a feldolgoz´as szempontj´abol. ´ ¨ Az utobbi k´et m´er´esi sk´al´at egyuttesen metrikus sk´al´anak szok´as ¨ nevezni. A min˝os´egi ism´ervek tobbnyire n´evleges sk´al´an m´ertek (de nem mindig), a mennyis´egi ism´ervek pedig a´ ltal´aban enn´el er˝osebb m´er´esi sk´al´ahoz tartoznak. A statisztikai programok nem minden m´er´esi sk´ala megad´as´at teszik lehet˝ov´e, p´eld´aul az SPSS a scale, ordinal e´ s nominal lehet˝os´egeket adja meg (az els˝o az ar´any- e´ s intervallum sk´al´at is fedi).
10
˝ A MINTA JELLEMZOI ´ is lehet jellemezni. A statisztikai feldolgoz´as adatait m´as szempontbol ¨ A sokas´ag vagy popul´aci´o a statisztikai vizsg´alat egyedeinek osszess´ ege ¨ u˝ vizsg´alat´at nem (halmaza). Ennek minden elemre kiterjed˝o teljeskor mindig lehet, vagy nem gazdas´agos elv´egezni. Ilyen statisztikai soka¨ vagy egy m´as feldolgos´ag p´eld´aul a szavazati joggal rendelkez˝ok kore, ´ z´asban egy gyogyszerk´ ıs´erletben r´esztvev˝o szem´elyek csoportja. ´ kiv´alasztott A statisztikai minta ezzel szemben a vizsg´alt sokas´agbol egyedekhez tartozo´ megfigyel´esi adatok halmaza, r´eszsokas´aga. Mintav´eteln´el fontos szempont a reprezentativit´as (azaz a kiv´alasztott mint´anak ´ kell reprezent´alnia a vizsg´alni k´ıv´ant sokas´agot az adott vizsg´alatok jol ´ ¨ ¨ m´er´ese szempontj´abol), e´ s a fuggetlens´ ¨ eg (ugyanazon egyed tobbsz ori ¨ nem fuggetlen adatokat eredm´enyez — a minta elemsz´am´at ´ıgy nem ¨ szabad novelni). Cenzor´alt minta az, amikor az eredeti minta elemeinek ¨ csak egy r´esz´et haszn´aljuk fel a kovetkeztet´ esek levon´as´ahoz. ¨ ¨ a minta legfontosabb jellemz˝oit, egyAz al´abbiakban roviden a´ ttekintjuk ´ ¨ szeru˝ defin´ıciokkal, illetve ahol kell, rovid magyar´azattal. A minta egyszeru˝ jellemz˝oi els˝osorban a statisztikai feldolgoz´as els˝o f´azis´aban hasznosak, amikor a feldolgozando´ adatok helyess´eg´et kell meg´allap´ıtani. ´ e´ s a Ehhez nagy seg´ıts´eget adnak a m´ert mennyis´egek v´art mutatoi ´ o´ mutatok ´ esetleges elt´er´esei. t´enylegesen feldolgozott sz´amokra adod Ez persze ink´abb nagyobb adatmennyis´eg eset´en jelent˝os, kev´es adatot ¨ ¨ konnyen ossze lehet vetni ak´ar teljes eg´esz´eben is. Erre nagy adathalmaz eset´en nincs re´alis lehet˝os´eg. A minta eloszl´as´anak (a folytonos v´altozo´ e´ rt´ekei elhelyezked´es´e´ nek) megjelen´ıt´es´ere a´ ltal´aban hisztogramot haszn´alunk. Utobbi el˝o¨ ¨ onbs´ ¨ a´ ll´ıt´as´ahoz a legkisebb e´ s a legnagyobb mintaelem kozti kul eget ¨ ¨ valah´any (´altal´aban 5-n´el tobb) intervallumra osztjuk. Ezut´an k´esz´ıtunk egy a´ br´at, amelyben az intervallumokra olyan magas t´eglalapokat raj¨ zolunk, mint ah´any megfigyel´es abba az intervallumba esik. Min´el tobb ¨ az intervallumok sz´ama, a hisztogram ann´al a mintaelem, e´ s min´el tobb ¨ ıti az elm´eleti eloszl´ast. Ha ez az elm´eleti eloszl´as a jobban megkozel´ ¨ ¨ harang-gorbe (Gauss-gorbe), akkor azt mondjuk, hogy a minta norm´alis ´ ol ´ sz´armazik. eloszl´asu´ popul´aciob
11
˝ II. A MINTA JELLEMZOI Az elemsz´am a statisztikai m´er´esek sz´ama (az esetek sz´ama). A hi´anyz´oadat k´odok (missing values) olyan e´ rt´ekek, amik az illet˝o v´altozo´ le¨ ott ¨ nem fordulnak el˝o, de annak legszuk˝ hets´eges, e´ rtelmes e´ rt´ekei koz ´ ´ ebb a´ br´azol´as´aba belef´ernek. P´eld´aul a cip˝om´eretek hi´anyzoadat kodja ´ ´ figyelembev´etel´evel szok´as kul ¨ on ¨ melehet a 99. A hi´anyzoadat kod gadni az e´rv´enyes esetek sz´am´at is (number of valid cases). ˝ es sor´an nyilv´an uresen ¨ Az adatgyujt´ maradhat a hi´anyzo´ adatok he´ epes bevitel, t´arol´as sor´an nem helyes, ha a v´eletlenre lye, de a sz´am´ıtog´ ´ oz( ¨ ok)h ¨ ¨ Ha a hi´anyzo´ b´ızzuk, hogy milyen sz´am rendel˝odik a szok oz. ´ ¨ on´ ¨ ıtett kezel´es´et nem oldjuk meg, akkor olyan hib´ak adat kodok elkul ´ ´ adodhatnak, hogy p´eld´aul egy a´ tlagba mondjuk 0 e´ rt´ekkel belesz´am´ıto´ helyzetet nem tukr ¨ oz˝ ¨ o dik a hi´anyzo´ e´ rt´ek is, e´ s ´ıgy irre´alis, a valos eredm´enyt kapunk. A hi´anyzo´ adatok helyes kezel´ese a statisztikai feldolgoz´as egyik kri´ tikus eleme, ami a l´atszolagos l´enyegtelens´eg e´ s egyszeru˝ e´ rthet˝os´eg ´ ´ miatt is komoly csapd´at jelent. M´asr´eszt a korrekt hi´anyzoadat kod haszn´alata sz´amos statisztikai elj´ar´as eredm´enyess´eg´et, le´ıro´ erej´et tudja l´enyegesen jav´ıtani. ´ ´ mert a P´eld´ankban a tanulm´anyi a´ tlagra a 9.9 jo´ hi´anyzoadat kod, szok´asos e´ rt´ekek hossz´aba belef´er, e´ s m´egsem e´ rtelmes adat, ilyen e´ rt´ek ˝ es sor´an nem adodhat. ´ az adatgyujt´ ´ ´ anak pl. Rossz lenne viszont a tanulm´anyi a´ tlag hi´anyzoadat kodj´ 3.3, hiszen ez el˝ofordulhat e´ rtelmes adatk´ent, e´ s 999.9 is, mert ez ´ hosszu, ´ egyes megjelen´ıt´esek, feldolgoz´asok sor´an gondot pedig tul ´ ´ okozhat. Hasonloan helytelen lenne a tanulm´anyi a´ tlag hi´anyzoadat ´ ¨ kodja sz´am´ara a ”hi´any” szoveg bevitele, mert ennek t´ıpusa nem ´ eval. egyezik meg az eredeti v´altozo´
12
¨ EP ´ ERT ´ EKEK ´ KOZ ¨ oren, ¨ Egy v´altozo´ k¨oz´ep´ert´eke a gyakoris´agi eloszl´as helyzet´et tom egy sz´ammal kifejez˝o e´ rt´ek, azonos m´ert´ekegys´egu˝ adatok olyan jellemz˝oje, ¨ ˝ konnyen ¨ amelyt˝ol azt v´arjuk, hogy kozepes helyzetu, meghat´arozhato´ ¨ ep´ert´ek m´ert´ekegys´ege megegyezik a jele´ s e´ rtelmezhet˝o legyen. A koz´ ´ eval. Ide tartoznak a helyzeti koz´ ¨ ep´ert´ekek: a modusz ´ lemzett v´altozo´ ¨ ep´ert´ekek vagy a´ tlagok, mint pl. e´ s a medi´an, valamint a sz´am´ıtott koz´ a sz´amtani a´ tlag. Az a´ tlag, vagy sz´amtani a´ tlag egy adott mennyis´egi, metrikus v´altozo´ ¨ e´ rt´ekei osszege osztva az elemsz´ammal (angolul mean). ¨ eps˝o elem (p´aratlan A mintaelemeket nagys´ag szerint rendezve a koz´ ¨ eps˝o elem a´ tlaga (p´aros sz´amu´ elem sz´amu´ elem eset´en), vagy a k´et koz´ ¨ ¨ eset´en) a medi´an (rovid´ ıt´ese M e). Ebben az e´ rtelemben ez a minta kozepe. ´ M´as szoval az a sz´am, amin´el a mintaelemek 50%-a kisebb vagy egyenl˝o. ˝ median. Angolul egyszeruen A m´odusz a leggyakrabban el˝ofordulo´ e´ rt´ek(ek). A k´es˝obb ismerte´ tend˝o norm´alis eloszl´as eset´en az a´ tlag, a modusz e´ s a medi´an egybeesik. Az angol neve mode. P E´ LDA . Ha egy y v´altozo´ e´ rt´ekei 5, 2, 3, 4, 4 e´ s 1, akkor az ezekre vo´ natkozo´ a´ tlag 3, 16˙ a modusz 4, a medi´an pedig 3,5. F ELADAT. ¨ ´ Mutassunk olyan rovid adatsort, amelynek a´ tlaga 2, modusza 3, medi´anja pedig 4! ¨ ´ Mutassunk olyan rovid adatsort, amelynek a´ tlaga, modusza e´ s media´ nja megegyezik!
13
˝ ´ JELLEMZOI AZ ELOSZLAS ´ vagy m´as szoval ´ Itt a statisztikai v´altozok, ism´ervek tov´abbi jellemz˝oit ¨ roviden. ¨ ¨ ismertetjuk A sz´or´as (angol rovid´ ıt´ese SD a standard deviation´ asa, azaz a minta elemeinek az a´ tlagtol ´ valo´ elt´er´es´enek b˝ol) a minta szor´ n´egyzetes a´ tlaga. Norm´alis eloszl´as eset´en az a´ tlag ± 2 ∗ SD intervallumban tal´alhato´ ´ as (elm´eleti) e´ s a korrig´alt tapasztalati a mintaelemek 95,45%-a. A szor´ ´ as: szor´ sP r Pn n ¯)2 ¯)2 i=1 (xi − x i=1 (xi − x , s= σ= n n−1
´ ınus´ ˝ egi v´altozonak, ´ ahol xi az i-edik e´ rt´eke az x valosz´ e´ s x¯ a mintaele´ ep n´elkul ¨ kellene mek a´ tlaga — ink´abb csak arra az esetre, ha sz´am´ıtog´ meghat´arozni. ´ ast a legtobb ¨ kalkul´ator kozvetlen ¨ ¨ is meg tudja adni. TeB´ar a szor´ ul ¨ az y v´altozot, ´ amelynek e´ rt´ekei 5, 2, 3, 4, 4 e´ s 1. Ennek szor´ ´ asa kintsuk ´ as n´egyzete, a sz´or´asn´egyzet is σ = 1, 3437, illetve s = 1, 4720. A szor´ ´ gyakran haszn´alt mutato. ¨ ´ as´at az illet˝o becsl´es standard hib´aj´aBecsl´eskor a becsl˝ofuggv´ eny szor´ ´ ¨ ´ asa. Ez nak (SE vagy SEM) nevezzuk. Atlag eset´en ez az a´ tlag szor´ ´ azt fejezi ki, hogy az adott r´eszminta alapj´an kapott a´ tlag mennyire jol ¨ ıti a valodi ´ popul´acio´ a´ tlagot. Az a´ tlag ± 2 ∗ SE jelenti azt az interkozel´ ´ ınus´ ˝ eggel benne vallumot, amelyben a popul´acio´ a´ tlaga kb. 95% valosz´ van. A relat´ıv sz´or´as = (SD/´atlag)∗100. Megadja sz´azal´ekos e´ rtelemben ¨ hogy a szor´ ´ as h´anyszorosa az a´ tlagnak. Relat´ıv (m´ert´ekegys´eg n´elkul), ¨ onb ¨ oz˝ ¨ o nagys´agrendu˝ v´altozok ´ szor´ ´ as´anak jellege miatt alkalmas a kul ¨ osszehasonl´ ıt´as´ara.
14
˝ II. ´ JELLEMZOI AZ ELOSZLAS A percentil vagy percentilis a medi´anhoz hasonlo´ mutato´ a minta jellemz´es´ere. A P25 25%-os percentil pl. az a sz´am, amin´el a mintaelemek 25%-a kisebb (vagy egyenl˝o). Az 5, 2, 0, 3, 1, 4, 6, 8, sz´amokra P75 e´ rt´eke ´ pont 6 van (8 × 0, 75). 5, mert enn´el nem nagyobb sz´ambol Ha az e´ rt´ekk´eszletet nem sz´az, hanem 4 r´eszre osztjuk, akkor kvar¨ ´ tilisr˝ol (Qi ), ha t´ızre, akkor decilisr˝ol (Di ) besz´elunk. Az ilyen mutatok ¨ osszefoglal o´ neve a kvantilis. A mennyis´egi jellegu˝ minta terjedelme a legnagyobb e´ s a legkisebb ¨ otti ¨ kul ¨ onbs´ ¨ mintaelem koz eg. Hasznos lehet a hib´asan bevitt adatok kider´ıt´es´ehez. Az el˝oz˝o bekezd´esben eml´ıtett minta terjedelme 8 - 0 = 8. A ferdes´eg, vagy ferdes´egi egyutthat´ ¨ o, aszimmetria egy m´er˝osz´am arra, ¨ hogy az eloszl´as szimmetrikus-e vagy ferde. Negat´ıv ferdes´egi egyutt´ ekkor az a´ tlagn´al hato´ eset´en baloldali (negat´ıv) ferdes´egr˝ol van szo, nagyobb e´ rt´ekek a gyakoribbak. ´ as) is az eloszl´as egy alaki tulajdons´ag´at fejezi A lapults´ag (kurtozit´ ki: ha ez a mutato´ pozit´ıv, az azt jelenti, hogy az eloszl´as a norm´alis ´ eloszl´ashoz k´epest csucsosabb, negat´ıv esetben pedig lapultabb. Ennek megfelel˝oen szok´asos a csucsoss´ ´ ag n´ev is.
15
´ ELOSZLASOK ´ ınus´ ˝ egi v´altozok ´ eloszl´asfuggv´ A valosz´ ¨ enye azt mutatja meg, hogy ezek ´ milyen valosz´ ´ ınus´ ˝ eggel vesznek fel egy adott sz´amn´al kisebb a v´altozok ´ ınus´ ˝ ege. e´ rt´eket: F (x) = P (ξ < x), ahol P a ξ < x esem´eny valosz´ ¨ ´ Az F (x) abszolut folytonos eloszl´asfuggv´ eny deriv´altja f (x), az un. sur ˝ us´ ˝ egfuggv´ ¨ eny. ˝ us´ ˝ egfuggv´ ¨ ´ v´arhat´o e´rt´ek´et az A sur ennyel adott v´altozok Z ∞ E(x) = xf (x)dx −∞
˝ us´ ˝ ¨ ´ k´eplettel (ahol f (x) a megfelel˝o sur Pn egfuggv´eny), a diszkr´et v´altozok´et ´ ¨ eppel defini´aljuk: i=1 xi P (ξ = xi ). Az E betu˝ az angol a sulyozott koz´ ´ utal. A kovetkez˝ ¨ ´ expectation szora oben a leggyakrabban el˝ofordulo, illetve a statisztikai feldolgoz´ashoz legink´abb haszn´alatos eloszl´asokat ¨ mutatjuk be roviden. Binomi´alis eloszl´as ¨ Tekintsunk egy olyan k´ıs´erletet, amelynek k´et kimenetele van, A e´ s ´ ınus´ ˝ egei p e´ s q = 1−p. Ekkor annak a valosz´ ´ ınus´ ˝ ege, B , e´ s amelyek valosz´ ¨ hogy n sz´amu´ fuggetlen k´ıs´erletb˝ol az A lehet˝os´eg pontosan k -szor n ¨ ´ ınus´ ˝ egek n-edrendu˝ p kovetkezik be, Pk = (k ) pk q n−k . A Pk valosz´ param´eteru˝ binomi´alis eloszl´ast hat´aroznak meg. A binomi´alis v´altozo´ ´ asn´egyzete npq . v´arhato´ e´ rt´eke np, szor´
16
´ ELOSZLASOK 2. Poisson-eloszl´as ´ ınus´ ˝ egi v´altozot ´ λ (0 < λ < ∞) param´eteru˝ A ξ diszkr´et valosz´ ´ ¨ ha lehets´eges e´ rt´ekei a nemnegat´ıv eg´esz Poisson-eloszl´asunak nevezzuk, sz´amok, e´ s λk −k P (ξ = k) = e k! ¨ (k = 0, 1, 2, . . .). V´arhato´ e´ rt´eke e´ s szor´ ´ asn´egyzete is λ. teljesul A binomi´alis eloszl´as hat´aresetek´ent lehet megkapni a k´ıs´erletek sz´a¨ es´evel e´ s a p csokkent´ ¨ ´ m´anak (n) novel´ es´evel ugy, hogy az np = λ szorzat a´ llando´ maradjon. Pontok t´erbeli vagy id˝obeli v´eletlen elhelyez¨ ´ fuggetlen ¨ ¨ ked´ese akkor kovet Poisson-eloszl´ast, ha azok egym´astol ul ´ ınus´ ˝ eggel oszminden t´err´eszben vagy id˝oszakaszban egyforma valosz´ ´ l´atomezej´ ´ lanak meg (pl. a v´ersejtek sz´ama a mikroszkop eben, radioakt´ıv anyag adott id˝o alatt elbomlott atomjainak a sz´ama). Egyenletes eloszl´as Az egyik leggyakrabban haszn´alt eloszl´as: l´enyeg´eben azt fejezi ki, ´ johet˝ ¨ o alternat´ıv´ak egyforma valosz´ ´ ınus´ ˝ eguek. ˝ hogy a szoba Diszkr´et esetben, amikor a v´altozo´ csak v´eges sz´amu´ e´ rt´eket vehet fel, ezek min´ ınus´ ˝ egu˝ (mint p´eld´aul a kockadob´as). degyike egyenl˝o valosz´ ¨ egyenletes eloszl´asr´ol, ha a v´altozo´ Folytonos esetben akkor besz´elunk ´ ınus´ ˝ ege ar´anyos nak egy adott szakaszra, tartom´anyra es´es´enek a valosz´ a szakasz hossz´aval, illetve a tartom´any m´ ert´ek´evel. Az egyenletes P 1 ´ asn´egyzete eloszl´asu´ ξ diszkr´et v´altozo´ v´arhato´ e´ rt´eke n ni=1 xi , e´ s szor´ P P 2 n n 1 1 2 o e´ rt´ekei x1 , x2 , . . . , xn . i=1 xi − n i=1 xi , amennyiben a felvehet˝ n
17
´ ELOSZLASOK 3. Norm´alis eloszl´as ´ ınus´ ˝ egi v´altozo´ norm´alis eloszl´asu´ (jelol´ ¨ ese N (µ, σ)), ha az Egy valosz´ ¨ eloszl´asfuggv´ enye Z x −(t−µ)2 1 F (x) = √ e 2σ2 dt. σ 2π −∞ A binomi´alis eloszl´as hat´aresetek´ent is el˝oa´ ll a norm´alis eloszl´as, ha ¨ ¨ n noveked´ ese kozben p a´ llando´ marad. A k´eplet´eben szerepl˝o k´et pa´ as (σ ). A µ az eloszl´as v´arhato´ ram´eter a v´arhato´ e´ rt´ek (µ) e´ s a szor´ ´ e´ rt´eke, medi´anja e´ s modusza is egyben. ¨ ´ ınus´ ˝ egi v´altozok ´ osszeg´ ¨ ¨ ıt˝oen Fuggetlen valosz´ enek az eloszl´asa kozel´ ´ ez biztos´ıtja gyakori el˝ofordul´as´at. Hasonlo´ okbol, ´ norm´alis eloszl´asu, ha csak egyenletes eloszl´asu´ pszeudov´eletlen-sz´am gener´ator a´ ll rendel¨ ¨ ıt˝okez´esre, akkor pl. n darab (n > 10) ilyen v´eletlen sz´am osszege kozel´ leg norm´alis eloszl´asu´ v´eletlen sz´amot ad. A standard norm´alis eloszl´as ˝ 1 szor´ ´ asu´ norm´alis eloszl´as (N (0, 1)). a 0 v´arhato´ e´ rt´eku, Khi-n´egyzet eloszl´as ¨ ´ n´egyA ξ1 , ξ2 , . . . , ξn fuggetlen, standard norm´alis eloszl´asu´ v´altozok 2 ¨ zetei osszeg´ enek eloszl´asa n szabads´agfoku´ khi-n´egyzet (χ ) eloszl´as. ´ asn´egyzete pedig 2n. Az el˝oz˝o Ennek a v´arhato´ e´ rt´eke n, a szor´ szakaszban elmondottak miatt nagy n szabads´agfok eset´en alig t´er el ´ a norm´alis eloszl´astol.
18
´ AZ ELOSZLASOKKAL KAPCSOLATOS ALAPFOGALMAK ¨ Param´eter (vagy az eloszl´as param´etere) az eloszl´asfuggv´ enyt meg´ P´eld´aul a norm´alis eloszhat´arozo´ k´epletben szerepl˝o valamely v´altozo. ´ as (σ ). l´as param´eterei a v´arhato´ e´ rt´ek (µ) e´ s a szor´ ´ ¨ Param´eteres m´odszer: olyan matematikai statisztikai modszerek osszefoglalo´ neve, melyek param´eterrel vagy param´eterekkel (v´eges sok) ´ ´ oan ´ le´ırhato´ sokas´agokra alkalmazhatok. Ebb˝ol adod nyilv´an vannak nemparam´eteres statisztikai elj´ar´asok is, amelyek teh´at nem a v´eges sok ´ a param´eparam´eterrel megadhato´ eloszl´asokon alapulnak. Hasonloan teres pr´oba a hipot´ezisvizsg´alatn´al az el˝o´ırt parametrikus eloszl´asu´ so´ kas´ag valamelyik param´eter´ere vonatkozo´ proba. Statisztikai becsl´es: a popul´acio´ eloszl´as´anak valamely ismeretlen para¨ ıtjuk. ¨ m´eter´et egy alkalmas minta alapj´an kozel´ A minta elemeit egy ¨ ıthetjuk ¨ a param´eter igazi e´ rt´emegfelel˝o formul´aba helyettes´ıtve kozel´ ´ k´et (pl. a popul´acio´ ”elm´eleti” a´ tlag´at a mintaelemekb˝ol szok´asos modon ¨ ıtjuk). ¨ sz´amolt a´ tlaggal kozel´ ¨ onk´ ¨ enyeEgy megfigyel´es szabads´agfoka a magyar´azo´ rendszeren belul ´ fugget¨ sen megv´alaszthato´ e´ rt´ekek sz´ama, speci´alis esetben az egym´astol ¨ ´ sz´ama. len osszeadand ok Megb´ızhat´os´agi intervallum (vagy konfidencia intervallum, megb´ızhat´os´agi tartom´any): olyan intervallum, amely (´altal´aban) nagy, el˝ore megadott ´ ınus´ ˝ eggel tartalmazza a becsult ¨ param´eter valodi ´ e´ rt´ek´et. valosz´
19
´ AK ´ STATISZTIKAI PROB ´ fel´all´ıt´as´ahoz e´ s az eredm´eny ki´ert´eEz a szakasz a statisztikai proba ¨ kel´es´ehez ad seg´ıts´eget, osszefoglalva a legfontosabb fogalmakat. A ¨ szok´asos, gyakori hipot´ezisvizsg´alatokat a statisztikai programok koz¨ t´amogatj´ak. A statisztikai pr´oba olyan elj´ar´as, amely valamilyen vetlenul hipot´ezisnek (az alapsokas´agra vonatkozo´ feltev´esnek) az ellen˝orz´es´et ´ uggv´ ¨ teszi lehet˝ov´e a minta adatai e´ s a probaf eny alapj´an. A nullhipot´ezis: hipot´ezisvizsg´alatban a´ ltal´aban az a feltev´es, hogy bi¨ onbs´ ¨ ´ zonyos kul egek vagy hat´asok a popul´acioban adott e´ rt´ekkel egyen¨ onbs´ ¨ ´ l˝ok. P´eld´aul, hogy k´et a´ tlag kul ege 0, vagy az, hogy a korrel´acios ¨ ¨ egyutthat o´ nulla. De lehet az is a kiindul´asi feltev´esunk, hogy pl. a v´arhato´ e´ rt´ek 10. ´ adott szintet Szignifikancia, szignifik´ans elt´er´es: a nullhipot´ezist˝ol valo, ´ ınus´ ˝ eggel admeghalado´ elt´er´es. A szignifikancia-szintet a´ ltal´aban valosz´ ´ ınu˝ juk meg. Ez lehet pl. 5% (azaz α = 0, 05 annak a hib´anak a valosz´ ¨ onbs´ ¨ s´ege, hogy t´evesen a´ llap´ıtottuk meg a kul eget, ha a nullhipot´ezis ´ eredm´enye p < 0, 05, akkor ez azt jelenti, hogy igaz). Ha teh´at a proba ¨ onbs´ ¨ szignifik´ans kul eget vagy hat´ast a´ llap´ıtottunk meg. Ha sz´azszor ´ csak kb. 95 esetben kapn´ank megism´eteln´enk a k´ıs´erletet, a sz´azbol ugyanezt az eredm´enyt, 5 esetben nem tal´aln´ank elt´er´est (els˝ofaju´ hiba). A szok´asos szintek: 5%, 1%, 0,1% (azaz α = 0, 05, 0,01, 0,001). A megb´ızhat´os´agi szintek ennek megfelel˝oen 95%, 99% e´ s 99,1%. A szignifik´ans eredm´enyt leggyakrabban a p-´ert´ek e´ s a szignifikancia-szint (α) ¨ ´ az id˝ob˝ol osszehasonl´ ıt´as´aval szok´as meg´allap´ıtani. Ez a gyakorlat abbol sz´armazik, amikor csak t´abl´azatok a´ lltak rendelkez´esre. Jelenleg egyre elterjedtebb mag´anak a p e´ rt´eknek a megad´asa. Nem szignifik´ans: p > 0, 05 (p nagyobb, mint 0,05). Az 5%-os szinten ¨ onbs´ ¨ ¨ a kul ¨ onbs´ ¨ nem szignifik´ans kul eg azt jelenti, hogy nem sikerult eget ¨ jelenti azt, hogy egy´altal´an nincs kul ¨ onb¨ kimutatni. Ez nem felt´etlenul s´eg. Ha az eredm´eny nem szignifik´ans, akkor l´enyeg´eben semmit sem ¨ is tudunk mondani a vizsg´alt jelens´egr˝ol. Ebben az e´ rtelemben v´egul ¨ elfogadjuk azt a nullhipot´ezist, hogy nincs elt´er´es. Az elkovetett hib´a´ csak annyit tudunk, hogy nagy mintaelemsz´am eset´en el´eg kicsi, ha rol a nullhipot´ezis nem igaz (m´asodfaju´ hiba).
20
´ AKKAL ´ ´ A STATISZTIKAI PROB KAPCSOLATOS TOVABBI ALAPFOGALMAK ¨ b´ar Az els˝ofaju´ hiba akkor fordul el˝o, amikor a nullhipot´ezist elvetjuk, ´ ınus´ ˝ ege egyenl˝o a szignifikancia-szinttel (α). az igaz. Valosz´ ¨ ¨ el, amikor a nullhipot´ezist elfogadA m´asodfaju´ hib´at akkor kovetj uk ´ ınus´ ˝ eg´et (β ) nem ismerjuk. ¨ Ha az els˝ofaju´ juk, b´ar az nem igaz. Valosz´ ´ ınus´ ˝ eg´et csokkentj ¨ ¨ a m´asodfaju´ hib´ae´ n˝o, de α + β 6= 1. hiba valosz´ uk, ´ ınus´ ˝ ege Nagy mintaelemsz´am eset´en a´ ltal´aban a m´asodfaju´ hiba valosz´ ¨ csokken. Egyoldali pr´oba amikor a nullhipot´ezissel szemben fel´all´ıtott alternat´ıv ¨ fel. hipot´ezisben (ellenhipot´ezisben) csak egyir´anyu´ v´altoz´ast t´etelezunk K´etoldali pr´oba: ekkor a nullhipot´ezissel szemben fel´all´ıtott alternat´ıv ¨ hipot´ezisben minden ir´anyu´ v´altoz´ast figyelembe veszunk. ¨ ´ ´ staA kovetkez˝ o oldalon megadott szempontok e´ s utmutat´ asok uj ´ ak ossze´ ¨ tisztikai prob´ all´ıt´as´ahoz e´ s v´egrehajt´as´ahoz adnak seg´ıts´eget. M´asr´eszt a leggyakoribb ilyen teszteket a t´argyalt statisztikai programok ¨ ¨ is t´amogatj´ak, vagyis ekkor ink´abb csak az eredm´enyek hekozvetlen ul lyes e´ rtelmez´es´ehez, vagy a jo´ param´eterez´eshez haszn´alhatjuk ezeket az ismereteket.
21
´ ´ ´ STATISZTIKAI PROBA VEGREHAJT ASA ´ ak v´egrahajt´as´anak a kovetkez˝ ¨ A statisztikai prob´ o l´ep´esei vannak: 1. Az el˝ozetes ismereteink alapj´an a´ ll´ıtunk valamit, amit statisztikai ´ ¨ a kiindulo´ hipot´ezist (H0 ) modszerrel szeretn´enk igazolni. El˝oszor kell fel´all´ıtani, a nullhipot´ezist megfogalmazni. A nullhipot´ezisben ¨ ıtjuk, ¨ hogy nincs v´altoz´as. sok esetben (de nem mindig) azt rogz´ ¨ 2. Ezut´an az alternat´ıv hipot´ezis (H1 ) fel´all´ıt´asa kovetkezik. ¨ ´ szignifikancia-szintj´enek meghat´aroz´asa 3. A kovetkez˝ o l´ep´es a proba (α = 0, 05, α = 0, 01, vagy α = 0, 001). Ezt az e´ rt´eket az adott szak¨ szok´asos e´ rt´ekeihez kell igaz´ıtani. terulet 4. Hat´arozzuk meg ezut´an a haszn´alt v´eletlen minta elemsz´am´at. Ezt id˝o-, illetve p´enzkorl´atok e´ s el˝ozetes ismereteink is meghat´arozz´ak, ¨ onben ¨ ´ kul nyilv´an a nagyobb minta megb´ızhatobb eredm´enyt ad. ¨ a v´eletlen minta el˝oa´ ll´ıt´asa, e´ s a probastatisztika ´ Ezut´an jon kisz´am´ıt´asa. (Az e´ rintett v´altozo´ a nullhipot´ezis fenn´all´asa eset´en vala¨ mely ismert eloszl´ast kovet.) ¨ esi szab´alyt, e´ s azt a kritikus e´ rt´eket vagy 5. Meghat´arozzuk a dont´ ´ at hajtunk v´egre), amelyn´el a mint´abol ´ e´ rt´ekeket (ha k´etoldali prob´ ´ ´ ınus´ ˝ eggel vesz fel kisz´am´ıtott probastatisztika csak kis (< α) valosz´ nagyobb e´ rt´eket. ´ 6. Ha a kisz´am´ıtott probastatisztika a kritikus e´ rt´ekn´el nagyobb (il¨ esik), akkor elvetjuk ¨ a nullletve az elfogad´asi tartom´anyon k´ıvul ´ ınus´ ˝ egu˝ esem´eny kovetkezett ¨ hipot´ezist, mivel egy kis valosz´ be ´ (egyuttal elfogadjuk az alternat´ıv hipot´ezist). Ilyenkor azt mondjuk, hogy az elt´er´es szignifik´ans az α szinten (p < α), az alternat´ıv ¨ hipot´ezis teljesul. ´ 7. Ha a kisz´am´ıtott probastatisztika a kritikus e´ rt´ekn´el kisebb (illetve ¨ van), akkor megtartjuk a nullhiaz elfogad´asi tartom´anyon belul pot´ezist e´ s azt mondjuk, hogy az elt´er´es nem szignifik´ans α szin¨ el a nullhipot´ezist, ami ten. Azt is mondhatjuk, hogy nem vetjuk ´ egy ovatos megfogalmaz´as, e´ s arra utal, hogy a szignifikancia-szint ¨ fuggv´ eny´eben a´ ltal´aban nem a´ ll´ıthatjuk, hogy a nullhipot´ezis igaz.
22
´ OSSZEF ¨ ´ ¨ ´ VALTOZ OK UGG ESE ´ ınus´ ˝ egi v´altozo´ koz ¨ otti ¨ oszef ¨ ¨ es A korrel´aci´os elj´ar´asok k´et valosz´ ugg´ szoross´ag´at m´erik, ami azt´an a predikcio´ min˝os´ege m´ert´ekek´ent is hasz´ A regressziot ´ ol ´ elt´er˝oen itt nem szuks´ ¨ eges az egyik v´altozo, ´ n´alhato. ¨ ese. Az r korrel´acios ´ egyutthat ¨ mint eredm´enyv´altozo´ kijelol´ o´ egy -1 e´ s ¨ ott ¨ v´altozo´ sz´am. 1 kozt ¨ ¨ ¨ Ha ennek e´ rt´eke -1, akkor fuggv´ enyszeru˝ negat´ıv line´aris osszef ug´ koz ¨ ott, ¨ azaz am´ıg az egyik n˝o, addig a m´asik csokken. ¨ g´es van a v´altozok ´ egyutthat ¨ ¨ ¨ Ha a korrel´acios o´ 1, akkor fuggv´ enyszeru˝ pozit´ıv line´aris osz¨ es van. A nulla korrel´acios ´ egyutthat ¨ szefugg´ o´ pedig azt jelenti, hogy ¨ ¨ es a v´altozok ´ koz ¨ ott. ¨ ´ nincs line´aris osszef ugg´ M´as e´ rt´ek eset´en ovatos ¨ allo´ eml´ıtett eseteknek megfelel˝o kovetkez¨ diszkusszio´ mellett a kozel´ ´ ert´eke nincs kozel ¨ tet´est vonhatjuk le. Ha a kapott korrel´acio´ abszolut´ ´ 1-hez vagy null´ahoz, akkor nem a´ llap´ıthatunk meg korrel´aciot. ¨ ¨ es van a magyaA regresszi´os elj´ar´as felt´etelezi, hogy olyan osszef ugg´ ´ altozok ´ e´ s az eredm´enyv´altozo´ koz ¨ ott, ¨ hogy ha az adatokat t´erben r´azov´ ¨ et kapunk mega´ br´azoljuk, akkor egyenest, s´ıkot, vagy adott t´ıpusu´ gorb´ ¨ ıt˝oleg. A regresszio´ azt a param´eterez´est keresi meg, amely a legkozel´ jobb illeszt´est adja az aktu´alis adathoz. ¨ ´ line´aris esetben a magyar´azov´ ´ altozok ´ (nyilv´an tobb¨ A tobbv´ altozos ´ line´aris fuggv´ ¨ ¨ az eredm´enyv´altozo´ e´ rt´ev´altozos) eny´evel modellezzuk ´ k´et. A regresszio´ egy param´eteres statisztikai modszer, amely felt´e¨ e´ s a t´enyleges eredm´enyv´altozo´ telezi, hogy a reziduumok (a becsult ¨ elt´er´esek) norm´alis eloszl´asuak. ´ ´ egyutt¨ e´ rt´ekek kozti Mivel a regresszios ´ kisz´am´ıt´asakor a reziduumok n´egyzetosszeg´ ¨ hatok et minimaliz´aljuk, ´ ez´ert szok´as ezt az elj´ar´ast a legkisebb n´egyzetek modszer´ enek is h´ıvni.
23
EGY DOLGOZAT FELADATAI ´ 1. Adjon p´eld´at mindegyik sk´alat´ıpusra ugy, hogy e´ pp az legyen a legjobb sk´alat´ıpus, amely az adott mint´ara e´ rv´enyes! ´ ¨ 2. Hat´arozza meg az a´ tlag, a medi´an e´ s a modusz e´ rt´ek´et a kovetkez˝ o adatsorra: 1, 2, 2, 3, 4, 5! ´ ´ fontoss´ag´at! 3. Indokolja a hi´anyzoadat kod 4. Hat´arozza meg, milyen m´er´esi sk´ala felel meg a sz´ıneknek, a ¨ h˝om´ers´ekleti fokoknak, a fizet´es osszeg´ enek e´ s a {nem felelt meg, ´ megfelelt} e´ rt´ekel´esnek! megfelelt, kiv´aloan ¨ 5. Mutassunk egy rovid m´er´esi adatsort, amelyre az a´ tlag, a medi´an ´ ¨ onb ¨ oz˝ ¨ o e´ rt´ek! e´ s a modusz h´arom kul ´ ´ 6. Milyen hi´anyzoadat kodot haszn´alna a cip˝om´eretek megad´asakor? ¨ meg az al´abbi ot ¨ lehet˝os´eg egyik´et: Jelolje semmilyent
99-et
42-est
tetsz˝olegest
-
24
Tartalomjegyz´ek
Tartalomjegyz´ek 1. 2. 3. 4. 5. 6. 7. 8. 9.
´ ora ´ ora ´ ora ´ ora ´ ora ´ ora ´ ora ´ ora ´ ora
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Tartalomjegyz´ek
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
1 4 6 9 11 13 15 19 22 24