Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
AZ EXCEL ALKALMAZÁSA A STATISZTIKA OKTATÁSÁBAN APPLYING EXCEL IN STATISTICAL EDUCATION
Kehl Dániel Pécsi Tudományegyetem Közgazdaságtudományi Kar, Gazdaság-módszertani Intézet Összefoglaló A statisztika oktatásában napjainkra több szoftver is elterjedt, a programcsomagoknak azonban több hátrányuk is van. Az MS-Excel táblázatkezelő szoftver statisztikai modulja a statisztika módszertanának nagy részét felöleli, de jó néhány apróbb hiba, és hiányosság is a sajátja. Ugyancsak problémát jelent, hogy a modul elemei fekete dobozként működnek. Az Excel előnye ugyanakkor, hogy az Office csomag elterjedése miatt szinte mindenhol megtalálható. A fenti okok miatt hoztunk létre olyan kis Excel-alkalmazásokat, melyek megkönnyítik a tanultak elsajátítását, dinamikusak, a felhasznált képletek „könnyen leolvashatók”, megkönnyítik a feladatmegoldást, és didaktikusak. A hallgatóknak lehetőségük nyílik a nagy mennyiségű számítási folyamat „mögé nézni”, vagy amennyiben valamilyen speciális felhasználási területre van szükségük, a bemutatott programok alapján elkészíthetik saját, testhezálló Excel fájljaikat is. A tanulmányom célja egyrészt a statisztikai szoftverek és az Excel statisztika oktatásában megfigyelhető előnyeit és hátrányait összegyűjtsem. Az összehasonlító rész után bemutatom az általunk oktatási célokra fejlesztett, illetve fejlesztés alatt álló Excel munkafüzet-csomagot, amely nem a beépített Adatelemzés menüpontot használja, hanem a megírt rutinokat.
Kulcsszavak Excel, adatelemzés, statisztika, módszertan
Abstract Many applications have proliferated in statistical education by now, although these software packages possess certain disadvantages as well. A majority of methodological tools in statistics is embraced by the statistical module of MS-Excel notwithstanding that plenty of small mistakes are also accompanied with it. From didactical aspect, the invisibility of the process behind calculations (the black box syndrome) may be mentioned as a drawback. On the other hand, the Office package is considerably widespread and well-known. Based on these argumentations we have developed some applications for Excel that enable its users (i.e., students) to imbibe the theory by practice for these applications are dynamic, explicitly didactical and the formulations applied within are easy to track and read. Students also have the opportunity to look behind the calculation process executed even in large data volume, and it is possible for them to create their own Excel files fitting a special problem they define if required. The goal of my study, firstly, is to list the advantages and disadvantages of the most frequently used statistical softwares from a didactical point of wiew. After this comparison, I will introduce the Excel worksheet package that applies the routines developed or being developed by us for educational purposes.
Keywords Excel, data analysis, statistics, methodology
1
Informatika a felsőoktatásban 2008
1.
Debrecen, 2008. augusztus 27-29.
Bevezetés
A statisztika módszertudománya alapvetően a tömegjelenségek mérésével, leírásával, elemzésével foglalkozik. Természetesen a nagyszámú megfigyelés miatt az alkalmazott módszerek erősen számolás- és számításigényesek. A hagyományos (értsd: nem számítógéppel támogatott) statisztika oktatásában ezért igen ritka az, hogy a hallgatók valós méretű problémával találkozzanak, vagy ha a probléma valós, akkor nem a „nyers”, hanem valamilyen módon előkészített adatokat, részeredményeket kapnak kézhez. A feladat az utóbbi esetben csupán a részszámítások befejezése, vagy a kapott eredmények értelmezése lehet. A valós méretű, összetettségű feladatok megoldása kézi számításokkal tehát nem mindig megoldható, a számítógépes feldolgozás lehetősége azonban új utakat nyithat és nyitott meg a statisztika tudományában, és természetesen ezzel együtt az oktatásában, az oktatás minőségében is. Az oktatásban szóba jöhet a kifejezetten statisztikai programcsomagok oktatása, és emellett igen elterjedt az MS-Excel felhasználása is, annak ellenére, hogy – mint tudjuk – ez a program nem statisztikai program, de képessé lehet tenni statisztikai számítások elvégzésére. Jelen tanulmányban célom a két lehetőség előnyeinek és hátrányainak összegyűjtése, bemutatása, majd egy olyan harmadik, kompromisszumos megoldás felvázolása, mely reményeim szerint felkelti a hazai statisztika oktatás érdeklődését. 2.
Statisztika a felsőoktatásban
Az új, Bologna rendszerű bachelor képzésben a közgazdaságtudományi képzési területen a statisztika két féléves tantárgy, ráadásul a második félévben nincs gyakorlat, így az elméleti oktatás mellett egyre kevesebb idő jut feladatmegoldásra. Mindezért, valamint az egyre jobb infrastrukturális helyzet, valamint a (leendő munkahelyeken) egyre inkább elterjedő szoftverek miatt elengedhetetlen, hogy a statisztika oktatásába is beépüljön a számítástechnika. Amennyiben a statisztika és a számítástechnika fogalmakat együtt használjuk, a legtöbb statisztikát oktató szeme előtt vagy egy statisztikai szoftver, vagy az Excel jelenik meg. Tény, hogy a kifejezetten statisztikai célú szoftverek mellett leginkább az Excel elterjedt az oktatásban. Le szeretném szögezni, hogy tanulmányomban a fentiekben vázolt „két út” melletti és elleni érveim mindvégig a statisztika oktatása esetén érvényesek! Véleményem szerint ugyanis a statisztika tudományos felhasználása mindenképp erre a célra létrehozott szoftver alkalmazását igényli. A következőkben előbb a statisztikai programcsomagok előnyeit, illetve hátrányait gyűjtöm össze, majd ugyanezt kísérelem meg az Excel esetében is, természetesen az oktatás szempontjából. 1.1.
A statisztika szoftverek előnyei és hátrányai
Napjainkban rengeteg statisztikai szoftver van forgalomban. A teljesség igénye nélkül néhány gyakran használt program ezek közül: Calc, BMDP, E-Views, Gnumeric, Gretl, Minitab, R, SAS, SPSS, Statistica stb. Ezek között vannak főként keresztmetszeti adatokra (pl. SPSS), és inkább idősorelemzésre koncentráló (pl. E-Views) csomagok is, némelyik pedig általánosnak mondható ebből a szempontból.
2
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
A fent felsorolt programcsomagoknak több hátrányuk is van. Egyrészt nem kifejezetten oktatási célra hozták őket létre, ezért mintegy „fekete dobozként” működnek, a felhasználó „csak” megadja az input-adatokat, és megkapja az outputot, amit értelmeznie kell. Ezek a programcsomagok általában igen speciálisak, az oktatott statisztika nem minden témakörét fedik le (pl. standardizálás, index-számítás). Egyértelműen megfogalmazható probléma, hogy a programok beszerzése, majd az újabb és újabb verziók, javítások beszerzése költséges. A felsorolt szoftverek teljesen más felhasználói felülettel rendelkeznek, és az egymástól jelentősen különböző csomagok mindegyikének bemutatására a rendelkezésre álló óraszám nem elégséges. A „preferált” csomag kiválasztása így meglehetősen önkényes. A különböző formátumok miatt a programcsomagok közötti váltás némely esetben rendkívül problematikus. A statisztikai szoftverek előnye természetesen az, hogy készítőik erre a célra, statisztikai elemzések készítésére, hozták őket létre. Emiatt a programok megbízhatóak, az észlelt hibák folyamatosan javításra kerülnek, az általánosan használt módszerek pedig megtalálhatóak bennük. Előnyként említhetjük még, hogy a statisztikai szoftverek a tananyagot messze meghaladó ismeretkört is felölelnek, így az érdeklődők – akár az általában rendelkezésre álló súgó segítségével – lehetőséget kapnak ismereteik fejlesztésére. 1.2.
Az Excel előnyei és hátrányai
A hazai (és külföldi) felsőoktatásban elterjedt az MS-Excel táblázatkezelő szoftver statisztikai modulja is, lásd például (Rappai, 2001), vagy (Jánosa, 2005). Az Excel – a speciális statisztikai szoftverekhez hasonlóan – a statisztika módszertanának nagy részét felöleli beépített modulja (Analysis ToolPak) segítségével, de jó néhány apróbb hiba (pl. rossz, vagy félreérthető magyarra fordítás), és hiányosság is a sajátja. A hazai felsőoktatásban az Excel jelentőségére Rappai már említett műve hívta fel a figyelmet, ami az interneten fellelhető sillabuszok alapján szervesen beépült a különböző oktatási szintek tananyagába. Természetesen rengeteg egyéb statisztikai szoftverhez (főleg az SPSS-hez) kapcsolódó könyv is megjelent a hazai piacon, amelyek jól ismertek, de részletesebben nem szeretném bemutatni őket. Szerencsés választásnak érzem Jánosa művét is, amely az Excel mellett az SPSS alapvető funkcióit mutatja be, a két szoftver fortélyait párhuzamosan tárja az olvasó szeme elé. Az említett félrefordításoknál nagyobb problémák is megfigyelhetők, melyek az Excel korábbi verzióiban csakúgy megtalálhatóak voltak, mint a legújabbakban. Az Excel a főként a következtetéses statisztikában oly fontos eloszlások esetén némely speciális esetben hibás, nagyban félrevezető értékeket szolgáltat. A témakör bőséges irodalommal rendelkezik, jelen tanulmányunkban csak utalunk Knüsel (Knüsel, 1998, 2002, 2005), illetve McCullough és Wilson (McCullough-Willson, 1999, 2002), vagy az Excel legújabb kiadásával kapcsolatban Yalta (Yalta, 2008) munkáira, melyekből az érdeklődő olvasó kimerítő „hibalistát” meríthet. Az említett problémák nem is lennének annyira zavaróak, ha azok nem lennének ismertek akár évek-évtizedek óta. Hasonló problémák más szoftverek esetén is adódtak, de valamennyit a lehető leggyorsabban javították, míg az Excel esetében ez a jelentős tudományos visszhang ellenére sem történt meg. Többek között ezen hibák miatt mondja Nash (Nash, 2008), hogy pedagógiai szempontból nem előnyös egy a való életbeni alkalmazásra nem alkalmas szoftverrel történő oktatás (bár a valós életben is ritkán adódnak elő ezek a hibák). Ugyancsak problémát jelent, hogy a modul elemei szintén fekete dobozként, a felhasználó elől elrejtve, működnek.
3
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
Az Excel kétségtelen (és messze legfontosabb) előnye ugyanakkor, hogy az Office csomag elterjedése miatt szinte mindenhol megtalálható. Mindez azt jelenti, hogy az egyetemeknek, de főleg a hallgatóknak nem kell (külön) drágán beszerezhető szoftvert vásárolniuk. Általános elérhetősége egyben azt is jelenti, hogy akár mikro- és kisvállalatok – amelyek a drága, és folyamatosan friss verziókkal jelentkező szoftvereket nem képesek megvásárolni – elemzési eszköztárát is erősítheti. Ugyancsak előnyt jelent, hogy az Excel felépítése, struktúrája, kezelőfelülete ismert a hallgatók számára, így tanórán nem kell az alapoktól kezdeni, a hallgatók nem idegenkednek tőle. Az Excel így platform-független eszközként is felfogható, véleményem szerint oktatási célra ezért megfelelő. A fentiekben vázlatosan áttekintettük a különböző statisztika szoftverek és az Excel oktatásban betöltött szerepének előnyeit és hátrányait. Voltak olyan problémák, melyek mindkét esetben felmerültek. Ezek közül a legfontosabbnak azt tartom, hogy mindkét megoldás esetén a számítások fekete dobozként viselkednek. A hallgatóknak az a misztikus érzése lehet, hogy a bevitt adatok és a kapott eredmény közötti lépések „tabunak” számítanak. Éppen ezért, és a fent felsoroltak miatt éreztük úgy a tanszéki kollégákkal (elsősorban dr. Sipos Béla, egyetemi tanárral), hogy érdemes lenne olyan Excel-alkalmazásokat létrehozni, melyek megkönnyítik a tanultak elsajátítását, dinamikusak, a felhasznált képletek „könnyen leolvashatók”, megkönnyítik a feladatmegoldást, és didaktikusak. A hallgatóknak lehetőségük nyílik a nagy mennyiségű számítási folyamat „mögé nézni”. További nagy előnye a következőkben vázolt módszernek, hogy az érdeklődő hallgatók – amennyiben valamilyen speciális módszerre alkalmazására, felhasználási területre van szükségük, a bemutatott programok alapján, vagy azok módosításával – elkészíthetik saját, testhezálló Excel fájljaikat is. 3.
Az Excel alternatív felhasználása a statisztika oktatásában
Ahogyan azt már említettem, a szoftverek alkalmazásának egyik legnagyobb problémáját abban látom, hogy a számítási lépések nem követhetőek, a felhasználó nem érzékeli, hogy a kiinduló adatok hogyan hatnak az eredményre, az adatok kismértékű változása mennyiben befolyásolja a végeredményt. Az általunk Excel segítségével elkészített fájlok – véleményem szerint – kiküszöbölik ezt a hiányosságot. A munkalapokat egységes szerkezetben építettük fel. A változtatható, illetve megadható vagy megadandó adatokat sárga mezők jelölik, az eredményeket pedig egységes struktúrában, illetve szóhasználattal kívántuk megjeleníteni. A megértéshez, didaktikai lépésekhez szükséges végeredmények, és az egyes cellák számításához használt képletek valamennyi cella esetén láthatók. Ezzel a számítás menete követhetővé válik. Szintén nagyon fontos, hogy egyetlen cella, vagy vezérlőelem (Check-box, legörülő menü stb.) megváltoztatása az eredmények azonnali változását vonja maga után, és mindezt – hála a gyors számítási sebességnek – azonnal elérhetjük. A fejlesztett programokkal kapcsolatos végső cél egyfajta menürendszer kialakítása. Az adatok megadása után, vagy azzal párhuzamosan a felhasználónak az adatbázis, illetve az adatok típusát kellene megadnia (keresztmeteszeti, idősoros, osztályközös stb.), majd ezek után a szóba jöhető módszerek közül választhatna. Ezzel a statisztika szakítana a mostani, talán módszer-orientáltnak nevezhető szemlélettel, és előtérbe kerülhetne az adatbázisorientált szemlélet. A módszer-orientált szemlélet inkább a módszerekre koncentrál olyan értelemben, hogy a statisztika által alkalmazott módszereket fűzi fel valamilyen logikai sorrendben, míg az általam adat-, vagy adatbázis-orientált szemlélet lényege inkább az, hogy megtanítsa a hallgatót arra, hogy ha bizonyos típusú adatokkal rendelkezik, akkor mely
4
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
módszerek juthatnak eszébe, jöhetnek szóba. A különbség látszólag kicsi a két szemlélet között, de gyakorló oktatók gyakran találkoznak azzal a problémával, hogy adott struktúrájú adatokhoz a hallgató csak egy témakört kapcsol, annak ellenére, hogy az elemzés más lehetőségei is nyitva állnának. Mivel a programok fejlesztése még közel sem ért véget, de jelentős előrelépések már történtek, és úgy érzem, hogy a már elkészült anyag bemutatásra, szakmai diskurzusra mindenképp alkalmas. Ennek megfelelően az alábbiakban néhány – önkényesen – kiragadott elemet szeretnék bemutatni. A regresszióval foglalkozó témakört, és a determinisztikus idősor-elemzési technikákkal kapcsolatos fájlt. 1.3.
Regresszió
Jelen dolgozatomban nem kívánok kitérni a regresszió modellezésben, a modellezési, modellalkotási képesség elsajátításában betöltött kétségtelen szerepére. A regressziós módszertani családon belül a lineáris regresszió különösen fontos, egyrészt didaktikai szempontból, másrészt amiatt, hogy a bonyolultabb, de linearizálható függvényformák esetén szintén erre a technikára támaszkodunk. Az általunk elkészített fájlok esetén valamennyi esetben sárga színnel jelöltük az input adatok helyét. A lenti 1. számú ábra a regressziós munkafájlt mutatja be. Jól látható, hogy maximálisan 16 változót képes kezelni a fájl, a megfigyelések száma – elméletileg – 65535-ig bővíthető, de az ilyen méretű regressziós problémák viszonylag ritkák. A mintapélda 1000 teljesen fiktív megfigyelésből áll, és az aktuális adatbázis 4 (egy eredmény-, és három magyarázó-) változót tartalmaz.
1. ábra: A regressziós munkafájl
5
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
A megadott adatok alapján az Excel azonnal kiszámítja az ábrán látható adatokat (sztenderd regressziós output). A felhasznált képletek azonban (a másik két úttal ellentétben) könnyen követhetők, amint az az ábrán az Excel szerkesztőlécén is látható. Hasonlóan fontos, hogy egyes változók kihagyásához, illetve bevonásához nincs szükség új modell felépítésére, csupán a változóhoz tartozó paraméter mögött található check-boxból kell a pipát kivenni, az eredmények automatikusan újra számítódnak. Természetesen bármely induló adat változására ugyan így reagál a program. Mivel az eredeti modellünkben két változó sem szignifikáns (a köztük szándékosan létrehozott majdnem tökéletes korreláció miatt), így a multikollinearitás elkerülése miatt célszerű az egyik változó elhagyása (esetünkben az x1 változóé). A kapott eredményeket az alábbi, 2. számú ábrán mutatjuk be. Természetesen az összes többi output megváltozott a változó elhagyásával, de a képek nagy mérete miatt most csak az együtthatókra vonatkozó részt mutatjuk be.
2. ábra: Regresszió mindhárom, és a kihagyott magyarázó változóval
Amint az az 1. számú ábrán is jól látható, további munkalapok is találhatóak a munkafüzetben. A „Mátrix” nevű lapon a regresszió-számítással kapcsolatos mátrixok, valamint azok inverzei találhatók, melyek rengeteg további fontos következtetés levonására alkalmasak. Hasonló célt szolgál a haramdik, „Maradék” nevű lap is, ahol a regressziós modellezés további feltevéseinek igazolását, vagy cáfolását végezhetjük el, ennek bemutatásától azonban jelen dolgozatunkban eltekintünk. 1.4.
Idősorok elemzése
Az idősor-elemzésen belül (igazodva a jelenlegi tananyaghoz) a determinisztikus idősorelemzés módszereit alkalmazó fájlt hoztunk létre (lásd 3. számú ábra). Az elemzésre szánt adatsort a regressziós munkafájlhoz hasonlóan kell megadni. Ekkor automatikusan megjelenik az idősor hossza, és kitölthető az is, hogy az idősorból a fájl az első hány elemet használja fel a trend becslésére. Minderre azért van szükség, hogy „Mi lett volna, ha…” elven különböző eseteket vizsgálhassunk. Természetesen lehetőség van előrejelzésre, tetszőleges időtartamra. Az adatok megadása után azonnal megkapjuk az idősor képét, és ez, illetve az illeszkedést mutató adatok alapján eldönthetjük, hogy milyen trend illik leginkább az adatsorunkhoz.
6
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
3. ábra: Az idősor-elemzés munkafájl
A fájl a kilenc leggyakrabban alkalmazott lineáris, vagy arra visszavezethető trendet „ismeri”. Amennyiben az adatsorunk szezonalitást is tartalmaz (mint ahogyan az a példafeladat esetén is jól megfigyelhető), akkor a periódusok számának beállításával (esetünkben havi adatokról van szó, így a periódusok száma 12) számszerűsíthetjük a nyers és a korrigált szezonális eltéréseket, és szezonindexeket is.
4. ábra: Exponenciális trend szezonális eltéréssel
Ekkor természetesen az előrebecslésünkben már figyelembe vehetjük ezen ismereteket is! Amennyiben például a legördülő menüből például az exponenciális trendet, illetve a
7
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
szezonális eltérést választjuk, úgy a következő (4. számú) ábrát kapjuk, melyen jól látható az előrejelzés időszaka. Ne felejtsük el, hogy a számításokhoz továbbra is csak az első 48 adatot használtuk fel! Valamennyi adat felhasználása az utolsó ismert adatokkal rendelkező évre is jobb illeszkedést eredményezne. A fájl előállítja ezen kívül a trendtől tisztított idősori értékeket is (3. számú ábra jobb oldala), melyek tovább elemezhetők például tetszőleges tagszámú mozgóátlagolással, ami a hosszú ciklusok kimutatásának bevett gyakorlata. Szintén elkészítettünk ebben a témakörben egy olyan fájlt, amely 12 különböző, nem linearizálható (többségében logisztikus) függvényformák illesztésére képes, és segít az optimális paraméter-kombináció feltárásában is. Ezt a fájlt nem kívánom részletesen bemutatni, csupán egy ábrával érzékeltetem, hogy milyen trendek illeszthetőek a hagyományos módszereknél jóval egyszerűbben. 120 100 80 60 40 20 0 2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
1989
1988
1987
1986
1985
Y
1 Logisz tikus
5. ábra: Logisztikus függvény illesztése
4.
Összefoglalás
Jelen tanulmányban a statisztika oktatásában alkalmazható szoftverek szerepéről, azok előnyeiről, hátrányairól esett szó. A teljesség igénye nélkül megemlítettünk néhány statisztikai szoftvert, melyekkel kapcsolatos legnagyobb problémának azt találjuk, hogy kifejezetten a kutatás, illetve a professzionális munka céljára hozták őket létre, tehát semmiképp nem oktatási célokra. Néhány szoftver mellett elterjedt az oktatásban az Excel adatelemző menüpontjának használata is, ám ezzel kapcsolatban is több probléma felmerült: néhány fordítási, értelmezési probléma mellett még nagyobb gondot jelent, hogy az elemzés szintén fekete dobozként működik. Ráadásul a már lefuttatott adatelemzés adatai a kiinduló adatok megváltozására nem változnak, ilyen esetben újbóli futtatásokra van szükség. Tanulmányunk második részében bemutattunk néhány olyan fájlt, melyek véleményünk szerint hasznos oktatási segédletet jelenthetnek a statisztika oktatásában. Természetesen nem szabad elfeledkeznünk az Excel fentiekben vázlatosan felsorolt hibáiról sem, a tudományos igényesség érdekében minden fórumon hangoztatnunk kell ezeket a hiányosságokat.
8
Informatika a felsőoktatásban 2008
Debrecen, 2008. augusztus 27-29.
Irodalomjegyzék [1]
Jánosa András (2005) Adatelemzés számítógéppel. Budapest, Perfekt
[2]
John C. Nash (2008) Teaching statistics with Excel 2007 and other spreadsheets. Computational Statistics and Data Analysis (article in press)
[3]
Knüsel, L. (1998) On the accuracy of statistical distributions in Microsoft Excel 97. Computational Statistics and Data Analysis 26, 375–377.
[4]
Knüsel, L. (2002) On the reliability of Microsoft Excel XP for statistical purposes. Computational Statistics and Data Analysis 39, 109–110.
[5]
Knüsel, L. (2005) On the accuracy of statistical distributions in Microsoft Excel 2003. Computational Statistics and Data Analysis 48, 445–449.
[6]
McCullough, B.D.,Wilson, B. (1999) On the accuracy of statistical procedures in Microsoft EXCEL 97. Computational Statistics and Data Analysis 31, 27–37.
[7]
McCullough, B.D.,Wilson, B. (2002) On the accuracy of statistical procedures in Microsoft Excel 2000 and Excel XP. Computational Statistics and Data Analysis 40, 713–721.
[8]
Rappai Gábor (2001) Üzleti statisztika Excellel. Budapest, KSH
[9]
Yalta, A.T. (2008) The accuracy of statistical distributions in Microsoft® Excel 2007. Computational Statistics and Data Analysis (article in press)
9