ministerie van verkeer en waterstaat
rijkswaterstaat dienst getijde water en
GWIO 88.004 STATISTISCHE PAKKETTEN
C.P.A. Verdoorn datum:
Februari 1988
samenvatting: p e belangrijkste wensen bij de gebruikers zijn het bewerken van grote datasets, vervaardigen van plaatjes van hoge kwaliteit en het incidenteel gebruik van bijzondere technieken. Op dit ogenblik komt geen der onderzochte pakketten aan al deze wensen tegemoet: STATA BASE/GRAPHICS kan grote datasets aan, levert nette plaatjes, doch is beperkt qua statistische mogelijkheden. SYSTAT kan grote datasets aan, kent veel technieken maar vooriet (nog) niet in een grafische module om een plotter aan te sturen (volgens de fabrikant zou zo'n module in het eerste kwartaal van 1988 leverbaar zijn). STATGRAPHICS is beperkt in de omvang van de datasets, beschikt over veel (op zich starre) technieken en vervaardigt fraaie plaatjes. SPSS/PC+ kan grote datasets aan, kent veel technieken en kan plaatjes vervaardigen. Deze plaatjes worden gemaakt via MS-CHART met de beperkingen van dien (maximaal 128 punten).
NOTA GWIO-88.004 Evaluatie van een aantal statistische pakketten voor microcomputers t.b.v. gebruik binnen DGW.
Inhoud
pagina
1. Inleiding
2
2. Probleemstelling
2
3. Gebruikers-enquête
3
4. Beoordeling per pakket:
4
4.1
STATA
5
4.2
SYSTAT
7
4.3
STATGRAPHICS/PC
10
4.4
SPSS/PC+
12
5. Samenvatting
14
6. Conclusie en aanbevelingen
14
Bijlagen A. Geraadpleegde literatuur B. Uitslag enquête statistisch pakket voor PC C. Uitkomsten enquête versus mogelijkheden pakketten D- Overzicht leveranciers en prijzen
"Deze nota geeft de visie van DGW weer en is uitsluitend bestemd voor gebruik binnen DGW.
Evaluatie statistische pakketten
1. Inleidinfl De introductie van de PC naast het gebruik van een mainframe computer heeft voor het bedrijven van statistiek o.a. de volgende consequenties: Pro' s - Voor een breed publiek wordt de mogelijkheid geschapen om eigen methodieken of ideeën te ontwikkelen en toe te passen - Samenstellen rapporten, nota's e.d., verlevendigd met illustraties in eigen beheer - Verhoogde doorstroom-snelheid (aanbieden job, verkrijgen output, interactie) - Grote hoeveelheid beschikbare standaard-oplossingen - Verhoging van de persoonlijke efficiency Contra's - Grotere mate van verantwoordelijkheid door grotere vrijheid - Problemen rond uniformiteit, uitwisselbaarheid en compatibiliteit - Dieper inzicht vereist - Separate kosten: Op een mainframe geldt een eenmalige aanschaf voor veel gebruikers; voor PC's is de aanschaf van vele exemplaren vereist. Een aantal van de opgesomde problemen is te voorkomen of op te lossen door de invoering van een standaardpakket dat aan de wensen van zoveel mogelijk gebruikers tegemoet komt. Om inzicht te krijgen welke de wensen van de gebruikers zijn, is een enquête gehouden; de uitkomsten daarvan zijn afgezet tegen de merites van drie -op grond van litteratuur in aanmerking komende- statistische pakketten. In een laat stadium van het onderzoek bleek dat het pakket SPSS/PC+, dat aanvankelijk niet in beschouwing genomen was vanwege de hoge aanschaf-kosten, geleverd kan worden op licentie-basis. Uitspraken over de mogelijkheden van dit pakket zijn uitsluitend gebaseerd op de litteratuur en folder-materiaal.
2. Probleemstelling Ga na welk van de onderzochte pakketten het best aansluit op de geuite gebruikerswensen en bezie of zo'n pakket binnen DGW algemeen bruikbaar kan zijn.
Evaluatie statistische pakketten
3. Gebruikers-enquête Binnen DGV zijn enquêtes gehouden met als doel de behoeften, de wensen en het mogelijk gebruik vast te stellen. Als basis hiervoor hebben de criteria gediend zoals die gehanteerd werden in de TELEAC-brochure (litt. 3 ) . Het eerste onderdeel, de algemene gebruiksaspecten, heeft betrekking op de structuur en besturing der pakketten, de invoer- en uitvoer-faciliteiten, en gebruiksvriendelijkheid. Het tweede onderdeel betreft de mogelijkheden tot data-manipulatie. De overige onderdelen gaan over de mogelijkheden van de pakketten op het gebied van beschrijvende statistiek en toetsen, multivariate-analyse en tijdreeks-analyse. De uitkomsten van de gebruikers-enquête zijn als tabel weergegeven in bijlage B; een vergelijking tussen de geuite wensen en de merites van de pakketten is opgenomen in bijlage C.
Algemene gebruiksaspecten De wensen gaan uit naar een 'kant en klaar' pakket (d.w.z, dat er door de gebruiker niet geprogrammeerd hoeft te worden) met menu-besturing. De mogelijkheid om een aantal opdrachten te bundelen in een commandofile wordt tamelijk belangrijk geacht. Numerieke invoer moet zowel vanaf het toetsenbord als vanuit een file kunnen geschieden. De uitvoer van numerieke gegevens moet op 3 media mogelijk zijn, nl. beeldscherm, printer en file. Ook de uitvoer van grafische resultaten moet op 3 media kunnen plaatsvinden, nl, op beeldscherm, printer (iets minder belangrijk) en plotter. Een goede kwaliteit van de grafische presentatie wordt zeer belangrijk geacht. De vraag of het mogelijk moet zijn dat andere pakketten tegelijkertijd ter beschikking staan houdt verband met het ruimtebeslag; een pakket als SPSS neemt zoveel ruimte in dat andere programmatuur nauwelijks of niet te gebruiken is zonder de aanschaf van extra geheugenruimte. Het merendeel van de ondervraagden is van mening dat het gebruik van andere programmatuur mogelijk moet blijven; gedacht wordt hierbij aan editor, tekstverwerker, database en spreadsheet. Een goede 'help'-functie, d.w.z. een zelfverklarend programmadeel, wordt zeer op prijs gesteld. Over het aspect verwerkingssnelheid lopen de meningen uiteen; 42Z vindt dit belangrijk en 582 beoordeelt het als minder belangrijk. In dit verband wordt opgemerkt dat alle onderzochte pakketten het gebruik van een mathematische coprocessor (8087) ondersteunen; aanschaf hiervan is een waardevolle uitbreiding. Data-manipulatie Van groot belang blijkt de mogelijkheid om observaties en variabelen te kunnen sorteren en combineren evenals het selecteren en vervaardigen van subgroepen. Het labelen van variabelen, het toekennen van gewichten en de mogelijkheid tot het schrijven van eigen algorithmen zijn zaken die naar verwachting redelijk frequent toegepast zullen worden.
Evaluatie statistische pakketten
Beschrijvende statistiek en toetsen Onmisbaar geacht worden het berekenen van gemiddelden, varianties, percentielen, correlaties en associaties alsmede het vervaardigen van tabellen daarvan. Van iets geringer belang blijken het toetsen van hypothesen, het uitvoeren van non-parametrische toetsen en de exploratieve data-analyse.
Multivariate analyse Bij dit onderdeel wordt alleen aan de regressie- en variantie-analyse veel belang gehecht. De resterende zaken als factor-, cluster-, principale componenten- , discriminant-, en logit/probit-analyse zullen door weinigen frequent gebruikt worden.
Tijdreeksanalyse De belangrijkste aspecten hierin zijn de aanwezigheid van filters (het gladstrijken van reeksen) en de mogelijkheid om seizoencorrectie uit te voeren.
4. Beoordeling per pakket Bij het onderzoek doet zich het probleem voor dat gaande het onderzoek nieuwe versies en updates -met vaak belangrijke verbeteringen of aanvullingen- van de pakketten verschijnen. Mede hierdoor is het niet mogelijk om blind te varen op de litteratuur. In het navolgende is gepoogd om de belangrijkste eigenschappen (in relatie tot de gebruikerswensen) van de pakketten te beschrijven. Tijdgebrek is er de oorzaak van dat niet alle functies, die in de documentatie worden beschreven, getest zijn.
Evaluatie statistische pakketten
4.1 STATA BASE / GRAPHICS (versie 1.5) 4.1.1 ALGEMENE GEBRUIKSASPECTEN BESTURING van het pakket is op 3 manieren mogelijk, via menu, commando's en door de gebruiker te vervaardigen macro's. De commando's kunnen gebundeld worden in een zg. "DO-file"; hierdoor kan een analyse op eenvoudige (standaard}wijze worden herhaald. INVOER van gegevens kan geschieden vanaf het toetsenbord of vanuit een file. Deze file kan ASCII met spaties of komma's als scheider zijn, of bestaan uit een fixed-format bestand. UITVOER (alfa)numerieke: Vindt plaats op het beeldscherm en/of in file. De uitvoerfile kan zijn: - ASCII met spaties of komma's als scheider. Er kan gekozen worden tussen de numerieke waarden van de gelabelde variabelen of de label-naam zelf. - STATA-format, een gecomprimeerde versie die alleen door STATA begrepen wordt. Het is mogelijk dit format naar ASCII te converteren. - LOG-file, hierin wordt een verslag van de gehele sessie opgeslagen. Het is mogelijk om deze file weer als DO-file te gebruiken. De kwaliteit van de numerieke presentatie (tabellen) is goed. UITVOER grafisch: Is mogelijk op beeldscherm, printer en plotter. Bij het testen van het grafische deel van STATA traden bij het aansturen van de plotter problemen op (plaatjes worden halverwege afgebroken). Dit is bij de leverancier aangemeld; een reactie hierop moet nog volgen. Afgaande op de presentatie via het beeldscherm en het deel van de plaatjes dat wèl verschijnt, is de kwaliteit goed te noemen. RUIMTEBESLAG: STATA BASE / GRAPHICS vereist tenminste 256k geheugen en 2 diskette drives (DD/DS) of een enkelvoudige drive en een vaste schijf. De toegestane grootte van de datasets is afhankelijk van het beschikbare werkgeheugen. Met opties kan de beschikbare ruimte verdeeld worden tussen het aantal observaties en het aantal variabelen; het product van deze twee is ongeveer constant. Beschikt de PC over voldoende 'expanded' geheugen dan mogen de datasets 8 Mbyte groot zijn en tot 32754 observaties bevatten. Integers nemen 2 bytes in beslag, floats 4 en doubles 8. HELPFUNCTIE is on-line beschikbaar; na het indrukken van de betreffende toets verschijnt een help-menu van waaruit verder gekozen kan worden. Ook is het mogelijk om diverse onderwerpen direct te laten uitleggen. Overigens bevat de help-file meer items dan in het menu zijn opgenomen. Bij help aanroep van bepaalde onderwerpen wordt hiernaar verwezen. SNELHEID is een sterk punt van Stata, zeker wanneer gebruik gemaakt kan worden van een mathematische coprocessor 8087. Van de drie onderzochte pakketten is Stata (geschreven in "C") het snelste.
Evaluatie statistische pakketten
4.1.2 DATAMANIPULATIE COMBINEREN van observaties is mogelijk door het Merge-commando; hiermee wordt een dataset toegevoegd aan de reeds in het werkgeheugen aanwezige. SELECTIE vindt plaats door het conditioneren van commando's, bijv: "List variabele If conditie", waarin de conditie mag zijn: groter dan, kleiner dan, gelijk, en, of, niet. In geval van MISSING VALUES wordt gebruik gemaakt van "casewise deletion". Aanmaken van een nieuwe variabele (bijv. het kwadraat van een andere variabele) kan met het Generate commando. Een handig hulpmiddel is het Summarize commando; hiermee kan op eenvoudige en snelle wijze een indruk gekregen worden van een dataset. Er volgt een overzicht van de belangrijkste kenmerken van de variabele(n), namelijk! aantal observaties, minimum, maximum, gemiddelde en standaardafwijking. In combinatie met een conditionele List kunnen UITBIJTERS gelocaliseerd worden; verwijderen of wijzigen daarvan kan met resp. het Drop of Modify commando, Aan iedere variabele kan een naam van ten hoogste 32 characters worden toegekend; daarenboven kunnen VAARDE-LABELS voor de data worden gedefinieerd, bijv. 1 = man, 2 = vrouw. Toekennen van GEWICHTEN aan variabelen is mogelijk via het Generate commando (var = var * 10) of door associatie met een andere variabele. Het vervaardigen van EIGEN PROGRAMMA'S kent 2 niveau's: - Macro's die een variant zijn van de eerder genoemde DO-files; de invoer is hierbij variabel - Programma's die opgebouwd zijn uit bestaande statistische functies in combinatie met de beschikbare rekenkundige, logische en relationele operatoren. Moeilijkheid bij het schrijven van programma's is de taal (C) van Stata. 4.1.3 BESCHRIJVENDE STATISTIEK EN TOETSEN Naast de gangbare methoden zit in Stata nog een aanvullend pakket STAT.KIT, waarin extra methoden zijn opgenomen, bijv. zes parametrische tests, waaronder test op gelijkheid van steekproefgemiddelden onder aanname van onbekende doch (on)gelijke varianties en eenzelfde test voor gepaarde data. Onder de non-parametrische tests vallen Vilcoxon rank sum test, Wilcoxon matched-pairs signed rank test, Kruskal-Wallis test en sign test. Data summary voorziet o.m. in rekenkundig -, meetkundig - en harmonisch gemiddelde, het creëren van standaardwaarden en Speannan rangcorrelatie. 4.1.4 MÜLTIVARIATE ANALYSE Alleen mogelijk zijn de volgende analyses: regressie, (co)variantie, logit, probit en kleinste kwadraten regressie (Durbin Watson). 4.1.5 TIJDREEKSANALYSE Dit onderdeel is beperkt tot het creëren van vertraagde variabelen, smoothing en het doen van voorspellingen op grond van regressie-vergelijking.
Evaluatie statistische pakketten
4.2 SYSTAT (versie 3.0) 4.2.1 ALGEMENE GEBRUIKSASPECTEN BEDIENING. Behoudens een menu dat bij het starten van het pakket verschijnt met een verwijzing naar de diverse modulen, is Systat geheel commandogestuurd. De tijdens een sessie gegeven commando's kunnen worden opgeslagen in een z.g. Logfile; deze is later als commando-file bruikbaar via het Submit statement. Een belangrijk aspect van Systat is dat de standaardcommando's verweven kunnen worden met BASIC; hierdoor kunnen analyses op eenvoudige wijze geconditioneerd worden. INVOER van (alfa}numerieke data is mogelijk vanaf het toetsenbord door een ingebouwde fuil-screen editor (spreadsheet-achtige structuur), vanuit een ASCII-file (formatted of unformatted), of vanuit z.g. Systat-files. Het Data-module vergaart de toegevoerde data en zet deze om in (binaire) Systat-filesj verdere bewerkingen en analyses worden door de Proceduremodules verricht. UITVOER van (alfa)numerieke gegevens kan plaatsvinden in een file, op het scherm of op een printer. GRAFISCHE uitvoer is alleen op scherm of printer mogelijk; hierdoor is Systat belangrijk in het nadeel t.o.v. de overige pakketten in dit onderzoek. De vervaardigde print-plots geven wel een globale indruk van een situatie, maar zijn te grof voor nadere analyse of presentatie. Volgens de fabrikant in de VS zal rond in eerste kwartaal van 1988 een grafische module SYSGRAPH beschikbaar komen. RUIMTEBESLAG. De Data- en Procedure-modulen van Systat vereisen 512 K aan geheugen. De omvang van de datasets verschilt per procedure; in de meeste gevallen wordt de beperking gevormd door het aantal variabelen en niet door de observaties. Behalve bij de nonparametrische- en tijdreeks-routines is de vrije schijfruimte bepalend voor het toegestane aantal observaties. HELPFUNCTIE is ingebouwd en wordt aangeroepen door het commando HELP of HE, gevolgd door het onderwerp in kwestie. SNELHEID, Systat is geschreven in Fortran en maakt gebruik van de 8087 coprocessor (indien aanwezig). De snelheid ligt tussen die van Stata en Statgraphics in.
Evaluatie statistische pakketten
4.2.2 DATAMANIPULATIE Systat heeft uitgebreide mogelijkheden op dit gebied; naast de standaard commando's voor het horizontaal en verticaal COMBINEREN van files kan met behulp van Basic opdrachten allerhande SELECTIE en CONVERSIE gepleegd worden. Enige standaardcommando's zijn: - Standardize, standaardiseert data - Transpose, transponeert files - Diagonal, laat de diagonaal weg - Sort, sorteert een file op numerieke of character variabelen
De afhandeling van MISSING VALUES verschilt per procedure; de gebruiker kan hierop invloed uitoefenen door te kiezen voor een LISTWISE of PAIRWISE optie. WAARDELABELS van maximaal 12 characters kunnen aan numerieke variabelen worden toegekend; deze charactervariabele heeft dezelfde naam als de numerieke, uitgebreid met een $-teken.
4.2.3 STATISTISCHE MOGELIJKHEDEN SYSTAT bestaat uit een aantal individueel bruikbare modulen (hoofdstukken); naast het bovenbeschreven DATA-module kan in de standaard-uitvoering van het pakket beschikt worden over: - STATS (elementaire statistiek), bevat o.a.: minimum, maximum, gemiddelde, standaard afwijking, gegroepeerde data en post-hoc tests. - NPAR (non-parametrische statistiek) Kolmogorov-Smirnov 1 steekproef, sign, Wilcoxon, Mann-Whitney, KruskalVallis en Friedman two-way Anova - CORR (correlaties), produceert matrices op grond van: covariantie, Pearson correlatie, gamma-coefficienten, Guttman mu2 coef., Spearman rangcorrelatie, Kendall tau-b coef., rms differences - MGLH (Multivariate General Linear Hypothesis) Multiple regressie, post-hoc tests van regressie-coëfficiënten, polynoomregressie, partiële correlaties, autocorrelaties, (co)variantie-analyse, unbalanced designs, nested designs, (m)anova, discriminant analyse, principale componenten e.v.a. - TABLES (produceert tabellen) one/two-way, betrouwbaarheidsinterval, fit op log-lineair model, frequenties, rij- en kolom-percentages, berekenen coëfficiënten als phi, Cramer's V, contingency, Yule's Q en Y - FACTOR (principale componenten ) drie typen rotatie: varimax, equamax, en quartimax - MDS
(MultiDimensional Scaling)
Evaluatie statistische pakketten
8
- CLUSTER (cluster analyse) - SERIES (tijdreeks analyse) Smoothing, Fourier analyse, ARIMA-modellen, voorspelling - NONLIN (niet-lineaire schatting) gebaseerd op quasi-Newton of Simplex - GRAPH (grafische weergave op plotter) Maximale resolutie: 130 kolommen * 60 rijen Bruikbaar voor alle Systat-files Scatter- en functie-plots, histogrammen, staafdiagrammen, stem and leaf plots, box plots, waarschijnlijkheid-plots, quantile plots Optionele -niet onderzochte- modulen zijn: - REPORT WRITER - ECONOMETRICS - TEST SCORING AND ANALYSIS - FILE TRANSFER - LARGE (512 K) VERSION
Evaluatie statistische pakketten
4.3 STATGRAPHICS (versie 2.1) 4.3.1 ALGEMENE GEBRUIKSASPECTEN BESTURING vindt plaats via een menu-structuur. Het niet is niet mogelijk om een commandofile aan te maken; wèl kunnen commando's buiten het menu om benaderd worden. INVOER van (alfa)numerieke gegevens is mogelijk via een Full-Screen (spreadsheet)-editor en via files. Naast geformatteerde en ongeformatteerde ASCII-files kunnen DIF-, Lotus- en DbaselII-files ingelezen worden. Alle ingevoerde gegevens worden opgeslagen in specifieke Statgraphics-files. Be maximale omvang van een te importeren file is 256 Kbytes; dit vereist 640 Kbytes werkgeheugen. UITVOER van (alfa)numerieke gegevens vindt plaats op het scherm, op de printer of in een Statgraphics-file, die geconverteerd kan worden naar een file van ASCII-, Lotus-, DbaselII- en DIF-formaat. GRAFISCHE uitvoer is mogelijk op het scherm, de printer en plotter. De kwaliteit van de grafische presentatie is hoog, bovendien zijn er eindeloos veel mogelijkheden om de plaatjes op de gebruikerswensen af te stemmen (kleuren, labeling, gezichtshoek, zoomen, overlay e t c ) . De gemaakte plaatjes kunnen worden opgeslagen in files en zijn daardoor snel benaderbaar. Nadeel is dat het plotten veel tijd in beslag neemt. Het is mogelijk om een tweede monitor aan te sluiten zodat tekst en plaatjes tegelijkertijd bekeken kunnen worden. RUIMTEBESLAG. Statgraphics vereist 512K werkgeheugen; uitbreiding hiervan verhoogt de performance en de toelaatbare omvang van de datasets. Het pakket voorziet in zoveel mogelijkheden (editor, reportwriter, filemanipulatie, foil generator e t c ) , dat het gelijktijdig aanwezig zijn van andere software nauwelijks nodig lijkt. De uitgebreide HELPFUNCTIE is op ieder moment door een functietoets op te roepen en levert informatie over het op dat moment gebruikte onderwerp. SNELHEID is niet het sterkste punt van Statgraphics; oorzaak hiervan is de taal (APL) waarin het geschreven is. Vooral het plotten kost veel tijd. Voorzien is in een Performance Option waardoor bepaalde niet gebruikte routines of functies buiten werking gesteld kunnen worden. Het effect hiervan op de performance is echter nog niet onderzocht.
4.3.2 DATAMANIPULATIE Opgenomen is een File Operation procedure waarmee allerlei datamanipulatie mogelijk is. Beschikbare opdrachten zijn: Copy, Create, Edit, Erase, Join (horizontaal en verticaal), Print, Recode, Rename, Split en Update. Daarnaast is een aantal standaard-operatoren aanwezig waarmee de data bewerkt kunnen worden (o.m. Reshape, Diff en Compress) MISSING VALUES kunnen List- of Pair-vise opgevangen worden of gehercodeerd worden. WAARDELABELS. Statgraphics kent twee typen variabelen, numerieke en character. Het is mogelijk om deze vice versa te converteren. De variabelen worden gedefinieerd als scalairen, vectoren of matrices. Evaluatie statistische pakketten
10
OMVANG DATASETS. Iedere variabele mag maximaal 32 Kbytes in beslag nemen (characters beslaan 1, integere 2 en floating points 8 bytes). Sommige procedures staan echter minder dan 32 Kbytes toe omdat er tussenresultaten geproduceerd worden die meer ruimte innemen dan de originele variabele.
4.3.3 STATISTISCHE MOGELIJKHEDEN Evenals Systat bestaat Statgraphics uit een aantal modulen met daaronder verschillende procedures en functies. Data Management and System Utilities: - Data beheer en manipulatie - Systeem omgeving - Report writer en Graphics replay - Plotter interface Plotting and Descriptive Statistics: - Piot-functies (lijn- en scatterplots, staaf- en cirkeldiagrammen) - Beschrijvende methoden (tabellen, histogrammen, percentielen) - Schatten en testen (1,2-steekproef analyse, normale waarschijnlijkheid plots, histobars) - Verdelings functies - Exploratieve data-analyse Anova and Regressicm Analysis: - Variantieanalyse (One-way, Multifactor, Nested design, Kruskal Wallis) - Regressieanalyse (enkelvoudig, multiple, niet-lineair) Time Series Procedures: - Voorspelling (Smoothing, Trend analyse, seizoen decompositie) - Kwaliteit controle - Smoothing - Tijdreeks analyse ((Partiële) autocorrelatie, Box-Jenkins Arima) Advanced Procedures: - Categorische data-analyse (Kruistabellatie, Chisquare, Log-lineair) - Multivariate methoden (correlatie-, covariantie-, factor-, cluster-, discriminant-analyse, kanonieke correlaties) - Nonparametrische methoden (Wilcoxon, Kolmogorov-Smirnov, rangcorrelatie) - Sampling - Experimenteel ontwerp Mathematical and User Procedures: - Wiskundige functies (numeriek differentiëren, oplossen van simultane vergelijkingen, Eigenvalues en Eigenvectors, Fast Fourier Transform, LP-solution) - Supplementary operations (laden van operatoren en functies)
Evaluatie statistische pakketten
11
4.4 SPSS/PC+ 4.4.1 ALGEMENE GEBRUIKSASPECTEN BESTURING SPSS/PC+ is geheel coromandogestuurd. De tijdens een sessie gegeven commando's kunnen vorden opgeslagen in een file; deze is later als commando-file bruikbaar. In tegenstelling tot oudere versies van SPSS kunnen de commando's verbeterd worden zonder deze opnieuw helemaal in te typen (Review-optie). INVOER van (alfa-^numerieke gegevens is mogelijk vanaf het toetsenbord en vanuit ASCII-files. De optionele Data Entry-module voorziet in een (spreadsheet) editor. UITVOER van gegevens kan gelijktijdig plaatsvinden op het scherm, in een file en op de printer. Met behulp van de ingebouwde Report-writer kan een nette presentatie opgebouwd worden. GRAFISCHE UITVOER Niet duidelijk is wat de mogelijkheden met het basis-pakket zijn; de optionele Graphics-module maakt plaatjes via MS-CHART op het scherm en/of plotter . RUIMTEBESLAG SPSS/PC+ met de Tables, Advanced Statistics, Data Entry en Graphics modulen vereist 448 kByte RAM en ca. 7 Mbyte harddisc. Voor het totale pakket schijnt 8 a 9 Mbyte aan harddisc nodig te zijn. In bepaalde gevallen kan een uitbreiding van het geheugen noodzakelijk blijken. HELPFUNCTIE is op ieder moment van een sessie oproepbaar en levert informatie over de procedure, het commando of de utility in kwestie. SNELHEID ligt in dezelfde orde van grootte als die van STATA (litt. 3) Gebruik van mathematische co-processor (8087) wordt sterk aanbevolen. DATAMANIPULATIE SPSS/PC+ heeft uitgebreide mogelijkheden op dit gebied nl. HERCODEREN (Recode) van string of numerieke waarden, BEREKENEN (Compute) van nieuwe variabelen, SORTEREN (Sort) van files, toekennen van GEWICHTEN (Veight) aan waarnemingen, bijhouden van optreden van bepaalde waarden (Count), random selectie (Sample) uit waarnemingen etc. Permanente of tijdelijke TRANSFORMATIES zijn mogelijk door de Process If en Select If statements. Een mogelijkheid om UITBÏJTERS te locsliseren ontbreekt (litt. 4 ) . MISSING VALUES: worden opgevangen; niet duidelijk is op welke manier dit gebeurt, WAARDELABELS Toegestaan zijn 40-character variabelen en 20-character waardelabels. OMVANG DATASETS Het maximum aantal numerieke variabelen bedraagt 200; aan het aantal waarnemingen is geen impliciete beperking opgelegd.
Evaluatie statistische pakketten
12
4.4.2 STATISTISCHE MOGELIJKHEDEN Beschrijvende statistiek: Histogrammen, staafdiagrammen, percentielen en N-tielen, kurtosis en skewness (beide met standaardfout), variantie, kruistabellatie, hiërarchisch log-lineaire modellen etc. Vergelijken van groepen: Variantie-analyse balanced en unbalanced design, covariantie-analyse, trends, range tests, T-test onafhankelijk en gepaard etc. Multivariate-analyse: Correlatie, multiple regressie en analyse van residuen, factoranalyse, clusteranalyse. Non-parametrische toetsen: Kolmogorov-Smirnov (1&2), Kendall, Wicoxon, Mann-Whitney U, Moses, Kruskal-Wallis, Mediaan, Teken, Chi-kwadraat, Binomiaal, McNemar, Cochram, Friedman, Wald-Wolfowitz, Runs Test.
Optionele modulen bij het SPSS/PC-»- basis-pakket - ADVANCED STATISTICS, bevat o.nu: Factor analyse Discriminant analyse Loglineaire analyse Cluster analyse Multivariate variantie analyse (Manova) - TABLES, produceert tabellen - GRAPHICS, geeft aansluiting op MS CHART - MAPPING, maakt plaatjes van kaarten en districten; lijkt voornamelijk gericht op de VS. - TRENDS, voorziet in tijdreeksanalyse: Curve-fitting Smoothing Box Jenkins Spectraal-analyse - DATA ENTRY II, voor invoer en editen van data; spreadsheet mogelijkheid - GRAPH-in-the-BOX - SQC (Statistical Quality Control)
Evaluatie statistische pakketten
13
5. Samenvatting De belangrijkste wensen bij de gebruikers zijn het bewerken van grote datasets, vervaardigen van plaatjes van hoge kwaliteit en het incidenteel gebruik van bijzondere technieken. Op dit ogenblik komt geen der onderzochte pakketten aan al deze wensen tegemoett STATA BASE/GRAPHICS kan grote datasets aan, levert nette plaatjes doch is beperkt qua statistische mogelijkheden SI STAT kan grote datasets aan, kent veel technieken maar voorziet (nog) niet in een grafische module om een plotter aan te sturen (volgens de fabrikant zou zo'n module in het eerste kwartaal van 1988 leverbaar zijn) STATGRAPHICS is beperkt in de omvang van de datasets, beschikt over veel (op zich starre) technieken en vervaardigt fraaie plaatjes. SPSS/PC+ kan grote datasets aan, kent veel technieken en kan plaatjes vervaardigen. Deze plaatjes worden gemaakt via MS-CHART met de beperkingen van dien (maximaal 128 punten).
6. Conclusie en aanbevelingen Dit onderzoek wijst uit dat er op grond van inhoudelijke evaluatie geen voorkeur bestaat om één pakket in grote hoeveelheid aan te schaffen; de gebruikers zullen zelf moeten uitmaken welk pakket het meest geschikt is voor hun specifieke toepassingen.
De Dienst Informatieverwerking gaat over tot bestelling van 25 exemplaren SPSS/PC+ (waarvan 5 voor DGW) op site-licence basis. Voordelen van SPSS zijn dat het ook op mainframes beschikbaar is, hetgeen de overstap voor PC-gebruikers vereenvoudigt, en dat het pakket in de wetenschappelijke wereld algemene bekendheid geniet. Nadelen blijven de prijs, het ruimtebeslag en de beperkte grafische mogelijkheden. Indien genoegen genomen wordt met matige grafische presentatie, dan komen SPSS/PC+ en SYSTAT in aanmerking; deze blijken in gebruik nagenoeg gelijkwaardig te zijn. Wordt een fraaie grafische presentatie verlangd dan komen in aanmerking STATGRAPHICS mits de datasets niet te groot zijn en STATA wanneer volstaan kan worden met 'eenvoudige' technieken.
Evaluatie statistische pakketten
Bijlage A
Geraadpleegde litteratuur
1. " Statistische programmatuur voor jnacrocomputers (versie 2.1) B.E. Musegaas, uitgave MCM, juli 1984
2. " Statistische toepassingen op de microcomputer " uitgave MCM, october 1984
3. " Statistische programmatuur voor de personal computer " Prof. Dr. Ir. V.J. Keiler uit de brochure bij de TELEAC-cursus Statistiek, '86/ '87
4, " Statistische softvare " D,A. Nijburg en I. de Grefte uit Software Magazine, nr. k, april 19B7, pp. 14 t/m 29
5. " Turning data into information " C. Petzold uit PC Magazine, november 1985, pp. 155 t/m 160
6,
Special Report: " Statistics Softvare " A. J. Fridlund uit InfoWorld, 1 september 1986, pp. 31 t/m 39
Aanschaf statistisch pakket
Uitslag enquête statistisch pakket voor PC
Bijlage B
De getallen achter de diverse items geven het aantal responses weer. Algemene gebruiksaspecten
|t •• •• • ;— || WAARDERING
1. S t r u c t u u r
i—
INTEGRAAL (direct bruikbaar) MODULAIR (gebruiker schrijft programma dat de modulen aanroept) GEEN VOORKEUR
13 2 9
|| jj || jj
•••'
B E L A N
|| jj || jj
G R Y K
j| || |j jj
,, —
I N C I
|| |j jj jj L
0 N B E
j| j| jj \\
A N G R
II II D II 2. Pakketbesturing MENU (keuze uit opties) COMMANDO (gebruiker geeft opdrachten) GEEN VOORKEUR
13 4 7
|| \\ [j jj
II II li 3. Mogelijkheid tot vervaardigen command-file (opslaan volgorde en soort van bewerking) 4. Mogelijkheid tot invoer van variabelen vanaf:
KEYBOARD 21
FILE 22
5. Uitvoer numerieke resultaten op; SCHERM 20 PRINTER 22
FILE
23
6. De presentatie-kwaliteit van de numerieke resultaten
SCHERM 19
PRINTER
4
PLOTTER 21
8. De presentatie-kwaliteit van de grafische resultaten 9. Moeten andere programma's (pakketten) tegelijkertijd ter beschikking staan? NEE 5 JA 14 (zo ja, welke?) 10. Een ingebouwde "Help-faciliteit"
I
II II
||
||
jj
jj jj
I
II II
[| j|
j| j)
I
II II
||
j( jj
II II
||
|j
jj
jj jj
I
[j
II 11
|| 23 \\ 1 || O
I
II II
|| jj ||
|| jj |j
il
II 11
|| jj |j
|| 17 || 5 || 1
II II
|j 10 \\ 14 \\ 0
I 12. Combineren / sorteren binnen de observaties (rijgewijs)
0
|J 16 \\ 8 \\ 0
I 11. De factor verwerkingssnelheid
II E SI Y I! L |t K II II
|| 9 || 9 | jj jj j|
I 7. Uitvoer grafische resultaten op:
E N T E
II II
[j 15 [| 8 || 1
I
II II
13. Combineren / sorteren binnen de variabelen (kolomgewijs) |j 18 || 6 |j 0 Evaluatie statistische pakketten
II
I! II
14. Selecteren / vervaardigen subgroepen
|J 21 || 3 || 0
15. 16. 17. Mogelijkheid Toekennen gewichten (waarde vervaardigen )labels aan waarnemingen aan eigen variabelen routines / algorithmen
IIjI| 108 I ( lIi iI|\{J[ 231 | \{ ||i I111 140l
Uitslag enquête statistisch pakket voor PC De getallen achter de diverse items geven het aantal responses weer.
IJ WAARDERING
Beschrijvende statistiek en toetsen
|| L jj C jj B
18. Gemiddelden, varianties, percentielen e.d.
jj 23 |j 1 jj 0
I 19. Tabellen van gemiddelden, frequenties
I 20. Berekenen correlaties / associaties
II II
|| 22 [| 2 || 0
I 21. Toetsen van hypothesen
II II
|| 23 || 1 || 0
•
II II
|j 18 || 3 || 1
I
II II
22. Verdelingsvrije (non-parametrische) toetsen
|| 16 |j k || 1
23. Exploratieve data-analyse (localiseren uitbijters, vervaardigen grafiek)
j| || |j j| 18 |j 3 |j 1
I I Multivariate analyse 24. Regressie-analyse
I
II II ||
I
II II
\\
|| 21 |j 0 || 2
II II
|| 18 ||
I 26. Factor-analyse
II II
(|
li 25. Variantie-analyse
II II
||
il
2 |j 2
II II 6 ||
6 ||
5
II II
27. Cluster-analyse
||
28. Principale componenten-analyse
|| 5 || 9 || 3
il
I 30. Discriminant-analyse
[|
I 32. Log-lineaire modellen (Tabel-analyse)
6
II II
II II II II 2 |j
7 || k
II II
|| 6 |( 8 || 3
I Tijdreeksanalyse 33. Mogelijkheid tot creëren vertraagde variabelen
7 ||
)\ 6 ]| 7 J| 5
I 31. Logit / Probit-analyse
6 ||
II II
j| || |( jj 4 jj 8 jj 6
I
II II
Evaluatie statistische pakketten 34. Box/Jenkins-modellen
|| 6 j| 6 || 6
35. Filters / seizoencorrectie 36. 37. Voorspellingen Spectraalanalyse
I II 11 | i[I!l| 1087 |(I|jI 847II|1{|
7 3 4
uitslag enquête statistisch pakket voor PC
Gewenste "bijzondere" technieken: Logarithmische functies en 3-compartimenten modellen Exponentiele functies Koppeling analyseapparatuur aan computer t.b.v. opslag data in files Mergen van files Datacorrectie m.b.v. 'muis* Best-fit correlatietechnieken met vermelding van gebezigde formule Trend-analyse (ook niet-lineair) Normal analysis (g-type analysis) Curve-fitting (niet alleen log-lin) Tekstverwerking met formules
Ad vraag 9, overige programmatuur die tegelijkertijd beschikbaar moet zijn! Editor Multiplan Chart Spreadsheets Tekstverwerker Dbase
Evaluatie statistische pakketten
Bijlage C UITKOMSTEN ENQUÊTE VERSUS MOGELIJKHEDEN PAKKETTEN Legende Waardering: 1 « Belangrijk cq. onmisbaar 2 - Minder belangrijk cq. zal incidenteel gebruikt worden 3 = Onbelangrijk cq. zal nooit gebruikt worden 4 = Weet niet cq. niet ingevuld Pakket namen: 1 - STATA BASE/GRAPHICS versie: 1,5
2 - SYSTAT 3.0
Overige: Int - Integraal pakket Men = Menu-gestuurd K = Keyboard F = File
Mod *> Modulaire structuur Com » Commando gestuurd S •= Scherm P r •= Printer Pi - Plotter
+ = goed cq. aanwe2ig
- - slecht cq. ontbreekt l
WAARDERING
li
1!ii II
1
ALGEMENE ASPECTEN|| 1 Structuur 2 Besturing jj 3 Commandofile |j 4 Input jj 5 Nutn output jj 6 Num qualiteit || 7 Graf output j| 6 Graf qualiteitjj 9 Simultaan |j 10 Helpfunctie || 11 Snelheid jj
Int 13 Men 13 9 K 21 S 20 16 S 19 23 Nee 5
|| || jj jj || jj
4 - SPSS/PC+ c a . ?.?
o = matig cq. deels aanwezig
Fr
DATA-MANIPULATIE 12 Comb Rijen 13 Comb Kolommen 14 Selectie 15 Labelen 16 Gewichten 17 Eigen algor
3 = STATGRAPHICS 2.1
1
PAKKET
1
2
3
1
4
! i
1
2
3
4
1
1
Mod
2
Com
4
F Pr Pt Ja
17 10
15 18 21 8 10 8
9 22 22 8 14 1 14 5 14
Geen 9 Geen 7 0
Int o o 1 Men,Com 6
+
1 1 K.F F Pi
23 0 21 0
I 0 1 0 0 1
8
6 3 14 10 11
2 3
o :
S.Pr.P
o I o 1 S.Prr.Pi o I o +
Int,Men Men,Com
Int Com
Int Com |
K,F
+ ji K.F 1
+ K.F S,Pt,F
+
1' |,
S.Pt.F
+
S.Pr.Ff
+
f
S,Pr,Pi|
+ f
h i
+
+ -
+ II + li
+
+
+
o 1
+
+ +
1 1 2 1 2 I
+
+ + + + g
0
5 |
+
b
l 1 o 1
+
+
+
1 o 1
0
|
a
+ + c
|l Si
II + II + II + II + II
+ II
- II I tl
0 0 0
1 1 -
BESCHRIJVENDE STATISTIEK EN TOETSEN 1 23 18 Gein, var, perc|| 1 23 19 Tabellen jj 2 20 Correl, assoc |j 22 3 21 Toetsen hypo jj ie 22 Non-par toets jj 16 4 3 18 23 Explor analyse||
1 o 1 o 1 o 1
+ +
2 I 3 I 2 I
+ +
i
Evaluatie statistische pakketten
+
d
+
+ II
+
+
+ + +
+ +
+ 11 + II + II
+
+
4
+ \l
1!
WAARDERING
MDLTIVARIATE ANALYSE 24 Regressie || Z5 Variantde || 26 Factor |j 27 Cluster |j 28 Princip componjj 30 Discriminant || 31 Logit || 32 LogLin jj TIJDREEKS ANALYSE 33 Vertragingen || 34 Box Jenkins || 35 Filters smoothjj 36 Spectraal j| 37 Voorspelling |
21 18 6 6
5
0 2 6 7 9 7
PAKKET
2
1
2
2
5 6 3
7
7
5 4
8
3
4 6 10 7
8 6 4
6
8
B
7
6 2 6
+ k II
5 7 6
11 7
6
6 6
7
3
3 4
5
6
NOTEN 1. STATA a. Het vervaardigen van eigen algorithmen en functies is mogelijk in een speciaal 'Stata-taaltje'. 2. SYSTAT b. Beschikt over een eigen full screen (data)editor. Optioneel verkrijgbaar zijn: Report writer, Econometrics, Test scoring and analysis, File-transfer en een Large Version. c. Standaard routines en functies kunnen verweven worden m.b.v, Basic-statements. d. Kent wel gemiddelden en varianties doch geen kant en klare procedure voor het berekenen van percentielen, e. Vooralsnog niet duidelijk of dit ook geldt voor tijdreeksen. 3. STATGRAPHICS f. Beschikt over een aantal hulpmiddelen zoals full-screen editor, report-writer, file manipulatie, foil generator, g. Beperkt mogelijk, uitgebreid mogelijk indien APL gebezigd wordt (vereist een APL-compiler). 4. h. i. j. k.
SPSS/PC+ Het grafische deel bestaat uit een interface naar Microsoft Chart Werkgeheugen vereist 450K; achtergrondgeheugen 8 a 9 MByte Niet-lineaire regressie ontbreekt (litt. 6) Bij ingewikkelder variantie-analyse vervalt men in MANOVA; dit vereist veel geheugen, hetgeen beperkingen aan de datasets stelt (litt. 6 ) ,
Evaluatie statistische pakketten
Bijlage D Overzicht leveranciers en prijzen
Naam pakket
|| STATA BASE + || SYSTAT [| STATGRAPHICS || SPSS/PC+ || |j GRAPHICS || (Basispakket) ij PC || (Basispakket) ||
Geteste versie
|| 1.4
I
II
P r i j s e x c l . btw
|| f l 1 6 9 5 . -
|| f l 1 6 9 5 . -
I
II 1.5
="•) f( 3.0
li
II
II
|| 2.1
|| Litteratuur
11 a
II i
a
) | | f 1 • 2950.-
|| Oasis
|| SPSS Benelux ||
11
II
II
II
|| = 1 Mb
|| = 2 Mb
|| = 2 Mb
|| ~ 7 Mb
I
11
II
II
Minimaal RAM
j| 256 kb
j| 512 kb
jj 512 kb
j| 448 kb
11
li
Aantal floppy's
|| 3
||
Noten:
I
II
|| L i c e n c e
) | | Quantum
7
) II
II
Ruimtebeslag
6
II A
II
|| Oasis
5
||
II
) | | fl 1695.-
Leverancier
K orting e.d. x
)|j Oasis
II
II II 5
)||
II ||
II
II
IIJ I
|| 6
|| ?
||
II
II
) | | Geen
|| L i c e n c e
II B
\"
) Het pakket STATA (versie 1.4) werd aanvankelijk bij Logicsoft besteld. Omdat deze firma niet in staat bleek het bijbehorende grafische deel STATA GRAPHICS binnen afzienbare tijd te leveren, werd de bestelling bij Oasis geplaatst.
a
) De SYSTAT 512K-versie kost fl. 1995.-
a
) De nieuwste versie van STATGRAPHICS/PC is 2.6; deze kost f1. 1995.Een update vanaf release 2.0 naar 2.6 wordt geleverd voor fl. 395.-
*) Met ingang van 1-1-1988 gelden de volgende prijzen voor individuele SPSS/PC+ pakketten (allen versie V2.0): - Base fl. 2950.- Advanced Statistics fl. 1300.- Tables fl. 1300.- Graphics fl. 1300.- Mapping fl. 1300.- Trends fl. 1300.- Data Entry II fl. 1300.- SQC fl. 150.Totaal:
f1, 10900.-
a
) Afhankelijk van het aantal geïnstalleerde pakketten: de volledige set beslaat 6 è 9 Mb.
6
) Op 21 september 1987 golden voor STAT de volgende licentie-bedragen (jaarlijkse kosten): Maximum aantal copieën:
25 = fl. 8000
Evaluatie statistische pakketten
5_0 = fl. 12000 1
Koten (vervolg): 7
) Getracht is om voor SYSTAT tot een licence-agreement te komen; dit is tot op heden niet gelukt. Wèl golden op 2 october 1987 de volgende quantumkortingen; 52 2 tot 5 stuks 6 tot 10 stuks 101 11 tot 20 stuks 152 21 tot 30 stuks 20Z 31 tot 50 stuks 252 51 of meer 302
') Op 23 september 1987 golden voor SPSS/PC+ de volgende licentie-bedragen (jaarlijkse kosten): Maximum aantal copieën: 50 2p0 Base Advanced Statistics Tables Data Entry II Trends
fl. £1. fl. fl. fl.
4680.3900.3900.3900,3900.-
fl. fl. fl. fl. fl.
9360.7800.7800.7800.7800.-
Mondeling werd overeengekomen: fl. - Graphics
3900.-
fl. 7800.-
Prijzen numerieke co-processoren (excl. btw en korting): - 8087 voor PC: fl. 960.- 80287 voor AT: f1. 1290.- 80287 voor AT386: f1• 1625.-
Evaluatie statistische pakketten