Statistiek les 1 &2
11/02/2015, 25/02/2015
Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS Examen: week 20-‐24 april: schriftelijk examen met toepassing SPSS, geen open boek, wel sterk toepassingsgericht, in de PC-‐klas Lesmateriaal: -‐slides theorie en practica, op Minerva -‐reader: niet te kennen, maar bevat aanvullende uitleg voor het examen of Masterproef Leerdoelen: Vertrouwd worden met basisbeginselen statistiek Eenvoudige toepassingen in SPSS Te kennen: Slides theorielessen Technieken SPSS zoals aangeleerd tijdens practica OVERZICHT LESSEN Les 1 DEEL 1: basisprincipes voor het uitvoeren van een empririsch kwantitatief onderzoek DEEL 2: univariate analyse= data leren beschrijven en samenvatten 2e les: DEEL 1: Vervolg univariate analyse DEEL 2: Bivariate analyse =associaties leren ontdekken 3e les DEEL 1: eigen onderzoeksresultaten interpreteren en correct rappotreren Deel 2 integratieoefening (paper beoordelen)
INLEIDING: De zin van introductie in statistiek voor rechtenstudenten Zoekmachines: google scholar, web of science (via Ugent, zie handleiding op Minerva) Om specifieke tijdschriften te vinden ivm empirisch onderzoek: vb Journal of empirical legal studies.
1
Statistiek les 1 &2
11/02/2015, 25/02/2015
Vb van empirisch juridisch onderziek: Hoe doeltreffend zijn wetten? Welke positieve en negatieve gevolgen van wetten? Hoe zijn rechters mogelijk gebiased in hun oordeel? Strategieën voor empirisch onderzoek: -‐Welke meerwaarde? -‐Vanuit welke theorie ga je vertrekken? -‐Belang van replicatie= bepaalde voorspellingen die al bewezen zijn heronderzoekn adhv andere, nieuwe data uit een andere context (vb iets aangetoond ook in Belgie?) -‐Bekijken van trends etc…zie slides Kwantitatief versus kwalitatief Kwantitatief: gegevens die sterk cijfermatig zijn en omgezet kunnen worden in een cijfer vb man= 0, vrouw= 1 Kwalitatief: gegevens veel moeilijker om te zetten in cijfermateriaal vb inhoudsanalyse interviews, vonnissen, documenten etc. De zin van statistiek Deze lessen kunnen een leidraad zijn als je kwantitatieve gegevens wil verwerken in je masterproef, voor uitdieping: zie reader Minerva Je mag altijd feedback vragen:
[email protected] Ook als je geen kwantitatief onderzoek gaat doen, is het toch belangrijk om met een kritische blik naar onderzoeken te kunnen kijken (is het effect wel zo groot als beweerd?)
THEORIELES 1
Te kennen -‐Basisprincipes voor empirisch onderzoek Echt te kennen en begrijpen: wat in vet staat id slides -‐Aspecten van beschrijvende statistiek Hoe beginnen aan je onderzoek? 1. Onderzoeksopzet= je algemene doelstelling bepalen= thema afbakenen Vb: een studie over het beroepsprofiel van de advocaat 2. Onderzoeksvraag -‐Beschrijvende stellingen: om gegevens weer te geven, op een samenvattende manier vb: welke verdeling stagiaires per balie, welke leeftijd stagiaire,…=1 kenmerk -‐Verklarende stellingen: we gaan verbanden zoeken tussen twee of meer kenmerken vb: is er een verschil tussen stagiare en advocaat mbt opnemen pro-‐
2
Statistiek les 1 &2
11/02/2015, 25/02/2015
deo, is er een verschil tussen mannen en vrouwen bij het overwegen om het beroep te verlaten= 2 kenmerken 3. Onderzoeksmethode 3.1 Plannen: welke gegevens nodig om een antwoord op mijn onderzoeksvraag te vinden, hoe verzamelen, hoe concepten operationaliseren, hypotheses formuleren, statistische analyse bepalen. Welke gegevens= -‐Eenheden: onderzoeksobject: vb Vlaamse advocaat= persoon -‐Onderzoekspopulatie: alle Vlaamse advocaten -‐steekproef: een representatieve staal (deelverzameling) : een deel vd Vlaamse advocaten Op basis van de gegevens van de steekproef doe je uitspraken over je populatie. =inductieve statistiek= veralgemenen van bevindingen uit je steekproef naar de algemene populatie Hoe trek je een steekproef? Op een aselecte manier= de ideale steekproef, selectie is gebaseerd op toeval= representatieve steekproef= je groep moet representatief zijn, een perfecte afspiegeling van je populatie= niet steeds haalbaar (want beperkte middelen, tijd, soms weet je het nog niet op voorhand) Technieken om zoveel mogelijk representatief te werken: zie reader minerva (niet te kennen) Wat je wel moet kennen: de typisch valkuilen Selectiebias: enkel advocaten aanschrijven die je persoonlijk kent, of enkel uit een bep. regio of groep…. Non-‐respons bias: wanneer bepaalde groep je enquête niet invult , bijv de advocaten met een te hoge werkdruk -‐Variabelen: kenmerken van de eenheden die verschillen vb geslacht , leeftijd, ervaring,… -‐Hoe ga ik mijn theoretisch concept operationaliseren? Op voorhand over na denken!! Vb onderzoek naar ideologie, hoe ga je dit meten? Met welke vragen? -‐Met welke methode ga ik mijn gegevens verzamelen? Zelf verzamelen : databank aanleggen (vb van vonnissen) of vragenlijst opstellen: zie doc op Minerva, er is ook software om data online te verzamelen (surveymonkey) of gebruikmaken van een externe publieke databank. -‐Welke onderzoeksvragen ge ik gebruiken (beschrijvende of verklarende)? -‐Welke statistische analyse ga ik uitvoeren? Univariate (dus eerder beschrijvend) of bivariate(eerder verklarend) ? Op voorhand bepalen!
3
Statistiek les 1 &2
11/02/2015, 25/02/2015
3.2 Uitvoeren: Gegevens verzamelen en analyseren 3.3 Interpreteren en rapporteren DEEL 2 UNIVARIATE BESCHRIJVENDE ANALYSE Beschrijven van 1 kenmerk tegelijk! Geen verbanden of associatie Doel: beschrijven en/of samenvatten van grote hoeveelheden data, soms als startpunt, soms als doel op zich De technieken die je kan toepassen hangen af van het meetniveau vd variabele 4 meetniveau ‘s, in 2 groepen Categorische variabelen : nominaal en ordinaal Metrische variabelen: interval en ratio variabelen Nominale variabelen: kwalitatieve variabelen, zonder hierarchie of volgorde, vb geslacht, opleidingsniveau= meest beperkte mogelijkheden Ordinale variabelen: wel een logische volgorde, je kan ze ordenen vb hoogst behaalde diploma, frequentie gebruik: nooit, soms, altijd….vaak met categorieën (vb aantal jaren in dienst, opgedeeld in 7 klassen van 5 jaar…) Metrische variabelen Interval-‐variabelen: Zijn cijfermatig (kwantitatief) , meeteenheid (vb jaar), gelijke afstand tussen de opties: vb hoeveelste jaar: 1e, 2e, 3e, (nul is geen optie) Ratiovariabelen: numeriek, ordening, meeteenheid, er is ook een zinvol nulpunt: vb hoeveel uren heb je gewerkt (nul is ook een optie) . Met deze variabele kan je de meeste statistische technieken toepassen. Altijd goed nagaan welke soort variabele je voor je hebt! 2.1. Frequentietabellen Met elke variabele kan je dit doen Is een samenvatting van je data vb hoeveel mannen/vrouwen, hoeveel diploma’s…. Zie slide met tabel over vraag naar stelen Absolute frequentie: aantal mensen die nul keer hebben gestolen, 1 keer hebben gestolen enz. Steekproefgrootte (N) : alle bevraagde mensen Totaal : alle mensen die hebben geantwoord op die vraag Relatieve frequentie (=proportie): absolutie frequentie/ totale steekproefgrootte (N) Percentage: proportie X 100 Valide percentage: percentage berekend op effectief beantwoorde vragen ipv N: absolute frequentie/totaal (zo hou je geen rekening met de missing values, vragen die niet zijn beantwoord).
4
Statistiek les 1 &2
11/02/2015, 25/02/2015
Cumulatief percentage: percentage die kleiner of gelijk zijn aan een bepaalde waarde: telt op hoeveel % mensen iets hebben gestolen, 1 keer of minder, 2 keer of minder, 3 keer of minder enz. 2.2. Grafieken Taartdiagram: best met minder dan 5 categorieën, vooral voor nominaal Staafdiagram: 2 assen, X-‐as geeft altijd categorieën weer (vb inkomen Vlaamse advocaat) Y as geeft absolute of relatieve frequentie weer , Histogram: als staafdiagram maar blokjes staan tegen elkaar, vooral voor metrische variabelen 2.3. Centrummaten: parameters van centraliteit Modus: waarde met de hoogste frequentie= meest typische waarde vb waar gestudeerd en meeste antwoord Ugent, dan is Ugent de modus, 2 modi zijn ook mogelijk vb Ugent en KUL Mediaan: middelpunt vd verdeling (vanaf ordinaal) , mediaan verdeelt in twee, helft heeft lagere waarde en andere helft hogere waarde. Alle waarnemingen ordenen van laag naar hoog, mediaan is ((n+1)/2), je kiest dus de middelste waarneming, bij even waarnemingen moet je de twee middelste nemen en er het gemiddelde nemen Kwartielen: vanaf ordinaal, er zijn er 3: Q2: globale mediaan, ordenen van laag naar hoog, mediaan zoeken, dan Q1 en Q3 zoeken. Q1: 25% is kleiner, 75% is groter, je kan de mediaan onder Q2 nemen Q3: je neemt mediaan boven de globale mediaan (Q2) Rekenkundig gemiddelde: alle observaties optellen en delen door totaal. Dit gemiddelde is gevoelig voor uitschieters door extreme waarden (vb O/20) dit haalt je gemiddelde heel sterk beïnvloeden. De mediaan heeft dit probleem niet. Schema op slide “verantwoord kiezen tussen grafieken en centrummaten” goed kennen! Je moet goed weten wat je met welke variabele kan doen! à Je moet kiezen op basis van je onderzoeksvraag en je meetniveau Zie de reader op Minerva (korte doc!) aanrader!
Theorieles 2
2.4. Spreidingsmaten Wat kan is afhankelijk van het meetniveau Spreiding: de mate waarin er spreiding (verschil) is tussen de eenheden.
5
Statistiek les 1 &2
11/02/2015, 25/02/2015
Spreiding kan je op verschillende manieren uitdrukken a) Variatiebreedte (“Range”) Het verschil tussen de grootste en kleinste waarde, maar dit zegt niet zo veel over de verspreiding tussen deze waarden. Bereik: hoeveel verschil tussen max en min: vb slide: 23 b) Interkwartielafstand (IKA) Vanaf ordinaal niveau Afstand tussen Q1 en Q3, geeft de centrale 50% weer Berekenen: Q3-‐Q1 c) Variantie Gebaseerd op het gemiddelde, hoever is je waarneming verwijderd van het gemiddelde, uitgedrukt in s2, niet resistent tegen outliers (extreme waarden, beïnvloeden teveel het resultaat) Uitleggen formule variantie Variantie= s2 X met streep boven is gemiddelde N= steekproefgrootte Eerst eenheid min het gemiddelde, dan kwadrateren, dan al die verrekende eenheden optellen en dan delen door het steekproefgrootte-‐1 Formule moet je niet onthouden, wel de redenering snappen en kunnen berekenen met spss d) Standaardafwijking (S) Vierkantswortel van de variantie Heeft dezelfde meeteenheid als de variabele Geeft het gemiddelde weer van de afwijkingen van alle waarden tov het gemiddelde?. Hoe interpreteren? Vb slides: 6,27. Is uitgedrukt in jaren, gemiddeld wijkt de leeftijd 6,27 jaar af van de gemiddelde leeftijd !Vormen van spreiding: we kijken ook altijd hoe het eruit ziet op een grafiek: symmetrisch, asymmetrisch (links of rechts). M=mediaan Zie ook de boxplot: niet kunnen maken maar wel kunnen interpreteren! Uiteinden boxplot steeds bepaald door 1,5 maal IKA Q1 en Q3 Steekproef vs populatie: addendum niet kennen, weten dat je de twee uit elkaar moet houden. DEEL 2 BIVARIATE ANALYSE 2.1 Inleidende begrippen Causatie: het ene veroorzaakt het andere, onafhankelijke variabele: veroorzaakt het effect, afhankelijke variabele: varieert door het effect Associatie (correlatie): wel verband maar geen oorzakelijk verband, beiden beïnvloeden elkaar, of er is geen beïnvloeding,…. Filmpje: verband tussen ijs en verdrinkingen, beiden stijgen. Maar de onderliggende factor is het mooie weer, zorgt voor verdrinking én ijsjesverkoop. Dus opletten om zomaar een causaal verband te veronderstellen, misschien enkel associatie!
6
Statistiek les 1 &2
11/02/2015, 25/02/2015
Voorbeeld in filmpje: goede punten zorgen voor hoog zelfbeeld, maar hoog zelfbeeld zorgt niet voor goede punten Technieken die we vandaag zien zijn enkel gericht op associatie (causatie vereist ingewikkelder technieken, niet in deze cursus). Vereisten voor causatie 1)A gaat vooraf aan B (verlaten beroep & geslacht, geslacht kan verlaten beroep verklaren maar niet omgekeerd) 2)Statistisch verband 3)Geen alternatieve verklaring mogelijk Mediërende variabele: A heeft invloed op C die B beïnvloedt Modererende variabele: bep verkoopstechnieken (C ) hebben invloed op relatie tussen A en B Gemeenschappelijke oorzaak: vb goed weer verklaart beide andere variabelen: C beïnvloedt A en B Hypothesen formuleren Op basis van een theorie Wees realistisch: enkel op basis van data die je echt hebt. Nulhypothese= er is geen verband Alternatieve hypothese: er is wel een verband. We testen altijd voor de nulhypothese H0: indien deze verworpen moet worden, moeten we ons wenden tot Ha De significantietoets: is je bevinding wel waar voor de gehele populatie? Is een p-‐waarde en altijd in decimalen, tussen 0 en 1, wordt berekend door SPSS Dus als p < 0,05 dan is er waarschijnlijk een verband Hoe kleiner je p-‐waarde hoe meer zekerheid dat er een verband zal zijn (en dat je de nulhypothese mag verwerpen). Vanaf p= 0,10= nooit H0 verwerpen, teveel kans op fouten (10%)! Bad practice: je kan niets afleiden over significantie door te kijken naar een grafiek! Significantie= gaat over het extrapoleren van effecten naar je gehele populatie, door grafiek kan je enkel iets zien over sterkte van het verband. Zie opmerkingen bij de slide. 2.2 Statistische technieken Welke technieken voor welke variabele Nominaal: is er relatie (is ze significant= geldig voor hele populatie) en hoe sterk is ze? Ordinaal Welke richting? Interval
7
Statistiek les 1 &2
11/02/2015, 25/02/2015
Lineair verband? 2.2.1 Categorische variabelen = nominaal en ordinale variabelen, bestaan slechts uit ‘categorieën’ (vb geslacht, jaar van aanstelling, politieke voorkeur…) Een richting is niet mogelijk. De kruistabel Zie slide Zie slide significantietoets: Is er een verband: Chi2 toets (spss berekent) voor 2x2 tabellen Hoe sterk wijken de resultaten af van de waarden die we zouden hebben indien er geen verband bestaat? Interpretatie: hoe groter Chi2, hoe meer verband, als geen verband: Chi2 is nul Normeren: kijken naar de P-‐waarde Hoe sterk is het verband? Nominaal/nominaal of Nominaal/ordinaal: Phi en Cramers V Odinaal/ordinaal: Gamma, Kendall’s Tau-‐B 2.2.2. Verbanden tussen metrische variabelen Puntenwolk 1e test: Is er een lineair verband? Kan je wel een lijntje trekken in de puntenwolk? Is er een kromme (vb 3 op slide) is niet lineair! Enkel kijken naar rechtlijnige relaties! Associatie tussen variabelen Covariatie: in welke mate variëren ze samen? Varieren ze op dezelfde manier voor X en Y? Hoe berekenen? Zie slides (maar wie begrijpt da nu??) CovariaNtie: hoe hangt de spreiding van een variabele af van de spreiding van een andere variabele Correlatiecoefficient (de belangrijkste) (R ) : Deze is het eenvoudigst te interpreteren, heeft altijd een teken, plus of min, varieert tussen +1 en -‐1, nul: geen associatie SPSS berekent dit, moet je kunnen interpreteren, drukt de sterkte van je verband uit, en de p-‐waarde zal bepalen of je een verband mag veronderstellen in je populatie (en niet enkel in je steekproef). Correlatie vs causatie!
8
Statistiek les 1 &2
11/02/2015, 25/02/2015
Zie slide 2;2;3 Verband tussen categorische en ratiovariabele T-‐Toets: F-‐Toets: hoe sterker de varianties tussen de groepen, hoe groter F toets ANOVA: zegt ze niets over Wat onthouden over wiskundige achtergrond formules? Je moet weten wat het betekent, waarnaar het kijkt. Formules niet van buiten kennen.
Theorieles 3
Leren interpreteren en rapporteren, geen nieuwe technieken meer. DEEL 1 onderzoeksresultaten interpreteren p.waarde: altijd afronden tot 3 decimalen andere: op 2 decimalen afronden oefenblaadje, antwoorden op minerva DEEL 2 structuur academische paper -‐Abstract= korte samenvatting van je onderzoek (max 200 à 300 woorden) -‐introductie: begin eigenlijke tekst, omschrijving , doelstelling, onderzoeksvragen -‐methoden (dataverzameling, extrapolatie, gebruikte analysetechnieken enz) kennen: validiteit en betrouwbaarheid zie slides EXAMEN 1 uur, gesloten boek inzicht en toepassing geen definities en formules
9