Powerpoint #1 Methodologie, Hoe komt je aan betrouwbare kennis. Hoe je kan onderzoeken zodat er maar 1 interpretatie mogelijk is. Beschrijvende statistiek, gegevens presenteren. Zo systematisch en objectief mogelijk. Statistiek, hoe aannemelijk is het dat gegevens door toeval tot stand kunnen komen. Kansrekening, kansen en intuïtie. Soorten variatie; natuurlijk(mensen verschillen), methodisch(2 metingen kunnen verschillende waarden opleveren), factorieel(bv rokers hebben altijd hogere bloeddruk dan niet-rokers) In statistiek beschrijft een kansmodel de variatie in populatie. Daaruit komen voorwaardelijke kansuitspraken over de steekproefuitkomsten. Deze uitspraak geeft een betrouwbaarheid over de populatie. Kenmerken - categoriaal /kwalitatief
-Kwantitatief /numeriek
-Dichotoom (geslacht of aanwezigheid) -Nominaal (niet gecategoriseerd; oogkleur of geboorteland) -Ordinaal (logische volgorde/gecategoriseerd; orkaankracht, opleiding) -Discreet (aantal/telbaar) -Continu (ontelbaar; gewicht temperatuur)
Categoriale waarnemen in taart- of frequentiediagrammen. Continue gegevens in histogram, box-wiskerplot of stem en leafplot. Categoriale variabelen in stapeldiagram en numerieke in scatterplot. Samenhang numerieke waarnemingen; correlatie. Gemiddelde Mediaan is de middelste waarde van een geordende reeks. Standaardafwijking
√
(
)
(
)
(
)
Range is hoogste – laagste meetwaarde IQR is Q3-Q1. Middelste 50% van een geordende reeks. Correlatiecoëfficiënt
∑
Waarde tussen -1 of 1. 0 betekent afwezigheid verband.
Complementregel Pr(a)=1-Pr(¬a) Somregel Pr(AvB)=Pr(A)+Pr(B) Algemene somregel Pr(AvB)=Pr(A)+Pr(B)-Pr(AnB) Correctie voor dubbeltelling. Productregel Pr(AnB)=Pr(A)*Pr(B) Algemene productregel Pr(AnB)=Pr(A)*Pr(B|A) |=Gegeven dat Sensitiviteit kans dat je een positieve test gegeven dat je ziek bent Pr(+|Z) Specificiteit kans dat je negatieve test krijgt als je niet ziek bent Pr(-|NZ)
Alternatieve verdeling is dat je 2 mogelijke uitkomsten meet. Je bent lactosetolerant of niet. Man of vrouw. Wel of niet ziek. Dichotome uitkomsten dus. Meestal aangeduid met failure (0) en succes(1). Binomiale verdeling is een meting doen aan een dichotome uitkomst. Bv 14 willekeurige studenten het geslacht.
(
)
(
)
(
)
Poissonverdeling bij zeldzame, onafhankelijke gebeurtenissen. Natuurrampen, auto-ongelukken op de boelelaan. Discrete uitkomsten.
(
)
Standaardiseren z=X-μ/ Standaard deviatie
Drie eenheid statistiek is de populatie, steekproef en model. Stadaardfout rond een proportie is Proportieberekening
( )
(
)
z=1,96 bij 95%
T verdeling, moet gemiddelde en sd bepalen. Schatten van σ en sd. Sd is preciezer met veel metingen. Vrijheidsgraden zijn gelijk aan 1-N. Bv; bij 5 gegevens is de df 4. T95%;df4=2,776 (in tabel) Als de df erg groot is zijn z en t verdeling identiek. sd is te verkleinen door homogene populatie en nauwkeuriger werken. Powerpoint #2 Statistische toets is objectief. De hypothese gaat over een populatie niet over de steekproef. Overschrijdingskans (P waarde) is kans op ≥K toevallig goed hebben. Hoe kleiner de P waarde hoe slechter het toeval de gegevens verklaard. Een toets is gebaseerd op een nulhypothese en een alternatieve hypothese. Toetsingsgrootheid is de maat voor hoe ver de gegevens afwijken van wat je verwacht als h0 klopt. Als iets kleiner is dan 5% dan kan de nul hypothese verworpen worden en worden geconcludeerd dat de alternatieve hypothese aangenomen kan worden. Een en tweezijdig toetsen. Bij tweezijdig toetsen moet je keer 2 doen! Eenzijdig als de hypothese een richting aangeeft en de alternatieve uitkomst oninteressant is. Type I fout is als je de h0 verwerpt maar hij waar is. Pr(verwerpen|h0) Type II fout is als de H0 niet waar is, maar verworpen wordt. Pr (behouden|h1) Als h0 waar is, is X onwaarschijnlijk. Als X waar is, wordt H0 verworpen. “Wanneer de kans op een gemiddelde van 10 (of nog verder van h0) heel klein is als de h0 waar is, zal h0 niet waar zijn. Kleine P waarde betekent een sterk signaal, dus dat de werkelijkheid van h0 afwijkt. Of weinig ruis, dus door de grootte van de steekproef heb je de rol op toeval geminimaliseerd. De P waarde is de kans op de waargenomen gegevens, of nog extremere, als je ervan uitgaat dat H0 klopt.
BALDI & MOORE Chapter 1 Populatie is de groep van individuen waar we informatie over willen. Een variabele zijn de karakteristieken van het individu. Er zijn 2 soorten variabele - categoriaal; in een of meerdere categorieën -nominaal (ongeordend; bv bloemkleur) - ordinaal (logische volgorde, schalen bv van 1 tot 5) - kwantitatief; numerieke waardes waarmee je rekenkundig kunt werken - Continu (ontelbaar, elk nummer op een interval) - Discreet (telbaar) Distributie/verdeling is hoeveel een variabele plaatsvind en op welke waarde. Categoriale distributie zie je hoeveel procent van de individuen in een categorie valt. Counts worden ook wel frequenties genoemd. En de procenten daarvan zijn relatieve frequenties. Taart chart zijn ronde figuren, elke kleur geeft een procent aan van een categorie. En hebben alle categorieën nodig om een geheel te vormen Bar graphs zijn balken naast elkaar. Op alfabet of van groot naar klein. Histogram(kwantitatief) lijkt op een bargraph, maar plaats individuen in categorieën. Bv haai lengte 11 tot 13 feet, 13 tot 15, ect en een bar plaatst verschillende items die vergeleken worden, bv verschillende ziektes en procenten ervan. De balken zitten hierbij niet aan elkaar, Graphs moet je altijd nog bekijken en omschrijven. Graphs kunnen symmetrisch, skewed of bimodal(2 pieken) zijn. skewed naar links is als er meer waarden naar links liggen dan naar rechts vergeleken met het hoogste punt. Stem en leave plot heeft 2 kolomen met afgeronde getallen Dotplot. Timeplot
Chapter 2 Gemiddelde/mean
Kan omhoog of omlaag gebracht worden door uitschieters.
Mediaan is het middelste getal als de observaties in een reeks staan van laag naar hoog. (n+1)/2. Gemiddelde en mediaan liggen dichtbij elkaar, maar bij een skewed distributie ligt het gemiddelde anders door uitbijters. q1 is het eerste kwartiel. Q3 het derde kwartiel. 5 nummer summary bestaat uit minimum, Q1, mediaan, Q3 en maximum. Hiermee is een boxplot te maken. IQR=Q3-Q1. Dit is de interquartile range. Q1-(1,5*IQR) en Q3+(1,5*IQR), als waarden hier buiten vallen zijn het uitschieters.
Standaarddeviatie is de vierkantswortel van de variantie. Variantie Standaarddev.
(
)
√
(
)
(
∑(
)
)
(
√
is
)
(
)
(
)
Degrees of freedom is altijd n-1 s is altijd 0 of groter dan 0 en kan door uitbijters worden beinvloed. Chapter 3 Een response (dependent) variabele meet de uitkomst van een studie. Een explanatory(independent) variabele legt uit of beïnvloed veranderingen in de response variabele. Een scatterplot laat de relatie zien tussen 2 kwantitatieve variabelen op dezelfde individuen. Hierbij staan de explanatory variabele op de x as. Twee variabele zijn positief associated als de bovengemiddelde waarde bij de andere bovengemiddelde waardes ligt. En beneden gemiddeld ook bij de beneden gemiddelde ligt. / Negatief associated is als de bovengemiddelde waarden aan de linker kant van een scatterplot liggen, dus aan de beneden gemiddelde waardes zijn gerelateerd \ Correlatie is een lineaire relatie.
∑(
) (
)
Als de r positief is, is er een positieve associatie. Correlatie maakt geen verschil tussen explanatory of response variabelen. Ook de eenheid waarmee gerekend wordt maakt geen verschil. Het ligt altijd tussen de -1 en 1. Dichtbij de 0 betekent dat er een kleine/zwakke lineaire relatie is. Correlatie is net als gemiddelde en sd beïnvloedbaar door uitschieters. Chapter 4 Een regressielijn is recht en vat de relatie van 2 variabelen samen. 1 van de variabelen helpt de andere voorspellen, zo wordt het vaak gebruikt om de y te voorspellen bij een x. y=a+bx b=r*(sy/sx) a=ȳ-bẍ Sommige observaties beïnvloeden de rest van de calculaties. Dit zijn influentials. Het verwijderen van deze data of het buitenbeschouwing laten, zou andere uitkomsten van berekeningen opleveren. (zie figuur 4.4 tot 4.6) Extrapolation is het gebruik van de regressielijn om een uitkomst te voorspellen buiten de range van een variabele die je gemeten hebt. Vaak kloppen deze niet. Bv bij een kind van 3 tot 8 gaat de groei in een lineair verband, later gaat groeien langzamer en stopt, als je doormiddel van een regressielijn zou voorspellen zou je bv 4 meter kunnen zijn op een bepaalde leeftijd. Lurking variabele is een variabele die ervoor kan zorgen dat de correlatie/regressie misleidend kan zijn. Het is een variabele die niet de explanatory of response is maar toch de data kan beïnvloeden. Chapter 5 2 way table beschrijft een relatie tussen 2 categoriale variabelen. De rijen beschrijven de behandeling en de kolommen de uitkomsten van de behandeling. Marginale distributie is hoeveel procent van het totaal van de kolom van het hele totaal is.
Dus bv gelukt Niet gelukt behandeling
20
15
Andere beh.
25
10
Tot.
45
35
Marginale distributie van gelukte behandeling is hoeveel procent 45 van 80 is. conditionele distributie Simpsons paradox is als er bij een groep een groter totaal is gebruikt. Je krijgt een misvormd beeld van de werkelijkheid. In PowerPoint dat van die helikopters.
Chapter 7 Er zijn twee soorten settings om data te verzamelen. Waarnemingsstudies en experimenten, Waarnemingsstudies observeren individuen en meten de variabelen waarin men geïnteresseerd is. Experimenten geven zorgen voor een behandeling om zo de response te kunnen observeren. Twee variabelen zijn confounded als men de effecten op een response variabele die ze geven niet kan onderscheiden van elkaar. Bv vrouwen werden hormoon pillen na de overgang gegeven, het zou helpen hartaanvallen te reduceren. De gem. 63 vrouw bleek toch hogere hartziektekans te hebben, maar vrouwen in hun 50e jaren hadden juist minder calcium in aderen, wat kleinere kans geeft op hartziektes. De studie focuste op oudere vrouwen en het werkte dus wel. Het effect van de vrouwen die de pillen namen waren cofounded met de karakteristieken van de vrouwen die het niet namen. Of het drinken van wijn zorgt voor betere gezondheid dan bier. Wijn drinkers zijn ander soort mensen, dus het is cofounded met lurking variabelen zoals educatie, dieet, ect Sample is een deel van een populatie waarvan je iets wilt weten, zodat je daaraan conclusies kan trekken over de hele populatie. Sampling design beschrijft hoe je een sample trekt uit een populatie. Bij niet alle studies kan een sample gekozen worden die voor de gehele populatie gelden. Sampling designs: - Convenience sample is een sample die men met de hand heeft gekozen. Het geeft onrepresentatieve data. Er zit een bias in je metingen. Een bias als een studie een uitkomst systematisch begunstigd. - vrijwilligers response sample is een sample waarbij individuen kiezen of ze meedoen
of niet. Zoals online polls, call-ins, ect. Het zijn soms niet de mensen die je kunt gebruiken voor de populatie die je wilt testen. - Probability sample zijn simpele random samples. Een sample door kans gaat bias tegen en geeft iedereen kans om gekozen te worden. Dit is simple random sampling. Een SRS is een grootte n individuen waarbij iedereen even veel kans heeft gekozen te worden. Met behulp van de table of random digits kan dit gekozen worden. - stratified random is als er belangrijke groepen worden getest en dan bij elkaar worden genomen als sample. Bv mannen en vrouwen gescheiden. - Multistage sample is het kiezen van SRS in SRS. Een SRS landen wordt gekozen, daaruit een SRS scholen, daaruit leerlingen Undercoverage is als een groep van de populatie uit het samplen wordt gelaten. Dit kan door bv dat er geen lijst is van de gehele populatie. Een sample waarbij huishoudens worden gebruikt, mist natuurlijk daklozen, gevangenen, ect. Non response is als een individu die geselecteerd is niet meedoet aan een sample. Er kan ook sprake zijn van een reponse bias. Dit wil zeggen dat de ondervraagde of de interviewer er voor kan zorgen dat er een fout zit, Je kan verschillende antwoorden bij een man of vrouw. Over sommige dingen lieg je, bv veel alcohol inname ect. Ook de manier waarop vragen worden gesteld is belangrijk. Sommige eigenschappen zijn te zeldzaam om een goede sample van te doen. Bv een eigenschap die je bij 1 op 10000 vind. Hier wordt meestal een case control studie gedaan. Mensen met iets zeldzaams worden uitgekozen om een bepaalde uitkomst zeker is. Er is een controle groep om als een baseline te dienen. Retrospective approach is als er in het verleden wordt gekeken. Historical control is een case studie waarbij bestaande data wordt gebruikt van voorgaande studies om een controle groep te maken. Het bespaard kosten, maar de groepen kunnen erg verschillen. Cohort studies is een groep individuen die iets homogeens hebben of een overeenkomst. Ze geven heel veel informatie en gedetailleerd maar het duurt erg lang. Ze verliezen ook mensen tijdens dit onderzoek aan bv ouderdom en mensen die geen zin meer hebben. Een cohort studie is een prospectieve studie. Dit houdt dus in dat ze allemaal relevante informatie van de participanten proberen te verkrijgen. Chapter 8 individuen krijgen vaak de naam subject. Explanatory variabelen krijgen de naam factoren. De behandeling is een specifiek experimentele conditie op de subjects. Een experimentele groep is een groep individuen die we een behandeling geven waarvan we het effect proberen te begrijpen. Maar dit alleen heeft geen nut, want het kan zijn dat de patiënten niet door de medische procedure, maar door psychische impact beter worden. Dit is het placebo effect. Een controle groep is een behandeling bedoelt als baseline waarmee de experimentele groep wordt vergeleken. Er worden ook echt placebo’s gebruikt, dit zijn meestal suiker pillen. Niet te onderscheiden van het echte medicijn. Soms wordt er ook een controle groep gebruikt die niet de gewenste karakteristieke heeft. Bv bij
longkanker test mensen die wel roken gebruiken maar ook die niet roken. Randomized comparative experiment is als er 2 of meerdere behandelingen en subjectsgroepen voor behandeling zijn. Completely randomized is als alle subjects worden de subjects random over de behandelingen verdeeld. Deze proeven kunnen meerdere behandelingen hebben en meerdere factoren. Er is altijd een gemiddeld verschil tussen de individuen die verschillende behandelingen krijgen. Er is altijd een klein verschil hoe mensen reageren op een behandeling. Een sample moet genoeg subjects hebben en random gekozen worden. Een geobserveerd effect dat groot dat het zelden door kans gebeurd, noemt men statistisch significant. Matched pairs design is voor het vergelijken van 2 behandelingen. Je kiest voor subjects die goed overeenkomen. De ene krijgt de ene behandeling eerst, het andere individu krijgt de andere behanfdeling eerst. Block design is een groep individuen waarvan voor het experiment al bekent is dat ze gelijksoortig zijn en dat het het resultaat van de behandeling zal beïnvloeden. Dus je hebt bijvoorbeeld 3 behandelingen tegen kanker, maar de progressie verschilt in man en vrouw, je gebruikt nu dus 2 random trekkingen voor de behandeling. Man en vrouw apart. Double blind is dat de subjects en mensen die de behandeling geven weten welke behandeling de subjects krijgen, dus niet weten of ze een placebo of echte behandeling toedienen. Dit is nodig als de onderzoeker de mogelijke uitkomsten moet beoordelen. Het kan soms zijn dat een experiment niet reëel genoeg is om de subjects te laten geloven dat ze het echte medicijn toegediend hebben gekregen. Sommige experimenten kunnen niet worden gedaan om ethische redenen. Chapter 9 Sample proportie is aantal successen/totaal aantal. Een fenomeen is pas random als de individuele uitkomsten onzeker zijn met er is toch een regelmatige distributie als je de proef vaak genoeg herhaald. De propability van een uitkomst van een fenomeen is de proportie van hoe vaak een uitkomst zal gebeuren in een lange serie van herhalingen. Probability beschrijft wat er op lange duur gebeurd. Een event is een uitkomst of een set van uitkomsten van een random fenomeen. Probability model is een wiskundige beschrijving van random fenomeen bestaand uit sample space s (set van alle uitkomsten) en de manier van de probability gegeven aan een event. Sample space S bij geboort S={M,F}. Bij gewicht zijn er talloze mogelijkheden. Probability ligt altijd tussen de 0 en 1. 0≤Pr(a)≥1 Alle prbability moet samen 1 zijn. P(S)=1 Als 2 events geen samenvallende uitkomsten hebben geldt dat de één of de andere gebeurd. Is de som is de individuele probability, dus bv 20% + 45% = 65% Probability dat 1 event niet gebeurd is de kans 1-Pr(a) Discreet aantal, telbaar. Continu is elk getal tussen bv 0 en 1.
Density curve boven horizontale as en heeft een oppervlakte van 1. Deze kunnen ook skewed zijn. Density curve in ongeveer gelijk in het gebruik als de regressie lijn en is een hulpmiddel. Random variabele is een variabele waarvan de waarde een numerieke uitkomst op een random fenomeen heeft. Probability distributie van een random variabele X vertelt welke waardes X aan kan nemen. Personal probabilities is een waarde tussen de 0 en 1 waarin een individu schat hoe waarschijnlijk het is dat een uitkomst gebeurd. risk is het risico om dood te gaan, ziekte, side-effects, ect. Risk(A)=p Odds is bv bij gokken, het de ratio dat 2 probabilties Odd(A)=p/(1-p)
Chapter 10 Indepentent houdt in dat de uitkomst van het eerste event het tweede event niet kan beinvloeden. P(AnB)=P(A)*P(B) bv 2 meisje krijgen ½*½= ¼ Disjoint als A gebeurd en B niet kan gebeuren. Dus P(A of B)= P(A)+P(B) Conditionele probability is B gegeven A. Dus P(B|A)= P(AnB)/P(A) waarbij A>0 moet zijn Als A en B niet disjoint zijn en wel samen kunnen gebeuren geldt P(A of B)=P(A)+P(B)-P(AnB) A en B kan samen gebeuren bij P(AnB)=P(A)*P(B|A) 2 events A&B zijn indepentent als P(B|A)=P(B) en P(AnB)=P(A)*P(B) Sensitivity is P(+|ziekte) Specificity is P(-|¬Ziekte) Positive predictive value PPV is P(ziek|+) True positive is mensen met een + die ook echt ziek zijn. Bayes theorem P(Ai|B)=P(B|Ai)*P(Ai)/P(B|A1)(PA1)+P(B|A2)P(A2)