Cursus Statistiek 2 Fellowonderwijs Opleiding Intensive Care UMC St Radboud, Nijmegen
Cursus Statistiek 2 • Steekproefgrootte en power berekening • Vergelijken van gemiddelden (T-testen) • Niet-parametrische testen (Deel 1)
Power van een onderzoek • De kans om een verschil aan te tonen indien in de populaties waaruit de steekproeven zijn genomen dit verschil ook daadwerkelijk bestaat • In ieder gerandomiseerd onderzoek moet de power berekening gegeven worden • Zowel te kleine als te grote onderzoeken moeten als onethisch beschouwd worden • De power van een studie is afhankelijk van het daadwerkelijk aanwezige verschil in de steekproeven en de grootte van deze steekproeven
Steekproef grootte Factor P-waarde
Power
Effect
Maat
Gevolgen voor effect meting
Steekproef
Klein
Strenge criteria, significantie moeilijk
Groot
Groot
Soepele criteria, significantie makkelijk
Klein
Laag
Identificatie onwaarschijnlijk
Klein
Hoog
Identificatie waarschijnlijk
Groot
Klein
Moeilijk identificeerbaar
Groot
Groot
Makkelijk identificeerbaar
Klein
Het minimaal klinisch relevante effect is uitgangspunt voor de steekproefgrootte berekening
Voorbeeld 1 Verschil in gemiddelden • U wilt bereken hoeveel patiënten er nodig zijn om aan te tonen dat vroege “goal directed therapy” bij sepsis in de eerste 6 uur na binnenkomst een gemiddelde toename in MAP geeft van 15 mm Hg in vergelijking met een controle groep • U realiseert zich dat dit sterk afhankelijk is van de spreiding in MAP
Voorbeeld 1 Verschil in gemiddelden
De standaard deviatie schat u uit identieke onderzoeken of een pilot
Voorbeeld 1 Verschil in gemiddelden 60 50 40 % 30 20 10 0 Mortaliteit ZH
Mortaliteit 28 D
Standaard Therapie
Mortaliteit 60 D
Vroege optimalisering
Rivers E. N Engl J Med 2001;345:1368-1377
Uit deze studie komt een SD (MAP) na 6 uur van 18 mm Hg
Het gestandaardiseerde verschil bedraagt derhalve 15/18 = 0.833
N = 61
N = 46
Voorbeeld 1 Verschil in gemiddelden N (aantal per groep) = 2/GV2 × Cp, power
P 0.05 0.01
50
Power 80 90
95
3.8
7.9
10.5
13
6.6
11.7
14.9
17.8
N (per groep) = 2/0.8332 × 7.9 = 23
Voorbeeld 1 Verschil in gemiddelden Gewenst verschil 15
Standaard deviatie 18
Pw 0.8 P 0.05 Pw 0.8 P 0.01 Pw 0.9 P 0.05 Pw 0.9 P 0.01
23
34
30
43
per groep
per groep
per groep
per groep
Voorbeeld 2 Verschil in proporties • U wilt bereken hoeveel patiënten er nodig zijn om aan te tonen dat de 28 dagen sterfte bij beademing met kleine teugvolumina zal dalen van 40 naar 30%
Gestandaardiseerd Verschil = (P1 - P2) / 䌥㻾Pgem * (1 - Pgem)] (0.4 - 0.3) / 䌥㻾0.35 * (1 - 0.35)] = 0.209
N = 1000
N = 700
Voorbeeld 2 Verschil in proporties N (aantal per groep) = [P1*(1-P1) + P2*(1-P2)]/(P1-P2)2 × Cp, power
P 0.05 0.01
50
Power 80 90
95
3.8
7.9
10.5
13
6.6
11.7
14.9
17.8
N (aantal per groep) = [0.4*(1-0.4) + 0.3*(1-0.3)]/(0.4-0.3)2 × 7.9 = 355
Voorbeeld 2 Verschil in proporties Proportie 1 0,4
Proportie 2 0,3
Pw 0.8 P 0.05 Pw 0.8 P 0.01 Pw 0.9 P 0.05 Pw 0.9 P 0.01
356
527
473
670
per groep
per groep
per groep
per groep
Power berekening na studie
N = 304 N Engl J med 2001;345:568-573
GV = (0.25 - 0.21) / 䌥㻾0.23 * (1 - 0.23)] = 0.095
N = 3000
Power = 0.13
Verschil in groepsgrootte N” = N(1 + k)2/4k • ARDSNetwork 2 : 1 • N” = 710 (1 + 2)2/8 ≈ 800 • 530 ↔ 270
Vergelijken van gemiddelden (met hypothetische waarde) 13 31 11 21 25
24 16 16 7 15
19 16 11 17 34
18 21 18 13 28
11 18 15 11 18
22 16 10 16 11
10 22 12 13 27
17 12 22 19 9
14 16 15 16 19
16 18 11 25 15
Albumine concentratie bij 50 intensive care patiënten 17 ± 5.7
95% CI 15.4 - 18.6
Verschilt dit van de [albuminepopulatie] = 40 gr/l?
Vergelijken van gemiddelden (met hypothetische waarde)
• T-test voor 1 steekproef – (t) = (Meansteekproef - Meanpopulatie)/SEgemiddelde steekproef – (t) = -28.4 – Vrijheidsgraden = steekproefgrootte - 1 = 49
• Tabel of programma
Vergelijken van gemiddelden (met gepaarde data) Patiënt
SvO2 opname
SvO2 6 uur
Verschil
1
39.7
52.9
13.2
2
59.1
56.7
-2.4
3
56.1
61.9
5.8
4
57.7
71.4
13.7
5
60.0
67.7
7.1
6
37.8
50
12.2
7
58.2
60.7
2.5
8
33.6
51.3
17.7
9
56
59.5
3.5
10
65.3
59.8
-5.5
Mean
52.4
59.2
6.8
Vergelijken van gemiddelden (met gepaarde data)
• Gepaarde T-test • Gaat uit van het gemiddelde verschil en vergelijkt met de hypothese 0 – (t) = (Gemiddelde verschil - 0)/SEgemiddelde verschil – (t) = 2.87 – Vrijheidsgraden = steekproefgrootte - 1 = 9
• Tabel of programma
Vergelijken van gemiddelden (met gepaarde data) Voor
Na 39,7 59,1 56,1 57,7 60 37,8 58,2 33,6 56 65,3
t-Test: Paired Two Sample for Means 52,9 56,7 61,9 71,4 67,7 50 60,7 51,3 59,5 59,8
Variable 1 Variable 2 Mean 52,35 59,19 Variance 120,589444 47,1187778 Observations 10 10 Pearson Correlation 0,74123726 Hypothesized Mean Difference 0 df 9 t Stat -2,89144892 P(T<=t) one-tail0,00892106 t Critical one-tail1,83311292 P(T<=t) two-tail0,01784211 t Critical two-tail2,26215716
Excel → t-Test: Paired Two Sample
Vergelijken van gemiddelden (met niet gepaarde data) Patiënt
SvO2
Patiënt
SvO2
1
39.7
1
52.9
2
59.1
2
56.7
3
56.1
3
61.9
4
57.7
4
71.4
5
60.0
5
67.7
6
37.8
6
50
7
58.2
7
60.7
8
33.6
8
51.3
9
56
9
59.5
10
65.3
10
59.8
Vergelijken van gemiddelden (met niet gepaarde data)
• Student T-test • Gaat uit van verschil in gemiddelden en gebruikt de gecombineerde SE – (t) = Verschilsteekproef gemiddelden)/SEverschil gemiddelden – (t) = -1.67 – Vrijheidsgraden = steekproefgrootte - 2 = 18
• Tabel of programma
Vergelijken van gemiddelden (met niet gepaarde data) Groep 1
Groep 2 39,7 59,1 56,1 57,7 60 37,8 58,2 33,6 56 65,3
t-Test: Two-Sample ampleAssuming Equal Variances 52,9 56,7 61,9 71,4 67,7 50 60,7 51,3 59,5 59,8
Variable 1 Variable 2 Mean 52,35 59,19 Variance 120,589444 47,1187778 Observations 10 10 Pooled Variance 83,8541111 Hypothesized Mean Difference 0 df 18 t Stat -1,67024017 P(T<=t) one-tail0,05608439 t Critical one-tail1,73406359 P(T<=t) two-tail0,11216879 t Critical two-tail2,10092204
Excel → Student t-Test: Two Sample
Voorwaarden T-testen • T-test voor 1 steekproef: data normaal verdeeld • T-test voor gepaarde data: verschillen normaal verdeeld • T-test voor ongepaarde data: data uit beide steekproeven normaal verdeeld en SD ongeveer gelijk
Niet-parametrische testen • Data niet Normaal verdeeld en transformatie is niet mogelijk – Nadelen • Power o.h.a. lager dan de t-testen • Testen van hypothese gaat boven schatten van effect
– Voordelen • Formaat van de data minder belangrijk • Kunnen met de hand worden berekend
Vergelijken van gemiddelden (niet-parametrisch met hypothetische waarde) Onderzoek
Relatief Risico
Teken
1
0.75
-
2
2.03
+
3
2.29
+
4
2.11
+
5
0.80
-
6
1.50
+
7
0.79
-
8
1.01
+
9
1.23
+
10
1.48
+
11
2.45
+
12
1.02
+
13
1.03
+
14
1.30
+
15
1.54
+
16
1.27
+
Oversterfte ARF bij sepsis
Teken Test
Vergelijken van gemiddelden (niet-parametrisch met hypothetische waarde) • Definieer de nulhypothese en geef teken (+ of -) aan iedere observatie afhankelijk of deze groter of kleiner dan hypothese waarde is • Bepaal N+, N- en S (kleinste van deze 2) • Berekenen een toepasselijke P-waarde – Tabel of programma Kritieke waarden bij N = 16
S=3
P-waarde Kritieke waarde
0.10
0.05
0.01
4
3
2
Vergelijken van gemiddelden (niet-parametrisch met gepaarde waarden) • Definieer de nulhypothese en rangschik alle observaties op grootte onafhankelijk van het teken. Indien 2 observaties gelijk zijn wordt een gemiddelde rangschikking gegeven • Geef teken (+ of -) aan iedere observatie afhankelijk of deze groter of kleiner dan hypothese waarde is • Bepaal R+, R- en R (kleinste van deze 2) • Berekenen een toepasselijke P-waarde – Tabel of programma
Wilcoxon signed rank test - niet in Excel
Vergelijken van gemiddelden (niet-parametrisch met gepaarde waarden) Patiënt
SvO2 opname
SvO2 6 uur
Verschil (%)
Rang
Teken
2
59.1
56.7
-2.4
1
-
7
58.2
60.7
2.5
2
+
9
56
59.5
3.5
3
+
10
65.3
59.8
-5.5
4
-
3
56.1
61.9
5.8
5
+
5
60.0
67.7
7.1
6
+
6
37.8
50
12.2
7
+
1
39.7
52.9
13.2
8
+
4
57.7
71.4
13.7
9
+
8
33.6
51.3
17.7
10
+
R- = R = 5
Kritieke waarden bij N = 16 P-waarde Kritieke waarde
R+ = 50
0.10
0.05
0.01
10
8
3
Vergelijken van gemiddelden (niet-parametrisch met niet gepaarde waarden) • Rangschik op grootte onafhankelijk van welke groep ze komen. Indien 2 observaties gelijk zijn wordt een gemiddelde rangschikking gegeven • Tel de rangschikking op in de kleinste van de 2 groepen (S) • Berekenen een toepasselijke P-waarde – Tabel of programma
Mann-Whitney test - niet in Excel
Vergelijken van gemiddelden (niet-parametrisch met niet gepaarde waarden) Niet protocolair propofol
Protocolair propofol
Dosis (gram)
Rang
Dosis (gram)
Rank
7.2
2
5.6
1
15.7
4
14.6
3
19.1
6
18.2
5
21.6
7.5
21.6
7.5
26.8
10
23.1
9
27.4
11
28.3
12
28.5
13
31.7
14
32.8
16
32.4
15
36.3
17
36.8
18
43.2
19
44.7
20
S = 84.5
Vergelijken van gemiddelden (niet-parametrisch met niet gepaarde waarden)
Kritieke waarden voor Mann-Whitney Steekproefgrootte 9 en 11 P-waarde
Kritieke waarde
0.05
0.01
0.001
68 - 121
61 - 128
53 - 136
S waarde moet buiten genoemde range vallen om P-waarde te halen