Desatero pro porovnávání výsledků dvou metod 21
Kapitola IV. DESATERO PRO POROVNÁVÁNÍ VÝSLEDKŮ DVOU METOD. Luděk Dohnal
Následující text nemá být "návodem" k počítání nebo hodnocení. Pokouší se pouze zachytit podstatnější myšlenky, které nacházejí uplatnění při porovnávání výsledků dvou metod, tak často prováděného v laboratořích a to nejen klinické biochemie. Pokud to bylo rozumně možné, jsou uvedeny stručné ilustrativní příklady. Účelem porovnání dvou metod je zjistit jestli výsledky testu získané jednou metodou na souboru klinických vzorek jsou, v průměru, totožné s výsledky získanými druhou metodou (7). Výsledným produktem porovnání je zpráva - report o porovnání metod. Zpráva může být určena jenom pro potřeby příslušné laboratoře, anebo pro prezentaci navenek - ústní sdělení, posterové sdělení, článek do odborného časopisu. Od účelu zprávy se odvíjí rozsah a forma. V principu ale každá zpráva má obsahovat 5 základních okruhů tém, popsaných v tabulce IV.1. Dále se budeme zabývat jenom bodem 4 a částečně 5 z této tabulky. Tabulka IV.1 Obsah reportu o porovnání výsledků dvou metod.
1. 2. 3. 4. 5.
Jaká byla motivace ke srovnání dvou metod Popis analytických metod Popis populační vzorky Hodnocení shody metod Odhad klinické ekvivalence
Porovnáváme výsledky dvou metod (např. metodu A a metodu B pro stanovení téhož analytu v týchž materiálech). Máme k disposici materiály, v nichž jsou různé koncentrace sledovaného analytu. Tyto koncentrace pokrývají alespoň přibližně rovnoměrně celý rozsah, v němž chceme znát porovnatelnost obou metod. Máme tedy na paměti, že i závěry plynoucí z našich výsledků platí pouze pro rozsah hodnot, ve kterém bylo porovnání provedeno. Jakákoliv extrapolace je přinejmenším ošidná. Obrázek IV.1 korelačního grafu (correlation plot) ukazuje, že stupnice je sice od 0 do 30, ale rozsah měření je od 1 do 25. 1. Visuální posouzení dat Na data se vždy nejprve "podíváme". Zkonstruujeme korelační graf, to jest závislost výsledků metodou A na výsledcích metodou B. Každá dvojice výsledků je tedy v tomto grafu representována jedním bodem. Skutečnosti odpovídá lépe než bod malý čtvereček resp. obdélníček když si uvědomíme, že metody A i B mají
svoji neurčitost, chceme-li nejistotu, a tak dvojice výsledků není "bod" ale "obdélníček". Z korelačního grafu usuzujeme, zda nejsou přítomny tzv. vlivné resp. vychýlené body. Bod, který je silně vychýlený ve směru pouze jedné ze souřadnic, často nazýváme odlehlý (outlier). Bod, který je vychýlený ve směru obou souřadnic, označujeme často jako extrém. Terminologie není ustálená. Vlivné body, jak praví už jejich název, mohou mít silný vliv na výsledek srovnávání. V korelačním grafu s vlivnými body (correlation plot with influence points) na obrázku IV.2 je stejných 50 bodů jako na obrázku IV.1, navíc jsou přítomny dva vlivné body, č. 51 - extrém a č. 52 - odlehlý (outlier).
Korelační bodový graf 30 Metoda_B 25 20 15 10 5 0 5
0
10
15
20
25
30
Metoda_A
Obrázek IV.1
Korelační graf s vychýlenými body 40 Metoda_B 35
51
30 25 20
52
15 10 5 0 0
5
10
15
20 Metoda_A
Obrázek IV.2
25
30
35
40
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 22 2. Odlehlé body Problém odlehlých bodů bývá často řešen tím, že jsou ze souboru pozorování (měření) vyloučeny a to na základě odhadu (jsou patrné už na výše zmíněném korelačním grafu). Jiný vhodný způsob je zkonstruování a posouzení tzv. diagnostických grafů (6) (např. Pregibon, Williams, Mc Culloch) nebo provedení numerických testů (Dixon, Grubbs) (2). Při sestrojení krabicového grafu jsou odlehlé hodnoty (outside values) a extrémy (far out values) počítačovými programy zvlášť zakresleny. Odlehlé hodnoty jsou definovány jako hodnoty nižší než dolní kvartil mínus 1,5 násobek interkvartilového rozepětí, anebo větší než horní kvartil plus 1,5 násobek interkvartilového rozepětí. Extrémy jsou definovány obdobně s 3 násobkem interkvartilového rozepětí. Pokud je dostatečné množství dat, je někdy účelné odlehlý bod (body) vyloučit z dalšího hodnocení. Nikdy bychom však neměli vlivný bod vyloučit, aniž bychom vysvětlili příčinu jeho vzniku nebo se alespoň přesvědčili, že se jedná o artefakt (např. hrubá chyba). 3. Korelační koeficient Pokud používáme korelační koeficient, je třeba mít na paměti, že tento koeficient je pouze mírou lineární závislosti výsledků. "Pěkný" korelační koeficient (hodnota blízká jedné nebo minus jedné) ještě vůbec neznamená, že srovnávané metody dávají "pěkně" shodné výsledky. Znamená to pouze silnou lineární závislost mezi výsledky oběma metodami. "Špatný" (malý v absolutní hodnotě) korelační koeficient vůbec neznamená, že závislost je málo silná. Může (ale nemusí!) jít např. o silnou nelineární závislost, např. kvadratickou. V tab. IV.1 je toto tvrzení ilustrováno. Zatímco proměnná se svým kvadrátem koreluje ještě s hodnotou koeficientu 0.9746, se svou dvacátou mocninou koreluje už pouze s hodnotou koeficientu 0.5795, přestože jde stále o stoprocentně těsnou kausální závislost vyjádřenou matematickým vzorcem. Korelační koeficienty (coefficients of correlation) pro několik mocninných funkcí jsou uvedeny v tab. IV.2.
Lineární regrese provedená běžným způsobem je dnes součástí nejen statistických programů, ale bývá zabudována i v tabulkových kalkulátorech (spreadsheets) - např. Excel. Použití této regrese je vhodné pouze v některých případech. Řekněme, že chceme provést lineární regresi výsledků metodou A (= tzv. vysvětlované proměnné) na výsledcích metodou B (tzv. vysvětlující proměnné). Tato regrese má svoje oprávnění pouze tehdy, jestliže rozptyl (neurčitost) při získávání (měření) hodnot vysvětlující proměnné je alespoň o řád menší než rozptyl (neurčitost) při měření hodnot vysvětlované proměnné. Důvod je docela prozaický. Uvědomme si, že při výpočtu koeficientů optimální regresní čáry běžně používaným způsobem (metodou nejmenších čtverců) se vlastně hledá taková regresní čára, aby součet čtverců (druhých mocnin) odchylek jednotlivých (naměřených) bodů od této čáry byl nejmenší možný. Matematicky řečeno hledáme globální minimum. Drtivá většina algoritmů (počítačových programů) provádí měření vzdálenosti bodů od regresní čáry ve směru vysvětlované proměnné. Jinak řečeno, postup výpočtu předpokládá, že ve směru vysvětlující proměnné jsou neurčitosti jednotlivých bodů zanedbatelné oproti směru vysvětlované proměnné. Dále je třeba, aby každá proměnná měla v ideálním případě normální (Gaussovo) anebo v praxi alespoň symetrické rozdělení dat. Při troše zkušenosti to poznáme už z korelačního grafu eventuelně z histogramu příslušné proměnné. Pokud je přítomen např. extrémní bod, může jeho vliv zcela zkreslit výsledky regrese. Na obrázku IV.3 je ukázka lineární regrese (linear regression) a na obrázku IV.4 je táž regrese po přidání jediného vlivného bodu - č. 51. Z tabulky IV.3 je patrné, jak se přidáním tohoto vlivného bodu změnily parametry regresní přímky - úsek (intercept) a směrnice (slope). Pro úplnost jsou uvedeny velikosti výběrů (sample size) a korelační koeficienty (coefficient of correlation). Korelační graf s lineární regresní čárou, n = 50 30 Metoda_B
Tabulka IV.2 Korelace výběrů
--------------------------------------------------------vzorka 1 vzorka 2 Korelační koeficient --------------------------------------------------------x x 1.0000 2 x x 0.9746 10 x x 0.6958 x x20 0.5795 ---------------------------------------------------------
4. Podmínky použití lineární regrese
25 20 15 10 5 0 0
5
10
15 Metoda_A
Obrázek IV.3
20
25
30
Desatero pro porovnávání výsledků dvou metod 23
Metoda_B
25 20 15 51 10 5 0 0
5
10
15
20
25
30
Metoda_A
Obrázek IV.4
Tabulka IV.3 Regresní koeficienty, n = velikost vzorky, r = korelační koeficient
--------------------------------------------------------Obr. IV.3 Obr. IV.4 --------------------------------------------------------n 50 51 intercept 0,4225 0,8465 slope 1,0064 0,9527 r 0.9985 0.9791 --------------------------------------------------------5. Čím je lineární regrese "lineární" Při provádění lineární regrese se většinou používá přímkový model. Často může být vhodnější jiný než lineární model (kvadratický, reciproční). Lineární regrese se nenazývá lineární proto, že regresní čárou je přímka. "Lineárnost" je míněna vzhledem ke koeficientům regrese. Jinak řečeno, regresní koeficienty se v regresní rovnici vyskytuji pouze v lineární kombinaci, nemohou se vyskytnout např. jako exponent. Ještě jinak, funkce, jejímž grafickým znázorněním je regresní čára, je lineární vzhledem k regresním koeficientům. Jestliže máme vysvětlující proměnnou x, vysvětlovanou proměnnou y a koeficienty (parametry) např. a,b,c, potom např. funkční závislost, kterou všichni důvěrně známe y=a+b.x a,b ≠ 0 je funkčním vyjádřením přímky (přímkový model) a současně je tato závislost lineární vzhledem k parametrům a,b, je tedy možným modelem lineární regrese. Jiná funkční závislost y = a + b . x + c . x2 a,b,c ≠ 0 je funkčním vyjádřením kvadratické paraboly (kvadratický model) a současně je tato závislost lineární vzhledem k parametrům a,b,c a tedy je možným modelem lineární regrese. Ale např. funkční závislost y = a + b . xc a,b ≠ 0 0≠c≠1 není lineární vzhledem k parametru c a není tedy možným modelem lineární regrese, ale je možným modelem regrese nelineární.
6. Statisticky významný rozdíl Statisticky nevýznamný rozdíl mezi výsledky dvou metod znamená nejčastěji následující skutečnost. Střední hodnota rozdílů (nejčastěji počítaná jako aritmetický průměr) mezi jednotlivými páry výsledků je poměrně malá a její interval spolehlivosti (řekněme její neurčitost) s vysokou pravděpodobností zahrnuje nulu. Naopak o statistiky významném rozdílu mluvíme, pokud tento interval spolehlivosti nulu nezahrnuje. Jestliže jsou rozdíly při statistickém testování (vysoce) významné, nemusí to znamenat, že jsou tyto rozdíly významné i interpretačně. A naopak, jestliže rozdíly nejsou statisticky významné, neznamená to automaticky, že nejsou významné interpretačně. Na obrázku IV.5 jsou krabicové grafy (box and whisker plots) výsledků stanovení draslíku v séru dvěma metodami (vždy 10 paralelních měření). Pro připomenutí, střední čáry v krabicích symbolisují mediány, horní a dolní okraje krabic symbolisují dolní a horní kvartily). Box-and-whisker graphs - krabicové grafy 4,42 4,40 4,38 4,36 mmol/l
Korelační graf s lineární regresní čárou, n = 51 30
4,34 4,32 4,30 4,28 4,26 4,24 Metoda_A
Metoda_B
Obrázek IV.5.
Z obrázku a rovněž z tab. IV.3 je zřejmé, že se jedná o statisticky vysoce významný rozdíl mezi výsledky obou metod. Střední rozdíl je 0.1 mmol/l při hodnotách kolem 4.4 mmol/l. Avšak tento rozdíl je klinicky zcela nevýznamný. Proto z klinického hlediska jsou obě metody rovnocenné. Obsah tabulky IV.4 je výstupem ze statistického programu MedCalc. Tabulka IV.4 Two-Sample Analysis Results Variable : Metoda_A Metoda_B Sample size = 9 9 Lowest value = 4,3338 4,2455 Highest value = 4,4066 4,3200 Arithmetic mean = 4,3745 4,2792 95% CI for the mean = 4,3536 to 4,3954 4,2626 to 4,2958 Median = 4,3797 4,2764 95% CI for the median =
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 24 4,3359 to 4,4039 4,2565 to 4,3060 Variance = 0,0007 0,0005 Standard deviation = 0,0272 0,0216 Relative standard deviation = 0,0062 (0,62%) 0,0050 (0,50%) Standard error of the mean = 0,0091 0,0072 --------------------------------------Paired t-test Mean difference : 0,0953 Standard deviation : 0,0369 95 % CI : 0,0669 to 0,1237 t=7,736 DF=8 P = 0,0001
7. Základní statistiky Pro každou proměnnou vždy spočítáme základní statistiky (statistické veličiny) a zamyslíme se nad tím, co nám říkají. Jejich minimální sadu tvoří velikost proměnné (počet hodnot v sadě, number of observations), aritmetický průměr (mean, average), medián, směrodatná odchylka (standard deviation), směrodatná odchylka průměru (standard error, standard error of mean), minimum, maximum, rozpětí (range), dolní (lower) kvartil, horní (upper) kvartil, šikmost rozdělení (skewness of distribution), špičatost rozdělení (kurtosis of distribution). Velikost proměnné je jakousi mírou solidnosti či věrohodnosti. Dá se říct, že nejen příliš málo výsledků, ale i příliš mnoho výsledků přináší problémy s interpretací. Aritmetický průměr je nejčastěji používanou statistikou pro výpočet střední hodnoty. Zde podotkněme jenom tolik, že je dobrým odhadem střední hodnoty m.j. jen tehdy, pokud sada hodnot, z níž je počítán, má normální (gaussovské) nebo alespoň symetrické rozdělení. Ošidnost aritmetického průměru lze parafrázovat např. takto: "Jsme dva, máme jedno upečené kuře. Sním ho celé, tobě nic nedám. Já jsem přejedený, ty jsi hladový, ale v průměru měl každý z nás půlku kuřete." Medián je výrazně lepší statistikou pro výpočet střední hodnoty právě v řadě případů, kdy z důvodů nesymetrie rozdělení aritmetický průměr selhává. Směrodatná odchylka sady výsledků je mírou neurčitosti (rozptýlení) těchto výsledků. Často se rovněž používá pojem rozptyl (variance), který je druhou mocninou směrodatné odchylky. Směrodatná odchylka průměru je mírou neurčitosti střední hodnoty (spočítané jako aritmetický průměr) téže sady hodnot. Minimum, maximum a rozpětí asi nepotřebují zvláštní komentář. Hodnoty těchto statistik nás mohou upozornit na odlehlou či extrémní hodnotu. Dolní kvartil má tu vlastnost, že seřadíme-li výsledky v sadě vzestupně podle velikosti, potom první čtvrtina výsledků je menší (nebo rovna) dolnímu kvartilu. Analogicky horní kvartil je menší (nebo roven) poslední čtvrtině takto seřazených výsledků. Šikmost je mírou sešikmení rozdělení, špičatost je mírou jeho zašpičatění. Většinou slouží k porovnání s
šikmostí a špičatostí normálního (gaussovského) rozdělení pro posouzení, zda daná sada má alespoň přibližně gaussovské rozdělení. V tabulce IV.5 Souhrnné statistiky (Summary Statistics) je ukázka základních statistik pro metodu A z dat použitých pro konstrukci obrázku IV.1. Velikost výběru (sample size), aritmetický průměr (average, mean), medián (median), rozptyl (variance), směrodatná odchylka (standard deviation),směrodatná odchylka průměru (standard error), minimum a maximum (minimum, maximum), rozpětí (range), dolní a horní kvartil (lower quartile, upper quartile), šikmost (skewness), špičatost (kurtosis). Některé z nich jsou zakresleny v grafu setříděných dat (line plot of sorted data) na obrázku IV.6. Tabulka IV.5 Souhrnná statistika
Variable
: Metoda_A
Sample size = 50 Lowest value = 0,1000 Highest value = 25,0000 Arithmetic mean = 11,4860 95% CI for the mean = 9,4154 to 13,5566 Median = 11,5000 95% CI for the median = 6,7654 to 16,0469 Variance = 53,0849 Standard deviation= 7,2859 Relative standard deviation = 0,6343 (63,43%) Standard error of the mean = 1,0304 Skewness 0,2483 Kurtosis -0,7268 ---------------------------------Chi-square test for Normal distribution : accept Normality (P=0,0930) Chi-square=12,238 DF=7) Percentiles: 2.5th = 0,6250 97.5th = 24,2500 5th = 1,0000 95th = 23,0000 10th = 2,0000 90th = 21,0500 25th = 5,0000 75th = 17,7000
Desatero pro porovnávání výsledků dvou metod 25 Bodový graf setříděných dat 25 Metoda_A, hodnoty
Horní kvartil
15
Aritmetický průměr Medián
10 5
Dolní kvartil
Rozdíl Metoda_A - Metoda_B
20
0,6 0,4
+1.96 SD
0,2
0,30
0,0 -0,2 -0,4
Mean
-0,6
-0,50
-0,8 -1,0 -1,2
-1.96 SD
-1,4
-1,30
-1,6
0 1 3 5 7 9 11 14 17 20 23 26 29 32 35 38 41 44 47 50 Pořadí
0
5
10
15
20
25
30
Pruměr páru měření Metoda_A a Metoda_B
Obrázek IV.6
Obrázek IV.7 Bland-Altmanův graf z předešlých údajů.
8. Transformace dat Reálná data často neodpovídají ani přibližně požadavku na normalitu. Protože řada statistických postupů funguje "dobře" jenom pro gaussovsky (normálně) rozdělená data, je jednou z možných i když ne nejjednodušších cest transformace dat. Transformace dat znamená, že skutečná data přepočítáme podle nějakého "vhodného" funkčního vztahu tak, aby výsledná (transformovaná) data lépe vyhovovala podmínce normality. Po provedení statistických analýz s transformovanými "normálními" daty je třeba provést zpětnou transformaci "výsledků", abychom dostali původní proměnnou.
10. Lež obyčejná, diplomatická a statistická Ani sebelepším rozborem nekvalitních výsledků nelze dosáhnout kvalitních závěrů. Nemá být účelem oslňovat nejmodernějším statistickým aparátem. Účelem má být získat z dat co nejvíce věrohodných informací. Abychom nedopadli tak, že "v průměru" na tom budeme všichni velmi dobře a současně mnoho z nás už skoro nebude vůbec.
9. Rozdílový graf Jedná se o jednoduchý graf, na jehož vodorovnou osu vyneseme průměry párů měření metodou A a B a na svislou osu rozdíly těchto párů. Je vhodné doplnit jej zakreslením vodorovné přímky, která symbolisuje nulové rozdíly (hypotetický ideální stav). Dále zakreslíme vodorovné přímky symbolisující průměrný rozdíl a hranice jeho intervalu spolehlivosti dané typicky dvojnásobkem směrodatné odchylky průměru (standard error). A konečně zakreslíme vodorovné přímky symbolisující tzv. limity shody, t.j. průměrný rozdíl zvětšený resp. zmenšený typicky o dvojnásobek směrodatné odchylky rozdílů. Z rozdílového grafu je po získání jistých zkušeností na první pohled patrná řada prakticky významných skutečností, např. zda v rozdílech je nebo není trend, zda jsou jsou rozdíly alespoň přibližně symetricky rozdělené, zda existuje mezi metodami statisticky významný rozdíl aj. Tento tzv. rozdílový graf dle Blanda a Altmana byl podrobně popsán (1, 4, 5).
LITERATURA 1. Dohnal, L.: Porovnání výsledků dvou metod. Fons, 1998, č. 2, s. 27-31. 2. Dohnal, L.: Chybějící a odlehlé hodnoty, robustní statistiky, neparametrické postupy. Fons, 1999, č. 3, s. 42-49. 3. Dohnal, L.: Porovnání. Desatero pro porovnání výsledků. Fons, 2000, č. 3, s. 27-32. 4. Hollis, S.: Analysis of method comparison studies. JIFCC, 9, 1997, č. 1, s. 8-12. 5. Hyltoft Petersen, P., Stockl, D., Blaabjerg, O. et al.: Graphical interpretation of analytical data from comparison of a field method with Reference Method by use of difference plots. Clin Chem, 43, 1997, č. 11, s. 20392046. www.clinchem.org 6. Meloun, M., Militký, J.: Statistické zpracování experimentálních dat. East Publishing, Praha, 1996, 850 s. 7. Noe, D.A.: Laboratory methods, s. 1-30, in: Noe, D.A.: The logic of laboratory medicine. 2nd edition, 2001. www. users.rcn.com/dennisanoe
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 26
Obrázek IV.8 Rozdielový graf pre S-kreatinín meraný referenčnou metódou (REF) a porovnávanou metódou (FIELD) s rôznymi vypočítanými a zakreslenými limitmi (prevzaté z lit. 5). A. Očakávaná distribúcia 95% meraných bodov, 0 +- 2σ(δ) = +- 6,3 µmol/l (95% prediction interval); zároveň sú vyznačené čiary pre očakávanú distribúciu 68% meraných bodov, 0 +- 1σ(δ) . B. To isté ako A, ale s pridaním simulovaných „meraných“ bodov (simulované z gaussovskej distribúcie s priemerom –0,5 a σ = 3,0 µmol/l) . C. To isté ako B, ale s vyznačením štatistických 95% tolerančných limitov 95% konfidenčných limitov, 0 = 2,69σ(δ). D. To isté ako B, s pridaním kalkulovaných čiar podľa Blanda a Altmana, označujúcich priemer (d) +- 2s(d), priemer (d) = - 0,84, s(d) = 3,27 µmol/l . σ(δ) = teoretická hodnota σ odvodená v práci (5). s(d) = standard error of differences = smerodajná odchýlka rozdielov.