Hogyan szúrjuk ki a szemétkosárba való orvosi közleményeket? Ferenci Tamás E-mail:
[email protected] Web: http://medstat.hu/OrvosiSzemetkosar.html 2015. június 26.
Manapság csak úgy zúdulnak ránk a kétes értékű orvosi, egészségügyi kutatási eredmények, sokszor a média által így-úgy megszűrt tálalásban. Előfordul, hogy amit közölnek, az nem felel meg a valóságnak, de legalábbis fenntartásokkal kellene kezelni. Néha szándékosan, néha véletlen hibázásból, néha rosszhiszeműen, néha jóhiszeműen történik ilyen, de az egészségügyi hírekben sajnos lépten-nyomon belefutunk féligazságokba és teljes valótlanságokba is. Az egyik legjobb eszközünk ezzel szemben egyéni szinten a kritikus gondolkodásmód: ne higgyük el gondolkodás nélkül amiket olvasunk! Gondoljuk végig az adatokat, az eredményeket, értékeljük a módszertan helytállóságát. Ehhez azonban fontos, hogy ismerjük a leggyakoribb tévedéseket, illetve félrevezetési lehetőségeket; írásomban ehhez igyekszem segítséget adni. Összefoglalom a legelterjedtebb problémákat, elmagyarázom a hátterüket, és mindenhol gyakorlati példákat is hozok, hogy ezzel is igyekezzek eszközt adni az orvosi közlések kritikus értékeléséhez. Alapvetően orvost, egészségügyi szakdolgozót, illetve egészségüggyel foglalkozó újságírót feltételezek olvasóként, de a mondanivalóm összes lényeges részét igyekeztem úgy elmagyarázni, hogy önmagában is megálljon a lábán. Ennek megfelelően írásomat nem csak nekik, hanem minden érdeklődőnek ajánlom (sőt, nekik kiemelt örömmel), aki szeretne tisztábban látni napjaink egészségügyi híreinek világában.
1
Tartalomjegyzék 1. Az orvosi kutatások módszertanáról általában
6
2. Rendszerszintű problémák
10
3. Tanulmányszintű problémák 3.1. Általános észrevételek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Végpont meghatározása: relatív és abszolút kockázat, egyéb metrikák 3.2. Kísérletes vizsgálatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Komparátor megválasztása . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Beválasztási és kizárási kritériumok . . . . . . . . . . . . . . . . . 3.2.3. Kihullás, hiányzó adatok és imputálás . . . . . . . . . . . . . . . . 3.2.4. ITP vagy PP elemzés . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.5. Többszörös végpontok . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Megfigyeléses vizsgálatok . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. A confounding jelensége és konzekvenciái . . . . . . . . . . . . . . 3.3.2. Szignifikancia-vadászat . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3. Klinikai és matematikai szignifikancia elkülönítése . . . . . . . . . 3.3.4. A külső validitás kérdései: mintaválasztás, szelekciós torzítás . . . 3.3.5. A belső validitás ellenőrzése és a modellezés problémái . . . . . . .
24 24 24 24 25 26 26 26 26 26 26 32 36 37 39
2
Bevezető gondolatok: célok és motiváció Mindenekelőtt szeretnék elnézést kérni írásom címéért. Igen, ez hatásvadászat: kevés orvosi, egészségügyi jellegű közlés van, amit úgy ahogy van, a papírkosárba kellene hajítani. De sajnos vannak hibák, egyre több hiba, és ezeknek – részint az orvostudomány fejlődésének jellemzői miatt, részint a modern média viszonyainak betudhatóan – egyre többen ülnek fel. Totális bornírtságok, légbőlkapott vagy még rosszabb esetben szó szerint kitalált tanulmányok, házilag összebarkácsolt, teljesen értelmetlen elemzések eredményei tudnak futótűzszerűen terjedni az egyik oldalról, de mindeközben néha az ipari érdekek is arról tesznek, hogy torz információ jusson el hozzánk. Mint az előző megfogalmazás is sugallja, én úgy látom, hogy két oldalról is „tűz alatt vagyunk”. Egyfelől a professzionális kutatás egy részével is probléma van, elsősorban azzal, amelyik – mindenekelőtt a gyógyszeripar révén – komoly anyagi érdekekkel érintkezik. Másrészt megjelentek a színen az „amatőrök”, ami – noha érthető módon önmagában megnöveli a hibázás valószínűségét – nem feltétlenül baj, sőt. Problémává ott válik, amikor tudatos vagy tudattalan módon, de félrevezetnek; erre a legjobb példát talán a védőoltás-ellenesek jelentik. Az ilyen „amatőrök” egy része rosszhiszemű (a védőoltásellenesek példájánál maradva: aki diagnosztizál gyerekeket oltás okozta betegséggel, majd – micsoda szerencsés véletlen – pont árul is szert a védőoltás negatív hatásainak megszüntetésére, nem két fillérért), más részük teljesen jóhiszemű. . . de ettől még a butaság az butaság marad. Az orvosok által elvégzett kisebb volumenű, gyakran ad hoc jellegű vizsgálatok is sokszor esnek az amatőr kategóriába (remélem ebből is látszik, hogy ezt nem sértő jelzőként használom!) annak minden következményével együtt. Mi a közös nevező a fenti kettő között? Én ugyanis azt állítom, hogy van ilyen, mégpedig a kritikus gondolkodásmód. Véleményem szerint egyre inkább igaz, hogy e nélkül könnyen pórul járhatunk (és ez nem csak az egészségügyi információkra áll. . . ) Addig is, amíg a rendszerszintű problémák megoldódnak – amit egymagunk valószínűleg kevéssé tudunk elintézni. . . – az egyik legjobb amit tehetünk, egyéni szinten: legyünk kritikusak! Azzal is, amit egy gyógyszergyár reklámanyagában olvasunk, és azzal is, amit egy gyógyszergyárak sötét üzelmeiről szóló blogon! (Kiegészítés: legyünk kritikusak ezzel az írással is!) Jelen írásommal azt tűztem ki célul, hogy megpróbáljak eszközt adni az ilyen közlések olvasóinak kezébe, hogy kicsit rendet tudjanak vágni. Semmiképpen nem „megoldást” ajánlok, hanem eszközt. A szándékom, hogy bemutassam a legfontosabb – tudatos vagy véletlen – hibázási lehetőségeket, azzal a nem titkolt céllal, hogy az olvasó ennek ismeretében, ha szembejön egy új egészségügyi hír, már megalapozottabban tudja eldönteni, hogy mennyire higgyen neki. Végig fogok menni a legfontosabb torzításokon, hibákon, manipulációs lehetőségeken, tipikus átveréseken. Mindenhol igyekszem bemutatni a hátterét, és ahol lehet – a címmel összhangban – arra is rámutatok, hogy ezek mi alapján vehetőek észre. E célból a tárgyalt módszertani mondanivalót mindenhol gyakorlati példákkal igyekszem szemléltetni (ezek piros keretben fognak megjelenni). Remélem, hogy nem csak az ilyen hírek közvetlen feldolgozói (kiemelten: orvosok/egészségügyi dolgozók és újságírók), hanem mindenki más is, aki érdeklődik a téma iránt és szeretné tudatosan értelmezni amit lát a médiában
3
– remélem minél többen vannak ilyenek! – talál hasznosítható anyagot írásomban. Egy (személyes) gondolat az esetleges gyógyszeriparból érkező olvasóknak. Tökéletesen megértem őket, ha úgy érzik, hogy nem igazságos, hogy az ő agyonszabályozott, talán minden más területnél jobban regulált iparágukkal, amely az elmúlt 100 évben leírhatatlan sok beteg emberen segített, gyógyíthatatlan és halálos betegségek problémáját oldotta meg, „publikációs torzítás” meg hasonlók miatt kötözködöm, miközben ma Magyarországon 8 általánost végzett kuruzslók (vagy, ami talán még rosszabb, diplomával rendelkező orvosok) ajánlhatnak jó esetben nem bizonyítottan hatásos, rosszabb esetben bizonyítottan hatástalan kezeléseket, az elvetemültebbek minden konzekvencia nélkül beszélhetnek le betegeket hatásos kezelésről stb. (Miközben relatíve – értsd: a kutatásra befektetett összeghez, a kockázatvállaláshoz képest – úgy mellesleg a szörnyűséges pénzéhes gyógyszeripart simán kenterbe verő profitrátával dolgoznak.) Ez mind igaz, de kérem őket, hogy vegyenek figyelembe két dolgot. Az egyik, hogy más terület helytelen viselkedése nem ok arra, hogy mi ne viselkedjünk helyesen – ha a fenti ellentmondás probléma (szerintem is az!), akkor arra az a megoldás, hogy őket kell jobban szabályozni. A másik, hogy azt se felejtsék el, hogy ők éppen attól a jó fiúk ebben az összevetésben (ugye ezt gondolják magukról? remélem!), hogy sokkal-sokkal magasabb tudományos és etikai mércének kell, hogy megfeleljenek! A dolgozat felépítését nem bonyolítottam túl. Az 1. pontban megtárgyalom az orvosi kutatások kiértékelésének azokat az alapgondolatait, amik véleményem szerint meghatározó fontosságúak a későbbiek megértéséhez. Nyilvánvaló, hogy ilyen téren annyi ismeret van, ami önmagában megtöltene egy könyvet, így itt igyekeztem azokra szorítkozni, amik sokszor előjönnek a későbbiekben, illetve amikre sok dolog épít. A 2. pontban azokat a problémákat fogom tárgyalni, melyek nem egy konkrét kutatáshoz, hanem a kutatások egészének a rendszeréhez kötődnek. (Itt legtöbbször az ipar lesz a hunyó.) Végül a 3. pontban rátérek ez egyes tanulmányokban fellelhető konkrét módszertani hibákra. Itt aztán nagyon széles lesz a skála: az ipar által lefolytatott kísérletek nagyon neves lapokban közölt eredményeitől a jószándékű, lelkes, de módszertanilag kevésbé képzett orvosok által elvégzett kutatásokon át komolytalan internetes oldalakig mindenhonnan veszem a példákat. „Szerencsére” így a legtöbb hibát – reményeim szerint – fogom tudni illusztrálni. Ezt a pontot igyekeztem strukturálni, mégpedig a tanulmány jellege szerint, hogy áttekinthető maradjon a tárgyalás. Remélem, hogy kellően sok esetet fogok tudni bemutatni, és kellően gyakorlatiasan ahhoz, hogy az olvasó úgy érezze, hogy megvalósul a címben kitűzött cél. Zárásként hadd hangsúlyozzam még egyszer a talán legfontosabb gondolatot, a saját motivációmról. Bár fogok szidni gyógyszert, de nem vagyok „gyógyszer-ellenes”, fogok szidni gyógyszergyárat, de nem vagyok „gyógyszeripar-ellenes”, fogok szidni védőoltáselleneseket, de nem vagyok „védőoltásellenes-ellenes”. Már a védőoltásokkal kapcsolatos tevékenységem (http://vedooltas.blog.hu/) során is hangsúlyoztam, hogy engem ezredannyira zavar önmagában az, ha valakinek a védőoltásokról más véleménye van mint nekem, mint az, ha ezt a véleményét ellenőrizhetően nem igaz állításokra alapozza (pláne, ha ezeket másoknak terjeszti), úgyhogy remélem a mostani dolgozatommal végképp egyértelművé teszem: én nem valami-ellenes, hanem igazság-párti vagyok. Ha ezzel egy gyógyszergyár megy szembe, akkor őket szidom, ha a védőoltás-ellenesek, akkor őket.
4
Az egyetlen, ami stabil, rögzített pontom: az igazság nyomában kell lenni. (Ami nem azonos a tévedhetetlenséggel, hogy mást ne mondjak, biztos, hogy ebben a dolgozatban is vannak hibák! A fontos sokkal inkább a kritikákra való nyitottság: aki egy kritika hatására sem nem igazítja helyre magát, sem nem cáfolja a kritikát, az nem az igazság nyomában van.) És a végére egy technikai megjegyzés: mint az jól látható lesz, ez egy alakulóban lévő anyag. A meglevő részeket is elképzelhető, hogy átírom, de még inkább biztos, hogy vannak bővítési lehetőségek (ezeket sok helyen TODO felirattal explicite is jelöltem). E nélkül is igaz lenne, így meg aztán végképp, hogy nagy örömömre szolgál, ha az olvasó is küld erről visszajelzést, kritikát, tanácsot, kérdést. Bátorítok mindenkit, hogy véleményével keressen meg a fenti email-címen!
5
1. Az orvosi kutatások módszertanáról általában Csökkenti-e egy vérnyomáscsökkentő a vérnyomást? Okoz-e fejfájást mint mellékhatás? Növeli-e a kettes típusú cukorbetegség kockázatát az elhízás? És az egyes típusúét a császármetszéssel történő születés? Növeli-e a rákkockázatot, ha magasfeszültségű távvezeték közelében élünk? Számos orvosi kutatás közös pontja, hogy arra vagyunk kíváncsiak, hogy valamilyen tényezőnek történő kitettség (gyógyszer beszedése, elhízás, császármetszéssel születés, távvezeték közelében lakás), továbbiakban expozíció, befolyásolja-e az egészségi állapotunkat, azaz van-e hatása valamilyen végponton (változik-e a vérnyomásunk, gyakoribbá válik-e a fejfájás, az egyes vagy kettes típusú cukorbetegség, vagy épp a rák). E kérdéseket csak úgy lehet megválaszolni – legalábbis ha „megválaszolás” alatt az empirikus úton történő megválaszolást (és nem mondjuk elméleti biológiai okfejtést, állatmodelleket stb.) értünk, márpedig jelen dolgozatnak ez a tárgya – ha kellően sok embert összegyűjtünk, és statisztikai módszerekkel megvizsgáljuk, hogy van-e kapcsolat az expozíció és a végpont között. Egy tipikus séma, ha emberek olyan csoportjait képezzük, amelyek részesültek illetve nem részesültek expozícióban (kaptak gyógyszert–nem kaptak gyógyszert, elhízottak–nem elhízottak, császármetszéssel születtek–természetes úton születtek, távvezeték mellett élők–távvezetéktől távol élők), majd ezeket összehasonlítjuk a végpont tekintetében. Láthatjuk, hogy a kérdések rengeteg szempont szerint eltérnek. Van, ahol reális, hogy mi befolyásoljuk az expozíciót (gyógyszerbeadás), van ahol nem (lakhely megválasztása). Van ahol a végpont ritka (1-es típusú cukorbetegség), van ahol nem (2-es típusú cukorbetegség). Ezeknek persze az egyes konkrét feladatok megoldásában messziremenő következményei lesznek, de ha ezektől az egyedi részletektől lecsupaszítjuk a feladatokat, akkor – hiába nagyon eltérőek – minden példában szereplő kérdés mögött megkapjuk ugyanazt a sémát: expozíció és végpont összevetése. A megoldás pedig, ha tapasztalati választ keresünk, sok ember vizsgálata. Miért van szükség több ember begyűjtésére a kérdések empirikus megválaszolásához? Azért, mert minden ilyen esetben meg kell küzdenünk a biológiai variabilitással: van akinek nagyban csökkenti a vérnyomását a gyógyszer, van akinek csak kevéssé, van akinél esetleg nem is hat, sőt, az is előfordulhat, hogy valakinek kifejezetten növeli a vérnyomását. (Még ha egyébként teljesen homogén csoportnak is adjuk! Továbbá, nem arra gondolok tehát, hogy esetleg férfiakban és nőkben máshogy hat a gyógyszer.) Még ha a fejfájás mellékhatása is a gyógyszernek, akkor sem fog mindenkinek megfájdulni a feje. És fordítva. Nem lesz minden elhízottból vagy császármetszéssel születettből cukorbeteg és nem kap rákot minden távvezeték mellett élő. Ha ez nem így lenne, akkor könnyű dolgunk lenne: egy embernek beadnánk a gyógyszert, keresnénk egy elhízottat, császármetszéssel született vagy épp távvezeték mellett élőt, megnéznénk, hogy csökkent-e a vérnyomása/megfájdult-e a feje/cukorbeteg-e/rákos-e és végeztünk is. De a helyzet tehát nem ez. Az expozíció hatása sztochasztikus, még szebb szóval élve: valószínűségi változóval írható le, azaz eloszlása van. Például egy véletlenszerűen választott ember vérnyomás-változása a gyógyszer beadásának hatására nézhet így ki:
6
0.020
0.015
0.010
0.005
-20
0
20
40
Vérnyomáscsökkenés
Ez épp az előbb leírt jelenséget ragadja meg: egy embernél lehet, hogy kicsit hat a gyógyszer, egy másiknál nagyon, lehet, hogy valakinél egyáltalán nem, vagy pont, hogy árt. Azaz: az, hogy egy kísérletben milyen vérnyomáscsökkenést kapunk, emberről-emberre ingadozik. . . de nem akárhogy! A legvalószínűbb hogy +10 körüli lesz, kevésbé valószínű, hogy 0 vagy +20, még kevésbé, hogy -10 és +30 stb. – épp a fenti eloszlás szerint. Ebben a példában a gyógyszer hat (elárulom: az eloszlás várható értéke +10), de a probléma, hogy mi ezt az eloszlást, a fenti görbét nem ismerjük, így sajnos ezt a tényt sem tudjuk. A legjobb, amit tehetünk, hogy beadjuk egy embernek a gyógyszert, és megnézzük mi történik – a statisztikusok úgy mondják: mintát veszünk az eloszlásból. Ez azonban nem túl szerencsés megoldás: az „egyelemű minta” eloszlása ugye épp a fenti eloszlás, abból viszont nagyon könnyen kaphatunk helytelen eredményt: több mint 30% a valószínűsége, hogy a vérnyomáscsökkenés negatív (mintha nem is hatna a gyógyszer, sőt, káros lenne), több mint 15%, hogy a vérnyomáscsökkenés nagyobb mint 30 (pedig a valóságban harmadekkora csak a hatása). Mi a megoldás? Az, hogy több embert vizsgálunk meg, például 100-at, és az eredményeiket kiátlagoljuk! Úgy fogjuk mondani, hogy a mintaátlaggal becsüljük a keresett, ismeretlen paramétert, esetünkben a vérnyomáscsökkenés igazi várható értékét. Persze, mivel a vérnyomáscsökkenés értéke emberről-emberre ingadozik, így az átlag is ingadozni fog, mintáról-mintára: attól függően, hogy épp melyik 100 embert választjuk, más és más átlagot (becslést) fogunk kapni. Ennek a neve: mintavételi ingadozás. Fontos, hogy itt nem arról van szó, hogy „rossz” mintát választunk valamilyen értelemben: tökéletesen véletlen mintavétel esetén is mintáról-mintára ingadozik az átlag (logikusan, ha egyszer az egyes emberek értéke is emberről-emberre ingadozik, az átlagot pedig abból számoljuk). Vehetünk, teljesen véletlenül is, olyan 100 embert, akiknél kicsit kisebb a vérnyomáscsökkenés, és olyat is, akiknél kicsit nagyobb. De – és most jön a lényeg –, bár az átlag is ingadozni fog. . . de kevésbé! Ezt mutatja a következő ábra, ami azt adja meg, hogy ha a fenti eloszlást tételezzük fel az egyes emberek vérnyomáscsökkenésének eloszlására, akkor milyen lesz a 100 emberből átlagolt vérnyomáscsökkenés eloszlása:
7
0.20
0.15
0.10
0.05
-20
0
20
40
Vérnyomáscsökkenés
Ahogy mondtam is, valóban ingadozik – de jóval kevésbé! Ami egyébként mindenféle matematika nélkül is logikus: ha 100 emberből átlagolunk, akkor, ha bele is esik egy-két kilógó érték, azokat várhatóan ellensúlyozni fogja egy-két másik oldalon kilógó érték, így sokkal valószínűtlenebbek lesznek a nagy kiugrások. És csakugyan: itt már, ha elvileg nem is kizárt, hogy például negatív legyen a becslésünk (a 100 alany átlaga), de gyakorlatilag szinte igen, egész pontosan ennek valószínűsége 0,000029%. Ezt az eloszlást szokás az átlag (mint a becslésünk) mintavételi eloszlásának nevezni. Ez lényegében a 100 emberes kutatások eredményeinek az eloszlása! (Erre a felfogásra még vissza fogok térni.) Talán még jobb szemléltetés, ha megnézzük, hogy a mintavételi eloszlás hogyan függ a minta nagyságától: 1 5
10 50
100 500
0.4
0.3
0.2
0.1
-20
0
20
Vérnyomáscsökkenés
8
40
Szépen látható, hogy az egyre nagyobb mintából egyre jobban becsüljük a keresett paramétert (tehát a +10-et, mint a gyógyszer igazi hatását): akármekkora is a mintanagyságunk, a becslésünk mindenképp a jó érték körül ingadozik, továbbá minél nagyobb a mintánk, annál kisebb lesz ez az ingadozás. Persze, bármekkora is a mintanagyságunk, biztosat soha nem tudunk mondani. Éppen ezért célszerű, ha közöljük a becslésünk bizonytalanságát is (nyilván ez annál kisebb, minél nagyobb a mintanagyság). Szerencsére ezt meg tudjuk tenni! Van módszer arra, hogy egy adott mintából ne csak olyasmit tudjunk mondani, hogy „az átlaga, tehát becslésünk a gyógyszer hatására 10,3”, de azt is hozzá tudjuk tenni, hogy „ez persze nem biztos érték, hiszen mintavételi ingadozás van, de 95%-os megbízhatósággal kijelenthető, hogy ennek figyelembevételével sem kevesebb mint −5,6 és nem több, mint 26,1”. Ezt szokás konfidenciaintervallumnak nevezni. A „95%-os megbízhatóság” azt jelenti, hogy ha ugyanezen eloszlás mellett 100-szor megismételnénk a mintavételt, akkor várhatóan 95-ször olyan mintát vennénk, hogy a belőle számolt konfidenciaintervallum tényleg tartalmazná a valódi értéket, és csak 5-ször vennénk olyan extrém mintát, hogy az abból számolt konfidenciaintervallumban nincs benne a valódi érték. Ez matematikailag garantálható, persze csak akkor, ha a konfidenciaintervallumot számoló eljárás előfeltevései teljesülnek (mert lehetnek ilyenek, de ezzel most nem foglalkozom, ez technikai kérdés). Természetesen minél nagyobb megbízhatósági szintet választunk, annál szélesebb lesz a konfidenciaintervallum (ami persze nem jó, hiszen azt jelenti, hogy kevésbé tudunk pontosat mondani): ha nagyobb biztonságot akarunk, óvatosabban kell fogalmaznunk. Vagy, mondhatunk pontosabbat, de abban kevésbé lehetünk biztosak. Ebben tehát kompromisszumot kell kötnünk, az sem jó, ha 99,9999999%-os megbízhatósággal tudjuk, hogy a gyógyszer hatása -10000000 és +10000000 között van, de az sem, ha tudjuk, hogy 10,299999 és 10,300001 között, csak épp 0, 0001% megbízhatósággal. . . A 90, 95 és 99%-os megbízhatósági szintek jelentik a tipikus kompromisszumokat a gyakorlatban. A fenti ábra még egy nagyon fontos dolgot mond: ha növeljük a mintanagyságot, akkor a konfidenciaintervallum is szűkül (hiszen csökken a mintavételi ingadozás). Érdemes azt is megfigyelni, hogy az előbb említett konfidenciaintervallumban benne van a 0 (ami ugye ahhoz tartozik, hogy a gyógyszer hatástalan), tehát hiába is pozitív az átlaga (10,3), azt kell mondjuk, hogy olyan közel van a nullához, hogy ez, tehát a kutatásban kapott hatásosság, betudható a mintavételi ingadozásnak. Nem feltételezzük, hogy azért kaptunk pozitív átlagot, mert a gyógyszer hat, hiszen ez a hatás simán előállhat úgy is, hogy a gyógyszer hatásossága nulla, csak most pont olyan mintát vettünk, aminek az átlaga 10,3-mal nagyobb, pusztán a mintavételi ingadozás miatt. Úgy szokás mondani: nem szignifikáns az eltérés a nullától. Statisztikai teszt (vagy próba) a neve azoknak az eljárásoknak, melyek adott minta alapján megválaszolják az ismeretlen paraméterre vonatkozó kérdéseket (például, hogy nulla-e a hatásának a várhatóértéke, azaz hatásos-e a gyógyszer). Természetesen ezek a döntések is bizonytalansággal terheltek, épp a mintavételi ingadozás miatt: elképzelhető, hogy a gyógyszer nem hat, mi mégis pont olyan mintát veszünk (ismétlem: nem csalás, tévedés vagy bármi ilyesmi folytán, egyszerű vakvéletlenből – ahogy lottón is ki lehet húzni a 86, 87, 88, 89, 90 számokat), hogy a belőle számolt átlag olyan nagy lesz, hogy
9
arra következtetünk, hogy a gyógyszer hat. Ezt szokás I. fajú hibának nevezni. Ennek valószínűsége felett közvetlen kontrollunk van-e statisztikai teszt során: mi határozzuk meg, hogy milyen nagy átlagra mondjuk azt, hogy „ez még betudható a mintavételi ingadozásnak”, és mi fölött mondjuk azt, hogy „ez már túlmutat a mintavételi ingadozás hatásán, azért kaptunk ekkora átlagot, mert a gyógyszer tényleg hat”. Pontosan kiszámolható, hogy hol kell húznunk határt, hogy 5% valószínűséggel kövessünk el I. fajú hibát, hogy 1% valószínűséggel (ehhez nyilván emelnünk kell a határt – így lesz valószínűtlenebb, hogy tévesen mutatunk ki hatást) stb. Az I. fajú hiba valószínűségét tehát pontosan limitálni tudjuk. Egy nagyon sokat kritizált, de a gyakorlatban igen gyakran használt választás az 5%. Akkor miért nem érjük el, hogy ez nulla vagy szinte nulla legyen? Miért állunk meg mondjuk 5%-nál? Azért, mert az I. fajú hibával (kimutatunk hatást pedig a valóságban nincs is) szembenáll egy másik hibázási lehetőség: ha nem mutatunk ki hatást, pedig a valóságban van! Ezt szokás II. fajú hibának nevezni. Ha nagyon szélesre vesszük azt a tartományt, amin belül azt mondjuk, hogy nincs hatás, akkor igaz ugyan, hogy valószínűtlenné tesszük, hogy valótlan módon találunk hatást (alacsony I. fajú hiba valószínűség), de valószínűvé, hogy egy valós hatást nem találunk meg (II. fajú hiba valószínűség). Szemben az I. fajú hibával, a II. fajú hiba fölött nincs közvetlen kontrollunk, hiszen azon is múlik, hogy a „van hatás a valóságban” pontosan mit jelent: nem mindegy+1, +10 vagy +100 a valódi helyzet. . . Nyilván ilyen sorrendben egyre valószínűtlenebb a II. fajú hiba elkövetése. A másik fontos szempont: a minta nagysága – minél nagyobb, annál kisebb a II. fajú hiba valószínűsége (azáltal, hogy kisebb a mintavételi ingadozás: az átlag kevésbé fog ingadozni a valós értéke körül), tehát annál valószínűbb, hogy észre vesszük, hogy van hatás, ha tényleg van. (Az előző két állítást összekombinálva máris érthető, hogy min alapszik a klasszikus statisztikus mondás: „kis hatás kimutatásához nagy minta kell, nagy hatáshoz elég a kis minta is”.) Annak valószínűségét, hogy a teszt észreveszi, hogy van hatás, ha tényleg van, a próba erejének szokás nevezni. Az ilyen és ehhez hasonló kérdéseket a statisztika következtető statisztika nevű ága tárgyalja. (Érdemes megfigyelni, hogy ennek során meg kell fordítani a szakasz elején használt okfejtést: ott azt vizsgáltuk, hogy ha ismerjük a vérnyomáscsökkenés eloszlását akkor hogyan fog viselkedni a mintaátlag, itt viszont arra van szükség, hogy ismert mintaátlag mellett nyilatkozzunk arról, hogy – a valóságban persze nem ismert – vérnyomáscsökkenés milyen tulajdonságokkal bír.)
2. Rendszerszintű problémák Hogy megértsük mit jelent a „rendszerszintű” probléma, két megállapítással kezdenék, melyekből már adódni fog a konklúzió. Az első megállapítás, hogy az ipar által szponzorált gyógyszerkísérletek nagyobb valószínűséggel hoznak a tesztelt gyógyszerre nézve kedvező eredményt, mint a független szponzorúak. E tényt számos gyógyszercsoportra, számos országban, számos kutató,
10
számos egymástól független vizsgálatban lényegében minden kétséget kizáróan igazolta1 . Pontosan emiatt nem szeretnék egyetlen gyógyszercsoportot sem konkrétan kiemelni, álljon itt ehelyett inkább csak pár, hasraütésszerűen kiemelt, mellbevágó példa. Egy szerzőcsoport átnézte a négy nagy amerikai pszichiátriai folyóirat összes számát két éven keresztül, és azt találták2 , hogy majdnem ötször valószínűbb, hogy egy tanulmány a gyógyszerre nézve pozitív eredménnyel zárul, amennyiben az ipar szponzorálta3 . Ezt az eredményt egy egész sor további tanulmány is megerősítette ezen a területen4 . De egész hasonló arányt talált az a kutatás is, mely általában (minden orvosi specialitást tekintve) vizsgálta a kérdést több mint két évtized publikáció alapján5 . Egy másik kutatásban majdnem 200, sztatinokat vizsgáló kísérlet eredményeit összegezték, és azt találták, hogy amennyiben az egyik összehasonlított gyógyszer gyártója szponzorálta a tanulmányt, akkor hússzor (!) valószínűbb, hogy pozitív eredményt hoz a szponzor gyógyszerére nézve, mintha nincs ilyen szponzor a finanszírozók között6 . Még ennél is extrémebb (de sajnos valós) eset: az Amerikai Reumatológiai Társaság 2001. évi kongresszusára beadott 45 olyan cikk közül, melyet gyógyszergyár szponzorált, 45 hozott pozitív eredményt7 . . . Ezzel már ahhoz kezdünk közel kerülni, amit Theodore Sterling annak idején mondott. (Sterling publikált egy cikket 1959-ben8 , melyben leírta, hogy az általa megvizsgált cikkekben szereplő 294 elvégzett vizsgálat közül 286 hozott pozitív eredményt. Nem kevés maró gúnnyal jegyezték meg ennek kapcsán, hogy ha 1
N. McGauran, B. Wieseler, J. Kreis, Y.-B. Schuler, H. Kolsch, et al. „Reporting bias in medical research - a narrative review“. In: Trials 11.1 (2010), p. 37. issn: 1745-6215. doi: 10.1186/1745-6215-11-37. url: http://www.trialsjournal.com/content/11/1/37; S. Sismondo. „Pharmaceutical company funding and its consequences: A qualitative systematic review“. In: Contemporary Clinical Trials 29.2 (2008), pp. 109–113. issn: 1551-7144. doi: http://dx.doi.org/10.1016/j.cct.2007.08.001. url: http://www.sciencedirect.com/science/article/pii/S1551714407001255. 2 A folyóiratok becsületére legyen mondva, az erről szóló tanulmány maga is a négy folyóirat egyikében jelent meg. . . 3 R. H. Perlis, C. S. Perlis, Y. Wu, C. Hwang, M. Joseph, et al. „Industry Sponsorship and Financial Conflict of Interest in the Reporting of Clinical Trials in Psychiatry“. In: American Journal of Psychiatry 162.10 (2005). PMID: 16199844, pp. 1957–1960. doi: 10 . 1176 / appi . ajp . 162 . 10 . 1957. eprint: http://dx.doi.org/10.1176/appi.ajp.162.10.1957. url: http://dx.doi.org/10.1176/appi.ajp. 162.10.1957. 4 E. H. Turner. „Publication Bias, with a Focus on Psychiatry: Causes and Solutions“. English. In: CNS Drugs 27.6 (2013), pp. 457–468. issn: 1172-7047. doi: 10.1007/s40263-013-0067-9. url: http://dx.doi.org/10.1007/s40263-013-0067-9. 5 J. Bekelman, Y. Li, C. Gross. „Scope and impact of financial conflicts of interest in biomedical research: A systematic review“. In: JAMA 289.4 (2003), pp. 454–465. doi: 10.1001/jama.289.4.454. eprint: /data/Journals/JAMA/4865/JRV20091.pdf. url: http://dx.doi.org/10.1001/jama.289.4.454. 6 L. Bero, F. Oostvogel, P. Bacchetti, K. Lee. „Factors Associated with Findings of Published Trials of Drug–Drug Comparisons: Why Some Statins Appear More Efficacious than Others“. In: PLoS Med 4.6 (June 2007), e184. doi: 10.1371/journal.pmed.0040184. url: http://dx.doi.org/10.1371/journal. pmed.0040184. 7 J. Fries, E. Krishnan. „Equipoise, design bias, and randomized controlled trials: the elusive ethics of new drug development“. In: Arthritis Res Ther 6.3 (2004), R250–R255. issn: 1478-6354. doi: 10.1186/ar1170. url: http://arthritis-research.com/content/6/3/R250. 8 T. D. Sterling. „Publication Decisions and Their Possible Effects on Inferences Drawn from Tests of Significance–Or Vice Versa“. In: Journal of the American Statistical Association 54.285 (1959), pp. 30–34. issn: 01621459. url: http://www.jstor.org/stable/2282137.
11
a kutatók ilyen jól meg tudják mondani, hogy melyik vizsgálat lesz pozitív kimenetű, akkor tulajdonképpen szinte kár is ténylegesen elvégezni azokat: a tény, hogy elvégzésre érdemesnek találták őket, már önmagában majdnem megadja az eredményt is. . . ) Ennek a jelenségnek lehetnek jóhiszemű(bb) magyarázatai is (értsd: olyan, ami nem függ össze magával a kutatással), mindenekelőtt az, hogy egy gyógyszercégtől, mint profitorientált vállalattól, igazán nem várható el, hogy olyan kutatást finanszírozzon, ami előreláthatólag nem kedvező eredményt hoz számára. Jobban belegondolva azonban ez a magyarázat – legalábbis a legtöbb esetben – fából vaskarika, hiszen azt jellemzően maga a gyógyszergyár sem tudhatja előre, hogy a gyógyszer hat-e: jövőbelátási képesség nélkül ezt ő is csak úgy tudhatja, ha kipróbálja. . . (Ráadásul az etikai probléma még ekkor is megmarad: elvileg klinikai kísérletet csak akkor végezhetünk, ha valós bizonytalanság van a kezelés hatásosságát illetően. A fenti 45/45-ös példa ugyancsak ellentmondani látszik ennek – bármi okból is jött létre.) Ha tehát a magyarázat mégis csak össze függ a kutatással, akkor mi lehet ennek a különbségnek az oka? Sokan biztos rávágják: a gyógyszergyárak meghamisítják a kutatásokat, vagy szándékosan rosszul végzik el őket. Jobban megvizsgálva azonban egyik sem túl hihető: a mai gyógyszeripar egy elképesztő módon (túl)szabályozott terület, melyben mindenről kamionnal szállítható mennyiségű dokumentáció készül, így – ha nem is teljesen kizárható9 – de nem is reális, hogy érdemi mértékben meg lehessen konkrét számokat másítani. A másodikban már van valami (erre én is vissza fogok még térni), de ezek inkább sokkal finomabb torzítások, nem konkrét módszertani hibák, sőt – és itt jön a második megállapítás – a legtöbb esetben pont hogy azt találták, hogy az ipar által szponzorált kutatások statisztikai módszertana nem rosszabb mint a függetleneké, vagy kimondottan jobb annál10 ; a tipikus torzítási okok nincsenek inkább jelen bennük, mint a függetleneknél11 . Akkor mégis mi a magyarázat? Hogyan lehet, hogy nem csalnak, a tanulmányok minősége nem rosszabb, és mégis inkább jön ki olyan eredmény, ami számukra kedvezőbb. . . ? A válasz az úgynevezett publikációs torzítás. Ahhoz, hogy ezt bemutassam, először is egy hatalmas kitérővel kezdenék. Láttuk, hogy minden vizsgált jellemző emberről-emberre ingadozik, és azt is láttuk, hogy több ember bevonásával végzett vizsgálatok ezt az ingadozást csökkentik. De, ahogy szintén volt róla szó, nem szüntetik meg. Más szóval, nem csak két ember vérnyomásváltozása nem lesz ugyanaz egy gyógyszerkísérlet alatt, hanem két darab, mondjuk 50 emberből átlagolt kísérlet átlaga sem. Tehát: a kísérletek szolgáltatta eredmény is ingadozik kutatásról-kutatásra. Példának okáért, egymástól függetlenül elvégzünk 15 darab, egyenként 50 embert 9
D. Fanelli. „How Many Scientists Fabricate and Falsify Research? A Systematic Review and MetaAnalysis of Survey Data“. In: PLoS ONE 4.5 (May 2009), e5738. doi: 10.1371/journal.pone.0005738. url: http://dx.doi.org/10.1371/journal.pone.0005738. 10 J. Lexchin, L. A. Bero, B. Djulbegovic, O. Clark. „Pharmaceutical industry sponsorship and research outcome and quality: systematic review“. In: BMJ 326.7400 (2003), pp. 1167–1170. issn: 0959-8138. doi: 10.1136/bmj.326.7400.1167. 11 A. Lundh, S. Sismondo, J. Lexchin, O. A. Busuioc, L. Bero. „Industry sponsorship and research outcome“. In: The Cochrane Library (2012). doi: 10.1002/14651858.MR000033.pub2. url: http: //onlinelibrary.wiley.com/doi/10.1002/14651858.MR000033.pub2/abstract.
12
bevonó kísérletet a gyógyszerünk vizsgálatára, ami sajnos a valóságban nem hat. Ekkor a kapott eredmény (átlagos vérnyomás-változás az alanyok körében) kevésbé fog ingadozni12 , mint ha egy embert vizsgáltunk volna, de fog; illusztrálja ezt a következő ábra:
0.15
0.10
0.05
-5
0
5
Vérnyomáscsökkenés
A görbe tehát a vizsgálatok eredményeinek eloszlása (amit mi persze általában nem ismerünk – de most, lévén, hogy ez gondolatkísérlet, igen), a lenti tüskék pedig szemléltetik a 15 konkrét vizsgálatot (ezek lényegében véletlen számok, amiket ilyen eloszlásból szimuláltam). Jól látható, hogy a görbe várható értéke nulla, tehát a gyógyszer a valóságban nem hat (ismét csak: értelemszerűen ez az, amit mi a valóságban nem tudunk, sőt, épp erre vagyunk kíváncsiak). Az eddigiekből világos, hogy mit tehetünk eredményünk javítására: végezzünk nagyobb mintaméretű kutatást! Sajnos azonban ez problémákat vet fel: a nagyobb kutatások kivitelezése időigényesebb, bonyolultabb, és nem mellesleg drágább is, így ez sokszor nem járható út. Van azonban egy másik lehetőség. Ahelyett, hogy elvégeznénk egy nagy, mondjuk 750 fős kutatást, megtehetjük, hogy leülünk a számítógép elé, keresőprogramokkal összegyűjtjük az irodalomból mind a 15, korábban elvégzett 50 fős kutatást, és – még mindig a számítógépünk előtt ülve és teát szürcsölgetve – statisztikai módszerekkel aggregáljuk azok eredményeit. Ilyen módon úgy tudunk egy (15 · 50 =) 750 fős kutatás erejét biztosító vizsgálatot végezni, hogy közben nem hogy 750, de 2 ember összegyűjtésére sem volt szükség. Az ilyen jellegű irodalomkutatást szokás szisztematikus áttekintésnek (systematic review) nevezni. Az áttekintő, review jellegű cikkek persze mindig is léteztek az orvosi irodalomban, de a szisztematikus áttekintés abban más, hogy nem egyszerűen leírja valaki, hogy miket talált az irodalomban a témáról (ez a klasszikus review), hanem tökéletesen precíz megadja azt is, hogy hogyan találta meg ezeket: melyik keresőben, milyen keresőszavakkal, milyen időbeli szűkítéssel stb. gyűjtötte az eredményeket. 12 Figyeljük meg, hogy a görbe tényleg megegyezik a korábbi ábrán látott, 50 alanyhoz tartozó görbével, az egyetlen különbség, hogy itt odébb van tolva, mert ennek a várható értéke – hiszen most azt feltételezzük, hogy a gyógyszer nem hat – nulla.
13
Azt az eljárást pedig, amikor több – fentiek szerint összegyűjtött – kutatás eredményét statisztikailag aggregálják, hívják metaanalízisnek. Megtehetjük például, hogy a fenti 15 vizsgálatot kiátlagoljuk – ugyanúgy, ahogy a tanulmányon belül az embereket átlagoljuk. (Innen az elnevezés: egy tanulmány egy analízis, ez viszont az analízisek analízise: azaz metaanalízis.) Miközben még az egyes tanulmányokat vizsgálva is kaphatunk a gyógyszer hatására −6,3-t és +4,5-t is (nem is beszélve most az egyes emberekben mutatkozó ingadozásról), addig a 15 kutatás átlaga +0,29 – sokkal közelebb a valódi értékhez. (Ezt a +0,29-es átlagot mutatja az ábrán a piros vonal.) Statisztikai tesztet végezve meg is kapjuk, hogy ennek az eltérése a 0-től nem szignifikáns, tehát a gyógyszernek nincs hatása. Jól látható, hogy a vizsgálatok átlaga enyhén pozitív (nem nulla, mint a valóságban – mintavételi ingadozás, ugyebár!), de ennek az átlagnak – lévén, hogy 750 beteg van mögötte – sokkal kisebb az ingadozása, mint az egyes tanulmányoknak (nem hogy az egyes embereknek). Megvalósítottuk a célunkat: 750 embernyi erejű számot kaptunk, anélkül, hogy 750 fős vizsgálatot kellett volna szerveznünk! A valóságban persze nem lehet egyszerűen kiátlagolni a tanulmányokat (például gondoljunk arra, hogy nyilván figyelembe kell venni a tanulmányok mintanagyságát is: a nagyobbakat értelemszerűen nagyobb súllyal kell beszámítani), de ezek technikai részletek, a lényeg számunkra, hogy ezekre van megalapozott és könnyen kezelhető módszertan. Hadd hozzak egy híres példát13 arra, hogy mindez hogyan működik a gyakorlatban. Íme, így alakult a tudásunk 1970 és 1990 között arról, hogy a β-blokkolók adása infarktuson átesett betegek esetében hatásos-e a másodlagos megelőzésre:
13
E. Antman, J. Lau, B. Kupelnick, F. Mosteller, T. Chalmers. „A comparison of results of metaanalyses of randomized control trials and recommendations of clinical experts: Treatments for myocardial infarction“. In: JAMA 268.2 (1992), pp. 240–248. doi: 10.1001/jama.1992.03490020088036. eprint: /data/Journals/JAMA/9613/jama_268_2_036.pdf. url: http://dx.doi.org/10.1001/jama.1992. 03490020088036.
14
A bal oldal mutatja a témában születő egyes tanulmányokat (évszámmal és a bevont betegek számával), mellette a panel grafikusan szemlélteti, hogy mi adódik a konkrét tanulmány alapján a kutatási kérdésünkre: a pötty a jelzi a legjobb becslést, ha ez a függőleges vonaltól – ami a hatástalanságot jelöli ki – balra van, akkor hatásos, ha jobbra, akkor káros volt a kezelés. A vonalak megadják a becslés – mintavételi ingadozás miatti – bizonytalanságát, a konfidenciaintervallumot (ellenőrizzük le, hogy csakugyan annál szélesebb, minél kevesebb beteg volt a kutatásban!). Ahogy már volt róla szó, ha a konfidenciaintervallum tartalmazza a hatástalanságot (metszi a hatástalanságnál húzott függőleges vonalat), akkor az adott tanulmány nem találta szignifikáns hatását a gyógyszernek. Ami igazán izgalmas, az az ábra jobb oldala: ez azt mutatja, hogy mi történt volna, ha valaki egy adott időpontban elvégzett volna egy metaanalízist, az összes addigi eredményt bevonva. (Ellenőrizzük le, hogy egy addigi tudásunknál pozitívabb új eredmény a pozitivitás, egy negatívabb a negativitás felé tolja a metaanalízisből kapott becslést.) Jól látható, hogy bár az egyes tanulmányokból egészen 1981-ig nem derült ki (egyikből sem!), hogy a kezelésnek volna bármi hatása, de ha együtt kezeljük őket, akkor ez már 1977-ben világos lehetett volna. Még drámaibb, ha úgy nézzük, hogy a 17 elvégzett vizsgálatból mindössze három volt önmagában szignifikáns, viszont a (kumulatív) metaanalízisekből csak kettő volt nem szignifikáns! És ez nem kis dolog, hiszen az ilyenekből származó tudásunkon múlik, hogy a betegeket hogyan kezeljük. Példának okáért, e tanulmány szorgalmas szerzői azt is összeszedték, hogy hogyan alakultak a β-blokkolók ilyen indikációban történő adására vonatkozó tankönyvi és egyéb ajánlások:
15
Sajnos drámai példákat lehet hozni arra, hogyan részesültek betegek nem előnyös kezelésben, vagy hogyan nem részesültek előnyös kezelésben, csak azért, mert a fenti metaanalízisek későn készültek el ténylegesen. A talán leghíresebb (hírhedtebb) eset – egyébként a Cocrane Collaboration logója is ez a metaanalízis stilizálva – a fenyegető koraszülésben az anyának adott szteroid ügye. 1972-ben jelent meg az első tanulmány, mely azt állította, hogy ez a pofonegyszerű kezelés drámaian csökkenti az újszülötthalálozást (azáltal, hogy segíti a tüdő kifejlődését, így csökkenti a respirációs disstressz szindróma fellépésének a valószínűségét), ám mivel az elvégzett kutatások önmagukban nem, vagy nem meggyőző többségben voltak szignifikánsak – a fenti példához hasonlóan! –, metaanalízist viszont senki nem végzett, így két évtizeden keresztül nem került be a rutinszerű gyakorlatba ez az eljárás. Utólagos becslések szerint tízezrekben mérhető azon koraszülöttek száma, akik amiatt szenvedtek – és egy részük halt is meg – mert nem állt rendelkezésre ez az információ. Remélem tehát a fentiekben sikerült megmutatnom, hogy a metaanalízisek miért kritikusan fontosak, olyan kérdésekben is, amelyeken közvetlenül emberek egészsége múlik. Mindez azonban csak akkor működik, ha látjuk valamennyi elvégzett kutatást. Valós képet csak akkor tudunk alkotni, ha minden elvégzett vizsgálat eredményét ismerjük. Ha közülük néhány véletlenszerűen kiválasztottat nem ismerünk, az a kisebbik baj: torzítást nem fog jelenteni, csak az elért össz-mintaméret lesz kisebb, a metaanalízisünk ereje romlik. Igazi baj akkor van, ha néhányat nem ismerünk és ez nem véletlenszerű. Például összefügg a tanulmány eredményével. . . És itt jön az a probléma, ami miatt ezt az egész kitérőt meg kellett tennünk. Tegyük most fel, hogy módunkban áll a számunkra nem kedvező eredményt hozó vizsgálatok kimenetelét eltitkolni. Hiába végezzük el a kutatást, nem publikáljuk, hogy mi jött ki, így aki az irodalomból szedi össze az adatokat, végez szisztematikus áttekintést majd metaanalízist, az nem is fogja tudni, hogy ezek egyáltalán léteznek. Menjünk vissza a képzeletbeli 15 kutatásos példánkhoz! Az ábrán szereplő konkrét esetben, ha egy kutatást – értelemszerűen a legrosszabb eredményt hozót – eltitkoljuk, akkor +0,75-re megy fel az átlag, +0,99-re ha kettőt, +1,3-ra, ha hármat, +1,5-re, ha négyet, és ezen a ponton történik valami nagyon fontos: egy statisztikai teszt ekkor már azt mutatja ki, hogy a gyógyszernek van szignifikáns hatása – pozitív irányban! Holott ugyebár semmilyen hatása nincs, és ezt most tudhatjuk biztosan, hiszen én így szimuláltam ezeket az adatokat. Ugyanmár, mondhatja valaki, 4 kutatás eltitkolása? Hát ez több mint a negyede az összesnek! Ilyen aztán nem lehetséges. Sajnos azonban a valóság mást mutat. Ha nem is rutinszerű az ilyen, de sajnos nem is elképzelhetetlen.
16
A reboxetine esete A talán legismertebb példa minderre a reboxetine-nek nevezett szelektív szerotonin reuptake inhibitor esetea . Ez a gyógyszer elvileg a depressziót kell gyógyítsa; hogy ez tényleg megvalósul-e, arra nézve 1992-től kezdve végeztek kutatásokat. A probléma, hogy a gyártó szisztematikusan eltitkolta a számára nem kedvező eredményeket; végül 2010-ben sikerült egy csoportnak – nem kevés közelharc árán – beszerezni az összes tanulmányt, köztük a korábban nem publikáltakat is. Kiderült, hogy a 13 elvégzett vizsgálatból 4-et egyáltalán nem, 4-et csak részlegesen publikáltak. Ami azonban még fontosabb (hiszen nem mindegy, hogy egy nem publikált vizsgálatban 10-en vagy 1000-en vettek részt), az a ! betegek száma: az összes vizsgálatban összesen 4098 beteg vett részt, közülük 3033 olyanban, amit nem publikáltak. Azaz: az adatok 74%át eltitkolták! Az eredmény pedig: a korábban hatásosnak gondolt gyógyszerről az új – immár teljes. . . – metaanalízisben az derült ki, hogy a reboxetine hatásossága nem tér el a placebotól, egyszerűbben szólva: teljesen hatástalan. a
D. Eyding, M. Lelgemann, U. Grouven, M. Härter, M. Kromp, et al. „Reboxetine for acute treatment of major depression: systematic review and meta-analysis of published and unpublished placebo and selective serotonin reuptake inhibitor controlled trials“. In: BMJ 341 (2010). issn: 0959-8138. doi: 10.1136/bmj.c4737.
Ezzel a példával már átkerülünk egy másik fontos kérdés területére. A felvezetésben elmondottak inkább csak sejtetést jelentettek arra nézve, hogy a publikációs torzítás létezik. De vajon lehet erre pozitíve is bizonyítékot szerezni? A válasz az, hogy igen: körülményes módon, mint a reboxetine esetében (ostromolva a gyártót, a hatóságokat az adatokért), ez a teljeskörűbb megoldás, vagy, ha megelégszünk a kevésbé teljeskörű megoldással, akkor van egy másik lehetőség is: a kutatási regiszterek használata. Ezeknek a regisztereknek az a lényege, hogy a kutatást már annak elkezdésekor, tehát amikor még nem tudni mi lesz az eredménye, be kell rögzíteni. A publikációs torzítás vizsgálatához nincs más dolgunk, mint megvizsgálni, hogy a regiszterben rögzített kutatások mekkora részének publikálták az eredményét. Noha már ez is egy jelentős szűkítés (érthető módon: az igazán galád versenyzők, ha nincs erős kikényszerítés az előzetes regisztrációra, megtehetik, hogy egyszerűen be sem regisztrálják a kutatásukat), még így is megdöbbentő a helyzet. A leghíresebb ilyen kutatási regiszter, a ClinicalTrials.gov fennállásának első 6 évét (2000-2006) áttekintve az derült ki14 , hogy a kutatások több mint egyharmadának egyáltalán, soha, sehol, semmikor nem publikálták az eredményét! 14 F. T. Bourgeois, S. Murthy, K. D. Mandl. „Outcome Reporting Among Drug Trials Registered in ClinicalTrials.gov“. In: Annals of Internal Medicine 153.3 (2010), pp. 158–166. doi: 10.7326/0003-4819153-3-201008030-00006. url: http://dx.doi.org/10.7326/0003-4819-153-3-201008030-00006.
17
Majdnem 200 gyógyszerkísérletet végeztek el, amelyekben emberek abban a tudatban vettek részt (adott esetben nem mellesleg kockázatot is vállalva egy még ki nem próbált gyógyszer szedésével), hogy az ebből nyert eredmények majd az orvostudomány haladását, a többi beteg gyógyulását fogja segíteni – csakhogy végeredményben senki nem is tudja, hogy mi derült ki ezekből a vizsgálatokból. Ez már önmagában is elég nagy baj, de ebben a formában csak a bizonytalanságunkat növeli (hiszen kisebb méretű mintából kell becsülnünk), viszont, ha a nem-publikálás nem véletlenszerű akkor még rosszabb a helyzet – márpedig a publikációs torzítás épp ezt jelenti. Az azóta eltelt időben javult a helyzet, de még bőven van tennivaló15 . (Egyébként a regiszterek léte önmagában is megér egy misét. Erős, jogi kikényszerítő szabályozás híján néhány rangos orvosi folyóirat eldöntötte, hogy úgy oldják meg a problémát, hogy egyszerűen deklarálják, hogy nem közölnek olyan kutatási eredményt, ami nem előzetesen beregisztrált vizsgálatból származik. Az ötlet maga zseniális, az ugyanis a gyógyszergyárak számára is rendkívül fontos, hogy a pozitív eredményeik a lehető legnevesebb folyóiratokban jelenjenek meg. Éppen ezért, ha egy ilyen döntéssel szembesülnek – amihez nem kell nagy szervezés, ilyen szinten lévő top folyóiratból 5-10 ha van –, akkor inkább fogják vállalni az előzetes regisztrációt, azaz ezzel az esetleges negatív eredmények, de legalábbis a vizsgálat elvégzésének nyilvánosságra kerülését (ami, melléktermékként azt is segíti, hogy mi tisztább képet kapjunk), mint hogy a fejüket verjék a falba, ha kijön valami pozitív, de nem tudják jó folyóiratba leadni. Hiszen a kritérium az előzetes regisztráció volt. Az ötlet tehát fantasztikus, pláne, hogy milyen egyszerű megoldás valamire, amit a hatalmas erejű szabályozó hatóságok sem tudtak megoldani. A probléma, hogy az újságok nem igazán tartották a szavukat, és mégis közöltek nem regisztrált kutatást a megállapodás után is16 , szerencsére ma már ebben is javulás tapasztalható.) Ha valaki elszánt, akkor megteheti, hogy nem a regiszterek – relatíve könnyen áttekinthető és kereshető – adatbázisából dolgozik, hanem az engedélyező hatóságokéból. Egy kutatócsoport például áttekintette17 egy egész gyógyszercsoport valamennyi gyógyszerének összes FDA-hez leadott anyagát egy több mint 15 éves periódus alatt, majd ezt követően egyesével megnézték mindegyiket, hogy nyilvánosan is közölték-e az eredményü15
D. A. Zarin, T. Tse, R. J. Williams, R. M. Califf, N. C. Ide. „The ClinicalTrials.gov Results Database — Update and Key Issues“. In: New England Journal of Medicine 364.9 (2011). PMID: 21366476, pp. 852–860. doi: 10.1056/NEJMsa1012065. eprint: http://dx.doi.org/10.1056/NEJMsa1012065. url: http://dx.doi.org/10.1056/NEJMsa1012065; J. S. Ross, T. Tse, D. A. Zarin, H. Xu, L. Zhou, et al. „Publication of NIH funded trials registered in ClinicalTrials.gov: cross sectional analysis“. In: BMJ 344 (2012). issn: 0959-8138. doi: 10.1136/bmj.d7292; C. W. Jones, L. Handler, K. E. Crowell, L. G. Keil, M. A. Weaver, et al. „Non-publication of large randomized clinical trials: cross sectional analysis“. In: BMJ 347 (2013). doi: 10.1136/bmj.f6104. 16 S. Mathieu, I. Boutron, D. Moher, D. Altman, P. Ravaud. „Comparison of registered and published primary outcomes in randomized controlled trials“. In: JAMA 302.9 (2009), pp. 977–984. doi: 10. 1001/jama.2009.1242. eprint: /data/Journals/JAMA/4478/joc90085_977_984.pdf. url: http: //dx.doi.org/10.1001/jama.2009.1242. 17 E. H. Turner, A. M. Matthews, E. Linardatos, R. A. Tell, R. Rosenthal. „Selective Publication of Antidepressant Trials and Its Influence on Apparent Efficacy“. In: New England Journal of Medicine 358.3 (2008). PMID: 18199864, pp. 252–260. doi: 10.1056/NEJMsa065779. eprint: http://dx.doi.org/ 10.1056/NEJMsa065779. url: http://dx.doi.org/10.1056/NEJMsa065779.
18
ket. Azt találták, hogy a hatósághoz benyújtott 74 kutatásból 23-at (31%) soha, sehol nem publikáltak. Ahogy már volt róla szó, ez eddig még „csak” a bizonytalanságunkat növeli, de az igazi probléma most jön: a 74 kutatásból 38 volt pozitív kimenetű, ezekből 37-et közöltek, viszont a fennmaradó 36, nem-pozitív (negatív vagy nem egyértelmű) tanulmányból összesen 3-at (!) publikáltak, 22-t nem. (Külön vicces, hogy a 22+3 miért nem adja ki a 36-ot. Azért, mert 11-et, ami a hatóságnál leadott teljes anyag szerint nem-pozitív volt, az újságcikkben már úgy adtak elő, mintha pozitív lett volna. . . Vissza fogok rá térni, hogy ezt mégis hogyan lehet megtenni.) Talán mindennél többet mond a következő ábra, ami azt mutatja, hogy mennyi volt a gyógyszerek hatásnagysága a FDA-hez leadott anyagokban, publikálás ténye szerint megbontva (bal oldali panel), illetve az FDA-nél lévő anyagokból adódó18 és az újságok által közölt összevetve (jobb oldali panel); nem érdekes, hogy a konkrét gyógyszerek mik, a tendenciát figyeljük, hogyan viszonyulnak egymáshoz a valódi és a nyilvánosan elérhető információkból számolható hatások:
18 Azért a lelki békénk érdekében figyeljük meg, hogy – mint az ebből a panelből kiderül – a gyógyszerek hatnak, a valóságban is, nem csak egy-kettő, hanem kivétel nélkül az összes (a konfidenciaintervallumok nem metszik a hatástalansághoz tartozó függőleges szaggatott vonalat). . . csak nem annyira. Nem arról van tehát szó, hogy hatástalan szereket sózták ránk, „csak” felnagyították a hatásukat.
19
Ez tehát a publikációs torzítás – remélem a fentiek fényében érthető, hogy miért elfogadhatatlan ez, ami sok esetben akár konkrét veszélyt is jelenthet emberek egészségére. (Megjegyzem, érdekesség kettősség van ilyen szempontból a „közvélemény” etikai vélekedésében. Ha valaki egy 1000 fős kutatásából egyszerűen kihúzza 100 fő eredményeit, mert nem tetszik ami náluk kijött, akkor az égbekiáltó, botrányos tudományos csalás, ez mindenki számára azonnal nyilvánvaló. Ha 10 darab 100 fős kutatásából 1-nek nem hozza nyilvánosságra az eredményeit, mert nem tetszik, ami ott kijött, akkor az még egész jó arány. Pedig a kettő egy és ugyanaz!) Adja magát a kérdés, hogy vajon ki felel mindezért. . . ? Kézenfekvő lenne azt gondolni, hogy a csúnya, gonosz gyógyszeripar anyagi érdekekből visszatartja a nem tetsző tanulmányokat, a helyzet azonban ennél sokkal-sokkal bonyolultabb. (Amit az bizonyít legékesebben, hogy a publikációs torzítás problémája azokon a területeken, például a szociológiában vagy a pszichológiában is pontosan ugyanúgy aktuális kérdés, ahol nincs vagy összehasonlíthatatlanul kevesebb anyagi érdek van, mint a gyógyszerkísérletekben.) Először is, a probléma ott kezdődik, hogy már maguknak a kutatóknak is kisebb a motivációja, hogy leközöljék azt, hogy nem találtak semmi érdekeset. (Hiszen ilyenkor nem lehet tudni, hogy a gyógyszer tényleg nem hat, vagy csak a mintaméret volt kicsi, ezért szokás ezt negatív eredménynek nevezni.) Ennek vannak jóhiszemű – senki nem fogja törni magát, hogy arról írjon cikket, hogy hogyan nem talált semmit – és kevésbé jóhiszemű – a tudományos előmenetelhez jobban festenek az eredményt találó kutatások – okai, de az biztos, hogy már itt is van egy, gyógyszergyáraktól teljesen független, torzítás. Az igazi probléma azonban ez után jön: a folyóiratok. Ha azt mondtuk, hogy a szerzőknek nem igazán érdeke „nem találtam semmit” típusú negatív eredményeket közölni, akkor ez a folyóiratokra hatványozottan igaz. A negatív eredmény legjobb esetben is alacsonyabb prioritású számukra, hiszen várható az a cikk fog népszerűvé válni, az fog olvasókat, hivatkozásokat generálni, ami valamilyen pozitív eredményről számol be. Könnyen elképzelhető tehát az is, hogy a publikációs torzításhoz a folyóiratok is hozzájárulnak – és ez még mindig a gyógyszergyáraktól független torzítás-forrás – azáltal, hogy negatív eredményeket kevésbé, vagy egyáltalán nem közölnek19 . Szerencsére ma e téren javulás tapasztalható, több nagy folyóirat deklarálta, hogy negatív eredményeket és teljesen egyenrangúan kezel, sőt, ma már dedikált folyóiratok (pl. a Trials vagy a Journal of Negative Results in Biomedicine) is elérhető, melyeknek kifejezett alapfilozófiája, hogy a bírálatban semmilyen szerepet nem játszik, hogy a kutatás eredménye negatív vagy pozitív lett. 19 Igazából Sterling korábban idézett észrevétele erre a két okra vonatkozott. Ha egy hipotézis nem áll fenn, akkor 100 elvégzett kísérletből – a korábban emlegetett 5%-os limit mellett – várhatóan ugye 5 lesz (fals) pozitív. Ha tehát elvégzik a 100 kísérletet, leközlik mindegyiket, akkor valaki áttekintve az irodalmat 95 negatív és 5 pozitív eredményt fog találni, így levonhatja a – helyes – következtetést, hogy nincs hatás. Ha azonban a negatívokat kevésbé közlik le (mindenféle rosszhiszeműség nélkül, egyszerűen a fenti okok miatt: „á, itt nem találtunk semmit, nem olyan érdekes közlésre”), akkor az irodalomban fel fognak dúsulni a pozitívak, teljesen félrevezető módon. Ad absurdum, ha a negatívakat egyáltalán nem közlik, akkor valaki csak azt fogja látni, hogy mind az 5 kísérlet pozitív lett. . . Pontosan ezért hívta fel Sterling már 1959-ben a figyelmet arra, hogy a negatív eredmények közlése ugyanolyan fontos lenne mint a pozitívaké. Érdekesség: Sterling „kutatói emberöltőjének” végén, 1995-ben, tehát több mint 35 évvel később megismételte a vizsgálatát – és szinte ugyanarra az eredményre jutott. . .
20
Amit fontos látni, hogy mindez nem azt jelenti, hogy az érintett gyógyszer minden körülmények között, teljesen és tökéletesen használhatatlan lett, mint mondjuk a thalidomid, és az lett volna a helyes, ha soha nem is törzskönyvezik őket20 . Előfordulhat, hogy van olyan betegcsoport akinél jó szolgálatot tehet: mert a korábbi kezelés nem vált be, mert bevált volna, de komoly mellékhatása lépett fel, mert a betegnek olyan társbetegsége van ami miatt nem szedhet más gyógyszert stb. Ezek miatt mind hasznos lehet, ha egy ilyen gyógyszer is „a palettán van”, rendelkezik érvényes törzskönyvvel, rendelhető – de ettől még a lehető legteljesebb képpel kell rendelkeznünk róla! Erre a gondolatra egyébként talán épp a reboxetine a legjobb példa: a korábbi leírásból esetleg úgy tűnhet, hogy ez egy teljesen haszontalan és hasznavehetetlen szer, de ha jobban megnézzük, akkor azt látjuk a vizsgálatokból, hogy a súlyosabb állapotú betegeknél hatott inkább, az eredményt a járóbetegek „rontották le”. Ez például nagyon is felvetheti annak lehetőségét, hogy a gyógyszert ne adjuk az enyhébb esetekben (és így mégis, megfelelően alkalmazva, hasznos eleme legyen az orvosi eszköztárnak) – de ismétlem, ezeket is csak akkor tudhatjuk, ha minden elvégzett vizsgálat eredményével tisztában vagyunk! Végezetül, ha már egyszer jelen dolgozatnak az a címe, ami, választ kell adnom arra a kérdésre is, hogy mindezt hogyan vehetjük észre saját magunk is. A válasz sajnos az, hogy ezt a konkrét torzítást, jellegéből adódóan, nagyon nehezen. Hiszen ha az irodalomban van 5 pozitív tanulmány, akkor ugyan honnan tudjuk kideríteni, hogy ez azért van, mert a gyógyszer jól hat, vagy azért, mert nem hat, de az erről készült 5 negatív tanulmányt nem publikálták. . . ? Az egyik lehetőség, amiről már előbb is szó volt, az adatok teljeskörűségének „bozótharc” útján történő biztosítása (jobb esetben regiszterek és hasonló források áttekintésével, rosszabb esetben a hatóságok, gyógyszergyárak megkeresése útján). Világos, hogy ez – már pusztán a munkaigényessége miatt is – nem járható út a legtöbb egyszeri érdeklődő számára.
20
Igazából ez még a thalidomidra sem igaz. Jó eredményeket értek el vele például lepra kezelésében, sőt – hogy valami közelebbit mondjak – myeloma multiplexben kifejezetten bevett terápiás lehetőség; tehát igazából még ezzel sem mondtam elég extrém példát.
21
Hozzáférés az oseltamivir adataihoz Meglehetősen tanulságos annak a történetea , hogyan fért hozzá (vagy inkább hogyan nem fért hozzá) az oseltamivir hatóanyagú készítmény kísérleti eredményeihez a Cochrane Acute Respiratory Infections Group. Oldalakat töltene meg, ha az egész történetet elmesélném az elejétől a végéig, talán érzékeltetésként elég annyi, hogy három éven keresztül küzdöttek 8 eltitkolt vizsgálat eredményeiért. A gyártó cég folyamatosan váltogatta az álláspontját, hogy éppen miért nem adhatja oda ezeket az eredményeket. Jellemző, hogy a gyártó egész procedúra alatt kitalált összes – abszolút inkonzisztens, a legtöbb esetben teljesen nyilvánvalóan alaptalan, és sokszor még saját magának is ellentmondó – érvének a kilistázása nem fért ki egy oldalra Cochrane-ék publikációjában. . . A ! számomra leginkább – nem tudok rá jobb szót – hajmeresztő epizód ebből az volt, amikor azt mondták, hogy átadják az adatokat, de csak akkor, ha előtte aláírnak egy titoktartási szerződést, mely nem csak az adatok nyilvánosságra hozatalától tiltotta volna el őket, hanem annak nyilvánosságra hozatalától is, hogy el vannak tiltva az adatok nyilvánosságra hozatalától. . . Kész szerencse, hogy a szerződés szövegének megtekintését nem kötötték titoktartási szerződéshez! a
P. Doshi, T. Jefferson, C. Del Mar. „The Imperative to Share Clinical Study Reports: Recommendations from the Tamiflu Experience“. In: PLoS Med 9.4 (Apr. 2012), e1001201. doi: 10.1371/journal.pmed.1001201. url: http://dx.doi.org/ 10.1371/journal.pmed.1001201.
Ami ennél járhatóbb út: a torzítás felfedése statisztikai eszközökkel. Bár ez nagyon áttételes megközelítés (ennek megfelelően sok limitációval), van mód ilyenre is. Itt most ennek talán legismertebb módszerét, a tölcsérábrát ismertetném. Ennek alapötlete, hogy a nagy mintanagyságú kutatásokat kevésbé tudják eltitkolni, illetőleg kevésbé érhető el bármi az eltitkolásukkal, hiszen ezeknek – épp a nagy mintanagyságuk miatt – kicsi a szórásuk, vagyis várhatóan mindegyik a valós érték szűk környezetében lesz. Amire tehát sokkal inkább fel kell készülni, az a kisebb – és emiatt nagyobb ingadozású – kutatások eltitkolása, ezekből is persze a kedvezőtleneké. Ha viszont ez történik, az azzal fog járni, hogy a kutatás mintanagysága és eredménye többé nem lesz független egymástól (ahogy annak lennie kellene, ha nincsen semmi turpisság), hanem a kettő korrelált lesz: a nagyobb méretű kutatások tendenciában rosszabb eredményt fognak hozni. De ez viszont már számunkra is detektálható! Készítsünk ugyanis egy olyan ábrát, melyen ponttal jelölünk minden vizsgálatot, a vízszintes tengelyen kimérve, hogy mennyi volt a vizsgálatban talált hatásnagyság, a függőlegesen pedig, hogy mennyi volt a vizsgálat bizonytalansága:
22
0.000 1.111 2.222
Bizonytalanság
3.333 4.444 -10.00
-5.00
0.00
5.00
10.00
Átlag
2.093 3.140 4.186
Bizonytalanság
1.047
0.000
A függőleges vonal jelöli a kutatások átlagát, jól látható, hogy amint megyünk felfelé, a nagyobb mintanagyság irányába, úgy csökken az e körüli ingadozás: nagyobb minta, kisebb mintavételi ingadozás. Innen adódik, hogy ezeknek az ábráknak tölcsérszerű alakja van (amiről a nevét is kapta). A ferde vonalak ennek az elméleti határait jelölik ki. Amennyiben „minden rendben” a vizsgált területen, akkor ilyen ábrát fogunk kapni: a pontok szimmetrikusan szóródnak a függőleges vonal körül: akármekkora is a mintanagyság, ugyanúgy vannak átlag alatti és átlag fölötti eredmények. Ha azonban valami csúnyaság történt, akkor inkább ilyen ábrát fogunk kapni:
-5.00
0.00
5.00 Átlag
23
10.00
A tölcsérábra aszimmetrikus: „gyanúsan” hiányoznak a kicsi, hatástalanságot mutató tanulmányok! Ez figyelmeztető jel lehet a publikációs torzításra. Az egészben az a nagyon ügyes, hogy mindezt úgy tudtuk kimutatni, hogy ahhoz csak az – esetlegesen hiányos – publikált adatokat használtuk fel! (Az első esetben a tanulmányok átlaga, tehát a metaanalízis eredménye +0,26, ami nem szignifikáns eltérés a hatástalanságot jelző nullától. Elárulom, hogy a második ábrát úgy kaptam, hogy fogtam az első ábra tanulmányait, csak épp kihagytam a kis méretű, és negatív eredményt hozó tanulmányokat. De minden más maradt ugyanaz, lényegében tehát szimuláltam a publikációs torzítást, azt, hogy a valós helyzet egy részét nem ismerjük. Az eredmény: a második esetben az átlag +1,61, erősen szignifikáns az eltérése nullától, a gyógyszer hatásos. . . Persze lehet egy gyógyszer tényleg hatásos +1,61-es hatással, de ekkor, ha minden tanulmányt látunk, akkor az eredményeknek szimmetrikusan kell szóródniuk az +1,61 körül – nem úgy mint fent.) Végezetül szeretném hangsúlyozni, hogy a fentiek – értelemszerűen – csak a gyógyszeripar munkájának igen kis részét érintik. Azért is hangsúlyozom ezt, nehogy valakiben az a benyomás támadjon, hogy innentől semmit nem hihetünk el a gyógyszergyáraknak – de ettől még (ahogy a bevezetőben is mondtam) e téren különösen magas elvárásoknak kell megfelelni, és nem hogy kis részben, de még a legkisebb töredékben sem fogadható el ilyen torzítás. A jó hír – több ízben utaltam rá a fentiekben is –, hogy a kérdésben több fronton is javulás mutatkozik, és őszintén remélem, hogy a publikációs torzítást hamarosan úgy fogjuk emlegetni, mint a XX. század legvégének, XXI. század legelejének történelmi példája. Sajnos azonban jelenleg még nem ez a helyzet. E téren viszont tudok még egy „mi mit tehetünk” jellegű tippet adni: nemrégiben egy kezdeményezés indult, „All trials registered | All results reported” néven, mely épp e hiba radikális, teljes körű orvoslását tűzi ki célul. A http://www.alltrials.net/ címen érhető el weboldaluk, melyen – többek között – az erről írt petíciójuk is támogatható!
3. Tanulmányszintű problémák TODO
3.1. Általános észrevételek TODO 3.1.1. Végpont meghatározása: relatív és abszolút kockázat, egyéb metrikák TODO
3.2. Kísérletes vizsgálatok A kísérletes vizsgálatok lényege, hogy a kutatást végzők aktívan irányítják az expozícióban részesülést, például, megszabják, hogy ki kap gyógyszert. Az ilyen vizsgálatok hallatlan előnye – amit igazán azt hiszem csak akkor lehet megérteni, ha az ember végigolvassa
24
a megfigyeléses vizsgálatok confounding nevű problémáját –, hogy ezzel a módszerrel garantálható (és csak ezzel garantálható), hogy az exponált és a nem exponált csoportok kizárólag az expozíció tényében térjenek el, semmi másban. Ezért azért rendkívüli fontosságú, mert később úgy fogunk okoskodni: ha az exponált és nem exponált csoportok eltérnek a végpont tekintetében, akkor ez az eltérés az expozíció hatása volt. Ez a logika azonban csak akkor jogos, ha más különbség nem volt a csoportok között. Márpedig ezt garantálni kizárólag kísérlettel lehet. Hogy hogyan? Például úgy, hogy az alanyokat egy véletlenszám-generátorral soroljuk exponált és nem exponált (vagy különféleképp exponált) csoportokba; például gyógyszert kapó és gyógyszert nem kapó csoportokba. E véletlenszerű sorsolás neve: randomizáció. Így és csak így garantálható, hogy a csoportok tényleg kizárólag az expozícióban térjenek el. (Valójában persze még sok további trükkre is szükség van a teljes hitelesség érdekében. Közülük is talán a legfontosabb a vakosítás és a placebo-kontroll elve. Hiába sorsoljuk ugyanis a legtökéletesebben véletlenszerűen csoportokba az embereket, közül mégis csak lesz egy eltérés az expozíción kívül: az, hogy tudják, hogy részesülnek-e expozícióban! Márpedig ez sok esetben nem mindegy, hiszen egy gyógyszernél önmagában az a tudat, hogy kezelés alatt van az alany, befolyásolhatja a kimenetet; ez a placebo-hatás. Ahhoz tehát, hogy ezt is kiszűrjük, meg kell ezt a különbséget is szüntetnünk a csoportok között. Ezt két lépéssel érhetjük el: egyrészt a nem kezelt csoport is kap minden szempontból a kezelt csoport gyógyszerével egyező, csak épp hatóanyag nélküli gyógyszert, másrészt nem áruljuk el, hogy ki melyik csoportba tartozik. Előbbi a placebo-kontroll, utóbbi a vakosítás. A kettő együttes alkalmazásának eredménye, hogy a két csoport abban sem fog eltérni, hogy mi a tudatuk a kezelésben részesülésről – jelesül, hogy mindenki pontosan ugyanúgy bizonytalanságban lesz e felől.) A fentiekből úgy tűnhet, hogy a kísérletes vizsgálatok jelentik az „aduászt” a kezünkben. Ez azonban sajnos nincs így. Az egyik probléma, hogy még ha alkalmazható is kísérlet egy kérdés vizsgálatára, sok esetben drágább, nagyobb szervezésigényű, és lassabban szolgáltat eredményt, mint egy megfigyeléses kutatás. Ennél is nagyobb probléma, hogy sok esetben elvileg sem alkalmazhatunk kísérletet. Mindezekről a megfigyeléses vizsgálatok kapcsán fogok részletesebben írni. Sőt, még ha a fenti akadályok nem is állnak az utunkban, és tudunk kísérletet végezni, akkor is lehet azt „jobban” és „rosszabbul” végezni. E téren is lehet tehát – szándékosan vagy véletlenül – hibákat elkövetni; erről fog szólni ez a pont. Alapvetően (mivel ez a legtipikusabb alkalmazás) a gyógyszerkísérletekre fogok fókuszálni. 3.2.1. Komparátor megválasztása Nagyon összetett kérdés, hogy a gyógyszerünket mihez hasonlítsuk (placebohoz vagy másik gyógyszerhez), mert egyszerre szövik át módszertani és etikai megfontolások. TODO. Még ha úgy is döntünk, hogy másik gyógyszerhez hasonlítunk, akkor is mód van turpisságok elkövetésére. Ha fel akarjuk nagyítani gyógyszerünk hatásosságát, megtehetjük, hogy nyilvánvalóan rossz hatásosságú komparátort választunk. (Kifinomultabb
25
verzió: jó komparátort, de elégtelen dózisban.) Ha a biztonságosságát akarjuk kiemelni, megtehetjük, hogy nem biztonságos komparátort választunk, vagy jó komparátort, de nyilvánvalóan túlzó dózisban. TODO (gyakorlati példákkal). 3.2.2. Beválasztási és kizárási kritériumok Értelemszerű, hogy elvileg a kísérletet olyan populáción kell végrehajtani, ami a lehető legjobban hasonlít ahhoz, amin majd később a gyógyszert is alkalmazni szándékozzuk. Gyakorlatilag azonban ezt legitim és kevésbé legitim okok korlátozzák. Az előbbire jó példa a gyermekeken történő kísérletezés igen összetett problémaköre, az utóbbira . . . TODO. 3.2.3. Kihullás, hiányzó adatok és imputálás Minden klinikai kísérlet jellemzője, hogy nem minden alanyra tudunk minden adatot begyűjteni. Mert az alany nem jelenik meg az ellenőrzésen, kiszáll az egész kísérletből, visszavonja a beleegyezését stb. Még nagyobb baj, hogy ez sokszor nem véletlenszerű (pl. azért történik, mert mellékhatásokat tapasztal), így a hiányzó adatok imputálásának a módja – például LOCF vagy BOCF – sem irreleváns. TODO. 3.2.4. ITP vagy PP elemzés Ez sem mindegy. TODO 3.2.5. Többszörös végpontok Az is lehetőséget teremt különféle torzítások bevitelére, ha egy kutatás több végponttal is rendelkezik. TODO.
3.3. Megfigyeléses vizsgálatok A megfigyeléses vizsgálatok definíciója, hogy az expozíciót nem mi irányítjuk, csak passzíve megfigyeljük, hogy ki exponálódik és ki nem, de ez tőlünk függetlenül dől el. 3.3.1. A confounding jelensége és konzekvenciái Ahogy már volt róla szó, ez azért fog alacsonyabb értékű vizsgálatokhoz vezetni (bármelyik konkrét típusról is legyen szó) a kísérletes kutatásokkal összevetve, mert ettől a pillanattól kezdve nem tudhatjuk, hogy az exponált és nem exponált csoportok tényleg csak az expozíció tényében térnek el. Márpedig, ha van is különbség a végpontban, azt csak ebben az esetben tudhatjuk be az expozíció ok-okozati (kauzális) hatásának. Ez a kísérletes vizsgálatok hatalmas ereje, és emiatt a megfigyelésesek gyengesége: ha a csoportok nem csak az expozícióban térnek el, hanem másban is, akkor innen kezdve nem tudhatjuk, hogy az esetlegesen talált különbség az expozíciónak tudható be, ennek a másik eltérésnek (esetleg a kettő valamilyen kombinációjának). Az is lehet, hogy az
26
expozíció okoz különbséget, de ezt épp elfedi a más tényezőbeli eltérés ezzel ellentétes hatása. Látható tehát, hogy probléma akkor van, ha létezik olyan tényező, amire egyszerre teljesül két dolog: 1. Összefügg az expozícióval (emiatt el fog térni az exponált és nem exponált csoportok között: nem az expozíció ténye lesz az egyetlen eltérés). Megjegyzem, itt teljesen mindegy, hogy mi hat mire (ami miatt összefüggés van), csak annyi számít, hogy a tényező és az expozíció összefügg. 2. Maga hat a végpontra (emiatt az eltérő összetétel e tényező szerint befolyásolni is fogja a végpontot). Az ilyen tényezőket szokás confoundernek nevezni21 (a jelenség maga pedig a confounding). A császármetszéssel születettek között több az 1-es típusú cukorbeteg? „A császármetszés cukorbetegséget okoz!” – harsoghatja ez alapján a bulvárlap. De mi van, ha diabeteses anyáknál inkább kerül sor császármetszésre – márpedig az anyai diabetes növeli a gyermeknél is a betegség fellépésnek kockázatát! (Expozíció: császármetszés, végpont: gyermek diabetese, confounder: anyai diabetes – összefügg az expozícióval és hat a végpontra.) „A zöldségevés boldogabbá teszi az embert!” – írja az internetes portál. De nem lehet, hogy a több zöldséget fogyasztók jobb módúak, ami viszont önmagában növeli a boldogságot? (Expozíció: zöldségevés, végpont: boldogság, confounder: anyagi jólét – összefügg az expozícióval és hat a végpontra.) A távvezetékek közelében élők körében több a rákos. „Rákot okoz a magasfeszültség!” – mondja a magazinműsor a tévében. De nem lehet, hogy csak arról van szó, hogy a távvezetékek a külvárosi részeknél húzódnak, ahol tipikusan rosszabb körülmények között élő, egészségtelenebbül táplálkozó, szennyezettebb levegőt szívó stb. emberek élnek, ami persze mind önmagában növeli a rákkockázatot? (Expozíció: távvezetékhez közel lakás, végpont: rákincidencia, confounder: egészséges életkörülmények – összefügg az expozícióval és hat a végpontra.) Hangsúlyozom, hogy nem azt akarom mondani, hogy a fenti példákban biztos, hogy bajt okoz a leírt confounder, hanem azt, hogy bajt okozhat – ezért gondolni kell rá. A kísérletes vizsgálatok ereje épp abban rejlik, hogy mivel azok tudják garantálni – és csak azok tudják garantálni –, hogy a csoportok az expozíción kívül másban nem térnek el, hogy ott ilyenekre gondolni sem kell!
21
A magyar nyelvben a „zavaró változó” nem igazán terjedt el. Igazság szerint az angol kifejezés jobb is ennél, mert a to confound-ban nem csak az „összezavar” van benne, hanem az „egybemos” is, ami jelen esetben pláne találó.
27
A HRT és a kardiovaszkuláris kockázat Több vizsgálat azt találta, hogy azoknak a nőknek a körében, akik menopauza utáni hormonpótlásos kezelésben (HRT) részesültek, kisebb a szívkoszorúér-betegségek előfordulása, mint az olyan nőknél, akik nem kaptak ilyen terápiáta . És nem is kis különbségről beszélünk: némelyik kutatás szerint feleakkora a rizikó a HRT kezelést kapott nők körében az ilyenben soha nem részesültekhez képest. Ez a kezelés tehát védő hatású a szívkoszorúér-betegségek szempontjából, érdemes alkalmazni, hogy elkerüljük az ilyen betegségeket. Ugye? Szerintem már ennyi alapján is sokan elhinnék ezt a két mondatot, akkor meg különösen, ha esetleg szép diagramot készítek, amelyen egy jó nagy oszlop mutatja a HRT-ben nem részesülők körében a szívkoszorúér-betegség előfordulását, és egy egészen alacsony a HRT-t kapóknál ugyanezt. Különösen, ha emellé csillogó-villogó weboldalt rakok, esetleg a szívkoszorúér-betegségben szenvedő hölgyek szívbemarkoló vallomásaival, természetesen szenvedő arcot mutató fényképekkel, mellette a HRT-ben részesülő nők emelik mosolyogva fel a gyógyszert stb. stb. Mindenki el tudja képzelni. Mi itt a gond? Mindössze annyi, hogy a fenti összefüggés nem létezik, sőt, egész ! konkrétan az ellenkezője igaz, ezt később kísérletes vizsgálatokkal egyértelműen igazolták: a HRT éppen hogy növeli a szívkoszorúér-betegségek valószínűségét! Akkor meg hogyan jöttek ki a korai eredmények? Nagyon egyszerűen. (Persze így utólag nézve. . . ) A legfontosabb ok, hogy a HRT-ben részesülő nők tendenciájában magasabb szocioökonómiai státuszú csoportból kerültek ki – márpedig a magasabb szocioökonómiai státusz önmagában, tehát most függetlenül az egész HRT dologtól csökkenti a szívkoszorúér-betegségek rizikóját. (Hiszen az ide tartozó emberek tendenciájában egészségesebben táplálkoznak, járnak sportolni stb.) Az eredeti vizsgálatokat tehát a szocioökonómiai státusz, mint counfounder rontotta el. a
D. A. Lawlor, G. Davey Smith, S. Ebrahim. „Commentary: The hormone replacement-coronary heart disease conundrum: is this the death of observational epidemiology?“ In: International Journal of Epidemiology 33.3 (2004), pp. 464–467. doi: 10.1093/ije/dyh124. eprint: http://ije.oxfordjournals.org/content/ 33/3/464.full.pdf+html. url: http://ije.oxfordjournals.org/content/33/3/ 464.short.
28
A „mostanában sokat oltunk, és mostanában sok a beteg” érv Ehhez nem is adok konkrét hivatkozást, annyi változatban található meg (lényegében – sajnos – szinte minden védőoltás-ellenes weboldalon). Régen nem oltottunk ennyit, és nem is volt ilyen sok autista! (Cukorbeteg, rákos, asztmás stb. szabadon behelyettesíthető.) A dologban nem is önmagában az a megdöbbentő, hogy milyen alaptalan (expozíció: oltás, végpont: autizmus, confounder: időmúlás miatti. . . , hát, minden), hanem, hogy mennyire nyilvánvaló az alaptalansága a confounding ismerete nélkül is. Hiszen a húsz évvel ezelőtti helyzet nem csak attól tér el a maitól, hogy mennyit oltunk, hanem – nos, valószínűleg ezt felsorolni se nagyon lehetne. De nem, valamiért a védőoltás-ellenesek pontosan tudják, hogy az egymillió dologból az oltás szerepét kell emlegetni. (Még úgy is, hogy van, amiről pozitíve tudjuk, hogy változott, például a diagnosztikus kritériumok.) És nem mondjuk a bioételek terjedését, szintén drámai az elmúlt 20 évben, figyeljük csak, ezzel az erővel megvan a még jobb gyanúsított:
!
(A valóságban persze a „pontosan tudják” mögött a szokásos háttér van: ők igazából előre eldöntötték mi az eredmény, és ahhoz keresnek tudományos(nak látszó) indoklást.) Hozzá kell tennem, hogy idősorokat egyébként sem illik csak úgy összevetni, hiszen ezzel az erővel bármi, aminek pozitív trendje van, jól együttmozog bármivel aminek szintén pozitív trendje van. . . Nem is ragozom tovább; és mégis, újra meg újra, állandóan előjön. Ez persze inkább pszichológiai kérdés: azzal, hogy drámai narratívában előadják az autisták számának a növekedését, elég jól ki tudják kapcsolni a tudatos információfeldolgozást, és ilyen helyzetben, pusztán érzelmi alapon döntve, elég csak elejteni egy megjegyzést, hogy bezzeg védőoltásokból mennyit adunk mostanában, és máris összekapcsolódik a kettő. Vegytiszta manipuláció, de sajnos működik. (Amiben az is szomorú, hogy az autizmus tényleg megrázó, csak épp a fals indokok kitalálása elsősorban a valódi megtalálását nehezíti – azaz elsősorban pont az autistáknak árt!)
29
A fenti példák alapján levonhatunk egy felbecsülhetetlenül fontos tanulságot (talán a biostatisztika legfontosabb alapelve!), melyet abban a szófordulatban szoktak összefoglalni, hogy: a korreláció nem implikál kauzalitást. Azaz: jelenségek együttjárásából nem következik, hogy köztük okozati kapcsolat is van! Ezért kell például óvatosan fogalmaznunk, ha ilyen tanulmányok eredményeit közöljük. Mert nem arról van szó, hogy ne lenne (lehetne) igaz, hogy a több zöldséget fogyasztók boldogabbak, hogy a császármetszéssel születettek között több a cukorbeteg, vagy a távvezeték közelében élők között a rákos. Semmi gond nincs, ha valaki ezt közli – de kauzalitásra nem következtethetünk! Az „okozza” helyett tehát az „együtt jár vele” a helyes megfogalmazás: a császármetszés magasabb diabetes-rizikóval jár együtt, a távvezeték közelében lakás nagyobb rákkockázattal asszociált és így tovább. De megfigyeléses adatoknál mindig indokolt az óvatos fogalmazás. Adódik a kérdés, hogy ha ilyen egyértelműek a problémák, miért nem használunk mindig kísérletes vizsgálatot? A fenti példák már a választ is megadják: nem csak arról van szó, hogy az jellemzően drágább, időigényesebb, több szervezéssel jár stb., a legfontosabb probléma, hogy sok esetben egyszerűen lehetetlen – vagy elvileg, vagy bioetikailag – elvégezni. Magas szintű bizonyítékot akarunk a császármetszés és a cukorbetegség kapcsolatára? Semmi gond! Fogunk elég sok várandós anyukát, véletlenszerűen két csoportba soroljuk őket, az egyiknél mindenkit császármetszésnek vetünk alá, akár szüksége volna rá, akár nem, a másiknál senkit sem, akár szüksége volna rá, akár nem. . . Aztán megnézzük, hogy az egyes csoportokban hány cukorbeteg gyerek lesz később és kész is vagyunk. (Az optimális persze, ha nem tudnak róla, hogy ki melyik csoportba került!) Hát itt a probléma. A kedvenc példám: egyszer a BMJ-ben megjelent – persze a karácsonyi számban – egy halálosan komoly cikk22 , ami a legszakszerűbb apparátussal elemezte azt a kérdést, hogy milyen hatása van az ejtőernyőnek a túlélésre, ha kiesünk egy repülőgépből. . . De tényleg, pontosan rögzítette, hogy halál vagy 15-nél nagyobb injury severity score-ral jellemzett major trauma a végpont, leírta, hogy milyen keresőszavakkal milyen adatbázisokban keresték az ezzel kapcsolatos kutatásokat stb. És az eredmény: sajnos nem készült a kérdésről kísérletes kutatás! Amit fontos látni ennek kapcsán, hogy itt bizonyítékok hierarchiájáról érdemes beszélni. A megfigyeléses bizonyítékok is bizonyítékok, csak gyengébb erejűek. Mindig el szoktam mondani, hogy egy sor „nyilvánvalóan működő” eljárást az orvostudományban a kutya nem vizsgált meg kísérletekkel. (Avagy tud bárki egyetlen kísérletes kutatást arra nézve, hogy vakbélgyulladásban hatásos eljárás az appendectomia? Pedig nem lenne nehéz szerezni, csak fogni kell 100 appendicitis-est, felüket megoperálni, felüket nem, megvárni amíg az első csoport utolsó tagja is hazamegy gyógyultan, a másodiknak pedig az utolsója is meghal sepsisben perforált vakbéllel, és kész is vagyunk!) Amit nagyon fontos látni, hogy a „nyilvánvalóan” nem azt jelenti, hogy valaki ezt mondta és punktum, hanem épp azt, hogy kielégítő mennyiségű alacsonyabb szintű, például megfigyeléses bizonyíték van rá (ahogy az appendectomia hatásosságára is). 22 G. C. S. Smith, J. P. Pell. „Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials“. In: BMJ 327.7429 (2003), pp. 1459–1461. issn: 0959-8138. doi: 10.1136/bmj.327.7429.1459.
30
A másik nagyon fontos kérdés, hogy vajon mit tehetünk? Van mód arra, hogy ha pusztán megfigyeléses adataink vannak, akkor is megpróbáljunk kauzalitásra következtetni? A jó hír az, hogy igen! Vannak statisztikai eljárások, statisztikai modellek arra, hogy megpróbáljunk a confoundingot kiszűrni, és ilyen módon közeledni a valódi, kauzális hatásokhoz. Ehhez azonban, értelemszerűen, két dolognak teljesülnie kell: tudnunk kell, hogy mik a (potenciális) confounderek, és tudnunk kell mérni azokat. Ha ezek megvalósultak, akkor az ismert és lemért confoundereket bele lehet vonni megfelelő statisztikai modellekbe, melyek meg fogják tisztítani ezek hatásától az expozíció és a végpont összefüggését. (Úgy szoktuk mondani: kontrollálunk ezekre a változókra.) Az ilyen statisztikai modellek képesek – persze bizonyos modellfeltevések mellett – izolálni a hatásokat, elkülöníteni, hogy melyik változóhoz mi tartozik, így aztán azt is meghatározni ezen belül, hogy mi az expozícióra magára jellemző – immár használhatjuk ezt a szót – hatás. (Tehát: önmagában, ha minden mást változatlanul tartunk, mi a kapcsolat az expozíció és a végpont között. Ha rögzítjük az anyai diabetes-státuszt, akkor mi az összefüggés a császármetszés és a gyermek diabetese között, adott-rögzített szocioökonómiai státusz mellett mi a kapcsolat a HRT-szedés és a kardiovaszkuláris események között stb. Az adott confounderek erejéig – értsd: eltekintve attól, hogy esetleg lehetnek más confounderek is – ezek már kauzális kapcsolatok lesznek! Ezt meg lehet határozni megfelelően választott statisztikai modellel.) Az érdekesség – és a konkrétság – kedvéért kiragadva az egyik fenti példát: egy vizsgálat szerint23 a császármetszéssel születetteknek 23%-kal nagyobb az esélyük arra, hogy 1-es típusú cukorbetegségük legyen, mint a természetes úton születetteknek. Igen ám, de ezt terhelheti a confounding: például az anyai cukorbetegség majdnem ötszörösére emeli a gyermek cukorbetegségének az esélyét, ezért ha az anyai cukorbetegség nem független a szülési módtól, akkor máris baj van. A tanulmány alapos szerzői még egy sor hasonló potenciális confoundert összeszedtek, szülési tömegtől az anyatejes táplálásig. Ha ezeket mind figyelembe vesszük, és a már említett módon statisztikai modellel kiszűrjük, akkor azt kapjuk, hogy a császármetszés „máris csak” 19%-kal növeli a cukorbetegség fellépésének az esélyét. Jól látható, hogy a megnövekedett rizikó egy része csak látszólagos, confounding révén jelentkező hatás volt. Másrészről viszont a megmaradt rizikóról most már joggal mondhatjuk, a felhasznált statisztikai módszer erejéig, hogy ez valós – értsd: okozati – hatás! (De legalábbis nem ezek a counfounderek magyarázzák.) Így kell egy precíz megfigyeléses vizsgálatot végezni: igaz ugyan, hogy megfigyeléses adataink vannak – és itt, jellegéből adódóan, nem is lehet másunk –, de gondos munkával jelentősen megemelhetjük a bizonyító erejét. Visszatérve a confounderek kiszűrésének feltételeire. Az első feltétel, hogy ismernünk kell a potenciális confoundert, nyilvánvaló, és az is, hogy ez okozza a legtöbb problémát: mégis honnan tudhatjuk, hogy mi jön szóba confounderként. . . ? (Van, aki a HRT-s eset olvasásának elején rávágta, hogy „hohó, de itt a szocioökonómiai státusz confounder”?) Ezt nem lehet matematikai módszerekkel „kitalálni”, tárgyterületi ismereteket igényel, 23 C. Cardwell, L. Stene, G. Joner, O. Cinek, J. Svensson, et al. „Caesarean section is associated with an increased risk of childhood-onset type 1 diabetes mellitus: a meta-analysis of observational studies“. In: Diabetologia 51.5 (2008), pp. 726–735. issn: 0012-186X. doi: 10.1007/s00125-008-0941-z. url: http://dx.doi.org/10.1007/s00125-008-0941-z.
31
ezért aztán azonnal problémát okoz, ha valamiről nem tudunk, vagy valamiről megfeledkezünk: megfigyeléses vizsgálatoknál mindig a fejünk felett lebeg Damoklész kardjaként, hogy biztos figyelembe vettük-e az összes counfoundert. Azonban néha a második feltétel sem könnyű, és történetesen erre is jó példa a HRT-s eset: még ha eszünkbe is jutott, hogy itt a szocioökonómiai státusz a confounder, amire kontrollálnunk kellene, akkor sem nyilvánvaló, hogy ezt hogyan határozzuk meg. Ez nem olyan, mint az ember testtömege, hogy rárakjuk a mérlegre és kiírja. . . Valószínűleg proxy változót, vagy változókat kell használnunk stb.; ez tehát szintén okozhat problémákat. Mindezeket egybevetve remélem már világosan látszik, hogy mi a kísérletek elképesztő előnye: az, hogy jellegükből adódóan a kísérlet képes arra – és csak a kísérlet képes arra –, hogy automatikusan védelmet nyújtson minden counfounder ellen – azok ellen is, amikről akár nem is tudunk, vagy ha tudunk is, nem tudnánk mérni. 3.3.2. Szignifikancia-vadászat A statisztikai tesztek korábban már ismertetett jellemzői miatt komoly – tudatos vagy tudattalan – torzításokhoz vezethet, ha egyszerre több szempont szerint hasonlítjuk össze az alanyainkból képezett csoportokat. Emlékezzünk vissza: egy statisztikai teszt soha nem tud biztos döntést adni. Nekünk kell meghatároznunk, hogy milyen nagy eltérésre mondjuk azt, hogy ez még belefér a mintavételi ingadozásba, tehát nem mutatunk ki hatást, azaz milyen alacsonyra szorítjuk az I. fajú hibázás (fals módon találunk hatást, pedig nincs is) valószínűségét. Azonban ezt nem vehetjük nagyon alacsonyra sem: ha nagyon nagy eltéréseket sem minősítünk hatásnak, akkor elfogadhatatlanul megnő a II. fajú hibázás (nem találjuk meg a hatást, pedig van) valószínűsége. A teszt úgynevezett szignifikancia-szintjét, ami ha jól dolgoztunk24 épp az I. fajú hiba valószínűsége, α-val szokás jelölni. Egy rengeteget vitatott, de ennek ellenére máig elsöprően széles körben használt klasszikus választást az α = 5%. Ez viszont más szóval azt jelenti, hogy ha a világon semmilyen hatás nincs is, minden huszadik teszt akkor is kimutat hatást! Ennek messzemenő következményei vannak. Tegyük fel például, hogy be akarjuk bizonyítani, hogy az emberek vérének összetétele eltér attól függően, hogy hosszú vagy rövid a vezetéknevük. Bármilyen abszurdnak tűnik is ez, a „bizonyítása” pofonegyszerű! Szerzünk mondjuk 50 rövid és 50 hosszú nevű embert, és elküldjük őket egy laborra. Semmi speciálisra nincs szükség, egy tökéletesen szokványos, közönséges laborvizsgálatot csinálunk. Hiszen manapság – és valószínűleg most már sokan sejtik, hogy mi fog jönni – a rutinszerűen vizsgált paraméterek száma is 25-30 körül van. De hát várhatóan minden huszadik fals pozitív lesz! Azaz, ha tényleg lefuttatunk 30 tesztet (és ismétlem, ebben semmi extrém nem volt), akkor elég nyugodtan hátradőlhetünk, hogy legalább 1 találatunk lesz. És most jön a torzítás-forrás: ha leírjuk a cikkünkben, hogy összehasonlítottunk 30 paramétert és azt találtuk, hogy 1 eltér, mondjuk a CRP, akkor mindenki azonnal tudni fogja, hogy azt találtuk, hogy igazából nem találtunk semmit. Azonban! Ha cseles módon úgy közöljük az eredményt, hogy 24 Precízen: ha tényleg teljesülnek a teszt előfeltevései. Azért fogalmaztam így, hogy látszódjon: a szignifikancia-szint nem az I. fajú hiba valószínűsége, más definiálja, csak épp, ha minden rendben, akkor egyúttal történetesen az I. fajú hiba valószínűsége is lesz.
32
nekünk van egy fantasztikus, korszakalkotó kórélettani teóriánk, mi szerint a vezetéknév hossza összefügg a CRP-vel, és íme, ezt meg is tudtuk erősíteni, mert elvégeztünk egy 100 fős vizsgálatot, amiben célirányosan megvizsgáltuk a CRP-t, és tessék, szignifikáns eltér, akkor máris nem derül ki az olvasónak, hogy itt baj van! Ezt szokás szignifikancia-vadászatnak nevezni. (Szellemes elnevezés: addig hasonlítgatunk, amíg nem találunk valami szignifikánsat. Ugye előbb-utóbb ez be fog következni.) A veszélye épp az, amire az előző bekezdés vége utal: az olvasó erre nem tud rájönni! (Persze bizonyos esetekben sejteni lehet, erre mindjárt ki fog térni, de tudni nem.) Nem arról van szó, hogy ha nem olvasunk elég figyelmesen, vagy nem hallottunk erről korábban, akkor elnézhetjük: elvileg lehetetlen a szignifikancia-vadászatot egy rosszhiszeműen megfogalmazott közleményből észrevenni, hiszen ha tényleg csak a CRP-t nézték volna meg, akkor teljesen rendben lenne a fenti eredmény! Azt meg, jellegéből adódóan, sehogy nem lehet kitalálni, hogy végeztek-e olyan próbákat a szerzők, amiről „elfelejtettek” beszámolni. (Persze ha valaki megpróbálja reprodukálni az eredményt, hamar ki fog bukni a turpisság: annak a valószínűsége, hogy egy második kutatócsoport is különbséget talál a CRP-ben, csak 5%, annak, hogy egy harmadik is, már csak 0,25%.)
33
Hogyan fogyaszt a csokoládéevés Egy aktuális sztori, valószínűleg sokan ismerika . Eredetileg nem a szignifikancia-vadászatra van kihegyezve, hanem az újságírók hihetetlen trehányságát akarta igazolni (sajnos nem minden siker nélkül. . . ), de a sztori magvában a szignifikancia-vadászat van. Először is kezdjük a történet ettől független részével: egy újságíró kipróbálta, hogy ha egy nem létező intézet nem létező kutatója által írt ordítóan kamu tanulmányt közzétesz egy kamu folyóiratban (arról, hogy a csokoládéevés segít fogyni), akkor vajon mi fog történni. A válasz: újságok, tévék, internetes portálok százával vették át a hírt, egyetlen újságíró nem akadt, aki utánanézett volna, hogy mit is közöl. Amiben az a kétségbeejtően elszomorító, hogy nem kéthetes kutatómunkára lett volna szükség a dolog lebuktatásához: ha beütik az intézet nevét a Google-be, kiderült volna, hogy a weboldalát akkor hozták létre, ha beütik a kutató nevét bármelyik tudományos adatbázisba, kiderült volna, hogy nem is létezik, ha bárki megnyitja a tanulmányt, láthatta volna – erre fogok visszatérni! – a borzalmas színvonalát. 30 másodperc munka, ha lassan végzik, 2 perc. De nem. Senki nem akadt, senki, aki ezt megtette ! volna, sőt, a bulvárlapok még turbózták is a hírt („Miért kell minden nap csokoládét enned”, sic). . . És hogy mi köze ennek a szignifikanciavadászathoz? Az, hogy a tanulmány nem légből kapott volt, olyan értelemben, hogy tényleg végeztek kutatást: fogtak 16 embert, egy részük evett csokoládét, más részük nem. És köztük lett (tényleg!) szignifikáns különbség – ám ezt úgy érték el (többek között), hogy 18 különböző paraméterüket mérték le. . . Utóirat: a szerzők türelmesen várták, hogy mikor fogja valaki a fenti „apróságokat” észrevenni, de amikor már a fél világsajtó lehozta tudományos szenzációként, végül saját maguk írták meg – anélkül, hogy bármelyik újságírónak feltűnt volna! Jusson ez eszünkbe, ha kedvenc bulvárlapunkban legközelebb az épp aktuális új tudományos világszenzációról olvasunk. . . a J. Bohannon. I Fooled Millions Into Thinking Chocolate Helps Weight Loss. Here’s How. 2015. url: http://io9.com/i- fooled-millions-into-thinkingchocolate-helps-weight-1707251800 (visited on 06/09/2015).
Mindez kicsit általánosabb keretben is megfogalmazható. Amikor elvégzünk egy próbát, az I. fajú hiba, tehát a fals találat – nincs hatás, de mi mégis találunk – valószínűsége α. Ha azonban két próbát végzünk el, mégpedig vagylagosan (értve ez alatt azt, hogy találatot jelzünk, ha bármelyik találatot jelez), akkor a fals találat – egyiknél sincs hatás, de mi az előbbi értelemben mégis találunk – valószínűsége a két próbára együtt értve jóval magasabb lesz, mint az egyes próbákra külön-külön! (Érthető módon, hiszen ha bármelyik
34
fals találatot jelez, akkor máris azt mondjuk, hogy találatunk van!) Mondhatjuk tehát, hogy a két próba együttesére értelmezett α nagyobb, mint az egyes próbák α-ja. Ezt a jelenséget szokták α-inflációnak hívni. Azt sem különösebben nehéz kiszámolni, hogy ennek az értéke α = 5% és két próba esetén 9, 75% – majdnem az eredeti kétszerese! Azt mondjuk, hogy „5%-on” végezzük a tesztet, de a valóságban a kishíján 10% valószínűséggel fogunk fals hatást kimutatni! (Ha vagylagosan használjuk a teszteket.) Három próbánál ez a valószínűség már 14,3%, ötnél 22,6%, tíznél pedig már 40,1%. Adódik a kérdés, hogy hogyan védekezhetünk ez ellen? Hiszen előfordulhat, hogy tényleg, őszintén arra vagyunk kíváncsiak, hogy van-e a hosszú és rövid vezetéknevű emberek vére között különbség. Mit tegyen a jóhiszemű kutató ilyen helyzetben? Ezt szokás többszörös összehasonlítások helyzetének (multiple comparisons vagy multiplicity) nevezni, és a gyakorlatban nagyon fontos, hogy tudjuk kezelni, hiszen sokszor valódi kérdésfelvetés, hogy sok szempont valamelyike szerint van-e különbség a csoportok között. Leukémia és a távvezetékek az emlékezetes svéd vizsgálatban Egy epidemiológiában sokat emlegetett svéd kutatása a ’90-es évek elején azt találta, hogy a távvezetékek közelében élő gyermekek körében (szignifikánsan) gyakoribb a leukémia. (A vizsgálat jó módszertannal készült, például kontrolláltak egy sor szóba jövő confounderre!) A dolog szépséghibája, hogy – mint utólag kiderült – több mint 800 (!) betegség előfordulását hasonlították össze távvezetékek közelében élő, és azoktól távol élő gyerekek között. Ennek fényében kész csoda, hogy csak erről az egyről írtak cikket. . . Hiszen 5%-on döntve minden 200 összehasonlításból 10-nél találatot kapunk – akkor is, ha a világon semmi hatás nincs, egyiknél sem! (Pontosabban szólva 5 esetben kockázati tényezőt, 5 esetben protektív tényezőt mutatunk ki, fals módon.) De ez jó példa ! az előbb felvetett dilemmára is: itt semmiféle szándékos csalásról nincs szó, sőt, az egy teljesen valid kérdésfelvetés, hogy vajon van-e olyan betegség, aminek az előfordulását megnöveli a magasfeszültségű vezeték. Nem tudjuk, hogy mi az, tehát nem azt kérdezzük, hogy igaz-e, hogy annak van szerepe, hanem azt, hogy vajon van-e ilyen. Ilyenkor mit tegyünk? a M. Feychting, M. Alhbom. „Magnetic Fields and Cancer in Children Residing Near Swedish High-voltage Power Lines“. In: American Journal of Epidemiology 138.7 (1993), pp. 467–481. eprint: http://aje.oxfordjournals.org/content/138/ 7/467.full.pdf+html. url: http://aje.oxfordjournals.org/content/138/7/ 467.abstract.
Túl azon, hogy vannak módszerek arra, hogy a két csoport különbségét ne változónként külön-külön, hanem összességében vizsgáljuk, a változónkénti vizsgálatokat is ki lehet javítani. A legkézenfekvőbb eljárás, ha lecsökkentjük az α-t: amennyiben több összeha-
35
sonlítást végzünk, akkor az egyes összehasonlítások során legyünk szigorúbbak. . . azért, hogy az összesített I. fajú hiba valószínűséget tartani tudjuk! Erre léteznek eljárások (például Bonferroni-korrekció, Holm-Bonferroni-korrekció, a modernek közül például az FDR-eljárás), ám ezek nem tekinthetőek túlságosan elterjedtnek25 az orvosi gyakorlatban. Végezetül megjegyzem, hogy van egy olyan terület, amit különösen érzékenyen érint ez a probléma, ez pedig az úgynevezett alcsoport-analízis. Ennek lényege, hogy a vizsgálatot nem csak a mintánk egészén végezzük el, hanem annak bizonyos tulajdonságú részein külön-külön is, például férfiakon és nőkön, idősökön és fiatalokon stb. Tegyük fel most, hogy a következőt olvassuk: „találtunk hatást a 30 és 40 év közti, vidéki, diplomás férfiak körében”. Vajon rendben van ez? A legjobb válaszom erre a kérdésre, hogy nem tudom! De mindenesetre gyanús. Ismét csak: ha eleve arra irányult a vizsgált, hogy van-e hatás a 30 és 40 év közti, vidéki, diplomás férfiak körében és ezért 30 és 40 év közti, vidéki, diplomás férfiak közül vettek mintát, akkor minden rendben! De egy ilyen mondatot olvasva az emberben ott a kisördög, hogy nem arról van esetleg szó, hogy fel sem merült eredetileg ez a csoport, csak épp az össz-mintában nem találták hatást, ezért elkezdték addig alábontani, amíg nem jött ki az elvárt eredmény. . . ? (Gondoljunk bele, ha az életkort 0-tól 100 évig tíz évenként bontották, a lakhelyet Budapest és vidék szerint kétféleképp, a végzettséget mondjuk háromféleképp, a nemet pedig kétféleképp, az 10 · 2 · 3 · 2 = 120 kategória! 6 várható fals találat!) Azért írtam az előbb, hogy ez érzékeny kérdés, mert nagyon sok esetben viszont teljesen legitim okai vannak az alcsoport-analízisnek, nagyon is elképzelhető például, hogy egy környezeti tényező csak adott nemű, vagy adott életkorú emberekben okoz betegséget – nekünk ezt is tudni kell detektálni. 3.3.3. Klinikai és matematikai szignifikancia elkülönítése Fontos kiemelni, hogy a „szignifikáns” szó alatt néha két dolog össze szokott mosódni a (szakmai) köznyelvben. Az egyik az az értelem, amiben én is használtam eddig mindenhol: egy különbség szignifikáns, ha túlmutat a mintavételi ingadozás hatásán, azaz valódi különbség van mögötte. Van azonban egy másik szóhasználat is: „Pisti szignifikánsan nagyobb súllyal született mint Peti”. Itt nyilvánvalóan szó nincs semmiféle mintavételi ingadozásról (annál is inkább, mert szó nincs semmiféle mintavételről sem – egyszerűen van két gyerekünk), itt tehát egy másik értelemről van szó: egyszerűen azt értjük ez alatt, hogy a különbség a súlyok között az adott tárgyterületen, esetünkben orvosilag, szakmai szempontok szerint lényeges. Nagyon fontos, hogy a „lényeges” szó két értelmét ne keverjük össze. Azt az értelmet, hogy mintavételi ingadozáson túlmutató, lehet matematikai szignifikanciának nevezni, azt pedig, hogy a tárgyterületen szakmailag lényeges mértékű, klinikai szignifikanciának. Fontos tehát, hogy lássuk, hogy a két fogalom két teljesen különböző dolgot jelent. Az egyik azt jelenti, hogy a különbség nagy megbízhatósággal kijelenthetően nem csak a mintavételi ingadozásnak köszönhető (de abszolút értékben lehet akármilyen 25
Kivételt képeznek talán azok a területek, ahol olyan tömegben kell teszteket végrehajtani, hogy ez a probléma (egyik) magja, jellemzően ilyen a microarray adatok kiértékelése.
36
kicsi is), a másik azt, hogy a különbség tárgyterületi jelentőséggel bír (de semmit nem mond a mintavételi ingadozásról való viszonyához, még ha értelmezhető is ez az adott példában). Adott esetben elképzelhető, hogy két csoport között 1 gramm különbséget találunk a születési tömegben, ami (matematikailag) szignifikáns, például mert hatalmas a mintanagyság, de (klinikailag) nyilván nem. Vagy fordítva: lehet, hogy 500 grammos, (klinikailag) szignifikáns különbség két csoport születési tömege között (matematikailag) nem szignifikáns (például mert csak nagyon kisméretű mintát tudtunk venni). Van egy gyakorlati kérdés, aminek a kapcsán a fentiek élesen előkerülnek, ez pedig az extrém nagy mintaméretű vizsgálatok témája. A nagy mintaméret jó dolog: segítségével adott, rögzített I. fajú hibavalószínűség mellett csökkenthető a II. fajú hibavalószínűség, azaz erősebbek lesznek a tesztjeink, azaz inkább észrevesszük a hatásokat. Ha azonban a mintanagyság rendkívül nagyra nő, akkor a tesztjeink extrém ereje azt fogja jelenteni, hogy a legminimálisabb eltérést is szignifikánsnak fogjuk minősíteni: ezres, tízezres mintanagyság mellett praktikusan minden teszt mindig szignifikáns eredményt fog kidobni bármely valós életből származó adatbázison. Ilyen értelemben a „szignifikáns hatás” kifejezés maga is némiképp értelmét veszti26 ; sajnos azonban sokszor látjuk, hogy ilyenkor is használják például a szignifikanciát jellemző p-értékeket. Ilyen nagyságrendű adatbázison ennek nem sok teteje van: praktikusan már a teszt elvégzése előtt, pusztán a mintaméret alapján meg lehet mondani, hogy erősen szignifikáns lesz. . . (Az ok, hogy sokan – persze jellemzően inkább azok, akik nem is értik az egész hátterét. . . – már-már fetisizmusszerűen ragaszkodnak a p-értékekhez, mert hogy ettől lesz publikáció egy publikáció. . . ) Mit tehetünk akkor? A válasz, hogy ilyen esetekben a hatás nagyságát jellemző mutatókra kell fókuszálni. Példának okáért, egy tízezres adatbázison nem túl érdekes, ha egy korrelációra p < 0,001 (hiszen ez praktikusan szinte mindig így lesz), de az igen, hogy r = 0,1 (ugye ez az extrém erő következménye: hogy már ez is szignifikáns!), vagy r = 0,5 vagy r = 0,9. Szintén nagyon hasznosak tudnak lenni ilyen esetekben a grafikus technikák. Végezetül hangsúlyozom, hogy a fentiek nem azt jelentik, hogy általában el kellene felejteni a p-értékeket ekkora mintanagyság mellett, sok esetben természetesen még ekkor is lehet teljes létjogosultságuk (tipikus példa: alcsoport-analízis, ahol igen nagy kiinduló mintából is hamar kaphatunk kicsit). 3.3.4. A külső validitás kérdései: mintaválasztás, szelekciós torzítás Általában azt szokás külső validitás alatt érteni, hogy a mintából kapott eredményeink – feltételezzük most, hogy azok tényleg helyesek a mintán belül – mennyire általánosíthatóak a mintán kívülre. Ez a kérdéskör tehát nem a minta feldolgozásának színvonalával foglalkozik, hanem azzal, hogy maga a minta hogyan került kiválasztásra, ez alapján lehetséges-e egyáltalán az egész sokaságra következtetni. Bármilyen jól is számoljuk ki az átlagát vagy akármilyen jellemzőjét a mintánkba került egyetemisták testtömegének, ha az adatokat egy aulába állított csinos kérdezőlány gyűjtötte, akihez a nagyobb testtömegűek 26 Azt is tegyük hozzá, hogy a statisztikai tesztek végzésének természetesen csak akkor van értelme, ha egyáltalán mintavételes helyzetről beszélünk! Ilyen hatalmas adatbázisoknál már az is előfordul, hogy ezek igazából nem is minták, hanem teljeskörű megfigyelések, ekkor aztán végképp nincs értelme p-értékről beszélni.
37
– jól vagy rosszul értelmezett szégyenérzetük miatt – kevésbé mentek oda a testsúlyukról nyilatkozni. Vegyük észre, hogy ez egy olyan hibalehetőséget hoz be, amiről eddig egyáltalán nem beszéltük! Eddig kizárólag arról volt szó, hogy amiatt hibázhatunk, hogy a vizsgált jellemző mintáról-mintára változik, tehát a mintavételi ingadozás miatt. Az ebből fakadó hibát szokás mintavételi hibának nevezni. A fenti azonban arra mutat rá, hogy van másféle hibázási lehetőség is: az előbbi példában nem csak az lesz a baj, hogy az átlag mintáról-mintára ingadozni fog. . . hanem az is, hogy a rossz érték körül fog ingadozni! Hiszen a fenti esetben a mintába a kisebb testtömegűek fognak inkább bekerülni, azaz alá fogjuk becsülni az egyetemisták testtömegét. Vegyük észre, hogy ez független a mintavételi ingadozás problémakörétől: ezt egyáltalán nem befolyásolja a mintanagyság, más szóval élve alá fogjuk becsülni a testtömeget akármekkora mintát is veszünk! Az ilyen típusú hibákat szokták nem-mintavételi hibának nevezni. (Pontosan ez az oka annak, hogy pl. a politikai közvéleménykutatások a legritkább esetben mennek néhány ezer fő fölé mintanagyságban. Ezen a ponton már alig csökken a mintavételi hiba, az össz-hibát az a nem-mintavételi hiba dominálja, ami nem függ a mintanagyságtól, sőt, adott esetben akár árthat is neki, mondjuk a nagyobb feldolgozandó adatmennyiség, több kérdezőbiztos szükségessége stb. miatt.) Ez aláhúzza a mintavételi terv fontosságát. Az optimális eset a véletlen mintavétel: mindenkinek ugyanannyi esélye van a mintába kerülni a vizsgált csoportból27 . Ez garantáltan mentes a nem-mintavételi hibáktól, és matematikailag is könnyen kezelhető az analízise. Amilyen csábítóak azonban az elméleti tulajdonságai, olyan kevéssé végezhető el sokszor a gyakorlatban. A legfontosabb probléma, hogy hogyan tudunk mindenki közül sorsolni? A „mindenki” azt vonja maga után, hogy kell, hogy legyen egy listánk a sokaság elemeiről, ami mondjuk a teljes magyar lakosságra legalább elvileg létezik (még ha nem is férhető könnyen hozzá), de gondoljunk bele, a legtöbb betegségnél semmilyen lista nincs arról, hogy kik a benne szenvedők az országban! Akkor hogyan tudnánk közülük sorsolni? Nem beszélve az olyan „logisztikai” problémákról, hogy még ha tudunk is sorsolni, e szerint esetleg az ország átellenes pontjaira kell kiszállnunk egyetlen egy embert megvizsgálni. . . Éppen ezért az orvosi gyakorlatban nagyon gyakori a nem-véletlen minták használata. Félreértés ne essék, önmagában ezzel nincs feltétlenül baj (pláne, hogy néha nem is lehet mást tenni, lásd előbb), a fontos az, hogy végiggondoljuk ennek konzekvenciáit. És most már érthető az is, hogy milyen konzekvenciákról beszélek: a külső validitás kérdéseiről. Ha cukorbeteg gyerekekről van szó, de az előbb említett okokból úgy gyűjtök ilyeneket, hogy egyszerűen a diabetológiai osztályom múlt havi betegeit kigyűjtöm – az ilyen mintát, amit az alapján választok, hogy könnyen begyűjthető, „kéznél van”, szokás kényelmi mintának nevezni – akkor végig kell gondolni, hogy ezek biztosan megfelelnek a a cukorbeteg gyerekek egészében vett sokaságának? Nagyon sok betegség szempontjából az sem mindegy, hogy az osztályom Győrött, Pesten vagy Miskolcon van! Az ebből fakadó hibát szokás szelekciós torzításnak is nevezni. 27 A valóságban ez nem feltétlenül azt jelenti, hogy mindenkiből azonos valószínűséggel sorsolunk, néha célszerűbb külön sorsolni például férfiakból és nőkből, néha szerencsésebb, ha csoportokat képezünk az alanyokból, és azok közül néhányat teljes egészében bevonunk a mintába stb. Ezek azonban már technikai kérdések; az ún. survey statisztika tárgyalja őket (külön egyetemi szak!).
38
Hogyan ne vegyünk mintát egy orvosi kutatáshoz? A most következő példához azt hiszem nem is szükséges kommentárt fűznöm. A feladat oltott és oltatlan gyerekek egészségi állapotának vizsgálata, a „mintavételi tervet” szó szerint másolom egy védőoltásellenes weboldalról: !
3.3.5. A belső validitás ellenőrzése és a modellezés problémái TODO Túlilleszkedés TODO Modellszelekció hibái (modellszűkítés)
TODO
A belső validitás ellenőrzésének lehetőségei: validálás (keresztvalidáció és bootstrap) és kalibrálás TODO
39
Ajánlott és felhasznált irodalom Ferenci, T. „Bevezetés a biostatisztikába“. In: Műszaki és biológiai rendszerek elmélete. Typotex Kiadó, 2014, pp. 142–188. isbn: 9789632791746. Goldacre, B. Bad pharma: how medicine is broken, and how we can fix it. Fourth Estate, 2013. isbn: 9780007498086. Reiczigel, J., A. Harnos, N. Solymosi. Biostatisztika – nem statisztikusoknak. Pars Kft., 2014. isbn: 9789630637367.
40
Tárgymutató I. fajú hiba, 10 II. fajú hiba, 10
végpont, 6 véletlen mintavétel, 38 vakosítás, 25
α-infláció, 35 alcsoport-analízis, 36 becslés, 7 biológiai variabilitás, 6 confounder, 27 confounding, 27 erő, 10 expozíció, 6 következtető statisztika, 10 külső validitás, 37 kényelmi minta, 38 klinikai szignifikancia, 36 konfidenciaintervallum, 9 matematikai szignifikancia, 36 metaanalízis, 14 minta, 7 mintavételi eloszlás, 8 mintavételi hiba, 38 mintavételi ingadozás, 7 mintavételi terv, 38 nem-mintavételi hiba, 38 nem-véletlen minta, 38 placebo-kontroll, 25 publikációs torzítás, 12 randomizáció, 25 statisztikai teszt, 9 szelekciós torzítás, 38 szignifikancia-vadászat, 33 szisztematikus áttekintés, 13 többszörös összehasonlítások helyzete, 35 tölcsérábra, 22
41