ZBER A SPRACOVANIE ÚDAJOV 1. 2.
Proces spracovania údajov Zber údajov a. Spôsoby zberu údajov i. Databázy ii. Registre chorých iii. Dotazníky iv. Predspracovanie údajov a kontrola kvality v. Príklad vi. Kódovanie Cvičenia. Samotný postup pri spracovaní údajov v medicíne a zdravotníctve využíva všetky metódy, ktoré sú bežné aj v iných vedách. Na rozdiel od technických náuk je mu bližšia deskripcia ako použitie matematických analytických metód. Štatistické metódy predstavujú najčastejšie používaný spôsob deskripcie a analýzy vo vedách o človeku. 1. Proces spracovania údajov Proces spracovania údajov sa dá znázorniť ako sled za sebou nasledujúcich krokov (obr. 1). Problém predbežná informácia
Model
Plán zisťovania a štatistický model
Predbežný test na pilotných údajoch
Zber údajov
Definovanie nových otázok
Spracovanie údajov a testovanie hypotéz
Interpretácia: inferencia, rozhodnutia
Obrázok 1. Postup pri spracovaní údajov
Zdieľanie výsledkov, publikácie
Prvý krok, teda definíciu problému, ako aj postavenie modelu je základom akéhokoľvek cieľavedomého postupu postavenom na štúdiu údajov. V týchto krokoch sa formulujú pokusy, hypotézy, a postupy pri ich potvrdzovaní alebo vyvracaní. Záujemci o filozofiu vedy nájdu odpovede na otázky, ktoré sa v tejto časti riešia u mnohých filozofov moderného myslenia, napr. Karl Popper. V nasledujúcom kroku sa definuje plán vykonania zisťovania a štatistický model. V tomto kroku sa robí najčastejšia chyba v tom, že sa neformuluje dostatočne presne čo a ako sa bude zisťovať. Pri tom sa určia štatistické hypotézy a štatistické postupy ich potvrdenia alebo vyvrátenia. Pokiaľ sa tejto časti nevenuje dostatok pozornosti, alebo sa úplne vynechá, nie je možné vykonať vykonať dosiahnuť očakávané výsledky alebo ich dosiahnutie stojí nadmerné úsilie a konzumuje prílišné zdroje (finančné, materiálne i ľudské). Pri väčších štúdiach sa pred začatím zberu údajov napríklad dotazníkom vyplatí si otestovať celý postup zberu. V prípade úspechu sa získané údaje zaradia do súboru štúdie, v prípade neúspechu možno ľahko odhaliť a najmä odstrániť chyby a začať štúdiu s istotou, že zber údajov nebude sťažený zbytočnými chybami. Zber údajov zahŕňa aj overovanie a následné odstránenie chýb, ktoré pri zbere vznikli. Táto kontrola kvality zozbieraných dát je veľmi dôležitá a čím sa jej venuje viac pozornosti tým bude výsledok ľahšie a bezpečnejšie dosiahnutý. Platí to prirodzene aj naopak. Aj v tomto kroku chcem upozorniť, že podcenenie významu kontroly kvality zozbieraných údajov veľmi často vedie k mrhaniu ľudských i materiálnych zdrojov. Spôsoby kontroly sú diskutované ďalej. Nasledujúce dva kroky: Spracovanie údajov a testovanie hypotéz a Interpretácia: inferencia, rozhodnutia sú vlastnou témou štatistických postupov, ktoré budú diskutované v ďaľších kapitolách. Obe však obvykle vedú nielen k nájdeniu odpovedí na otázky postulované v prvých krokoch ale aj potencujú vznik nových otázok a hľadania odpovedí na ne. Tým sa kruh uzatvára a nastupuje nový projekt. Obzvlášť zložitou témou je testovanie štatistických hypotéz. Prijatie, alebo odmietnutie hypotézy vedie často ku korekcii pôvodného problému, alebo prináša nové problémy. Preto je v diagrame naznačený cyklický charakter postupu. Proces získavania približného popisu reality nikdy nekončí a ďalej sa reviduje a spresňuje. Pôvodný diagram postrádal poslednú časť, t.j.uverejnenie výsledkov. Keďže oblasť šírenia poznatkov je mimoriadne dôležitá a rozvíja sa najmä vďaka internetu a osobným počítačom, stala sa príprava dokumentu s výsledkami integrálnou súčasťou celého postupu spracovania dát. 2. Zber údajov Laboratórny experiment väčšinou neprináša také množstvo dát, aby vznikali problémy pri ich zbieraní. Aj v tomto prípade dobre navrhnutý protokol uľahčí ich spracovanie počítačom. O úspechu celého kolektívu pracovníkov v rozsiahlych štúdiach, na ktorých participuje väčšie množstvo ľudí často rozhoduje spôsob účinného zberu údajov. Tak je tomu v rozsiahlych terapeutických a profilaktických zisťovaniach, v epidemiológii, sociálnom lekárstve, vlastne vo všetkých oblastiach verejného zdravia. Zopakujem, že veľké množstvo ľudí, ktoré sa stane objektom skúmania tvorí výberový súbor a na každom subjekte sa stanoví viacero parametrov. V štatistike je zvykom označovaťvšetky dáta, ktoré boli namerané u
jedinca ako premenná. Jednotlivé hodnoty meraní u indivídua sa zvyknú označovať ako meranie. Všetci jedinci, na ktorých boli zisťované hodnoty tvoria súbor alebo výber. Niektoré znaky majú zvláštnu úlohu pri spracúvaní dát počítačom. Triviálnym sa môže zdať upozornenie na rozdiel medzi rovnako sa zobrazujúcimi číslicami a písmenami, hoci pri písaní písacím strojom sa voľne zamieňajú. To je prípad písmena "l" (el) za číslicu "1" (jedna). Podobne "O" a "0" (nula). Väčšina tlačiarní vypíše prečiarknutú nulu, alebo je táto užšia ako písmeno "O". Ak sa nesprávne zamenia uvedené znaky počítač to rozozná a neprijme číslo, v ktorom je nula nahradená písmenom "O" alebo jednotka písmenom "l". V takomto prípade väčšina programov hlási chybu. Dôležitým rozdielom je použitie desatinnej bodky namiesto desatinnej čiarky. V prípade, že sa použije čiarka miesto bodky, počítač číslo neprijme a ohlási chybu. a. Spôsoby zberu údajov Nezávisle na veľkosti štúdie alebo pokusu, je potrebné zachytiť informáciu na papier, pred jej zadaním do počítača. Len tam, kde meranie priamo riadi počítač, môžu sa dáta ukladať na disk a hneď spracúvať. Široká dostupnosť počítačov viedla k zmenám v zbere údajov. Stále viac sa uplatňujú zdielané databázy, kde sa údaje zbierajú z rôznych miest a pomocou siete organizácie (intranet) alebo internetu sa ukladajú v jednej databáze. Nástup počítačov do ruky umožňuje zaznamenávanie dát priamo pri riadenom rozhovore. i. Databázy Pod databázou rozumieme počítačový program, ktorý zabezpečí zber údajov v rovnakej štruktúre počas dlhšej doby. Výsledkom takéhoto programu je potom jeden alebo viac vzájomne prepojených súborov, kde sú údaje zoradené podľa času a miesta ich vzniku. Jednoduché databázy sú obrazom dotazníka uloženého v počítači. Zložitejšie databázy sú výsledkom informačných systémov v ambulancii praktického lekára, v nemocnici, v zdravotníckom zariadení, štatistickom úrade, poisťovni. Súčasťou programu sú nástroje na prehľadávanie, zoraďovanie, výber údajov podľa kritérií. Programy pre návrh a vytváranie databáz sú súčasťou každého kancelárskeho balíku aj mnohých štatistických programov. Excell poskytuje viacero databázových funkcií. Vhodne navrhnuté databázy poskytujú množstvo údajov pre vedecký výskum a spoznávanie. Umožňujú spoluprácu kolektívov výskumníkov často geograficky značne vzdialených. Taktiež náklady na vedenie komplexnej databázy nie sú príliš vysoké, keďže údaje sa generujú ako súčasť bežnej rutiny. Týmto spôsobom rýchlo vznikajú veľké súbory údajov, ktoré umožňujú študovať zriedkavé situácie, ochorenia alebo intervencie. Poskytujú presné údaje pre klinickú prax i pre verejné zdravie. Jednou z najväčších nevýhod databáz je systematičnosť zhromažďovania údajov, ktorá vylučuje náhodný výber. Medzi známe databázy patrí súbor údajov z Framinghamskej štúdie o rizikách životného štýlu. Tu sa údaje zbierajú už niekoľko desaťročí. Každá krajina udržiava databázu štatistických údajov o zdravotníctve, o demografii a podobne. Mnohé z nich sú prístupné voľne alebo za poplatok prostredníctvom internetu. Štatistiky o úmrtiach a niektorých
charakteristikách zdravia a zdravotníckej starostlivosti pre krajiny združené vo WHO pre Európu sú v databáze HFA. ii. Registre chorých Odhalenie príčin vzniku chronických ochorení vyžaduje dlhodobé sledovanie chorých. Okrem dispenzarizácie sa stále viac uplatňujú registre osôb s určitým typom ochorenia. Register je viac než len kartotéka, alebo dispenzár. Osoba, ktorá je zaradená do registra je v prípade chronického ochorenia sledovaná počas celého zvyšku života. Okrem záznamu o priebehu ochorenia sa sledujú mnohé parametre, ktore umožňujú vyhodnotenie starostlivosti o pacienta, liečby i prognózy chorého. Register predstavuje organizačné a technické zariadenie, ktorého účelom je umožniť vykonávať intenzívnu dispenzárnu starostlivosť o podchytene osoby a zároveň skutočňovať klinický, epidemiologický a operačný výskum. Inými slovami sa jedná o databázu s údajmi o osobách s určitým typom zdravotného problému. Registre sa zriaďujú pre rôzne ochorenia. Na Slovensku už dlhšiu dobu pôsobí Národný onkologický register. Ide o register zomrelých na onkologické ochorenie. Zároveň bol vybudovaný celoslovenský register detí s inzulín dependentným diabetom (dalej len IDDM). V registri sa zbierajú informácie o deťoch s ochorením, ktoré poskytujú detskí diabetológovia. Dieťa sa registruje od dňa prvého podania inzulínu. Informácie sa zbierajú v centrálnej databanke. Spracúvajú sa s cieľom určenia incidencie a prevalencie tohto ochorenia v populácii detí SR. Zároveň sa hlásia do Svetovej zdravotníckej organizácie v rámci programu DIAMOND. iii. Dotazníky Jedným z veľmi častých spôsobov zberu údajov od ľudí je použitie dotazníka, aj keď sa často používa nevhodne. Na konštrukcii dotazníka poukážem na niektoré pravidlá platné pri ľubovoľnej forme zaznamenávania dát. Cieľom výskumníka, je komunikácia s potenciálnymi respondentmi, pri čom sa využíva formulár-dotazník. Snaží sa zaistiť jeho plnú zrozumiteľnosť a spoluprácu respondenta. Preto je dôležité, aby výskumník poznal podstatu procesu komunikácie. Definovanie obsahu medicínskeho dotazníka začína výpočtom entít, ktoré sú zaujímavé z hľadiska získania informácie. Môžu obsahovať osobné charakteristiky, anamnestické údaje, symptómy, znaky. Návrh obsahu dotazníka má zabezpečiť získanie čo najviac informácie o vyšetrovanom probléme, pri obmedzení informácie o jednotlivcovi, ktorá pre riešenie danej otázky nie je podstatná. Pri zložitejších dotazníkoch je potrebné overovať pred začatím sledovania kvalitu jeho štruktúry na vzorke populácie. To väčšinou odhalí slabiny návrhu a dovolí doplniť, resp. Vylúčiť niektoré informácie. Tvorca formuláru rieši dilemu veľkého rozsahu dotazníka a obavy z vynechania podstatných otázok proti krátkemu a informačne neúplnému. Respondent nemusí byťvždy ochotný odpovedaťna veľké množstvo otázok rovnako kvalitne a úplne. Preto dobre navrhnutý dotazník je racionálnym kompromisom medzi úplnosťou a jeho dľžkou. Svoju úlohu tu hrá aj následná štatistická analýza, čím viac údajov obsahuje dotazník tým zložitejšie je ich spracovanie. Dlhý dotazník má nevýhodu zložitejšieho spracúvania. Výskumník sa snaží často zozbierať viac informácie, ako potrebuje pre dosiahnutie cieľa. Predpokladá, že ju použije ihneď, alebo neskoršie. Tento prístup sa zvykne
označovaťako datizmus. Je nebezpečný najmä z toho dôvodu, že vyžaduje väčšie náklady na získanie potrebného množstva informácií a prináša potenciálne riziko, že sa stratí pôvodný zámer. Čím menej priestoru sa venuje príprave štúdie, tým väčšie nebezpečenstvo hrozí zo strany neúmerného kvanta údajov. Ak dotazník pre zber informácií obsahuje 20 údajov venuje respondent každému z nich väššiu pozornosť, oproti dotazníku s 50 údajmi. Často sa zavedú premenné, ktoré nie sú bežne k dispozícii. Potom narastá počet položiek bez údajov a zbytočne stúpajú náklady na spracovanie. Stalo sa, že klinik žiadal zaradiťdo sledovania údaj o echokardiografii, hoci sa toto vyšetrenie robilo u danej skupiny pacientov len výnimočne. Po polroku sledovania sa divil, že len menej ako 1% pacientov malo toto vyšetrenie a že nie je možné ho vyhodnotiť. Po vylúčení položiek, ktoré sa týkali tohto vyšetrenie sa dotazník významne skrátil. Zjednodušilo a zrýchlilo sa jeho zadávanie do počítača bez straty podstaty problému. Preto sa pri väčších štúdiach, na ktorých sa zúčastňuje viacero pracovísk,alebo pracovníkov, začína s predbežným zberom na relatívne malej vzorke. Takto je možno odstrániťmnohé chyby a štúdiu spustiťnaplno až po predbežnej analýze. Príprava dotazníka začína rozhodnutím o druhu otázok. Tento ovplyvňuje druh zbieraných údajov (kvantitatívne alebo kvalitatívneš a taktiež určuje podstatu vzťahu medzi respondentom a výskumníkom. Vzťah sa prejavuje od pomerne neformálneho až po neosobné dotazníky, ktoré vyplňuje sám respondent. Vo formulároch sa rozlišujú dve hlavné skupiny otázok: otvorené a uzatvorené. Otvorené otázky neponúkajú žiadnu špecifickú odpoveď. Respondent odpovedá voľne, svojimi vlastnými slovami a celá jeho odpoveď sa zaznamenáva. Účinnosť tohto druhu otázok výrazne zvyšuje jasná formulácia otázky. Správne položená otázka sama redukuje rozsah odpovede. Široko formulovaná odpoveď na druhej strane však môže potenciálne priniesť výskumníkovi nové impulzy. Príklady otvorených otázok: Ktoré lieky ste brali ostatného 1/2 roka: ................................... Ktoré ťažkosti vám pomohli odstrániťtieto lieky: ......................................... Akým spôsobom ste získali lieky, ktoré sú len na lekársky predpis? ......................... Pri spracúvaní odpovedí sa nedá vyhnúťznačnému úsiliu pri ich formalizácií pred ďaľším spracovaním. Klasifikáciu a interpretáciu zaťažuje chyba, ktorú vnáša administrátor dotazníka. Ako sa opakovane dokázalo, rôzni odborníci môžu interpretovať tú istú otvorenú otázku rôzne. Obmedzenia tohto typu otázok sú zjavné pri kontrolovanom zisťovaní medicínskych faktov, najmä v situáciach, kde je potrebné kombinovať alebo porovnávať odpovede respondentov. Dôležitú úlohu majú pri navrhovaní štúdie, kde pomáhajú výskumníkovi spoznať situáciu z viacerých strán. Na základe takéhoto poznania možno pripraviť cielené uzavreté otázky bez obavy zo straty informácie. Uzavreté otázky sa môžu líšiť formou. Respondent vo všetkých prípadoch musí vyberať vlastnú odpoveď z niekoľko zadaných možností. Otázky tohto typu bývajú často dichotomické, teda odpoveďou je buď ÁNO alebo NIE, či iná dvojica, napríklad VYSOKÝ/NÍZKY. Niekedy sa pridáva tretia možnosťako NEVIEM alebo ŽIADNA. Príklad dichotomických otázok s vetvením: Beriete každý deň lieky? [ÁNO] [NIE] (Pokiaľ ste odpovedal NIE, vynechajte nasledujúcich 6 otázok)
Beriete každý deň lieky proti bolesti hlavy? Beriete každý deň lieky na spanie? Beriete každý deň lieky na ukľudnenie?
[ÁNO] [ÁNO] [ÁNO]
[NIE] [NIE] [NIE]
Pre spracovanie však tretia otázka nie je vždy prínosom. Použitie tretej možnosti je čiastočne odôvodnené v dlhých dotazníkoch, kde musí byť istota, že respondent odpovedal na každú otázku. Keď na dichotomickú otázku chýba odpoveď, nie je istota, či sa táto položka neprehliadla. Zaradením tretej možnosti sa táto istota získa. Na základe niektorej odpovede na dichotomickú otázku je možno dotazník vetviť. To vedie k úspore námahy respondenta pri vypľňaní i k zjednodušeniu spracovania. Závažnou nevýhodou však je skutočnosť, že v prípade omylu v odpovedi sa získa úplne opačná informácia. Niektoré nevýhody predchádzajúceho typu formulácií odstraňujú otázky so širšou varietou odpovedí. Zvyknú sa označovaťako otázky s mnohonásobnou voľbou. Jednoduchým príkladom je otázka a zoznam odpovedí, v ktorom respondent vyznačí svoj výber: Označte krížikom v štvorčeku vhodnú odpoveď. Beriete každodenne lieky • proti bolesti hlavy [] • proti vysokému krvnému tlaku [] • na spanie [] • na ukludnenie []. Tento druh otázky upozorňuje zároveň respondenta na všetky možné odpovede, aj na také, ktoré by mu inak mohli uniknúť. Je to výhoda najmä v medicínskych použitiach, kde sa vyskytujú aj nie každodenné termíny. Opýtanému sa niektorá odpoveď môže zdať vhodná, aj keď to nezodpovedá skutočnosti. Taktiež prehliadnutie niektorej z možností patrí medzi nevýhody tohto typu otázok. Inou formou otázok s mnohonásobnou voľbou odpoved je kvantifikácia škálou. V medicínskom výskume sa často používa intervalová škála. V nej výskumník definuje vhodnú gradáciu odpovede, ktorá by mala predstavovaťpravideľnú stupnicu na kumulatívnej škále Mávate bolesti hlavy • • • •
výnimočne alebo nikdy občas často skoro stále
[] [] [] [].
V dotazníku sa môžu typy otázok kombinovať. Výber otázky sa musí podriaďovaťcielu šetrenia a okruhu respondentov. Tomu musí zodpovedaťaj text otázky. Výskumník musí voliť medzi dvoma krajnosťami: zdravotníci, ktorí budú spracúvať odpovede by chceli mať čo najpresnejšie formulácie s použitím bežnej odbornej terminológie. Respondent však potrebuje formuláciu otázky pomocou jednoduchého nie odborného jazyka. Zároveň je tu nebezpečie, že nedôjde k rovnakej interpretácii termínov v uvedených skupinách. Avšak mnohí pacienti, ktorí trpia určitou chorobou poznajú obsah termínov, ktoré sa týkajú ich stavu. Riešenie uvedenej dilemy je pomerne jednoduché: použiť alternatívne výrazy. Napríklad "Mali ste niekedy žltačku (zažltnutie očí alebo kože)?". Pri návrhu
dotazníka je lepšie predpokladať menšie znalosti respondenta z danej oblasti. Sofistikovaná terminológia nie je jedinou barierou komunikácie. Použitie nepresne definovaných alebo viacznačných výrazov (často, občas, málo, veľa) zvyšuje nepresnosť odpovedí. Pri koncipovaní dotazníka sa doporučuje najprv zaradiť otázky všeobecného charakteru a po nich špecifické. Nezaslúžene málo pozornosti sa venuje úprave dotazníka. Každý dotazník by mal obsahovať prílohu, v ktorej sa respondentovi vysvetlí zmysel predloženého formuláru, kto ho žiada o vyplnenie a spôsob, ako odpovedať na otázky s príkladmi. Zmysel vyšetrovania nie je potrebné príliš rozvádzať, aby nebol respondent ovplyvnený. Pomocou rôznych typov písma je vhodné rozlíšiť inštrukcie od samotných otázok. Často sa vyskytuje nevyváženosť miesta pre odpovede s jej dľžkou. Často je rezervované nadmerne veľa priestoru pre krátku odpoveď a málo pre dlhú. Pokiaľ sa nemožno vyhnúť otvoreným otázkam je potrebné starostlivo zvážiť dľžku odpovede a pripraviť pre ňu dostatok miesta. Pokiaľ sa dotazník bude spracúvaťpočítačom (čo je dnes pravidlom) je potrebné pamätať na uľahčenie procesu zadávania napríklad tým, že sa pre odpovede pripravia očíslované štvorčeky. Pokiaľ sa dá predpokladať použitie čítača formulárov je úprava dotazníka jednou z najdôležitejších predpokladov bezchybného zberu dát. Rozhoduje nielen samotná úprava, ale aj kvalita papiera a písma. Aj v tomto prípade sa oplatí pred rozmnožením formulárov sa poradiť s odborníkom. iv. Predspracovanie údajov a kontrola kvality Po uložení údajov na disk nasledujú procedúry predspracovania dát. Sem patrí kontrola správnosti zadania, odstránenie chybných údajov, transformácia údajov, označenie chýbajúcich dát. Jednou z často diskutovaných tém v medicínskej štatistike je kvalita údajov. Na základe nekvalitných údajov ani najzložitejšie postupy nedokážu odvodiťplauzibilný záver. Jednou z dôležitých predpokladov kvalitných dát je ich homogénnosť. To znamená, že podmienky za ktorých sa získali musia byťpre všetky prípady rovnaké. Dobre navrhnuté štúdie definujú okolnosti, za ktorých je prípustné meranie robiť. Príkladom môže byť štandardizácia zaznamenávania a kódovania EKG pri spracovaní epidemiológie kardivaskulárnych ochorení, ako ju postuluje Minnesotský kód. Definuje prostredie, v ktorom možno EKG zaznamenávať, v akom stave musí byť objekt merania - ako dlho pred meraním nesmie fajčiť, jesť, vykonávaťnamáhavú činnosť, ako dlho musí pred meraním odpočívať a podobne. To všetko má zabezpečiť odstránenie interferencie tých faktorov, ktoré by mohli skresliť výsledky štúdie. Ani v najlepšie navrhnutej štúdii sa nedá vyhnúť chýbaniu údajov v niektorých meraniach. Často sa nepodarí získať niektorý z údajov. Môže sa stať, že sa rozbije skúmavka s krvou alebo močom, jedinec odmietne odpovedať na niektorú otázku. V takýchto prípadoch nie je vždy nutné vylúčiťvšetky ostatné údaje od jedinca z vyhodnotenia. Chýbajúce dáta sa spracujú podľa určitých pravidiel, ktoré minimalizujú chybu. Pravda potiaľ, pokiaľ nechýbajú údajú u všetkých, alebo väčšiny sledovaných jedincov. Chýbajúci údaj nemožno nahradiť nulou, lebo aj nulová hodnota ovplyvňuje výsledok štatistickej analýzy. Nemožno ho ani
vynechať, lebo mnohé programy automaticky dosadia do prázdneho miesta nulu. Chýbajúci údaj sa musí vyznačiť nejakým dohovoreným znakom. Často sa používa "*" (hviezdička, alebo len "."(bodka), prípadne iný dohovorený znak. Dobrý štatistický program neberie pri výpočte tento údaj do úvahy a upozorní, že v údajoch je určitý počet chýbajúcich dát. Pokiaľ sú všetky údaje zadané do formuláru, potom je potrebné zistiť, či niekde nevznikla chyba pri zadávaní. Pri číselných údajoch sa často vyskytne omyl, ktorý zmení hodnotu údaju tak, že sa nejakým spôsobom vymyká z bežného rozsahu dát. Jednoduchým spôsobom je možno stanoviť maximálnu a minimálnu hodnotu v stľpci číselných údajov. K tomu slúžia funkcie, ktoré označuje znak = pred uvedením názvu funkcie. V tomto prípade do prázdnej bunky pod stľpcom sa zadá skratka požadovanej funkcie, napr. =MIN()1 (najmenšia hodnota) alebo =MAX() (najväčšia hodnota). Za skratkou sa uvedie rozsah, pre ktorý má platiť funkcia. Rozsah sa špecifikuje zadaním adresy bunky s prvou hodnotou v ľavom hornom rohu a poslednou hodnotou v pravom dolnom rohu formulára. Po stlačení tlačítka ENTER sa v tejto bunke vypíše najmenšia (najväčšia) hodnota v danom stľpci. Ak je menšia, alebo väčšia ako predpokladané hodnoty, v zadaných údajoch sa vyskytla chyba. Takto je potrebné preveriť všetky stľpce s numerickými údajmi. Takto je možno pripraviť kontrolné postupy pre všetky číselné polia (Obrázok 2). Pokiaľ sa prehľadávajú stľpce s údajmi slovného typu, potom je nutné použiť funkciu DATA z hlavného menu. Toto je databázová funkcia, ktorá vyhľadá záznam spľňajúci špecifikované podmienku. Môže byť značne komplikovaná a môže zahrňať kombináciu viacerých parametrov. Pre kontrolu zadávania sa môže použiť funkcia VALIDATE. Samotné zadávanie sa uľahčí použitím FORMS. v. Príklad U 11 zdravých ľudí vo veku 14 až 24 rokov sa meral sérový cholesterol, systolický krvný tlak a hmotnosť. Zadávanie údajov v tabuľkovom editore Excel je možné pomocou priameho vstupu dát do jednotlivých buniek tabuľky (obrázok 2) a súčasnou kontrolou zadania. Inou možnosťou je použitie funkcie FORMS (obrázok 3) a samotnú kontrolu uskutočniť až po zadaní meraní (Obrázok 3). Obrázok 3. Zadávanie údajov príkazom FORMS
1
Príkazy Excel používam v pôvodnom anglickom znení. Tí, ktorí používajú českú alebo slovenskú verziu si musia nájsť príslušný ekvivalent.
Samozrejme je možné údaje zadávať aj inými programami, napríklad štatistickými. Mnohé z nich poskytujú široké možnosti formátovania vstupu a kontrol. Nastavenie správnosti zadania údajov pre muž/žena
Dĺžka textu
Rovná alebo menšia
Nastavenie hlásenia pri chybe
Činnosť po zistení chyby
Nastavenie textu a názvu otázky
4
Názov premennej
Zobrazený text
Zadávanie údajov a chybové hlásenie
Názov chyby Hlásenie chyby
Názov premennej
Chyba
Obrázok 2. Nastavenie zadávania údajov v programe Excel. vi. Kódovanie Mnohé odpovede je nutné pred ich zavedením do počítača kódovať. Robí sa to so snahou o čo najvyššiu precíznosť. Respondenti odpovedajú voľnejšie a potom sa ich odpoveď transformuje najčastejšie na číselný kód podľa vopred pripraveného kľúča. Kódovanie by mali robiť zvlášť pre tento účel zacvičení pracovníci. Mnohé dotazníky majú vyznačené miesto pre kódy tak, že respondent vie, že tam nemá písať. Kódovanie taktiež uľahčuje zavádzanie dotazníkov do počítača. Príkladom kódovania je označovanie okresov v SR číslami. Všeobecne platia číselníky, ktoré určujú, ktorému okresu zodpovedá aký číselný kód. Nemožno očakávať že všetci respondenti použijú správne kód svojho okresu a preto sa kódujú okresy až pri spracúvaní vyplnených dotazníkov. Iným príkladom je použitie medzinárodného
kódovacieho systému chorôb ICD. Je dôležité,aby kódoval odborník, ktorý vie posúdiť aj väčšie odchýľky od bežne zaužívaných terminológií. Takýchto systémov jestvuje viacero a rozhodnúť sa pre niekotrý z nich vyžaduje poznanie podstaty procesu a cieľa, ktorý chceme dosiahnuť. Pokiaľ sa zbierajú údaje o piatich chorobách stačí, keď sa kódujú číslicami od jedna do päť. Pokiaľ sa berú do úvahy všetky choroby dýchacej sústavy, potom je výhodné využiť ICD klasifikáciu. Ak táto nevyhovuje ako príliš hrubá a nepresná, potom sa ponúka klasifikácia SNOMED alebo iný, špeciálny kódovací systém. Hodnoty sa dajú kódovať rozličnými spôsobmi. Napríklad v Excel je možno použiť funkciu IF(kritérium;pravda;nepravda). Táto funkcia najprv vyhodnotí kritérium a potom umiestni do bunky číslicu alebo text alebo inú hodnotu podľa pravdivosti, resp. nepravdivosti výsledku testovania kritéria (obrázok 4).
Obrázok 4 Použitie funkcie IF: ak obsah bunky A2 obsahuje text “Muž” potom vloží do bunky číslicu 1 ak obsahuje text iný, potom vloží číslicu 0. Kopírovaním do ďaľších buniek v stĺpci prekódujeme celú premennú.
Na kódovanie možno použiť aj príkaz REPLACE z ponuky EDIT. Väčšina štatistických programov ponúka viaceré spôsoby kódovania alebo transformácie premenných Cvičenia. 1. Pripravte fiktívne údaje pre súbor 10 náhodne vybraných jedincov v pokuse o účinnosť preparátu na zníženie krvného tlaku. Použite aspoň 5 premenných a vytvorte čo najširšie kontroly vstupu zadaných meraní. 2. V príklade na obrázku 2 doplňte údaje pre všetkých 11 meraní a preveďte prekódovanie STK na 1, ak je menšia hodnota ako 130 a 0, ak je hodnota väčšia, pomocu funkcie IF.