PRÁCE SE STATISTICKÝM SOFTWARE
STATISTICA Výukový materiál vzniklý ve spolupráci Endokrinologického ústavu a firmy StatSoft CR s.r.o. v rámci projektu "Pokročilé vzdělávání zaměstnanců v klinické a molekulární endokrinologii" CZ.2.17/1.1.00/32386
Autoři: Mgr. Petra Beranová Mgr. Lenka Blažková Ing. Miloš Uldrich
Tento text vznikl jako výukový materiál pro zaměstnance Endokrinologického ústavu ke statistickým kurzům firmy StatSoft CR s.r.o. Evropský sociální fond Praha a EU – Investujeme do vaší budoucnosti
Obsah:
Obsah:........................................................................................................................................ 1 1
Úvod ................................................................................................................................... 2 Dalí informa!ní zdroje:................................................................................................................... 2
2
Sput ní!programu!STATISTICA .................................................................................... 4
3
Vstupní!data....................................................................................................................... 6 P"íklad import dat z Excelu .......................................................................................................... 6 P"íklad Otev"ení textového souboru .......................................................................................... 10
4
Monosti!výstup" ............................................................................................................. 12
5
P#ipojení!do!databází!pomocí!STATISTICA!Query....................................................... 14 Práce v rozhraní STATISTICA!Query ........................................................................................... 15
6
Úprava!na$tených!dat...................................................................................................... 17 Promnné a p"ípady........................................................................................................................ 17 Transformace dat............................................................................................................................ 18 Pouití filtru..................................................................................................................................... 19
7
Grafické!znázorn ní!dat .................................................................................................. 20 P"íklad - sestrojení krabicového grafu.......................................................................................... 20 Styly graf$........................................................................................................................................ 24 P"idání styl$ pro grafické objekty................................................................................................. 26 Automatické nastavení vzhledu grafu........................................................................................... 27
8
Analýza!dat ...................................................................................................................... 28 P"íklad výpo!et popisných statistik............................................................................................ 28
9
Automatizace!rutinních!analýz ....................................................................................... 31
10 Záv r ................................................................................................................................ 34
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
1
1 Úvod Cílem manuálu je seznámení se základními monostmi ovládání programu STATISTICA. Uivatel se napíklad dozví, v jakém formátu mohou být vstupní data i jak vytváet grafy a spout!t analýzy. V neposlední ad! manuál popisuje také monosti výstup" do r"zných formát". V!íme, e manuál poskytne uitené informace, které uvítají zejména ti, kteí se cht!jí s programem STATISTICA rychle seznámit a nauit se s ním efektivn! pracovat.
Dalí informaní zdroje: §
Základní p#íruka: Obsahuje podrobn!jí informace o ovládání programu STATISTICA (pipojení do databáze, pokroilé úpravy graf" atd.). V tit!né podob! ji lze objednat v kancelái spolenosti StatSoft na telefonním ísle + 420 233 325 006 nebo emailem na
[email protected]. V PDF je k dispozici pímo v programu:
§
Help: Pro zájemce, kteí se potebují seznámit s vlastní analýzou dat, je k dispozici pehledn! psaná nápov!da (v anglitin!) pístupná pímo z programu STATISTICA.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
2
§
Elektronická uebnice statistiky: Odkaz na tuto uebnici zam!enou na aplikaci statistiky v praxi je k dispozici pímo ze stránky www.statsoft.cz v sekci Podpora.
Nalezneme zde také návody na instalaci softwaru STATISTICA a v sekci FAQ technické pravd!podobn! také odpov$" na dotaz týkající se technických záleitostí (problémy pi instalaci, chyba -1 apod.). V ásti FAQ technické je také sekce Návody/Postupy, která ukazuje zajímavé eení pímo v aplikaci STATISTICA, jako nap.: § § § § § §
Slouení dvou bodových graf! s odlinými m"#ítky Monosti grafu - Sloupcový graf P#idání vlastních znaek u statisticky významného pr!m"ru v grafu P#idání referenní hodnoty do grafu Barevné rozliení jednotlivých graf! typu Box Plot Výsledky korelaního koeficientu nabývají limitních hodnot (1,000 pop#. 1,000) § Atd.
§
Kurzy: Efektivní zp#sob, jak se nauit pracovat s programem STATISTICA a porozum$t základním i pokroilým analytickým metodám. Konají se v poítaové uebn$ a ve je procviováno na píkladech s d#razem na interpretaci výsledk#. Podrobnosti jsou k dispozici na www.statsoft.cz/kurzy.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
3
2 Sputní programu STATISTICA Spustíme program STATISTICA a na obrazovce se objeví okno aplikace STATISTICA: panely nástroj! s tla"ítky
základní nabídka
panel analýz
stavový #ádek
pracovní plocha s dokumentem
-
základní nabídka - slouí k ovládání systému, zp!ístup"uje vechny nástroje programu
-
panely nástroj! s tlaítky - jednoduí p!ístup k r#zným p!íkaz#m
-
zp!ístup"ující asto pouívané nástroje. Jsou zde panel analýz - obsahuje tlaítko minimalizována okna vech sput%ných analýz, mezi kterými se lze p!epínat
-
stavový #ádek - podává zkrácenou nápov%du a základní informace o aktivním dokumentu. M#eme odtud nap!. ovládat filtry i váhy.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
4
Pokud program STATISTICA spoutíme poprvé i nem$níme p"vodní nastavení, oteve se také uvítací dialog:
Pomocí této nabídky m"eme otevírat soubory. Pípadn! lze v dolní ásti dialogu vybrat n!který z naposledy otevených soubor", pokud jsme ji s programem pracovali. Jestlie dialog nechceme vyuívat, zakrtneme Pít tento dialog nezobrazovat. Pro tuto chvíli dialog zaveme pes tlaítko Zavít. Zaveme také prázdnou tabulku, kterou máme na pracovní ploe. Software STATISTICA umo#uje práci v zobrazení Ribbon bar, pepnutí do klasického zobrazení provedete pes záloku Monosti v pravém horním rohu, nebo pes záloku Zobrazit.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
5
3 Vstupní data Data pro vlastní analýzu m!eme získat n"kolika zp!soby: -
importem ji uloených soubor rzných formát
-
p!ipojením k databázi pomocí SQL dotaz! lze pracovat s daty uloenými napíklad v databázi Oracle, MS SQL Server, Sybase atd.
-
otev!ením tabulky Microsoft Excel v programu STATISTICA bez importu
-
vloením dat do nové tabulky v programu STATISTICA
-
sb"rem dat on-line - pokud je systém napojen na m"icí zaízení, nam"ené hodnoty se dají ihned zpracovávat.
Poznámka: Ve vech následujících píkladech budeme pracovat s daty ze souboru Tlesné míry.xls. Soubor obsahuje dva listy mui a eny. V kadém listu jsou informace o váze a výce náhodn" vybraných jedinc! písluného pohlaví. U kadého z nich známe také v"kovou kategorii, do které patí (celkový rozsah v"ku je 18 a 55 let).
Píklad import dat z Excelu V menu Soubor a monost Otev!ít. Pi otevírání excelovských tabulek mám" n"kolik moností, jak k tabulkám pistupovat:
· Importovat vechny listy do seitu M!eme podrobn" nastavit pouze následující parametry (nikoli u velikost oblasti dat kadého listu tu STATISTICA urí automaticky):
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
6
V pípad$, e listy obsahují i textové prom$nné, je uivatel upozorn$n na výskyt sloupce s textovými popisky:
Tuto informaci je teba vzít na v$domí (tlaítko Importovat jako textové popisky) a to bu" u kadé prom!nné obsahující textové hodnoty zvlá#, anebo zakrtnutím monosti Provést pro vechny !íselné promnné, pokud jsou data textová odsouhlasíme moné textové popisky u vech prom!nných. Monost naíst vechny listy do seitu nate ty listy excelovské tabulky, ve kterých jsou uloena n!jaká data, do seitu STATISTICA (.stw), aktivní list Excelu je vybrán jako aktivní vstup i ve STATISTICA, tj. pípadné grafy a výpoty probíhají nad tímto listem, pokud uivatel nezvolí jinou tabulku jako aktivní vstup aktuální aktivní vstup je odlien erven! orámovanou ikonou:
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
7
· Importovat vybraný list do tabulky Postup je analogický jako v p!edchozím pípad", pouze máme na výb"r, který list tabulky chceme do STATISTICA naíst
a také m$eme ovlivnit, která oblast dat vybraného listu se nate.
Data jsou natena do tabulky .sta stejn" jako v pípad" naítání dat z textových soubor$.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
8
· Otevít jako pracovní seit Excelu Pokud budeme chtít vyuívat funkce dostupné v Excelu a dalí nástroje aplikace Excel, je vhodné otevít soubor jako pracovní seit Excelu. V horní ásti menu je pístup k menu aplikace STATISTICA a v pípad$ nov$jí verze aplikace Excel je pod ní zobrazen i pás
karet s nástroji Excelu. U starích verzí Excelu tento pás zobrazen není, nicmén$ do bun$k seitu lze vkládat vzorce vyuívající funkce Excelu v obou pípadech. Oblast dat, se kterou chceme pracovat, definujeme pi prvním sput$ní grafu nebo analýzy. Je dobré nadefinovat maximální velikost oblasti, se kterou chceme pracovat, nebo" je následn! pouita jako default i pro dalí spout!né grafy a analýzy ve STATISTICA.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
9
Píklad Otevení textového souboru V menu Soubor zvolíme monost Otev ít
a pomocí procházení úloi! osobního poítae nadefinujeme cestu k textovému souboru (nap. s koncovkou .txt nebo .csv). Potvrdíme OK a zobrazí se následující dialog:
Ten necháme beze zm"ny a op"t potvrdíme OK. Definici, jak pesn" chceme k obsahu textového souboru pistupovat, upesníme prostednictvím následujícího dialogu:
V horní ásti dialogu nastavíme odd"lova prom"nných (defaultní nastavení je tabelátor nebo stedník, podle typu dokumentu). Máme monost nadefinovat i vlastní odd"lova volba Jiný Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
10
umo!uje vepsat vlastní typ odd"lovae. Pokud je odd"lova tvoen celou skupinou znak#, je nutné zakrtnout monost Uít ve. V dolním okn" dialogu se automaticky zobrazuje náhled souboru tak, jak bude vypadat po natení do STATISTICA, jednotlivé prom"nné (sloupce) jsou odd"leny svislými arami. Pokud je textový soubor tvoen automaticky jde napíklad o výstup z n"jakého programu a na úvod dokumentu se zobrazuje hlavika identifikaních údaj# a potom teprve samostatná data, máme monost nastavit peskoení prvních n ádk# souboru (volba Po!et p"ípad# k p"esko!ení). Dále je d#leité si uv"domit, zda prom"nné mají n"jaký název v"tinou chceme naíst tyto názvy jako záhlaví tabulky, proto i defaultní volba pro natení souboru je Vzít jména promnných z prvního "ádku. Zkontrolujeme také odd"lova desetinných míst, STATISTICA pouívá nastavení odd"lovae pro Windows, tj. pokud otevíraný soubor vznikl napíklad ve skriptu pro Linux systém, m#e být kódování desetinných míst tohoto souboru odliné. V tabulce náhledu m#eme myí vybrat konkrétní sloupec prom"nnou. Tím aktivujeme stední ást menu Monosti promnné. Nyní lze nastavit jméno prom"nné, nastavit datový typ anebo zvolený sloupec vylouit z naítání. Po nastavení vech parametr# potvrdíme OK. Výsledkem je otevení tabulky formátu .sta ve STATISTICA:
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
11
4 Monosti výstup V programu STATISTICA meme nastavit, v jakém formátu se budou ukládat výstupy. Ze základní nabídky vybereme Nástroje - Monosti
. Otev!e se dialog Monosti, ve kterém p!ejdeme na záloku Správce výstup!:
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
12
M!eme zvolit n"které z t"chto moností: -
individuální okna - kadá tabulka i graf se zobrazuje v samostatném oknu. Jednotlivá okna pak lze uloit ve formátu programu STATISTICA nebo v jiném formátu podle toho, zda se jedná o tabulku nebo graf. Pomocí nabídky Soubor Uloit m!eme vybrat formáty *.xls, *.txt, *.htm, *.pdf, *.wmf, *.jpg, *.gif atd.
-
pracovní seit - standardní formát výstup! v programu STATISTICA s píponou *.stw. Práv" v tomto formátu máme nyní výstupy z výe uvedených píklad! (pokud jsme nem"nili výchozí nastavení). Okno pracovního seitu je rozd"leno na dv" ásti. Levá ást zobrazuje stromovou strukturu (obdoba Pr!zkumníka). Pravá ást je editorem vybraných dokument!.
-
protokol - má podobný vzhled jako pracovní seit. V jeho levé ásti se zobrazuje seznam objekt! protokolu. Pravá ást je obdobou textového editoru. Na rozdíl od pracovního seitu lze do protokolu mezi jednotlivé výstupy vepisovat text (viz následující ilustraní obrázek).
-
výstup do Microsoft Word výstupy se vkládají do dokumentu Microsoft Word, a mohou tak být jednodue sdíleny s dalími spolupracovníky.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
13
5 Pipojení do databází pomocí STATISTICA Query STATISTICA umo!uje pímé pipojení do vech standardních databází pes konvence OLE DB a ODBC. Pipojení probíhá v n"kolika fázích: Pes Soubor - Získat externí data - Vytvo!it dotaz se dostaneme do okna rozhraní STATISTICA Query: Zde tlaítkem Nové zvolíme monost definovat nové pipojení. V okn" Vlastnosti Data Link vybereme vhodnou monost z dostupných ovlada# pro pipojovanou databázi: V dalím kroku vybereme server, u n"kterých
typ# ovlada#, resp. databází, musíme cestu zadat run" (nap. Access Jet.OLEDB.4.0). Dále zvolíme typ zabezpeení pro pístup do databáze a v rolovacím menu vybereme konkrétní databázi na serveru, který jsme definovali pedchozím kroku. Vhodné je také otestovat pipojení a v dalím kroku zvolíme název pro nové pipojení, máme monost zobrazit náhled pipojovacího et"zce.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
14
Práce v rozhraní STATISTICA Query V rozhraní STATISTICA Query lze pracovat dv!ma zp"soby. První zp"sob vyuívá grafický reim a umo#uje práci i t!m, kteí potebují z databáze získávat konkrétní data, ale nemají potebné znalosti dotazovacího jazyka SQL. Grafický reim funguje na principu Táhni a pus$. V levé ásti hlavního okna vidíme jednotlivé tabulky v databázi (na obrázku je to nap. ADSTUDY), které lze petáhnout do hlavního okna v pravé ásti menu. Kliknutím na jednotlivé názvy polí tabulky v hlavním okn! (ID, GENDER
) vybereme, která pole z databáze chceme nahrát a automaticky tak ji vytváíme SQL dotaz, který m"eme ve spodní ásti okna také nechat zobrazit (P!íkaz SQL). Tlaítko Náhled dat umo#uje sledovat vybraná data. Spojení tabulek je pevzato z databáze, anebo jej lze nadefinovat pímo v prostedí STATISTICA Query, a to petaením kurzoru z jedné tabulky na druhou (na konkrétním parametru, který slouí jako primární klí), nebo pes záloku Spojení P!idat. Monost pidat spojení vyvoláme také kliknutím pravého tlaítka myi ve volném prostoru hlavního okna. Kliknutí ve spodní ásti rozhraní STATISTICA Query (viz následující obrázek) vyvoláme monost pidání dopl#kových omezení pro jednotlivé parametry.
Chceme-li upesnit ji vygenerovaný SQL dotaz i napsat nový bez vyuití grafického módu, pes záloku Zobrazit pepneme grafický reim na skriptovací. Pes záloku Soubor Uloit jako/Otev!ít lze hotové dotazy ukládat a naítat. Samotné sput!ní dotazu probíhá pes zelenou ikonu v horní lit!, nebo pes klávesu F5.
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
15
Defaultní nastavení STATSITICA je naítat data do aktivní tabulky dat, pokud chcete naíst data do nové prázdné tabulky, vyberte tuto monost v následujícím dialogu:
Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
16
6 Úprava natených dat Promnné a pípady Pidání a odebrání prom$nných provedeme následujícím zp"sobem: V záhlaví tabulky klikneme pravým uchem myi a zobrazíme dialog, v n!m m"eme vybrat monost Odebrat promnné
nebo P!idat promnné. Pi pidávání promnných se zobrazí dialog, v n!m
uivatel specifikuje poet pidávaných prom!nných, název prom!nné, ze kterou se mají nové prom!nné vloit, jméno prom!nné (Pokud pidáváme více ne jednu prom!nnou, bude zadaný název pouit u vech t!chto prom!nných pro odliení bude ukonen poadovým íslem pidávané prom!nné. Pejmenování prom!nných m"eme nicmén! provést následn!.), typ hodnot prom!nné a zp"sob zobrazení jejích hodnot. Rozliujeme tyi typy hodnot prom!nných, a sice: · Double Defaultní typ. Vyuívá se pro numerické hodnoty a umo#uje ukládat 64 bitová reálná ísla s pesností na 15 desetinných míst. Rozsah piblin! od -1,7 * 10 308 do 1,7 * 10 308. Kód chybjících dat je -999999998. · Integer Celá ísla v rozmezí -2 147 483 648 a 2 147 483 647. Kadé íselné hodnot! lze piadit textový popisek. Velikost 4 byty. · Byte Celá ísla v rozmezí 0 a 255, nelze vloit desetinná ísla, kadé íselné hodnot! lze piadit textový popisek. Velikost 1 byte.
· Text Pro poteby spolenosti StatSoft CR s.r.o. Copyright © 2011
17