Manuál k ovládání programu STATISTICA
Mgr. Petra Beranová Mgr. Lenka Blažková Ing. Miloš Uldrich
Copyright © StatSoft CR s.r.o. 2012 StatSoft CR s.r.o. Ringhofferova 115/1 155 21 Praha 5 – Zličín tel.: +420 233 325 006 • fax: +420 233 324 005 • e-mail:
[email protected] • www.statsoft.cz Všechna práva vyhrazena. Kopírování, rozmnožování, publikování nebo přenos jakékoli části této publikace elektronickou, mechanickou, magnetickou, optickou, fotografickou nebo jakoukoli jinou cestou je zakázán bez písemné dohody se StatSoft CR s.r.o. StatSoft, StatSoft logo, STATISTICA, Data Miner, SEPATH a GTrees jsou ochranné známky společnosti StatSoft, Inc. a jsou použity se souhlasem této společnosti. Další použité materiály mohou být chráněny právy k duševnímu vlastnictví jiných subjektů.
Obsah:
Obsah:........................................................................................................................................ 1 1
Úvod ............................................................................................................................... 3
2
Spuštění programu STATISTICA ................................................................................ 3
3
Načtení souboru ............................................................................................................ 6 Příklad – import dat z Excelu ............................................................................................................ 6
4
Vytvoření základní výpočtů – popisné statistiky ........................................................... 8
5
Vytvoření grafu............................................................................................................ 11
5.1
Histogram .................................................................................................................... 11
Přes Grafy -> 2D grafy -> Histogramy.................................................................................. 11 5.2
Krabicový graf (Box Plot) ........................................................................................... 11
Přes Grafy -> 2D grafy -> Krabicové grafy ........................................................................... 11 5.3
Regulační diagram ...................................................................................................... 13
6
Uložení práce ............................................................................................................... 14
6.1
Uložení celé rozdělané práce....................................................................................... 14
6.2
Uložení tabulky v softwaru.......................................................................................... 15
6.3
Uložení grafu ............................................................................................................... 17
6.4
Přidání výstupů do Microsoft Word............................................................................ 18
7
Další možnosti načtení souborů.................................................................................. 19
7.1
Otevření textového souboru ........................................................................................ 22
8
Správce výstupů ........................................................................................................... 25
8.1
Výstup do Microsoft Word / do protokolu STATISTICA .......................................... 25
9
Další příklady analýzy dat ........................................................................................... 27
9.1
Příklad – výpočet popisných statistik .......................................................................... 27
Rozdělení spojité proměnné dle kategorie ....................................................................................... 30
9.2
Analýza způsobilosti procesu ...................................................................................... 32
Úvod.................................................................................................................................................. 32 Ohodnocení normality a prokládání rozdělení ............................................................................... 34 Indexy způsobilosti procesu ............................................................................................................. 37
10
Ověření normality v softwaru STATISTICA.............................................................. 43
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
1
11
Jednovýběrový t test..................................................................................................... 50
12
Připojení do databází pomocí STATISTICA Query................................................... 51 Práce v rozhraní STATISTICA Query ............................................................................................ 52
13
Úprava načtených dat.................................................................................................. 54 Proměnné a případy ......................................................................................................................... 54 Transformace dat ............................................................................................................................. 55 Použití filtru...................................................................................................................................... 56
14
Další grafické možnosti softwaru STATISTICA........................................................ 57 Styly grafů ........................................................................................................................................ 59 Přidání stylů pro grafické objekty.................................................................................................... 61 Automatické nastavení vzhledu grafu ............................................................................................. 62
15
Automatizace rutinních analýz ................................................................................... 64
16
Vlastní menu v STATISTICA ..................................................................................... 65
17
Závěr ............................................................................................................................ 69
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
2
1 Úvod Cílem manuálu je seznámení se základními možnostmi ovládání programu STATISTICA a rychle se zorientovat.
2 Spuštění programu STATISTICA Při prvním spuštění nám dá program vybrat mezi 2 typy menu:
Po potvrzení OK Klasické nabídky se obrazovce se objeví rychlá navigace, kterou zavřeme a
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
3
máme zde okno aplikace STATISTICA:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
4
panely nástrojů s tlačítky
základní nabídka
panel analýz
stavový řádek
pracovní plocha s dokumentem
-
základní nabídka - slouží k ovládání systému, zpřístupňuje všechny nástroje programu
-
panely nástrojů s tlačítky - jednodušší přístup k různým příkazům
-
panel analýz - zde minimalizována okna všech spuštěných analýz, mezi kterými se lze přepínat
-
stavový řádek - podává zkrácenou nápovědu a základní informace o aktivním dokumentu. Můžeme odtud např. ovládat filtry či váhy.
Software STATISTICA umožňuje práci v zobrazení Ribbon bar, přepnutí do klasického zobrazení provedete přes záložku Možnosti v pravém horním rohu, nebo přes záložku Zobrazit.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
5
3 Načtení souboru Data pro vlastní analýzu můžeme získat několika způsoby: -
importem již uložených souborů různých formátů
-
připojením k databázi – pomocí SQL dotazů lze pracovat s daty uloženými například v databázi Oracle, MS SQL Server, Sybase atd.
-
otevřením tabulky Microsoft Excel v programu STATISTICA bez importu
-
vložením dat do nové tabulky v programu STATISTICA
-
sběrem dat on-line - pokud je systém napojen na měřicí zařízení, naměřené hodnoty se dají ihned zpracovávat.
Příklad – import dat z Excelu V menu Soubor a možnost Otevřít vybereme soubor ScapI08.xlsx
Při otevírání „Excelovských“ tabulek mámě několik možností, jak k tabulkám přistupovat:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
6
Importovat vybraný list do tabulky – nejčastější možnost – pokud máme více listů, tak upřesníme list, který chceme importovat – vybereme Scrap I08 (proměnné)
Data jsou načtena do tabulky softwaru STATISTICA (* .sta) stejně jako v případě načítání dat z textových souborů. Pokud mám v původním souboru textové popisky, tak mě STATISTICA upozorní, zaškrtneme a pokračujeme:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
7
4 Vytvoření základní výpočtů – popisné statistiky Přes záložku Statistiky -> Základní statistiky/tabulky -> Popisné statistiky
Vybereme proměnné (pro více proměnných držím při pokliknutí Ctrl) – vybrali jsme proměnné, které reprezentují počet vad na součástce (Scrap).
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
8
Máme zde tabulku základních statistických charakteristik.
V souboru jsou naměřené chyby na konkrétních vyrobených dílech (sklíčka), díly vyrobil jeden stroj.
KW1 reprezentuje období před vyčištěním stroje
období KW2 reprezentuje počet chyb na dílu, který byl vyroben po vyčištění stroje. Průměrný počet chyb na součástce se po vyčištění stroje snížil z 32 na 25. Počet chyb také o něco méně kolísá, což reprezentuje menší směrodatná odchylka 9,1 oproti 10,78.
Vyvoláme dole panel analýz a přepneme na kartu detaily:
Kde si lze v případě potřeby zaškrtnou další popisné statistiky:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
9
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
10
5 Vytvoření grafu 5.1 Histogram Přes Grafy -> 2D grafy -> Histogramy
Vybereme proměnné pro obě období:
5.2
Krabicový graf (Box Plot)
Tímto grafem si vizuálně porovnáme oba naše vzorky, tedy před vyčištěním a po vyčištění stroje: Přes Grafy -> 2D grafy -> Krabicové grafy
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
11
Zvolíme Vícenásobný a opět vybereme proměnnou:
Z grafu je vidět, že v období po vyčištění stroje (KW2) došlo k celkovému poklesu variability souboru (krabička je níž):
V souboru je jedno odlehlé pozorování, které bylo naměřené v období KW1, je třeba zkontrolovat, jestli nejde o chybnou hodnotu operátora.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
12
5.3
Regulační diagram
Pojďme se na proměnnou KW1 Scap (I08) podívat na regulačním diagramu, přes Statistiky -> Průmyslová statistika -> Diagramy pro řízení kvality
Vybereme diagram individuálních hodnot:
A získáme následující diagram:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
13
Vidíme, že hodnota 60 nepřekročila meze diagramu, stejný postupem zvolíme diagram, který sleduje meze průměrných hodnot:
6 Uložení práce 6.1
Uložení celé rozdělané práce
Výstupy v souboru lze ukládat několika způsoby, začneme projektem, který je dobré použít, pokud chci uložit kompletní rozdělanou práci v softwaru STATISTICA: Přes Soubor -> Uložit projekt jako…
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
14
Uložíme soubor, ve kterém je všechno, co máme právě v softwaru otevřené. Tento soubor následně otevřeme přes Soubor -> Otevřít nebo dvojklik přímo na soubor.
6.2
Uložení tabulky v softwaru
– ve stromu sešitu STATISTICA klikneme přes pravé tlačítko na tabulku Popisných statistik
a zvolíme Ulož položku(-y) jako…
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
15
A tabulku si uložíme třeba ve formátu Excelu.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
16
6.3
Uložení grafu
V příslušném grafu kliknu pravím tlačítkem
A opět vyberu formát pro uložení:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
17
6.4
Přidání výstupů do Microsoft Word
Nejprve označíme (při stisknutém Ctrl) výstupy, které chceme přidat do MS Word a klikneme na Přidat do protokolu:
A po té klikneme na Přidat do MS Word:
Celý proces se dá automatizovat viz kapitola 8.1.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
18
7 Další možnosti načtení souborů Při načítání z souboru typu Excel jsme si zatím ukázali pouze jednu možnost, nyní se podíváme na možnost Importovat všechny listy do sešitu
Importovat všechny listy do sešitu Při této možnosti můžeme podrobně nastavit pouze následující parametry (nikoli už velikost oblasti dat každého listu – tu STATISTICA určí automaticky):
V případě, že listy obsahují i textové proměnné, je uživatel upozorněn na výskyt sloupce s textovými popisky:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
19
Tuto informaci je třeba vzít na vědomí (tlačítko Importovat jako textové popisky) a to buď u každé proměnné obsahující textové hodnoty zvlášť, anebo zaškrtnutím možnosti Provést pro všechny číselné proměnné, pokud jsou data textová odsouhlasíme možné textové popisky u všech proměnných. Možnost načíst všechny listy do sešitu načte ty listy excelovské tabulky, ve kterých jsou uložena nějaká data, do sešitu STATISTICA (.stw), aktivní list Excelu je vybrán jako aktivní vstup i ve STATISTICA, tj. případné grafy a výpočty probíhají nad tímto listem, pokud uživatel nezvolí jinou tabulku jako aktivní vstup – aktuální aktivní vstup je odlišen červeně orámovanou ikonou:
Otevřít jako pracovní sešit Excelu Pokud budeme chtít využívat funkce dostupné v Excelu a další nástroje aplikace Excel, je vhodné otevřít soubor jako pracovní sešit Excelu. V horní části menu je přístup k menu aplikace STATISTICA a v případě novější verze aplikace Excel je pod ní zobrazen i pás
karet s nástroji Excelu. U starších verzí Excelu tento pás zobrazen není, nicméně do buněk sešitu lze vkládat vzorce využívající funkce Excelu v obou případech. Oblast dat, se kterou chceme pracovat, definujeme při prvním spuštění grafu nebo analýzy. Je dobré nadefinovat maximální velikost oblasti, se kterou chceme pracovat, neboť je následně použita jako default i pro další spouštěné grafy a analýzy ve STATISTICA.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
20
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
21
7.1
Otevření textového souboru
V menu Soubor zvolíme možnost Otevřít… a pomocí procházení úložišť osobního počítače nadefinujeme cestu k textovému souboru (např. s koncovkou .txt nebo .csv). Potvrdíme OK a zobrazí se následující dialog:
Ten necháme beze změny a opět potvrdíme OK. Definici, jak přesně chceme k obsahu textového souboru přistupovat, upřesníme prostřednictvím následujícího dialogu:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
22
V horní části dialogu nastavíme oddělovač proměnných (defaultní nastavení je tabelátor nebo středník, podle typu dokumentu). Máme možnost nadefinovat i vlastní oddělovač – volba Jiný umožňuje vepsat vlastní typ oddělovače. Pokud je oddělovač tvořen celou skupinou znaků, je nutné zaškrtnout možnost Užít vše. V dolním okně dialogu se automaticky zobrazuje náhled souboru tak, jak bude vypadat po načtení do STATISTICA, jednotlivé proměnné (sloupce) jsou odděleny svislými čarami. Pokud je textový soubor tvořen automaticky – jde například o výstup z nějakého programu – a na úvod dokumentu se zobrazuje hlavička identifikačních údajů a potom teprve samostatná data, máme možnost nastavit přeskočení prvních n řádků souboru (volba Počet případů k přeskočení). Dále je důležité si uvědomit, zda proměnné mají nějaký název – většinou chceme načíst tyto názvy jako záhlaví tabulky, proto i defaultní volba pro načtení souboru je Vzít jména proměnných z prvního řádku. Zkontrolujeme také oddělovač desetinných míst, STATISTICA používá nastavení oddělovače pro Windows, tj. pokud otevíraný soubor vznikl například ve skriptu pro Linux systém, může být kódování desetinných míst tohoto souboru odlišné.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
23
V tabulce náhledu můžeme myší vybrat konkrétní sloupec – proměnnou. Tím aktivujeme střední část menu Možnosti proměnné. Nyní lze nastavit jméno proměnné, nastavit datový typ anebo zvolený sloupec vyloučit z načítání. Po nastavení všech parametrů potvrdíme OK. Výsledkem je otevření tabulky formátu .sta ve STATISTICA:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
24
8 Správce výstupů 8.1
Výstup do Microsoft Word / do protokolu STATISTICA
V programu STATISTICA můžeme nastavit, v jakém formátu se budou ukládat výstupy. Ze základní nabídky vybereme Nástroje Možnosti…. Otevře se dialog Možnosti, ve kterém přejdeme na záložku Správce výstupů:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
25
Můžeme zvolit některé z těchto možností: -
individuální okna - každá tabulka či graf se zobrazuje v samostatném oknu. Jednotlivá okna pak lze uložit ve formátu programu STATISTICA nebo v jiném formátu podle toho, zda se jedná o tabulku nebo graf. Pomocí nabídky Soubor – Uložit můžeme vybrat formáty *.xls, *.txt, *.htm, *.pdf, *.wmf, *.jpg, *.gif atd.
-
pracovní sešit - standardní formát výstupů v programu STATISTICA s příponou *.stw. Právě v tomto formátu máme nyní výstupy z výše uvedených příkladů (pokud jsme neměnili výchozí nastavení). Okno pracovního sešitu je rozděleno na dvě části. Levá část zobrazuje stromovou strukturu (obdoba Průzkumníka). Pravá část je editorem vybraných dokumentů.
-
protokol - má podobný vzhled jako pracovní sešit. V jeho levé části se zobrazuje seznam objektů protokolu. Pravá část je obdobou textového editoru. Na rozdíl od pracovního sešitu lze do protokolu mezi jednotlivé výstupy vepisovat text (viz následující ilustrační obrázek).
-
výstup do Microsoft Word – výstupy se vkládají do dokumentu Microsoft Word, a mohou tak být jednoduše sdíleny s dalšími spolupracovníky.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
26
9 Další příklady analýzy dat 9.1
Příklad – výpočet popisných statistik
Na otevřené tabulce Tělesné míry.xls si ukážeme výpočet popisných statistik pro proměnné váha a výška u mužů. Přejdeme tedy na list muži a ze základní nabídky vybereme Statistiky – Základní statistiky/tabulky.
Poznámka: Pokud bychom pracovali se vstupními daty v tabulce formátu *.sta, dostali bychom výše uvedenou nabídku přímo ze základní nabídky Statistiky – Základní statistiky/tabulky.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
27
Nechme vybrané Popisné statistiky a kliknutím na OK přejděme do okna vlastní analýzy:
Dialog obsahuje řadu záložek s nástroji pro výpočet různých popisných statistik a pro tvorbu grafů. Pokud se však nechceme zabývat podrobným nastavením, stačí kliknout na tlačítko Výpočet a program STATISTICA nás provede kroky potřebnými k výpočtu základních popisných statistik. Nejprve vybereme proměnné váha a výška (stačí přes tyto dvě proměnné přejet myší při stisknutém levém tlačítku):
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
28
Poznámka: STATISTICA také podporuje konvenci výběru pomocí kláves CTRL a SHIFT. Kliknutím na OK dostaneme tabulku s výsledky:
Výsledky můžeme snadno doplnit také o grafické výstupy. Obnovíme dialog Popisných statistik, který se minimalizoval na panel analýz a klikneme na tlačítko Souhrn:Grafy. Výsledek je na následujícím obrázku:
Rychle tak získáme pohled na data pomocí histogramu, normálního pravděpodobnostního grafu a krabicového grafu. Širokou nabídku dalších popisných statistik a grafických pohledů na data nalezneme na jednotlivých záložkách dialogu Popisných statistik. Pro další příklad si výstup s výsledky dosavadních analýz nechme otevřený. Ostatní okna na ploše v programu STATISTICA můžeme zavřít.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
29
Rozdělení spojité proměnné dle kategorie Na kartě Detailní výsledky v dialogu Popisné statistiky: Statistiky —> Základní statistiky/tabulky —> Popisné statistiky –> anal. Skupiny:
Kde vybereme proměnnou stupeň kouření (kouř) a charakteristiky polohy a variability tak vypočteme zvlášť pro jednotlivé kategorie.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
30
Kompletní řešené příklady na char. variability a polohy, které ukážou další možnosti softwaru STATISTICA v této oblasti lze najít v našich newsletterech: Newsletter 20/08/2012 Newsletter 17/09/2012 Newsletter 15/10/2012 http://www.statsoft.cz/o-firme/archiv-newsletteru/
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
31
9.2
Analýza způsobilosti procesu
Úvod Otevřeme si datový soubor Pistons CZ.sta. Analýza způsobilosti procesu a výpočet indexů způsobilosti procesu lze provádět v modulu Analýza procesů, který je dostupný z nabídky Statistika – Průmyslová statistika & Six Sigma. Po otevření tohoto modulu se zobrazí úvodní panel.
Předpokládejme, že proces je statisticky zvládnutý (což jsme ověřili pomocí regulačních diagramů). Nyní však vyvstává otázka, do jaké míry náš proces v dlouhodobém měřítku odpovídá technickým specifikacím nebo obchodním cílům. Pokud např. vyrábíme pístní kroužky, chtěli bychom znát, kolik z nich má rozměr spadající dovnitř specifikačních mezí. Obecněji řečeno, otázkou je, jak způsobilý je proces (nebo dodavatel) produkovat výrobky vyhovující specifikacím. Odpovědět na tyto otázky je možné s využitím statistických technik. Vrátíme-li se k našemu příkladu s pístními kroužky, ze vzorku určité velikosti můžeme odhadnout směrodatnou odchylku procesu, tj. směrodatnou odchylku průměru kroužků. Pokud je rozdělení hodnot normální, je možné poměrně snadno odvodit podíl kroužků, které budou specifikačním mezím vyhovovat. Podívejme se nyní na některé nejdůležitější indexy, které se běžně používají k popisu způsobilosti procesu. Rozsah procesu Nejdříve ovšem přijměme úmluvu, podle níž se meze stanovují ve vzdálenosti ± 3 od nominální hodnoty ( je sm. odchylka procesu). Tyto meze by měly být shodné s těmi, které jsme předtím použili v regulačním diagramu, když jsme se snažili proces přivést do statisticky zvládnutého stavu. Tyto meze označují rozsah procesu. Pokud použijeme meze ve vzdálenosti ± 3Sigma(± 3,), pak přibližně 99% všech pístních kroužků padne do těchto mezí. Specifikační meze, LSL, USL Bývá obvyklé, že technické požadavky stanovují také rozsah přijatelných hodnot. V našem příkladě je řekněme akceptovatelné, pokud průměr pístního kroužku bude v rozmezí 74.0 ± .02 milimetrů. Dolní specifikační mez, LSL, je tedy 74-0,02=73,98; horní specifikační mez, USL, je 74+0,02=74,02. Rozdíl mezi USL a LSL se nazývá specifikační rozsah. Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
32
Potenciální způsobilost (Cp) Nejjednodušší a nejpřímější indikátor způsobilosti procesu. Je definován jako poměr specifikačního rozsahu a rozsahu procesu. Tento index se dá vyjádřit jako: Cp
USL LSL 6
Volně řečeno, tento index vyjadřuje, „jak velká část“ křivky normálního rozdělení se vejde do specifikačních mezí (za předpokladu, že je proces vycentrován). Poměr způsobilosti (Cr) Tento index je vlastně ekvivalentní indexu Cp; je roven převrácené hodnotě, tj. Cr=1/Cp. Tento index se dá tedy slovně popsat jako podíl specifikačního rozsahu, který je využíván vlastním procesem. Dolní/horní potenciální způsobilost (Cpl, Cpu) Hlavní nevýhodou indexu Cp (nebo Cr) je to, že poskytuje nesprávné informace, pokud proces není vycentrován kolem nominální hodnoty (TS). „Excentricitu“ procesu je možné vyjádřit pomocí průměru procesu. Nejdříve je možné vypočítat dolní a horní potenciální způsobilost procesu: C pl
LSL USL a C pu . 3 3
Je zřejmé, že pokud obě hodnoty nejsou shodné, proces není vycentrován. Korekce (k) Je možné upravit index Cp tak, aby reflektoval fakt, že proces není vycentrován. Můžeme vypočítat hodnotu korekce k:
k
TS 1 (USL LSL ) 2
Tato korekce vyjadřuje excentricitu (nominální hodnota mínus průměr) vztaženou ke specifikačnímu rozsahu. Index Cpk Úpravou indexu Cp pomocí korekce k můžeme vypočítat index Cpk, který počítá s tím, že proces není vycentrován. C pk (1 k )C p Pokud je proces vycentrován, pak je k rovno nule a Cpk je shodné s Cp. Pokud se ovšem proces vzdálí od nominální hodnoty, Cpk je menší než Cp.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
33
Potenciální způsobilost II (Cpm) Jedna z nedávných úprav indexu Cp je zaměřena na odstranění vlivu (náhodného) nevycentrování. Můžeme vypočítat alternativní hodnotu směrodatné odchylky ( 2) z n jednotlivých pozorování xi ve vzorku jako: 2
n
2
(x i 1
i
TS )
n 1 Poté můžeme tento alternativní odhad směrodatné odchylky použít k výpočtu indexu Cp stejně jako předtím; tento nový index ovšem budeme označovat jako Cpm. Výkonnost procesu vs. způsobilost procesu Monitorujeme-li proces prostřednictvím regulačního diagramu, bývá často užitečné vypočítat také indexy způsobilosti. V případě, že data sestávají z několika vzorků (jako je tomu u regulačních diagramů), je možné vypočítat dva různé odhady variability dat. Jedním z nich je klasická směrodatná odchylka všech pozorování – v tomto případě budeme ignorovat fakt, že data pocházejí z více vzorků. Druhou možností je odhadovat inherentní variabilitu procesu z variability uvnitř jednotlivých vzorků. Pokud použijeme k výpočtu standardních indexů celkovou variabilitu, říká se výsledným indexům indexy výkonnosti (protože popisují vlastní výkon procesu). Indexy vypočtené pomocí inherentní variability (směrodatné odchylky uvnitř vzorků) se obvykle nazývají indexy způsobilosti (protože popisují inherentní způsobilost procesu). Pro datové soubory, které obsahují více vzorků, vypočte STATISTICA indexy způsobilosti (Cp, Cpk, …) i výkonnosti (Pp, Ppk, …). Toleranční meze Než se na počátku 80. let rozšířilo používání indexů způsobilosti, byl pro odhad vlastností výrobního procesu obvyklou metodou výpočet a zkoumání tolerančních mezí. Postup byl následující. Předpokládejme, že sledovaný znak jakosti je v celé populaci výrobků normálně rozdělený. Můžeme provést intervalový odhad, který nám s určitou spolehlivostí zajistí, že určitá část populace bude ležet v odhadnutém intervalu. Jinými slovy, pokud máme dáno: (1) velikost vzorku (n), (2) průměr procesu, (3) směrodatnou odchylku procesu (sigma), (4) hladinu spolehlivosti a (5) procento populace, které chceme do intervalu zahrnout, (6) můžeme vypočítat toleranční meze, které vyhoví všem parametrům. Modul Analýza procesů poskytuje uživateli možnosti pro stanovení těchto parametrů a pro výpočet tolerančních mezí. Najdete zde i možnosti pro výpočet neparametrických tolerančních mezí, které nejsou založeny na předpokladu normality. Ohodnocení normality a prokládání rozdělení
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
34
Představme si, že vyrábíme pístní kroužky. Specifikace říkají, že jejich průměr by měl být 74.0 +- 0.05 mm. Z procesu jsme odebrali 25 vzorků po 5 pozorováních (hodnoty jsou uloženy v souboru Pistons CZ.sta). Chceme zjistit, jak způsobilý náš proces je. Protože standardní indexy způsobilosti jsou založeny na předpokladu normality, měli bychom ověřit, zda data opravdu mají normální rozdělení. Poznamenejme ovšem, že data je možné proložit i dalšími spojitými rozděleními, včetně beta, exponenciálního, rozdělení extrémních hodnot, gama, log-normálního, Rayleighova, či Weibullova a výpočty indexů lze založit na směrodatné odchylce procesu odhadnuté z těchto distribucí. Máme možnost odhadnout parametry všech rozdělení a porovnat, jak dobře odpovídají datům. Např. prostřednictvím tlačítka Otevři data na úvodním panelu modulu Analýza procesů otevřeme soubor Pistons CZ.sta. Zvolíme možnost Analýza způsobilosti & toleranční intervaly, zdrojová data a klikneme na OK.
(Všimněte si, že na obrázku výše je zvolena záložka Podskupiny).
Klikněte na tlačítko Proměnné a zvolte proměnnou Velikost v poli Proměnné pro analýzu a Vzorek jako grupovací proměnnou. Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
35
Klikněte na OK. Všechna ostatní nastavení nechte na jejich implicitních hodnotách a přepněte se na záložku Rozdělení.
Klikněte na tlačítko Všechna rozdělení (výpočet parametrů a K-S d).
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
36
Tato tabulka obsahuje odhady parametrů pro různá pravděpodobnostní rozdělení proložená daty. Rozdělení jsou seřazena podle kvality proložení (od nejlepšího k nejhoršímu). Najdete zde i výsledky Kolmogorov-Smirnovova testu kvality proložení. Nulovou hypotézu tohoto testu představuje fakt, že data odpovídají rozdělení. Pokud je test významný (indikováno malými hodnotami úrovně p), je nepravděpodobné, že dané rozdělení odpovídá datům. Označení „n.s.“ je zkratka pro „not significant“, tj. „nevýznamné“, a tedy indikuje dobré proložení. Poznamenejme, že úrovně p jsou založeny na tabelovaných hodnotách. Jsou proto platné pouze v případě, že odhady parametrů jsou známy předem (což typicky nejsou), a měly by být proto interpretovány opatrně. Jak je vidět, proložení dat normálním rozdělením se jeví jako nejlepší. Můžeme tedy aplikovat standardní indexy způsobilosti procesu. Někdy ovšem datům lépe odpovídají jiná rozdělení. V těch případech STATISTICA odhadne sigma procesu z tohoto rozdělení. Pak se ale musí dát pozor při interpretaci těch indexů, které zahrnují korekci na excentricitu procesu (protože některá z těchto rozdělení jsou velice šikmá). Indexy způsobilosti procesu Vraťte se do dialogu specifikace analýzy
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
37
a klikněte na tlačítko OK. Objeví se dialogové okno Zadání/úpravy specifikačních mezí. Abychom mohli indexy způsobilosti počítat, j74e bezpodmínečně nutné nejprve zadat hodnoty technických specifikací. Do pole Nominální vložte 74 a do pole Delta hodnotu 0,05.
Klikněte na tlačítko OK a stiskněte Shrnutí.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
38
STATISTICA vytvoří několik tabulek (pro indexy způsobilosti a pro indexy výkonnosti). Nyní se zaměříme jen na indexy způsobilosti:
Tato tabulka obsahuje specifikace a různé indexy způsobilosti. Protože indexy způsobilosti jsou vyšší než 1, proces se zdá být způsobilý při splňování našich požadavků.
Jinými slovy, produkujeme méně než 1% neshodných výrobků.
. Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
39
Ve skutečnosti proces využívá méně než 60% specifikačního rozsahu (74.0 +- 0.05 mm), jak je vidět z hodnoty indexu CR. Využíváme zhruba 58% stanoveného rozsahu tolerance.
Také se zdá, že proces je vycentrován kolem hodnoty 74, protože hodnota indexu Cpk je stále poměrně vysoká (1,66317) a necentrální korekce k je velice blízká nule:
Je možné také provést analýzu očekávaného a pozorovaného počtu naměřených hodnot ležících mimo specifikační meze viz níže:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
40
Na záložce Detaily, normální klikněte na tlačítko Počet mimo specifikace.
Tato tabulka obsahuje údaje o počtu a procentu pozorovaných jednotek ve vzorku, které padnou mimo specifikační meze (LSL, USL). Současně je uveden také počet a procento jednotek, u kterých se očekává, že padnou mimo specifikační meze, podle normálního rozdělení. Pro naše data ze specifikací nevypadlo ani jedno pozorování. Podle normálního rozdělení s daným průměrem procesu a směrodatnou odchylkou bychom mohli očekávat, že pouze 0,0008% nebude odpovídat našim specifikacím.
Souhrn analýzy způsobilosti je také možné nechat zobrazit graficky v podobě histogramu. Klikněte na tlačítko Souhrnný histogram.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
41
(Poznámka: Tento histogram byl vytvořen pro deset kategorií. Na záložce Možnosti zrušte označení políčka Pěkné intervaly a zvolte počet kategorií.) Výše uvedený histogram zobrazuje rozložení naměřených hodnot společně s proloženou křivkou normálního rozdělení (pro očekávané hodnoty). Současně jsou v histogramu vyznačeny specifikační meze (LSL a USL) a interval ±3 sigma. Titulek grafu obsahuje hlavní indexy způsobilosti procesu. Než byly do praxe uvedeny indexy způsobilosti, používaly se k ohodnocení charakteru výrobního procesu toleranční intervaly. Při dané velikosti vzorku (n), průměru procesu, směrodatné odchylce procesu (sigma), hladině spolehlivosti a podílu populace, který má spadat do tolerančního intervalu, je možné vypočítat toleranční meze. Stačí se přepnou na záložku Toleranční meze, určit výše zmíněné parametry (v našem případě změníme např. údaj v poli Zahrnuto procent na 90%) a kliknout na tlačítko Toleranční meze, normální rozdělení.
Kdybychom měli stručně shrnout údaje v tabulce, mohli bychom říci asi toto: jsme si na 95% jistí, že 90% populace bude ležet mezi hodnotami 73,9826 a 74,0198. Tyto hodnoty jsou popsány jako Dolní a Horní toleranční mez.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
42
10 Ověření normality v softwaru STATISTICA Jedním ze základních předpokladů mnoha statistických analýz je normalita. Pokud některý test či metoda normální rozdělení předpokládá, je nutné to nejprve ověřit. K ověření lze použít mj. i statistické testy. Než však k testování normality přistoupíme, je dobré se zamyslet, zda se vůbec dá očekávat, že data jsou výběrem z normálního rozdělení. Pokud např. sledujeme platy obyvatelstva, víme, že nejsou omezené shora, zato jsou zdola omezené minimální mzdou, a rozhodně nejsou symetricky rozdělené kolem průměru. Takže prostou úvahou vyloučíme normalitu, aniž by bylo třeba provádět jakékoliv testy. Naopak u mnoha veličin, jako třeba byla v předchozím případě výška, je už z předchozích zkušeností známo, že se normálním rozdělením řídí. Potom testování také není nezbytné. K ověřování normality systém STATISTICA poskytuje následující nástroje: 1. Histogram – vytvoříme histogram sledované proměnné a vizuálně ho porovnáme s normálním proložením:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
43
Doplňkově si lze zaškrtnou Shapiro-Wilkův test pro otestování normality, v tomto konkrétním případě jsme nezamítli nulovou hypotézu o normalitě (P (0,2>0,05):
Dvojklikem do grafu vyvoláme dialog Možnosti grafu a graf si upravíme:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
44
Nevyváženy počet dat v jednotlivých intervalech nemusí nutně znamenat významné odchylky od normality, a proto je vhodnější použít kvantilové grafy: 2. Normální pravděpodobnostní graf – jde o bodový graf, který porovnává kvantily spočtené z dat (osa x) s kvantily standardizovaného normálního rozdělení (osa y). Pokud veličina má normální rozdělení, leží body grafu na přímce. Tyto grafy lze vytvořit z nabídky Statistika - Základní statistiky/tabulky - Popisné statistiky Pravděpodobnostní & bodové grafy. Kromě Normálního pravděpodobnostního grafu STATISTICA nabízí ještě Polo-normální pravděpodobnostní graf (obsahuje jen kladné hodnoty normálního rozdělení) a Normální pravděpodobnostní graf s odstraněným trendem (odstraněn lineární trend).
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
45
Nebo přes záložku Grafy:
Normální pravděpodobnostní graf obsahuje možnost zaškrtnout také Shapiro-Wilkův test:
Výsledný graf se statistikou SW testu:
Zde nezamítáme nulovou hypotézu o normalitě P (0,69) > 0,05. Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
46
3. Testy Kromě vizuálního ohodnocení jsou k dispozici také testy, které přímo s určitou pravděpodobností otestují, zda jsou data výběrem z normálního rozdělení, či nikoli. STATISTICA nabízí testy, např. Shapirův –Wilksův, Kolmogorovův – Smirnovův a Lillieforsův. Přes Statistiky -> Základní statistiky a tabulky -> Popisné statistiky -> karta Normalita:
Jako nejjednodušší se doporučuje používat test Shapirův – Wilksův. Kolmogorovův – Smirnovův test se nedá použít přímo, protože předpokládá, že ověřujeme shodu našich dat s rozdělením, u kterého známe střední hodnotu a rozptyl. Ty se však většinou odhadují z dat samotných. Pro tento případ lze použít Lillieforsův test, který je modifikací Kolmogorovova – Smirnovova testu.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
47
Klávesa F1 v políčku pro zaškrtnutí příslušného testu vyvolá nápovědu k tématu a doporučení k jednotlivým testů:
Shapiro-Wilkův test je zde upraven i pro relativně velké vzorky. Po zaškrtnutí testu mám na výběr dvě možnosti reprezentace výsledku testu:
V modulu Statistika - Prokládání rozdělení se počítá test chí-kvadrát. Oboustranný či jednostranný T-test pro dva výběry pouze na základě statistik (průměry, směrodatné odchylky a rozsahy výběrů) je dostupný přes volbu Základní statistiky a tabulky – Testy rozdílů: r, %, průměry. Následující příklad slouží k ověření normality vybraných veličin: Příklad - Normalita a důležitost náhodného výběru Úkol: Vytvoříme novou tabulku s proměnnou, která bude mít normální rozdělení. Ověříme její vlastnosti a otestujeme, zda jde skutečně o normální rozdělení. Vytvoříme náhodný a nenáhodný výběr a porovnáme výsledky. Poté v souboru SpotřebaAut.sta ověříme normalitu u proměnných Zrychlení a Hmotnost. 1. Vytvoříme novou tabulku o rozměrech 1s krát 1000 ř. Zvolíme Soubor - Nový - Tabulka. Počet proměnných 1 a Počet případů 1000. 2. Poklepáním na záhlaví se otevře dialog Proměnná 1, kam zadáme informace o proměnné: nazvěme ji Normální a do pole Dlouhé jméno vepíšeme funkci, která proměnnou vyplní. (Viz př. 2, bod 3.) STATISTICA disponuje funkcí RndNormal s parametrem x, který znamená směrodatnou odchylku. Pokud je zaškrtnut Průvodce funkcemi, po napsání = a počátečního písmene funkce program nabízí různé možnosti. Můžeme poklepat na zvolenou funkci a ta se sama vepíše do pole. Poté si můžeme zvolit směrodatnou odchylku a po kliknutí na OK se vygeneruje 1000 náhodných čísel z normálního rozdělení o střední hodnotě 0 a zadané směrodatné odchylce. Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
48
3. Nyní můžeme provést příslušné testy: Spustíme Základní statistiky a tabulky - Tabulky četností. Nejprve se podíváme na Histogramy na záložce Detaily, kde zadáme, že chceme Přesný počet intervalů, a to 10. Vidíme, že rozdělení v histogramu odpovídá očekávanému normálnímu. Na záložce Normalita zadáme, že chceme Shapirův-Wilksův W test. Ve výsledné tabulce máme vysokou hodnotu p, takže nemůžeme zamítnout, že by data nepocházela z normálního rozdělení. Na záložce Popisné zvolme Normální pravděpodobnostní grafy. Na něm se body vyskytují na přímce. 4. Na záložce Detaily dialogu Základní statistiky a tabulky - Popisné statistiky kromě nabídnutých možností zaškrtněme ještě Šikmost a Špičatost. a volme Výpočet: Popisné statistiky. V tabulce vidíme, že rozdělení je symetrické (šikmost je přibližně 0) a normálně špičaté (špičatost také přibližně 0). 5. Soubor vygenerovaných náhodných čísel z normálního rozdělení budeme považovat za celou populaci. Známe její průměr a směrodatnou odchylku. Nyní vytvoříme podsoubor čítající přibližně 50 hodnot z této populace. Volíme Data - Náhodné vzorkování. V záložce Možnosti vybereme Výpočet pomocí přibližného počtu. Na kartě Jednoduché vzorkování zvolíme 50 jako Přibližný počet případů. Tím se vytvoří nová tabulka s výběrem. Pokud porovnáme popisné statistiky u populace a výběru, shledáváme, že náš výběr slouží jako dobrý odhad pro celou populaci. 6. Nyní původní data setřídíme podle velikosti. Volíme Data - Setřídit. Tím se data po OK setřídí. Pomocí funkce Data – Podmnožina vytvoříme filtr, který vybere prvních 50 případů (klikneme na Případy, povolíme filtr a v části Zahrnout zadáme čísla případů 150). Tím jsme provedli nenáhodný výběr z dat. Pokud nyní porovnáme popisné statistiky u výběru i populace, vidíme, že by naše závěry byly silně zkreslené. Při zkoumání normality výběru se totiž ukáže, že výběr není výběrem z normálního rozdělení. 7. Otevřeme soubor SpotřebaAut.sta. 8. Spustíme Statistika - Prokládání rozdělení. Zvolíme Normální. Nastavíme Proměnnou Zrychlení. Pak už jen dáme Graf pozorovaného a normálního rozdělení. Na histogramu vidíme shodu s normálním rozdělením, stejně tak chí-kvadrát test ji nezamítá. Ještě by nás zajímal pravděpodobnostní graf. Ten je např. v modulu Základní statistiky a tabulky – Tabulky četností - Popisné. I na něm je vidět jasná shoda. 9. V případě Hmotnosti vidíme, že histogram neodpovídá normálnímu rozdělení. chí-kvadrát test ji také zamítá. Podíváme-li se na pravděpodobnostní graf, vidíme esovité zakřivení, stejně tak šikmost (0,53) naznačuje pravostranné zešikmení. Tato data nemůžeme považovat za výběr z normálního rozdělení.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
49
11 Jednovýběrový t test Přes Statistiky -> Základní statistiky/tabulky -> t-test, samost. vzorek se pak dostaneme k jednovýběrovému t-testu, kde definujeme referenční konstantu a klikneme na Výpočet:
Test je signifikantní, zamítáme nulovou hypotézu: H0: µ = µ0 = 100m Skutečná průměrná naměřená vzdálenost přístroje se s 95% P nachází v intervalu: Test průměrů vůči referenční konstantě (hodnotě) (OrientacniMereni) Int. spolehl. - -95,000% Int. spolehl. - +95,000% 100,0241 vzdalenost 100,0005 Je rozdíl také prakticky významný? Má přístroj sys. chybu? Kompletní řešený příklad na tento test lze najít v našem newsletteru z 08/01/2013 StatSoft ACADEMY: http://www.statsoft.cz/file1/PDF/newsletter/2013_01_08_StatSoft_Test.pdf
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
50
12 Připojení do databází pomocí STATISTICA Query STATISTICA umožňuje přímé připojení do všech standardních databází přes konvence OLE DB a ODBC. Připojení probíhá v několika fázích: Přes Soubor - Získat externí data - Vytvořit dotaz se dostaneme do okna rozhraní STATISTICA Query: Zde tlačítkem Nové zvolíme možnost definovat nové připojení. V okně Vlastnosti Data Link vybereme vhodnou možnost z dostupných ovladačů pro připojovanou databázi: V dalším kroku vybereme server, u některých
typů ovladačů, resp. databází, musíme cestu zadat ručně (např. Access Jet.OLEDB.4.0). Dále zvolíme typ zabezpečení pro přístup do databáze a v rolovacím menu vybereme konkrétní databázi na serveru, který jsme definovali předchozím kroku. Vhodné je také otestovat připojení a v dalším kroku zvolíme název pro nové připojení, máme možnost zobrazit náhled připojovacího řetězce.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
51
Práce v rozhraní STATISTICA Query V rozhraní STATISTICA Query lze pracovat dvěma způsoby. První způsob využívá grafický režim a umožňuje práci i těm, kteří potřebují z databáze získávat konkrétní data, ale nemají potřebné znalosti dotazovacího jazyka SQL. Grafický režim funguje na principu „Táhni a pusť“. V levé části hlavního okna vidíme jednotlivé tabulky v databázi (na obrázku je to např. ADSTUDY), které lze přetáhnout do hlavního okna v pravé části menu. Kliknutím na jednotlivé názvy polí tabulky v hlavním okně (ID, GENDER…) vybereme, která pole z databáze chceme nahrát a automaticky tak již vytváříme SQL dotaz, který můžeme ve spodní části okna také nechat zobrazit (Příkaz SQL). Tlačítko Náhled dat umožňuje sledovat vybraná data. Spojení tabulek je převzato z databáze, anebo jej lze nadefinovat přímo v prostředí STATISTICA Query, a to přetažením kurzoru z jedné tabulky na druhou (na konkrétním parametru, který slouží jako primární klíč), nebo přes záložku Spojení – Přidat. Možnost přidat spojení vyvoláme také kliknutím pravého tlačítka myši ve volném prostoru hlavního okna. Kliknutí ve spodní části rozhraní STATISTICA Query (viz následující obrázek) vyvoláme možnost přidání doplňkových omezení pro jednotlivé parametry.
Chceme-li upřesnit již vygenerovaný SQL dotaz či napsat nový bez využití grafického módu, přes záložku Zobrazit přepneme grafický režim na skriptovací. Přes záložku Soubor – Uložit jako/Otevřít lze hotové dotazy ukládat a načítat. Samotné spuštění dotazu probíhá přes zelenou ikonu v horní liště, nebo přes klávesu F5.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
52
Defaultní nastavení STATSITICA je načítat data do aktivní tabulky dat, pokud chcete načíst data do nové prázdné tabulky, vyberte tuto možnost v následujícím dialogu:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
53
13 Úprava načtených dat Proměnné a případy Přidání a odebrání proměnných provedeme následujícím způsobem: V záhlaví tabulky klikneme pravým uchem myši a zobrazíme dialog, v němž můžeme vybrat možnost Odebrat proměnné… nebo Přidat proměnné. Při přidávání proměnných se zobrazí dialog, v němž
uživatel specifikuje počet přidávaných proměnných, název proměnné, ze kterou se mají nové proměnné vložit, jméno proměnné (Pokud přidáváme více než jednu proměnnou, bude zadaný název použit u všech těchto proměnných – pro odlišení bude ukončen pořadovým číslem přidávané proměnné. Přejmenování proměnných můžeme nicméně provést následně.), typ hodnot proměnné a způsob zobrazení jejích hodnot. Rozlišujeme čtyři typy hodnot proměnných, a sice: Double Defaultní typ. Využívá se pro numerické hodnoty a umožňuje ukládat 64 bitová reálná čísla s přesností na 15 desetinných míst. Rozsah přibližně od -1,7 * 10 308 do 1,7 * 10 308. Kód chybějících dat je -999999998. Integer Celá čísla v rozmezí -2 147 483 648 a 2 147 483 647. Každé číselné hodnotě lze přiřadit textový popisek. Velikost 4 byty. Byte Celá čísla v rozmezí 0 až 255, nelze vložit desetinná čísla, každé číselné hodnotě lze přiřadit textový popisek. Velikost 1 byte.
Text Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
54
Textové řetězce s neomezenou délkou bez číselné reprezentace. Pro účely numerických výpočtů jsou různým řetězcům přiřazeny ad-hoc různé číselné hodnoty. Kód chybějících dat je prázdný řetězec. Přiřazením vhodného typu můžeme šetřit místo nutné pro uložení datové tabulky v paměti počítače. Do okna dialogu pro přidání proměnných s názvem Dlouhé jméno je možné vkládat matematické, statistické, logické, textové ale i jiné funkce, jejichž vstupem jsou ostatní proměnné tabulky, nicméně vkládání těchto funkcí doporučujeme provádět až po přidání proměnných. Pokud se funkce odkazují na proměnné, které se v tabulce vyskytují až za přidávanými proměnnými, nejsou odkazy pomocí písmene v a čísla sloupce proměnné jednoznačné. Při přidávání případů je potřeba zadat, jen kolik řádků chceme do tabulky přidat a za který řádek se mají vložit:
Transformace dat Pro transformaci dat je ideální nadefinovat novou proměnnou, která bude funkcí proměnných původních. V záhlaví tabulky klikneme dvakrát na název nové proměnné a v dialogu podobném dialogu pro přidávání proměnných klikneme v dolní části na tlačítko Funkcemi.
Zobrazí se Prohlížeč funkcí, kde jsou dostupné všechny funkce, které jsou ve STATISTICA definovány. Můžeme je vybírat v levé části okna prohlížeče podle jejich typu, v pravé části
okna potom vybereme konkrétní funkci a v dolní části okna se zobrazí nápověda k vybrané funkci (popis toho, co funkce dělá a jaké má vstupní parametry). Odkaz na jiné proměnné tabulky se tvoří buď použitím názvu proměnné (pokud název obsahuje mezery, je třeba ho uvádět v uvozovkách) anebo užitím písmena v a čísla sloupce Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
55
proměnné (například v8 odkazuje na proměnnou v osmém sloupci tabulky). Výraz v0 označuje pořadová čísla řádků (případů). Zápis transformace pro novou proměnnou může vypadat například takto:
Potvrdíme volbu tlačítkem OK, STATISTICA zobrazí ještě dialog, kde odsouhlasíme přepočítání hodnot nové proměnné:
Použití filtru Nejpohodlnější je nejspíš použití filtru při samotném volání analýzy nebo tvorbě grafu. V pravé části některého z úvodních dialogů je umístěno tlačítko SELECT CASES. Pomocí něj zobrazíme dialog, v němž je třeba zatrhnout možnost Zapnout filtr. Tím se zpřístupní pole pro zadání podmínek pro zahrnutí nebo vyloučení některých řádků tabulky. Pro názornost uvádíme následující příklad zadání podmínek filtru. Do analýzy budou zahrnuty případy, pro které je splněna podmínka, že hodnota proměnné v pátém sloupci je větší než 1, a vyloučeny budou řádky 1 až 6 a dále ty případy, které sice splňují podmínku V5>1, ale u nichž je hodnota páté proměnné větší než 12.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
56
14 Další grafické možnosti softwaru STATISTICA Kompletní nabídka grafů je k dispozici ze základní nabídky Grafy. Software STATISTICA obecně poskytuje bohaté možnosti, co se týče grafů. Ve verzi STATISTICA 10 a vyšší lze v porovnání se staršími verzemi programu nově upravovat i průhlednost oblastí nebo značek v grafech a tím získat například následující kvalitní výstup pro prezentaci:
Ze zajímavých grafů, kterými STATISTICA disponuje, uveďme ikonové grafy, které slouží pro zobrazení a porovnání jednotlivých případů (řádků tabulky) podle měřených veličin (proměnných, sloupců tabulky),
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
57
dále tzv. bag ploty, které jsou dvourozměrnou variantou krabicových grafů. Umožňují identifikaci odlehlých porozování vzhledem ke dvěma dimenzím současně,
a grafy chybějících hodnot, které uživatele rychle upozorní na ty řádky nebo proměnné, které obsahují větší množství chybějících dat (body vynesené do grafu představují právě chybějící údaje pro proměnnou danou osou x a případ uvedený na ose y):
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
58
Použití grafů je zcela intuitivní, proto se v dalším textu budeme věnovat pouze pokročilé práci s grafickými styly.
Styly grafů V záložce Soubor - Otevřít příklady ve složce Datasets vybereme soubor Adstudy.sta V záložce Grafy - 2D Grafy - Bodové grafy zvolíme MEASURE1 jako proměnnou X a MEASURE2 jako proměnnou Y.
Z grafu je vidět, že obě měření jsou vzájemně nezávislá. Nyní graf přizpůsobíme podle potřeby uživatele, například: Dvojklikem do prázdného okna grafu vyvoláme nabídku Možnosti grafu, kde zvolíme možnost Okno a změníme barvu vnitřního pozadí na světle žlutou a vnějšího pozadí na světle modrou.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
59
Dále v záložce Spojnice - Obecné změníme značku z prázdného modrého kroužku na plný černý čtverec. Nyní máme bodový graf, který odpovídá našim představám, a jehož styl chceme opakovaně využívat i pro další bodové grafy. V levém horním rohu v záložce Grafické styly přes pravé tlačítko myši volíme možnost Uložit jako…
Styl grafu pojmenujeme, název by měl indikovat i typ grafu, protože použití stylu bodového grafu například na histogram může mít nežádoucí výsledek. Zvolíme tedy název Bodový graf Grafika 1.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
60
Při tvorbě dalšího bodového grafu potom v záložce Vzhled – Styl grafu vybereme právě uložený styl.
Pro již vytvořený graf lze také nastavit konkrétní styl, a to výběrem z rolovacího seznamu Grafické styly umístěném v levém horním rohu okna sešitu s grafem. Přidání stylů pro grafické objekty Ve STATISTICA lze ukládat i nastavení objektů, jako jsou šipky, obdélníky, ovály a jiném uživatelem dokreslené automatické tvary, které lze upravit skrze nastavení dostupná v panelu Nástroje grafu. Jednotlivé atributy jsou označeny jako (A), skupiny atributů jako (AA) a skupiny vlastností symbolem (S). V grafu upravme například nadpis – dvojklikem na příslušný nadpis zobrazíme okno pro jeho editaci (zde provedeme změnu barvy, nastavení velikosti a fontu písma, atd.). Vzhled objektu nadpis budeme chtít dále opakovaně využívat. Klikneme na tlačítko Styly… dále klikneme na tlačítko Více… Klikneme myší na tlačítko se třemi tečkami vedle názvu stylu v okně Styly pro nadpis a vybereme možnost Uložit jako…
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
61
Případně volba Uložit jako výchozí způsobí, že námi upravený styl bude použit pro tento objekt u všech nově vytvářených grafů. Pro aplikaci uživatelem definovaného stylu na konkrétní objekt v novém grafu vybereme ze stejné roletky jako výše dříve uložený styl.
Pokročilejší uživatelé mohou definovat a používat grafické styly pro změnu jednotlivých grafických vlastností nebo hierarchicky organizovaných skupin vlastností, a to pomocí dialogu úprav Všechny možnosti.
Automatické nastavení vzhledu grafu V záložce Grafy - 2D Grafy - Histogram vybereme ze souboru Adstudy.sta jako závisle proměnnou MEASURE01 a pro kategorizaci vybereme proměnnou GENDER. Dvojklikem do prostoru grafu vyvoláme dialog Možnosti grafu a v dolní části dialogu zaškrtneme Zaznamenat makro
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
62
Dále provedeme úpravy histogramu podle libosti, to lze provádět buď přímo v dialogu Možnosti grafu anebo poklepáním na objekt grafu, který chceme upravit, což má za následek otevření dialogu Možnosti grafu přímo s volbami pro vybraný objekt, kde lze měnit jeho parametry. Změníme například barvu pozadí na světle žlutou, v kolonce Nadpisy/Text upravíme nadpis grafu, počet kategorií v kolonce Kategorizace upravíme na 8, v kolonce Spojnice - Sloupce upravíme barvu oblasti sloupce, atd. Klikneme na OK v pravém dolním rohu dialogu Možnosti grafu.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
63
Zadáme název pro makro Histogram Styl Vlastní 1 a potvrdíme OK, čímž zaznamenané makro uložíme. Nyní vytvoříme úplně jiný graf typu histogram. Analogické úpravy grafu nyní již není třeba provádět ručně – pro jejich aplikaci otevřeme dříve uložené makro Histogram Styl Vlastní 1 a klávesou F5 makro spustíme. V pracovním sešitě je poté k dispozici graf se vzhledem odpovídajícím vytvořené šabloně.
15 Automatizace rutinních analýz Následující postup ukazuje tvorbu jednoduchého makra pro automatizaci rutinních činností. Software STATISTICA umožňuje vytvářet různé dávkové analýzy pomocí integrovaného jazyka STATISTICA Visual Basic (SVB), který lze využít ke zjednodušení prováděných úloh různé obtížnosti, od jednoduchých maker až po pokročilé projekty. Pomocí jazyka SVB může uživatel přistupovat prakticky ke každému funkčnímu prvku systémů a tedy i využívat vlastní rozšíření systému. Všechny postupně prováděné analýzy lze snadno automaticky zaznamenávat pomocí záznamu makra. Tímto jednoduchým záznamem potom zcela automatizujeme často se opakující analýzy, a to i bez znalosti programování. Postup tvorby záznamu makra je následující: Před vlastním spuštěním záznamu je třeba zvážit, zdali chceme provádět automatizovanou analýzu vždy nad již načtenou aktivní tabulkou STATISTICA, anebo bude načtení aktuálních dat také součástí kódu. V druhém ze zmíněných případů začneme nahrávat nejprve samotné otevírání příslušné tabulky. Dále vybereme menu Nástroje - Makro - Spustit záznam průběhu analýzy (hlavní makro). Nyní provedeme požadovanou posloupnost analýz nebo vytvoříme grafy, které dále upravujeme a podobně. Záznam ukončíme kliknutím na tlačítko Zastavit záznam makra na minipanelu, který se otevřel v okamžiku spuštění nahrávání makra, anebo v menu Nástroje - Makro - Zastavit záznam. V následujícím dialogu si makro pojmenujeme a potvrdíme OK. Nyní máme k dispozici zaznamenaný kód, který můžeme upravit a následně uložit prostřednictvím nabídky Soubor -> Uložit/Uložit jako… Makro spustíme pomocí tlačítka Spustit makro, které je dostupné na hlavním panelu v okamžiku, kdy je aktivní okno s kódem makra, případně můžeme použít klávesu F5.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
64
Všimněme si, že v příkladu zobrazeném na obrázku, je v kódu uložena cesta k souboru Data_vyzkum. Při spuštění makra proto bude vždy načtena aktuální verze tohoto souboru a analýzy se provedou nad aktuálními daty. Pokud bychom makro spustili již nad otevřenou tabulkou (Spreadsheet), v záznamu byl tento kód: Dim S1 as Spreadsheet Set S1 = ActiveDataSet
Makro by pak využívalo (a vyžadovalo) nějakou již otevřenou aktivní tabulku v aplikaci STATISTICA.
16 Vlastní menu v STATISTICA Software STATISTICA je rozsáhlý modulární program, kde jednotlivé moduly nabízejí velkou řadu statistických metod, naši uživatelé obvykle využívají analýzy z různých modulů. Proto si ukážeme možnosti, jak si práci zjednodušit a přizpůsobit si záložky programu podle svých představ. Často využívané analýzy a funkcionality softwaru, stejně jako vlastnoručně vytvořená makra si lze uspořádat do vlastního rozevíracího „meníčka“. Postup tvorby vlastního menu v softwaru je následující: Postup V rozhraní Klasické nabídky klikneme (pravým tlačítkem myši) na volnou část horní lišty.
V dialogu Vlastní v oblasti Kategorie vyhledáme volbu Nová nabídka a z části Příkazy, na principu „táhni a pusť“, přetáhneme funkcionalitu Nová nabídka do horní lišty, tedy do základní nabídky analýz.
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
65
Dialog Vlastní necháme otevřený, pravým tlačítkem myši klikneme na nově vytvořenou záložku a otevřeme roletku:
V roletce vybereme Obrázek a text a otevřeme dialog Vzhled tlačítka.
Záložka může být reprezentována textem, obrázkem anebo kombinací obou. Vybereme Pouze text a v okně Text na tlačítku napíšeme název budoucí roletky: Název může reprezentovat oblast, pro kterou se dané analýzy hodí, anebo, jak jsme si všimli u našich zákazníků, název konkrétního souboru. Nyní máme na liště nové tlačítko, v dialogu Vlastní v části Kategorie si vybereme funkcionality, které chceme do roletky přetáhnout. Funkcionality přetahujeme opět na principu „táhni a pusť“:
Pokračujeme například metodami. V části Statistiky si přetáhneme analýzy a oblasti analýz, které chceme ve své roletce mít:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
66
A nabídka je hotová.
Pokud vybereme v nabídce Obrázek a text, tak si můžeme vybrat z celé řady přednastavených obrázků, tlačítkem Úpravy potom vyvoláme dialog pro úpravu obrázků.
Výsledkem potom může být nová sada záložek, která obsahuje funkcionality, jež uživatel nejčastěji používá na různé typy datových souborů.
Další možnosti Pokud potřebujete přidat jen jednotlivé často používané funkcionality, pak nemusíte vytvářet přímo celé nové menu. Pokud Vám to více vyhovuje, můžete přidat do volných oblastí nabídek často používané analýzy ve formě tlačítka. Tato tlačítka umístíte jednotlivě přetažením do volné oblasti klasického menu. Následuje obrázek s dvěma vlastními makry (Moje makro 1 a Moje makro 2), které se po kliknutí na tato tlačítka automaticky spustí:
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
67
Smazání záložek Smazání záložek lze dělat dvěma způsoby: 1. Při otevřeném dialogu Vlastní opět na principu „táhni a pusť“ přetáhneme konkrétní menu do oblasti Příkazy v dialogu Vlastní.
2. Druhou možností jak vrátit původní nastavení je smazání konfiguračního souboru StatOpts.xml, ve kterém jsou tato nastavení uložena. Dle Windows je uložen v: C:\Documents and Settings\Uživatel (jméno účtu)\Data aplikací\StatSoft\STATISTICA\10.0.0.0.1029 pro Win XP nebo v: C:\Users\jméno účtu\AppData\Roaming\StatSoft\ STATISTICA\10.0.0.0.1029 pro Win 7/Vista. Pozor! Smazání konfiguračního souboru odstraní veškerá nastavení, která byla v softwaru STATISTICA nakonfigurována, např. ve Správci výstupů:
Nastavení se netýkají připojení do databáze, které je uloženo v systémových registrech. Konfigurační soubory StatOpts.xml s konkrétními nastaveními lze zálohovat a např. dávkovými příkazy na úrovni Windows je potom na konkrétním PC měnit, je-li žádoucí, aby Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
68
se nastavení softwaru STATISTICA na konkrétním PC pod konkrétním uživatelem měnilo (např. v počítačové učebně). Konfigurační soubor je v rámci jedné verze přenosný mezi jednotlivými počítači, resp. mezi operačními systémy. Pro zobrazení uvedených složek je nutné v PC povolit Zobrazení skrytých souborů a složek.
17 Závěr Tento manuál stručně popisuje základní ovládání programu STATISTICA. Jednotlivé kapitoly přinášejí „kuchařku“, která usnadní orientaci v prostředí programu STATISTICA a provede uživatele analýzou dat od jejich vstupu do programu až po finální výsledky. Zbývá tedy jen popřát, ať se vám práce s programem STATISTICA daří podle vašich představ!
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
69
Pro potřeby společnosti StatSoft CR s.r.o. Copyright © 2011
70