Jak správně interpretovat ukazatele způsobilosti a výkonnosti výrobního procesu Jiří Michálek
Ukazatele způsobilosti a výkonnosti Cp, Cpk, Pp, Ppk byly zavedeny ve snaze popsat stav výrobního procesu, resp. chování sledovaného znaku jakosti, pomocí několika čísel bezrozměrného charakteru. Zadáním těchto čísel se vlastně vyjadřuje požadavek na stav procesu, aby očekávaný počet neshodných výrobků odpovídal požadovanému počtu a aby proces byl ve stabilizovaném stavu, tzn. pro praxi v téměř stavu neměnícím se v průběhu času. Nejdříve, asi před 20-25 lety; byly zavedeny do praxe ukazatele způsobilosti Cp, Cpk, jejichž použití vyžaduje po sledovaném znaku jakosti, aby mohl být popsán normálním rozdělením N(µ,σ2), kde µ, je parametr polohy a σ2 je rozptyl sledovaného znaku. Pro úplnost, zde je jejich vzorec
Cp =
USL − LSL , 6σ
⎛ USL − µ µ − LSL ⎞ ⎟. Cpk = ⎜⎜ , 3 σ ⎟⎠ ⎝ 3σ
Jejich zadáním se zcela jednoznačně určuje, jaká má být úroveň tzv. inherentní variability znaku jakosti a dvojrozměrná poloha; tj. střední hodnota sledovaného znaku jakosti, neboť z obou ukazatelů vyplývá pouze míra necentrování procesu od průměru specifikačních mezí, nikoliv to, zdali střední hodnota má být napravo či nalevo od tohoto průměru. Lze tedy zadání dvojice Cp , Cpk chápat tak, že střední hodnota jakostního znaku se muže pohybovat těmito dvěma krajními polohami, aniž by se hodnota Cpk, zmenšovala, protože vždy musí být Cp ≥ Cpk, přičemž rovnost nastává jedině tehdy, když proces je přesně centrován na prostředek specifikačního rozmezí. První problém, se kterým se lze v praxi setkat, je již stanovení hodnot pro Cp a Cpk od konstruktérů či odběratelů produktů z procesu. Mnohdy bohužel tyto hodnoty jsou velice přísné, takže výrobce není schopen se stávající technologií tyto požadavky splnit, protože to mnohdy jednoduše vůbec nejde. Tento problém se často vyskytuje na,př. u plastových výrobků, kde se objevuje druhý
problém, a to jak přesně získat hodnoty sledovaného znaku jakosti. Stanovení požadavků na Cp a Cpk je jedna strana mince, ale otázka, zdali je vůbec schopen výrobní proces toto splnit, je strana druhá. Aby bylo možno obě strany porovnat. musíme z procesu odebrat nějaké produkty, ty přeměřit a získaná data použít pro zjištění způsobilosti našeho procesu. A to jo třetí problém, protože jsme nuceni zpracovat pouze dílčí informaci obsaženou v odebraných produktech, i kdyby produktů byly tisícovky. Aby nástroje matematické statistiky byly využity adekvátně, je nutno respektovat Splnění některých předpokladů. Je to především normalita získaných dat, kterou je možno ověřit pomocí testů dobré shody a stabilita procesu, což znamená poloha procesu µ (tj. střední hodnota sledovaného znaku) se v čase nemění a rovněž tak i úroveň variability σ2 lze považovat za stálou v čase. Takovému stavu říkáme, že proces je statisticky zvládnut, což je stav, kterého je možno dosáhnout hlavně aplikací regulačních diagramů. Tento stav je nutný proto, abychom mohli spolehlivě odhadnout parametr polohy procesu µ, nejčastěji pomocí aritmetického průměru či výběrového mediánu, a rovněž tak úroveň variability σ2, obvykle pomocí výběrového rozpětí R či výběrové směrodatné odchylky s. Dalším problémem je organizace sběru dat; tj. jak často, zdali jednotlivě či ve skupinách a kolik dat budeme potřebovat pro hodnocení způsobilosti procesu. Některé postupy lze najít v literatuře, např. VDA 4.1. kde se hodnotí způsobilost strojního zařízení. pak předběžná způsobilost v simulování hromadné výroby a pak dlouhodobá při hromadné výrobě, která může zahrnout i několik dní. Měla by být učiněna dohoda mezi výrobcem a odběratelem, který požaduje hodnocení způsobilosti procesu, jak se přesně bude postupovat při sběru dat, protože počet a organizace sběru dat silně ovlivňuje hodnocení způsobilosti procesu, pokud je prováděno správným způsobem. Poučenému odběrateli zdaleka
ˆ je větší nežli požadovaná, hodnota nemůže stačit fakt, že odhad C p
Cp, což je požadavek téměř všude od zákazníků vyžadovaný, protože matematická statistika garantuje, že pokud proces skutečně splňuje požadavek, např. Cp = 1, 33, že přibližně 50 % odhadů tohoto ukazatele je sice nad hodnotou 1,33, ale rovněž druhých 50 % odhadů se musí vyskytovat pod touto hodnotou. Tím, že zákazník
ˆ ≥ Cp, nemá vůbec zajištěno; že způsobilost požaduje, aby C p výrobního procesu je na hodnotě ukazatele Cp, kterou on stanovil.
ˆ či C ˆ sama o sobě nic neříká, Vypočtená hodnota odhadu C p pk
pokud ji nebudeme konfrontovat se stanovenými hodnotami. např. pomocí testování statistických hypotéz. Závěr takového testu silně závisí na stanoveném riziku (tzv. hladině významnosti) a hlavně na počtu dat, s nimiž pracujeme. Pokud jako nulovou hypotézu stanovíme, že proces má být způsobilý např. s Cp = 1,33, stále ještě nezamítnutí této hypotézy proti např. alternativní hypotéze Cp = 1, 50, zdaleka nevylučuje skutečnost, že způsobilost procesu není 1,33, ale jen zhruba 1,25. Pokud mulovou hypotézu zamítneme, jsme na tom s věrohodností závěru obvykle lépe. ale opět úroveň této věrohodnosti závisí na počtu dat. Hodnotit způsobilost procesu např. z pěti údajů, je naprostý hazard jak pro výrobce, tak i pro odběratele. Představme si, že chceme, aby výrobní proces byl nejhůře na úrovni způsobilostí Cp = 1,33, což je velice častý požadavek v automobilovém průmyslu. Pro úplnost to znamená, že při stabilitě střední hodnoty µ na prostředku tolerančního rozpětí se požaduje, aby očekávaná neshodnost výrobků byla na úrovni 60 ppm. Postavme otázku testování způsobilosti takto: nulová hypotéza bude, že Cp < 1,33 a alternativní hypotéza, že Cp > 1,33. Nulovou hypotézou tedy je, že náš proces není způsobilý, alternativou je jeho způsobilost nejhůře na úrovni Cp = 1,33. Abychom hypotézu o nezpůsobilosti zamítli a, měli velikou záruku, že náš proces je
ˆ ukazatele CP počítaná např. způsobilý, musí hodnota odhadu C p
z 20 podskupin o pěti kusech ve skupině při riziku 5 % překročit hodnotu 1,54. U ukazatele Cpk je situace o to komplikovanější, že vstupuje do
ˆ navíc odhad parametru polohy µ. Co se vyžaduje od odhadu C pk
procesu, aby ukazatel Cpk, byl správně chápan? Aplikace tohoto ukazatele vyžaduje nejen, aby úroveň variability byla stálá; ale aby i parametr polohy se v čase neměnil. Jinak totiž nesprávně odhadneme polohu procesu např. pomoci aritmetického průměru ze všech dat. Představme si takovou situaci, kdy během odebírání dat se poloha procesu změnila takovým způsobem (třeba nastavením stroje či použitím jiného materiálu na vstupu procesu), že přibližně polovina dat má parametr polohy
µ1 =
USL + LSL + δ1 , σ 1 > 0 , 2
µ2 =
USL + LSL −δ2 , σ 2 > 0 , 2
druhá polovina
kde přitom δ1 a δ2 se prakticky neliší. Když spočítáme celkový aritmetický průměr z dat, ten se nebude významně lišit od středu tolerančního rozmezí
USL + LSL , 2 ˆ což se projeví v hodnosti odhadu C pk tím, že ta,to hodnota se ˆ a člověk, který si nebude významně lišit od hodnoty odhadu C p
neprohlédne průběh dat se může domnívat, že proces je velice dobře
ˆ centrovaný. Opět vlastní hodnota odhadu C pk nám nic neříká, pokud není porovnávána se zadanou hodnotou Cpk pomocí testování hypotéz; což má smysl pouze tehdy, když proces je stabilní i v parametru polohy. O tom se lze přesvědčit pomocí statistického nástroje MANOVA. Jedná se vlastně o otázku, zdali všechna data
ˆ potřebná pro odhad C pk pocházejí z jediné populace se střední hodnotou µ.
Když připustíme, že náš proces může v parametru polohy "dýchat", což znamená, že parametr µ není v průběhu výroby fixní, ale může se pohybovat v jistém rozmezí uvnitř tolerančního pásma, např.
µ∈
USL − LSL USL − LSL −δ, +δ , 2 2
kde δ > 0. V metodice Six Sigma se uvažuje, že δ = 1,5σ, kde σ je směrodatná odchylka zkoumaného znaku jakosti. Protože parametr µ není pevný, uvažovat použití ukazatele Cpk v této situaci je nesprávné, protože odhad celkového aritmetického průměru z dat vůbec nic neříká o chování parametru µ. Samozřejmě ihned se naskýtá problém, jak v této situaci hodnotit způsobilost procesu? Odpověď' není zdaleka jednoznačná, protože především závisí na tom, jak se parametr µ chová ve vymezeném intervalu. Pokud bude jeho chování náhodné, které lze popsat nějakým rozdělením pravděpodobnosti, pak by správně pro hodnocení způsobilosti
takového procesu východiskem mělo být rozdělení pravděpodobnosti, které je dáno konvolucí normálního rozdělení N(0,σ2), které charakterizuje zdroj inherentní variability, s rozdělením pravděpodobnosti; které popisuje chování parametru µ. Takováto situace nastává např. při opotřebování nástroje během výrobní operace, kdy se do procesu dostává lineární trend v chování parametru polohy, což koresponduje s rovnoměrným rozdělením na intervalu vymezeném pro pohyb parametru polohy. Dalším případem je taková situace, kdy lze data rozdělit, tj. stratifikovat, do jednotlivých kategorií, které jsou odlišeny různými hodnotami parametru polohy. Tento případ na,stává např. tehdy, když data z jednotlivé kategorie odpovídají novému seřízení stroje či jednotlivým šaržím, kdy nelze přesně dodržet parametr polohy na jednom místě a je nutno počítat s jeho změnou v rámci nějakého intervalu kolem prostředku tolerančního rozmezí. Získaná data potom jsou výsledkem směsi normálních rozdělení nejčastěji se stejnou úrovní inherentní variability, ale s různými středními hodnotami. Pokud dovedeme jednotlivé kategorie dat ve směsi identifikovat podle nějakých příznaků (např. operátor, směna, šarže, seřízení stroje apod.), pak lze hodnotit způsobilost výrobního procesu pomocí ukazatele Ppk následovně. Pro každou kategorii dat, tj. pro každou složku směsi spočítáme odpovídající aritmetické průměry a odhad směrodatné odchylky. Pomocí nich spočítáme odhady
USL − xi PˆpkU = , i = 1, 2, K, k 3 si a odhady
xi − LSL PˆpkL = , i = 1, 2, K, k . 3 si Pak má smysl odhadnout ukazatel Ppk pro celou směs jako
(
)
Pˆpk = min min PˆpkL , min PˆpkU , 1≤i≤k
1≤i≤k
kde k je počet kategorií ve směsi. Takto zavedený odhad má zcela racionální smysl, neboť je založen na složkách směsi, které mají střední hodnoty nejdále od prostředku tolerančního rozmezí. Zatím ale zcela chybí teoretické pozadí, které by dalo odpověď' např. na velikost konfidenčního intervalu či možnost prověřit hodnotu odhadu s požadovanou hodnotou ukazatele Cpk.
Tento stručný rozbor situace jasně dokazuje, že pokud proces není statisticky zvládnut a sledovaná data nelze popsat normálním rozdělením, pak odhady ukazatelů Cp a Cpk; nemusí vůbec nic vypovídat o způsobilosti procesu. Pokud sebraná data nelze vysvětlit normálním rozdělením, může být sledovaný znak jakosti popsatelný jiným typem rozdělení (např. logaritmicko-normální, Weibull, překlopené normální), a to čistě třeba z fyzikálních důvodů (např. rovinnost, ovalita apod.) a nebo se jedná o zcela neidentifikovatelnou směs z normálních rozdělení. Pak samozřejmě formální výpočet odhadů Cp a Cpk je sice možný, ale nic to neříká, o odhadu neshodných kusů ve výrobním procesu. Jak potom postupovat? Bud' dovedeme najít vhodný tvar rozdělení pravděpodobnosti jako model pro popis sledovaného znaku jakosti, ale toto rozdělení musí být vlastní tvaru procesu v tom smyslu, že každá skupina naměřených hodnot je vysvětlitelná tímto typem rozdělení a definice odpovídajících ukazatelů Cp a Cpk je založena na kvantilovém rozpětí. Tento přístup má svoji velkou slabost právě v odhadu odpovídajících kvantilů, což vyžaduje relativně velký počet, dat pro získání věrohodných závěrů. Druhá možnost je založena na myšlence původní data pomocí vhodné transformace, samozřejmě jedno-jednoznačné převést na nová data. která lze popsat již normálním rozdělením. Vybranou transformací se získají i nové specifikace pro nová data a pro hodnocení způsobilostí se použijí klasické tvary ukazatelů Cp a Cpk založené na specifických vlastnostech normálního rozdělení. V praxi se v tomto případě nejčastěji používá bud' Box-Coxova transformace či třída Johnsonových transformací, která nová data převádí přímo na rozdělení N(0, 1).V následujícím jsou uvedeny dva příklady, které ukazují, že nerespektování předpokladu normality bud' nadhodnotí úroveň způsobilosti procesu či naopak podhodnotí. Na obr.1 je provedeno hodnocení způsobilosti procesu bez respektování předpokladu o normalitě dat. Takto získaná hodnota odhadu nemůže nic vypovídat o skutečné situaci ve výrobním procesu. Jeden z možných správných postupů je ukázán na obr.2, kde je použita vhodná Johnsonova transformace na původní data, která jsou převedena na data, které již požadavek na normalitu dat splňují. Porovnáním obou hodnot odhadů ukazatelů je vidět, že vlastně stav procesu je lepší nežli ukazuje obr.1.
Poznámka: Proces je hodnocen pomocí ukazatelů výkonnosti, které jsou zadefinovány níže, protože se jedná o individuální hodnoty a použitý software Minitab po Johnsonově transformaci ukazatele způsobilosti nepočítá. Process Capability of Warping (using 95,0% confidence) LSL
USL Within Overall
Process Data LSL 0 Target * USL 9 Sample Mean 2,92307 Sample N 100 StDev (Within) 1,68898 StDev (Ov erall) 1,79048
Potential (Within) Cp Lower CL Upper CL CPL CPU Cpk Lower CL Upper CL
Capability 0,89 0,76 1,01 0,58 1,20 0,58 0,47 0,68
Ov erall Capability
0,0 Observ ed Perf ormance PPM < LSL 0,00 PPM > USL 0,00 PPM Total 0,00
1,5
3,0
Exp. Within Perf ormance PPM < LSL 41755,60 PPM > USL 160,35 PPM Total 41915,95
4,5
6,0
7,5
9,0
Exp. Ov erall Perf ormance PPM < LSL 51281,18 PPM > USL 344,38 PPM Total 51625,56
Pp Lower CL Upper CL PPL PPU Ppk Lower CL Upper CL Cpm Lower CL
0,84 0,72 0,95 0,54 1,13 0,54 0,44 0,64 * *
Obr.1 Nesprávný odhad ukazatele způsobilosti Process Capability of Warping Johnson Transformation with SB Distribution Type 0,883 + 0,987 * Log( ( X + 0,133 ) / ( 9,311 - X ) ) (using 95,0% confidence) LSL*
USL*
transformed data
Process Data LSL 0 Target * USL 9 Sample Mean 2,92307 Sample N 100 StDev 1,78597 Shape1 0,882908 Shape2 0,987049 Location -0,132606 Scale 9,44362
Overall Capability Pp 1,26 Lower CL 1,09 Upper CL 1,44 PPL 1,11 PPU 1,41 Ppk 1,11 Lower CL 0,95 Upper CL 1,28 Exp. Overall Performance PPM < LSL 416,36
After Transformation LSL* Target* USL* Sample Mean* StDev*
PPM > USL PPM Total
-3,3136 * 4,21891 0,011196 0,994947
Observed Performance PPM < LSL 0,00 PPM > USL 0,00 PPM Total
0,00
-3
-2
-1
0
1
2
3
4
Obr.2 Hodnocení procesu po transformaci dat
11,73 428,09
Ne pouze problémy přináší praxe, ale i teorie. Na začátku 90. let se objevují z popudu amerického automobilového průmyslu další dva ukazatele, a to ukazatele výkonnosti Pp a Ppk. Lze ale říci, že jejich zavedení situaci spíše zkomplikovalo nežli zjednodušilo v tom smyslu, že tyto ukazatelé dodají další užitečnou informaci o průběhu výrobního procesu. Jejich vzorce se od vzorců pro Cp a Cpk liší pouze v tom, že ve jmenovateli se místo směrodatné odchylky σ inherentní variability objevuje tzv. totální směrodatná odchylka σTOT. Je doporučováno, aby tyto ukazatele. resp. jejich odhady, byly používány u procesů, které nejsou statisticky zvládnuty. Pokud je
ˆ , a Pˆ by proces zvládnut a data normálně rozdělena, tak odhady C p p se neměly příliš lišit, protože rozdíl v odhadech
σˆ TOT
⎛ 1 k n =⎜ xi j − xi ⎜ kn − 1 ∑∑ i 1 j 1 = = ⎝
(
⎞ ⎟ ⎟ ⎠
)
2
a
σˆ =
R , resp. d2
σˆ =
s C4
by za této stabilizované situace měl být malý. Pokud ale proces není stabilní. úloha ukazatelů Pp a Ppk není jasná, protože nemohou predikovat výkonnost procesu. Problém je v tom, že definice těchto ukazatelů nic nevyžaduje, jakým způsobem vzniká totální variabilita. Tudíž nelze odvodit statistické vlastnosti odhadů těchto ukazatelů a nelze je např. testovat, protože statistika potřebuje model, na jehož základě zkonstruuje přijatelný test. To znamená, že např., pokud nějaký software obsahuje konfidenční intervaly pro tyto ukazatele a není řečeno, z čeho se při jejich výpočtu vycházelo, pak jsou naprosto k ničemu. V monografii [1] je silně argumentováno proti používání těchto ukazatelů a je řečeno. že jejich zavedení je krokem zpět v hodnocení způsobilosti výrobního procesu. Bohužel ve 2. vydání příručky pro dodavatele do amerického automobilového průmyslu z roku 2005, viz [2], se přímo doporučuje použití všech 4 ukazatelů pro charakterizování výrobního procesů na základě normy ANSI Standard Z1 z roku 1996. Na jednoduchém příkladu si dokažme, že skutečně zavedení ukazatele Pp "stojí na vodě" .
Představme si výrobní proces, kde parametr polohy µ sledovaného znaku jakosti silně závisí na vstupu (např. seřízení stroje, různé dávky vstupního materiálu, různí dodavatelé apod.). Uvažujme, že sledujeme výkonnost procesu po takovou dobu, že výsledná data lze popsat jako směs dvou normálních rozdělení N(µi, σ2), i = 1, 2, tedy hustota směsi je h(x) = αf1(x) + (1-α)f2(x), kde fi(·) je hustota normálního rozdělení N(µi, σ2). Předpokládejme, že parametr rozptylu σ2 je pro jednoduchost konstantní v čase, ale parametry polohy µ1 a µ2 a rovněž i parametr směsi α se mohou měnit v čase. Takový proces je zřejmě nestabilní v čase. Jeho střední hodnota a rozptyl jsou
E{X} = αµ1 + (1 − α )µ 2 , D{X} = σ2 + α 2µ12 + (1 − α )2 µ 2 − (E{X}) , 2
pokud složky směsi budeme považovat za nezávislé, což je v praxi přijatelné. Z tohoto procesu odebereme náhodný výběr x1, x2, ..., xN a budeme sledovat co dělá odhad totální směrodatné odchylky 1/ 2
σˆ TOT
⎛1 N ⎞ = ⎜ ∑ ( xi − x )2 ⎟ ⎜ N j=1 ⎟ ⎝ ⎠
.
Pokud výběr bude složen z podílu [αN] ze složky N(µ1, σ2) a zbytek z druhé složky N(µ2, σ2) a poměr obou složek bude pro každé N zachována, pak lze ukázat, že
σˆ TOT ⎯⎯ ⎯→ D{X}. N→ ∞ Na základě toho by ukazatel výkonnosti procesu Pp měl mít hodnotu
Pp =
USL − LSL . 6 D{X}
Je ale vidět, že jeho hodnota silně závisí α, µ1, µ2 a správně bychom odhadovali jeho hodnotu jedině tehdy, když tyto parametry by byly konstantní v čase a náhodný výběr by respektoval poměr zastoupení složek směsi. Z tohoto jednoduchého příkladu ihned plyne, že vlastně obecně nevíme, co odhad ukazatele Pp říká, protože ve statistické analýze se nemůžeme opřít o nějaký konkrétní model,
pokud proces nevykazuje stabilitu v čase. Kdy lze tedy ukazatele výkonnosti použít? Mají smysl jedině tehdy, když získaná data bez ohledu na podskupiny lze popsat nějakým rozdělením pravděpodobnosti, např. normálním. Tento předpoklad je důležitý proto, aby bylo možno stanovit např. konfidenční interval pro hodnotu ukazatele nebo provést statistický test nějaké hypotézy o hodnotě ukazatele. Pouze vlastní hodnota odhadu ukazatele výkonnosti bez vhodného statistického modelu neříká de facto nic.
Literatura: [1] Kotz. S., Lovelace C. R.: Process Capability Indices in Theory and Practice. Arnold, London (1998). [2] AIAG - Chrysler, Ford, General Motors. (QS-9000 - Statistical Process Control (2. vydání, 2005). Adresa autora: RNDr. Jiří Michálek, CSc., Ústav teorie informace a automatizace AV ČR Praha, Oddělení stochastické informatiky, Pod vodárenskou věží 4, 182 08 Praha 8. e-mail:
[email protected]
Tato práce byla vytvořena za podpory projektu MŠMT 1M06047 - CQR