Rozdíl rizik zbytečného signálu v regulačním diagramu (I,MR) a (xbar,R) Bohumil Maroš
1. Úvod Regulační diagram je nejefektivnější nástroj pro identifikaci stability, resp. nestability procesu. Vhodně zvolené regulační diagramy pomohou rozhodnout, kdy je vhodná chvíle pro zásah do procesu (seřízení, kontrola vstupní suroviny, přeškolení operátorů …). A naopak zabraňují předčasnému a často škodlivému zásahu. Regulační diagramy představují preventivní přístup k řízení procesů. S jejich pomocí často identifikujeme změnu procesu ještě před tím, než by začaly vznikat neshody. Cílem regulačních diagramů je stabilizovat kolísání procesu a zmenšovat jeho variabilitu tím, že identifikujeme nenáhodné příčiny. Tyto pak můžeme odstranit, nebo alespoň omezit jejich vliv na proces. Pokud budou na proces působit pouze náhodné vlivy, pak je proces stabilizován. Znamená to, že je pak predikovatelný. Nestabilní, a tudíž nepředvídatelné procesy, jsou drahé. Základním předpokladem pro použití klasických Shewhartových regulačních diagramů je předpoklad normálního rozdělení a nekorelovanosti naměřených hodnot z procesu. Častým způsobem aplikace je, že se zvolí při sběru dat rozsah podskupiny n=1 až n=15 a po záznamu k=25 až k=30 podskupin se provede výpočet regulačních mezí pro aritmetický průměr x a rozpětí R. Většinou se volí regulační diagram při použití regulačních mezí pro 3 , tzn. při znalosti a , pro pravděpodobnost zbytečného signálu (chybu I. druhu) =0,0027. Sledovat tuto pravděpodobnost lze pomocí hodnoty průměrného počtu bodů v regulačním diagramu, kdy narazíme na bod, jenž je mimo regulační meze. Tato hodnota se označuje ARL (Average Run Length). Jestliže pozorované hodnoty procesu jsou nekorelované, pak platí jednoduchý vztah pro teoretickou hodnotu 1 1 (1) ARL 0 = = =& 370 . α 0,0027
Znamená to, že stabilní proces bude v regulačním diagramu průměrně po 370 podskupinách vykazovat bod mimo regulační meze. Hodnotu 370 musíme brát opatrně, poněvadž náhodná proměnná x=RL, tj. počet bodů (podskupin) za sebou ležících uvnitř regulačních mezí v regulačním diagramu, má geometrické rozdělení s monotónně klesající pravděpodobnostní funkcí x (2) p( x) = p(1 − p) , x = 0, 1, 2, K a parametrem p = α. Směrodatná odchylka σ tohoto rozdělení je přibližně rovna střední hodnotě µ pro malé hodnoty pravděpodobnosti p: 1− p 1 1 (3) µ= , σ= =& . p p p V našem případě je µ =& σ =& 370 . Znamená to, že hodnoty RL velmi hodně kolísají kolem své střední hodnoty. A navíc, geometrické rozdělení je silně nesymetrické rozdělení, což má za následek fakt, že průměrná hodnota není nejlepším reprezentantem náhodné proměnné (lepší by byl medián, jenž má hodnotu 256). Průměr má však v tomto případě jednu důležitou vlastnost, a to tu, že existuje jednoduchý vztah (1) mezi rizikem zbytečného signálu α a průměrnou hodnotou ARL. V regulačním diagramu však při použití regulačních mezí pro 3 σ není pravděpodobnost zbytečného signálu ve skutečnosti rovna vždy přesně teoretické hodnotě 0.0027. Záleží nejen na tom, jestli je splněn předpoklad normálního rozdělení, ale též na dalších okolnostech. Jak se však mění hodnota pravděpodobnosti α, jestliže • podskupina má n=1, tzn. počítáme s individuálními hodnotami • podskupina, z níž počítáme aritmetický průměr x , má jiný rozsah než obvyklých 5, • počet podskupin, z nichž se počítají regulační meze, bude jiný než k=25 či 30? Na všechny tyto otázky se pokusíme dát odpověď. Odpověď nebude jednoduchá, protože se mohou prolínat navzájem všechny naznačené možnosti. Abychom pronikli hlouběji do podstaty věci, musíme být schopni vždy identifikovat, která z možností nastala či kterou jsme použili. A právě k tomu nám bude sloužit dosti silný simulační nástroj – metoda Monte Carlo.
2.
Aplikace metody Monte Carlo
Nejdříve si musíme ujasnit, co chceme simulovat. Chceme simulovat proces, který bude mít předem dané statistické rozdělení - normální. Velikost podskupiny, z níž počítáme aritmetický průměr x , bude mít postupně rozsah n=1, n=3, n=5, n=10. Pomocí regulačního diagramu (I, MR), tzn. individuálních hodnot a klouzavého rozpětí, resp. ( x , R), chceme dlouhodobě sledovat výrobní proces, přičemž regulační meze se vypočtou z prvních k podskupin dat sledovaného procesu. Většinou se doporučuje volit k=25 až 30. V naší simulaci budeme volit hodnoty k od k=20 až do k=100. po 5 a pak od k=100 do k=1000 po 100. Jinými slovy, budeme sledovat, jaký má vliv na velikost pravděpodobnosti zbytečného signálu α skutečnost, že regulační meze jsme nechali (pro stejná data) vypočíst z prvních k=20, nebo k=25, nebo k=30, atd. počtu podskupin procesu. Abychom dostali věrohodné výsledky, bylo pro jednu zvolenou hodnotu n vygenerováno s daným rozdělením 20 000 n-členných skupin dat. Pro takto získaná data se postupně pro jednotlivé hodnoty k vypočetly příslušné regulační meze a pomocí těchto regulačních mezí se zjišťovalo, kolikrát v celkem 20 000 bodech regulačního diagramu se vyskytnou hodnoty mimo regulační diagram (zvlášť pro x či x a zvlášť pro R či MR). To znamená, že pro různé hodnoty k se zjistily vždy jiné počty přesahu bodů vně regulačního diagramu. Tento postup se opakoval vždy celkem 300krát a pak se určil průměrný počet ARL (již nikoliv teoretický) výskytu sledovaných parametrů ( x či x a R nebo MR) mimo regulační meze. Náhodná veličina RL má směrodatnou odchylku i střední hodnotu podle (3) přibližně 370, a proto průměrná hodnota RL z 20 000 podskupin má směrodatnou odchylku přibližně (jestliže =0,0027) .
s ARL =
σ RL 20000
µ RL
=
370 370 =& =& 50 ,3 . 20000 54 370
Průměrné hodnoty ze 300 veličin již vykazují normální rozdělení, takže 95%-ní interval spolehlivosti pro ARL je přibližně (za předpokladu =0,0027, tzn. pro vysoké hodnoty k)
. 1,968 ARL ± 50,3 =& ARL ± 5,7 299 Intervaly spolehlivosti pro ARL se liší nejen pro zvolenou hodnotu k, či pro zvolený rozsah podskupiny n, ale i pro x či rozpětí. Pro každou vybranou hodnotu n (rozsah podskupiny) se určila (pro všechny výše stanovené hodnoty parametru k) příslušná přibližná hodnota pravděpodobnosti zbytečného signálu α=
1 . ARL
Simulací se zjistilo, že směrodatné odchylky průměrné hodnoty α z 20 000 podskupin při 300 násobném opakování se též liší. Jestliže 95%-ní interval spolehlivosti pro průměrnou hodnotu α zapíšeme ve tvaru α ±∆ , (4) tak průměrné hodnoty α pro všechna k se pohybovaly v intervalu od 0,00006 do 0,00041. 3.
Nelineární model
Ze získaných údajů metodou Monte Carlo se ještě pomocí nelineárních optimalizačních iteračních postupů našel empirický model, který umožňuje pro vybraná n vypočíst hodnotu α v závislosti na hodnotě k. Tyto modely mají stejný tvar
α (n, k ) = (b0 + b1 k b
2
)
b3
+ b4
(5)
a liší se regresními konstantami b i , i=0, 1,…, 4 pro různá n, dále podle toho, zda se model týká individuálních hodnot x, nebo aritmetického průměru x , rozpětí R či klouzavého rozpětí MR. Poněvadž grafy všech těchto závislostí jsou ryze monotónně klesající funkce, tak konstanta b 4 ukazuje na hodnotu, k níž se hodnota zbytečného signálu α asymptoticky blíží pro velké hodnoty k. Metodou Monte Carlo a optimalizačními iteračními postupy byly získány tyto hodnoty regresních koeficientů pro nelineární model (5):
n=1 x
n=3 MR
n=5
n=10
b0
9869,5
R x x x 1248,0 24,7193 10,3328 -300,477 -43,1886 99,4633 72,2512
b1
0,5114
1,2410 15,5615 7,9983
74,3558 19,3510
8,7226 19,0101
b2
4,5089
3,5810
1,0620
1,6683
0,8989
1,1647
b3
-0,3359 -0,3658 -0,9131 -1,0374
-0,6967
-1,1164
-1,1501 -1,0379
0,0027
0,0046
0,0027
b 4 0,00274 0,0098
4.
R
1,2382 0,0027
0,0058
R
1,0792 0,0043
Průběhy chyb zbytečného signálu
Podívejme se nyní na průběhy chyby zbytečného signálu α v závislosti na počtu podskupin k, z nichž se vypočtou regulační meze příslušného regulačního diagramu. Protože při analýze regulačních diagramů se má nejdříve posuzovat diagram pro variabilitu, nejdříve se podíváme na průběh hodnot chyby zbytečného signálu pro rozpětí. Jsou zde uvedeny dva pohledy na tyto průběhy: jeden celkový (i pro vysoké hodnoty k), aby bylo vidět, ke které hodnotě se chyby asymptoticky blíží a druhý detailní (pro k<50), aby se dala z grafu odečíst hodnota chyby zbytečného signálu pro běžně používané hodnoty k=25 či k=30. V následujících dvou grafech je znázorněna chyba α pro individuální hodnoty x z diagramu (I, MR) a pro aritmetický průměr x , jestliže rozsahy podskupin jsou n=3, 5, 10 – opět v celkovém pohledu a v detailu. 5. Závěr Z grafů můžeme přibližně zjistit velikosti hodnot α, resp. je můžeme vypočíst ze vztahu (5) pro hodnoty k a n. V následující tabulce jsou pro vybrané hodnoty k vypočteny:
n=1 n=3 n=5 n=10
k = 25 x MR 0,012 0,023 R x 0,005 0,009 0,004 0,006 0,004 0,005
Hodnoty rizika zbytečného signálu k = 30 k = 100 k = 500 x MR x MR x MR 0,010 0,021 0,0039 0,0120 0,0028 0,0101 R R R x x x 0,004 0,008 0,0031 0,0065 0,0028 0,0059 0,004 0,006 0,0030 0,0050 0,0028 0,0047 0,003 0,005 0,0029 0,0045 0,0028 0,0043
k = 1000 x MR 0,0028 0,0099 R x 0,0027 0,0058 0,0028 0,0046 0,0028 0,0043
α 0.025
0.02
0.015
n=1
0.01
n=3
0.005
0,0027 200
400
600
k
800
1000
Obr. 1: Závislost rizika α na velikosti počtu podskupin k pro n=1, 3, 5, 10 pro rozpětí
α
n=1
0.025
0.02
0.015
0.01
n=3
0.005
n=5 n=10 0,0027 15
20
25
30
35
40
Obr. 2: Detail předchozího grafu
45
k
50
α
n=1 0,0027
k
Obr. 3: Závislost rizika α na velikosti počtu podskupin k pro n=1, 3, 5, 10 pro x či x
α
n=1
n=3 0,0027
k
Obr. 4: Detail předchozího grafu
Z grafů i tabulky je vidět, že pro normálně rozdělené pozorované hodnoty je chyba I. druhu pro variabilitu vždy větší než pro hodnoty x či x . Navíc, hodnoty rizika α u variability se ani neblíží k teoretické hodnotě 0,0027 pro velké hodnoty k. Regulační diagram pro individuální hodnoty (I, MR) je vhodný jen tehdy, když se regulační meze určí minimálně z k=100 hodnot. Pokud použijeme méně měření, pak riskujeme velký nárůst zbytečných signálů, které nemusejí odpovídat vymezitelným příčinám ve sledovaném procesu. Tento fakt má ovšem ten následek, že můžeme do stabilního procesu zbytečně zasahovat. Tato záležitost bývá často bagatelizována s poukazem na to, že u tohoto typu se neztrácejí informace o konkrétních pozorovaných hodnotách jako u diagramů ( x , R).
. Literatura [1] Montgomery D. C.: Introduction to Statistical Quality Control, 4th edition, John Wiley&Sons, New York 2001 [2] Tošenovský J., Noskievičová D.: Statistické metody pro zlepšování jakosti, Montanex a.s., Ostrava 2000 [3] Bazaraa, M.S.: Nonlinear Programming, John Wiley&Sons, New York 1992 [4] Wheeler,D.J.: Advanced Topics in Statistical Process Control, Statistical Process Control, Inc., Knoxville 1995 [5] Maroš,B.: Riziko zbytečného signálu v regulačním diagramu, Sborník konference 2. statistické dny, Hradec Králové 2004 [6] Maroš,B.-Trávníček,T.: Nedodržení předpokladu normality v regulačních diagramech, článek ve sborníku, Brno 2005 Adresa autora: Doc. RNDr. Bohumil Maroš, CSc. , Vysoké učení technické v Brně, Fakulta strojního inženýrství, Ústav matematiky, Technická 2, 616 69 Brno e-mail:
[email protected] Tato práce byla vytvořena za podpory projektu MŠMT 1M06047 - CQR