SPC v případě autokorelovaných dat
Jiří Michálek, Jan Král OSSM, 21.6.2012
Pojem korelace • Statistická vazba mezi veličinami • Korelace vs. stochastická nezávislost • Koeficient korelace = míra lineární vazby mezi veličinami • Autokorelace = korelace mezi sousedícími daty v jedné časové řadě • Autokorelační funkce, odhad autokorelace pořízený z dat
Předpoklady pro Shewhartovy diagramy • Normálně rozdělený znak jakosti • Sbíraná data z procesu jsou nezávislá jak mezi podskupinami, tak i uvnitř podskupin • Parametr polohy a úroveň variability jsou konstantní • Regulační meze jsou pak počítány na základě těchto předpokladů
Porušení předpokladů • Závislost mezi daty v rámci podskupiny – může mít vliv na vyhodnocování průběhu diagramu, odhad směrodatné odchylky pro výpočet regulačních mezí • Závislost mezi podskupinami – může podstatně ovlivnit výskyt falešných poplachů
Podezření na autokorelaci • Vysoká frekvence sběru dat, hlavně při automatickém odběru • Fyzikální důvody – např. vliv teploty, vliv okolního prostředí • Setrvačnost v datech vyvolaná např. způsobem měření, systematickými vlivy • Záměrná manipulace s daty – opisování, falšování
Příklad regulačního diagramu I-MR Chart of Ohm 6000
1
Individual Value
1
U C L=5387
5000 _ X=4450 4000
1
3000
LC L=3514
1 11
1
11
21
31
41
51 O bser vation
61
71
81
91
1 1
Moving Range
1600
1
1200
U C L=1150
800 __ M R=352
400 0
LC L=0 1
11
21
31
41
51 O bser vation
61
71
81
91
Odhad autokorelační funkce Autocorrelation Function for Ohm
(with 5% significance limits for the autocorrelations) 1,0 0,8
Autocorrelation
0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0 2
4
6
8
10
12 14 Lag
16
18
20
22
24
Co říká koeficient korelace? • Koeficient korelace je mezi -1 a 1 • Čím je koeficient korelace v absolutní hodnotě blíže k 1, tím je větší stochastická vazba mezi veličinami • Čím je koeficient korelace v absolutní hodnotě blíže 0, tím je menší stochastická vazba mezi veličinami • Pro hodnoty -1 a 1 stochastická vazba přechází dokonce ve funkční lineární vztah
Test korelace mezi 2 veličinami • Data jsou spárována do dvojic • Vypočte se odhad r koeficientu korelace • Vypočte se statistika 2
t r (n 2) / (1 r ) , která za nulové hypotézy o nekorelovanosti má přibližně t-rozdělení o n-2 stupňů volnosti ( n je počet dvojic) Pozn. U normálně rozdělených veličin nekorelovanost = nezávislost
Jak se s korelací vyrovnat? • Pro praktické účely má cenu se zabývat korelací, pokud odhad koeficientu korelace má hodnotu nad 0,75 – 0,80 • Znaky kvality na jednom výrobku mohou být vzájemně korelovány – vylepšení jednoho znaku může vyvolat zhoršení jiného znaku • Použití vícerozměrných regulačních diagramů – odhad korelační matice
Jak se s korelací vyrovnat? • Při zjištěné silné korelaci uvnitř podskupin je nutno toto zohlednit při výpočtu regulačních mezí – zásadní roli hraje špatný odhad směrodatné odchylky na základě výběrového rozpětí či výběrové směrodatné odchylky počítaných uvnitř podskupin Korelace může způsobit podhodnocení úrovně variability a toto může vést ke zvýšenému počtu falešných poplachů, protože regulační meze jsou pak blíže u sebe
Jak se s korelací vyrovnat? • Zvláště je nutné si dát pozor u regulačního diagramu pro individuální data při sériové korelaci – odhad založený na klouzavém rozpětí opět může podhodnotit úroveň variability • V tomto případě v praxi stačí se zaměřit pouze na autokorelaci 1.řádu a použít faktor √(1 – r2) pro úpravu regulačních mezí
Jak se s korelací vyrovnat? • Pro výpočet klasických regulačních mezí nepoužijeme Rbar či sbar, ale jejich hodnoty získané z dat podělíme právě faktorem √(1 – r2), čímž dosáhneme rozšíření regulačních mezí • Pokud jsou mezi daty autokorelace vyšších řádů, je obvykle možno v praxi je ignorovat
Jak se vyrovnat s korelací? • Komplikovanější přístup je založen na nalezení vhodného modelu pro sledovanou časovou řadu (AR, ARMA, ARIMA či další modely) a pracovat s rezidui získanými při použití vhodného modelu • Obvykle se vyžaduje, aby rezidua byla vzájemně nekorelovaná se střední hodnotou nula a konstantní úrovní variability (či dokonce normálně rozdělená) a na jejich sledování pak lze použít klasické Shewhartovy regulační diagramy
Příklad na úpravu mezí • Na následujícím diagramu je vidět, že první 3-4 zleva, které jsou mimo regulační meze, by mohly znamenat pouze falěšný poplach • Je nutné prošetřit autokorelaci a zjistíme, že korelační koeficient mezi sousedícími daty bude významný, jeho odhad je sice pouze 0,48, ale je mimo konfidenční meze
Příklad na úpravu mezí • Původní meze pro individuální hodnoty: UCL = 5387, LCL = 3514 CL = 4450 Faktor opravy je při r = 0,4845 roven 0,8748 a přepočtené meze jsou: UCL = 5521, LCL = 3379
Graf s upravenými mezemi I-MR Chart of Ohm
Individual Value
6000
1
U C L=5521 5000 _ X=4450 4000 LC L=3379 1
3000
11
1
11
21
31
41
51 O bser vation
61
71
81
91
1 1
Moving Range
1600
1
U C L=1316
1200 800
__ M R=403
400 0
LC L=0 1
11
21
31
41
51 O bser vation
61
71
81
91
Použití modelu časové řady • Na základě odhadu autokorelační funkce budeme uvažovat model typu AR(1): X(i+1) = µ + αX(i) + e(i+1), kde chyby jsou normálně rozdělené se střední hodnotou 0 a nezávislé, µ je aditivní konstanta Vhodnost modelu posoudíme podle chování reziduí a průběh původního procesu pomocí regulačního diagramu pro rezidua
Použití modelu časové řady ACF of Residuals for Ohm
(with 5% significance limits for the autocorrelations) 1,0 0,8
Autocorrelation
0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0 2
4
6
8
10
12 14 Lag
16
18
20
22
24
Použití modelu časové řady Summary for Res(Ohm) A nderson-D arling N ormality Test
-1500
-1000
-500
0
500
A -S quared P -V alue
0,67 0,079
M ean S tD ev V ariance S kew ness Kurtosis N
-4,33 417,13 173996,21 -0,02060 1,77335 100
M inimum 1st Q uartile M edian 3rd Q uartile M aximum
1000
-1597,99 -296,75 -60,62 224,53 1232,80
95% C onfidence Interv al for M ean -87,09
78,44
95% C onfidence Interv al for M edian -116,23
62,65
95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals
366,24
Mean Median -100
-50
0
50
100
484,57
Použití modelu časové řady I-MR Chart of Res(Ohm) U C L=1246
Individual V alue
1000
_ X=-4
0
-1000
LC L=-1254 1
-2000 1
11
M oving Range
2000
21
31
41
51 O bser vation
61
71
81
91
1 1
1500
U C L=1536
1000 __ M R=470
500 0
LC L=0 1
11
21
31
41
51 O bser vation
61
71
81
91
Použití modelu časové řady Nalezený model má tvar: X(i+1) = 2262,73 + 0,4922X(i) + e(i+1), kde rezidua jakožto odhady chyb mají rozdělení N(µ,σ2). µ ≈ -4,33 σ ≈ 417,13
Srovnání obou přístupů Lze říci, že přístup založený na úpravě regulačních mezí se zdá přísnější, ale v žádném případě si oba přístupy neodporují a možné ovlivněné podskupiny označily podobně. Je zřejmé, že přístup založený na úpravě mezí je daleko jednodušší, přístup založený na modelování časové řady vyžaduje již vhodný software.