NEPARAMETRICKÉ METODY ANALÝZY PORUCHOVÝCH ŘAD Gejza Dohnal (Bez)poruchovost je opravitelných systémů je dynamická záležitost, v níž klíčovou úlohu hraje čas. Jeho úloha při analýze ovšem může být různá. Dokonce nemusí být měřen ani v časových jednotkách, ale například v jednotkách délkových (ujeté kilometry), objemových (množství vyrobeného materiálu) nebo bezrozměrný (počet provozních cyklů). Důležitější než fyzikální jednotky je ovšem způsob jeho měření. Můžeme jej měřit průběžně, od nějakého okamžiku – počátku sledování – bez ohledu na výměnu, odstávku starých a instalaci nových strojů. Takový čas budeme nazývat „reálným časem“. Reálný čas nerozlišuje individualitu strojů. Jiný způsob měření času je čas od instalace zařízení do konce jeho provozuschopného života. Takový čas budeme nazývat „stářím“ zařízení. Stáří stroje zahrnuje i úseky jeho existence, kdy stroj nepracoval nikoli kvůli poruše či opravě, ale prostě proto, že pro něj „nebyla práce“. Dovedeme si představit například větrák v hotelové koupelně, který pracuje pouze po rozsvícení světla a ještě dvě minuty po jeho zhasnutí a jinak stojí (a nemůže se tedy porouchat). Nebo tři roky starý automobil, který slouží jako taxi bude mít zřejmě jiné vlastnosti z hlediska poruchovosti než stejně starý automobil, který používal jeho majitel pouze na víkendové výlety po okolí. To nás vede k dalšímu způsobu měření času – k „době provozu“. Při modelování vzniku a průběhu poruch v čase se používají různé pravděpodobnostní modely poruchovosti. Jejich cílem je obvykle předpovídat pravděpodobnost vzniku poruchy, počet poruch v určitém časovém horizontu, dobu bezporuchového provozu a podobně. Charakteristiky (bez)poruchovosti se používají k hodnocení jakosti výroby, služeb, výrobků, při návrhu (konstrukci) nových postupů, procesů, výrobků. Ze stochastických modelů se často používá Poissonův proces ve své nehomogenní variantě, dále různé aproximace pomocí semimarkovských modelů. Používání těchto modelů na jedné straně vyžaduje zavedení řady přísných omezujících předpokladů, v reálném provozu často nesplnitelných, na straně druhé vyžaduje použití poměrně složitých matematických nástrojů. Při studiu zákonitostí v posloupnosti okamžiků vzniku poruch (poruchových časových řad) se s úspěchem uplatňují metody analýzy časových řad, známé jako Box-Jenkinsonova metodologie. Výrobci systémů a vybavení často udávají spolehlivost v pojmech sumárních statistik, jako je střední doba mezi poruchami (mean time between failures, MTBF). Málokdy se však ověřují poměrně důležité předpoklady, za nichž lze tuto charakteristiku použít. MTBF popisuje sice čas, ale nezachycuje vývoj v čase a vyžaduje řadu předpokladů, čímž je náchylná k nesprávné interpretaci. Prvním předpokladem je to, že systém je opravitelný a události nastávají rekurentně, s jednoduchým rozdělením doby mezi událostmi. Jinými slovy, že proces poruch tvoří proces obnovy. Dalším předpokladem je nezávislost a exponenciální rozdělení doby mezi událostmi s konstantní intenzitou výskytu, což vede k homogennímu Poissonovu procesu výskytu poruch. Spolehnutí se na MTBF bez plného porozumění všech souvislostí a ověření předpokladů může v důsledku vést k zanedbání trendů vývoje a ke klamným závěrům [3,7]. Všimněme si následujícího obrázku: popisuje poruchovost tří strojů (A, B a C), každý z nich se v průběhu 3000 provozních hodin třikrát porouchal. Ve všech případech je tedy MTBF stejná, což by mohlo mylně vést k závěru o stejné bezporuchovosti těchto tří strojů A, B a C. Z obrázku však vidíme, že tomu tak není.
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
Stroj A
Stroj B
Stroj C
0
1000
2000
3000
Obr. 3: Graf výskytu poruch strojů A,B a C.
Zřejmě se budeme jinak chovat ke stroji A, který se porouchal na počátku svého provozu, ale od té doby se neporouchal, jinak ke stroji C, který dlouho běžel bez poruchy, nicméně nyní je třeba rychlého zásahu k odstranění příčin poruch, vyskytujících se v poslední době. Není zde splněna podmínka stejného rozdělení dob mezi poruchami u jednotlivých strojů. Jiný příklad ukazuje na nebezpečí použití extrapolace v souvislosti s MTBF v případě „neopravitelných“ systémů. V průběhu let 1996-1998 je uváděna průměrná roční úmrtnost dětí ve věku 5-14 let v USA 20.8 na 100 000 dětí. Průměrná intenzita „poruchy“ je tedy 0.02%/rok, z čehož bychom mohli odvodit střední dobu mezi poruchami 4800 let! To je samozřejmě nesmysl. Odhady parametrů v modelech poruchovosti metodou maximální věrohodnosti (MLE) jsou velice výkonné a přesné, jsou odvozeny pro různě cenzorovaná data a existuje mnoho literatury, popisující tyto metody. Nicméně, tento parametrický přístup je pro praktické použití často příliš omezený předpoklady a tudíž je velmi náchylný k chybné interpretaci. Parametrické metody vedou k poměrně složitým formulím, čímž se stávají příliš složité pro komunikaci s manažery a zákazníky. TDR – Time Dependent Reliability Sledování spolehlivosti složitých systémů nevyžaduje nutně komplikované modely. Názvem TDR je v literatuře označován soubor neparametrických metod pro analýzu dat o poruchách. Umožňují relativně jednoduchou analýzu i v případě komplikovaných systémů a lze je jednoduše použít i pro cenzorovaná data. Začínající praktici si najdou mnohem snadněji vztah k neparametrickému přístupu ve srovnání s náhodným modelováním při použití různých rozdělení. Tento příspěvek ukazuje několik jednoduchých grafů které pomáhají sledovat poruchovost skupiny složitých zařízení (strojů) současně, umožňují jejich srovnání a identifikaci rizikových strojů. Poruchovost je zde zjišťována jako funkce času, aniž by k tomu bylo potřeba složitých stochastických technik při zachování statistické přesnosti. Analýzy založené na střední kumulativní funkci (MCF) jsou jednoduché a snadno srozumitelné pro ty, kteří mají provádět rozhodování. Pro aplikaci metod TDR je nutné provádět podrobnou evidenci provozu všech strojů, i když neměly poruchy Pro jednotlivé stroje je třeba zaznamenávat datum instalace, uvedení do provozu, poruchy, opravy a vyřazení z provozu a další. Kumulativní graf. Kumulativní graf je graf počtu poruch v závislosti na čase pro jednoduchý systém. Čas může být v hodinách, ve dnech od instalace, kalendářní datum, případně počet cyklů. Kumulativní grafy odhalují trendy ve výskytu poruch či oprav. 8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
Počet
Počet poruch
Stabilní systém
Zhoršující se systém
Stáří systému (hod)
Stáří systému (hod)
Obr. 5: Každý ze tří následujících kumulativních grafů zobrazuje systém, na němž nastalo 10 poruch v průběhu 700 hodin. To vede k MTBF=70 hod. Ačkoli je MTBF ve všech třech případech stejná, je zde zřejmý rozdíl v chování jednotlivých systémů. Kumulativní grafy ukazují daleko více a jsou dokonce jednodušší než MTBF.
Počet h
Zlepšující se systém
Stáří systému (hod) 12
10
Stroj Stroj Stroj Stroj
8 Počet poruch
Zobrazením kumulativních grafů počtu poruch několika zařízení do jednoho grafu dostáváme nástroj pro jejich vzájemné srovnání. Následující graf zobrazuje vývoj poruch u čtyř strojů vzhledem k jejich stáří (značky označují vznik poruchy). Data jsou cenzorovaná zprava (stroje mají různé stáří):
6
4
2
0 0
100
200
300
400
500
Věk (stáří ve dnech)
Obr. 6: Kumulativní graf počtu poruch strojů A,B,C a D
Průměrná kumulativní funkce. Průměrná kumulativní funkce (Mean Cumulative Function, MCF) reprezentuje průměr kumulativního počtu poruch přes všechny systémy které jsou v provozu v každém časovém okamžiku. Obrázek 7 ukazuje provoz tří strojů s poruchami a cenzorovaným časem. Tabulka 1 ilustruje výpočet MCF při cenzorování. Nastala-li první porucha ve 33 hodinách, je to jedna porucha ze tří strojů a tedy MCF=1/3. Ve 135. hodině nastává další porucha při provozu tří strojů a to znmaená MCF=2/3 (kumulativní počet poruch/počet strojů). Ve 300. hodině je cenzorován systém 3, čímž počet strojů v provozu klesá na dva. Poměr porucha/stroje v následujících dvou případech klesá na ½. Systém 2 ukončí provoz v čase 500 (další cenzorování) a tím počet strojů v provozu klesá na jeden.
8.
NÁRODNÍ KONFERENCE
A B C D
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
600
stroj 1 stroj 2
*
*
*
stroj 3
100
* 200
300
*
* 400
500
600
700
Obr. 7: Příklad výpočtu MCF při cenzorování zprava. Čas (hodiny)
Počet strojů v provozu 3 3 3 3 2 2 2 1 1
33 135 247 300 ┤ 318 368 500 ┤ 582 700 ┤
Poruchy/stroj
MCF
1/3 1/3 1/3 1/2 1/2 1/1 -
1/3 2/3 3/3 3/3 3/3+1/2 3/3+2/2 3/3+2/2 3/3+2/2+1/1 3/3+2/2+1/1
Tabulka 1: Postupný výpočet MCF
Obrázek 6 ukazuje kumulativní grafy 4 strojů v datovém centru vzhledem k jejich věku. Udělejme vertikální čáru v určitém čase, například v 94 dnech. Stroj A měl v tu dobu 3 poruchy, stroj B dvě a stroje C a D po jedné. Hodnota MCF je zde rovna 1,75. Podobným způsobem můžeme spočítat hodnotu MCF pro každý čas. Výsledek je zobrazen na obrázku 8. Stroj A
12
Stroj B Stroj C
10
Stroj D MCF
Počet poruch
8
6
4
2
0 0
100
200
300
400
500
600
Věk (stáří ve dnech)
Obr.8: MCF pro stroje A,B,C,D z obr. 6.
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
MCF ukazuje očekávaný počet poruch v čase pro daný systém a má vlastnosti kumulativního grafu, jako například průměr trendů. Jsou-li stroje instalovány v různých časech, znamená to, že k určitému času mají různý věk. Tedy projevuje se zde silné cenzorování zprava. Například, předpokládejme, že stroj A byl instalován 1.1.03 a stroj B dne 1.3.03. Potom 1.1.04 bude starý 365 dní a stroj B pouze 301 dní. Potom k 1.1.04 budeme mít pro výpočet MCF od stroje A informaci o 365 dnech věku, u stroje B však pouze o 301 dnech věku. To je příklad cenzorování zprava. Jiný případ nastává, když informace o poruchách jsou k dispozici až od určitého data. To znamená cenzorování zleva, neboť nejsou informace z období před tímto datem. Například, pokud zahájíme pozorování dnem 1.4.03, nebudeme mít informaci o poruchách stroje A z období 1.1.03 – 31.3.03, tedy o prvních 90 dnech jeho provozu. Obdobně nám bude chybět informace o prvních 31 dnech provozu stroje B. To je zase příklad cenzorování zleva. MCF graf se vypořádá i s takovýmito situacemi tak, že analyzuje počet ohrožených strojů pouze v časech, kdy poruchy nastávají. Výše uvedený postup platí obdobně i pro data cenzorovaná zleva až na situaci, kdy počet strojů v provozu narůstá po ukončení zleva cenzorovaného času. Je zřejmé, že tyto metody lze snadno implementovat například do tabulkového procesoru MS Excel. MCF lze doplnit o intervaly spolehlivosti [2], které lze zobrazit okolo křivky MCF. Pokud kumulativní graf stroje jde nad horní konfidenční mez, můžeme říci, že stroj prodělal významně více poruch, než systém jako celek. Touto jednoduchou metodou lze identifikovat zvláštního chování stroje, kterému je třeba věnovat větší pozornost. Pokud kumulativní graf stroje leží nad horní mezí, potom na základě vizuální interpretace a heuristiky lze rozhodnou o tom, zda je počet poruch významně vyšší než je průměr systému. Tento heuristický přístup lze uplatnit ve většině praktických situací (především při malém rozsahu výběru) mnohem snadněji, než použití exaktních výpočtů predikčních intervalů a testů odlehlých hodnot. Obr. 9 ukazuje MCF a 95% intervaly pro 4 stroje z obrázku 4. Je zcela zřejmé, že stroj A měl významně vyšší počet poruch. Dokonce i stroj D, který má druhý největší počet poruch, je ještě v konfidenčních mezích celého systému. Pozornost je tedy třeba věnovat především stroji A. Stroj A Stroj B
14
Stroj C Stroj D MCF LCL
12 10 Počet poruch
UCL 8 6 4 2 0 0
100
200
300
400
500
600
Věk (stáří ve dnech)
Obr.9: MCF pro stroje A,B,C,D z obr. 6 včetně horní (UCL) a dolní (LCL) konfidenční meze.
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
Intenzita opakování Intenzita opakování (recurrence rate, RR) je rovna směrnici křivky MCF v každém bodě. Graf těchto hodnot zdůrazňuje trendy v MCF vzhledem ke stáří či v reálném čase. Lze jej použít k identifikaci části věku nebo kalendářního času, kdy je intenzita výskytu poruch rostoucí či klesající. Intenzita opakování v reálném čase je obzvláště užitečná pro zobrazení trendů v intenzitě poruch ve skupinách složitých zařízení, kde často dochází ke změnám a výměnám. Intenzita opakování je odhadována numerickým derivováním kumulativního průměrného počtu poruch vzhledem ke stáří nebo k reálnému času [8]. Stupeň hladkosti křivky RR lze řídit počtem bodů, použitých k numerickému výpočtu směrnice trendu v každém bodě MCF.
Obr. 10: Intenzita opakování pro MCF z obr. 8.
V tabulkovém procesoru MS Excel lze k výpočtu použít funkci SLOPE(oblast1;oblast2). Na obrázku vlevo je ukázán příklad výpočtu RR v MS Excelu pomocí pěti po sobě jdoucích bodů. První hodnotu tak dostaneme jako směrnici trendu prvních pěti hodnot MCF vzhledem k prvním pěti časům (přepočteným na roky) a přiřadíme ji třetímu řádku. Další hodnotu (pro čtvrtý řádek) dostaneme použitím 2.6. hodnoty MCF a odpovídajících časů. Tak postupujeme až do poslední pětice hodnot MCF. Výsledná křivka je na obr. 10. Kdybychom zvolili širší „okno“, například sedm bodů. dostali bychom „hladší“ průběh křivky RR.
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
Analýza v reálném čase. Počítačové systémy v komerčních datových centrech podléhají mnoha změnám v průběhu provozu. Jsou aplikovány softwarové záplaty, přechody k vyšším verzím programů, rozšiřování a modernizace paměti, doplňování disků, kabelů a další. Tyto efekty nepodléhají běžnému opotřebení věkem podle klasické „vanové křivky“, ale jsou výsledkem „vnějších událostí“, ovlivňujících konfiguraci a činnost strojů. Od okamžiku instalace stroj prochází řadou různých „stáří“. Z toho plyne, že ze zprůměrované MCF počítané na základě stáří stroje nemůže být zřejmý vliv reálného (kalendářního) času. Abychom zjistili vliv reálného času, můžeme použít graf MCF vzhledem k reálnému času. V podstatě začínáme od data instalace prvního stroje a počítáme poměr poruchy/stroje v každém okamžiku až do současné doby a zakreslujeme kumulativní průměr tohoto poměru v reálném čase. Podívejme se na příklad dvou systémů, jejichž MCF je na obr. 11a zakreslena vzhledem ke stáří. Zakreslíme-li MCF pro tytéž dva systémy vzhledem k reálnému času (obr. 11b), můžeme si všimnout současného rychlého nárůstu pro oba systémy v červnu 2001. Tyto rychlé nárůsty byly patrné i v grafu vzhledem ke stáří, ale jejich souvislost zde nebyla patrná. Ještě výraznější je tento jev na grafech intenzit opakování (obr. 12a,b), kde jsou tyto jevy zobrazeny jako výrazné vrcholy. Tyto vrcholy se v reálném čase překrývají. Stroj A byl uveden do provozu 1.1.2001, stroj B zahájil provoz 1.4.2001, dodatečně bylo zjištěno, že 1.6.2001 byl proveden softwarový upgrade systémů, což přineslo jisté problémy.
Obr. 11: MCF vzhledem k a) stáří systémů, b) reálnému času
Obr. 12: Intenzita opakování vzhledem k a) stáří systémů, b) reálnému času
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
Na následujícím obrázku 13 je zobrazena souvislost mezi MTBF a intenzitou opakování RR. Převrácenou hodnotu MTBF můžeme chápat jako intenzitu poruch v případě, že by se doba mezi poruchami v systému řídila exponenciálním rozdělením s parametrem λ=1/MTBF a proces vzniku poruch je homogenní Poissonův proces. Naproti tomu RR představuje jakousi „proměnnou“ intenzitu poruch, vedoucí k nehomogennímu procesu vzniku poruch.
Obr. 13: Intenzita opakování vzhledem k převrácené hodnotě MTBF v reálném čase
Z obrázku je patrné, že výši MTBF ovlivnilo několik poruch v krátkém časovém úseku IV/03V/03 na jediném stroji, poté stabilní stav VI/03 – XII/03. Od I/04 lze pozorovat pokles intenzity opakování pod úroveň danou převrácenou hodnotou MTBF (zlepšení stavu).
Analýza příčin poruchovosti.
Na obrázku 14 (vpravo) je výsledek Paretovy analýzy poruch zařízení, způsobených pěti možnými příčinami A, B, C, D a E. Z grafu je vidět relativně stejná závažnost příčin A, B, C a D. Co z grafu už nezjistíme, je informace o tom, které ze sledovaných příčin již byly odstraněny a které stále hrozí.
počet událostí
Při analýze poruchovosti nás přirozeně zajímají i příčiny poruch. Výsledky takovéto analýzy jsou sdělovány prostřednictvím Paretových, sloupcových, kruhových a dalších statických grafů. Takové grafy mohou být zavádějící, neboť neukazují důležité vlivy času. 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 příčina A
příčina B
příčina C
příčina D
příčina E
Zobrazíme-li pomocí kumulativního grafu vývoj poruch v čase (stáří systému nebo reálný čas), rozdělený podle příčin, dostaneme následující obrázek. Z obrázku je zřejmé, že například příčina D byla z velké části odstraněna v květnu 2003, podobně i příčina C. Zato příčina A, která se do června 2003 neobjevila, neustále hrozí a způsobuje nejvíce poruch v posledních čtyřech měsících.
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006
Na obrázku 16 (vpravo) je výsledek Paretovy analýzy poruch zařízení, způsobených pěti možnými příčinami A, B, C, D a E za období od 1.6.2003. Rozložení vlivu sledovaných příčin se výrazně změnilo. Podle tohoto grafu je zřejmé, že největší pozornost je třeba věnovat příčině A, zatímco příčina D má zde nejmenší váhu. Literatura: [1] [2] [3] [4] [5] [6]
počet událostí
Obr. 15: Kumulativní graf poruch podle jejich příčin v reálném čase
18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 příčina A
příčina B příčina C
příčina E
příčina D
Lawson, J.S., Wesselmann, C.W., Scott, D.T.: Simple Plots Improve Software Reliability Prediction Models, Quality Engineering, 15 (2003), č. 3. str. 411 - 417. Nelson W.: Graphical Analysis of System Repair Data, Journal of Quality Technology, 17, str. 140 -146. Nelson, W.: Recurrence Events Data Analysis for Product Repairs, Disease Recurrences and Other Applications, ASA-SIAM series on Statistics and Applied Probability, 2003. Tobias, P.A., Trindade, D.C.: Applied Reliability, Chapman & Hall/CRC, 1995. Trindade, D.C., Nathan, S.: Simple Plots for Monitoring the Field Reliability of Repairable Systems, Annual Reliability and Maintainability Symposium, Alexandria, Virginia, 2005 Usher, J.S.: Case Study: Reliability Models and Misconceptions, Quality Engineering, 6, č. 2, str. 261 - 271.
Doc. RNDr. Gejza Dohnal, CSc., Centrum pro jakost a spolehlivost, Fakulta strojní ČVUT v Praze, Karlovo nám. 13, 121 35 Praha 3.
[email protected]
8.
NÁRODNÍ KONFERENCE
STATISTICKÉ DNY
V
BRNĚ, BRNO 27. - 28.
ČERVNA,
2006