Spolehlivost INP 2008 FIT VUT v Brně
1
Obsah Definice, ukazatele Kombinatorické modely Zvyšování spolehlivosti systému - Bezpečné systémy a Systémy odolné proti poruchám Poznámky Příklady – na cvičení
2
Spolehlivost (ČSN 01 0102 „Názvosloví spolehlivosti v technice“) byla definována jako obecná vlastnost objektu spočívající ve schopnosti plnit požadované funkce při zachování hodnot stanovených provozních ukazatelů v daných mezích a v čase podle stanovených technických podmínek. Objekt – součástka, obvod, funkční jednotka, nebo systém Provozní ukazatele – produktivita, rychlost, výkonnost, spotřeba energie, … Technické podmínky – souhrn specifikací technických vlastností, předepsaných pro požadovanou funkci objektu, způsob jeho provozu, skladování, přepravy, údržby a oprav Spolehlivost je komplexní vlastnost objektu, která je číselně nekvantifikovatelná – v angličtině dependability 3
Platná terminologická norma ČSN IEC 50 (191) uvádí: Spolehlivost je souhrnný termín používaný pro popis pohotovosti a činitelů, které ji ovlivňují: bezporuchovost, udržovatelnost a zajištěnost údržby. Selhání systému může nastat z těchto důvodů: Chyba software Návrhová chyba hardware Náhodná chyba (v datech) • Vnější rušení – např. chyba v datech, uložených v paměti, tj. bez poruchy, např. částicí alfa • Porucha hardware – fyzikální (nemusí se hned projevit) destrukcí – průraz statickou elektřinou, aj. korozí elektromigrací mechanickým poškozením jinak
4
Z časového hlediska rozlišujeme poruchy a chyby na • časově stálé – permanentní, tedy trvalý defekt – hard defect • přechodné – objeví se chyba v datech a zase zmizí – soft error, transient error • občasné – opakovaně se občas objeví a zase zmizí – intermittent, např. zlomený drát, nebo vadný mechanický kontakt („vakl“ kontakt)
• Intenzita poruch je definována vztahem
λ = lim ∆t →0
pocet nezávislých poruch pro t → ∞ ∆t 5
Ukazatele spolehlivosti R(t) – pravděpodobnost bezporuchové činnosti v intervalu <0, t>, v angl. reliability – nezaměňovat se spolehlivostí! Je to podmíněná pravděpodobnost, a to tím, že v čase 0 je objekt bez poruchy. R(t) se chová podle exponenciálního zákona R(t) = e-λt Komplementární veličina je pravděpodobnost výskytu poruchy Q(t) = 1 - R(t). (λ je intenzita poruch, u exponenciálního zákona je to konstanta, ale viz dále.) Sledovaný časový interval činnosti (doba mise – mission time) je zásadní: • u počítače v kosmických aplikacích je např. 10 let (let kosmické sondy na hranici sluneční soustavy) • u počítače pro letadla je např. 15 hod, tj. asi max. doba letu 6
Funkce R(t) při různých hodnotách λ
7
Odolnost proti poruchám je něco jiného, než pravděpodobnost bezporuchové činnosti. Odolný systém pracuje bezchybně i za přítomnosti poruch! Jak? – díky použití opravných kódu, a maskováním chyb/poruch systémem TMR – viz dále. Ani velmi spolehlivý systém, postavený z velmi spolehlivých součástek nemusí být odolný proti poruchám. Pohotovost (availability) je pravděpodobnost, že v okamžiku t bude systém funkční. Koeficient pohotovosti Kp(t), v angl. a(t). Např. počítač v bance může mít občas poruchu, ale musí se rychle opravit tak, aby to klienti nepoznali. Takže nemusí být odolný proti poruchám. Ale nesmí udělat chybu v datech! To je druhá zásadní vlastnost – bezpečnost (safety). 8
Střední doba bezporuchové činnosti TS ∞
TS = ∫ R(t )d (t ) 0
• Intenzita poruch λ(t) je obecně funkcí času. Pro exponenciální zákon platí TS = 1/λ. TS
pokud
•TS nemá stejný význam jako další veličina, používaná pro opravované systémy, tzv. střední doba mezi poruchami – Mean Time Between Failures (MTBF) • Pro neopravované systémy lze TS lze ztotožnit se střední
dobou do (první) poruchy Mean Time To a Failure (MTTF) 9
Vztahy mezi středními ukazateli spolehlivosti ~ MTBF ~ MTTF
~ MTBF
Funkční
Detekce chyby – lokalizace poruchy – oprava ~ MTTD ~ MTTL ~ MTTR
Funkční
~TS
~ TS
První porucha
Druhá porucha
MTTD – Mean Time To Detect MTTL – Mean Time To Locate MTTR – Mean Time To Repair 10
Časový průběh funkce λ(t) je popsán vanovou křivkou.
zahořování, doba života, λ je konstantní, systém je v záruce
konec životnosti
Pro konstantní intenzitu poruch λ platí TS = 1/λ Pro opravované systémy je analogicky zavedena intenzita oprav µ jako převrácená hodnota střední doby opravy TO = 1/µ Pohotovost a = TS/(TS+TO) = µ/(µ+ λ)
11
Bezpečnost (safety) S(t) je pravděpodobnost, že systém buďto pracuje správně, nebo hlásí poruchu, případně chybu v datech. Hodnota S(t) je tedy větší než R(t). Příklady: • Lékařské přístroje jako např. pro dialýzu, nebo krevní pumpa, kdy se předpokládá, že poblíž je dozor, který rychle zasáhne. • Systémy pro řízení dopravní křižovatky nebo železničního přejezdu se konstruuje jako bezpečný. Když selže, nesmí nikdy nastavit v obou směrech zelenou, resp. nesmí blikat bílé světlo. Bezpečný stav je: nesvítí nic, všude je červená, nebo oranžová, atd. • Když se porouchá hydraulika letadla, lze je řídit ručně. • Když se porouchá ventil, tak nejde otevřít. 12
Kombinatorické výpočty Sériové spolehlivostní zapojení R1
R2
Rn
n
R(t ) = ∏ Ri (t ) i =1
za dobu t
Paralelní spolehlivostní zapojení
R1 R2
Rn
Výčet provozuschopných stavů: 111 … 1
n
Výčet provozuschopných stavů: 111 … 1 011 … 1 101 … 1 … 000 … 1 000 … 0 Ne! n
Q (t ) = ∏ Qi (t ) ⇒ R(t ) = 1 −∏ (1 − Ri (t )) i =1
i =1
13
V praxi se nejčastěji vyskytují kombinované sériově-paralelní systémy, které mohou být značně složité. Jedna z výpočtových metod pravděpodobnosti bezporuchové činnosti R je použití modifikovaných Karnaughových map. Postup výpočtu: 1. Vytvořit spolehlivostní model analyzovaného systému. 2. Nakreslit spolehlivostní Karnaughovu mapu – 1 odpovídá bezporuchovému modulu, 0 modulu s poruchou. Počet proměnných je roven počtu modulů v systému. U složitých systémů sdružujeme moduly do modulů vyšší úrovně, a ty pak řešíme postupně. 3. Provozuschopné stavy systému vyznačíme v mapě jedničkami. 4. Najdeme disjunktní pokrytí mapy, tj. každá jednička je pokryta pouze jedenkrát. Formálně zaměníme logické operace AND, OR, NOT za součin, součet a jedničkový komplement. 14
Příklad:
B A C B C
A
1
1
1
A, B, C jsou pravděpodobnosti bezporuchové činnosti Výčet provozuschopných stavů: Disjunktní pokrytí a úprava: ABC 111 R = A.B + A.(1-B).C 110 101
15
Zvyšování spolehlivosti systému Základní princip zvyšování spolehlivosti je zálohování součástek, funkčních jednotek, nebo celých systémů (redundance). Typy záloh: - technické vybavení (zálohy zdvojení, ztrojení, …) - programové vybavení (alternativní programy, testovací a diagnostické programy) - informační (detekční a opravné kódy) - časové (opakování operace) Typy substitučních záloh: - zatížená – intenzita poruch je stejná, jako u funkční jednotky – stejný pracovní režim - odlehčená – intenzita poruch je snížená, např. snížením napájecího napětí - nezatížená – intenzita poruch je (teoreticky) nulová Typy záloh podle využití v čase: - statická – pracuje nepřetržitě po celou dobu funkce systému, je trvale připojená, nebo jako záloha bez přepínání - dynamická – neboli s přepínáním podle potřeby 16
Techniky zajištění odolnosti proti poruchám • Statická redundance – třímodulová redundance (TMR)
Pozn: Simplex = 1 modul
17
Techniky zajištění odolnosti proti poruchám •
Dynamická redundance – Při poruše aktivního modulu se systém přepne na záložní modul
•
Hybridní redundance – TMR + náhrada poškozených modulů záložními moduly
18
Duplexní systém • Jednoduchá metoda • Duplexní systém nemůže současně využít výstupů obou prvků. Nelze tedy dosáhnout maskování chyby a řízená soustava je ohrožena chybou nebo výpadkem řídicího signálu během přepínání na záložní prvek.
19
Poznámky Zákony Binomický zákon – vyjadřuje pravděpodobnost P, že nastane r nezávislých událostí na n místech. Předpokládá, že pravděpodobnost výskytu události p (vadný výrobek, průraz izolace) je stejná. n−r r n r ( ) n ! p 1 − p n−r ( ) P = . p . 1 − p = r!(n − r )! r
20
Zálohování „m z n“
R(t )m z n kde
n−m
n n −i i = ∑ R (t )[1 − R (t )] i =0 i
n je počet všech modulů m je počet požadovaných fungujících modulů i je počet přijatelných poruch
Weibullovo rozdělení Použitelné pro případy, kdy λ není konstanta. Například u software po odstranění počátečních chyb pravděpodobnost bezchybné činnosti roste. Funkce intenzity poruch z(t) = αλ(λt)α-1 Pro α = 1 je z(t) = λ α> z(t) roste α< z(t) klesá α = -1 R(t) = e-1/λt pro t → ∞ R(t) → 1 t = 0 R(t) = 0 21