Motiváció Rendelkezésre állás kiértékelése
Tőzsdei kereskedelem Bankkártya fizetés
On-line szinház és koncert jegyek
Tapolcai János
[email protected]
Repülőjegy foglalás
1
Alapfogalmak II.
2
Hálózat hibajavítás mellett
• Hiba Hib (F (Failure) il )
eszköz teljesen képes ellátni a feladatát
– az a pillanat amelytől egy váratlan esemény hatására az eszköz nem képes ellátni a feladatát
• Megbízhatóság (R, Reliability)
UP
– annak a valószínűsége, g hogy gy egy gy adott eszköz egy gy adott időintervallumban nem fog meghibásodni.
DOWN
• Rendelkezésre állás (A, Availability) – annakk a valószínűsége, ló í ű é h hogy egy adott d tt eszköz kö egy adott pillanatban működik
t eszköz meghibásodott, a helyreállítás még folyamatban van
• Rendelkezésre nem állást (U, (U Unavailability) – U = 1-A – Meghibásodás g valószínűsége g 3
4
Rendelkezésre állás
Alapfogalmak II II.
• A(t) = Pr P { time ti t, t system t = UP }
• •
MTTR (Mean Time To Repair) Hibajavításig várható középidő MTTF (Mean Time to Failure) Hibáig várható középidő
•
MTBF (Mean (M Time Ti Between B t Failures) F il ) Hibák közötti kö ötti középidő kö é idő
– MTTR << MTTF
• U(t) = Pr { time t, system = DOWN }
– MTBF=MTTF+MTTR – ha a hibajavításnál nincsen késleltetés –
• A(t) + U(t) = 1 • R(t) [0 – t] hosszú meghibásodás mentes időintervallum valószínűsége 5
6
Eszközök életciklusa
Alapfogalmak III III.
• beüzemelési időszak: alacsony a rendelkezésre állás, hetek
• MUT (M (Mean U Up Ti Time)) M Megfelelő f l lő működési űködé i középidő kö é idő
– hónapokban mérhető
– Megfelel a MTTF, amennyiben a kiesést meghibásodás okozza
• Stabil üzemelési időszak: a rendelkezésre állás nagyjából állandó szinten marad marad,
• MDT (Mean Down Time) Nem megfelelő működési középidő
– jó esetben ez a leghosszabb időszak
– Megfelel a MTTR, amennyiben a kiesést meghibásodás okozza
• elhasználódás: amikor a rendelkezésre állás lecsökken az alkatrészek elöregedése miatt.
• MCT (Mean Cycle Time): Ciklus középidő
– Változó hosszúságú
– MCT=MUT+MDT
• FIT (Failures in Time) • MTBF[h]=10^9/FIT 7
8
Markov modellek
Rendelkezésre állás kiértékelése 1−λ
• A hibák exponenciális eloszlással jönnek – Elméleti szempontból ez támadható és gyakran Weibull eloszlást használnak – λ meghibásodási ráta (idő független)
λ UP 1
DN 0
μ
1
= MTTF
1
= MTTR
λ 1−μ
μ
• Állapotegyenleteket p gy írjuk j fel rá
• A meghibásodott eszközök helyreállítási ideje exponenciális eloszlású
– folyamegyenletek
– gyakran Weibull eloszlást használnak – μ helyreállítási ráta (idő független) 9
10
Markov lánc megoldása
Két állapotú Markov modell λ
11−λ λ
• Írjuk Í fel az állapot átmenet valószínűségeket
UP 1
– átmenet mátrix: P
• A Markov-lánc homogén (átmenetek nem függnek gg az időtől))
Átmenet mátrix:
DN 0
μ
1−μ
λ ⎞ ⎛1 − λ ⎟⎟ P = ⎜⎜ ⎝ μ 1− μ ⎠
λ ⎞ ⎛1 − λ ⎟⎟ ( A U ) = ( A U ) ⋅ ⎜⎜ ⎝ μ 1− μ ⎠ A = A ⋅ (1 − λ ) + U ⋅ μ
– A k-lépéses átmenet-valószínűség mátrixa Pk – Ilyenkor y a stacionárius eloszlás π,, egy gy ((sor)vektor, ) , amelyre teljesül
stacionárius eloszlás:
π =π ⋅P
– π mindig létezik, (mi esetünkben ez egyértelmű is)
λ⋅ A=U ⋅ μ 11
U + A =1
A=
μ λ+μ 12
Két állapotú Markov modell λ
11−λ λ
1
UP 1
DN 0
λ
1
μ
Ass=
A(t)
μ λ+μ
1−μ
μ 1
Két állapotú Markov modell
ASS =
= MTTF
μ λ+μ
=
1λ MTTF = 1 λ + 1 μ MTTF + MTTR
• Ha nincs helyreállítás (μ=0) a rendelkezésre állás megegyezik a megbízhatósággal
= MTTR
A(t ) = R(t ) = e − t / MTTR 13
14
Állandosult állapot
Rendelkezésre állás
1 0
UP
DOWN
t
Rendelkezésre állás
Kilencesek száma
Nem megfelelő működési idő évente*
Nem megfelelő működési idő havonta**
Nem megfelelő működési idő hetente*** 16.80 óra
90%
1 kilences
36.52 nap
73.04 óra
95%
-
18.26 nap
36.52 óra
8.40 óra
98%
-
7.30 nap
14.60 óra
3.36 óra
99%
2 kilences
3.65 nap
7.30 óra
1.68 óra
Várható működési idő
E[U(t)] = MUT = MTTF
99.5%
-
1.83 nap
3.65 óra
50.40 perc
99.8%
-
17.53 óra
87.66 perc
20.16 perc
Vá h tó kiesési Várható ki é i idő
E[D(t)] = MDT = MTTR
99 9% 99.9%
3 kilences
8 77 óra 8.77
43 83 perc 43.83
10 08 perc 10.08
ASS =
μ λ+μ
=
MUT MTTF = MUT + MDT MTTF + MTTR 15
99.95%
-
4.38 óra
21.91 perc
5.04 perc
99.99%
4 kilences
52.59 perc
4.38 perc
1.01 perc
99.999%
5 kilences
5.26 perc
25.9 másodperc
6.05 másodperc
99.9999%
6 kilences
31.56 másodperc
2.62 másodperc
0.61 másodperc
99.99999%
7 kilences
3.16 másodperc
0.26 másodperc
1. másodper c
Karbantartott
Jól karbantartott
Hibavédett Nagy megbízhatóságú
16
Megbízhatóság becslő modellek • Kezdetben K d tb csakk elektromos l kt eszközökre kö ök • Katonai kézikönyv
• Figyelembe veszi az üzembetartási y körülményeket
– MIL-HDBK-217 (Military Handbook, Reliability Prediction of Electronic Equipment)
– Terepen mért adatokat – laboratóriumban tesztelt adatokat
• Mikroelektronikai áramkörök • Félvezetők • passzív elemek
• AT&T Bell Labs.
– Görbéket próbálnak illeszteni a megfigyelésikre.
R (t ) = e
Telcordia szabvány
– Azóta Telcordia szabványnak hívják – France Telecom (CNET93) és British Telecom (HRD5) is továbbfejlesztette
− λ pt
• ahol λp = eszköz meghibásodási rátája 17
IP router: route processor MTBF[h] 200·103 MTTR[h] 4
IP router
18
SDH/SONET
IP Router ( i lifi d model, (simplified d l configuration fi ti example l ) Control
IP router: interface card MTBF[h] 85·103 MTTR[h] 4
SDH DXC/ADM: MTBF[h] 1·106 MTTR[h] 4
OEO DXC-nél sokkal nagyobb a port-szám
Not ussed
Pow. Supply, h i housing, conditioning
IP router: SW [ ] 30·103 MTBF[h] SW MTTR[h] : • optimista becslés library • SW újraindítás • 0.0004 HW common parts •Átlagos becslés • SW teljes újra 8 slot töltés available • 0.02 •ovatos becslés • nincs i automatikus t tik 2 X 1 portGigabit Ethernet module újraindítás 4 X 1 port OC48/STM16 POS line card • 0.25
Trunk Transponder Tributary Transponder
1 X 4 portt OC3/STM1 POS line li cardd 19
20
WDM
Légkábel MTBF[km]=175·103 MTTR=6 Föld kábel MTBF[km]=263·103 MTTR=12
Transponder
WDM OXC (OEO) or OADM MTBF=100·103 MTTR=6
Tengeri kábel MTBF[km]=4640·103 MTTR=540 Cable/ Fibre
MTBF=400·103 MTTR 6 MTTR=6
Amplifier
MTBF=250·103 MTTR 6 MTTR=6
ODXC redundant: 1+1 protected MTBF=6·106 MTTR=4 MTTR 4
WDM line system
MTBF=160·103 MTTR=6
Jelzés rendszer (Control Plane) meghibásodása • ASON/ASTN • hasonló az IP router SW. SW A következmények mások – IP router: t SW meghibásodáskor hibá dá k valamennyi l i csomag elveszik – ASTN CP meghibásodáskor a meglévő kapcsolatok nem sérülnek
OXC
• Kivéve amikor a kapcsolatokhoz állandóan megerősítő üzentet kell küldeni (pl. RSVP) 21
Hiba források – hardware hibák • Háló Hálózatiti eszközök kö ök meghibásodása hibá dá (h (hardware d failures)
22
Hiba források – Software hibák • Szoftver hibák (software failures) – hibás tervezés
– Típushibák • gyártás és kivitelezés alatti tervezési hibákból származtathatóak • Tesztelésnél kell őket kiszűrni
• nagy komplexitásúak és összetettek
– helytelen implementáció
– Elhasználódás
• Pl. változó nevek elgépelése
• Processzor, memória, alaplap, iterface-ek • Mozgó M ó alkatrészek: lk é k
– A fordító gyakran észreveszi
• Hibás memória művelet
– hűtő ventilátor, háttértár, tápegység – A természeti jelenségek, is jellemzően ezekre az eszközökre vannak a legnagyobb hatással hatással. » magas páratartalom, magas hőmérséklet, földrengés
• kondenzátorok, tranzisztorok, biztosítékok 23
24
Hiba források – Operátor hibák II. II
Hiba források – Operátor hibák II. II
• ált általános lá operátori át i ffeladatokból l d t kból eredő dő hibák (maintanace ( i t errors)
•
Nem tervezett javítás – hibás beállításokból adnak • az útválasztók címzésénél
– rendszerek és hardware eszközök felfel és átkonfigurálása – javításokból következő hibás beállítások – frissítések és javítócsomagok telepítéséből eredő nem megfelelő működés
– – – –
rossz cím vagy prefixum rossz interfész azonosító rossz link metrikák rossz időzítők, sorok » Diffserv
• forgalom korlátozók (Traffic Conditioners) – Policers, classifiers, markers, shapers
• Rossz biztonsági beállítás – törvényes forgalom blokkolása
– egyéb a működtetéshez kapcsolódó hibák: • véletlen balesetből adódó fizikai hibák (reset) problémák ((elfelejtett j jjelszó)) • hozzáférési p
•
Tervezett javítás (planned maintanance) • túl hosszura nyúlt upgrade
25
26
Hiba források – felhasználók által okozott hibák (user failures)
Hiba források – Operátor hibák II. II •
• topológia t ló i //méretezés é t é /i/implementációs l tá ió ttervezési é i hibák hibák; – – – –
Rosszindulatú támadásokból eredő hibák – fizikai eszközök ellen
Routerekbe gyenge processzor kerül túl hosszú vezetékekből eredő magas bithibaarány helytelen topológia a védelmi útvonalakból eredő redundancia hiánya
• Betörés, rombolás
– csomópontok ellen • Feltörik a gépet, vírusok
– DoS (denial-of-service) támadás (Interneten gyakori) • • • •
Megpróbálja gp j túlterhelni a routereket egyszerre sok helyről IP address spoofing - IP cím hamisítás Pl: – Ping of Death – a ping csomag 65535 byte lehet lehet. 1996 gyakran le lehetett úgy fagyasztani a gépeket ha ennél hosszabb ping csomagot küldtél.
Kompatibilitási hibák
•
– gyártók és verziók között – különböző szolgáltatók vagy AS (Autonomous system) között
Nem várt felhasználói viselkedésből eredő hibák – Rövid távú
• Pl. autonóm rendszerek (AS, Autonomous System) közötti eltérő útválasztási konfigurációk, bebocsátás vezérlés (Admission Control) beállítások felelhetnek hálózati leállásokért. 27
• Rendezvények • Mobilitás
– Hosszú távú • új népszerű site site-ok, ok alkalmazások 28
Hiba források - Természeti okokból eredő hibák (environmental) • kábel szakadás
Michnet ISP Gerinchálózat 11/97 – 11/98 • Melyik lehet a 3 leggyakoribb hiba?
– építkezésnél
• rádió jjelek legyengülése gy g
Hardware Problem
– felépül egy épület – Felhők, szmog, köd – Madarak, Madarak repülő
Maintenance
• elektromágneses interferencia
Software Problem
Power Outage
– Elektromágneses zaj - napviharok
• áramkimaradás á ki dá • levegő nedvesség tartalma és a hőmérséklet
Fiber Cut/Cicuit/Carrier Problem
Interface Down
Malicious Attack
– Elromlik a légkondicionáló
• katasztrófák
Congestion/Sluggish
Routing Problems
– Tűz, földrengés, terror támadás, áradás, tsunami, villám 29
30
Michnet ISP Gerinchálózat 11/97 – 11/98 ok
tipus
db
[%]
Maintenance
Operator
272
16.2
Power Outage
Environmental
273
16.0
Fiber Cut/Cicuit/Carrier Problem
Outag es/ 1000 Syste m Years by Primar y Cause
120
Environmental
261 215
12.6
Hardware Problem
Hardware
154
9.0
Interface Down
Hardware
105
6.2
Routing Problems
Operator
104
61 6.1
Miscellaneous
Unknown
86
5.9
Unknown
32
5.6
Congestion/Sluggish
User
65
4.6
Malicious Attack
Malice
26
1.5
S f Software Problem P bl
S f Software
23
13 1.3
100
80 70
15.3
Operator
% of Outage s by Pri mary Cause 90
100 80
Unreachable
Unknown/Undetermine d/No problem
Esettanulmány trendek
60 60
50 40
40
User 5% Environmental 31%
30 20
20
10
Operator 35%
0 1985
unknown Malice 2% Softw are Hardw are Unknow n 15% 31 1% 11%
0 1987
1989
environment
operations
1985
1987
maintenance
hardware
1989
software
MTTF javult 32
2002 esettanulmány
Leggyakoribb okok •
Konfigurációs hibák (operator errors) – Egyszerű megoldások kellenek – Esetenként 90%
•
Tervezett javítás (planned maintenance) – Éjszakára szokták ütemezni – van úgy, hogy 20% a hibáknak
•
DoS támadás
•
Szoftver hibák
•
Link hibák
– A jövőben csak romlani fog a helyzett – 10 millió soros kodók
•
D. Patterson et. al.: “Recovery Oriented Computing (ROC): Motivation, Definition, Techniques, and Case Studies”, UC Berkeley Computer Science Technical Report UCB//CSD-02-1175, March 15, 2002,
– Nem csak szakadás, minden amitől egy pont-pont összeköttetés nem működik – védelem
33
34
Több elem rendelkezésre állása
Soros elemek – Rendelkezésre állás A = A1 x A2 x . . . x An
• Ismerjük az egyes elemek rendelkezésre g a rendszer állását célunk megbecsülni rendelkezésre állását • Feltételezzük hogy az elemek meghibásodása független
R (t ) = e − λ1 ⋅t ⋅ e − λ2 ⋅t ⋅ e − λ3 ⋅t ⋅K ⋅ e − λn ⋅t
1 35
2
3
n 36
Soros elemek megbízhatóságának egyszerű közelítése – Rendelkezésre R d lk é állá állás
WDM fényút Transponder
A = A1 x A2 x . . . x An
Föld kábel MTBF[km] MTBF[km]= 26.3·104 MTTR=12
Amplifier
WDM OXC (OEO) or OADM MTBF=10·104 MTTR=6
WDM line system
A =(1( U1) x (1( U2) x . . . x ((1- Un) A = 1 − ∑ un ⋅ ∀n
∏ (1 − u ) + ∑∑ u i
∀i ,i ≠ n
∀n ∀m
n
⋅ um ⋅
∏
∀i ,i ≠ n ,i ≠ m
(1 − ui ) − ∑∑∑ un ⋅ um ⋅ uo ⋅ ∀n ∀m ∀o
∏
∀i ,i ≠ n ,i ≠ m ,i ≠ o
(1 − ui ) + ... MTBF=40·104 MTTR=6
Ui<<1-U <<1 Ui
U ≈ ∑ un
MTBF=25·104 MTTR=6
MTBF=16·104 MTTR=6
OXC
• 200km
∀n
1
2
3
0.99070445
n 37
Referenciák • A Andrea d B Bobbio bbi “Dependability “D d bilit & M Maintainability i t i bilit Th Theory and Methods” • Jim Gray “Dependability Dependability in the Internet Era” Era • J.-P. Vasseur, M. Pickavet, P. Demeester, “Network Recovery. y Protection and Restoration of Optical, p SONET-SDH, IP, and MPLS”, Morgan Kaufmann Publishers, San Francisco 2004. • S. S Verbrugge, Verbrugge D. D Colle, Colle P P. Demeester Demeester, R. R Huelsermann, Huelsermann M. Jaeger, “General Availability Model for Multilayer Transport p Networks” , DRCN 2005. • Máthé Dániel, “Hálózatok rendelkezésre állásának vizsgálata”, diplomunka, BME 2007 39
38