2012. 11. 09.
Hiba források – hardware hibák • Hálózati eszközök meghibásodása (hardware failures) – Típushibák
Rendelkezésre állás modellek
• gyártás és kivitelezés alatti tervezési hibákból származtathatóak • Tesztelésnél kell őket kiszűrni
– Elhasználódás • Processzor, memória, alaplap, iterface-ek • Mozgó alkatrészek:
Dr. Babarczi Péter
[email protected] http://lendulet.tmit.bme.hu/~babarczi/
– hűtő ventilátor, háttértár, tápegység – A természeti jelenségek, is jellemzően ezekre az eszközökre vannak a legnagyobb hatással. » magas páratartalom, magas hőmérséklet, földrengés
• kondenzátorok, tranzisztorok, biztosítékok 1
Hiba források – Software hibák
2
Hiba források – Operátor hibák • általános operátori feladatokból eredő hibák (maintanace errors)
• Szoftver hibák (software failures) – hibás tervezés
– rendszerek és hardware eszközök fel- és átkonfigurálása – javításokból következő hibás beállítások – frissítések és javítócsomagok telepítéséből eredő nem megfelelő működés
• nagy komplexitásúak és összetettek
– helytelen implementáció • Pl. változó nevek elgépelése – A fordító gyakran észreveszi
• Hibás memória művelet
4
3
Hiba források – Operátor hibák •
Hiba források – Operátor hibák
Nem tervezett javítás
• topológia /méretezés /implementációs tervezési hibák;
– hibás beállításokból adnak
– – – –
• az útválasztók címzésénél – – – –
rossz cím vagy prefixum rossz interfész azonosító rossz link metrikák rossz időzítők, sorok » Diffserv
Routerekbe gyenge processzor kerül túl hosszú vezetékekből eredő magas bithibaarány helytelen topológia a védelmi útvonalakból eredő redundancia hiánya
• forgalom korlátozók (Traffic Conditioners) – Policers, classifiers, markers, shapers
• Rossz biztonsági beállítás – törvényes forgalom blokkolása
Kompatibilitási hibák
– egyéb a működtetéshez kapcsolódó hibák:
– gyártók és verziók között – különböző szolgáltatók vagy AS (Autonomous system) között
• véletlen balesetből adódó fizikai hibák (reset) • hozzáférési problémák (elfelejtett jelszó)
•
Tervezett javítás (planned maintanance)
• Pl. autonóm rendszerek (AS, Autonomous System) közötti eltérő útválasztási konfigurációk, bebocsátás vezérlés (Admission Control) beállítások felelhetnek hálózati leállásokért.
• túl hosszura nyúlt upgrade
5
6
1
2012. 11. 09.
Hiba források – felhasználók által okozott hibák (user failures) •
Hiba források – Környezeti hatások •
Rosszindulatú támadásokból eredő hibák – fizikai eszközök ellen
•
• Betörés, rombolás
– csomópontok ellen • Feltörik a gépet, vírusok
– DoS (denial-of-service) támadás (Interneten gyakori) • • • •
Megpróbálja túlterhelni a routereket egyszerre sok helyről IP address spoofing - IP cím hamisítás Pl:
• • •
– Ping of Death – a ping csomag 65535 byte lehet. 1996 gyakran le lehetett úgy fagyasztani a gépeket ha ennél hosszabb ping csomagot küldtél.
•
Nem várt felhasználói viselkedésből eredő hibák •
– Rövid távú • Rendezvények • Mobilitás
kábel szakadás – építkezésnél rádió jelek legyengülése – felépül egy épület – Felhők, szmog, köd – Madarak, repülő elektromágneses interferencia – Elektromágneses zaj - napviharok áramkimaradás levegő nedvesség tartalma és a hőmérséklet – Elromlik a légkondicionáló katasztrófák – Tűz, földrengés, terror támadás, áradás, tsunami, villám
– Hosszú távú • új népszerű site-ok, alkalmazások 7
Michnet ISP Gerinchálózat 11/97 – 11/98
Michnet ISP Gerinchálózat 11/97 – 11/98 ok
• Melyik lehet a 3 leggyakoribb hiba? Hardware Problem Maintenance
Software Problem
Power Outage Fiber Cut/Cicuit/Carrier Problem Interface Down
Routing Problems
Malicious Attack Congestion/Sluggish
tipus
db
[%]
Maintenance
Operator
272
16.2
Power Outage
Environmental
273
16.0
Fiber Cut/Cicuit/Carrier Problem
Environmental
261
15.3
Unreachable
Operator
215
12.6
Hardware Problem
Hardware
154
9.0
Interface Down
Hardware
105
6.2
Routing Problems
Operator
104
6.1
Miscellaneous
Unknown
86
5.9
Unknown/Undetermine d/No problem
Unknown
32
5.6
Congestion/Sluggish
User
65
4.6
Malicious Attack
Malice
26
1.5
Software Problem
Software
23
1.3
User 5% Environmental 31%
9
Operator 35%
Malice 2% Softw are Hardw are Unknow n 15% 10 1% 11%
Hiba források - Összefoglalás
2002 esettanulmány •
Operátor hibák (hibás konfiguráció) – Egyszerű megoldások szükségesek – Esetenként az összes hiba 90%-át is elérik
•
Tervezett kiesések – Éjszaka futnak – Esetenként a hibák 20%-át is elérik
•
DoS támadás
•
Szoftver meghibásodások
•
Link kiesések
– Egyre rosszabb lesz a jövőben – 10 millió soros forráskódok – Bármi, ami miatt egy pont-pont összeköttetés megszakadhat •
D. Patterson et. al.: “Recovery Oriented Computing (ROC): Motivation, Definition, Techniques, and Case Studies”, UC Berkeley Computer Science Technical Report UCB//CSD-02-1175, March 15, 2002, 11
12
2
2012. 11. 09.
Motiváció megbízható optikai hálózatok tervezésére
Megbízhatóság • Hiba – Egy elem helyes működésének megszűnése. Definíció szerinte a hiba egy adott tf időpillanatban következik be
Tőzsdei kereskedelem Bankkártya fizetés
On-line színház és koncert jegyek
• Megbízhatóság, Reliability, R(t) – Egy rendszer vagy szolgáltatás folyamatos, hibamentes műkodése – Annak a valószínűsége, hogy egy rendszer megfelelően (hibamentesen) működik a [0 – t] intervallumban.
Repülőjegy foglalás
13
14
Megbízhatóság (2) •
Megbízhatóság, R(t)
•
Tulajdonságai:
Hálózat javítható alrendszerekkel •
Egy javítható rendszer leírására használt modell
– 1- F(t) (eloszlás függvény) segítségével definiáljuk – Egyszerű modell: exponenciális eloszlású valószínűségi változók
– Rendelkezésre állás A(t) • Annak a valószínűsége, hogy egy javítható rendszert működő állapotban találunk egy adott t időpillanatban • A(t) = P(idő = t, rendszer = UP) – Rendelkezésre nem állás, U(t) • Annak a valószínűsége, hogy egy javítható rendszert hibás állapotban találunk egy adott t időpillanatban • U(t) = P(idő = t, rendszer = DOWN)
– nemnövekvő – R (0 ) = 1 –
lim R(t ) = 0 t →∞
•
R(t)
A(t) + U(t) = 1 a t pillanatban Hiba
1
R(a)
R (t ) = 1 − F (t ) = 1 − (1 − e − λt ) = e − λt
UP
Eszköz működik
Eszköz működik
Eszköz működik
DOWN 0
a
t
t
Az eszköz meghibásodott, a javítása folyamatban. 15
16
Elem rendelkezésre állás megadása •
A leggyakrabban használt mód – MTTR - Mean Time To Repair – MTTF - Mean Time to Failure • MTTR << MTTF
– MTBF - Mean Time Between Failures • MTBF=MTTF+MTTR • Gyors javítás esetén az MTBF kb megegyezik az MTTF értékkel • Gyakran FIT-ben adva (Failures in Time), MTBF[h]=109/FIT
•
Egy másik jelölés (nem fogjuk használni) – MUT - Mean Up Time • Like MTTF
Rendelkezésre állás Nem megfelelő működési idő évente*
Nem megfelelő működési idő havonta**
Nem megfelelő működési idő hetente***
73.04 óra
16.80 óra
Rendelkezésre állás
Kilencesek száma
90%
1 kilences
36.52 nap
95%
-
18.26 nap
36.52 óra
8.40 óra
98%
-
7.30 nap
14.60 óra
3.36 óra
99%
2 kilences
3.65 nap
7.30 óra
1.68 óra
99.5%
-
1.83 nap
3.65 óra
50.40 perc
99.8%
-
17.53 óra
87.66 perc
20.16 perc
99.9%
3 kilences
8.77 óra
43.83 perc
10.08 perc
99.95%
-
4.38 óra
21.91 perc
5.04 perc
99.99%
4 kilences
52.59 perc
4.38 perc
1.01 perc
99.999%
5 kilences
5.26 perc
25.9 másodperc
6.05 másodperc
99.9999%
6 kilences
31.56 másodperc
2.62 másodperc
0.61 másodperc
99.99999%
7 kilences
3.16 másodperc
0.26 másodperc
– MDT - Mean Down Time • Like MTTR
Karbantartott
Jól karbantartott
Hibavédett Nagy megbízhatóságú
– MCT - Mean Cycle Time • MCT=MUT+MDT 17
1. másodperc 18
3
2012. 11. 09.
Eszközök életciklusa
Rendelkezésre állás kiértékelése
• Beüzemelési időszak: növekvő rendelkezésre állás (csökkenő kiesések)
• A hibák exponenciális eloszlással jönnek
– Teljesítmény optimalizálás
• Stabil üzemelési időszak: a rendelkezésre állás nagyjából állandó szinten marad,
– Független azonos eloszlású valószínűségi változók – Elméleti szempontból ez támadható és gyakran Weibull eloszlást használnak α F ( t ) = 1 − e − λt – λ meghibásodási ráta (idő független)
– jó esetben ez a leghosszabb időszak
• Elhasználódás: amikor a rendelkezésre állás lecsökken az alkatrészek elöregedése miatt. – Változó hosszúságú
• A meghibásodott eszközök helyreállítási ideje exponenciális eloszlású – Független azonos eloszlású valószínűségi változók – gyakran Weibull eloszlást használnak – µ helyreállítási ráta (idő független) 19
Két állapotú Markov modell (1) λ
1 −λ
UP 1
Két állapotú Markov modell (2)
DN 0
µ
1 −µ
λ
MTTF
1=
MTTR
µ
λ
1 −λ
Exp val változók átlaga
1=
20
UP 1
λ 1 − λ P = µ 1 − µ
Állapotátmenet mátrix:
DN 0
µ
1 −µ
Stacionárius eloszlás:
Π = (UP, DOWN ) = ( A U )
λ 1 − λ ( A U ) = ( A U ) ⋅ µ 1− µ A = A ⋅ (1 − λ ) + U ⋅ µ
• Átmenet valószínűségek mátrix alakban – P állapotátmenet mátrix (sztochasztikus mátrix)
• Homogén Markov-lánc (időben nem változik) – Az állapotátmenet mátrix k lépés után: Pk – Stacionárius eloszlás egy sorvektor π, melyre
λ ⋅ A = U ⋅ µ / tudjuk, hogy U = 1 − A µ A= λ+µ
π =π ⋅P
– π létezik (és ekkor egyértelmű is) 21
Hiba ráta becsléseλ Katonai kézikönyv
Két állapotú Markov modell 1
Ass=
λ+µ
Ass = •
• Kezdetben csak elektromos eszközökre • Katonai kézikönyv
A(t)
µ
µ λ+µ
=
1λ MTTF = 1 λ + 1 µ MTTF + MTTR
t
– MIL-HDBK-217 (Military Handbook, Reliability Prediction of Electronic Equipment) • Mikroelektronikai áramkörök • Félvezetők • passzív elemek
– Görbéket próbálnak illeszteni a megfigyelésikre.
R (t ) = e
Ha nincs helyreállítás (µ=0) a rendelkezésre állás megegyezik a megbízhatósággal
A(t ) =
22
µ λ −( λ + µ ) t + e | µ = 0 = e − λt = R ( t ) λ+µ λ+µ
− λ pt
• ahol λp = eszköz meghibásodási rátája 23
24
4
2012. 11. 09.
Hiba ráta becsléseλ Telcordia szabvány
Eszköz rendelkezésr állás – IP router IP router: route processor MTBF[h] = 200·103 MTTR[h] = 4
• Figyelembe veszi az üzembetartási körülményeket – Terepen mért adatokat – laboratóriumban tesztelt adatokat
IP Router (simplified model, configuration example )
Pow. Supply, housing, conditioning
HW common parts Not used
• AT&T Bell Labs.
IP router: SW MTBF[h] = 30·103 MTTR[h] = 0.0004 (SW restart) MTTR[h] = 0.02 (SW reload) MTTR[h] = 0.25 (no automatic restart)
SW library
– Azóta Telcordia szabványnak hívják – France Telecom (CNET93) és British Telecom (HRD5) is továbbfejlesztette
8 slot available
2 X 1 portGigabit Ethernet module
IP router: interface card MTBF[h] = 85·103 MTTR[h] = 4
4 X 1 port OC48/STM16 POS line card 1 X 4 port OC3/STM1 POS line card
25
Eszköz rendelkezésr állás – DXC az SDH/SONET rétegben
Elem rendelkezésre állás (WDM réteg) Aerial cable MTBF[km]=1.75·105 MTTR=6
DXC-nek több portja, mint az IP routereknek
Control
26
Buried cable MTBF[km]=2.6·105 MTTR=12
SDH DXC/ADM: MTBF[h] = 1·106 MTTR[h] = 4
Transponder
OEO
WDM OXC (OEO) or OADM MTBF=1·105 MTTR=6
Submarine cables MTBF[km]=4.64·106 MTTR=540
Cable/ Fibre
Amplifier
WDM line system
SDH – Synchronous Digial Hierarchy Trunk Transponder Tributary Transponder
SONET - Synchronous Optical NETworking DXC – digital cross connect
27
Egyetlen WDM fényút (üzemi út) i =1
Transponder
MTBF=4·105 MTTR=6
Amplifier
3.65 nap/év kiesés
MTBF=2.5·105 MTTR=6
Ground cable (200 km) MTBF[km]=2.63·105 MTTR=12
WDM line system
MTBF=1.6·105 MTTR=6
MTBF=160·103 MTTR=6
OXC
OXC – optical cross connect
OEO – optical electrical optical conversion
m
MTBF=250·103 MTTR=6
WDM – wavelength division multiplexing
ADM – add-drop multiplexer
Soros szabály: A = ∏ Ai
MTBF=400·103 MTTR=6
OXC redundant: 1+1 protected MTBF=6·106 MTTR=4
OADM – optical add-drop multiplexer 28
1+1 védelem (diszjunkt útpár) • 200km fényút 0.99074
53 perc/év kiesés
OXC m Párhuzamos A = 1 − ∏(1 − Ai ) i =1 szabály:
WDM OXC MTBF=1·105 MTTR=6
As-d = AOXC * Atr * AMUX * Acable * Aamp * AMUX * Atr * AOXC = 0.99994 * 0.999985 * 0.9999625 * 0.99087 * 0.999976 * 0.9999625 * 0.999985 * 0.99994 = 0.99994 * 0.99074 * 0.99994 = 0.99062 29
As-d = AOXC * [1-(1-Apath1) *(1-Apath2)] * AOXC = 0.99994 * [1-(1-0.99074)*(10.99074)] * 0.99994 = 0.99979 30
5
2012. 11. 09.
References • • •
•
Dr. Chidung LAC, “Telecommunication network reliability” D. Arci, et.al, “Availability models for protection techniques in WDM networks” Computer Networking: A Top Down Approach Featuring the Internet, 3rd edition. Jim Kurose, Keith Ross Addison-Wesley, July 2004. Computer Networking: J. Vasseur, M. Pickavet, and P. Demeester. A Top Down Approach Network recovery: Protection and Restoration Featuring the Internet, of Optical, SONET-SDH, IP, and MPLS. 3rd edition. Morgan Kaufmann Publishers, 2004. Jim Kurose, Keith Ross Addison-Wesley, July 2004. 31
6