2014. 03. 25.
Megbízható összeköttetések tervezése Dr. Babarczi Péter egyetemi adjunktus
[email protected] http://lendulet.tmit.bme.hu/~babarczi/ 1
Motiváció Kiesési kártérítés (óránként) • • • • • • • • • • •
Tőzsdei kereskedelem Hitelkártya tranzakciók Ebay (1 kiesés 22 óra) Amazon.com Csomagszállítás Otthoni vásárlás Katalógus vásárlás Repülőjegy foglalás Cellás szolgáltatások On-line hálózati díjak ATM szolgáltatás díjak
$6,450,000 $2,600,000 $225,000 $180,000 $150,000 $113,000 $90,000 $89,000 $41,000 $25,000 $14,000
Sources: InternetWeek4/3/2000+FibreChannel: A Comprehensive Introduction, R.Kembel2000, p.8. ”...based on a survey done by Contingency Planning Research." 2
1
2014. 03. 25.
Megbízhatóság (Reliability) • Hiba – Egy elem helyes működésének megszűnése. Definíció szerinte a hiba egy adott tf időpillanatban következik be
• Megbízhatóság, Reliability, R(t) – Annak a valószínűsége, hogy egy rendszer megfelelően (hibamentesen) működik a [0 – t] intervallumban.
3
Hibaforrások • Hardver meghibásodások – Típushibák – Elhasználódás
• Szoftver meghibásodások – Helytelen implementáció
• Operátor hibák – Hibás konfiguráció – Hibás topológia, méretezés
• Felhasználó okozta hibák – DoS (denial-of-service) támadás – Nem várt felhasználói viselkedés
• Környezeti hatások – Kábelszakadás – Katasztrófák 4
2
2014. 03. 25.
Rendelkezésre állás (Availability) • Rendelkezésre állás (Availability) annak a valószínűsége, hogy egy javítható rendszert működő állapotban találunk egy adott t időpillanatban. • A leggyakrabban használt modell – MTTR - Mean Time To Repair (tipikusan órák) – MTTF - Mean Time to Failure (tipikusan hónapok, évek) – MTBF - Mean Time Between Failures • MTBF=MTTF+MTTR
Példa: MTTR [h] = 4 MTBF [h] = 105 A = (105 - 4)/105 = 0.99996 5
Rendelkezésre állás ideje Rendelkezésre állás
Kilencesek száma
Átlagos kiesés évente
Átlagos kiesés havonta
Átlagos kiesés hetente
90%
1 kilences
36.52 nap
73.04 óra
16.80 óra
95%
-
18.26 nap
36.52 óra
8.40 óra
98%
-
7.30 nap
14.60 óra
3.36 óra
99%
2 kilences
3.65 nap
7.30 óra
1.68 óra
99.5%
-
1.83 nap
3.65 óra
50.40 perc
99.8%
-
17.53 óra
87.66 perc
20.16 perc
99.9%
3 kilences
8.77 óra
43.83 perc
10.08 perc
99.95%
-
4.38 óra
21.91 perc
5.04 perc
99.99%
4 kilences
52.59 perc
4.38 perc
1.01 perc
99.999%
5 kilences
5.26 perc
25.9 másodperc
6.05 másodperc
99.9999%
6 kilences
31.56 másodperc
2.62 másodperc
0.61 másodperc
99.99999%
7 kilences
3.16 másodperc
0.26 másodperc
0.06 mp
Karbantartott
Jól karbantartott
Hibavédett Nagy megbízhatóságú
6
3
2014. 03. 25.
Megbízható összeköttetések kiépítésének célkitűzései • • • • •
Magas rendelkezésre állás (availability) Gyors reakció a meghibásodásokra Bonyolultság Skálázhatóság Karbantarthatóság (menedzsment) Egyszerűség Gazdaságos erőforrás használat
• Gazdaságos erőforrás használat és hibamenedzsment komplexitás közötti kompromisszum (trade-off) 7
Megbízható összeköttetések követelményei • Egy ellenálló hálózattal szemben elvárható i.
A felhasználó megkapja az általa előfizetett szolgáltatás minőséget (QoS) a be- és kilépési csomópontok között, pl. torlódás, késleltetés, max, kiesés (virtuális áramkörkapcsolás) ii. Hatékony sávszélesség kihasználás (túlterhelt linkek elkerülése) (forgalom terelés) iii. Meghibásodások után is „elfogadható” módon kell működnie (védelmi és helyreállítási módszerek)
• Csomagkapcsolás esetén minden csomag akár más úton is haladhat –
Virtuális áramkörkapcsolás kell az IP réteg alá (2.5 réteg: Multi-Protocol Label Switching, MPLS) 8
4
2014. 03. 25.
(i) Multi-Protocol Label Switching működése 4. egress LER leválasztja a csomagról az MPLS fejlécet
1a. Routing protokollok (e.g. OSPF-TE, IS-IS-TE) topólogiai információkat terjesztenek 1b. Label Distribution Protocol (LDP) beállítja a csomagtovábbítási táblákat
IP IP
2. Ingress Label Edge Router (LER) csomagokat kap, amelyeket “fejléccel” lát el
3. Label Switching Router (LSR) továbbítás közben címcserét hajt végre “label swapping”
9
Optical Cross-connects (OXC) • Generalized MPLS kapcsolási funkciók – Fényszálanként, Fiber-Switch Capable (FSC) – Hullámhosszanként. Lambda Switch Capable (LSC) • Optikai ADM vagy Optical Cross-connect (OXC)
– Időrésenként, Time Division Multiplexing Capable (TDMC) • SONET/SDH ADM/Digital Cross-connects
– Csomagonként, Packet Switch Capable (PSC) • Router/ATM Switch/Frame Relay Switch PSC
TDMC
LSC FSC
TDMC LSC
10
5
2014. 03. 25.
(ii) Forgalom terelés Az útvonalválasztási döntések felügyelete és optimalizálása a forgalom terelés (TE) segítségével lehetséges. TE estén az egyes folyamokat esetenként hosszabb útvonalon vezetjük el, pl. a hálózat jobb sávszélesség kihasználásának érdekében.
6
7
8
9
Interference
1
2
3
4
5 11
(iii) Link-, csomópont-, SRLGfüggetlen utak • Él-független útvonal találása Dijkstra legrövidebb útkereső algoritmusával – Két lépcsős megközelítés sokszor „csapda szituáció”
• Suurballe algoritmus él-független útpárt talál polinom időben – Minimális költségű az összes útpár között (ha létezik)
• Csomópont-független utak a csomópont szétvágási technika alkalmazásával (segédgráf)
12
6
2014. 03. 25.
Közös kockázatú csoportok (Shared Risk Link Group) • Az SRLG-k a hálózati eszközök (linkek, csp-ok, alkatrészek, szoftver, stb.) meghibásodásai közötti összefüggőséget modellezik • Két link azonos SRLG-be tartozik, mert – Ugyanabban a fizikai hierarchiában helyezkednek el, mely a hálózat geográfiai jellemzőit veszi figyelembe (azonos kábelben több fényszál is megy), – vagy azonos logikai hierarchiában találhatóak, amelyek a fényutak fizikai topológián való tényleges elvezetésére vonatkozik. 13
Fizikai hierarchia • Ugyanabban az aknában, kábelben, alagútban, stb. • Van-e csomópontokéhoz hasonló transzformáció? – Nincs: nem mindegyik SRLG ábrázolható segédgráf segítségével – SRLG-diszjunkt útvonalak találása NP-teljes
http://www-ee.engr.ccny.cuny.edu/www/web/ellinas/MeshRoutingONM.pdf 14
7
2014. 03. 25.
Logikai hierarchia Összefüggőség = Közös kockázat
Krishnaiyan Thulasiraman and Muhammad S. Javed, Guoliang (Larry) Xue, Circuits/Cutsets Duality and a Unified Algorithmic Framework for Survivable Logical Topology Design in IP-over-WDM Optical Networks, Infocom 2009, pp. 1026-1034 15
Hozzárendelt védelem • Egy-egy megfeleltetés az üzemi és védelmi erőforrások között – Csak egy adott összeköttetés védelmére használhatjuk 1 1
1 1
2
1
1 1
1
Védelmi kapacitás a közös élen: A + B DE: nincsenek jelzések a hiba után 16
8
2014. 03. 25.
Megosztott védelem • Ha két üzemi út (hiba) független, akkor a hozzájuk tartozó védelmi kapacitás megosztható – Egyszerre legfeljebb az egyik szeretné meghibásodás esetén használni 1 1
1 1
1
1
1 1
1
Védelmi kapacitás a közös élen: max{A,B} DE: valós idejű jelzések 17
Védelmi kapacitások osztályozása
Szabad kapacitás
Szabad kapacitás
Üzemi úttól függően Védelmi kapacitás Üzemi utak által lefoglalt kapacitás
Megosztható Nem megosztható Üzemi utak által lefoglalt kapacitás
Hozzárendelt védelem
Megosztott védelem
18
9
2014. 03. 25.
Helyreállítási idő – valós idejű feladatok a meghibásodás után • 1. fázis: Hiba detektálás (hálózattól és nem a védelmi módszertől függ) • 2. fázis: Hiba lokalizáció (tl) Hibamenedzsment • 3. fázis: Szétterjesztés (tn) • 4. fázis: Hiba korreláció (tc) • 5. fázis Helyreállítás – Védelmi út választás (tp) – Eszköz konfiguráció (td)
19
Helyreállítási ciklus Adatforgalom elindul
Hibajelentő üzenet küldése
Várakozás (időzítő v. token)
Helyreállítási idő Detektálás
Út kiválasztás és konfiguráció
Szétterjesztés
idő Lokalizáció
hiba Az összeköttetés működik
Korreláció
Hibamenedzsment A hibát detektálták a felelős csomópontok
A védelmi út kiépült
A szolgáltatás újra működik
Példa megosztott védelem esetén: tl = 10 ms, tn = 20-30 ms, tc = 20-30 ms, tp = 0-30 ms, td = 50 ms, tR= 100-150ms 20
10
2014. 03. 25.
Gazdaságos erőforrás használat – helyreállítási idő Megosztott védelem (előre tervezett helyreállítás)
Hozzárendelt védelem
Dinamikus helyreállíáts
100 % 150 ms
100 % 150 ms
100 % 150 ms
R T
R T
? T
0%
0%
0 ms
0 ms
0%
0 ms
Védelem: meghibásodás előtt teszünk lépéseket a hiba esetén kieső összeköttetések gyors javítására Dinamikus helyreállítás: a hiba után próbáljuk meg a meghibásodott összeköttetéseket javítani 21
Link-, szegmens- és út védelem 1
2
3
1
2
3
4
5
6
4
5
6
7
8
9
7
8
9
hiba
Üzemi út 1
2
Linkvédelem: lokális, loop back 3
1
2
3
4
5
6
7
8
9
hiba 4
5
6
7
8
9
Útvédelem: globális, gazdaságos
hiba
Szegmensvédelem: kettő közötti kompromisszum 22
11
2014. 03. 25.
Hozzárendelt 1+1 út védelem • A jelet párhozamosan az üzemi úton (working path) és a védelmi úton (protection path) útvonalon küldjük • Ha az egyik út megszakad a másikra kapcsolunk – Kapcsolás csak a célcsomópontban történik
• Egyszerű, erőforrás igénye nagy (100% redundancia)
R T
Kapcsolás S
D
23
Hozzárendelt 1:1 útvédelem • A párhozamosan két útvonalat foglalunk le • Ha az üzemi út megszakad a védelmi útra átkapcsolnak a végcsomópontok • A védelmi úton alacsony prioritású (best effort) forgalmat tudunk küldeni – Melyet kiürítünk hiba esetén (preemption)
R T
Kapcsolás S
Kapcsolás D
24
12
2014. 03. 25.
Hozzárendelt 1:n útvédelem • Védelmi erőforrások közös halmaza adott n védelmi útnak – Kisebb erőforrás igény ☺ – DE: Kisebb rendelkezésre állás
• Mennyi az 1:1 rendelkezésre állása?
– Aw, Ap A=1-(1-Aw)(1-Ap)=Aw+Ap-AwAp
• És a 1:2 esete? – Aw1, Aw2, Ap
S
D
A=Aw1Aw2+(1-Aw1)Aw2Ap+Aw1(1-Aw2)Ap 25
1PPF – Azonnali helyreállítás • 1+1 út védelem (1PP) funkciónak nevezzük az összeköttetés azon tulajdonságát, hogy képes link hibákat túlélni az üzemi és védelmi út(ak)on úgy, hogy – minden védelmi útvonal előre számolt, – jelzésekkel előre felépített, – és az adatot folyamatosan küldjük minden úton az összeköttetés teljes időtartama alatt (hot stand-by). 26
13
2014. 03. 25.
Diversity Coding (DC) 1PPF • Jobb sávszélesség kihasználás (két egységnyi adat minden kommunikációs körben) • Redundáns adat küldése a védelmi (szaggatott éleken) – Egyszeres hibákat túlél – A védelmi adatot XOR művelettel állítjuk elő az üzemi adatokból
• Egy harmadik, negyedik diszjunkt út már igencsak hosszú – Minden forrás cél párra egy optimális osztási érték (4-5 körül)
RT 27
Védőkörök (p-cycles) • Előre tervezett, de már megosztott védelem (jelzések szükségesek) • Előre definiáljunk a védőköröket a hálózatban – Egy link vagy rajta van valamely körön (on-cycle) – Vagy húrja (straddling)
R T
London
Amsterdam Hamburg Berlin Frankfurt
Brussels
Paris Strasbourg Munich Zurich
Prague Vienna
Lyon Milan
Zagreb
Rome 28
14
2014. 03. 25.
Védőkörök - Működés • Védelem hasonlóan, mint az UPSR és BLSR gyűrű topológiákon • Különbség a húrok – Ekkor az üzemi forgalmat két részre bontjuk
29
Védőkörök - Összefoglalás • Az üzemi utat a legrövidebb úton elvezetjük • A védőkörök csak a megosztott kapacitást használják • Védő-körön egy egység kapacitás – Egy egységnyi üzemi kapacitást véd, ha az üzemi út a körön megy – Két egységnyi üzemi kapacitást véd, ha húr
• A húron nem kell megosztott kapacitást foglalni – Rengeteg húr lehet – Hatékonyan használja ki a hálózati erőforrásokat
• A helyreállításnál csak két kapcsolás történik – Két csomópontban a körön 30
15
2014. 03. 25.
Hibafüggő védelem (Failure Dependent Protection, FDP) Meghibásodás esetén • Hiba pontos lokalizálása (mtrail) • A megszakadt összeköttetések mentén a kapacitásfoglalások feloldása (stub release) • Új védelmi útvonalak kiépítése • Egy üzemi útnak több (hibától függő) védelmi útvonala van
31
Hibafüggő védelem (Failure Dependent Protection, FDP) • Előnyök – Optimális erőforrás használat valamennyi védelmi módszer között
• Hátrányok – Bonyolultabb mechanizmust igényel, például pontos hibalokalizációt – Nagyobb jelzésrendszeri terhelés a meghibásodás után
R T
32
16