Dynamické kolísání výkonu v datových střediscích a síťových sálech
Jim Spitaels
White Paper č. 43
Revize 2
Resumé Požadavky na výkon napájení datových středisek a síťových sálů se mění každou minutu v závislosti na okamžitém zatížení. S implementací technologií správy napájení pro servery a komunikační zařízení se velikost těchto změn výrazně zvýšila a nadále vzrůstá. Toto kolísání způsobuje nové problémy související s dostupností a správou.
2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
2
Úvod Celková spotřeba elektrické energie v datových střediscích a síťových sálech je dána součtem energetické spotřeby jednotlivých instalovaných zařízení IT. V minulosti kolísala energetická spotřeba těchto zařízení pouze mírně v závislosti na výpočetní zátěži či provozním režimu. Počítače typu notebook vytvořily požadavek na správu napájení procesoru za účelem prodloužení provozní doby na baterie. Technologie správy napájení umožnila snížit spotřebu procesorů těchto počítačů při malém zatížení až o 90 %. Jakmile byla tato technologie dostatečně vyvinuta, začala pronikat i do konstrukce serverů. Výsledkem je, že energetická spotřeba nově vyvinutých serverů může v čase dramaticky kolísat v závislosti na jejich zatížení. Kolísání spotřeby s sebou přináší mnoho různých nových problémů v oblasti návrhu a správy datových středisek a síťových sálů. Ještě před několika lety byl tento problém prakticky zanedbatelný. V současnosti však již jde o významný problém a jeho závažnost nadále vzrůstá. Kolísání spotřeby energie může v prostředí datových středisek a síťových sálů vést k neplánovaným a nežádoucím důsledkům, jakými jsou vypadávání elektrických jističů, přehřívání či ztráta redundance redundantních napájecích systémů. Tato situace vyžaduje nová řešení od pracovníků navrhujících datová střediska a síťové sály a zajišťujících jejich provoz.
Velikost dynamického kolísání spotřeby V 90. letech minulého století měly prakticky všechny servery téměř konstantní spotřebu energie. Poprvé se kolísání spotřeby objevilo v souvislosti s funkcí roztáčení diskových jednotek a se změnou rychlosti ventilátorů řízených teplotou. Odchylky způsobené změnou výpočetní zátěže procesorů a paměťových podsystémů byly v rámci celkové spotřeby energie zanedbatelné. U běžných serverů malých společností a podniků se celkové kolísání příkonu pohybovalo kolem 5 % a bylo prakticky nezávislé na výpočetním zatížení. Významné snížení spotřeby energie vyžaduje vzájemnou spolupráci systému BIOS, čipové sady, procesoru a operačního systému. Kdykoli jsou v takovém systému správy napájení využívány procesory na méně než 100 %, operační systém spustí podproces pro přechod procesorů do stavu snížené spotřeby. Doba strávená ve stavu snížené spotřeby je nepřímo úměrná výpočetnímu zatížení v systému (např. procesor, který pracuje s využitím 20 %, stráví 80 % času ve stavu snížené spotřeby). Techniky používané k dosažení stavu snížené spotřeby se liší podle výrobce a typu procesoru. Mezi nejčastěji používané techniky patří zpomalení nebo zastavení taktovacího signálu a snížení nebo vypnutí napětí v různých částech procesoru, čipové sady a paměti.
2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
3
V poslední době zavedli výrobci procesorů techniky, které umožňují úsporu energie i aktivně pracujících procesorů. Tyto metody zahrnují přizpůsobení napětí použitého pro procesor a změnu frekvence taktovacího signálu tak, aby lépe odpovídaly zatížení procesoru, který je aktivní. Je nutné poznamenat, že veškeré techniky, které podmíněně snižují příkon procesoru, snižují pouze průměrnou spotřebu energie. Maximální příkon se nemění a navíc roste s každou novou generací procesorů. Také je důležité si uvědomit, že čím větší část celkové spotřeby serveru je tvořena spotřebou procesoru, tím větší je relativní kolísání celkové energetické spotřeby serveru způsobené změnou výpočetního zatížení. Nejvyšší relativní dynamické kolísání spotřeby budou tedy vykazovat víceprocesorové servery a servery s velmi malým počtem diskových jednotek (např. blade servery). Skutečné hodnoty pro některé servery jsou uvedeny v tabulce 1. Tato tabulka znázorňuje odchylky spotřeby energie ze střídavého napájení při různém výpočetním zatížení.
Tabulka 1: Dynamické kolísání spotřeby současných serverů Platforma
Procesor
Dell PowerEdge 1150
Dual Pentium III - 1000
Spotřeba při malém zatížení
Intel Whitebox Pentium 4 - 2000 IBM BladeCenter HS20 Dual Xeon 3,4 GHz Plný rám – 14 pozic HP BladeSystem BL20pG2 Dual Xeon 3,06 GHz Plný rám – 8 pozic
Spotřeba při Odchylka velkém v procentech zatížení
110 W
160 W
45 %
69 W
142 W
106 %
2,16 kW
4,05 kW
88 %
1,55 kW
2,77 kW
79 %
Problémy spojené s dynamickým kolísáním spotřeby Dynamické kolísání spotřeby přináší následující druhy problémů:
Přetížení okruhů Většina serverů pracuje velkou část provozní doby při nízkém výpočetním zatížení. Pro servery vybavené správou napájení to znamená, že spotřebovávají méně energie, než je jejich jmenovitý příkon. Mnoho pracovníků provádějících instalaci a správu datových středisek a síťových sálů si ale neuvědomuje, že běžná energetická spotřeba serveru může být mnohem nižší, než je jeho potenciální spotřeba při vysokém výpočetním zatížení. Tato situace může vést operátory nebo pracovníky IT datových středisek a síťových sálů k zapojení příliš mnoha serverů do jednoho okruhu. Jestliže součet maximálních příkonů jednotlivých serverů zapojených do okruhu překročí kapacitu tohoto okruhu, dochází k potenciálnímu nebezpečí přetížení. V takovém případě bude skupina serverů správně pracovat jen do té doby, dokud nedojde k současnému plnému zatížení velkého počtu serverů. Taková situace, při které dojde k přetížení, může nastat třeba velmi zřídka, takže systém může úspěšně fungovat několik týdnů nebo měsíců, aniž by došlo k selhání.
2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
4
Při přetížení způsobeném výše popsanou situací bude okruh pracovat s vyšším proudem než odpovídá jeho kapacitě. Nejzávažnějším důsledkem této situace v prostředí datového střediska nebo síťového sálu může být výpadek jističe příslušného okruhu a přerušení napájení počítačového vybavení. To pochopitelně představuje mimořádně nežádoucí událost. Protože k takové události dojde ve chvíli velkého výpočetního zatížení, je navíc pravděpodobné, že výpočetní zařízení bude právě zpracovávat velké množství transakcí, takže k výpadku dojde v obzvláště nevhodnou chvíli.
Přehřívání Veškerá elektrická energie spotřebovaná výpočetním zařízením v datovém středisku či síťovém sále je rozptýlena ve formě tepla (jedinou výjimku tvoří přepínače PoE odesílající velkou část svého příkonu po kabelech sítě Ethernet do telefonů VOIP, přístupových bodů Wi-Fi a dalších napájených zařízení). Jestliže spotřeba energie výpočetního vybavení kolísá v závislosti na výpočetním zatížení, kolísá také množství rozptýleného tepla. Dojde-li k náhlému nárůstu spotřeby energie zařízení v jedné části datového střediska, může dojít k vytvoření lokální přehřáté oblasti (tzv. horkého bodu). Chladicí systém datového střediska může být vyvážen pro správnou funkci v běžných podmínkách. Nečekané zdvojení výkonu v lokální oblasti může způsobit nežádoucí nárůst teploty, na který nebude chladicí systém stačit, což může způsobit vypnutí zařízení kvůli přehřátí, nesprávné fungování zařízení nebo předčasné ukončení záručních podmínek.
Ztráta redundance Mnoho serverů je vybaveno dvěma redundantními napájecími vstupy a většina datových středisek a síťových sálů s vysokou dostupností tuto funkci využívá k zajištění duální napájecí trasy k serveru. Tyto systémy mohou přečkat celkové selhání libovolné části jedné z napájecích tras a pokračovat v provozu. Při běžném provozu jsou tyto počítače navrženy tak, že obě napájecí trasy sdílejí zátěž rovným dílem. Dojde-li k výpadku jedné trasy napájení, je celá zátěž serveru převedena na zbývající přívod napájení. To způsobí dvojnásobné zatížení tohoto přívodu. Z tohoto důvodu musejí být napájecí okruhy určené k napájení zařízení v systému s duálním napájením zatíženy vždy méně než na 50 % jmenovité zatížitelnosti, aby zbývala dostatečná kapacita na převzetí celého zatížení v případě potřeby. Zajištění zatížení okruhu na méně než 50 % kapacity představuje mnohem složitější úlohu, jestliže zatížení vykazuje dynamické změny spotřeby energie. Může se stát, že při testování během instalace systému budou okruhy bezpečně pracovat se zatížením menším než 50 % kapacity. Ale v budoucnu při vysokém výpočetním zatížení může systém pracovat se zatížením větším než 50 % kapacity. Pokud v systému s duálním napájením nastanou takové podmínky, že zatížení okruhu bude větší než 50 % jeho kapacity, dojde ke ztrátě redundance systému. Jestliže dojde k selhání jednoho přívodu napájení, druhý přívod bude okamžitě přetížen a pravděpodobně dojde k výpadku příslušného elektrického jističe, jak bylo popsáno v předchozí části. A protože k tomu opět dojde ve chvíli velkého výpočetního zatížení, je pravděpodobné, že výpočetní zařízení bude právě zpracovávat velké množství transakcí, takže ke ztrátě redundance dojde v obzvláště nevhodné chvíli.
2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
5
Maskování problému Zařízení, které vykazuje dynamické změny spotřeby energie, může reprezentovat pouze malou část z celkové spotřeby energie datového střediska nebo síťového sálu. Jestliže 5 % zařízení datového střediska vykazuje dynamické změny energetické spotřeby 2:1 a zbývající zařízení mají konstantní spotřebu, pak mohou celkové hodnoty napájení datového střediska na přívodu napájení nebo na distribuční jednotce PDU kolísat pouze v rozsahu 2,5 %. To může být důvodem, proč se bude operátor domnívat, že nedochází k žádnému problému způsobenému významným dynamickým kolísáním spotřeby, zatímco ve skutečnosti hrozí výrazné nebezpečí výpadku elektrických jističů, přehřívání či ztráty redundance. Existuje proto reálná možnost, že tento problém nastal, jen nebyl dosud rozpoznán zkušenými operátory.
Řešení problémů spojených s dynamickým kolísáním spotřeby Návrháři a správci datových středisek a síťových sálů se musí přizpůsobit novým podmínkám dynamické spotřeby energie, aby zmírnili vliv problémů, které byly popsány v předchozích oddílech. Existuje celá řada způsobů, jak toho dosáhnout. Patří k nim i následující opatření:
Oddělení proudových okruhů pro jednotlivé servery Pokud je pro každý server použit samostatný proudový okruh, nemůže dojít k přetížení okruhu. Pro každý server je totiž zajištěno napájení z vyhrazeného proudového okruhu. Toto opatření řeší potíže týkající se přetížení okruhu a dále i problém ztráty redundance. Neřeší problémy s přehřátím, které ale obvykle nepředstavují tak velké riziko. Tam, kde jsou implementovány malé servery 1U či 2U, by se jednalo o velmi složité a nákladné řešení, které by vyžadovalo extrémně vysoký počet okruhů na stojan. V krajním případě by stojan zaplněný servery 1U se dvěma napájecími kabely vyžadoval 84 okruhů, což odpovídá dvěma velkým panelům jističů okruhů. Daleko praktičtější je toto řešení tam, kde jsou použity velké servery nebo blade servery.
Stanovení standardů míry bezpečnosti pro nejhorší případ a posouzení jejich splnění při instalaci Ve většině datových středisek a síťových sálů jsou zavedeny standardy pro rozpětí zatížení, které jsou obvykle vyjadřovány jako poměrná část celkové kapacity zatížení okruhu. Obvykle jsou voleny hodnoty v rozsahu 60 % až 80 % kapacity okruhu, přičemž hodnota 75 % je považována za přiměřený kompromis mezi kapacitou napájení, náklady a dostupností. Pro ověření splnění tohoto standardu je měřeno skutečné zatížení okruhů. Je třeba poznamenat, že u systémů vykazujících dynamické změny spotřeby energie nastává vážný problém, protože může být obtížné zjistit výpočetní zatížení v době měření. V ideálním případě by mělo být chráněné zařízení vystaveno v době měření velkému výpočetnímu zatížení, aby byla zajištěna shoda se standardem i v tom nejhorším případě.
2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
6
Stanovení standardů míry bezpečnosti pro nejhorší případ a výpočet jejich splnění Dalším možným přístupem je vytvoření a udržování podrobných inventářů obsahujících informace o tom, jaká zařízení jsou zapojena do jednotlivých okruhů. Tyto inventáře obsahují také informace o maximální publikované nebo zjištěné spotřebě energie jednotlivých zařízení tak, aby mohlo být jejich sečtením v rámci jednotlivých okruhů zajištěno, že okruhy nebudou přetíženy. Informace týkající se maximálního zatížení pro různá zařízení jsou k dispozici u příslušných výrobců zařízení (uváděné hodnoty jsou často značně nadsazené) nebo v nástrojích pro výběr systému UPS, jako je například nástroj na webových stránkách www.apcc.com. Udržování podrobného inventáře okruhů představuje běžnou praxi v datových střediscích s vysokou dostupností. Je však nutné, aby měl operátor neustále přehled, která zařízení jsou zapojena do jednotlivých okruhů. Ve většině síťových sálů a menších datových středisek neexistuje dostatečná kontrola uživatelů, aby bylo možné zajistit, že nedojde k přestěhování zařízení či jeho záměně, nebo prostě k jeho zapojení do jiné elektrické zásuvky. V mnoha případech proto není tento přístup příliš praktický. Hranice míry bezpečnosti může být dále snížena tak, aby byla k dispozici volná kapacita pro dynamický nárůst spotřeby. Specifikace standardu míry bezpečnosti může například znít, že zjištěné zatížení okruhu nesmí překročit 35 % kapacity okruhu, pokud je zařízení ve stavu nečinnosti.
Stanovení standardů míry bezpečnosti pro nejhorší případ a trvalé sledování jejich splnění V tomto případě jsou stanoveny standardy míry bezpečnosti a všechny okruhy jsou pak trvale monitorovány automatickým monitorovacím systémem. Pokud zatížení okruhu překročí hranici bezpečnosti, dojde k odeslání varovných zpráv. Například při použití standardu pro zatížení okruhu 60 % bude odesláno výstražné upozornění, překročí-li zatížení 60 %. Hranice bezpečnosti je stanovena tak, aby operátoři obdrželi důležitá varování o problémové oblasti a mohli provést nápravná opatření dříve, než dojde k překročení maximálního proudu v okruhu. Tuto metodu lze kombinovat s dalšími metodami, které byly popsány dříve. Velkou výhodou této metody je, že ji lze použít i v situacích, kdy by mohlo dojít k instalaci či přesunutí zařízení uživatelem nebo k zapojení zařízení do jiné elektrické zásuvky bez upozornění správce datového střediska. K této situaci dochází velmi často v síťových sálech a datových střediscích s průměrným zabezpečením. Tato metoda může také upozornit na hrozící ztrátu redundance. Jedná se o nejúčinnější nástroj, který může správce datového střediska použít ke správě prostředí, které se průběžně mění a vykazuje dynamické kolísání spotřeby.
2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
7
Závěr V datových střediscích a síťových sálech postupně narůstá podíl zařízení IT, jejichž spotřeba se významným způsobem mění se zatížením. Tato situace přináší operátorům infrastruktury datových středisek mnoho neočekávaných problémů. Způsoby, které byly v minulosti používány pro minimalizaci nebezpečí přetížení, je nutné přizpůsobit novým podmínkám. Kritickými aspekty při zajištění dostupnosti v nových i stávajících střediscích, v nichž bude instalován velký počet serverů, jsou správné plánování a monitorování napájení v jednotlivých okruzích.
Informace o autorovi: Jim Spitaels je odborným konzultantem společnosti APC. Absolvoval bakalářské a magisterské studium v oboru elektrotechniky na vysoké škole Worcester Polytechnic Institute. V průběhu 14 let práce pro společnost APC se podílel na vývoji systémů UPS, komunikačních produktů, architektury a protokolů, skříní pro zařízení a produktů pro distribuci napájení a byl manažerem mnoha vývojářských týmů. V USA má také uznány 3 patenty v oblasti systémů UPS a napájecích systémů. 2005 American Power Conversion. Všechna práva vyhrazena. Žádná část této publikace nesmí být použita, kopírována, přenášena ani uložena v žádném úložném systému jakéhokoli druhu bez písemného souhlasu vlastníka autorských práv. www.apc.com Revize 2005-2
8