1
De essentie van eScience is dat breed toepasbare ICT-systemen ontwikkeld en ingezet worden voor onderzoek in sterk verschillende vakgebieden en dat hiermee ook samenwerking binnen en tussen vakgebieden versterkt wordt. Wetenschappelijk onderzoek in veel disciplines beweegt zich in sterke mate richting verwerving en analyse van grootschalige verzamelingen gegevens. Door deze beweging zal ICT een toenemende en dominante plaats hebben in de onderzoeksinfrastructuur. De recente oprichting van het eScience center door o.a. Surf is daarvan een duidelijke indicatie.
3
Organisatie: eScience organisatie Bij Investeringen in datacenters, computerapparatuur en netwerken Projecten: Door eScience ondersteunde projecten Hoe groen is een project (CO2 emissie) Uitvoering: eScience rekenjobs Processen met maximale efficiency uitvoeren Bij uitvoering zijn essentiële aandachtspunten: •Optimaliseren van inzet/benutting van resources •Efficiëntie van hardware en software •ICT architectuur: gecentraliseerd, federatief of decentraal (verderop uitgelegd)
We analyseren energieverbruik voor rekenjobs in eScience aan de hand van een specifieke case study in de bioinformatica.
6
7
Aan de hand van de contacten genoemd in deze slide zijn we gekomen tot een typische bioinformaticataak: het sequencen van DNA. We nemen hiervan een aantal belangrijke eigenschappen mee (ook in de slide genoemd, dus: veel rekentijd, veel data uit storage, geen interactie), maar we nemen de specifieke implementatie (hoe het is geprogrammeerd) van zo’n taak of mogelijke verbetering daarop niet mee in ons model. Dus de conclusies die we hieruit zullen trekken, verderop in de presentatie, gelden ook voor andere taken met soortgelijke eigenschappen.
8
-De 36 % benutting schatten we aan de hand van gebruiksstatistieken van één van de tien servers van het RUG cluster over een periode van januari 2011 tot oktober 2011. We gaan er nu vanuit dat die benutting voor alle servers geldt. -Aan de hand van de types switches en storage in het RUG cluster, halen we uit de literatuur gegevens over energieverbruik.
9
De vier onderdelen waarin het energieverbruik zit: servers, netwerk, storage en de infrastructuur van het datacenter: koeling, voeding, huisvesting, etc.
10
Storage: - centraal: storage op één centrale plek. - decentraal: storage op diverse plekken Computing: - centraal: één datacenter met veel servers. Het gaat hierbij om een centraal cluster van servers dat in gebruik gedeeld wordt door meerdere instituten. Zo zou het eScience Center deze centrale infrastructuur kunnen aanbieden aan onderzoeksgroepen - federatief: servers op verschillende plekken die met elkaar verbonden zijn. Het gaat hierbij om diverse onderzoeksgroepen met hun eigen clusters en infrastructuur, die deze beschikbaar stellen aan andere onderzoeksgroepen, zodat een onderzoeksgroep als mogelijk lokaal kan rekenen, maar ook een deel aan andere clusters kan toewijzen, of onderzoeksgroepen die zelf geen cluster hebben toch zware berekeningen kunnen uitvoeren. - decentraal: weinig servers op één locatie, geen verbinding met andere locaties (zoals in de bioinformatica case van de RUG)
11
12
Toelichting: aan de hand van het bekeken cluster van de RUG halen we bepaalde parameters -De 420 GFLOPS per server halen we uit http://en.community.dell.com/techcenter/extras/chats/w/wiki/1638.aspx -De 36 % benutting schatten we aan de hand van gebruiksstatistieken van één van de tien servers van het RUG cluster over een periode van januari 2011 tot oktober 2011. We gaan er hier vanuit dat die benutting voor alle servers geldt. -Het idle en actief vermogen van een server halen we uit http://www.flickr.com/photos/hyperwin/5151107969/ Uit deze gegevens en de benutting kunnen we een daadwerkelijk (gemiddeld) vermogen halen via de gegeven formule
13
-We zullen het aantal hops per scenario variëren, afhankelijk van afstand tussen servers en opslag. In het cluster van de RUG is deze gelijk aan twee. -Er zijn verschillende getallen in de literatuur voor het vermogen van een 10GE switch (zoals in cluster van de RUG) ; dit is een van de zuinigere (EU Coc). Bij deze is geen verschil tussen vermogen bij idle en actieve stand van de switch. -Het aantal Network Interface Cards per server in het cluster van de RUG is gelijk aan 2.
14
Data hier komt van het cluster van de RUG. De 6 kWh is geschat aan de hand van een berekening. Aan de hand hiervan en van andere gegevens van het RUG cluster kunnen we het vermogen van gebruikte storage per actieve server bepalen. We houden deze 350 W per actieve server ook aan voor de andere scenario’s.
15
PUE komt van The Green Grid-consortium http://www.thegreengrid.org/ Idealiter is de PUE gelijk aan 1,0, maar dit is in de praktijk niet haalbaar. Partijen als Google, die veel investeren in datacenter-efficiëntie, claimen een gemiddeld PUE van tussen de 1,1 en 1,2 te kunnen halen. Etotaal bevat behalve energieverbruik van ICT apparatuur ook energieverbruik van: koeling, voedingen, huisvesting, verlichting, beheer, etc.
16
In deze slide geven we aan welke parameters we hebben gekozen in de zes verschillende scenario’s aan de hand van computing (centraal, federatief, decentraal) en storage (centraal, decentraal). We lichten ze hieronder toe: • Benutting servers: De 36 % bij decentrale computing is zoals in het cluster van de RUG; voor motivatie zie slide 11 (‘Uit te voeren scenario’s’). De 64% bij federatief en centrale computing is gebaseerd op de gebruiksstatistieken van een server over de periode januari 2011 – oktober 2011 uit een snel en krachtig rekencluster van de RUG (Millipede-cluster). • PUE: Voor toelichting PUE zie slide 17 (‘Rest (koeling, voedingen, etc.)’ ). Bij centrale computing gaan we uit van een efficiënt ingerichte datacenter; voor zeer efficiënte datacenters van o.a. Google ligt PUE tussen 1,1 en 1,2. Bij decentraal hebben we 1,6 genomen als schatting. Bij federatieve computing gaan we er vanuit dat de efficiëntie beter is dan het decentrale geval, omdat we er van uitgaan dat de clusters in dit geval al wat beter zijn ingericht dan een gemiddeld decentraal cluster, maar niet zo goed als wanneer we alles op één plek hebben en hier optimaal kunnen inrichten qua elektriciteitsvoorziening en koeling e.d. Dus we kiezen de PUE hier tussen 1,2 en 1,6: 1,4 • Aantal onderzoeksgroepen: deze parameter heeft invloed op de hoeveelheid taken per dag en daarmee het totale energieverbruik op een dag. Echter, op de belangrijke parameter ‘Gemiddeld energieverbruik per taak’ zal deze geen invloed hebben. We gaan bij decentraal uit van één onderzoeksgroep, namelijk degene die gebruikmaakt van het cluster in de RUG. Het aantal taken per dag (gemiddeld ~37) dat deze wil uitvoeren, nemen we als maatstaf voor een onderzoeksgroep, en dit vermenigvuldigen we in de andere gevallen (centraal, federatief) met het aantal onderzoeksgroepen, die we hier even op 20 zetten. Dit is te variëren in het model. • Aantal hops tussen storage en server: Positie van storage (centrale of decentraal) & computing architectuur (centraal, federatief of decentraal), geeft aan of de storage dicht bij servers staat, of er ver vanaf staat. Aangezien de benodigde storage voor onze bio-informaticataken hoog ligt (in het RUG cluster gemiddeld 40 Terabyte per server), gaan we er vanuit dat ook als storage in de buurt van servers zijn, er nog steeds twee hops nodig zijn van storage naar server (via switch bij server-rack en switch bij storage systeem). Als storage ver van servers staan, gaan we uit van gemiddeld 6 hops tussen storage en server.
17
Totaal energieverbruik per dag bij centrale storage: 8,6 x 102 MJ (2,3 x 102 kWh). Totaal energieverbruik per dag bij decentrale storage: 8,4 x 102 MJ (2,4 x 102 kWh).
18
Totaal energieverbruik per dag bij centrale storage: 9,2 x 103 MJ (2,6 x 103 kWh) Totaal energieverbruik per dag bij decentrale storage: 9,4 x 103 MJ (2,6 x 103 kWh). Let op: Verschil met decentraal is dat we nu uitgaan van 20 onderzoeksgroepen, met iedere groep gemiddeld 37 taken per dag (met 1 onderzoeksgroep bij decentraal). In ons model heeft aantal onderzoeksgroepen alleen invloed op totaal energieverbruik per dag, niet per taak.
19
Totaal energieverbruik per dag bij lokale opslag:1,1 x 104 MJ (3,1 x 103 kWh) Totaal energieverbruik per dag bij externe opslag: 1,1 x 104 MJ (3,0 x 103 kWh). Let op: Verschil met decentraal is dat we nu, net als bij centraal, uitgaan van 20 onderzoeksgroepen, met iedere groep gemiddeld 37 taken per dag (met 1 onderzoeksgroep bij decentraal). In ons model heeft aantal onderzoeksgroepen alleen invloed op totaal energieverbruik per dag, niet per taak.
20
Als we het energieverbruik per taak voor de verschillende cases met elkaar vergelijken, valt het volgende op: -energieverbruik bij decentrale computing is bijna 2 x zo hoog als energieverbruik centraal -energieverbruik bij federatieve computing ligt dichter bij centraal dan decentraal -verschil centrale en decentrale storage geeft weinig verschil in energieverbruik per taak - In de decentrale, case is de benutting van de servers niet optimaal (hier gebruikt is 36%). Dit betekent dat de beschikbare capaciteit decentraal groter is dan wat ‘netto’ wordt gebruikt. In principe maakt dit het mogelijk om taken dan sneller uit te kunnen voeren. De aard van het gebruik van de software door de onderzoeksgroep in Groningen lijkt niet zodanig dat hiervan gebruik gemaakt kan worden. De software is bijvoorbeeld beperkt paralleliseerbaar. - In de decentrale case is de totale computerkracht ongeveer 75% groter dan in de centrale of federatieve case. Er staat dus ook evenzoveel meer aan apparatuur met een daaraan gekoppelde milieubelasting voor productie en afdanking van computersystemen.
21
-In decentrale computing-case (decentrale storage) ligt minimaal energieverbruik per taak rond de 13 MJ (bij maximale benutting), wat een flinke vermindering is t.o.v. 23 MJ bij 36% benutting. -Realistischere verhoging tot zo’n 60% vermindert energieverbruik per taak tot zo’n 16 MJ, toch al een aardige vermindering.
23
In dit plaatje zien we hoe de verhoudingen tussen energieverbruik servers, netwerk, storage en ‘de rest’ varieert bij variëren benutting. -Hogere belasting betekent relatief kleiner aandeel servers en grotere aandeel storage in energieverbruik. De relatieve toename van storage wordt veroorzaakt doordat in het gebruikte model, de hoeveelheid storage gerelateerd is aan de hoeveelheid verwerkte data, en niet de beschikbare servercapaciteit. Op het moment dat servers beter worden gebruikt (benutting neemt toe), neemt het aandeel van storage in het energieverbruik dus toe. Absoluut blijft energieverbruik van storage constant, want we variëren alleen de benutting, niet de grootte/hoeveelheid van taken. -Als servers efficiënter kunnen worden benut, bijvoorbeeld door werk zodanig aan te bieden dat een server continu aan het werk blijft, is minder hardware nodig dan wanneer dit niet gebeurd. De hoeveelheid hardware is direct gerelateerd aan de hoeveelheid verbruikte energie. Daardoor wordt het aandeel van zowel de servers als het netwerk in energieverbruik lager bij een hogere benutting.
24
-In centrale computing-case (decentrale storage) ligt minimaal energieverbruik per taak rond de 10 MJ (bij maximale benutting). Vermindering ten opzichte van huidige benutting(64%) is relatief klein (t.o.v. vermindering bij decentrale case).
25
In dit plaatje zien we hoe de verhoudingen tussen energieverbruik servers, netwerk, storage en ‘de rest’ varieert bij variëren benutting. Dit kunnen we toelichten met hetzelfde verhaal als bij variëren benutting in decentrale scenario: -Hogere benutting betekent relatief kleinere aandeel servers en grotere aandeel storage in energieverbruik. De relatieve toename van storage wordt veroorzaakt doordat in het gebruikte model, de hoeveelheid storage gerelateerd is aan de hoeveelheid verwerkte data, en niet de beschikbare servercapaciteit. Op het moment dat servers beter worden gebruikt (benutting neemt toe), neemt het aandeel van storage in het energieverbruik dus toe. Absoluut blijft energieverbruik van storage constant, want we variëren alleen de benutting, niet de grootte/hoeveelheid van taken. -Als servers efficiënter kunnen worden benut, bijvoorbeeld door werk zodanig aan te bieden dat een server continu aan het werk blijft, is minder hardware nodig dan wanneer dit niet gebeurd. De hoeveelheid hardware is direct gerelateerd aan de hoeveelheid verbruikte energie. Daardoor wordt het aandeel van zowel de servers als het netwerk in energieverbruik lager bij een hogere benutting. Met als extra conclusie: -In het centrale geval zal pas bij een benutting van servers hoger dan 90% het energieverbruik van servers minder dan 50% bedragen t.o.v. totaal energieverbruik
26
- We laten in deze slide zien hoe het energiegebruik toeneemt als er meer transport nodig is, dus #data/taak varieren terwijl #instructies/taak gelijk blijft. - Energieverbruik verandert lineair met data per taak - Verdubbeling of halvering van huidige hoeveelheid data (2 TB) verandert energieverbruik per taak nauwelijks. Verklaring hiervoor ligt in het feit dat het overgrote gedeelte van het energieverbruik in servers zit, en slechts een klein gedeelte in netwerk. Vergroten van hoeveelheid data per taak vergroot aandeel netwerk (zie volgende slide), maar rekenkracht nodig voor servers blijft gelijk, en deze blijft overheersen. - We nemen nu niet mee in het model dat bij meer data per taak er in het algemeen ook meer storage nodig zal zijn, dus in werkelijkheid zal het energieverbruik nog meer groeien, maar we vermoeden dat energieverbruik servers nog steeds dominant zal zijn.
27
We zien hier dat in het centrale computing – decentrale storage case pas bij zeer grote data hoeveelheden (>20 TB) de percentages energieverbruik netwerk en energieverbruik servers elkaar beginnen te naderen
28
Referentie: GreenCloud: a packet-level simulator of energy-aware cloud computing data centers, Dzmitry Kliazovich, Pascal Bouvry, Samee Ullah Khan, J Supercomput DOI 10.1007/s11227-010-0504-1
30
Workload scheduling -In de literatuur zijn verschillende artikelen te vinden voor optimaal schedulen van workload met als doel het energieverbruik omlaag te brengen. Zie bijvoorbeeld “Energy Aware Consolidation for Cloud Computing, S. Srikantaiah et al., Microsoft Research, 2008.” Energie-efficiënte servers: -Energy Star (http://www.energystar.gov/) is een label dat energie-efficiëntie van o.a. ICThardware tot op zekere hoogte garanderen. In 2009 verscheen van de Environmental Protection Agency (EPA) uit de VS, versie 1.0 van Energy Star specificaties voor servers. Testen wezen uit dat vervanging van oudere servers met deze nieuwe Energy Star-gelabelde servers kan leiden tot 30-50% vermindering van energieverbruik (zie: http://www.energystar.gov/ia/products/downloads/ES_server_case_study.pdf) Een beperking van de specificatie versie 1.0 is dat het de eisen voor kleine servers met maximaal vier cores beschrijft. Energy Star verwacht in 2012 een specificatie uit te brengen voor grotere servers. -Eén mogelijke maatregel voor het verhogen van energie-efficiëntie van servers bestaat uit het inbouwen van geavanceerde power management technieken, zoals dynamic voltage and frequency scaling (DVFS), waarbij de voltage, en daarmee ook het energieverbruik en snelheid, kan worden aangepast. Hiermee kan zo’n server tijdens het schedulen flexibeler worden ingezet.
33