Duurzame eScience Bioinformatica case study Pieter Meulenhoff, Daniël Worm, Freek Bomhof, George Huitema, Job Oostveen, Oostveen Carolien van der Vliet-Hameeteman Vliet Hameeteman
1
Doelstellingen Inzicht in energiegebruik en –besparing in eScience toepassingen D idd l van een relevante l t case: bi i f ti Door middel bioinformatica Holistische benadering Analyse van gehele ICT keten Vertaling naar aanbevelingen voor eScience Scenario’s
Focus van dit project
2
Case: bioinformatica breed spectrum van computationele technieken Pattern recognition, Data mining, Machine learning M d lli i l ti Modelling, simulation Typische eenheid van werk is een analyse/modellering/simulatie taak (“job”) Draait op een lokaal of remote cluster trend: Service based computing
Case study: bioinformatica
3
Gegevens voor de case study Voor deze case study is contact opgenomen met: Bioinformaticagroep in Rijksuniversiteit Groningen interview Morris Schwertz Gegevens van rekencluster Gerton Lunter van Oxford University Gekozen bioinformatica taak: Sequencen van DNA Eigenschappen van dit type taak: 2 Terabyte aan data uit externe storage Weinig tot geen parallellisatie 112 uur processing time Batch werk, niet interactief Case study: bioinformatica
4
Energie Model “jobs”
servers
netwerk
storage
Datacenter infrastructuur: koeling, voeding, huisvesting, etc. Model Energieverbruik in 4 componenten
5
Vergelijken architectuur
Computing
Model Verschillende Scenario’s
centraa al decentra d aal
Stora S age
centraal
federatief
decentraal
6
Vergelijking energieverbruik voor de scenario s scenario’s
Model Resultaten
Energieverbruik per taak (in MJ)
7
Energieverbruik federatieve computing Centrale storage (storage ver van servers)
Decentrale storage (storage dicht bij servers)
Totaal servers
29%
Totaal netwerk
Totaal servers
28%
Totaal netwerk
45%
47% Totaal storage
20% 6%
Model Resultaten
Totaal rest (koeling voedingen (koeling,voedingen, etc.)
Totaal storage
20% 5%
Totaal rest (koeling voedingen (koeling,voedingen, etc.)
Energieverbruik per taak:
Energieverbruik per taak:
15 MJ (4,1 kWh)
15 MJ (4,0 kWh)
8
Belasting Vergroten van belasting (percentage server dat gebruikt wordt) Hogere benutting kan worden verkregen door: Uitzetten servers die niet nodig zijn (‘dynamic shutdown’) Workload scheduling zodanig dat alle servers continu (en liefst maximaal) i l) benut b t worden. d Parallelliseren van taken
Model Resultaten
9
Variatie datahoeveelheid per taak Effect bekijken van variatie van hoeveelheid benodigde data van storage naar server op het energieverbruik
Model Resultaten
10
Betrouwbaarheid Er is niet uitgegaan van een ‘gemiddelde’ server Beperkt aantal metingen aangevuld met gegevens uit de literatuur en (waar niet beschikbaar) eigen inschattingen
Resultaten kunnen wijzigen door: Gebruik van andere componenten (servers, netwerk elementen, storage) Andere architectuur
De gevonden trends lijken realistisch G GreenCloud Cl d Zeer weinig referentie materiaal gevonden voor goede vergelijking Validatie en metingen g blijven j daarom belangrijk g j Model Betrouwbaarheid
11
Conclusies Bioinformatica case Centrale computing-scenario lijkt qua energieverbruik de beste. scenario’s. Energieverbruik servers is het grootst in alle scenario s. Energieverbruik voor netwerk is in alle scenario’s relatief klein Het optimaal benutten levert de grootste efficiëntie winst. winst Maximaal benutten van beschikbare systemen Anders de systemen uitzetten (centraal en federatief) Lukt waarschijnlijk beter bij gedeeld gebruik (centraal,
Model Conclusies
De omgeving (uitgedrukt als PUE) is eveneens belangrijk voor het energieverbruik. energieverbruik Dit is traditioneel eenvoudiger in de centrale case (groter datacenter) waar koeling en powerdistributie optimaal op elkaar zijn afgestemd. Voor kleinere (decentrale) omgevingen lijkt een lage PUE nu ook haalbaar met een modulair datacenter.
12
Aanbevelingen Meeste winst in energieverbruik is te halen door aanpak energieverbruik van servers. Dit kan door: Zorgen voor grote benutting servers via: Workload scheduling zodanig dat alle servers continu (en liefst maximaal) belast worden. Servers die niet S di i t worden d gebruikt b ikt uitzetten it tt (‘dynamic (‘d i shutdown’) h td ’) Parallelliseren van taken Aanschaf energie-efficiënte servers Gebruik een federatieve architectuur, of beter nog, een centrale architectuur. Deze hebben de voorkeur boven een decentrale architectuur Aanbevelingen