Příloha č. 5 Zadávací dokumentace
Technická specifikace V následujícím textu se pod pojmem CPU či procesor rozumí fyzický čip, který je umístěn do patice na základní desce počítače a obsahuje zpravidla více výpočetních jader.
1. Všeobecné požadavky na hardware a jeho dodání
Celý systém je koncipován jako náhrada části výpočetního clusteru, který je na pracovišti zadavatele již několik let provozován. Stávající i nové servery budou ve společné správě jediného úlohového systému a přístupné z jednoho management systému. Oba tyto systémy jsou součástí poptávaného řešení
Server specifikace C je určen pro výuku a testování výpočtů s využitím hybridní paralelizace na CPU a GPU. Na našem pracovišti máme několikaleté zkušenosti s technologií NVIDIA CUDA, a proto požadujeme, aby tuto technologii použitá GPU karta nativně podporovala a byla pro ni certifikována.
všechny servery musí být od stejného výrobce a mít totožný typ management rozhraní
minimální celkový počet nodů dodaných v serverech specifikace A a B je 7, minimální počet serverů typu B je 5 a minimální počet serveru typu 1 server typu C a D je 1
výpočetní servery všech specifikací musí být kompatibilní s operačním systémem Debian
všechny servery musí mít IPMI 2.0 kompatibilní management tento musí plně spolupracovat s dodaným centrálním management systémem. Management musí mít podporu syslog, přeposílání událostí pomocí emailů, podporu LDAP, update firmware, event log, SOL, CIM. Minimálně pro server typ D musí též obsahovat vzdálenou grafickou konzoli.
dodávka dále musí obsahovat: o
min. 1 x Infiniband managed switch s minimálně 36 porty v provedení do 19” racku, airflow rearfront, min. podporovaná rychlost infinibandu rychlost 56Gbit. Dodaný počet switchů musí umožnit připojit až 36 nodů pomocí non-blocking architektury bez nutnosti pořizovat v budoucnu další switche. Max. velikost switche je 1U
o
Ethernet LAN switch. Provedení rackmount, Max. velikost switche je 1U .Tento switch musí mít minimálně 4 x 10Gbit SFP+ port, min. 48 x 10/100/1000 Mb Ethernet RJ45 port, port pro management (RJ45 a RS-232), USB port. Dále musí mít min. propustnost 176Gbps a mít maximální meziportovou latenci 3,3 mikrosekund. Požadovaná vlastnosti: ▪
IEEE 802.1D STP
▪
IEEE 802.1s Multiple STP (MSTP)
▪
IEEE 802.1w Rapid STP (RSTPT
▪
Per-VLAN Rapid STP (PVRST)
▪
Layer 2 Trunk failover
▪
VLAN support
▪
Port-based and protocol-based VLANs
▪
Min. 4095 VLANs
▪
802.1Q VLAN tagging na všech portech
o
veškerá kabeláž nutná k provozu systému (LAN, Infiniband, napájecí kabely atd.)
o
veškeré nutné komponenty pro instalaci systému do stávajícího 19” racku a připojení do stávajících PDU a UPS
1
Příloha č. 5 Zadávací dokumentace
1.1.
Specifikace jednotlivých typů výpočetních serverů
1.1.1. Šasi pro výpočetní servery
provedení rackmount, montovatelné do stávajícího racku zadavatele
počet dodaných šasi musí být dostatečný, aby bylo možné osadit všechny dodané blade servery a zbývalo 10 procent celkového počtu pozic volných pro další případné rozšíření
výpočetní servery jsou ve formě blade serverů instalovatelných do tohoto šasi, výměna a instalace nodů bez nutnosti použití nástrojů (simple swap)
min. densita šasi je 2 x server typu A na 1U výšky, možnost min. density až 72 serverů typu A do 42U racku
min. densita CPU = 4 x CPU socket na 1U výšky, min. densita GPU = 4 x PCIe x16 slot pro osazení GPU na 1U výšky
max. výška šasi je 6U, minimální počet výpočetních nodů typu A v jednom šasi je 10
možnost osadit šasi výpočetními servery typu A, B i C v libovolné kombinaci
redundantní napájení, možnost n+1 a n+n redundance. Osazení maximálního počtu napájecích modulů (min. 4x), certifikace napájecích modulů min. 80 Plus platinum
napájecí moduly připojené do PDU / UPS pomocí standardních C13/C14 kabelů
redundantní chlazení, osazený max. možný počet chladicích modulů
všechny výpočetní nody (typ A,B,C) musí mít stejný management, stejné osazení CPU, stejné osazení RAM (DIMM moduly, jejich typ a počet) a musí mít možnost rozšířit je v budoucnu osazením na minimálně 3 x GPU karet (tedy možnost rozšíření minimálně na 3 x PCIe x16 slot pro GPU)
Celé řešení musí být instalovatelné do stávajících PDU zadavatele
1.1.2. Výpočetní server A minimální požadovaná konfigurace:
provedení blade server, kompatibilní s nabízeným šasi
CPU: x86 kompatibilní
počet CPU – min. 2 sockety, obsazeno 2 x procesor
každý CPU min. 12 fyzických jader o nominální frekvenci nejméně 2,2 GHz a min. výkonu SPEC CINT2006 Rates 1050 bodů a CFP2006 Rates 829 bodů (result), výkon bude deklarován pomocí výpisu ze SPEC.org pro daný konkrétně nabízený stroj
RAM typu ECC Registered DDR4 2400 MHz
velikost RAM – min. 5GB na jedno fyzické jádro, osazeno min. 1 x DIMM na jeden pamětový kanál, rozšiřítelnost na min. trojnásobek velikosti instalované RAM bez nutnosti výměny osazených modulů. Při rozšíření nesmí dojít ke snížení frekvence pamětí pod 2400 MHz.
HDD: min. 2 x HDD 2,5/3,5” šachta, osazení min. 1 x 1TB HDD, min. 7200 otáček
min. 2 x 1Gbit LAN pro produkční sít
min. 1 x 1Gbit LAN pro management sít
minimálně 1 x FDR10 Infiniband rozhraní, osazené v min. PCIe 16x slotu
2
Příloha č. 5 Zadávací dokumentace
Infiniband kabel pro připojení nodu k Infiniband switchi v rámci racku
min. 1 x PCIe x 16 slot pro další rozšíření (možnost přidat další adaptery typu infiniband FDR nebo 10Gbit, provedení single i dualport)
1.1.3. Výpočetní server B minimální požadovaná konfigurace:
provedení blade server, kompatibilní s nabízeným šasi
CPU: x86 kompatibilní
počet CPU – min. 2 sockety, obsazeno 2 x procesor každý CPU min. 12 fyzických jader o nominální frekvenci nejméně 2,2 GHz a min. výkonu SPEC CINT2006 Rates 1050 bodů a CFP2006 Rates 829 bodů (result), výkon bude deklarován pomocí výpisu ze SPEC.org pro daný konkrétně nabízený stroj
RAM typu ECC Registered DDR4 2400 MHz
velikost RAM – min. 5GB na jedno fyzické jádro, osazeno min. 1 x DIMM na jeden paměťový kanál, rozšiřitelnost na min. trojnásobek velikosti instalované RAM bez nutnosti výměny osazených modulů. Při rozšíření nesmí dojít ke snížení frekvence pamětí pod 2400 MHz.
HDD: min. 2 x HDD 2,5/3,5” šachta, osazení min. 2 x SSD, min. 900 GB kapacity každý, min. parametry SSD: DWPD = 0,8 ; 520MBps sekvenční čtení / 475 MBps sekvenční zápis (128k blok). Oba disky budou v RAID1. osazen HW RAID řadič s podporou min. RAID 1,0
min. 2 x 1Gbit LAN pro produkční sít
min. 1 x 1Gbit LAN pro management sít
minimálně 1 x FDR10 Infiniband rozhraní, osazené v min. PCIe 16x slotu
Infiniband kabel pro připojení nodu k Infiniband switchi v rámci racku
min. 1 x PCIe x 16 slot pro další rozšíření (možnost přidat další adaptery typu infiniband FDR nebo 10Gbit, provedení single i dualport)
1.1.4. Výpočetní server C pro GPGPU s následující minimální konfigurací:
CPU: x86 kompatibilní
počet CPU – min. 2 sockety, obsazeno 2 x procesor
každý CPU min. 12 fyzických jader o nominální frekvenci nejméně 2,2 GHz a min. výkonu SPEC CINT2006 Rates 1050 bodů a CFP2006 Rates 829 bodů (result), výkon bude deklarován pomocí výpisu ze SPEC.org pro daný konkrétně nabízený stroj
RAM typu ECC Registered DDR4 2400 MHz
velikost RAM – min. 5GB na jedno fyzické jádro, osazeno min. 1 x DIMM na jeden paměťový kanál, rozšiřitelnost na min. trojnásobek velikosti instalované RAM bez nutnosti výměny osazených modulů. Při rozšíření nesmí dojít ke snížení frekvence pamětí pod 2400 MHz.
HDD: min. 2 x HDD 2,5/3,5” šachta, osazení min. 1 x 1TB HDD, min. 7200 otáček
min. 2 x 1Gbit LAN pro produkční sít
min. 1 x 1Gbit LAN pro management sít
minimálně 1 x FDR10 Infiniband rozhraní, osazené v min. PCIe 16x slotu
3
Příloha č. 5 Zadávací dokumentace
min. 2x PCI-E 3.0 x16 slot pro osazení GPU typu Nvidia a Xeon Phi
Nod bude osazen 2 x GPU. Každé GPU bude Cuda kompatibilní, mít RAM velikosti min. 12GB DDR5, 2880 CUDA cores, propustnost paměti min. 288 GBps a výkonu min. 1,43 TF v doubleprecision a 4,29 v singleprecision (bez GPU boostu) na jeden GPU čip. Maximální TDP je 235W per jedno GPU
Infiniband kabel pro připojení nodu k Infiniband switchi v rámci racku
min. 1 x PCIe x 16 slot pro další rozšíření (možnost přidat další adaptery typu infiniband FDR nebo 10Gbit, provedení single i dualport)
1.1.5. Management node typ D
provedení rackmount formát max. 2U výšky
CPU: x86 kompatibilní
počet CPU – min. 2 sockety, obsazeno 2 x procesor
každý CPU min. 12 fyzických jader o nominální frekvenci nejméně 2,2 GHz a min. výkonu SPEC CINT2006 Rates 1050 bodů a CFP2006 Rates 829 bodů (result), výkon bude deklarován pomocí výpisu ze SPEC.org pro daný konkrétně nabízený stroj
RAM typu ECC Registered DDR4 2400 MHz
velikost RAM – min. 5GB na jedno fyzické jádro, osazeno min. 1 x DIMM na jeden paměťový kanál, rozšiřitelnost na min. trojnásobek velikosti instalované RAM bez nutnosti výměny osazených modulů. Při rozšíření nesmí dojít ke snížení frekvence pamětí pod 2400 MHz.
HDD: min. 14 x HS HDD 2,5/3,5” šachta
min. 2 x 1Gbit LAN pro produkční sít
min. 1 x 1Gbit LAN pro management sít
min. 2 x 10Gbit (SFP+) LAN pro produkční sít
1 x FDR10 Infiniband rozhraní, osazené v min. PCIe 16x slotu
disková kapacita – počet volných hotspwat šachet pro další rozšíření minimálně 2
osazená disková kapacita, vše hotswap 2, 5/3,5 palce:
min. 2 x SSD, min. 120GB každý, RAID1 pro OS
Min. 2 x SSD, min. 900 GB každý, RAID 1 pro data
Min. 8 x HDD. celková kapacita min. 20TB netto RAI6 + 1 x spare disk
HW RAID řadič s podporou 1,0,10,5,6 a s min. 1GB flash cache.
Infiniband kabel pro připojení nodu k Infiniband switchi v rámci racku
redundantní napájení
4
Příloha č. 5 Zadávací dokumentace
2. Požadavky na software a jeho dodání 2.1.
Software pro management clusteru
Cluster musí poskytovat vzdálený boot výpočetních serverů z centrálního úložiště bootovacích obrazů. Systém musí poskytovat správu, vytváření, modifikaci a odstraňování bootovacích obrazů (image). Centrální úložiště bootovacích obrazů musí umožnit ukládat bootovací obrazy o celkové velikosti minimálně 1 TB. Cluster musí poskytovat efektivní centralizovanou vzdálenou správu výpočetních serverů, a to jak jednotlivě (jeden server) tak hromadně (po skupinách serverů nebo všechny servery). Systém musí poskytovat zejména vzdálené vykonávání příkazů, přenos, modifikaci a odstraňování souborů, porovnávání výstupu příkazů a porovnávání návratových hodnot příkazů. Systém musí umožňovat paralelní vykonávaní akcí. Vzdálená správa musí efektivně pracovat i v případech, kdy některé spravované servery nekomunikují anebo nepracují korektně, musí identifikovat chyby vykonávaných akcií a oznamovat je.
Cluster musí poskytovat nástroje pro správu uživatelů - vytváření, rušení, modifikaci uživatelů, začleněni do skupin, nastavování hesla, blokování účtu, atd.
Operační systém využívaný všemi uzly clusteru musí být vzhledem k již existujícím prostředím a nástrojům postaven na Linux OS kompatibilním s distribucí Debian. Cluster musí obsahovat nástroj pro opětovnou a zejména automatizovanou inicializaci služeb (výše uvedených) v případě havárie a nutné reinstalaci OS. Cluster musí obsahovat všechny potřebné ovladače k dodaným zařízením a nutné úpravy systému zajišťující kompatibilitu s těmito zařízeními.
2.2.
Monitoring
Řešení musí obsahovat centralizovanou vzdálenou správu a monitoring všech hardvérových zařízení (servery, šasi, switche, atd.) poskytující konfiguraci a ovládání zařízení, detekci závažných stavů a událostí a jejich oznamování předky elektronické komunikace. Řešení musí obsahovat monitoring systémů, stavů a provozních parametrů, úloh, licencí, atd. Monitoring musí poskytovat aktuální i historické hodnoty sledovaných parametrů a jejich prezentaci v grafické podobě. Sledované parametry musí být v takovém rozsahu a detailu, aby poskytovaly dostatečné informace o clusteru a jeho využití pro účely dohledu, reportingu, optimalizace využití, hledání úzkých míst, diagnostiky, řešení problémů apod. Sledované parametry musí zahrnovat:
funkčnost a dostupnost klíčových služeb clusteru síťovou dostupnost, volnou dostupnou kapacitu datových úložišť a souborových systémů serverů detailní výkonové a provozní parametry systémů (např. využití CPU, využití RAM, přenosové rychlosti, počty operací diskových úložišť, disků, souborových systémů a sítí, počet úloh, atd.). Detailními parametry rozumíme parametry, které podrobně reprezentují charakteristiky provozu, rychlosti, využití, atd. konkrétního systému; pro ilustraci využití procesoru je možno reprezentovat např. parametry jako celkové využití procesoru, celkové využití jádra procesoru, stavy system, user, iowait a idle procesoru či jádra procesoru, atd.
5
Příloha č. 5 Zadávací dokumentace
Systém monitoringu musí uchovávat a být schopný reprezentovat hodnoty sledovaných parametrů po dobu minimálně 3 měsíců. Systém monitoringu musí být rozšířitelný o sledovaní dalších zadavatelem definovaných parametrů, jenž monitorovací systém podporuje. Systémy clusteru musí zaznamenávat a uchovávat záznamy o aktivitách, činnostech, změnách stavu, událostech apod. (logy) po dobu minimálně 3 měsíců. Záznamy musí obsahovat časové razítko, identifikaci systému, služby, uživatelů a identifikaci a / nebo popis události. Součástí dodávky musí být systém analýzy logů, který vyhodnocuje záznamy a informuje správce o kritických a závažných událostech a umožňuje vybírat záznamy podle uživatelsky definovaných pravidel.
2.3.
Plánovač úloh
Cluster musí obsahovat službu plánovacího nástroje pro řazení jednotlivých úloh s možností konfigurace front s různou prioritou a zajišťující automatizovanou utilizaci jednotlivých uzlů v závislosti na náročnosti a typu počítané úlohy. Je požadován pokročilý plánovač úloh a správce zdrojů. Plánovač musí:
efektivně využívat dostupné výpočetní zdroje, zohledňovat specifické vlastnosti výpočetních serverů, podporovat běh dávkových i interaktivních úloh, podporovat priority úloh, podporovat závislosti úloh, zohledňovat aktuální dostupnost zdrojů, musí umožnit běh úloh, které vyžadují většinu zdrojů a jejichž vykonání by za normálních podmínek zamezily úlohy s menšími požadavky (resource reservation), efektivně využívat i zarezervované, ale nepoužívané zdroje (backfilling), umožňovat výhradní / exkluzívní používání výpočetních zdrojů, umožňovat spuštění akcí před a po vykonaní úlohy (prolog, epilog), umožňovat zjištění aktuálního stavy výpočetních úloh, umožňovat elektronické oznamování událostí (start úlohy, ukončení běhu úlohy apod.) Uživatelům umožňovat: o zadávat úlohy a sledovat jejich stav, o vrátit výstup úloh Operátorům umožňovat: o zobrazit stav všech úloh, o zobrazit stav front Plánovače, o zobrazit detailní stavy jednotlivých úloh, o přerušit úlohu a znovu spustit přerušenou úlohu (pakliže to úloha podporuje checkpointing).
Plánovač musí zabezpečit: omezení počtu současně běžících úloh uživatele, omezení počtu současně běžících úloh skupiny uživatelů, omezení maximální délky běhu úlohy, přístup na výpočetní zdroje pouze oprávněným uživatelům (ACL). Plánovač musí poskytovat řádkové (CLI) rozhraní a programové rozhraní (API) běžně používaného programovacího jazyka. Licence Plánovače musí pokrývat všechny dodané výpočetní a řídící uzly.
6