IT4I HPC prostředky pro řešení obrovských inženýrských úloh
www.it4i.cz
David Horák Lubomír Říha Marta Jarošová Tomáš Karásek Tomáš Kozubek Vít Vondrák Václav Hapla
V.Láska, V.Hruška, Praha, 1927: Teorie a prakse numerického počtu
industry.it4i.cz www.it4i.cz
Pomůcky počtářské industry.it4i.cz www.it4i.cz
1
Anselm „Mobilní“ superpočítač …
… výkon 2000+ mobilních počítačů
Anselm … Dieselový generátor 4 chladící věže Chladící infrastruktura Servisní kontejner MOBULL kontejner
industry.it4i.cz www.it4i.cz
Anselm kdysi … industry.it4i.cz www.it4i.cz
Rozvoj průmyslu ve velkém měřítku na Ostravsku • 1835 – vzniká hloubením jámy později nazvané Strojní uprostřed důlního pole Ferdinandovo štěstí • 1843 – přejmenován na Důl Anselm • 1847 – prvním v revíru, kde byl v roce 1847 použit parní stroj
• Technické parametry • těžilo se zde 157 let • hloubka 621,5 metrů
Anselm dnes … uvnitř
industry.it4i.cz www.it4i.cz
První superpočítač prvního superpočítačového centra v ČR IT4I • 94 000 000 000 000 = 94x1012 výpočtů za sekundu = FLOPS • 207 extrémně výkonných počítačů • 1000+ domácích počítačů • rychlá komunikace mezi jednotlivými počítači • 4000x rychlejší než průměrné připojení k internetu • nové technologie a architektury v HPC • Výpočetní akcelerátory Intel Xeon Phi • Grafické akcelerátory Nvidia Tesla K20
Spuštění • květen 2013 Životnost 4-5 let
Anselm dnes … uvnitř 180 x 307.2 GFLOPS
55296 GFLOPS
27 x 294.4 GFLOPS
7948 GFLOPS
industry.it4i.cz www.it4i.cz
43 GFLOPS 23 x 1170 GFLOPS
4 x 1010 GFLOPS
26910 GFLOPS
4040 GFLOPS -------------------94 195 GFLOPS
GFLOP = Giga FLOP = 109 = 1 000 000 000 výpočtů za sekundu
Anselm dnes … uvnitř
industry.it4i.cz www.it4i.cz
2
8 ks
+
(700/900MHz,512MB RAM, 8x870Kč)
1 ks 280 Kč
+
1 ks 170 Kč
+
2 ks 2x45 Kč
+
8 ks
+
8x170 Kč
+ cca 1 týden intenzivní práce D. & M. Horáka & L. Říhy
8 ks 8x80 Kč
=
Given the challenge of illustrating parallel computing to secondary school students here is an account by Ben Eagan, a computational scientist at ICHEC and a recent graduate of the EPCC MSc. in High Performance Computing, where he designed and developed both the hardware and software for a "mini" cluster centred around the Raspberry Pi.
In October 2012 Ben was assigned to build a Raspberry Pi cluster as apart of the outreach programme within ICHEC at the Galway 091 Labs Makerspace. Several of his classmates had been planning to build a Raspberry Pi cluster of their own as a Dissertation project, but demand was so high they were forced to plan something else. The cluster was built following instructions made available by Prof. Simon Cox at the University of Southampton, who built a supercomputer from 64 Raspberry Pis running the Debian based Raspbian Wheezy operating systems, with parallel jobs being executed using the Message Passing Interface (mpich2).
PERMONÍCI jsou obecně mýtické bytosti vyskytující se zejména v dolech a důlních štolách, tedy zejména v podzemí. V bájích, pohádkách a mýtech se jedná o zvláštní podzemní skřítky, kteří normálním horníkům snad někdy pomáhají a někdy prý i úmyslně škodí pověsti tohoto typu se vyskytují v mnoha oblastech světa, v tomto smyslu se jedná pravděpodobně o jeden ze základních lidských kulturních archetypů. Označení pochází z německého výrazu Bergmann (muž z hory) a je tedy vytvořeno obdobně jako vasrman (Wassermann vodník) nebo fajérman (Feuermann - ohnivý muž). [Wikipedie]
3
Salomon -
Ostravská šachta + bankéř Salomon Mayer Rotschild teoretický výkon 2,5 PFLOPS, dodavatel SGI, dodání červenec 2015 1008 výpočetních uzlů, 24192 jader, 864 akcelerátorů 24192 jader Intel Xeon (Haswell-EP, 24 jader, 2,5GHz, 128GB RAM) 52704 jader akceleračních koprocesorů Intel Xeon Phi 7120P (MIC, 61 jader, 16 GB) 129024 GB operační paměti Infiniband FDR 56Gb/s, topolgie 7D Enhanced Hypercube 2 PB úložiště Příkon 732kVA, hmotnost 30 t Cena 274 900 000 Kč
Test na motorové brzdě
Linpack test
Linpack test
300 kW
1,045 PFlops
1 GFlops
LINPACK benchmark J. Dongarry: Měření výkonu počítačů ww.top500.org Pomocí HPL (High Performance Linpack) Jedná se o řešení soustavy n lineárních rovnic o n neznámých LU rozkladem s částečnou pivotizací mající výpočetní náročnost 2/3n3+2n2 Ax = b Û ( LU) x = b Û L ( Ux) = b
Ly = b Ux = y
Basic Linear Algebra Subprograms – BLAS Standardizace nejčastěji používaných operací v lineární algebře, tj. operací s vektory a maticemi Poprvé zmíněno Lawsonem, Hansonem, Kincaidem a Kroghem v roce 1979. Dnes existuje celá řada knihoven implementující velmi efektivně BLAS: ACML - AMD Core Math Library, ATLAS - Automatically Tuned Linear Algebra Software cuBLAS – BLAS pro NVIDIA GPU karty, Intel MKL - Intel Math Kernel Library, Netlib BLAS ….
Standardizace názvů subroutin: Dle datových typů S ... Single precision D ... Double precision C ... Komplexní čísla
Dle typů matic: GE – GEneral – obecné matice GB – General Banded – obecná pásová matice SY – Symmetric – symetrická matice TR – Triangular – trojúhelníková matice
Příklad: DGEMM = Double precision, GEneral matrix, Matrix-Matrix operation C := αAB + βC …asymptotickou náročností f(n)=n3+3n2, tj. O(n3)
Silná paralelní škálovatelnost: čas potřebný pro řešení úlohy na N procesorech je T(N) = T(1)/N
Superpočítače ve světě • Tianhe-2 – 55 PFLOPS • 16,000 počítačů • 2x Intel procesor – 8 jader • 3x Intel Xeon Phi akcelerátor • 384,000 procesorových jader • 48,000 akcelerátorů
• Titan – 27 PFLOPS • 18,688 počítačů • 1x AMD procesor – 16 jader • 1x Tesla K20 grafický akcelerátor • 299,008 procesorových jader • 18,688 akcelerátorů
PFLOP = Peta FLOP = 1015 = 1 000 000 000 000 000 výpočtů za sekundu
~80 x větší než Anselm
PRACE – Partnership for Advanced Computing in Europe Tier0 Tier-1
Sixth production system available by January 2013: 1 Petaflop/s IBM (MareNostrum) at BSC.
Tier-2
Upgrade: 5.9 Petaflop/s IBM Blue Gene/Q (JUQUEEN)
http://prace-ri.eu/ http://prace.it4i.cz/
First production system available: 1 Petaflop/s IBM BlueGene/P (JUGENE) at GCS (Gauss Centre for Supercomputing) partner FZJ (Forschungszentrum Jülich)
Fifth production system available by August 2011: 2.1 Petaflop/s IIBM BG/Q (FERMI) at CINEC. Second production system available: Bull Bullx CURIE at GENCI partner CEA. Full capacity of 1.7 Petaflop/s reached by late 2011.
Fourth production system available by mid 2012: 3.2 Petaflop/s IBM (SuperMUC) at GCS partner LRZ (Leibniz-Rechenzentrum).
Third production system available by the end of 2011: 1 Petaflop/s Cray (HERMIT) at GCS partner HLRS (High Performance Computing Center Stuttgart).
Výzkum na IT4Innovations
Škálovatelné algoritmy založené na metodách rozložení oblasti F 𝐊𝐮 = 𝐟
F
F
• výpočet. nároč. sekvenčních alg. je úměrná počtu neznámých na třetíO(N3) • výpočet. nároč. paralelních alg. je přímo úměrná počtu neznámých O(N)
𝐊𝐮 = 𝐟 na 𝐁𝐮 = 𝐜
𝐊𝐮 = 𝐟 na 𝐁𝐮 ≤ 𝐜
1000000 100000 10000 1000 100 10 Čas řešení 1 0,1 log (s) 0,01 0,001 0,0001 0,00001 0,000001 0,0000001 100
…kontaktní úloha
400
1600
6400
25600
Počet neznámých Gaussova metoda
Rozložení oblasti
Aplikace superpočítačů Důlní výztuž
Mechanika
industry.it4i.cz www.it4i.cz
Aerodynamika
industry.it4i.cz www.it4i.cz
Lamborghini Aventador
~30 dní na domácím PC
Lampa
industry.it4i.cz www.it4i.cz
Boeing 787 Dreamliner
Boeing 787 Dreamliner
industry.it4i.cz www.it4i.cz
Znečištění ovzduší
Povodně (Stonavka – Olše)
Hezké obrázky
industry.it4i.cz www.it4i.cz
www.it4i.cz industry.it4i.cz