SzA49.
AMD többmagos 2 és 4 processzoros szerverarchitektúrái (a közvetlenül csatolt architektúra főbb jegyei, négyprocesszoros közvetlen csatolású szerverek architektúrája, többmagos szerverprocesszorok fejlődésének áttekintése, és a Magny-Course fontosabb jellemzői)
A közvetlenül csatolt architektúra főbb jegyei: -Hyper-Transport 3.0: 4db x16 kapcsolat a processzorok között (a szomszédos processzorok, nem úgy, mint az Intelnél, hogy mindegyiket mindegyikkel) -összesen: ~19MB cache (L1+L2+L3) 12mag esetén, ~17MB cache (L1+L2+L3) 8mag esetén -integrált 4 csatornás DDR3 memóriavezérlő, 40 GB/s sávszélességgel CPU-nként -45nm gyártástechnológia -a processzorhoz közvetlenül (PCI hídon keresztül) kapcsolódik a periféria pl: PCI-X, SATA, stb Négyprocesszoros közvetlen csatolású szerverek architektúrája:
Többmagos szerverprocesszorok fejlődésének áttekintése A két cég közül először az AMD cserélte le az FSB-t, a HyperTransport nevű busszal 2003-ban az Athlon 64 processzoroknál. Ez egy nyílt szabvány, elkülöníti az input és output adatok útját, így egyszerre lehet írni és olvasni. A lecserélés oka egyrészt a megnövekedett adatforgalom az FSB-n (több processzor terheli, magasabb órajellel), másrészt a memória és a processzor közti kommunikáció egyik szűk keresztmetszete lett az FSB. Ennek kiküszöbölésére a processzorhoz közvetlen csatolták a memóriát, belekerült a processzorba a memóriavezérlő. A gyártástechnológia szempontjából 2008-tól fokozatos átállás volt a 65nm-ről a 45nm-re, bevezették a coherent HTt, azaz a 2, ill 4 stb processzor (nem mag) tud egymással közvetlenül kommunikálni az SMP (Symmetric Multiprocessing) rendszerekben. Így az északi híd használata nélkül is kommunikálhatnak a processzorok egymással. Legfontosabb feladata a cache koherencia fenntartása a cache-kben. A Magny-Cours fontosabb jellemzői: -AMD Opteron 6100 sorozat processzorának kódneve -8 ill. 12 mag (2x4-es, 2 szilícium lapkán 4 mag vagy 2x6-os felosztásban, 2 szilícium lapkán 6 mag) -processzoronként 4db HT link -4 csatornás DDR3 memóriavezérlő (Unbuffered/Buffered RAM-ot is támogat) -minden mag saját L2-vel rendelkezik, míg az L3 cache közös (ld: ábra lent)
1
Az AMD Magny-Cours kódnevű Opteron processzora
2
SzA50. Sokmagos processzorok I. (Intel Larrabee processzora) Fejlesztés célja: nagy teljesítményű grafikai processzor, HPC-re nem egy termék, hanem mikroarhitektúra, 2005-től fejlesztik 2008-ban bemutató, 2009-re jelent volna meg de visszavonták, mert megjelent a konkurencia jobb GPGPU-ja (nVidia Fermi) 2TFlops a fejlesztési cél Jellemzői: 45nm gyártástechnológia magonként 256kbyte cache, minden magban 4x Hyper Threading P54C Pentium magok x86 utasításkészlettel a cache-koherencia a magok közt a ringbus segítségével biztosított 2 irányú, irányonként 512bit széles ringbus a magok közt külön textúrázó egysége van, ami a trilinear, anisotropic szűrést és a textúra kitömörítést végzi GPU-orientált illetve alaplapba tehető változata is létezett tehát nem csak grafikus célra használható hanem operációs rendszert is képes lett volna kiszolgálni (elméleti síkon létezett egy négyprocesszoros Larrabee szerver változat, ahol QPI volt a processzorok közt) sok hasznos tapasztalattal szolgált az Intel számára a Sandy Bridge kifejlesztésekor
3
SzA51.
Sokmagos processzorok II. (Intel Tiled és SCC processzorai; általános felépítésük, alapelemek, kapcsolóhálózat, értékelésük)
Intel Tiled: -80 mag (8x10 ’csempe’), első nagy magszámú megoldás -a magok közt routeres 2D kapcsolóhálózat -kis méretű chip kísérleti célokra fejlesztve -mezoszinkron működés: azonos frekvencián mennek a magok, de eltérő fázisban -kis méretű cache-k, -minimális utasításkészlet -nincs semmilyen fordító, sem op.rendszer ami támogatná -> tesztelési, kutatási célokra egyetemeknek adták -nincs memóriakontroller -1,6 TFLOPS single-precision számítási teljesítmény -a fejlesztés tanulsága: 1) érdemes a tranzisztorok egy részét on-die memóriaként felhasználni (azonban nem minden esetben hasznos) 2) cache-koherencia támogatása korlátozza a magszámot 3) gyors kommunikáció kell a magok között
Intel SCC (Single-Chip Cloud Computing): -48db Pentium mag (24 csempe 2 maggal) -45nm gyártástechnológia -2D rácsos kapcsolóhálózat a magok között -shared memory (cache koherenciát biztosítani kell) -> cache controller -4 memóriavezérlő -fejlett energiaháztartás: saját feszültség- és frekvenciaszigetek (8db) -> disszipációt csökkenti -max. 125W TDP -C/C++ és JavaScript nyelvek támogatása (az Intel fejlesztői jelenleg ezekkel tesztelik a chipet) forrás: http://newsroom.intel.com/servlet/JiveServlet/downloadBody/1088-102-1-1165/Intel_SCC_whitepaper_4302010.pdf
4
SzA52. Heterogén mester/szolga elvű többmagos processzorok (Intel Cell processzora) Fejlesztés célja: -Sony, IBM és Toshiba közös terméke játékok/multimédia és HPC alkalmazásokra -Playstation 3 és QS2x Blade szerverekhez Jellemzői: - 1 mester 8 szolga - a mester a kapcsolóhálózaton keresztül DMA segítségével felprogramozza a szolgát (beteszi a programkódot és az adatokat a datacache-be) majd a szolga végrehatja és az eredményt ugyanebbe az adatcachebe teszi majd szól mesternek hogy kész - aszinkron aktív rendszer (aszinkron mert nem a mester szinkronizációs órajelére kell a feladatot elvégezniük a szolgáknak, hanem ha elkészültek akkor szólnak /kérés-válasz/ ) - kétirányú gyűrűs rendszer a szolgák a mester és memóriavezérlő között (96B/ciklus) - XDR Rambus Ram - napjainkra haldoklik mert túlságosan komplex a működése - párhuzamosan nyolc tranzakciót tud lebonyolítani a ringbuson keresztül (EIB)
5
SzA53.
Heterogén csatolt többmagos processzorok (GPGPU-k fejlődésének áttekintése, kitekintés a további várható fejlődésre)
Add-On (csatolt) architektúrák: -2006-ban jelentek meg -egy adott általános célú végrehajtóegységhez „bedolgozóként” speciális, dedikált egységek kapcsodnak -főprocesszor + gyorsítók -működése: CPU kapja az utasításfolyamot, kiosztja a speciális egységeknek (pl: belapátolja az adatot a GPU-ba az elvégzi, majd kilapátolja onnan) -a dedikált egység és az általános célú között jelentős működésbeli sebességkülönbségek vannak
GPGPU-k fejlődésének áttekintése: -a GPU-k nagyobb ütemben fejlődtek, mint a CPU-k -a CPU-knál a cache a lapka több mint felét foglalta el, míg a GPU-knál a többlettranzisztorokból újabb magokat alakítottak ki, masszív párhuzamos feldolgozással a cache-k szerepe csökkent -jóval nagyobb felületű a GPU lapka, mint a CPU (harmadik ábra: Penryn CPU mag vs. nVidia GTX 280)
Kitekintés a további várható fejlődésre: -a GPGPU-k teljesítménynövelése egyre nagyobb ütemben folytatódik -Sandy Bridge-el megjelentek a processzor szilíciumlapkájára integrált videovezérlők, idővel az OpenCL szabvány támogatása sem kizárt -CUDA (nVidia), OpenCL (nVidia, ATi), Brook+ (ATi) fejlődése (pl: C++ támogatás stb) -a világ leggyorsabb rendszerei ma már nem a homogén rendszerek közül valók (vagy heterogén master/slave elvű, vagy add-on elvű) -a fejlődési irány a több általános műveletvégzőhöz (CPU) több dedikált műveletvégző (pl GPU) felé halad
M: Many D: Dedicated
6