Hibrid előadás: az ea másik felében a Morgen Stanley munkatársa kiegészítéseket fog hozzáfűzni a témához. Hagyományos és szerverrendszerek.
1
2
3
2000 őszén bejelentés: Netburst architektúra meghírdetése: ‘A jövő architektúrája. El fogja érni a 10 GHzt’. Pentium 4 architektúrája. Willamette Northwood (többszálúság) Prescott (64 bit) A bejelentett 2 féle 4 Ghz-es modellt visszavonták. Az Intel piaci pozíciója meggyengült, az AMD erősödött (fő ok: 200x –ben x86 és Opteron 2003-ban) 3 nagy fejlesztési irány. A harmadik: P4 logikája, koncepciója nem volt tartható. Előtte volt P3, erre alapult a Pentium M (mobil szegmens), amiben a disszipációkezelés volt a meghatározó 32 bites rendszer volt. Erre alapul a Core 2 rendszer. Tick-Tock modell: az ember vagy technológiát fejleszt, vagy architektúrát (már jóval az Intel kijelentése előtt is ismert volt ez az állítás) Core 2 mag: Merom. Penryn: statikus disszipáció csökkentése érdekében bevezették a Hafnium alapú High-K vezető réteget. Nehalem (2008): később kifejtve. 2010: Westmere 32 nm. Ennek a Tock verziója: Sandy Bridge 4
Azonos gyártási technológiát láthatunk a Tick és a Tock fázisban
5
Core 2 fő vonásai: lapka fotója. Szimmetrikus rendszer. P4 utáni nagy dobás (AMD miatt rá voltak kényszerülve) 1. Széles dinamikus végrehajtás, 4 -szeres belső szélességet jelent (AMD szélessége 3, a korábbi rendszereké is ennyi => 33% -os növelés) 2. Multimédia és 3D támogatás egyre fontosabb. SSE 4.1 utasításokhoz 128 bites feldolgozó egység. 3. Lebegőpontos MM támogatást 1997 –ben kezdte el (PIII), SSE a Pentium 4 –ben jelent meg (2000). Az utasításszintű architektúra folyamatosan bővül, itt a 4.1 –es SSE. 4. Memóriamunkát gyorsító cache rendszer: - ‘Smart’ memória hozzáférés: spekulatív LOAD –ot bevezették (ha egy LOAD –ot előre akarunk hozni, akkor biztosítani kell, hogy az őt író STORE –nak már be kellett következnie. Akkor probléma, ha a LOAD –ot előrehozzuk, pedig az eredetileg azt megelőző STORE a helyén marad. Meg kell vizsgálni, hogy a LOAD címe megvan-e a STORE queue –ban. Ha megvan, akkor meg kell várni, amíg a STORE végrehajtódik, vagy: nem várjuk meg, amíg beíródik a memóriarekeszbe, hanem az adatot rögtön a LOAD –hoz átmásoljuk). - Előlehívási rendszer fejlesztése (P4 –nek 1 előlehívó – L2, Core2 –nek 8 előlehívója van). Előlehívás az L2 –be történik. 5. Cache rendszer fejlesztése: Shared (közös használatú) cache bevezetése) korábban privát cache volt. 6
Szélesség: osztásra helyeztek hangsúlyt. Virtualizáció támogatásának elkezdése, napjaink egyik legfontosabb technológiája. OS erősebb támogatása. Memória: L2 cache méretének és hatékonyságának növelése, memória elérésének növelése Multimédia: SSE4 megjelenése Energiagazdálkodás: Disszipáció kezelés: 1. Deep Power Down: Ismétlés: dinamikus disszipáció egyenesen arányos fc-vel, négyzetesen a feszültséggel => feszültség csökkenésének hatása: az órajel bekorlátozását okozza Laptop: egy architektúrának olyan verziója, ami alacsonyabb munkaponton működik, és fejlettebb disszipációkezeléssel rendelkezik. Passzív processzorok használatával és fejlesztésével lehet több energia megtakarítást elérni (munkapont változtatásával). OS ütemezője veszi észre a CPU kihasználtságot, van egy ‘bedrótozott algoritmusa’, mikor mit csináljon. Korábban volt szó róla: Sorjában órajelet le lehet venni, óragenerátor leállítása, feszültség csökkentése (amíg a cache még megtartja az állapotát), L2 cache tartalmának lementése (1-2 Mb jelentős igényt vehet igénybe, és mivel CPU még csinálhat valamit, ezért fokozatosan (pl. negyedével) jellemzően a L3 –ba lementődik), ha minden mag inaktívvá
7
Nehalem (pl. Core i3, i5, i7) Szimultán többszálúság bevezetése: minden mag egyidejűleg 2 szálat kezel. 2002 –es technológia a HyperThreading, Pentium 4 (Northwood) –nél már megjelent. Core2 nem volt többszálú, pedig később jelent meg!
8
Minden egyes ciklusban több szálból lehet választani végrehajtható utasításokat
9
A 3 szintes cache rendszerben a magok egyedi L2 –vel rendelkeznek, de shared L3.
10
5 évvel később bevezették a Direkt Csatolt architektúrát (memóriavezérlő a CPU lapkán). 3 és 4 csatornával jelentek meg. CPU –k számával skálázott memóriarendszer (4 CPU => 4* annyi memória, 4* akkora sávszélesség)
11
Busz Intel-féle elnevezése: QPI (AMD: HyperTransport), illetve először „CSI” volt – Larrabee –ben már megvalósításra került.
12
FSB –nél 1,6 Gigatranszfer (400 MHz: valós órajel), dupla annyi, mint a QPI HT 3.0: Budapest-Shanghai környékén jelent meg
13
4 magos Nehalem Cache –ek relatív mérete, memóriavezérlő. 2,5 cm^2 méretű, szokatlanul nagy. 731 millió tranzisztor (Fermi: 2.7 milliárd, ehhez képest nem sok) 8 megás L3, negyed megás L2 ---------------Eddig tartott Sima Dezső előadása Ezután: Juhász Zoltán, Morgan Stanley Intel Developer Forum –ról lesz szó. Érdekesség: szervereknél a fogyasztás ~5-10% -a megy csak el a számolási feladatokra, a fele hűtés, a többi winchester, memória, stb. Nehalem-be bekerült memóriavezérlő miatt megduplázhatták a memória mennyiségét egy rendszerben (24-ről 48 Gb-ra) Cache miss esetén nem tud mit csinálni a szuperskalár CPU. Fine-grained esetén minden ciklusban ki lehet választani, melyik szál fusson. Coarse-Grained: hasonló, csak megakadásnál váltunk szálat. Multiprocessing: adott VE –k csak adott szálakat hajthat végre, de 1 cikluson belül több szálat is lehet legalább. Simultaneaus MT: egy cikluson belül többféle szálból is lehet műveletet választani (horizontális és vertikális réseket is jobban kitöltheti)
14
Legfontosabb szervertípusok (a piac nagy része) a DP szerverek.
15
P4 korszak. MCH: memory control hub (északi híd) FSB: 3.2 Ghz szűk keresztmetszet 2 csatorna RAM, 266 –os sebesség mellett 2.1 Ghz / csatorna => 4.2 Ghz összesen. A memória képes blokkolni az FSB –t. HI: karok (nagysebességű interfészek). Gigabites sebesség. Sávszélesség miatt sok sebből vérzik ez az architektúra. Másik nagy probléma: a déli hídnál. 2 PCI busznak felel meg => 266 MHz a sávszélesség összesen. Az adat önmagában elvisz 2*100-at. MbE + Video. => Szervernek nem jó
16
P4 következő generációja. Javulás: HI helyett PCI E x8 kimenetek (egyenként 4 gigabit sávszélesség). A fő probléma (FSB és 3.2 ghz) nem oldódott meg, a déli híd sem.
17
P4 alapú szerverek. Paxville –ből csak egyféle volt. Kétmagos CPU, külön L2 –vel, FSB mindkettőt ellátja. P4 miatt magonként 2 szál fut rajta.
18
Xeonoknál Noconának hívták a ‘DP Prescottot’. Itt jelentették be a 64 bites kiterjesztést ( -> 64 bites Xeon + Dual Processoros szükségletek) Irwindale: L2 cache –t megemelték 2 Mb –ra (desktopnál is volt szó róla korábban). 1 Mb növeléssel érték el. Paxwille: két db Irwindale magot egymás mellé tettek (nem integrálták).
19
Cedar Mill: 65 nm technológia. Irwindale mag zsugorítása!
20
Eddig volt a P4 világ, innentől Core 2 –t nézzük. A szerver mag: Woodcrest (azt hogy Xeon 5100, azt nem kell tudni). Magonként 1 szál! Csak a Nehalemtől lesz többszálúság. Disszipációkezelés: Pentium M –ből. Cache és FSB megnövelése. 266 MHz (266*4~1066 MT) AMD mondta: ez nem 4 mag, ez 2*2 mag!
21
Harpertown (nem kell tudni a nevet) Nagyobb cache (4-ről 6 megás cache)
22
2* annyi tranzisztor/mm^2: Moore
23
Összegzés Órajel: stabilizálódás. 2-3 ghz között állt be FSB: 667-800 ról 1333-1600 135-150 Watt is volt (Prescott 103W volt) Mindegyik 64 bites támogatással rendelkezik VT: vírus védelem ED: Több munkapont van definiálva, OS vezérli: ha kisebb a kihasználtság, lejjebb veszi a disszipáció csökkentése érdekében.
24
Nehalem világ. Ténylegesen 4 magos CPU megjelenése. - megmaradt 8 Mb, RAM vezérlő a lapkára került, - 2 soros link (korábban CSI –nek nevezték, Larrabee –nél) 6 magnál 8-ból 12 Mb cache lesz.
25
A fejlődésnek az ívét kell ‘érezni’: mi következik mi után. L3 cache a Nehalemben jelenik meg. Magok száma várhatóan duplázódik (ritkán van közbülső megoldás, pl 6 mag) Valószínűleg 64 k L1, negyed-fél megás L2, 10-12 megás L3
26
Módosított dia: baloldali ábra, DIMM –ek száma 2-3. Baloldali: első Core 2. Memóriakapcsolat: tradícionális, 2 csatorna, 400 MT/s, 6.4 (ami megfelel az FSB – nek) Jobb oldal: megemelték az FSB –t, RAM túl lassú, soros kapcsolatú FB-DIMM –eket bevezették -> több csatorna és több kapacitás.
27
Platformok: mag + lapkakészlet (északi-déli híd) Paxwille mag + 7520 –as chipset. PCI-E nagyobb sávszélességű kapcsolat + DDR2 RAM
28
29
4 G sávszélesség / PCI-E
30
Blackford lapkakészlet: újdonság: FBDIMM.
31
2 FSB, FBDIMM, északi-déli kapcsolat: PCI-E (4 G, előtte 266 M)
32
Blackford chipset
33
Teljesítménynövelés: kb mindenhol 2-3x
34
65->45 nm Mai kínálat
35
5400: fejlődésből adódó Penryn 4 magos megoldás 5200: ha valamelyik mag rossz, eladják 2 magosként, amúgy ugyanaz.
36
Déli híd kapcsolat még tovább bővült. Magonként 3-4 csatornát enged meg. Soros QPI.
37
38
Újra a P4 –el fogunk először foglalkozni.
39
Xeon MP: L3 8 Mb. 7100: 90-> 65 nm. L3: 16 Mb, 2*1 Mb L2. Teljesen egyedi fejlesztés, nem folytatódott.
40
Tigerton DC: 7200! Ugyanúgy ahogy az előbb, hibás mag esetén DC –ként adják el. Tigerton Core 2 alapú Dunnington: két magonként közös L2 cache 3-3 Mb. Penryn alapú.
41
Nagy ellenség: disszipáció. 150 W. Érdekesség: Pár év alatt annyit kell költeni az áramfogyasztásra, mint maga a hardver. A világ áramfogyasztásának 2% -a a számítógépekből adódik, nagyon sok!
42
Nehalemnél elérjük a 8 magot, 4 csatornás memóriát (3 kevés), FBDIMM tudja csak garantálni. Linkek száma: 4
43
44
3xxx: UP 5xxx: DP 7xxx: MP
45
46
47
48
49
2*2 FSB kapcsolat, soros kapcsolatú external memory buffer, 4 csatorna
50
51
52
AMD –tól származik az ábra: hol vannak a problémák. Publikálták. Kicsi a sávszélesség, kicsi a memória
53
Caneland: 4-6 mag
54
Önálló FSB minden CPU –nak, FBDIMM.
55
4 csatorna, csatornánként 8 DIM (soros rendszer kibírja), chipen található a soros-párhuzamos átalakítás. Összesen 512 Gb is ráfér.
56
57
Viszonyítási alap: kétmagos 7100-as rendszer. 2-3x teljesítmény növekedéssel lehet számolni
58
59
60
61
AMD szerverei: Opteron. 64 bit. 2003-ban jelent meg, Direkt Csatolt Architektúra. Lapkán lévő RAM vezérlő. K8: 64 bites AMD (Desktop, Server, Mobile is) 100-1000: UP 200-2000: DP 800-8000: MP K7: Athlon. K8: 64 bit. Athlon 64 ~ Prescott. Barcelona: K10 mag. SCST: Single Core Single Thread Troy: zsugorítás. Italy, Santa Rosa: két mag, de csak egymás mellé tették, nem integrálták. Disszipációkezelés ügyes volt. High Efficiency: nagyobb órajel => nagyobb disszipáció Barcelona: 4 mag, de bukás egy kis hiba miatt. 2007ben jött ki a L3 a K10 –ben (Intelnél ugyanekkor, a Penrynben!). Disszipációkezelés nagyon jó! Shanghai: 45 nm. L3: +1 Mb. K10 mag. Sokkal több tranzisztor, alacsonyabb fogyasztás!! HT 3.0 és 4 link.
62
MP világ: 4 db 3.0-ás HyperTransport link.
63
Intel csak 5 év múlva hozta be.
64
65
66
67
Erről nem volt szó az órán
68
69
4 CPU –s megoldás AMD gyakran használ nVidia lapkakészletet is
70
Közvetlenül a CPU –k mellett vannak a RAMok (Intelnél egyik oldalon CPU –k, másik oldalon RAM –ok -> nagyobb utat kell megtennie a jelnek)
71
72
K8 és K10 közötti eltérés: 4 mag 2 helyett. L3 megjelenése. 4 HT a 3 helyett. Vizsgakérdés lehet ilyesmi!
73
74
75
76
Ugyanaz, mint az előző ábra
77
Jelenlegi chipsetek nem támogatják még a 4 linket, csak a 3-at. Új platform kell hozzá
78
Nem volt szó órán róla
79
80
81
L3 nagyobb („Tick verzió” -> technológia váltás, nem architektúra váltás)
82
83
84
Legalább a fele (~60%) a cache
85
Általánosságban: a mindenkori leggyorsabb ~1000$
86
Fiorano platform fogja támogatni az új vonásokat (4 link)
87
88
89
90
91
92
93