2009. 10. 21.
1
2
Teljesítmény: időegység alatt végrehajtott utasítások száma. Egységek: MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS, PFLOPS. Mai nagyteljesítményű GPGPU –k: 1-2 PFLOPS. (Los Alamosban 1 PFLOPS –os szuperszámítógép található. Új rekord: Jaguar, 1.7 PF). Pai: Performance(absolute-instruction), Pao: Performance(absolute-operation), Pr: Performance(relative), tv: vizsgált rendszer futási ideje - Abszolút teljesítmény: SIMD miatt az utasításszámról át kell térni a műveletszámra. Műveletek számának meghatározása: Performance Counter (kibocsátott utasítások, elágazási utasítások, cache miss –t kiváltott utasítások, stb.). Csak külön szoftveren keresztül érhető el, nem publikus. A Performance Counter alkalmazásfüggő is, pl. a lebegőpontos utasítások lassabbak.
- Relatív teljesítmény: benchmark programcsomag. Különféle műveletekre a futási időt összehasonlítja egy referenciarendszer értékeivel. Azért van alul a vizsgált rendszer ideje, hogy a tört minél nagyobb lehessen (mert a rendszer valószínűleg gyorsabb a referenciánál.. A tört így nagyobb lesz 1 –nél. Segíti az eladást). Ez a gyorsítás mértani közepe.
3
Ez az ábra a gyorsítás mértani közepével kapcsolatos, arra egy példa. A jelölt függőleges vonal jelzi a gyök eredményét. Oszlopok: 1. Kiválasztott program 2. Referencia idő 3. Előírt beállításokkal 4. Normál futtatás (extra beállításokkal)
4
Általános célú alkalmazások esetében az OPI ~ 1! Nem beszélünk itt a SIMD –ről. A végrehajtott utasításokat külön kell nézni, mert a kibocsátott utasítások közül van, ami becsült; ha rossz a becslés, rollback kell (eldobás, visszavonás)
5
2000 –es évek környékén az Intel processzorok teljesítménynövekedése megállt. Egészen addig kb. 100 –szoros növekedés / 10 év, ezt a meredekséget kell tudni! Órajel frekvenciája ~ 5 MHz –től 5 GHz- ig terjed
6
PA-RISC: HP POWER: IBM Power PC: Motorola,IBM, Apple
7
8
Általános célú alkalmazás esetén: Pa=fc*IPCeff -> hatékonyság: IPCeff = Pa / fc. Kibocsátott utasításszám nagyobb lehet, mint a végrehajtott: pl spekulatívan lehívott utasítások miatt.
9
Intel 2. Generációs szuperskalároknál (-1995, Pentium Pro) elérték a technológia korlátait, az általános célú programoknál nem maradt több kimeríthető párhuzamosság. Y tengely: hatékonyság (teljesítmény / frekvencia)
10
Y tengely: teljesítmény A teljesítménynöveléshez az órajel és a hatékonyság növelése milyen arányban fogja előidézni. 1993 –ig kb ugyanakkora mértékben nő mindkettő, utána az órajel jobban, az IPC kevésbé. Pentium megjelenése.
1997: 2 utasítás kibocsájtás / óraciklus hatékonyság. (A diát 97 -ben vetítették, érdekes időpontban: ezen a napon volt az Intel és HP bejelentése: az IA-64 (x64) lesz az Új világ (Itanium, Merced))
11
A hatékonyság növekedése kb. 10x/10 év, az órafrekvencia is ennyi ->100x.
12
1. Első generációs futószalag processzor: 386 Második generációs futószalag processzor: 486 2. Első generációs szuperskalár processzor: Pentium Második generációs szuperskalár processzor: Pentium Pro Két-és-feledik generációs szuperskalár processzor: Pentium II Harmadik generációs szuperskalár processzor: Pentium III
13
A szélesség növekedés csak egy pontig volt kihasználható. Általános célú programoknál ~4-5x gyorsítás érhető el. DEC laborjában készült a mérés, 1990 –ben.
14
~1993-5: Első nagy válság: Pentium Pro, 2. gen szuperskalár
15
16
A teljesítménynövelést igényli a piac. Az órafrekvenciát kéne növelni ~100x –ra! Ismétlésként: IPC az 1 órajel alatt végrehajtott utasítások száma (hatékonyság). Az első esetben az órajelet növelik, az IPC konstans. Az órajel növelés káros hatásaira később térünk ki, ez elméletileg helyes irány, ebből indulunk ki. EPIC: Explicitly parallel instruction computing. Ezzel az IPC-re akartak fejleszteni. Intel+HP fejlesztés, Itanium-Merced.
17
1. Csíkszélesség csökkentése (a jelnek kevesebb utat kell megtennie, kevesebb idő, nagyobb órajel) 2. A leghosszabb futószalag logikai hosszának (egymás után lévő NAND kapuk száma) csökkentése. Ezt úgy tudjuk elérni, ha a fokozatokat kisebb egységekre. FIGYELEM! A futószalag fokozatainak logikai hosszát kell csökkenteni
(F D E Wb -> F1 F2 F2 D1 D2 E1 E2 …), nem pedig a futószalag hosszát! Így érhető el például a Northwood mag 20, és a Prescott mag 31 fokozata.
18
Moore törvények a gyakorlatban. Két egymást követő technológia esetén a vonalvastagság ~0.7x –re módosul. Ha egy négyzet oldalhossza 0.7, a négyzet területe 0.49~0.5. Ebből következik, hogy a technológiaváltás esetén a tranzisztorok száma egységnyi területen megduplázódhat. A technológiák körülbelül kétévente váltják egymást (a rajz ~10 évet ölel fel, ebben 5 technológia van feltüntetve, így jön ki az érték). Ismétlés: Moore törvénye (1.): 1965 –ben fogalmazta meg, hogy az egységnyi területen elhelyezkedő tranzisztorok száma évente duplázódik. Moore törvénye (2.): 10 évvel később felülbírálta ezt, másfél évre. Moore törvénye („3”): Napjainkban 2 éves periódussal számolunk Intel -nek hatalmas gyártási kapacitása és piaci volt, ezért is járhatott nagyon elől a fejlesztésekben is.
19
Zárójelben: a fokozatok száma. Emlékeztetőül: a fokozatok számának növelése a fokozatok logikai hosszának csökkentése. Pentium Pro –ban kezdték el ezt alkalmazni. AMD lassabban növelte a fokozatok számát, az órajellel is lemaradtak, ezért áttértek az elnevezési konvenciók megváltoztatására: az Intelhez viszonyítva jelölték a termékeket (pl. 3000+). Fokozatok logikai hossza: FO4, hány NAND kapun kell keresztülmennie egy jelnek. Körülbelül 15 –nél megállt.
20
Y tengely: logikai hossz egy fokozaton belül. F1F2F3D1D2E1E2E3… 15 –nél stabilizálódott.
21
Fc korábban 10x -re nőtt / év (mert IPC is ugyanígy gyorsult). PII környékén (1997) az fc növekedése 100x –ra nőtt / 10 év (a csíkszélesség és a fokozatok logikai hosszának csökkentése által). 10 év alatt ez a fejlesztési irány is bedugult. 1. Nagy válság: amikor a hatékonyságot nem tudták tovább növelni 2. Nagy válság: amikor az órajel frekvenciáját nem tudták tovább növelni FONTOS!
22
Y tengely: fc (MHz) DEC Alpha és Intel Pentium viszonya. 90 –es évek vége felé a DEC processzorai voltak a legjobbak teljesítményben. A gyors frekvencianövelésnek köszönhetően Intel az élre tört (1999) -> RISC processzorok kiszorultak.
23
A DEC Alpha processzorok RISCek voltak, az Intel előretörésével kiszorult a piacról.
24
Y tengely: teljesítmény és relatív teljesítmény. A két gyártó (kék: DEC, piros: Intel) közti teljesítmény százalékos különbsége szinte folyamatosan csökken, a végén az Intel processzorának teljesítménye felülmúlja a DEC –ét.
25
RISC: Load-Store architektúra, CISC: Operandusként megjelenhet a memória is, komplexebb utasítások. A RISC törvényszerűen bedugult; az alacsonyabb frekvenciájú CISC –et sokkal nagyobb ütemben tudták észrevehetően fejleszteni, mint a RISC –et, aminek eleve magas a frekvenciája.
5 év alatt lényegében kiszorultak a RISC –ek (kivéve SPARC és IBM), csak a bizalmi pozíciókban (bank és szerver szegmens) maradtak meg. IBM növelte az órajel frekvenciáját 5 GHz –ig.
26
Hatékonysági korlát ~ visszaesés! Ábrák felrajzolása (a következő oldalon lévő rajzok+magyarázatok) Disszipációs korlát : STOP tábla a frekvencia növelésének (P4 Prescott: 103 W leadás 1 cm^2 –en.. Ez a maximum léghűtéssel) Párhuzamos buszok: lecserélni sorosakra (Intel Nehalem, AMD K8 mag: Opteron és Athlon XP). A párhuzamos busz ilyen magas frekvenciát nem bír el. Skew: különböző hosszúságú vezetékeken a jelterjedési idő eltér. Ma minden busz soros.
27
Beillesztett dia! 1. ábra: A hatékonyság nem csak hogy stagnált(10. dia), elkezdett csökkenni: 2. ábra: ha ugyanazon processzornak növelem a frekvenciáját, a hatékonysága valójában adott órajel felett lezuhan (a RAM nem tudja követni a CPU sebességét) 3. ábra: Mivel a memória látja el utasításokkal és adatokkal a processzort, a memória jelenti a szűk keresztmetszetet. Ez egy adott architektúrára vonatkozik. 4. ábra: a memória technológiai újításaival a hatékonyság mindig növekszik egy kicsit, utána újra csökken az architektúra fejlesztése miatt -> körülbelül konstans
28
Lemarad a memória sebessége a CPUhoz képest
29
Késleltetési idő: elérési idő. Nagyobb frekvencián a kapacitás bekorlátozódik. Több csatorna: több DIMM. Memória két fő jellemzője: késleltetés (elérési idő) és sávszélesség.
30
Beillesztett dia! AMD K8(2003): Opteron és Athlon-64 Direct Connect: nincs FSB, közvetlen kapcsolat a memóriával (3 db). A csatornákra egy-egy újabb processzort is rá lehet kötni (összesen 4 CPU köthető össze, ahol mindegyik processzor minden másikkal tud kommunikálni) A memóriavezérlő a CPU lapkán található. Az Intel ezt a Nehalemmel (2008, pl. Core i7) vezette be.
31
Ehelyett volt egy másik dia vetítve, RAMok típusai, fa-struktúrában. A második generációs szuperskalárok mellett jelentek meg a szinkron RAM –ok, nagyjából 4 évente duplázódott a sebesség 3 korszak: - DRAM (‘70) FP (‘74) FPM (‘83) EDO (‘95): aszinkron (93: Pentium, 66 MHz. RAM sebesség: 66 MHz) - SDRAM (‘96, 200Mhz) DDR (‘00, 400 MHz) DDR2 (‘04, 800 MHz) DDR3 (’07, 1600 MHz): szinkron (ez a kettő párhuzamos. 4 évente duplázódott a sebessége a RAMoknak) 2. generációs szuperskalároknál jelenik meg Szinkron: nem vár visszajelzést, ‘tudja’, hogy megkapják az adatot. - DRDRAM (‘99) XDR (‘06) FBDIMM (‘06, Fully buffered DIMM – DIMM párhuzamos marad -> kell egy konverter a kettő közé): soros kapcsolat Párh. DIMM lábainak száma: ~240, sorosé: ~harmada. Fizikai korlátokat jelent a lábszám, csatornák száma max 2 párhuzamos esetén, soros esetén ~ 4-6 -> kapacitás, a sávszélesség meg tud nőni. A soros kapcsolat biztosabb. Nagyobb frekvencián a kapacitás korlátozódik (DIMMek száma (2-3)). FBDIMM esetén akár 256 Gbyte is lehet egy alaplapon. DDR: kb 240 lábbal rendelkezik. Soros kapcsolatu RAMok nem elterjedtek, nem a PC –kben használják. DRDRAM –ot Rambus DRAM –nak, RDRAM –nak is szokták még nevezni.
32
2 fajta elérési idő: chip(memóriakártyán) szintű és memória(rendszer)szintű elérési idők. A rendszerszintű elérési idő jóval nagyobb (chipek a kártyán -> BUS -> Északi híd – FSB -> CPU).
Rendszerszintű elérési idő: a memóriaegység elérési ideje. Az ábra a chip szintű elérési időt mutatja. Első IBM PC ~5 (4,7) Mhz -el ment->200 ms. 26 év alatt csak 1/10 –ére csökkent az elérési idő.
33
Rendszerszintű elérési idő lassan csökkent, kb harmadára 25 év alatt 1000x órajel frekvencianövekedés mellett, nagy probléma. RDRAM (Rambus DRAM, Direct Rambus DRAM, DRDRAM): Dupla hosszú elérési idejű, de nagy sávszélességű rendszerről van szó (ezt mutatja a ‘csúcs’, 120 és 210). Intelnél többmillió dolláros befektetés
34
2008. 10. 28 RAM lemaradását mutatja az ábra. RDRAM: Rambus DRAM (DRDRAM). Egyre több ciklust kell várni, hogy az adatok megérkezzenek (akár 1000 –t is). Vízszintes vonal: a CPU és a RAM azonos frekvencián működtek. Az Intel a P4 –et először RDRAM –mal hozta be(2000). Ezt a világ nem fogadta jól, mert ezek hosszú elérési idejűek; 2002 környékén SDRAM -okra tértek át.
35
Relatív sávszélesség: RAM Olvasási sebesség / frekvencia. Először 66/66=1. Utána: 0.5, PC-100 esetén 100/500=0.2 stb. FPM: Fast Page Mode RAM PC-800D: RDRAM, Rambus A relatív sávszélesség 0.2-0.3 -nál beállt, jobbat nem tudtak elérni. Manapság feljebb lehetne húzni vonalakat, y=0.5 fölé és x=2.5 körül 3.0 GHz-nél órafrekvencia leállt, de a RAM fejlődése nem.
36
Pentium: 66 MHz (FSB) FSB növekedése körülbelül megfelelt a memória sebességnövekedésével, mert azonos fizikai korlátokkal (átviteli vezetékek fizikai jellemzői – áthallások, zajok, lezárások..) rendelkeznek. 0.2 környékén stabilizálódott ez is. Ma már nem korlát az FSB.
2003 -ban AMD -nél eltűnt az FSB mert a RAM vezérlő bekerült a CPUba, 2008ban az Intel Nehalembe is bekerült.
37
Willamette: 42 millió tranzisztor Northwood: 55 millió tranzisztor – HyperThreading megjelenése (DEC Alphától vették át, a fejlesztőikkel együtt. Eleinte titkos) Prescott: 125 millió tranzisztor – 64 bit megjelenése (Eleinte titkos) A cache igényli a legtöbb tranzisztort. L1 cache jellemző mérete: 32-64 K, elérési idő: jellemzően 2-3 ciklus. Ha nagyobb lenne a cache, lassabban lehetne elérni. L2: 1 Mb környékén. Prescott: 64 bit. Ezt sem jelentették be, csak aktiválták a későbbiekben. Gyanús volt: 55 millió tranzisztor helyett 125 millió tranzisztor, ebből jöttek rá, hogy valamit eltitkolhatnak. Prescott esetén 7ből 23 lett az L2 elérési ideje(kapacitás miatt), L3: az L2 kétháromszorosa (40-60 ciklus)
=> A memória lassúságának kompenzálására bevezetett cache sebességével is gondok vannak!
38
Hatékonyság mérése SPECint_base2000/fc. X tengely: frekvenciaskála! INTEL Dir: Direct connected, saját busz, nem FSB -re kötött L2. On-die: chipre integrált L2. ‘PC-133’: RAM sebesség ‘ATA-100’, ‘SCSI-U2W’: háttértár típusa, sebessége Pentium II nagy újdonsága: fixpontos SIMD Pentium III nagy újdonsága: 1999 -ben jött ki multimédia támogatással: lebegőpontos SIMD (3D grafika, 3. generációs szuperskalár) Coppermine ugrása az on-die miatt, de rögtön csökken, ha nő a frekvencia. Pentium 4: 1,4-1,5 GHz –en jött ki, 400 Megatranszfer / s. FSB: 100, 4 egység / ciklus. Northwood: ugrás a cache duplázódása (256 -> 512) miatt. Prescott mag: 1M L2. HT = Hyper Threading. Northwood –ban jelent meg. Irwindale: L3 cache megjelenése, ezzel 0.6 lett a hatékonyság. Összegzés: A hatékonyság meredeken zuhan, ha növeljük az órajel frekvenciáját. A Pentium 4 hatékonysága minden újdonság ellenére elmaradt a PIII –tól, a Hyper Threading általános célú alkalmazásokban alig hoz valamit.
39
AMD Athlon: ~ Pentium 3 –nak ‘felel meg’ Athlon XP: P4 környékén vezették be, az elnevezés megváltoztatása is itt jelenik meg: konkurenciához viszonyítva (pl. AMD Athlon XP 1500+). Palomino mag, 2001 –ben jelent meg. Athlon 64: 2003 -ban behozták a 64 bitet, az on-chip memóriavezérlést és a CPUk összekapcsolását lehetővé tevő buszokat (Direct Connection..). Athlon 64: desktop neve, Opteron: szerver változat. Korábban vezették be a DDRt (200 MHz FSB). On-die L2 esetén a hatékonyság drasztikusan esett. Oka: rossz tervezés: L2 sávszélessége túl kicsi volt (Itt nem a sávszélességet ölték meg (Rambus DRAM), hanem pont fordítva). Ezt helyretették, ezután ugyanolyan vonalak az ábrán, mint az Intelnél. Hatékonyságban az Athlon 64 megkétszerezte az akkori Intel P4 –ét. (teljesítmény megegyezett, de az AMD feleakkora órajelen tudta hozni ezt az eredményt. IPCeff=Pa/fc ) Barton vitte fel 0.5 környékére 32 biten a hatékonyságot, 64 bites Opteronnal felvitték 0.6ra. ->2 világ: Intel: nagy frekvencián megy, de alacsony teljesítmény AMD: alacsony frekvencián megy, de nagy teljesítmény
40
Azonos rendszer esetén a hatékonyság a frekvencia emelésével leesik. Az architektúra fejlesztésével (L2 méret, FSB, sávszélesség növelés, …) nő. => A hatékonyság fűrészfogas mintázatot mutat
41
2 fűrészfog. Intel és AMD összehasonlítása, hatékonyság szempontjából Görbék: teljesítmény (SPECint_base2000) Intel azért volt sikeres, mert az emberek csak az órajelet nézték. Pentium M: ‘Mobil’. PIII -ra alapozott. Core2: Pentium M-re alapozott! Energia, fogyasztáscsökkenés (mivel a mobil gépekben – laptopok – ezek igen fontosak. P4nek a hőhalál okozta a kegyelemdöfést – 103 Watt, Prescott mag. A 2.2 GHz –es AMD teljesítménye körülbelül megegyezik az Intel 3.4 GHz –es modelljével. AMD: hatékonyabb, de kisebb frekvencia Intel: gyorsabb, de kevésbé hatékony
42
Intel Core2(2006): Pentium M –re alapozott, amit a PIII –ból fejlesztettek ki (disszipációcsökkentési politika, mobil szegmens)
43
Fontos!
44
Kapacitást fel kell tölteni, ezt órajelnél lehet, és ki is kell sütni (ellenálláson). Van egy tápfeszültség, U (órán: ‘V’). Van egy szórt kapacitás, C. Q töltés jelenik meg a kapacitáson. Levezetés: Q= C*U = I*Δt’. Δt’=Δt/2 (1óraciklus alatt történik meg a feltöltés és a kisülés is -> fél-fél órajel). Δt = 1/fc.
Q = C*U = I* (deltaT / 2) C*U = I/(fc*2) C*U*fc*2 = I D = P = U*I = C*U^2*fc*2 A feszültséget csökkenteni kell, hisz ettől négyzetesen függ! Pentiumban 5 V a feszültség, később 3.3V. Manapság 1V. A korlát az órafrekvencia, mert kisebb feszültség ‘kisebbet pumpál’, lassabban tölti fel a tranzisztort, a felfutó görbe túlságosan elnyúlna, ezért nem lehet a végtelenségig csökkenteni a feszültséget. Statikus disszipáció csak zárt kapuk esetén. Szivárgási áram * feszültség. Dinamikus: feltölt-kisüt. Csak a nyitott tranzisztoroknál jelenik meg. FONTOS: a kettő összege a disszipáció.
45
Fajlagos disszipáció: négyzetcentiméterenként hány Wattot kell disszipálni. Intelnél ténylegesen kb 1 cm^2 a terület, ezeket az adatokat így könnyebb értelmezni. 20W felett már kell hűtés. Prescott: 103 Wattot kell elvezetni 1 négyzetcentiméteren, a léghűtésnek ez a fizikai hatása.
Y tengely logaritmus-skála! P5: Pentium P6: Pentium Pro Klamath: Pentium II Katmai, Coppermine: Pentium III Utánanézni!
46
Hőfal Intel a jövőkép átformálásra kényszerül
47
2004 májusában a P4 család 2000-ben bejelentett 2 tagját (4 GHz) visszavonták, a disszipáció miatt. A P4 családot 2010 –ig tervezték előre, 10 GHz –es frekvenciát jósoltak akkoriban neki, de ezt is vissza kellett vonni.
48
Statikus és dinamikus disszipáció aránya egymáshoz képest. Vörös: dinamikus Zöld és narancs: statikus. Kék: csíkszélesség. Kb 2005 táján hőfal!! Arányok: 1995: 2. generációs szuperskalároknál: 10^-5 -6.. Nem számít. 2000: ~10% -> elhanyagolható Prescott: ~ugyanakkora (1:1)! Dinamikus szinte ugyanakkora maradt, mert a tápfeszültséget folyamatosan csökkentették -> nem emelkedett meg drasztikusan.. Statikus: szigetelőréteg egyre vékonyabb -> Ileak egyre nagyobb. Megoldás: jobb szigetelés kell, High-k dielektikum. Erről ad képet a következő dia. Órafrekvenciát lekorlátozza a disszipáció, más módot kell találni a teljesítménynövelésre.
49
Fémkapu szerepe: növeli a térerőt, gyorsítja az elektronok áramlását. Fontos a két számadat! SiO2: szilícium-dioxid
50
Jelenlegi technológia
51
Az összes gyártó találkozott a hőfal problémájával.
52
Két út van: 1. Aktív állapot teljesítmény kezelése 2. Passzív állapot elősegítése
53
Beillesztett dia! Intel: Pentium 3 és AMD: K6-2 Aktív processzorok tekintetében az úgynevezett működési pont (P-state) fc/Vcc (utóbbi: tápfesz) OSPM (OS Power Manager): ütemező tolja lejjebb a munkapontot, rű hárul a feladat. Pl. AMD K6-2, Intel PIII (2000 óta) Több maggal akkor lehetne ezt megoldani, ha minden maghoz külön tápfeszültség - Vcc lenne. PLL: 1 órajel minden maghoz. ? Phenom: Vcc1 Vcc2. Intel Nehalemben is be lett vezetve. Képes rá a CPU, de mégsem használják. Oka: Vista. Aktív szálat …? Power Planes (homogén tápfesz sík helyett 2-3-4-5 sík, ahány mag van?). Megvalósítás: Digitálisan változtatható tápfeszültségre van szükség, ennek vezérlése: VID (Voltage Identification) kód (n:0) 50 mv -> 125 mv –ig lehet kérni (5-6-7 biten kérek, és kapok VCC –t tőle). Ellátás bus-ból indul, van egy FID (3-5 bit), … Fc változtatása: CPU fc –je az FSB –ből indult ki. Váltási arány: FID kód (3 bit környéke), szorzófaktor. P4: 400 megatranszfer/s (100 Mhz busz, 4x –es adatátvitellel). Nem a transzfer a lényeg, hanem a frekvencia. fFSB * szorzó -> Fcl. Gond: PLL beállási ideje. Régen 100 usec, ma 10 usec. Alapeljárás: a váltás (p-state) alvó állapotban történik. Ez időt vesz igénybe (deltaT~n*100 usec). Lassabban kell csökkenteni a feszültséget, lépcsőzetesen, fokozatosan, apró lépésekben (pl 25 vagy 12,5 mV). Frekvenciaváltásnál nem lehet ilyet, ott altatni kell, frekvenciaváltásnál a kiesési idő: ~10 usec. -> két fázisban oldódik meg, fesz és frekv váltás. Frekvencia váltás alatt nem lehet dolgozni, feszültség váltás alatt igen. deltaT idő ~100 usec. Váltásnál példa: 1. CPU? lekapcsolása 2. frekvencia váltás 3. feszültségváltás (pl. 1.7 -ről 0.9 –re) 4. visszakapcsoljuk a CPU –t. Lépcsőzetesen csökkentenek / növelnek. Növelés: először feszültségnövelés és utána frekvencianövelés, csökkentésnél fordítva. Passzív állapot: Ha a CPU nincs terhelve, altatás kezdődik. C (alvó) állapotok: minél alacsonyabb pontba kerül a disszipáció, minél tovább tartott az altatás, annál nehezebb lesz a P0 állapotba való visszatérés. Az órajel lekapcsolása: C1: óra le, generátor megy. C2: PLL leáll. C3: Vcc le, amíg az L2 cache (legérzékenyebb pont) még életben van (retenció). C4: L2 kimentése (~1 Mb) L3 –ba C5: Vcc tovább csökkentése. (nem az egész L2 –t egyszerre, hanem pl negyedenként, több lépésben, hosszabb procedúra). C6: magok állapotának lementése SRAM –ba (Ci => SRAM –ba. SRAM táplálása külön tápról. Penrynn pl, 2 áramforrás) Összegezve: manapság nagyobb figyelem fordítódik a hőtermelődésre, mint bármi másra!!! Másik megoldás: kapcsoló tranzisztorokat tettek a CPU –ba.
54
Ábrán a távolság ~10 cm. 8 bájtos átvitel (64 bites busz szélesség) Egyik ok: Késleltetési időkülönbség: skew. Fellép adott távolság megtétele után egy vezetéken. Mivel kapuzott szinkron áramkörök, ez problémát okozhat. Ha eléri az órafrekvencia ütemét, nem kezelhető. EZ okozza a frekvenciakorlátot. Másik ok: Buszok terhelése nem azonos, kapacitáskülönbség. Nagyobb kapacitású lassabban töltődik fel. Harmadik ok: zaj és áthallás jelenhet meg, ez feszültségként jelenik meg, félreérthetővé válik. A vezetékek hossza NEM azonos. (következő dia)
55
Prescott alapú alaplap, ami érdekes: a vezetékek hosszainak mesterséges és szándékos meghosszabbítása (kompenzálás a tervezés során). Nem az igazi megoldás, ami az igazi: soros buszok.
56
Jelek megvalósítása lehet: Egyik módszer: 0 és +5 V például (szennyezés problémát okozhat) Másik módszer: pl. 2.5 és 7.5 V (itt 5V a viszonyítási érték). Jobb megoldás, de lehetne még jobb is. Harmadik módszer: Nem a földhöz mért feszültségről beszélünk. 2 darab vezeték kell hozzá. Szimmetrikus jelátalakítás. Nagyon gyors(Néhányszáz mA amplítúdó miatt), zavarérzéketlen (mert mindkét vezetékre hat, és ez kiesik). Lassú busz pl: USB (sokkal kevesebb vezeték kell hozzá, mintha párhuzamos lenne => olcsó) Példa a párhuzamos-soros technológiabeli különbségre (pl merevlemez csatlakozó): Párhuzamos: ATA nagyobb helyet foglal, lassabb Soros busz: SATA kisebb helyet igényel, gyorsabb
57
Beillesztett dia!
58
59
Első ágat lezártuk. Esetleges mellékút a második ág.
60
(83-)87-88: VLIW processzorok. Bukás oka: gyökeresen új ISA kell(új alkalmazásokkal), nem volt támogatása.
61
1989-90: Elbocsátott fejlesztők az IBMhez és a HPhoz vándoroltak. 32 bites x86 -> 64 bites IA-64 volt a terv. EPIC: ugyanaz, mint a VLIW + szuperskalárok jó dolgai (elágazásbecslés, cache kezelés, stb). ’99 –re ígérték be Merced névvel. Két évet késett.
62
Itanium: teljes bukás.
63
Fajlagos teljesítmény. MT: megatranszfer. Itanium frekvenciája ~800 Mhz (FSB: 133 MHz), P4: 1.5 Ghz. Fajlagos teljesítménye a P4 –nek: 0,4. Itanium 2 későn jött ki, keveset tudott -> csőd volt. Többprocesszoros rendszer, megbízhatóság.
64
IA-64 helyett az x86 64 bites kiterjesztésére lett igaz a korábbi előrejelzés.
65
Először azt hitték, 1 év alatt 10 milliárd dollár lesz a bevétel. Később két évet adtak a 10 milliárdnak, és ahogy telt az idő, egyre többet. Lila görbe: amikor behozták. 3 évet adtak. A valóság még rosszabb lett.
66
8 processzoros, speciális rendszerekbe szorult ki. Semmi esélye nem volt, mert az általános célú alkalmazásoknál az elérhető maximális párhuzamosság ~4-5. Nem bukott meg, csak a piacon feljebb szorult. Bezárult a fejlődés: 1 magos gépek vége.
67
68
69
Varázsütésre jelentek meg.
70