Rodina Intel Nehalem: Vychází z procesoru Intel Core. Je vyráběn na 45nm technologii dnes se již přechází na technologii 32nm. Co tedy Nehalem přináší? Stejné jádro pro všechny segmenty trhu, vysoký výkon a škálovatelnost při zachování spotřeby minulé generace procesorů. Nehalem sice vychází z Core, ale celý přístup byl již od návrhu čipu zaměřen na efektivně škálovatelnou architekturu a škálovatelný návrh čipu. Cílem Nehalemu bylo možné nasazení procesorů ve všech segmentech trhu. Nehalem je od základu tvořen ze stavebních bloků, které je možné kombinovat podle potřeby (můžeme použít pro Servery, Desktopy a Mobilní zařízení). Tato architektura nám dovoluje jednoduché rozšíření stávajícího procesoru o jádro, přidat L2 cache čí více QPI. Můžeme intergrovat grafický procesor. Tím vytvoříme procesor, který nám nejvíce vyhovuje.
Nové funkce: FSB ‐> QPI Největší slabinou byl vícesocketový systém. Standardní architektury s FSB (Front Side Bus) sběrnicí byly nejvíce limitované právě s rostoucím počtem jader a socketů. Požadavky na přísun dat rostou s každým přidaným procesorem, a proto efektivita architektur s FSB a poměrně limitovanou propustností paměťového subsystému s rostoucím počtem socketů a jader klesá.
QuickPath (QPI). Technologie byla dříve oficiálně nazývaná CSI (Common System Interface) a nahrazuje datovou sběrnici FSB (Front Side Bus). K procesoru je nově integrován řadič paměti DDR3(IMC). Implementován zde byl rovnou trojkanálový řadič pamětí DDR3. Toto rozhraní se stará i o komunikaci s komponentami jako chipset či grafická karta. QPI je full duplex(na rozdíl od FSB), takže může zároveň přenášet stejný objem dat jedním i druhým směrem v jednu chvíli. Není brzděná komunikací CPU jeho RAM, protože procesor integruje IMC(paměťový radič). Šířka je 20 b. Výhody této sběrnice využijí spíše servery, protože na desktopu skrze ní bude komunikovat pouze procesor severní most. Tam QPI končí a severní a jižní most spolu komunikují skrze DMI sběrnici. Přenosová rychlost sběrnice záleží na osazeném procesoru, může být maximálně 6,4GT/s a u levnějších čipů 4,8GT/s. Často vytýkanou vlastností čtyřjader Core 2 Quad, byla jejich koncepce dvou dvoujader spojených FSB. Toto řešení je na jednu stranu levnější, než nativní čtyřjádro ale znamená náročnější návrh základních desek a severních můstků. Tento zjednodušený model čtyřjader s Nehalem končí, čip je skutečné nativní čtyřjádro.
IMC – integrovaný řadič pamětí IMC v Nehalemu podporuje až 3 kanály(může být 2kanálový i 4 kanálový) a kromě standardních pamětí také RDIMM a UDIMM (nehalem má 4x vyšší propustnost než Core). V případě víceprocesorových systémů je výhodou škálování paměťového subsystému s každým přidaným procesorem, kdy každý přidaný procesor s vlastní pamětí efektivně navyšuje propustnost a výkon systému. NUMA V přístupu nazvaném NUMA (neuniformní paměťová architektura) má každý z procesorů svůj vlastní řadič pamětí a k němu připojenou vlastní paměť. Jednotlivé řadiče jsou navzájem propojeny pomocí meziprocesorové proprietální sběrnice coherent HyperTransport a paměti jsou adresovány tak, že některé rozsahy adres obsluhuje řadič prvního procesoru, zatímco další rozsahy řadič druhého. Paměť je tak efektivně rozdělena na segmenty.
Správa spotřeby V poslední době se Intel velice angažuje v oblasti úspory energie. Používá tvrdou filosofii. Ta zní za každé 1% spotřeby energie navíc se musí výkon zvýšit o 2%. Proto má lepší výsledky než konkurence. Nehalem je první procesor Intelu, který zavádí nezávisle napájení některých částí. Celý čip je rozdělen do 3 oblastí: jádro, paměťový řadič a zbytek. Každá z těchto částí má vlastní napájení. Pro takovou regulaci používá Intel speciální rezistor Power Gate, který je schopen fungovat jako uzávěr pro protékající proud. Využívá se u odpojování jader procesoru. Při požadavku na odpojení jádra 1 stačí jednoduše napájení tohoto jádra izolovat(power gatem) – spotřeba klesne téměř na nulu. Jádro 0 běží dál.
Turbo mode S technologii odpojování jader souvisí i nová technologie Turbo Mode. Jejím úkolem je zvyšování frekvence individuálních jader v případě nevytížení jader ostatních. Nehalem podporuje dvoustupňový Turbo Mode, kde v každém stupni bude frekvence navýšena o 133 MHz. Navýšení frekvence se může týkat více než jednoho jádra, přičemž záleží na odběru proudu a spotřebě. Pokud budou tři jádra velmi málo vytížená, může být čtvrté urychleno o dva stupně. Pokud budou dvě jádra vytížena hodně (a zbylá vůbec), tak patrně bude možné zvýšení frekvence jen o jeden stupeň, ale to u obou jader. Pro celkové řízení spotřeby, frekvencí a monitorování teplot slouží samostatná logika nazvaná Power Control Unit, která sestává z asi 1 milionu transistorů (což je zhruba tolik, kolik má procesor 80486). Tato jednotka je částečně programovatelná, neboť akceptuje firmware nahrávaný při startu počítače BIOSem. Lepší řízení spotřeby zajišťuje technologie Thermal monitor 2. Má za úkol v případě přehřátí procesoru snížit jeho spotřebu. To provede eliminaci hodinového cyklu nebo snížením frekvence.
Nová patice LGA1366 Jak to tak bývá s novým procesorem je i nová patice. Jmenuje se LGA1366 a výrazně vetší než jeho předchůdce LGA775. Zlepšení jádra Nehalemu si vyžádalo o 30% větší chip. Maximální povolená hmotnost chladiče je 550g. Thermal Design Power (TDP) cílová průměrná spotřeba v plné zátěži u prvních modelů se má vyšplhat na 130W
Jak to funguje uvnitř Instrukce přichází do piperine z instrukční cache. Ta má velikost 32 kB. Tato cache je nyní sdílená a dvouportová (umožňuje přístup dvěma log. procesorům).
Z cache instrukce putují tempem 16bytů za cyklus do 16bitů velkého zásobníku, kde probíhá rozdělení datového bloku na instrukce. Poté se instrukce přesouvají do fronty pro dekódování. Fronta má kapacitu 18 instrukcí a její součástí je predikce větvení kódu (vylepšená). O dekodování x86 instrukci na interní primitivní operace microOPs se starají čtyři dekodéry. Z toho jeden komplexní a tři jednoduché. Jednoduché dekodéry jsou schopné dekódovat pouze jednodušší typy x86 instrukcí a jejich výstup je vždy jedna microOPs za takt. Komplexní dekodér zvládá dekódování všech typů instrukcí a je schopen dodat až čtyři microOPs za takt. Součástí dekódování je také technika fúzování. Snaží se o zvýšení účinosti instrukčních dekodérů tak, že dve jednodušší instrukce vymění za jednu složitější. Typickým příkladem může být kombinace instrukcí cmp a jne („porovnej s předdefinovanými údaji a pokud není identické, nastav instrukce na adresu“), tedy typického podmínkového skoku, která je nahrazena jedinou instrukcí cmpjne. Cmpjne se v sadě x86 nenachází, jedná se tedy o „smyšlenou“ instrukci procesoru, které ale dekodéry umístěné dále rozumí. Výhodou fúzování je, že komplexnější microOPs zabírá v instrukčním okně (o něm dále) jeden záznam na místo dvou, tedy efektivně zvyšuje paralelismus, a zároveň zvyšuje tempo dekódování, protože takto je možné dekódovat pomocí čtyř dekodérů až pět instrukcí za takt.
Poté těchto až 7 microOPs putuje do fronty s 28 záznamy kde dochází k fůzování (když se sejdou dvě vhodné instrukce, je možné je sloučit do jedné s komplexnějším obsahem) a je zde přítomný detektor cyklů. Ten slouží pro odhalení cyklů v kódu. V Core byl detektor cyklů uložen v Instrukční frontě (nyní výhodnější).
Po dekódování již následuje seřazení microOPs do vhodného pořadí (pro výpočet vhodného, mimo programátorem stanoveného) a poslání do výpočetních jednotek. Z 28 záznamové fronty směřují 4 microOPs do tabulky pro přejmenování registrů (v podstatě přejmenuje programové registry – protože kdyby 2 paralelně zpracovávané instrukce přistupovali k EAX vedlo by to do jediného sdíleného datového prostoru ‐ tedy by došlo ke konfliktu) Z registru aliasů míří čtyři microOPs do Reorder bufferu, jehož úkolem je přeskupit microOPs do takového pořadí, které co nejlépe využije dostupného paralelismu.
Reorder buffer zásobuje tempem 4 microOPs za takt rezervační stanici, jejímž cílem je „krmení“ výpočetní a paměťové části. Cache Struktura cache pamětí v procesoru byla změněna, aby lépe odpovídala současným propojovacím rozhraním. • • •
L1 cache, privátní pro každé jádro, zůstává rozdělena na část pro instrukce (32 kB) a část datovou (rovněž 32 kB). L2 cache je nově privátní pro každé jádro a její velikost je 256 kB na jádro. L3 cache se v procesorech Intel objevuje vůbec poprvé a přebírá funkci dřívější L2. Je tedy sdílená všemi jádry, přičemž jednomu jádru odpovídají 2‐3 MB paměti, čtyřjádrové Core i7 tedy disponuje L3 cache pamětí o velikosti 8 MB.
Cache je u Nehalemu, stejně jako u ostatních Intel procesorů, organizována jako inklusivní. To znamená, že data obsažená v L1 se musí vyskytovat i v L2 a také v L3. To sice snižuje celkovou velikost uložitelných dat na největší z těchto cache (tj. v případě Nehalemu na 8 MB), na druhou stranu to má určité výhody. Jednou z nich je například to, že v případě cache miss je zajištěno, že data nejsou obsažena v žádném z jiných jader, a proto je rovnou možné přistoupit k paměťovému řadiči a požádat ho o načtení údajů z RAM
RAM O přístup k paměti RAM se u Nehalemu stará integrovaný paměťový řadič. Ten je u nejvyšších verzí tříkanálový (3x 64bit, resp. 3x 72bit s ECC). Na kanál je možné osadit dva DIMM, celkem tedy na procesor šest modulů. Podporovány jsou paměti typu DDR3 a to v rychlostech ‐800, ‐1066 a ‐1333, unbuffered a registered.
Řadič umí pracovat s až třícestným prokládáním. Sloty je možné, stejně jako u současných Intel čipsetů, osadit nestejně velkými moduly (asymetrický dual‐channel / asymetrický triple‐ channel), nejlepšího výkonu je ale samozřejmě dosaženo při osazení symetrickém. Protože je řadič vyráběn společně s procesorem nejnovější výrobní technologií, dá se očekávat, že jeho spotřeba poklesne (současné čipsety Intelu jsou vždy o jednu až dvě výrobní generace za CPU pozadu). Core i7 800 a Core i5 700 Je to rok od uvedení prvních procesorů architektury Nehalem – Core i7. Intel nyní tuto architekturu poskytne také uživatelům střední třídy. Tyto procesory časem nahradí čipy rodiny Core 2 a zaujmou jejich místo ve střední a vyšší třídě.
Nejvýkonnější řešení budou představovat procesory Core i7 975 Extreme a Core i7 950, je potvrzeno Core i7 920 se již nebude vyrábět. Ve střední a vyšší třídě se usídlí procesory řady Core i7 800 a Core i5 700. 32nm u Intelu letos Procesory s jádrem Lynnfield jsou sice ještě vyrobené na 45nm procesu, změna se ale rychle blíží. Ještě do konce roku 2009 se setkáme s novými 32nm čipy stávající architektury Nehalem, která ale s menší výrobní technologií změní jméno na Westmere. Podle plánu další rok bude představená zcela nová architektura Sandy Bridge, která se v roce 2011 překlopí do fáze TICK a 22nm technologii výroby.
Počítače s LGA 775 – Core 2 by měly do konce roku 2011 zcela vymizet z trhu, kde zůstanou jen LGA 1366(Nehalem), LGA 1156(Lynnfield) a nová patice pro nadcházející architekturu Sandy Bridge ‐ LGA 1155.
Nehalem i7
Obrázek představuje nové řešení pro CPU s jádrem Lynnfield a paticí LGA 1156. Procesor je vybaven: • • • • •
4 fyzickými jádry a integrovaným řadičem pamětí (pouze 2 kanalový oproti i7 900) Integruje něco jako severní můstek s PCI expres rozhraní přímo do procesoru QPI je přítomna v procesoru ale neopustí jeho pouzdro. Frekvence QPI se dá nastavit v BIOSu (nižší frekvenci než Core i7 900) Paměťový řadič je přímo součástí jádra CPU L3 cache je 8M
Nehalem i5
Obrázek představuje Core i5 32nm čip s jádrem Clarkdale •
Oficiální uvedení je před koncem tohoto roku.
• • • •
Obsahuje dvě jádra spojená QPI sběrnicí se zbylými částmi čipu (tedy opět QPI žije i zde). Procesorová část nese pouze dvě jádra, zbytek integrovaných součásti je v druhé části Druhá část obsahuje integrovaný dvou kanálový paměťový řadič, PCI Express rozhraní a integrované grafické jádro. Procesor je sběrnicí DMI spojen opět s PCH čipem řady x55 Express.
Nový TURBO BOOST Předchozí Core i7 procesory do patice LGA 1366 měli Turbo Boost první generace, který v případě požadavku na výkon, dokázal přetaktovat všechna jádra o jeden násobič nahoru, nebo jediné jádro o dva násobiče. Jeden nebo dva násobiče byly maximum těchto CPU. U nových procesorů je vše jinak, každé jádro může mít rozdílnou frekvenci od těch ostatních. Pokud procesor zatížíte Single‐Thread aplikací, navýší se frekvence jednoho jádra o pět násobičů (Core i5 750 s frekvencí 2,66 GHz to dělá nárůst na frekvenci 3,33 GHz). Pokud intenzivně zatížíte dvě jádra, povyskočí takt o čtyři násobiče nahoru (2,66GHz na 3,2GHz). V případě zatížení všech jader CPU, si užijete o dva násobiče vyšší frekvenci ‐ 2,93 GHz. Toto je pouze v ideálním případe, tedy potřebujeme nízkou teplotu procesoru – potřebujeme kvalitní chladič. Dostupné modely: 45nm: Core i7 870, Core i7 860 Core i5 750 (dostupné teď) 32nm: Core i5 670, Core i5 660, Core i5 650, Core i3 540 (dostupné na konci roku 2009) Seznam použité literatury:
•
http://www.svethardware.cz/
•
http://pctuning.tyden.cz
•
http://www.alfacomp.cz/
•
http://ark.intel.com/Default.aspx