Intel® Microarchitecture – Nehalem Nehalem je kódové označení pro mikroarchiterkturu Intel jako nástupce technologie Core. První procesor s oficiálně představen 15. listopadu 2008 v Tokyua a o listopadu v USA. Systém pracující se dvěma procesory v roce 2007 na fóru Intel Developer.
procesorů, kterou vyvinul architekturou Nehalem byl dva dny později, tedy 17. Nehalem byl předveden již
Nová architektura Nehalem přinesla u procesorů Intel několik zásadních změn. Po dlouhé době se Intel rozloučí s datovou sběrnicí FSB, na jejíž místo nastoupí následovník jménem Intel QuickPath. S tím souvisí také přesunutí řadiče operační paměti přímo k procesoru zajišťující rychlejší odezvu a výrazný nárůst datových přenosů. Tím ale výčet novinek nekončí. Inženýři se při návrhu zaměřili také na návrh samotné výpočetní části a kompletně předělali také návrh cache subsystému. Pojďme se podívat, v čem jsou největší změny samotné architektury procesoru.
Intel® QuickPath Technology Mikroarchitektura nových procesorů je postavena na základě Core 2 předchůdcích. Ovšem tentokrát jsou všechna čtyři jádra Nehalemu vyrobena z jedné křemíkové destičky. V architektuře Core 2 Quad jsou dva Core 2 Duo procesory, které si vyměňují data přes Frontside Bus (FSB). U Core i7 se Intel na FSB mohl zapomenout, jelikož tento procesor už pracuje s maximální možnou
rychlostí odpovídající FSB1600. Té přitom z odcházející generace dosáhl pouze Core 2 Quad QX9770. Ostatní Core 2 procesory pracovaly s FSB1333. Namísto FSB disponuje Core i7 zcela novým a výkonnějším rozhraním, které se stará o komunikaci s komponentami jako je čipset či grafická karta. Rozhraní se jmenuje Quick Path Interface. Špičkový model i7 XE 965 díky němu přenáší data rychlostí 32 GB za sekundu, zatímco nižší modely Core i7 920 a 940 komunikují rychlostí 24 GB za sekundu. QPI na rozdíl od FSB je full duplex linka, čili může zároveň přenášet stejný objem dat opačným směrem, a není zatěžována komunikací procesoru s jeho operační pamětí. Šířka QPI je 20 bitů.
Integrovaný řadič paměti Integrovaný řadič paměti přináší výrazné snížení latencí a zvýšení efektivity komunikace s operační pamětí. Integrovaný řadič paměti v Nehalemu podporuje až 3 kanály a kromě standardních pamětí také RDIMM a UDIMM. V případě víceprocesorových systémů je výhodou škálování paměťového subsystému s každým přidaným procesorem, kdy každý přidaný procesor s vlastní pamětí efektivně navyšuje propustnost a výkon systému. Budoucí čistě desktopové deriváty Nehalemu, které budou používat platformu LGA1156, budou mít řadič klasický dvoukanálový. Jeho integrace do procesoru zde nebude mít ani tak význam pro výkon, jako pro nízkou cenu, neboť do CPU se přesune i řadič PCI Express a severní můstek čipsetu tak vůbec nebude potřeba.
Cache Zatímco Core 2 čtyřjádrové procesory Intelu mají kvůli výrobě ze dvou monolitů sdílenou L2 cache vždy pro dvojici jader, jádra procesoru „Nehalem“ budou mít každý svou vlastní L2 cache, a to pouhých 256 kB, přičemž budou sdílet až L3 cache, která je osmi megabytová. Navíc je cache v procesorech Intel řazena inkluzívně.
V inkluzívním systému cache platí, že data v L1 a L2 jsou (duplicitně) uloženy také v L3. Nevýhoda je tedy zřejmá: celková kapacita je omezena velikostí cache nejvyšší úrovně – konkrétně zde je to 8 MB. Tento přístup má ale i své výhody. Pokud výpočetní jádro hledá data, která jsou kdesi v cache uložena, při postupném prohledání vlastní L1, vlastní L2 a sdílené L3 na ně dříve či později narazí.
Macro-Fusion Macro-Fusion můžeme jednoduše vysvětlit jako slučování několika instrukcí jediné. Jako typický příklad používá Intel ve svých prezentacích ukázku instrukcích CMP a JNE. Jedna z nich stručně řečeno cosi porovná a druhá základě výsledku tohoto srovnání buď skočí na jinou část programu, nebo
do na na se
pokračuje normálně dál. Tyto dvě instrukce dokáže procesor sloučit do jedné CMPJNE, kterou pak vykoná během jediného hodinového cyklu.
Řízení spotřeby Jedním z hlavních pilířů návrhu architektury Intel Nehalem je efektivní využití elektrické energie. K úspoře elektrické energie se používá řada technik, jako například technologie ESS (Enhanced SpeedStep) nebo CnQ (jako Cool'n'Quiet u AMD), kde dochází ke snižování taktu a použitého napájecího napětí. Na úrovni jádra je ale již dávno používána řada dalších technik, jako je Clock Gating (vypínání neaktivních oblastí procesoru). Novinkou u Nehalemu je Power Gating. Myšlenka je zde taková, že část procesoru, která aktuálně nic nedělá, by také neměla spotřebovávat elektrickou energii. Power Gate umožnuje efektivně ze systému zcela odpojit neaktivní jádro, a dále tak snížit spotřebu. Intel tento režim označuje C6, a ten je zcela transparentní pro platformu a operační systém.
Pro efektivnější správu spotřeby a pro snadné využití technologie "Turbo Mode"
byl do Nehalemu přidán mikrokontrolér, Intelem označovaný PCU neboli Power Control Unit. Nehalem obsahuje řadu senzorů pro zjištění teploty jádra, napětí a proudu a také spotřeby - to poskytuje data pro efektivnější řízení spotřeby, případně použití zmiňovaného turbo módu. Protože by ale bylo složité PCU dělat jen na úrovni hardware v procesoru, vyřešil to speciální mikrokontrolér. Nehalem je díky PCU, schopen velice sofistikovaně řídit dle potřeby napájecí napětí a frekvenci jednotlivých jader. To má poskytovat optimální výkon a udržet spotřebu při zemi. PCU je řízen pomocí firmware, takže lze jeho chování dále ovlivnit.
Další novinkou umožňující snížit spotřebu je tzv. Turbo Mode. Je-li Turbo Mode aktivní, v případě potřeby se vytížená jádra přetaktují, zatímco ta nevytížená jsou vypnuta. Základní frekvence, ze které je odvozen výsledný takt procesoru (tento takt představovala u architektury Core 2 FSB), je u Nehalemu 133 MHz. Z této frekvence vychází možné frekvence Core i7 v souvislosti s turbo mode při zatížení, v rámci limitů TDP, a proto může jádro zvýšit svůj takt nad nominální frekvenci. Přetaktování je možné o 1 - 2 stupně, po 133 MHz krocích, to znamená o 133 až 266 MHz nad základní frekvenci. Podle úvodních taktů Nehalemu 2,66, 2,93 a 3,2 GHz se jedná pouze o drobné navýšení frekvence. Každé jádro má vlastní násobič, může tedy dojít k případu, kdy dvě jádra budou vypnutá a zbylá dvě poběží každé na jiné frekvenci. Každopádně i v případě drobného navýšení frekvence v kombinaci s efektivním řízením spotřeby a možným vypnutím nevyužívaného jádra se jedná o krok kupředu.
Testy Níže je v grafu uveden test architektury Nehalem s předchozí Core 2. První graf uvádí výkon při hře, druhý při renderingu.
Call of Duty 4 1680 × 1050 px, maximální detaily, bez anti-aliasingu, režim timedemo.
Cinebench R10 Cinebench je benchmark snažící se nastínit výkon procesorů při renderingu v CAx programu Cinema 4D společnosti Maxon. Používáme x CPU benchmark (vícevláknový).
Závěrem Core i7 nepřináší revoluci pro běžné uživatele nebo hráče. Přináší však významný pokrok pro oblasti jako rendering, převod videa, práci s obrazovými daty anebo prostě všude tam, kde aplikace (či více aplikací) požadují vysoký výkon pro více procesových vláken. Tam, kde jde skutečně o mnoho současně spuštěných vláken, je výkon „základního Nehalemu“ – Core i7 920 na 2,66 GHz – srovnatelný s nejvyšším Core 2: Extreme QX9770 na 3,2 GHz. Naopak ve chvílích, kdy současně využijete s bídou dvě jádra procesory, tedy například ve většině současných her, nemůžete od Core i7 čekat zázraky a při stejné frekvenci čekejte podobný výkon jako u Core 2.
Zdroje: http://www.cdr.cz http://pctuning.tyden.cz http://www.intel.com/technology http://arstechnica.com
http://www.svethardware.cz/ http://digitalne.stahuj.centrum.cz http://www.cdr.cz