VŠB-TUO FEI
Architektura Intel Nehalem Pokročilé architektury PC Zdeněk Ryška (rys093) 5.11.2009
Procesor Intel Core i7 kódovým jménem nazývaný Nehalem je první nativní čtyřjádrový procesor firmy Intel. Je součástí nového modelu Tic-Toc, dle kterého vydá Intel každé 2 roky novou architekturu. Změny v tomto případě nebyly pouze kosmetické.
Architektura procesorů rodiny Nehalem je samozřejmě postavena na velmi úspěšné architektuře Intel Core přičemž byly odstraněny hlavní její nedostatky. Došlo k nahrazení FSB sběrnice, která byla bezesporu brzdou pro moderní procesory a hlavně při použití ve víceprocesorových systémech způsobovala značné omezení výkonu. FSB sběrnice byla nahrazena sběrnicí QPI (QuickPath inteface)u této technologie je komunikace vedena bodově (point-to-point) – není tedy sdílená všemi zařízeními jako tomu bylo u FSB. Výkon QPI sběrnice je od 4,8 do GT/s na linku. Tento fakt se projeví hlavně v multiprocesorových systémech, kde bude efektivnější komunikace CPU a čipsetu.
2
Dále byl do čipu integrován i paměťový řadič, který zvýšil prostupnost a snížil latenci operačních pamětí. Intel Nehalem v zatím nejvyšší verzi i7 obsahuje 3-kanálový řadič pamětí typu DDR3. Díky tomuto řadiči dosahuje procesor Intel Nehalem až 4x vyšší propustnost oproti staršímu jádru Harpertown. Také platí, že přidáním procesorů u víceprocesorových systémů se zvyšuje úměrně i výkon paměťového systému.
Bylo zapracováno i na modulárnosti čipu – lze tedy velice snadno rozšířit přidáním dalších jader, zvětšit paměť cache případně doplnit integrovanou grafickou kartou přímo do pouzdra procesoru (GPU bude přidávána do procesorů řady i5 a i3).
V dnešní době je velmi diskutovanou věcí spotřeba počítače jako celku a ní se velkou měrou podílí i CPU v dané sestavě obsažené. Intel proto do Nehalemů umístil speciální čip (PCU), který řídí úsporné funkce jako je podtaktování či úplné vypínání jader procesoru a také paměti cache. Z tohoto důvodu mají tyto procesory velmi nízkou spotřebu v idle režimu. V zatíženém stavu už spotřeba bohužel tak 3
nízká není a je Intelem nastavena TDP < 130W. Tato hodnota dle prvních testů značně klesne u nadcházejících procesorů vyrobených 32nm (kódové jméno Westmere) výrobním procesem.
Se změnou architektury přišla i změna socketu – socket LGA775 byl nahrazen socketem LGA1366 pro high-end procesory i7 a paticí LGA 1160 pro střední a nižší střední třídu core i5 a i3. Změny byly provedeny i na cache pamětech procesoru nyní má procesor L1 cache pro každé jádro 64kb dále obsahuje L2 cache do 256kb na jádro a poté sdílenou L3 cache pro všechna jádra. Pozměněn byl i Front-end, který slouží k získávání a dekódování instrukcí. Intel Nehalem stejně jako architektura Core zpracovává microOPs, což můžeme přirovnat k nejzákladnějším povelům, na které je každá x86 instrukce rozložena. Nehalem má stejně jako Core architektura 4 instrukční dekodéry (3 jednoduché a jeden komplexní). Fúzování Makroinstrukcí bylo představeno již s rodinou procesorů Intel Core 2 a stejně tak Loop Stream Detector. Nehalem podědil fúzování makroinstrukcí po Core 2 a dále jej rozšiřuje. Při zfúzování makroinstrukcí dojde na dekódování na microOP, jako by se jednalo o jedinou instrukci tento postup přináší vyšší výkon a vyšší energetickou účinnost. Také přibylo fúzování i v 64bit režimu (Core 2 zvládá pouze 32bit). Dále byl vylepšen Loop Stream Detector (LSD), ten umožňuje odhalit cyklus v právě zpracovávaném kódu a zamezit opakovanému dekódování stejných instrukcí. LSD má tedy hlavní zásluhu na výkon v průběhu cyklu a vypíná části procesoru, které nejsou aktuálně potřeba. Tento postup má příznivý dopad i na spotřebu procesoru.
4
Kompletně byla přepracována i predikce větvení a předvídání skoku. Obecně platí, že čím je vyšší přesnost predikce tím má daný procesor vyšší výkon i nižší spotřebu – nemusí zahazovat spočítané výsledky a počítat odlišní instrukce. V Nehalemu tuto funkci obstarává L2 Branch Predictor.
Procesory dnešní architektury jsou celkem často v IDLE režimu. Nehalemu se snaží držet výpočetní jednotky v činnosti, a proto jsou zde rozšířeny Load a Store Buffery a Reservation Station (ta dodává informace pro výpočetní část, ukládá a čte data a tak dále). Navýšen je dále paralelismus a zvětšen počet microOPs, které procesor zvládne. Dothan zvládl 64, Merom 96 a u Nehalemu došlo k dalšímu navýšení, na 128 microOPs. U procesorů rodiny Nehalem byla obnovena funkce známá z procesorů Intel Pentium 4, které měli od jádra Northwood funkci zvanou HyperTheading. Tato funkce umožňovala, že se jedno fyzické jádro procesory tvářilo jako 2 logické jednotky a bylo schopné zpracovat 2 instrukce naráz. Tato technologie se jmenuje SMT (Simultaneous Multi-Threading). Operační systém tedy v případě 4-jádrového procesoru detekuje procesor s 8mi jádry. Touto technologií by se měli využít nevyžité prostředky procesoru a navýšit výkon o cca 20-30%. Samozřejmě musí být provozovány aplikace určené pro vícejádrové procesory (například vícevláknové aplikace, dekódování videa...). V aplikacích neoptimalizovaných pro vícejádrové procesory navýšení výkonu nebude a je možný i mírný propad výkonu oproti procesoru s vypnutou technologií SMT.
5
Právě pro zvýšení výkonu u aplikací náročných na výkon jednoho jádra uvedl Intel s procesory Nehalem technologii TurboBoost, která přetaktuje jedno jádro procesoru v případě jeho silného zatížení a zároveň nízkého vytížení ostatních jader. To vše při zachování předepsaného TDP. Přetaktování u procesorů i7 probíhá ve 2 krocích -> nejdříve o 133MHz a poté o 266MHz u procesorů i5 jsou tyto hodnoty vyšší. V dnešní době je velmi oblíbená virtualizace. Proto byly značně upraveny SSE instrukce a aktuálně jsou ve verzi SSE 4.2. Zvýšení výkonu virtualizovaného stroje má být až o 40%.
6
Intel používá k výrobě procesorů Nehalem výrobní technologii 45nm s High-k a technologií kovových hradel. Tato technologie je stejná jako u procesorů Core 2 u posledního jádra (Perin). Jako novinka se představilo použití 9. vrstvy měděných mezispojů pro maximální snížení odporu. Dále použitá technologie Power Gate efektivně odděluje a vypíná jádra procesoru a tím snižuje spotřebu.
První uvedené procesory jsou core i7 a to o taktech 2,66, 2,93, 3,2 TDP je u všech tří shodně na 130W.
7
Výkon procesorů Core i7:
8
9
Z přiložených grafů je jasně vidět, že ve výkonu se jedná o velmi výrazný skok. Procesor je bezkonkurenčně nejrychlejší na trhu a AMD bohužel ještě relativně dlouhou dobu nebude mít proti tomuto procesoru výkostně alespoň srovnatelnou alternativu. Zatím architekturu nehalem brzdí od masového rozšíření hlavně cena celé platformy, která je značně vysoká a to nejen z důvodu vysoké 10
ceny procesoru, ale i nutnosti pořídit si tři kusy kvalitních operačních pamětí DDR3 pro využití paměťového řadiče a také základní desky jsou pro tento procesor velmi nákladné. Cenově výhodná alternativa je v podobě procesorů i5, kde celá platforma vychází značně výhodněji – 2kanálový řadič a levnější základní desky. Procesory i5 oproti i7 nemají zásadní omezení – schází jim STM a „pouze“ 2kanálový řadič DDR3 pamětí. Dle mého názoru se Intelu architektura Nehalem velmi povedla a hlavně zmíněná verze i5 je velmi sympatická v poměru cena výkon a také má nižší spotřebu.
11
Použité zdroje: http://www.svethardware.cz/art_doc-9B124C440894E932C12574F40033D2B8.html http://en.wikipedia.org/wiki/Intel_Core_i7 http://www.cdr.cz/a/23871 http://pctuning.tyden.cz/index.php?option=com_content&task=view&id=9944&Itemid=67
12