Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Doktorská vědecká konference 7. února 2011
T T THINK TOGETHER
Think Together 2011 Předpoklady pro optimalizaci alokace dat na pevných discích HDD a SSD Presumption of optimalization of data allocation on hard disc drives HDD and SSD
Martin Šilha
242
Abstrakt Práce se zabývá problematikou optimalizace umístění dat na pevných discích. Je uvažována obvyklá situace dvou disků. První disk je magnetický s velkým objemem a druhý bez pohyblivých částí. Úvod článku, nazvaný Teoretická východiska, je věnován představení problematiky a současného stavu používaných technologií. Následuje popis řešení a v závěru jsou prezentovány výsledky práce a navrhovány výsledky optimalizovaného řešení. Použitou metodou pro vytvoření článku byla dedukce z dlouhodobě empiricky zjištěných výsledků měření. Tento článek využívá výsledků výzkumu v oblasti zpracování dat a datových přenosů na laptopech pro zvýšení efektivity při těchto operacích a vytváří doporučení.
Klíčová slova Pevný disk, HDD, SDD, flash disk, data, optimalizace, program, počítač
Abstract This article deals with the issue of optimalization of data location on hard disc drives. The usual situation of two discs is considered. The first disc is magnetic with a big size and the second one is without the moving parts. The introduction is called The Theoretical Basis, it is concerned with the presentation of the issue and the current state of used technologies. This is followed by a description of solutions and in the conclusion the work results are presented together with the proposals of optimalized solution results. The method of deduction from a long-range empirically observed measurements has been used for creation of this article. This work uses the scientific results ISBN: 978-80-213-2169-4
coming from the field of data processing and data transfer on laptops for increasing the effectivity in these operations and it creates recommendation.
Key Words Hard disk drive, HDD, SDD, flash disk, data, optimalization, program, computer
Úvodem I zkušenější uživatelé již přišli na to, že použitím SSD disků v kombinaci s klasickým magnetickým pevným diskem mohou zrychlit svou práci s osobními počítači. Především je snahou snížit dobu kdy systém čeká na data umístěných na pevných discích. Na tematicky zaměřených webových serverech a v stejně zaměřených časopisech se také čtenář často dozvídá o vhodném využití této dvojice disků jako míst pro uchovávání dat. Nejčastěji bývá uváděno takové zapojení, kde klasický pevný disk slouží jako datová úschovna pro rychlý SSD disk, jenž slouží jako systémový, tzn. pro data systému a programů1. K optimálnímu stavu má však toto zapojení značně daleko. Podívejme se na předpoklady pro optimalizaci zapojení těchto disků.
Metodika práce a cíl Pro tento článek byla využívána především metoda dedukce s kvantitativním přístupem z dlouhodobě empirických měření. Východiskem práce je podrobné zkoumání vybraných domácí i zahraniční literatury, která se řešenému tématu primárně věnuje. Dále bylo také nutné vyhodnotit převzatých výsledků 1 http://pctuning.tyden.cz/hardware/disky-cd-dvd-br/18914-solidnibudoucnost-pevnych-disku-uvod-k-velkemu-testu-ssd-disku?start=1
243
měření (viz odkazy pod čarou) a také provedení několika ověřovacích testů. Snahou je navrhnout metodu, která rozvrhne zatížení disků tak, aby pokud možno oba disky pracovaly maximálně efektivně. To znamená, aby disky nejčastěji pracovaly tím způsobem (čtení/zápis), kterým převyšují druhý disk.
Teoretická východiska Pevné disky můžeme podle způsobu zápisu a čtení dat rozdělit do dvou skupin. Magnetické pevné disky Zaprvé jsou to klasické pevné disky s magnetickým záznamem (tzv. HDD – Hard Disk Drive). Tyto disky jsou v současnosti nejhojněji využívaným médiem pro uložení dat v počítačích. Způsob práce na hardwarové úrovni vychází ze sekvenčního způsobu a to determinuje jeho vlastnosti. Zjednodušenou podstatou pevných disků je motorem otáčená kruhová plotna, na níž jsou magneticky zapisovány data pomocí záznamové hlavy. Nejčastěji mívají plotny s daty rychlost 7200 otáček za minutu. Výhodou pevných disků je bezesporu cena za jednotku úložného prostoru a poměrně vysoký výkon při sekvenčních operacích, který je možno dále navyšovat. Mezi tyto operace lze zahrnout čtení a zápis velkých bloků dat, přičemž „velikost“ těchto bloků nelze jednoznačně definovat (v roce 2010 jde o řády desítek MB a více). V rychlostech sekvenčního zápisu a čtení je značný potenciál pevných disků. Ze způsobu práce s daty (mechanické přesunutí k záznamové hlavě) však plyne velký nedostatek, a to velmi nízké přenosové rychlosti při práci s daty o malé velikosti (řádově stovky KB). Ze stejného důvodu jsou u magnetických pevných disků vysoké přístupové doby v průměru asi 10ms (při čtení kolem 8ms, u zápisu cca 15ms) Think Together 2011
. Tyto vlastnosti nejde z důvodu nutnosti konání mechanické práce, která vyžaduje více času než přepnutí adresních vodičů, překonat, lze je pouze v určitých mezích kompenzovat flash pamětí – tzv. cache. 2
Flash disky Druhou skupinou jsou v běžném použití mnohem méně používané pevné disky s paměťmi typu flash (tzv. SSD – Solid State Disk, někde také Solid State Drive). Základem těchto disků jsou nevolatilní (stálé, nebo lépe nezávislé na napájení) flash paměti3, na které se data zapisují nastavením adresy a zasláním dat (tedy propojením příslušných vodičů), z čehož vyplývá hlavní přínos – vysoká rychlost práce s malými bloky dat. V roce 2010 jsou pro běžné uživatele (domácí a podnikové počítače – nikoli serverové řešení) nejčastěji používány SSD založené na technologii MLC (multi-level cell), jejichž výrobní náklady jsou z množiny flash pamětí v současnost nejnižší. Velkou a pro záměr článku nejpodstatnější výhodou těchto pamětí je nízká přístupová doba - latence, tedy v tomto případě, časová prodleva mezi vznesením požadavku na čtení/ zápis dat a jejich předáním žadateli, nebo zápisem. Z měření4 vyplývá, že zatímco u magnetických pevných disků jsou přístupové doby v průměru asi 10ms (při čtení kolem 8ms, u zápisu cca 15ms), u flash disků se jedná o 0,05ms, tedy více než o řád nižší dobu. Přístupové doby se u některých flash disků blíží k operačním pamětem, které jsou zhruba na polovině těchto hodnot. Rychlostí při zápisu/čtení velkých bloků dat (stejně jako v předchozím odstavci jde o řády desítek MB a více), jsou tyto paměti přibližně dvojnásobně výkonnější – jsou 2 http://pctuning.tyden.cz/hardware/disky-cd-dvd-br/14948-velky-srovnavacitest-pevnych-disku-klasicke-konstrukce?start=7 3 http://www.earchiv.cz/a92/a235c120.php3 4 http://pctuning.tyden.cz/hardware/disky-cd-dvd-br/14948-velky-srovnavacitest-pevnych-disku-klasicke-konstrukce?start=7
Dostupné z: http://www.thinktogether.cz/
tedy rychlejší (nejčastěji pro čtení) či přibližně srovnatelné s pevnými disky na magnetickém principu. Existují však značné odchylky jednotlivých typů MLC flash pamětí a je také nutné brát v potaz použité řadiče, které vlastnost rychlosti silně ovlivňují – v praxi často limitují. Nevýhodou disků sestavených z MLC pamětí je vyšší cena za GB než u magnetických disků, a to v průměru až o dva řády5. SSD disky mívají ještě další charakteristické vlastnosti, chování a funkce, jako například Wear Leveling, Write Amplification, Spare area, trim apod., ale ty nejsou pro účel tohoto článku podstatné.
Metodika pro optimální využití pevných disků Prvním krokem pro optimalizaci využití pevných disků je měřením zjistit údaje o přenosových rychlostech disků. Zpracovávaná data (tedy všechna data uložená na pevných discích) můžeme rozdělit podle jejich velikosti do tří skupin6. Je to sekvenční zápis/čtení velkých dat (desítky MB), náhodný zápis/čtení středně velkého objemu dat (512KB) a zápis/čtení malého datového souboru (4KB). Pokud označíme přenosovou rychlost symbolem R, můžeme pro odlišení magnetického pevného disku (HDD) používat malé písmeno „h“ a pro flash disk (SSD) písmeno „s“, uváděná za symbolem R. Rychlosti pro magnetický pevný disk budou značeny „Rh“, rychlosti flash disků „Rs“. Z uvedeného měření rychlosti pevných disků tedy získáme šest údajů pro každý disk (3 pro zápis a 3 pro čtení). Po kompletním otestování jednoho disku máme celkem šest hodnot. Tyto údaje nám poskytují informaci o rychlosti disku při zpracování jednotlivé skupiny dat. Následně porovnáme
výsledky z magnetického pevného disku a z flash disku a zvolíme z možností pro vhodné umístění dat. Záměrem je rozvrhnout zatížení disků nejen při paralelních datově náročných činnostech, ke kterým při běžné kancelářské práci velmi často dochází tak, aby pokud možno oba disky pracovaly maximálně efektivně. Maximální efektivitou je míněno to, aby disky nejčastěji pracovaly tím způsobem (čtení/ zápis), kterým převyšují druhý disk. Dále také aby disky pracovaly s těmi bloky dat (<4KB, ≈512KB, >10MB), se kterými pracují nejrychleji. Za zcela optimální stav je považováno, když bude dosaženo rychlosti součtu obou disků (∀R: Rcelková = Rh + Rs).
Optimalizované umístění dat V praxi mohou podle naměřených výsledků nastat tyto tři situace: Magnetický pevný disk je ve všech situacích rychlejší než flash disk. ∀R: Rh > Rs Ač by se zdálo, že v této situaci je použití flash disku zbytečné, není tomu vždy tak. Pokud dojde k takovéto situaci, je možné využívat SSD disk jako pomocný. Flash disk bude tedy sloužit jako doplňkový pro případy, ve kterých často dochází k souběhu dvou událostí, jež požadují stejnou operaci na pevný disk. Pro využití této kombinace disků platí, že čím je rychlost flash disku (Rs) nižší než magnetického disku (Rh), tím je přínos magnetického disku menší. Přičemž lze uvažovat lineární přímou úměrnost.
5 http://pctuning.tyden.cz/hardware/disky-cd-dvd-br/14844-intel-ssd-x25-m34-nm-druha-generace-skveleho-ssd?start=7 6 http://crystalmark.info/software/CrystalDiskMark/index-e.html
ISBN: 978-80-213-2169-4
245
Avšak nelze doporučit užití kombinace HDD a SSD za situace, kdy je rychlost pevného disku výrazně vyšší než rychlost flash disku (∀R: Rh ≫ Rs). Tato volba není doporučena a nemá velký přinos vzhledem k vysokým cenám flash disků za GB prostoru. Mezi tyto situace zahrnujeme takové případy, kdy je rychlost magnetického disku větší než rychlost flash disku (Rh > Rs) o dva řády a více. Magnetický disk je v některých situacích rychlejší než flash disk. V tomto případě je nutná podrobnější analýza, ze které musí vyplynout, pro jaký typ operace (čtení/zápis) a jakou strukturu dat (<4KB, ≈512KB, >10MB) má magnetický pevný disk, nebo flash disk lepší hodnoty. Pro disk, jenž má méně lepších parametrů (zaostává ve více hodnotách), se volí použití tak, aby byl zpravidla vytěžován hlavně v těchto operacích a v této struktuře dat. Magnetický disk je ve všech situacích pomalejší než flash disk. ∀R: Rh < Rs Nyní bude situace nejjednodušší. Magnetický pevný disk se využije jako datové uložiště pro méně využívané soubory a popřípadě programy používané synchronně s vysokým zatížením flash disku. Flash disk je využíván pro většinu programů a zbylá data, podle celkové kapacity.
nastala, platil by pro ni bod „Magnetický pevný disk je ve všech situacích rychlejší než flash disk“ v prvním odstavci, přičemž by byly disky (HDD a SSK) zaměnitelné.
Závěry výzkumu Největším přínosem tohoto výzkumu je skutečnost, že kombinace magnetického pevného disku a flash disku je přínosná ve většině situací. Díky tomu víme, že při vhodné alokaci dat na discích získáme zvýšení odezvy počítače a obecně zrychlení práce s výpočetním zařízením. Překvapující je nalezená složitost v alokaci zdrojů za situace, kdy ani jeden z disků nemá všechny nejvyšší přenosové rychlosti. Zásadní je rovněž význam vypracované metodiky pro vhodné rozložení dat při aplikaci v reálných podmínkách, kam převážně směřuje. Vypracovanou metodiku je nutné ještě podrobit kombinací testů, které prokáží její univerzální platnost. Na detailní rozmístění jednotlivých dat, podrobný rozbor situace (kdy ani jeden z disků nemá všechny nejvyšší přenosové rychlosti) a matematický popis s průkazným řešením je také nutný další výzkum, jenž bude pokračovat v započaté práci.
Doplnění Teoreticky může nastat ještě čtvrtá situace, kdy jsou rychlosti disků totožné (∀R: Rh = Rs), ale prakticky je tato možnost (z výše uvedených technických důvodů) vyloučena. Proto ji nebudeme detailně rozepisovat. Pokud by ale tato eventualita Think Together 2011
Dostupné z: http://www.thinktogether.cz/
LITERATURA [1] PETERKA, Jiří. Volatile vs. nonvolatile. Earchiv.cz [online]. 1992, 32, [cit. 2010-12-19]. Dostupný z WWW:
. [2] ALLYN-FEUE, Ari. Little, big, and green: a biography of the solid-state disk. Ars technica [online]. 2009, [cit. 2010-1220]. Dostupný z WWW: . [3] IEEE Press. Nonvolatile Memory Technologies with Emphasis on Flash : A Comprehensive Guide to Understanding and Using NVM Devices. New Jersey : Wiley-IEEE Press, 2008. 788 s. ISBN 978-0471770022. [4] ČERNÝ, Jan. Solidní budoucnost pevných disků – úvod k velkému testu SSD disků. Pctuning [online]. 20.10.2010, [cit. 2010-12-20]. Dostupný z WWW: . ISSN 1214-0201.
ISBN: 978-80-213-2169-4
247