Radovan Szurman, szu025
Statistika I Semestrální projekt Pevné disky
Úvod V tomto referátu se pokusím s pomocí různých nástrojů statistiky rozebrat situaci na trhu na poli pevných disků a také poukázat na více či méně zřejmé závislosti mezi vybranými parametry těchto počítačových komponent. Popravdě řečeno, data jsou čerpána z ceníku jednoho konkrétního internetového obchodu, tudíž díky svému původu a nepřílišné rozsáhlosti nemohou být závěry brány jako obecně platné. Věřím však, že poznatky z rozboru získaných dat mohou o obecné situaci mnoho napovědět. Toto téma nemusí být pro každého čtenáře zábavné či chytlavé, minimálně však pomůže těm, kteří nacházejí v počítačových komponentách skrytou zálibu nebo těm, kteří se potřebují v aktuální nabídce předních výrobců pevných disků zorientovat např. kvůli plánovanému nákupu. Pro potřeby semestrálního projektu se mi jako dostačující jevilo použít jako zdrojová data specifickou kategorii pevných disků a sice 3,5“ SATA pevné disky. Jedná se o kategorii pevných disků, které jsou pro dnešní běžná PC vyžadována nejvíce.
1. Výběrový soubor
Přehled 3,5" SATA pevných disků Výrobce
Model
Samsung Samsung Samsung Samsung Samsung Samsung Samsung Seagate Seagate Seagate Seagate Seagate Seagate Seagate Seagate Seagate Seagate Seagate Seagate Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital Western Digital
HD080HJ HD160HJ SP2504C HD321KJ HD400LJ HD401LJ HD501LJ ST380815AS ST3160815AS ST3250620AS ST3250620NS ST3320620AS ST3320620NS ST3400620AS ST3400620NS ST3500630AS ST3500630NS ST3750640AS ST3750640NS WD800AAJS WD360ADFD WD740ADFD WD1600YS WD1600AAJS WD1500ADFD WD2500YS WD2500AAJS WD3200YS WD3200AAKS WD4000AAKS WD5000AAKS WD7500AAKS
Kapacita (GB) 80 160 250 320 400 400 500 80 160 250 250 320 320 400 400 500 500 750 750 80 36 74 160 160 150 250 250 320 320 400 500 750
Přístupová doba (ms) 8,9 8,9 8,9 8,9 8,9 8,9 8,9 8,5 8,5 8,5 8,5 8,5 8,5 8,5 8,5 8,5 8,5 8,5 8,5 8,9 5,2 5,2 8,9 8,9 5,2 8,9 8,9 8,9 8,9 8,9 8,9 8,9
Vyrovnávací paměť (MB) 8 8 8 16 8 16 16 8 8 16 16 16 16 16 16 16 16 16 16 8 16 16 16 8 16 16 8 16 16 16 16 16
Otáčky/min. 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 7200 10000 10000 7200 7200 10000 7200 7200 7200 7200 7200 7200 7200
Cena 1098,9 1415,7 1673,1 2039,4 2574 2465,1 3059,1 1128,6 1395,9 1821,6 1920,6 2118,6 2237,4 2841,3 3088,8 3742,2 4029,3 6454,8 6920,1 1069,2 2851,2 4266,9 1633,5 1366,2 6098,4 1871,1 1722,6 2257,2 2098,8 2574 3128,4 6058,8
2. Explorační analýza získaných dat Explorační analýza dat slouží k výpočtu základních statistických charakteristik výběrového souboru. Podle typu dat budeme hledat např. průměr, modus, medián, absolutní i relativní četnost nebo směrodatnou odchylku. Tyto charakteristiky nám mohou o vlastnostech jednotlivých atributů zdrojových dat mnoho napovědět.
2.1 Podíl výrobců na trhu s pevnými disky Histogram, graf č.1, a výsečový graf č.2 nám ukáží, který výrobce je nejproduktivnější, tedy má nejširší nabídku produktů. Barchart for Výrobce
Samsung
Seagate
Western Digital
0
3
6 9 frequency
12
15
Graf č.1
Výrobce Samsung (7) Seagate (12) Western Digital (13)
Piechart for Výrobce 21,88%
40,63%
37,50%
Graf č.2
Je zřejmé, že podle výběrového souboru nabízí nejvíce výrobků společnost Western Digital, kterou těsně následuje společnost Seagate. Z výsečového grafu je snadné odečíst jak četnosti pro každého z výrobců, tedy počet výrobků nabízený každým z výrobců, tak relativní četnosti, což je podíl produktů daného výrobce ku počtu všech výrobků všech výrobců vynásoben 100. Statistickou charakteristikou, kterou můžeme u těchto dat určit je i modus, což je název nejčetnější kategorie. V tomto případě jím je tedy výrobce Western Digital.
Poznámka: Na tomto místě bych rád ještě upozornil na určitý „rušivý element“ ve výběrovém souboru, který nám při analýze jednotlivých atributů výběrového souboru může pozorování zkreslovat. Jedna se o výjimečně rychlé a drahé pevné disky, které nalezneme pouze v nabídce firmy Western Digital. Jsou to disky s relativně nezvyklými kapacitami 36 GB, 74GB a 150 GB. Kromě nezvyklé kapacity mají tyto modely oproti ostatním i velmi nízkou přístupovou dobu a zároveň mnohem vyšší cenu než ostatní modely srovnatelné či dokonce vyšší kapacity. Je k nim tedy v případě, kdy by docházelo k markantnímu zkreslení výsledků analýzy, přistupovat jako k odlehlým pozorováním nebo minimálně při vyhodnocování k této skutečnosti přihlížet.
2.2 Rozbor kapacity pevných disků Zde se zaměříme na to, s jakou kapacitou jsou nejčastěji pevné disky vyráběny, popř. u kterých kapacit nebudeme mít při nákupu příliš na výběr. Barchart for Kapacita [GB] 36 74 80 150 160 250 320 400 500 750 0
1
2 3 frequency
4
5
Graf č.3
Kapacita [GB] 36 (1) 74 (1) 80 (3) 150 (1) 160 (4) 250 (5) 320 (5) 400 (5) 500 (4) 750 (3)
Piechart for Kapacita [GB] 9,38%
3,13% 3,13% 9,38%
12,50%
3,13%
12,50% 15,63%
15,63% 15,63%
Graf č.4
V tomto případě není výsečový graf, graf č.4, dostatečně vypovídající, vzhledem k počtu možných kapacit. Mnohem přehlednější je histogram, graf č. 3, ze kterého snadno usoudíme, že největší výběr je mezi pevnými disky s kapacitami 250 GB, 320 GB a 400 GB. Modus neurčujeme, neboť kategorií s nejvyšší četností je hned několik. Pro úplnost si ještě můžeme uvést průměrnou kapacitu disků, která činí 320 GB.
Box-and-Whisker Plot
0
200
400 Kapacita [GB]
600
800
Graf č.5
Pro doplnění je zde uveden i krabicový graf, graf č.5, na kterém je také názorně vidět, s jakou kapacitou nalezneme na pultech obchodů pevné disky nejčastěji.
2.3 Rozbor přístupové doby Užitečné může být také zjištění, jaké je v nabídce zastoupení pevných disků z hlediska přístupové doby. Barchart for Přístupová doba [ms]
5,2
8,5
8,9
0
3
6
9 frequency
12
15
18
Graf č.6
Piechart for Přístupová doba [ms] 9,38%
53,13%
Přístupová doba [ms] 5,2 (3) 8,5 (12) 8,9 (17)
37,50%
Graf č.7
Z obou grafů je snadno čitelné, že převahu mají disky s přístupovou dobou 8,9 ms. Důvodem je skutečnost, že disky s přístupovou dobou 8,5 ms vyrábí pouze společnost Seagate, zatímco disky s přístupovou dobou 8,9 ms mají v nabídce oba dva ze zbývajících výrobců. Minoritní zastoupení mají naopak disky s přístupovou dobou 5,2 ms, což je dáno již zmíněnou skutečností, že tyto disky jsou specifickým výrobkem firmy Western Digital. Můžeme si také uvést průměrnou přístupovou dobu disků z výběrového souboru, která je přibližně 8,4 ms. Zde je však třeba nezapomenout na to, že tento průměr je ovlivněn odlehlými pozorováními, kterými jsou hodnoty 5,2 ms v poznámce zmíněných disků výrobce Western Digital.
2.4 Rozbor vyrovnávací paměti V případě vyrovnávací paměti, máme při analýze jednoduchou pozici. Ve zkoumané kategorii pevných disků se dnes vyskytují pouze modely s vyrovnávací pamětí o velikost 8 MB nebo 16 MB. V pokročilé části referátu si ukážeme, zda souvisí velikost vyrovnávací paměti určitým způsobem závisí na kapacitě disku. Modely o jaké velikosti vyrovnávací paměti jsou tedy častěji k dostání?
Piechart for Vyrovnávací paměť [MB] Vyrovnávací paměť [MB] 8 (9) 16 (23)
28,13%
71,88%
Graf č.8
K vyhodnocení pozorování nám v tomto případě postačí koláčový graf, graf č.8, na kterém lze zřetelně vidět, že jsou v dnešní době vyráběny převážně pevné disky o velikosti vyrovnávací paměti 16 MB. Modem při pozorování vyrovnávací paměti je tedy hodnota 16 MB. Na tomto místě si dovolím znovu předbíhat a prozradím, že velikost vyrovnávací paměti určitým způsobem narůstá v závislosti na vzrůstající kapacitě. A jak jsme se dozvěděli v kapitole analyzující kapacitu pevných disků, největší zastoupení na trhu mají právě disky s vyššími kapacitami, od 250 GB, které jsou osazovány právě 16 MB vyrovnávací paměti. Z toho tedy plyne převažující zastoupení disků s 16 MB vyrovnávací pamětí nad disky s vyrovnávací pamětí 8 MB. Větší vyrovnávací paměť je také obsažena ve všech výjimečně rychlých modelech Western Digital, kde je toto osazení žádoucí právě z důvodu dosažení maximální rychlosti těchto disků bez ohledu na jejich cenu a nižší kapacitu.
2.5 Rozbor otáček za minutu K rozboru parametru pevných disků, kterým je počet otáček za minutu nepotřebujeme žádný sofistikovaný nástroj statistiky. Postačí nám pohled na zdrojová data, ze kterých i bez hlubších technických znalostí odvodíme, že nebýt ve výběrovém souboru existence tří disků s nestandardními parametry, kterými jsou už mnohokrát zmiňované výkonné disky výrobce Western Digital, mělo by 100% disků shodnou hodnotu počtu otáček za minutu a sice 7200. Hodnoty 10000 ot./min. jsou zde právě díky přítomnosti zmíněných nestandardních modelů ve zdrojových datech.
2.6 Rozbor cen pevných disků 2.6.1 Rozbor cen nezávisle na výrobci Při analýze cen se nám situace poněkud znepřehlední, a proto budeme nuceni využít některých zatím nepoužitých grafů, které nám napoví, jaké je rozložení cen v oblasti pevných disků pocházejících od různých výrobců. Jistě bude zajímavé zjisti, jaká je průměrná cena pevného disku a jak jsou ceny kolem této střední hodnoty rozptýleny. Scatterplot
0
2
4 Cena
6
8 (X 1000,0)
Graf č.9
Box-and-Whisker Plot
0
2
4 Cena
6
8 (X 1000,0)
Graf č.10
Co lze tedy z grafů vyčíst. Z obou grafů, jak bodového tak krabicového, je možné vyčíst, že jako odlehlá pozorování zde působí ceny přesahující 6000 Kč, což jsou většinou ceny modelů s nejvyšší kapacitou. Tato odlehlá pozorování si však pro tento případ nemůžeme dovolit ignorovat či odstranit, neboť se nejedná o žádnou výjimečnou chybu nebo anomálii dat ve
výběrovém souboru. Bohužel se však ignorace těchto hodnot v budoucích kapitolách pravděpodobně nevyhneme, neboť právě díky těmto hodnotám bychom nebyli schopni efektivně zjišťovat například závislosti kapacity na ceně pevného disku. Pokud přejdeme ke konkrétním číslům, tak průměrná cena disku ve výběrovém souboru je 2781,90 Kč, čemuž odpovídá zvýraznění střední hodnoty proměnné v krabicovém grafu červeným křížkem. Směrodatná odchylka proměnné činí 1606,50 Kč. Grafy napovídají, jaké je rozložení, rozptyl, cen právě vzhledem k pomyslnému středu proměnné, tedy průměru. Z bodového grafu lze jasně vidět, že největší koncentrace cen je přibližně kolem hodnoty 2000 Kč. Je zde patrný právě vliv odlehlých pozorování, proto je průměrná cena mírně zavádějící a většina hodnot je právě pod hodnotou aritmetického průměrnou. Mnohem větší vypovídající hodnotu má proto v tomto případě hodnota mediánu, která činí 2247,30 Kč. Tato cena už se dá považovat za jakýsi střed výběrového souboru, jak je z rozptylu cen patrné.
2.6.2 Porovnání cen disků od různých výrobců Zde se pokusíme porovnat ceny výrobků jednotlivých výrobců pomocí průměrné ceny disku každého z výrobců a rozptylu kolem této hodnoty. Statistika nabízí pro tyto účely sofistikovanějších nástrojů, které použijeme v pokročilejší části referátu k odhalení závislosti ceny na výrobci. Pro porovnání cen mezi výrobci použijeme výběrový soubor bez odlehlých pozorování, abychom odstranili výhodu výrobce Samsung, který nenabízí nejdražší disky s kapacitou 750 GB, což by zapříčinilo nižší průměrnou cenu než u obou konkurentů. Výrobce Samsung Seagate Western Digital
Průměrná cena 2046,47 Kč 2432,43 Kč 2258,10 Kč
Směrodatná odchylka 696,92 Kč 966,64 Kč 911,33 Kč
Tabulka č.1
Podle tabulky č. 1 a průměrné ceny můžeme říct, že nejlevnějším výrobcem pevných disků je Samsung následován Western Digital. Tento závěr je však poměrně povrchní a neměl by být brán jako základní argument pro koupi nového disku, neboť nezohledňujeme kvalitu ani další parametry nabízených disků. Nepravdivosti toho tvrzení z hlediska statistiky se budeme věnovat v kapitole 3.1.1. Uvedení výběrové směrodatné odchylky zde není bezdůvodné. Čím větší je rozptyl hodnot reprezentovaný právě velikostí směrodatné odchylky, tím menší je schopnost uvedeného průměru reprezentovat celou proměnnou. U výrobce Samsung tedy vidíme, že průměr zde má poměrně slušnou vypovídací hodnotu o celé nabídce produktů. Naopak u výrobců Seagate nebo Western Digital není průměr zrovna reprezentativní hodnotou celého výběru vzhledem k velikosti směrodatné odchylky a tedy rozptýlenosti cen kolem tohoto středu.
3. Statistická indukce 3.1 Testování hypotéz Statistická indukce nám dává k dispozici několik metod, jak s určitou jistotou určit, zda vztahy mezi proměnnými platící ve výběrovém souboru o omezené velikosti mohou být aplikovány na celou populaci, ze které výběrový soubor pochází. Základem je stanovení nulové a alternativní hypotézy a následné rozhodnutí, zda zamítáme či nezamítáme nulovou hypotézu. Při testování hypotéz o cenách pevných disků budeme vycházet z výběrového souboru bez odlehlých pozorování. Pokud bychom je neodstranili, výběr by nepocházely z populace s normálním rozdělením což by znemožnilo použití parametrických testů.
3.1.1 Vyhodnocení nejlevnějšího výrobce pomocí testování hypotéz Pokusíme se tedy pomocí dvouvýběrového testu středních hodnot určit, zda závěr o tom, že výrobce Samsung je podle průměrné ceny z výběrového souboru nejlevnější, který jsem určil v kapitole 2.6.2, může být brán jako obecně platný. Pro úplnost provedeme test pro dvojici výrobců Samsung a Western Digital i pro dvojici Samsung - Seagate. Nejprve je nutné provést test, zda ceny produktů každého z výrobců pocházejí z populace s normálním rozdělením. Výsledkem Kolmogorova-Smirnovova testu je, stejně jako mnoha dalších testů hypotéz, hodnota P-value, která pokud je větší než 0,05, můžeme s 95% spolehlivostí říct, že nezamítáme nulovou hypotézu. Při testování normality je jako nulová hypotéza zvoleno tvrzení, že výběr pochází z normálního rozdělení. Alternativní hypotéza je v tomto případě negací nulové hypotézy. Pro každého z výrobců vyšla hodnota P-value vyšší než 0,05, proto můžeme přistoupit k dvouvýběrovým testům středních hodnot. 1) Porovnání Samsung – Western Digital Jako nulovou hypotézu zvolíme, že střední hodnoty cen, tedy průměry, obou populací si jsou rovny. Alternativní hypotézou bude tvrzení, že průměrná cena disků Samsung je nižší než u Western Digital. Výsledkem dvouvýběrového testu středních hodnot je P-value = 0,304169. Nezamítáme tedy nulovou hypotézu, což znamená, že s 95% spolehlivostí můžeme tvrdit, že průměrná cena disků Samsung není menší než disků Western Digital. 2) Porovnání Samsung – Seagate Nulovou hypotézu zvolíme stejně jako minule, tedy průměrné ceny obou populaci si jsou rovny. Alternativní hypotézu zvolíme také obdobně, tedy že průměrná cena disků Samsung je nižší než u Seagate. Výsledkem dvouvýběrového testu středních hodnot je P-value = 0,19081. Stejně jako v minulém porovnání tedy můžeme s 95% spolehlivostí tvrdit, že průměrná cena disků Samsung není menší než disků Seagate.
Provedené testy nás vyvarovaly omylu, kterého bychom se dopustili, pokud bychom na základě výsledků porovnání průměrných cen disků každého z výrobců vynesli závěr, který byl zmíněn v kapitole 2.6.2, tedy že výrobce Samsung je nejlevnějším výrobcem disků. Aby mohl být takový závěr brán s obecnou platností, musely by být zohledňovány velikosti jednotlivých výběrů, směrodatné odchylky a typ rozdělení, čehož je při testování hypotéz dodrženo. Na základě našeho výběrového souboru tedy nejsme schopni zjisti, který výrobce pevných disků je nejlevnější.
3.2 ANOVA – rozpoznávání závislostí mezí jednotlivými kategoriemi 3.2.1 Zjišťování závislosti ceny na výrobci Pokud chceme zjisti, zda existuje určitá závislost ceny pevného disku na jeho výrobci, máme k dispozici metodu ANOVA, metodu analýzy rozptylu. Ta nám umožní srovnat více než dvě střední hodnoty nezávislých výběrů. Pokud chceme použít metodu ANOVA, je třeba aby výběry pocházely z normálního rozdělení a měly identické rozptyly. První podmínku jsem otestovali v předchozí kapitole. Výsledkem testů na identické rozptyly byla P-value vždy vyšší než 0,05, proto nezamítáme možnost, že výběry cen pro každého z výrobců mají identické rozptyly. Výsledkem samotného testu je tabulka ANOVA. Zde zjistíme, že hodnota P-value je 0,68, což znamená, že mezi středními hodnotami cen pro každého z výrobců nejsou statisticky významné rozdíly. S 95% spolehlivostí můžeme říct, že cena není závislá na výrobci. Tento závěr koresponduje se závěrem z minulé kapitoly, kdy jsme zjistili, že žádný z výrobců není nejlevnějším, popř. nejdražším. Box-and-Whisker Plot
Výrobce
Samsung
Seagate
Western Digital
0
1
2
3 Cena
4
5 (X 1000,0)
Graf č.11
Graf č. 11 pouze podporuje výsledek testu, protože je z vícenásobného krabicového grafu zřejmé, že mezi cenami výrobců nejsou statisticky významné rozdíly.
3.2.1 Zjišťování závislosti vyrovnávací paměti na kapacitě disku V kapitole 2.4 jsem se zmínil o odhadu, že velikost vyrovnávací paměti je závislá na celkové kapacitě disku. A protože při laickém pohledu na zdrojová data tato skutečnost nemusí být zřejmá, pokusíme se tuto závislost potvrdit či vyvrátit. Protože nelze kvůli omezené velikosti výběrového souboru ověřit pro každý výběr vyrovnávacích pamětí podle kapacity, zda pocházejí z normálního rozdělení, použijeme ke zjištění závislosti neparametrický Kruskal-Wallisův test. Jeho jedinou podmínkou je, aby výběry měly identické rozptyly, což je v tomto případě splněno. Jeho výsledkem je P-value = 0,0373049, což je hodnota menší než 0,05. Můžeme proto zamítnout nulovou hypotézu, kterou je v tomto testu rovnost mediánů výběrů a zároveň může s 95% spolehlivostí tvrdit, že existuje závislost mezi velikostí vyrovnávací paměti a kapacitou pevného disku. Multiple Range Tests for Vyrovnávací paměť [MB] by Kapacita [GB] Method: 95,0 percent LSD Kapacita [GB] Count Mean 80 3 8,0 160 4 10,0 250 5 12,8 400 5 14,4 320 5 16,0 750 3 16,0 500 4 16,0 150 1 16,0 74 1 16,0 36 1 16,0
Homogeneous Groups X XX XX X X X X XX XX XX
Tabulka č.2
Protože jsem zamítli nulovou hypotézu, provedeme ještě tzv. post-hoc analýzu, která nám ukáže, zda lze některé skupiny sloučit do jedné skupiny, jako by pocházely z jedné populace. Tabulka č.2 uvádí výstup LSD testu, kde nás zajímá sloupec homogenní skupiny. Skupiny, které by mohly pocházet z jedné populace, identifikujeme sledováním sloupců symbolů ‘X’. Zde je možné vyčíst, že disky s kapacitami od 320 GB do 750 GB bývají osazovány 16 MB vyrovnávací paměti a mohly by tak z hlediska sledovaného parametru pocházet z jedné populace. Disky s kapacitami 36 GB, 74 GB a 150 GB jsou určitými výjimkami nepotvrzující tuto závislost, ale o této skupině disků již byla řeč dříve. Podle tabulky č. 2 by však do zmíněné populace mohly být zařazeny stejně jako disky s kapacitou 250 GB.
Závěr V referátu jsem se pokusil jak prostředky explorační analýzy, tak nástroji statistické indukce zhodnotit a analyzovat zdrojová data, která posloužila jako výběrový soubor pro vlastní rozbor. Pomocí explorační analýzy byl rozebrán každý atribut výběrového souboru a bylo poukázáno na jeho základní vlastnosti. V poslední části bylo použito statistických mechanismů pro testování hypotéz o populaci z níž výběrový soubor pochází, abychom zjistili, zda závěry vynesené na základě dat z výběrového souboru mohou být uplatňovány i obecně na zdrojových populacích.