Statistika
Semestrální projekt
18.5.2013
Tomáš Jędrzejek, JED0008
Obsah Úvod
3
Analyzovaná data
4
Analýza dat
6
Statistická indukce
12
Závěr
15
1. Úvod Cílem této semestrální práce je aplikovat získané teoretické poznatky pomocí dostupného programového vybavení, jmenovitě statistický software Statgraphics Centurion 16.1.18 a LibreOffice 4.0.22 jako textový procesor. Jako téma práce jsem zvolil sledování softwarového vybavení uživatelů na internetu. Neboť jsem nenašel vhodný zdroj dat, vytvořil jsem za pomocí služeb Google Docs internetový dotazník. Ten byl volně dostupný atak se ho mohlo zúčastnit kdokoli, kdo má přístup k internetu. Protože byl dotazník zhotoven v českém jazyce, je velmi pravděpodobné, že naprostá většina respondentů pocházela právě z České Republiky. Nezachycuje tedy jen malou oblast, kde se dotazovaní nacházeli. Z tohoto důvodu je míra objektivity u prováděných statistik větší, než v případě, kdy by se jednalo např. o studenty VŠB-TUO. Jako populaci či základní soubor lze tedy pokládat lidi používající počítač, kteří jsou připojení k internetu v květnu 2013. Statistiky založené na základě získaných dat nám mohou říci třeba to, jak jsou oblíbené webové prohlížeče napříč celým spektrem respondentů, jak ovlivňuje znalost počítačů to, jaký operační systém používají, jaká věková kategorie má na internetu největší zastoupení, apod. Dotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku účastnilo 50 respondentů. Na všechny otázky bylo nutné odpovědět, to znamená, že nedošlo k prázdné odpovědi a všechny záznamy mohly být použity. Výběrovým souborem jsou v tomto případě lidé používající počítač, kteří jsou připojeni k internetu a účastnili se dotazníku v květnu 2013. Data byly získány umístěním odkazu na dotazník na několika webových stránkách, tak abych dosáhl co nejvyšší vypovídací hodnotu v globálním měřítku. Na základě získaných dat byla provedena exploratorní analýza, která byla doplněna intervalovým odhadem a testem nezávislosti v kontingenční tabulce.
2. Analyzovaná data Dotazník se skládal z několika otázek. Obsaženy byly takové, které se týkají samotné osoby, tedy respondenta – např. pohlaví či věk a také ty, které přiblížily jaké softwarové vybavení využívá nejvíce. Níže jsou uvedeny otázky a možné odpovědi: ● Vaše pohlaví? •
Žena
•
Muž
● Váš věk? •
Číslo
● Do jaké skupiny se řadíte ve znalosti PC? •
Začátečník
•
Pokročilý
•
Odborník
● Jaký typ počítače používáte nejčastěji? •
Stolní
•
Notebook
•
Netbook
•
Tablet
● Jaký webový prohlížeč nejčastěji? •
Chrome
•
Mozilla Firefox
•
Internet Explorer
•
Jiný
● Jaký operační systém používáte nejčastěji? •
Windows
•
Linux
•
OS X
•
Jiný
3. Analýza dat 3.1. Zastoupení webových prohlížečů Tento dotazník je zaměřen na zjištění zastoupení používaného programového vybavení. Proto jsem nejdříve provedl exploratorní analýzu proměnné webové prohlížeče, tedy otázka zněla – „Jaký webový prohlížeč využíváte nejčastěji?“.
Obr. 1 – koláčový graf „Jaký webový prohlížeč využíváte nejčastěji?“ Z grafu na obrázku 1 lze jasně vidět zastoupení webových prohlížečů na zkoumaném trhu. Výsledky statistiky jsou velmi podobné těm, které lze nalézt na různých statistických serverech jako je např. http://statcounter.com. Na sledované populaci lze zjistit, že dbá na svou bezpečnost a preferuje prohlížeč Mozilla Firefox či Google Chrome, které se snaží být velmi inovativní v oblasti webových technologií.
3.2. Zastoupení operačních systémů Další zkoumanou proměnnou byly Operační systémy. Respondentů jsem se ptal „Jaký operační systém používáte nejčastěji?“. V posledních letech je to velmi zajímavá oblast, která se s rozšiřujícím se přístupem k internetu začíná pomalu měnit. Většina lidí vůbec nezná něco jiného, než systém Microsoft Windows, avšak roste povědomí i o jiných platformách, kdy lidé hledají alternativní řešení z mnoha důvodů. Fakt, že ostatní operační systémy nejsou (převážně v ČR) brány příliš na vědomí je způsoben několika faktory jako je tuzemský vzdělávací systém. Ku příkladu systémy s jádrem Linux začínají být celosvětově velmi populární, hlavně z důvodu nulové ceny, mnohem lepší bezpečnosti a modularitě oproti Windows. Jaký je současný stav ve zkoumané populaci na počítačích? To lze sledovat na následujícím koláčovém grafu
Obr. 2 - koláčový graf „Jaký operační systém používáte nejčastěji?“
Z grafu na obrázku 2 jde vidět zastoupení jednotlivých OS. Statistika je opět velmi podobná s těmi, které lze shlédnout na zmiňovaných portálech. Avšak z důvodu nízkého počtu respondentů je pro Apple OS X a systémy na bázi Linux zřetelné, že přesnost není příliš dobrá, neboť platí – čím více statistických jednotek, tím je analýza přesnější.
3.3. Zastoupení typu počítačů Kromě analýzy programového vybavení mě zajímalo to, jaký typ počítače respondent nejčastěji využívá. Pro výrobce hardware je velmi důležité vědět, jakým směrem se trh ubírá a co se využívají zákazníci nejčastěji. Na základě této informace může lépe rozhodnout do jakého segmentu investuje, aby se mu výroba dostatečně oplatila.
Obr. 3 - koláčový graf „Jaký operační systém používáte nejčastěji?“ V grafu na obrázku 3 lze vypozorovat, že stolní počítače na zkoumané populaci stále převládají. I když to podle grafu nevypadá, prodeje stolních počítačů a notebooků klesají ve prospěch menších zařízení, které jsou více mobilní. Stále naprostá většina využívá převážně zmiňované dva typy.
3.4. Zastoupení znalosti PC V dotazníku se nacházela také otázka „Do jaké skupiny se řadíte ve znalosti PC?“. Zjišťoval jsem tedy, na jaké úrovni lidé ovládají své počítače. Sami se podle svého názoru zařadili do jedné ze tří kategorií, znamená to, že tato analýza je založena spíše na subjektivním dojmu respondenta.
Obr. 4 - koláčový graf „Do jaké skupiny se řadíte ve znalosti PC?“ Z výše uvedeného grafu jsem se dozvěděl jaké je zastoupení znalosti PC ve zkoumané populaci. Polovina dotazovaných o sobě myslí, že je v oblasti počítačů začátečník. Nejméně je však odborníků, což jistě odpovídá realitě. Dalo by se říci, že přibližně každý šestý člověk s připojením k internetu myslí, že je počítačový odborník.
3.5. Zastoupení pohlaví Pro lepší představu a upřesnění analýzy jsem zahrnul také pohlaví respondentů.
Obr. 5 - koláčový graf pro proměnnou Pohlaví Graf na obrázku 5 ukazuje na fakt, že muži na počítači s připojením k internetu prosedí více. Výsledek může ovlivňovat i to, že mohou mít větší zájem o vyplňování dotazníku.
3.6. Věk respondentů V poslední otázce jsem se ptal na věk respondentů. Mohu tak sledovat jaká věková kategorie je na internetu nejčastěji nebo např. závislost věkové kategorie na dalších proměnných a vyvodit tak užitečnější závěr pro danou statistiku.
Obr. 6 - histogram pro proměnnou Věk Na obrázku 6 lze vidět histogram, který ukazuje četnosti. Lze z něj vyčíst, že věková kategorie kolem 20 let je na internetu nejaktivnější. Statistika proměnné Věk Počet respondentů / pozorování 50 Průměrný věk
33,42
Směrodatná odchylka
15,1753
Minimální věk
13
Maximální věk
72
Interkvartilové rozpětí
59
Šikmost
3,17267
Špičatost
0,404117
4. Statistická indukce 4.1. Závislost typu počítače na pohlaví respondenta Předmětem zkoumání bylo mimo jiné zjistit, zda je typ počítače závislý na pohlaví respondentů. Pomocí statistické indukce, resp. analýzou kontingenční tabulky tak zjistíme na základě zkoumané populace, zda existuje závislost mezi pohlavím a typem počítače, tento poznatek pak přenést s určitou mírou rizika na celou populaci. Následující tabulka shrnuje parametry datového souboru v kontingenční tabulce. Tabulka četností Muž
Žena
Celkem za sloupec
Notebook
Stolní
Celkem za řádek
12
19
31
24%
38%
62%
13,02
17,98
0,08
0,06
9
10
19
18%
20%
38%
7,98
11,02
0,13
0,09
21
29
50
42%
58%
100%
Obsah buněk: Počet výskytů Procentuální zastoupení Očekávaná četnost
(nesmí být nižší než 5)
Příspěvek do chi-square První řádek tabulky popisuje počet výskytů hodnot, které byly zaznamenány v dotazníku pro proměnnou Typ počítače, které využívají muži. Druhý řádek představuje procentuální zastoupení daného počtu výskytů v celé populaci. Třetí pak popisuje očekávanou četnost, resp. Expected frequency. Tato hodnota je velmi důležitá, neboť na základě ní je možné určit
zda lze provést test závislosti. A to tak, že hodnoty v celé tabulce nesmí klesnout pod hodnotu 5. Nejnižší hodnota je 7,98, takže test je možné provést. Čtvrtý řádek popisuje příspěvek do chi-square. Následný mozaikový graf pomůže si lépe danou závislost představit.
Obr. 7 – mozaikový graf „Závislost pohlaví respondenta na typu počítače“ Z grafu na obrázku 7. je vidět, že poměr mezi stolním počítačem a ženou je pro obě pohlaví přibližně stejný. Abychom určili, jestli tomu tak je opravdu nebo existuje závislost mezi zmíněnými kategoriálními proměnnými je nutné definovat hypotézu. Definuji nulovou hypotézu H0 jako: Muži i ženy používají daný typ počítače ve stejné míře. Definuji alternativní hypotézu HA: Muži nepoužívají daný typ počítače ve stejné míře jako ženy. Předpoklady k provedení testu byly splněny, tudíž jsem přistoupil k testu nezávislosti: Test
Statistika
Df
P-Value
Chi-Square
0,363
1
0,5471
Protože je P-value větší než 0,05, tedy v tomto případě 0,5471, nelze zamítnout nulovou
hypotézu, která říká že řádky a sloupce jsou s 95% pravděpodobností (5% hladině významnosti) nezávislé. Z toho vyplývá, že jsme nenašli spojení, mezi pohlavím respondentů a typem počítače.
4.2. Intervalový odhad pro proměnnou Věk respondenta Abych určil parametry celé populace je nutné provést vyčerpávající analýzu, to je z mnoha důvodů velmi obtížné až nemožné. Proto jsem využil odhad, ve kterém použiji příslušné charakteristiky výběrového souboru. Zajímalo mě kolik procent lidí je starších 35 let, neboť to je přibližně průměrné stáří respondentů. Z vyplněných dotazníků byly zjištěny následující údaje o stáří respondentů: 23, 22, 21, 26, 26, 23, 49, 65, 71, 40, 45, 18, 22, 23, 72, 34, 20, 23, 55, 28, 30, 47, 22, 26, 28, 29, 43, 23, 20, 13, 31, 34, 25, 37, 54, 44, 55, 20, 17, 67, 24, 23, 27, 36, 19, 25, 26, 50, 48, 22 Z výše uvedených dat jsem vypočítal průměr - 33,42 let a směrodatnou odchylku - 15,1753 let. Zjistil jsem intervaly spolehlivosti pro míru 95%: 95% IS pro střední hodnotu - [29,1072; 37,7328]. 95% IS pro směrodatnou odchylku - [13,324; 17,6288]. Počítám pomocí normálního rozdělení: N(29,1072; 13,3242)
P(X > 35) = 32,9% (minimum)
N(29,1072; 17,62882)
P(X > 35) = 36,9%
N(37,7328; 13,3242)
P(X > 35) = 58,1% (maximum)
N(37,7328; 17,62882)
P(X > 35) = 56,2%
Z výše uvedeného výpočtu intervalových odhadů jsem zjistil, že s 95% spolehlivostí má daná populace věk vyšší než 35 let s pravděpodobností mezi 32,9% až 58,1%.
5. Závěr V úvodu jsem představil čemu se bude analýza dat věnovat. Dále jsem zkoumal v exploratorní analýze všechny dostupné proměnné – jak kategoriální tak numerické. V části zabývající se statistickou indukcí jsem zkoumal závislost typu počítače na pohlaví respondentů a zjistil, že zde pravděpodobně žádná vazba není. Zjistil jsem také procentuální interval, který odhaduje rozmezí, že je daná populace starší než 35 let. Nakonec bych chtěl poznamenat, že z důvodu menšího množství respondentů byla prováděná analýza s méně přesnými výsledky. Avšak pro orientační pohled na problematiku zastoupení programového vybavení je více než dostatečná. Hodnocení 10b