VŠB - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky
Statistika 1
Semestrální práce Používání komunikačních prostředků v životě
2007
Petr Kopřiva, kop173
Obsah : 1. ÚVOD .................................................................................................................................. 1 2. ANALYZOVANÁ DATA ...................................................................................................... 2 3. ANALÝZA DAT ................................................................................................................... 4 3.1 ANALÝZA – MUŽI ...................................................................................................................... 4 3.1.1 Rozdělení oblíbenosti komunikace podle typu komunikace................................................. 4 3.1.2 Rozdělení oblíbenosti komunikace podle použitého komunikačního prostředku................. 5 3.1.3 Závislost typu komunikace na použitém komunikačním prostředku .................................... 6 3.1.4 Rozdělení oblíbenosti komunikace podle počtu používání komunikačního prostředku ....... 8 3.1.5 Rozdělení podle věku ......................................................................................................... 11 3.1.6 Závislost typu komunikace na věku ................................................................................... 12 3.2 ANALÝZA – ŽENY.................................................................................................................... 14 3.2.1 Rozdělení oblíbenosti komunikace podle typu komunikace............................................... 14 3.2.2 Rozdělení oblíbenosti komunikace podle použitého komunikačního prostředku............... 15 3.2.3 Závislost typu komunikace na použitém komunikačním prostředku .................................. 16 3.2.4 Rozdělení oblíbenosti komunikace podle počtu používání komunikačního prostředku ..... 18 3.2.5 Rozdělení podle věku ......................................................................................................... 20 3.2.6 Závislost typu komunikace na věku ................................................................................... 21 3.3 ANALÝZA – SROVNÁNÍ MUŽI A ŽENY ...................................................................................... 23 3.3.1 Porovnání oblíbenosti jednotlivých typů komunikace ....................................................... 23 3.3.2 Porovnání oblíbenosti jednotlivých komunikačních prostředků........................................ 23 3.3.3 Porovnání podle počtu používání komunikačních prostředků........................................... 24 3.3.4 Porovnání podle věku........................................................................................................ 25 4. ZÁVĚR............................................................................................................................... 26 REFERENCE........................................................................................................................ 27
Úvod
1.
Petr Kopřiva
Úvod
Cílem této práce je seznámit čtenáře s výsledky ankety na téma Používání komunikačních prostředků v životě. Jak si dnes všichni dovedeme představit, komunikační technika se vyvíjí exponenciálně směrem dopředu. Není to tak dávno, co každý z nás měl doma ještě pevnou linku, a mobilní zařízení bylo pro běžného občana nedostatkovým zbožím. Dnes je však situace úplně jiná. Dnes má každý občan minimálně jeden mobilní telefon a přístup na internet. Důkazem exponenciálního vzrůstu techniky je také možnost komunikace s jinými uživateli pomocí sítě internet. A to jak textovým způsobem pomocí mailu, ICQ, Miranda, Windows Messenger, tak je možno se také dorozumět hlasem pomocí programů SKYPE, PeteStudio, apod. Některé z těchto programů podporují také video přenos. A právě tohoto tématu se bude týkat tento výzkum. Cílem této práce bude srovnat oblíbenost nejpoužívanějších prostředků určených pro komunikaci mezi lidmi. Jaký typ komunikace preferují, či jaké k tomu používají prostředky. Navíc by tento projekt měl sloužit jako návod, jak si takový průzkum sám vyhodnotit. Jednotlivé data budou zpracovány pomocí softwarového programu StatGraphics.V každé části analýzy u mužů bude podrobně popsáno, jak se k těmto výsledkům také dobrat „ručně“. V analýze u žen se potom budu snažit popsat, jak se k těmto výsledkům dobrat pomocí programu StatGraphics. Data byla získána pomocí internetové ankety, které se zúčastnilo 34 lidí. Internetové dotazníky byly rozdány převážně studentům, kteří studují na VŠB.
-1-
Analyzovaná data
2.
Petr Kopřiva
Analyzovaná data Data získána z internetového dotazníku budou pro přehlednost transformována do tabulky. Obecné informace Ident. Pohlaví Věk Povolání 1 muž 23 student 2 muž 25 student 3 muž 27 student 4 muž 24 student 5 muž 26 student 6 muž 22 student 7 muž 22 student 8 muž 27 ext. st. 9 muž 25 student 10 muž 26 student 11 muž 26 ext. st. 12 muž 30 ext. st. 13 muž 27 ext. st. 14 muž 27 ext. st. 15 muž 23 student 16 muž 23 student 17 muž 24 student 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
žena žena žena žena žena žena žena žena žena žena žena žena žena žena žena žena žena
24 24 25 26 21 25 23 22 22 21 22 22 22 23 24 22 22
student student student student student student student student student student student student student student student student student
Prefer. typ kom. hlasová hlasová hlasová hlasová textová hlasová textová textová textová hlasová textová textová hlasová hlasová hlasová video video hlasová hlasová textová textová textová hlasová textová textová textová textová hlasová hlasová textová textová textová hlasová video
-2-
Preference Kom. prostředek skype skype skype skype ICQ skype Miranda Miranda ICQ skype ICQ Miranda skype skype mobil skype PeteStudio mobil skype mobil mobil mobil skype mobil mobil ICQ ICQ skype skype mobil mobil mobil mobil PeteStudio
Průměr (den) 3,5 4 2,5 7 9 3 9 12 3 7 7 4 7 3 4 2 1
Naposled 5 5 5 8 12 7 12 12 7 7 7 5 8 6 5 5 4
3 3 3 5 5 5 6 6 4 4 4 2 3 3 2 4 2
2 3 3 5 5 5 6 6 4 4 5 3 4 3 3 3 2
Analyzovaná data
Petr Kopřiva
U jednotlivých účastníku ankety budeme evidovat : • identifikace uživatele • pohlaví • věk • povolání • preferovaný typ komunikace (textová, hlasová, video) • prostředek, který k této komunikaci používá (mobil, ICQ, Miranda, SKYPE, apod..) • průměrné denní použití (uvedené v hodinách) • jak často byl použit komunikační prostředek naposled (uvedené v hodinách) Než začneme jednotlivá data analyzovat, položme si otázku, zda budeme analyzovat celý statistický soubor. Nebo zda-li nebude lepší si tento statický soubor rozdělit podle pohlaví na ženy a muže a analýzu provést pro jednotlivé pohlaví zvlášť. Protože se může stát, že jedna skupina obyvatelstva bude mít oblíbené jiné komunikační prostředky než ta druhá. Na závěr analýzy by se také hodilo srovnání jednotlivých používání komunikačních prostředků mezi těmito dvěma skupinami obyvatelstva.
-3-
Analýza-muži
Petr Kopřiva
3.
Analýza dat
3.1
Analýza – muži
Tato část se věnuje analýze mužů. Statistický soubor jsme rozdělili podle pohlaví na muže a ženy, abychom mohli analyzovat, které komunikační prostředky jsou oblíbené v jednotlivých kategoriích obyvatelstva. Díky široké škále získaných údajů můžeme analýzu provést hned z několika hledisek. Například, jaký typ komunikace preferují muži, jaký je jejich nejoblíbenější komunikační program, srovnání posledního použití s průměrným použitím komunikačního prostředku, apod.
3.1.1 Rozdělení oblíbenosti komunikace podle typu komunikace Jednou z položek dotazníku bylo vyjádřit s k tomu, jaký typ komunikace je v této části obyvatelstva preferovaný. Bylo na výběr ze tří možností (textová, hlasová, nebo video komunikace). V první fázi této explorační analýzy si sestrojíme tabulku absolutních a relativních četností. Kumulativní a kumulativní relativní četnost u této proměnné nemá smysl určovat, neboť se jedná o proměnnou nominální. Z tabulky už jednoduše sestrojíme histogram a výsečový graf. Tabulka rozdělení četností Typ Absolutní četnost Relativní četnost komunikace (frequency) textová 6 6/17 (35,29%) hlasová 9 9/17(52,94%) video 2 2/17(11,76%) Celkem
17
1
(100%)
Ankety se zúčastnilo 17 mužů Obrázek 1 – Histogram a výsečový graf pro Typ komunikace - muži Z histogramu (graf nalevo) je vidět, že nejoblíbenější způsob komunikace u mužů je komunikace hlasem (můžeme si všimnout přesného počtu). O něco méně oblíbená je komunikace textová a video komunikace je pro tuto část obyvatelstva spíše raritou. Je to asi dáno
-4-
Analýza-muži
Petr Kopřiva
tím, že na internetu dnes existuje již mnoho komunikačních prostředků, které umožňují hlasovou a textovou komunikaci. Největší plus u těchto prostředků je asi to, že si je člověk může stáhnout a používat úplně zadarmo. I přesto oblíbenější komunikace u mužů je hlasová před textovou. Výsečový graf (napravo) nám poskytuje jednotlivé údaje uvedené v procentech a poskytuje tak ucelenější pohled na tuto realitu.
3.1.2 Rozdělení oblíbenosti komunikace podle použitého komunikačního prostředku V minulé části jsme se podívali na to, jaký typ komunikace je mezi muži nejoblíbenější. Teď se podíváme na to, jaké komunikační prostředky používají muži s největší oblibou. Podobně jako v minulé části si sestavíme tabulku pro absolutní a relativní četnosti. Kumulativní a kumulativní relativní četnosti nás zajímat nebudou a to ze stejného důvodu jako v části předešlé. Z tabulky už jednoduše opět sestrojíme oba výše uvedené grafy. Tabulka rozdělení četností Komunikační Absolutní četnost prostředek (frequency) Skype 9 ICQ 3 Miranda 3 Mobil 1 PeteStudio 1 Celkem
17
Relativní četnost 9/17 (52,94%) 3/17 (17,65%) 3/17 (17,65%) 1/17 (5,88%) 1/17 (5,88%) 1
(100%)
Ankety se zúčastnilo 17 mužů Obrázek 2 - Histogram a výsečový graf pro Komunikační prostředek - muži Z obou grafů můžeme opět vyčíst, jaké komunikační prostředky jsou mezi muži nejoblíbenější. Z výsečového grafu si můžeme všimnout, že program Skype používá přes 50% všech dotázaných mužů, program ICQ zhruba 18%. Z histogramu si můžeme všimnout přesného počtu uživatelů, používajících tyto programy. Jenom ještě připomenu, že ankety se zúčastnilo 17 mužů.
-5-
Analýza-muži
Petr Kopřiva
3.1.3 Závislost typu komunikace na použitém komunikačním prostředku V této části analýzy mužů si ukážeme pokročilejší partii statistiky a to statistickou indukci. Nabízí se nám do očí bijící otázka, zda-li neexistuje závislost mezi typem komunikace a použitým komunikačním prostředkem. Jinými slovy ptáme se, existuje-li taková závislost, že pro určitý typ komunikace se používá určitý komunikační prostředek (například, zda-li se pro komunikaci hlasovou používá výhradně program SKYPE). Tento test si provedeme tzv. testem nezávislosti v kontingenční (kombinační) tabulce. Výhodné pro tuto analýzu bude určitě spojit typ komunikace hlasovou s video, a to i proto, že spousta programů umožňuje využívat oba tyto typy komunikace. a)
Kombinační tabulka : Komunikační prostředek Typ komunikace
Skype ICQ Miranda
Mobil
PeteStudio
(n )
∑
j
hlasová+video
9
0
0
1
1
11
textová
0
3
3
0
0
6
9
3
3
1
1
17
∑ (n ) i
Ve této tabulce máme uvedeny naměřené četnosti statistického souboru (ve žlutých řádcích). V červených řádcích máme uvedené tzv. marginální četnosti potřebné k výpočtu očekávaných četností. m
b)
Volba testové statistiky :
n
T ( X ) = G = ∑∑
(n
i =1 j =1
m..... parametr typu komunikace (m=2)
− nij nij
*
)
* 2
→ Χ 2 (m−1)(n−1) ,
n..... parametr komunikačního prostředku (n=2)
nij .... původní četnosti (ze statistického souboru) c) Stanovení hypotéz :
ij
n * ij ... vypočtené očekávané četnosti
H 0 …… typ komunikace nezávisí na komunikačním prostředku
H A …… typ komunikace závisí na komunikačním prostředku d)
Výpočet očekávaných četností : Komunikační prostředek Typ komunikace hlasová+video textová
Skype
ICQ
Miranda
Mobil
PeteStudio
11 ⋅ 9 11 ⋅ 3 11 ⋅ 0 11 ⋅ 1 11 ⋅ 1 = 5,82 = 1,94 =0 = 0,65 = 0,65 17 17 17 17 17 6⋅9 6⋅3 6⋅3 6 ⋅1 6 ⋅1 = 3,17 = 1,05 = 1,05 = 0,35 = 0,35 17 17 17 17 17
V této tabulce máme pod červenými řádky označené očekávané četnosti. Při použití tohoto testu požadujeme, aby všechny očekávané četnosti byly větší než 5. Všimněme si, že my tuto podmínku nesplňujeme, tedy může se stát, že to nakonec ovlivní výsledek celého testu.
-6-
Analýza-muži e)
Petr Kopřiva
Výpočet pozorované statistiky : m
n
X OBS = T ( X )H 0 = G = ∑∑ i =1 j =1
f)
(n
ij
− nij
nij
*
)
* 2
=
(9 − 5,82)2 + (0 − 1,94)2 5,82
1,94
+ ... +
(0 − 0,35)2 0,35
= 15,17
Výpočet hodnoty p-value
m = 2; n = 2 ⇒ stupeň volnosti pro tuto náhodnou veličinu je (m − 1) ⋅ (n − 1) = 1
p − value = 1 − F0 ( X OBS ) = 1 − F0 (15,7 ); F0 (15,7 ) >>> 0,999 ⇒ p − value <<< 0,001
Hodnota odečtena z tabulky pro rozdělení Chi-kvadrát (viz odkaz reference) se stupni volnosti 1 a pozorovanou hodnotou 15,7 g)
Závěr : Na základě hodnoty p-value (<<<0,001) můžeme říct, že zamítáme nulovou hypotézu ve prospěch alternativní, tedy můžeme říci, že typ komunikace závisí na typu komunikačního prostředku!! Ale POZOR, již na začátku testu jsme zmínili, že všechny očekávané četnosti nebyly větší než 5 což nakonec mohlo ovlivnit výsledek celého testu!!
-7-
Analýza-muži
Petr Kopřiva
3.1.4 Rozdělení oblíbenosti komunikace podle počtu používání komunikačního prostředku V této části analýzy se podíváme na to, jak často průměrně používají studenti komunikační prostředky a srovnáme je s posledním použitím. K proměnné „počet používání“ budeme přistupovat jako k proměnné numerické, tzn., že výstupem bude Histogram a Krabicový graf. Proměnnou „počet používání“ je myšleno, jak často (v hodinách) denně, popřípadě naposled, muži komunikační prostředky používají. V této fázi budeme porovnávat hodnoty průměrného Průměr Ident. Naposled použití komunikačního prostředku za den s posledním použitím (den) 1 1 4 komunikačního prostředku. Hodnoty v tabulce budeme muset setřídit pro další postup této analýzy. Jako výstup této 2 2 5 numerické proměnné budou grafy Histogram a Krabicový graf. 3 2,5 5 Po setřízení statistického souborů si rozdělíme hodnoty 4 3 5 průměrného denního použití a posledního použití těchto 5 3 5 prostředků na intervaly (nejlépe na 5-6 rovnoměrných 6 3 5 intervalů). Pro tyto intervaly potom spočítáme četnost výskytů u 7 3,5 5 obou typu hodnot (Průměrně, Naposled) a vyneseme do 8 4 6 Histogramu (Obrázek 3). Z histogramu vyplývá, že hodnoty 9 4 7 v průměru a naposled se na první pohled liší. Obvykle muži 10 4 7 používají komunikační prostředky nejčastěji 2,5 - 5,0 hodin 11 7 7 denně. Při posledním použití komunikačního prostředku se 12 7 7 však hodnoty pohybují nejčastěji ve vyšším intervalu 3,6 - 5,3 13 7 8 hodin a 6,9 – 8,6 hodin. To může být dáno tím, že tento 14 7 8 dotazník byl dán k dispozici studentům ve zkouškovém období, 15 9 12 kdy potřebovali se svými kamarády více komunikovat. 16 9 12 17 12 12
Ankety se zúčastnilo 17 mužů Obrázek 3 - Histogram pro průměrné a poslední použití komunikačního prostředku - muži
-8-
Analýza-muži
Petr Kopřiva
Pro názornější srovnání by bylo lepší tyto dva grafy spojit do jednoho, což ilustruje Obrázek 4. Tento graf je pro naše porovnání názornější. A opravdu jde vidět, že naposled byly komunikační prostředky použity o něco déle než průměrně.
Obrázek 4 – Srovnání průměrně a naposled - muži Z histogramu se však nedovíme MIN a MAX hodnoty statistického soubory, či hodnoty podezřelé z odlehlého pozorování, apod. K tomu nám slouží graf krabicový. Pro vytvoření krabicového grafu musíme vypočítat následující hodnoty pro Průměr a Naposled uvedené v tabulce pro krabicový graf. Po té na základě těchto hodnot tento graf sestrojíme (Obrázek 5). Tabulka pro krabicový graf Typ hodnoty
Zkratka
Minimum
MIN
Maximum
MAX
Dolní kvartil
Vzorec
min ( x1 − x17 )
Hodnota (Průměrně) Hodnota (Naposled)
max ( x1 − x17 )
1
4
12
12
DQ
x0, 25 = 0,25 ⋅ 17
3 (5. hodnota)
5 (5. hodnota)
Horní kvartil
HQ
x0, 75 = 0,75 ⋅ 17
7 (13.hodnota)
8 (13. hodnota)
Interkvart. Rozpětí
IQR
4
3
Median
MED
4 (9. hodnota)
7 (9. hodnota)
5,18
7,06
---
---
IQR = HQ − DQ x0,5 = 0,5 ⋅ 17 17
Průměr
Odlehlá pozorování
AV
OUT
x=
(x (x
i i
< x0, 25
∑x i =1
i
17 − 1,5 ⋅ IQR ) ∨
> x0, 75 + 1,5 ⋅ IQR )
-9-
Analýza-muži
Petr Kopřiva
Obrázek 5 - Krabicový graf pro průměrně a naposled – muži Z tohoto krabicového grafu můžeme vyčíst daleko víc hodnot než z předchozího Histogramu. Například, že minimální průměrné (denní) použití komunikačního prostředku je 1 hodina a maximální je 12 hodin. Komunikační prostředek je v průměru používán 5,18 hodin denně, což nám říká hodnota průměru (AVERAGE), zatímco při posledním použití to bylo 7,06 hodin. Interkvartilové rozpětí (IRQ) nám říká, že hodnota denního použití komunikačního prostředku se nejčastěji pohybuje mezi 3-7 hodinami. Ale všimněme si také hodnoty dolního kvartilu (DQ), která nám říká, že 25% hodnot je menší než hodnota tohoto kvartilu (tzn., že jenom 4 muži používají denně komunikační prostředek méně než 3 hodiny). Naopak hodnota horního kvartilu (HQ) nám říká, že 75% hodnot je menších než hodnota tohoto kvartilu (neboli, že jenom 4 muži používají denně komunikační prostředek více něž 7 hodin). Hodnota medianu (MED) rozděluje statistický soubor na dvě stejné části (tzn., že 8 lidí používá denně komunikační prostředek méně než 4 hodiny a 8 lidí více než 4 hodiny). Z tohoto krabicového grafu je také vidět, že zde neexistuje žádná hodnota, která by byla podezřelá z odlehlého pozorování (OUT). Z obou krabicových grafů si lze také všimnout jedné důležité skutečnosti. Posuďte sami o kolik se posunulo poslední použití komunikačního prostředku vzhledem k průměrnému (dennímu) použití. I tato skutečnost jasně ukazuje, že naposled byl komunikační prostředek u mužů použit častěji než průměrně (což také ukazují hodnoty průměrů obou typů hodnot).
- 10 -
Analýza-muži
Petr Kopřiva
3.1.5 Rozdělení podle věku Ident. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Pohlaví muž muž muž muž muž muž muž muž muž muž muž muž muž muž muž muž muž
Věk 22 22 23 23 23 24 24 25 25 26 26 26 27 27 27 27 30
V této části analýzy se podíváme na to, jaká věková část obyvatelstva mužů byla při průzkumu dotazována. Pro přehlednost si zde uvedeme tabulku setříděnou podle věku jednotlivých dotazovaných mužů. Jelikož se jedná o ten samý postup jako v minulé kapitole, budou zde komentovány pouze věci, které tu budou navíc. Velmi důležitá skutečnost je, že mezi věkem mužů není vzhledem k našemu výzkumu žádná hodnota, která by byla podezřelá z odlehlého pozorování. Což by nám v případě výskytu odlehlých pozorování mohlo narušit normalitu dat potřebnou u případných dalších testů. Podívejme se nyní na obrázek 6. Histogram nám rozdělí „x“ osu na věkové intervaly a spočítá četnost pro tyto intervaly. Tedy dovíme se, kolik oslovených mužů leželo v jakém věkovém intervalu. Z krabicového grafu naopak můžeme vyčíst, že nejmladší oslovený muž měl 22 let, nejstarší 30 let a nejčastěji byli osloveni muži mezi 23-27 lety. I z těchto údajů bychom mohli usuzovat, že tato anketa byla dána k vyplnění studentům vysoké školy.
Obrázek 6 - Histogram a Krabicový graf pro věk – muži .
- 11 -
Analýza-muži
Petr Kopřiva
3.1.6 Závislost typu komunikace na věku V této kapitole se podíváme na to, jestli neexistuje závislost mezi věkem a typem komunikace. Jinými slovy, zda-li typ komunikace závisí na věku. Tuto analýzu už ovšem provedeme plně s využitím programu StatGraphics. a) Sestavení tabulky Typ komunikace hlasová
textová
video
23 25 27 24 22 26 27 27 23
26 22 27 25 26 30
23 24
Pro všechny tři výběry v tabulce (hlasová, textová a video) musíme před samotným testem provést test normality dat a test homoskedasticity.
b) Ověření normality dat pro každý výběr
H 0 …… data pocházejí z normálního rozděleni
H A …… data nepocházejí z normálního rozdělení Ve StatGraphicsu zvolíme menu DISTRIBUTTION FITING FITTING UNCESSORED DATA. Do políčka DATA postupně zadáme všechny tři naše testované výběry. V TABULAR OPTIONS si vyjedeme volbu TEST OF NORMALITY. Normalitu provedeme testem SHAPIRO-WILK. V prvním případě (pro sloupec hlasová) vyšlo p-value=0,19 a v druhém případě (pro sloupec textová) bylo p-value=0,81. Pro oba tyto výběry nezamítáme nulovou hypotézu, tedy data pochází z normálního rozdělení. Ovšem u třetího výběru (sloupec video) nemáme dostatek dat pro provedení testu normality. Spokojíme se tedy s tím, že všechny výběry nepocházejí z normálního rozdělení. c) Ověření homoskedasticity
H 0 …… σ 1 = σ 2 = σ 3 (data jsou homoskedasticitní)
H A …… H 0 (data nejsou homoskedasticitní) Ve StatGraphicsu zvolíme menu COMPARE MULTIPLE SAMPLES MULTIPLE-SAMPLE COMPARISON. Zvolíme volbu MULTIPLE DATA COLUMNS a postupně zadáme všechny tři naše testované výběry. V TABULAR OPTIONS vybereme
- 12 -
Analýza-muži
Petr Kopřiva
volbu VARIANCE CHECK, což je právě testování homoskedasticity. Máme na výběr ze tří testů, v tomhle případě jsem si vybral COCHRAN‘S TEST. Variance Check Test Cochran's C 0,609258
P-Value 0,196495
Vidíme, že hodnota p-value je zhruba 0,20. Na základě toho nezamítáme nulovou hypotézu a můžeme říci, že data jsou homoskedasticitní. d) Testování závislosti Nutnou podmínkou pro to, abychom tento test mohli provést, je homoskedasticita. Tuto podmínku jsme splnili. Ovšem nemůžeme říci, že by všechny výběry pocházeli z normálního rozdělení. K testu závislosti tedy použijeme KRUSKAL-WALLISUV TEST (což je obdoba F-testu pro výběry s normálním rozdělením).
H 0 …… x0,51 = x0,52 = x0,53 (typ komunikace nezávisí na věku)
H A …… H 0 (typ komunikace závisí na věku) Ve StatGraphicsu postupujeme stejně, jako kdybychom ověřovali homoskedasticitu dat. V tom to případě si ale všímáme výstupu KRUSKAL-WALLIS TEST!! Kruskal-Wallis Test Sample Size Average Rank hlasova 9 8,77778 textova 6 10,5833 video 2 5,25 Test statistic = 1,75542 P-Value = 0,415735
e) Závěr Na základě hodnoty p-value (=0,42) nezamítáme nulovou hypotézu, tedy můžeme říci, že typ komunikace nezávisí na věku oslovených mužů.
- 13 -
Analýza-ženy
3.2
Petr Kopřiva
Analýza – ženy
Tato část se věnuje analýze žen. Podobně jako v minulé kapitole se budeme zajímat například o to, jaký typ komunikace preferují ženy, jaký je jejich nejoblíbenější komunikační program, srovnání posledního použití s průměrným použitím komunikačního prostředku, apod. Jelikož jsem se v analýze mužů celkem podrobně věnoval tomu, jak se k výsledkům dobrat „ručně“, budu se nyní hlavně snažit trochu vysvětlit i práci s programem StatGraphics.
3.2.1 Rozdělení oblíbenosti komunikace podle typu komunikace Podobně jako v analýze mužů provedeme tuto analýzu také u žen. Tuto analýzu si uděláme s použitím programu StatGraphics. POZOR!! U analýzy mužů jsem uvedl, že kumulativní a kumulativní relativní četnost nemá smysl u této proměnné určovat. Program StatGraphics tyto četnosti vypočítá, i když je to nesmysl. Po té, co zadáme hodnoty (typu text) do sloupce, vybereme menu DESCRIBE CATEGORIAL DATA TABULATION a do okénka DATA zadáme sloupec s našimi daty.
Ankety se zúčastnilo 17 žen Obrázek 7 - Histogram a koláčový graf pro Typ komunikace -ženy Z obou grafů si můžeme všimnout, že nejoblíbenějším a také nejčastějším typem komunikace u žen je komunikace textová. Možná je to dáno ženskou taktikou „papír snese vše“. Ale hned za ní následuje právě komunikace hlasová. Avšak stejně jako u mužů je video komunikace v této části obyvatelstva spíše raritou. V histogramu si opět můžeme všimnout přesného počtu žen používajících jaký komunikační prostředek. Graf výsečový nám tyto údaje udává v procentech a poskytuje tak ucelenější pohled na realitu.
- 14 -
Analýza-ženy
Petr Kopřiva
3.2.2 Rozdělení oblíbenosti komunikace podle použitého komunikačního prostředku Nyní v této části analýzy se podíváme na to, jaké komunikační prostředky nejčastěji ženy používají. Podobně jak v minulé části jde o proměnnou kvalitativní, tedy v programu StatGraphics zvolíme menu DESCRIBE CATEGORIAL DATA TABULATION.
Ankety se zúčastnilo 17 žen Obrázek 8 - Histogram a výsečový graf pro Komunikační prostředek - ženy Z grafů se dozvídáme, že nejpoužívanějším komunikačním prostředkem u žen je mobilní telefon (přibližně 59%). Vzpomeňme si z minulé kapitoly, že ženy dávají přednost textové komunikaci před dalšími typy (přibližně 59%). Oslovené ženy se zřejmě ještě dostatečně neseznámily s komunikačními prostředky fungujících přes internet a asi proto dávají přednost krátkým SMS zprávám prostřednictvím mobilního telefonu. Nebo, že by to bylo díky firmě Vodafone a jejímu tarifu SMS? Může to být dáno také tím, že tato anketa byla vyplněna ženami (studentkami), které nestudují technický obor a k počítači se dostanou pouze ve výjimečných případech. Jako poslední perličku si ještě ukažme výstup programu StatGraphic, kdy nesmyslně je zde zobrazena také kumulativní a kumulativní relativní četnost!! (označeny v tabulce modrou barvou) Frequency Table for Komunikacni prostředek
Class 1 2 3 4
Value ICQ PeteStudio mobil skype
Frequency 2 1 10 4
Relative Frequency 0,1176 0,0588 0,5882 0,2353
- 15 -
Cumulative Frequency 2 3 13 17
Cum. Rel. Frequency 0,1176 0,1765 0,7647 1,0000
Analýza-ženy
Petr Kopřiva
3.2.3 Závislost typu komunikace na použitém komunikačním prostředku Stejně jako u mužů, také u žen, se podíváme na to, zda neexistuje nějaká závislost mezi typem komunikace a použitým komunikačním prostředkem. Tento test provedeme opět pomocí testu nezávislosti v kontingenční (kombinační) tabulce, ale ukážeme si, jak těchto výsledků docílit pomocí statistického programu StatGraphics. Opět bude výhodné sloučit buňky textové a video komunikace do jedné. a) Kombinační tabulka : Komunikační prostředek Typ komunikace
Skype
ICQ
Mobil
PeteStudio
hlasová+video
4
0
2
1
textová
0
2
8
0
Nyní můžeme tuto tabulku přepsat do StatGraphicsu (přesně v tomhle tvaru) a zvolíme menu DESCRIBE CATEGORIAL DATA CONTINGENCY TABLES. Jako COLUMNS zadáváme nezávisle proměnné (v našem případě komunikační prostředky) a jako LABELS zadáváme Typ komunikace. b) Stanovení hypotéz :
H 0 …… typ komunikace nezávisí na komunikačním prostředku
H A …… typ komunikace závisí na komunikačním prostředku c) Vypočtené hodnoty ve StatGraphicsu : Tests of Independente Test Statistic Df P-Value Chi-Squared 10,394 3 0,0155 Warning: some expected cell counts < 5. The StatAdvisor This table shows the results of a hypothesis test run to determine whether or not to reject the idea that the row and column classifications are independent. Since the P-value is less than 0,05, we can reject the hypothesis that rows and columns are independent at the 95,0% confidence level. Therefore, the observed row for a particular case is related to its column. Vidíme, že Statgraphics vypočetl hodnotu p-value, která je menší než 0,05 a na základě této skutečnosti na 5% hladině významnosti zamítá nulovou hypotézu ve prospěch alternativní. Tedy, existuje závislost mezi typem komunikace a komunikačním prostředkem. Z tabulky navíc můžeme vyčíst, že StatGraphics provedl výpočet pozorované statistiky (10,394), jako testovou statistiku si vybral rozdělení Chi-kvadrát a nakonec můžeme odečíst hodnotu p-value. Ale opět musíme připomenout, že některé očekávané četnosti byly menší než 5, tedy výsledek testu tím mohl být ovlivněn.
- 16 -
Analýza-ženy
Petr Kopřiva
d) Mozaikový graf StatGraphics nám umožňuje rozhodnout o závislosti (respektive nezávislosti) těchto dvou zkoumaných proměnných také na základě tzv. Mozaikového grafu, který je uveden níže.
Obrázek 9 - Mozaikový graf - test nezávislosti - ženy Čím bude graf členitější, tím silnější závislost mezi proměnnými bude existovat. Z tohoto grafu vidíme, že členitost je zde způsobena nejčastěji ženami, které používají ke komunikaci mobilní telefon. Tedy i na základě tohoto mozaikového grafu můžeme říci, že existuje závislost mezi typem komunikace a komunikačním prostředkem.
- 17 -
Analýza-ženy
Petr Kopřiva
3.2.4 Rozdělení oblíbenosti komunikace podle počtu používání komunikačního prostředku Podobně jako u mužů také u žen se podíváme na rozdělení oblíbenosti komunikace podle počtu používání komunikačního prostředku. Opět se podíváme na průměrné použití komunikačního prostředku za den a srovnáme jej s posledním použitím komunikačního prostředku. Jelikož jde o proměnnou numerickou, tak ve StatGraphicsu zvolíme menu DESCRIBE NUMERIC DATA ONE-VARIABLE ANALYSIS a do okénka DATA zadáme sloupec s naší zkoumanou numerickou proměnnou.
Obrázek 10 - Histogram pro průměrné a poslední použití komunikačního prostředku – ženy Z histogramu je vidět, že poslední použití komunikačního prostředku u žen se nejčastěji pohybuje v intervalu 2,8 - 3,8 hodin, stejně jako průměrné použití. Pro názornější srovnání si vytvoříme srovnávací graf (viz. Obrázek 11). Ve StatGraphicsu vybereme menu COMPARE TWO SAMPLES INDEPENDENT SAMPLES a do okna SAMPLE1 a SAMPLE2 zadáme požadované hodnoty, které chceme srovnat. Z tohoto grafu jde vidět, že by snad mezi průměrným a posledním použitím nebyl rozdíl. Podívejme se na graf krabicový (Obrázek 12).
Obrázek 11 - Srovnání průměrně a naposled - ženy
- 18 -
Analýza-ženy
Petr Kopřiva
Obrázek 12 - Krabicový graf pro průměrně a naposled – ženy Z krabicového grafu (Obrázek 12) můžeme opět vyčíst daleko více hodnot. Můžeme si všimnout, že poslední použití komunikačního prostředku oproti dennímu použití se nezměnilo. Podle hodnoty průměru (AVERAGE) můžeme však usoudit, že naposled byl komunikační prostředek použit o něco déle než průměrně (avšak v tomhle případě je to zanedbatelný rozdíl). Maximální hodnota posledního použití komunikačního prostředku je 6 hodin, stejně jako u průměrného denního použití. Nejčastěji je komunikační prostředek u žen používán mezi 3-5 hodinami.
- 19 -
Analýza-ženy
Petr Kopřiva
3.2.5 Rozdělení podle věku V této části analýzy se podíváme na to, jaká věková část obyvatelstva žen byla při průzkumu dotazována.
Obrázek 13 – Krabicový graf a histogram pro věk – ženy Vidíme, že nejmladší oslovená žena v rámci tohoto průzkumu měla 21 let, nejstarší měla naopak 26 let. Nejčastěji byly osloveny ženy ve věku mezi 22-24 lety. I z těchto údajů bychom mohli usuzovat, že tato anketa byla dána k vyplnění studentkám vysoké školy. Z krabicového grafu rovněž vidíme, že se zde nenachází hodnota věku, která by byla podezřelá z odlehlého pozorování.
- 20 -
Analýza-ženy
Petr Kopřiva
3.2.6 Závislost typu komunikace na věku Stejně jako u analýzy mužů, také u žen, se podíváme na to, zda-li není typ komunikace, které ženy preferují, závislý na jejich věku. Tuto analýzu si provedeme opět s použitím statistického programu StatGraphics a) Sestavení tabulky Typ komunikace hlasová
textová
video
24 24 25 22 22 22
25 26 21 23 22 22 21 22 23 24
22
Pro všechny tři výběry v tabulce (hlasová, textová a video) musíme před samotným testem provést test normality dat a test homoskedasticity.
b) Ověření normality dat pro každý výběr
H 0 …… data pocházejí z normálního rozděleni
H A …… data nepocházejí z normálního rozdělení Ve StatGraphicsu zvolíme menu DISTRIBUTTION FITING FITTING UNCESSORED DATA. Do políčka DATA postupně zadáme všechny tři naše testované výběry. V TABULAR OPTIONS si vyjedeme volbu TEST OF NORMALITY. Normalitu provedeme testem SHAPIRO-WILK. V prvním případě (pro sloupec hlasová) vyšlo p-value=0,06 a v druhém případě (pro sloupec textová) bylo p-value=0,33. Pro oba tyto výběry tedy nezamítáme nulovou hypotézu, tedy data pochází z normálního rozdělení. Ovšem u třetího výběru (sloupec video) nemáme dostatek dat pro provedení testu normality. Spokojíme se tedy s tím, že všechny výběry nepocházejí z normálního rozdělení. c) Ověření homoskedasticity
H 0 …… σ 1 = σ 2 = σ 3 (data jsou homoskedasticitní)
H A …… H 0 (data nejsou homoskedasticitní) Ve StatGraphicsu zvolíme menu COMPARE MULTIPLE SAMPLES MULTIPLE-SAMPLE COMPARISON. Zvolíme volbu MULTIPLE DATA COLUMNS a postupně zadáme všechny tři naše testované výběry. V TABULAR OPTIONS vybereme
- 21 -
Analýza-ženy
Petr Kopřiva
volbu VARIANCE CHECK, což je právě testování homoskedasticity. Máme na výběr ze tří testů, v tomhle případě jsem si vybral COCHRAN‘S TEST. Variance Check Test Cochran's C 0,610294
P-Value 0,568447
Vidíme, že hodnota p-value je zhruba 0,57. Na základě toho nezamítáme nulovou hypotézu a můžeme říci, že data jsou homoskedasticitní. d) Testování závislosti Nutnou podmínkou pro to, abychom tento test mohli provést, je homoskedasticita. Tuto podmínku jsme splnili. Ovšem nemůžeme říci, že by všechny výběry pocházeli z normálního rozdělení. K testu závislosti tedy použijeme KRUSKAL-WALLISUV TEST (což je obdoba F-testu pro výběry s normálním rozdělením).
H 0 …… x0,51 = x0,52 = x0,53 (typ komunikace nezávisí na věku)
H A …… H 0 (typ komunikace závisí na věku) Ve StatGraphicsu postupujeme stejně, jako kdybychom ověřovali homoskedasticitu dat. V tom to případě si ale všímáme výstupu KRUSKAL-WALLIS TEST!! Kruskal-Wallis Test Sample Size Average Rank hlasova 6 9,91667 textova 10 8,75 video 1 6,0 Test statistic = 0,623285 P-Value = 0,732243
e) Závěr Na základě hodnoty p-value (=0,73) nezamítáme nulovou hypotézu, tedy můžeme říci, že typ komunikace nezávisí na věku oslovených žen.
- 22 -
Analýza-srovnání muži a ženy
3.3
Petr Kopřiva
Analýza – srovnání muži a ženy
V této části si srovnáme výsledky jednotlivých analýz, které byly provedeny pro muže a zvlášť pro ženy. Dozvíme se například, jestli ženy mají oblíbený stejný typ komunikace, popřípadě typ komunikačního prostředku, jako muži. Které pohlaví používá komunikační prostředky častěji, apod.
3.3.1 Porovnání oblíbenosti jednotlivých typů komunikace
Typ komunikace – muži (ankety se zúčastnilo 17 mužů) Typ komunikace – ženy (ankety se zúčastnilo 17 žen) Obrázek 14 - Porovnání oblíbenosti typu komunikace Z uvedených výsečových grafů jasně vyplývá, že muži nejraději komunikují hlasem, kdežto ženy pomocí textových zpráv. Spíše raritou u obou pohlaví je video přenos, což se může zdát jako překvapení, protože dnes k aplikacím podporujícím VoIP (hlas) přibývá také podpora videa.
3.3.2 Porovnání oblíbenosti jednotlivých komunikačních prostředků
Komun. prostř. – muži (ankety se zúčastnilo 17 mužů) Komun. prostř. – ženy (ankety se zúčastnilo 17 žen) Obrázek 15 - Porovnání oblíbenosti komunikačních prostředků
- 23 -
Analýza-srovnání muži a ženy
Petr Kopřiva
U mužů jednoznačně vítězí komunikační program Skype. Tento prográmek podporuje jak hlasový tak i video přenos. Ale jak jsme si řekli, video přenos je u obou typů pohlaví spíše raritou. Ženy se asi doposud ještě tak úplně neseznámili s moderními komunikačními prostředky a podle výsledků ankety nejčastěji používají mobilní telefon ke způsobu textové komunikace.
3.3.3 Porovnání podle počtu používání komunikačních prostředků
Počet používání – muži (ankety se zúčastnilo 17 mužů) Počet používání – ženy (ankety se zúčastnilo 17 žen) Obrázek 16 – Porovnání počtu používání komunikačního prostředku Na základě porovnání obou těchto grafů můžeme říci, že muži používají komunikační prostředky daleko častěji než jejich protějšky. Zatímco muži používají denně komunikační prostředky průměrně 5,07 hodin, u žen je to pouze 3,8 hodin. Poslední použití komunikačního prostředku u mužů bylo daleko za jejich průměrným (denním) používáním, zatímco poslední použití komunikačního prostředku u žen se téměř neliší od jejich průměrného (denního) použití. Z toho můžeme usoudit, že pro tuto oslovenou skupinu obyvatelstva muži používají komunikační prostředky daleko častěji než ženy.
- 24 -
Analýza-srovnání muži a ženy
Petr Kopřiva
3.3.4 Porovnání podle věku
Věk – muži (ankety se zúčastnilo 17 mužů) Věk – ženy (ankety se zúčastnilo 17 žen) Obrázek 17 – Porovnání počtu používání komunikačního prostředku Z porovnání těchto krabicových grafů můžeme vyvodit závěr, že při této anketě byli oslovení muži starší než jejich protějšky. Nejmladší muž má 22 let, kdežto nejmladší žena má 21 let. Nejstarší muž má 30 let, oproti nejstarší ženě, která má 26 let. Hlavní oslovená věková skupina u mužů měla 23-27 let, kdežto u žen pouhopouhých 22-24 let.
- 25 -
Závěr
4.
Petr Kopřiva
Závěr
Cílem tohoto projektu bylo seznámit čtenáře se základními praktikami při vyhodnocování dat statistického souboru. Ukázali jsem si tvorbu jednoduché explorační analýzy. Po té jsme přešli k pokročilejším partiím statistiky a to je statistická indukce, kdy jsme dokazovali závislosti mezi jednotlivými typy proměnných. Závěrem bychom mohli říct, že muži raději komunikují hlasovou komunikací, zatímco ženy používají spíše komunikaci textovou. Nejoblíbenějším komunikačním prostředkem u mužů byl jednoznačně program SKYPE, zatímco ženy dávají přednost mobilním telefonům. Ukázali jsme si, že u mužů existuje závislost mezi typem komunikace a použitým komunikačním prostředkem, u žen byla tato závislost také prokázána. Dále bychom mohli z analýzy vyčíst, že muži používají komunikační prostředky daleko častěji než jejich protějšky. Také poslední použití komunikačního prostředku bylo u mužů daleko za jejich denním (průměrným) použitím, naopak ženy použily komunikační prostředek naposled zhruba stejně dlouho jako průměrně. A co se týče věku, bylo prokázáno, že osloveni muži byli starší než ženy. U mužů, ani u žen, nezávisí typ komunikace na jejich věku. Nutno ale podotknout, že vzhledem k malému rozsahu zpracovávaných dat, jsou mnohé výsledky pouze informativní. Práce je tak hlavně ukázkou přístupu ke studované problematice.
- 26 -
Reference
Petr Kopřiva
Reference 1) normované tabulky pro spojitá rozdělení náhodných veličin http://www.am.vsb.cz/litschmannova/STA1/Skripta/tabulky.pdf 2) materiály pro cvičení ING. Martiny Litschmannové http://www.am.vsb.cz/~lit40/STA1/statistika.html?butt1=Statistika1+-+denn%ED+studium 3) softwarový program StatGraphics http://www.statvision.com/
- 27 -