Vysoká škola báňská – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky
Statistika I Semestrální projekt
Filmy a jejich diváci
Autor: Petr Kašpar Login: KAS265 Datum: 19. května 2009
Obsah 1
Úvod ................................................................................................................................................ 3 1.1
2
3
4
5
6
Zadání ...................................................................................................................................... 3
Analyzovaná data ............................................................................................................................ 4 2.1
Skladba otázek ......................................................................................................................... 4
2.2
Ukázka vlastních dat ............................................................................................................... 5
Explorační analýza – obecné informace .......................................................................................... 6 3.1
Věk diváků .............................................................................................................................. 6
3.2
Pohlaví diváků ......................................................................................................................... 7
3.3
Počet obyvatel obce ................................................................................................................. 7
3.4
Zaměstnaní/studium respondentů ............................................................................................ 8
Explorační analýza – informace týkající se filmu ........................................................................... 9 4.1
Nejoblíbenější ţánr .................................................................................................................. 9
4.2
S kým nejčastěji koukají na film ........................................................................................... 10
4.3
Kde nejčastěji koukají na film ............................................................................................... 11
4.4
Je ve vašem městě kino?........................................................................................................ 11
4.5
Co preferujete u zahraničních filmů ...................................................................................... 12
4.6
Kolik filmů shlédnete za měsíc ............................................................................................. 12
Statistické indukce ......................................................................................................................... 14 5.1
Závislost velikosti města na existenci kina............................................................................ 14
5.2
Závislost mezi zaměstnáním/studiem a preferencí lokalizace ............................................... 16
5.3
Závislost mezi pohlavím a oblíbeným ţánrem ...................................................................... 17
5.4
Závislost mezi velikostí obce a "s kým nejčastěji koukají" ................................................... 18
5.5
Závislost mezi pohlavím a počtem filmu shlédnutým za měsíc ............................................ 19
Závěr.............................................................................................................................................. 22
Pouţitá literatura a software .................................................................................................................. 23
2
1 Úvod V rámci tohoto semestrálního projektu se zaměřím na téma filmů a jejich diváků. Cílem tohoto projektu je dozvědět se zajímavé informace o vztahu diváků k filmům. Sám patřím mezi filmové fanoušky a výsledky tohoto projektu by mohly být zajímavé. V první části bude provedena explorační analýza nad zadanými daty. Data budou podrobně analyzována a případně vyvozeny patřičné závěry. Ve druhé části bude pouţito několik pokročilejších metod z oblasti statistické indukce, pomocí kterých budou ověřovány určité hypotézy.
1.1 Zadání Zvolte si reálný výběrový soubor, který obsahuje alespoň
30 statistických jednotek 3 statistické proměnné
POZOR! Zpracovávaný soubor musí být výběrovým souborem (vzorkem z nějaké populace). Pokud data nejsou náhodným výběrem, nelze je pouţít. Jednalo by se o tzv. vyčerpávající šetření, u něhoţ pozbývá smyslu celá statistická indukce. Pro analýzu datového souboru pouţijte následující metody:
Explorační analýza (povinně)
a alespoň jednu z kaţdé skupiny uvedených metod statistické indukce:
Intervalové odhady Jedno-výběrové testy parametrických hypotéz Dvou-výběrové testy parametrických hypotéz ANOVA Analýza kontingenčních tabulek Regresní (jednoduchá lineární regrese) a korelační analýza
Součástí projektu je ověření všech předpokladů pouţitých metod statistické indukce.
3
2 Analyzovaná data Zdrojem dat pro tento projekt je vlastní průzkum (anketa), který byl proveden formou anonymního dotazníku. Dotazník byl vytvořen pomocí sluţby Formulář v aplikaci Google Docs. Odkaz na tento formulář byl následně umístěn na několik internetových stránek (vlastní stránky, stránky zabývající se filmovou a televizní tvorbou, různá společenská fóra a další). Tento průzkum probíhal v období od 22. 4. do 26. 4. a byl k dispozici pouze na internetu. Celkově se dotazníku zúčastnilo 520 respondentů. Po odstranění neplatných hlasů zbylo celkem 503 respondentů. Za neplatné hlasy jsem povaţoval neúplně či špatně vyplněné formuláře.
2.1 Skladba otázek Respondenti v dotazníku odpovídali na následující otázky: 1) Váš věk 0 – 15 16 – 20 21 – 30 31 – 40 více jak 40 2) Pohlaví Muţ Ţena 3) Počet obyvatel obce, ve které ţijete do 1000 1001 aţ 10 000 10 001 aţ 50 000 50 001 aţ 100 000 více neţ 100 000 4) Vaše aktuální zaměstnání / studium Student ZŠ Student SŠ Student VŠ Zaměstnanec/podnikatel Nezaměstnaný Penze 5) S kým nejčastěji koukáte na film? Sám S přítelkyní/přítelem S kamarády S rodinou 6) Je ve vašem městě kino? Ano Ne
7) Váš nejoblíbenější ţánr Akční Animovaný Dobrodruţný Dokumentární Drama Fantasy Historický Horor Hudební Komedie Krimi Mysteriózní Pohádka Romantický Sci-fi Thriller Válečný 8) Kde nejčastěji sledujete? TV/DVD Kino Počítač 9) Kolik filmů průměrně shlédnete za měsíc? Kvantitativní proměnná 10) Co preferujete u zahraničních filmů? CZ Titulky + originální znění CZ dabing Originální znění
4
2.2 Ukázka vlastních dat V následující tabulce (Tabulka 1) je ukázka získaných dat. Vzhledem k rozsáhlosti těchto dat je zde uvedeno pouze několik prvních odpovědí od respondentů. Všechny odpovědi jsou uvedeny v dokumentu filmy.xls, který je součástí tohoto projektu. Věk
Pohlaví
Počet obyvatel
Zaměstnání
Žánr
16 – 20 16 – 20 16 – 20 21 – 30 21 – 30 31 – 40 16 – 20 21 – 30 16 – 20 16 – 20 16 – 20 0 – 15 16 – 20 21 – 30 21 – 30 16 – 20 16 – 20 16 – 20 16 – 20
Muž Muž Muž Muž Muž Muž Žena Žena Muž Žena Muž Muž Muž Muž Muž Muž Muž Muž Muž
více jak 100 000 10 001 až 50 000 více jak 100 000 1001 až 10 000 více jak 100 000 více jak 100 000 více jak 100 000 více jak 100 000 do 1000 10 001 až 50 000 50 001 až 100 000 10 001 až 50 000 1001 až 10 000 více jak 100 000 10 001 až 50 000 do 1000 10 001 až 50 000 do 1000 50 001 až 100 000
Student SŠ Student SŠ Student SŠ Student VŠ Zaměstnanec Zaměstnanec Student VŠ Zaměstnanec Student SŠ Student SŠ Student SŠ Student ZŠ Student SŠ Student SŠ Zaměstnanec Student SŠ Student SŠ Student SŠ Student SŠ
Sci-fi Thriller Thriller Mysteriózní Drama Válečný Akční Drama Komedie Drama Komedie Komedie Akční Komedie Akční Mysteriózní Sci-fi Válečný Komedie
S kým nejčastěji koukáte? S kamarády S kamarády Sám Sám Sám Sám Sám S kamarády Sám S kamarády S kamarády Sám S přítelkyní S přítelkyní S přítelkyní Sám Sám S kamarády Sám
Kde nejčastěji sledujete? Kino Kino Kino Kino Kino Kino Kino Kino Kino Kino Kino Počítač Počítač Počítač Počítač Počítač Počítač Počítač Počítač
Je ve vašem městě kino? Ano Ano Ano Ano Ano Ano Ano Ano Ano Ano Ano Ano Ano Ano Ano Ne Ano Ne Ano
Tabulka 1: Ukázka použitých dat
5
Filmy za měsíc 20 15 25 10 8 10 15 8 20 5 5 5 15 5 5 5 15 10 10
Co preferujete? CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ dabing CZ dabing CZ dabing CZ dabing CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění CZ Titulky + orig. znění
3 Explorační analýza – obecné informace 3.1 Věk diváků Věkové rozloţení respondentů je k dispozici v následující tabulce četnosti (Tabulka 2) a v histogramu (Obrázek 1) nebo ve výsečovém grafu (Obrázek 2). Celkem se ankety zúčastnilo 503 respondentů. Nejvíce byla zastoupena věková skupina 21 – 30 let. Konkrétně bylo respondentů s tímto věkem 245, coţ je téměř polovina všech dotázaných respondentů (48,71%). Druhá nejpočetnější skupina uvedla věk 16 – 20. Tento věk uvedlo 217 respondentů, coţ je 43,14% z celkového počtu. Nejméně zastoupená skupina je více jak 40 let. Tento věk uvedli pouze 3 respondenti, coţ je méně neţ 1%. Toto věkové rozloţení se dá odůvodnit cílovou skupinou webových stránek, na kterých byl umístěn odkaz na samotnou anketu. Na Obrázku 3 je vidět polygon kumulativních četností, ze kterého je jasně vidět, ţe největší četnosti jsou v rozmezí 16 aţ 30 let. # 1 2 3 4 5
Věk 0 – 15 16 – 20 21 – 30 31 – 40 více jak 40
Četnost 23 217 245 15 3
Relativní četnost 0,0457 0,4314 0,4871 0,0298 0,0060
Kumulativní četnost 23 240 485 500 503
Kum. rel. četnost 0,0457 0,4771 0,9642 0,9940 1,0000
Tabulka 2: Četnosti věku respondentů
Obrázek 2: Výsečový graf – věk diváků
Obrázek 1: Histogram – věk diváků
Kumulativní četnosti
Věk respondentů 600 500 400 300 200 100 0 0 – 15
16 – 20
21 – 30
31 – 40
více jak 40
Věk
Obrázek 3: Galtonova ogiva – věk respondentů
6
3.2 Pohlaví diváků Rozloţení pohlaví respondentů je patrné z následující tabulky četnosti (Tabulka 3) nebo z histogramu (Obrázek 4) či z výsečového grafu (Obrázek 5). Muţi měli značnou převahu. Z celkového počtu 503 respondentů uvedlo 445 z nich muţské pohlaví, coţ dává 88,47% z celkového počtu. Ţen bylo celkově 58, coţ je 11,53% z celkového počtu respondentů. Tato převaha muţů nad ţenami neznamená, ţe by se ţeny nedívaly na filmy. Je to s největší pravděpodobností zapříčiněno zaměřením internetových stránek, na kterých tento průzkum probíhal (na spoustě z nich převaţují muţi v roli návštěvníků). #
Pohlaví
Četnost
Relativní četnost
1 2
Muţ Ţena
445 58
0,8847 0,1153
Tabulka 3: Četnosti pohlaví respondentů
Obrázek 4: Histogram – pohlaví diváků
Obrázek 5: Výsečový graf – pohlaví diváků
3.3 Počet obyvatel obce Rozloţení velikostí obcí respondentů je patrné z následující tabulky četnosti (Tabulka 4) nebo z histogramu (Obrázek 6) či z výsečového grafu (Obrázek 7). Jelikoţ počet obyvatel obce je ordinální kvalitativní proměnná (obce se dají seřadit podle své velikosti), vytvořil jsem také polygon kumulativních četností, který je k vidění v grafu na Obrázku 8. Velikost bydliště byla rozdělená do 5 kategorií. Nejvíce respondentů pochází z největších obcí, které mají více neţ 100 000 obyvatel. Celkem tuto moţnost zvolilo 146 respondentů, coţ je 29,03%. Málo se od sebe lišili obce s počty obyvatel 1001 aţ 10 000 a 10 001 aţ 50 000. První moţnost zvolilo 115 diváků (22,86%), druhou moţnost zvolilo 114 diváků (22,66%). Nejmenší zastoupení měla obec s počtem obyvatel 50 001 aţ 100 000 a malé obce do 1000 obyvatel. První moţnost zvolilo 56 diváků (11,33%) a druhou 71 diváků, coţ je 14,12% z celkového počtu. # 1 2 3 4 5
Počet obyvatel 1000 a méně 1001 aţ 10 000 10 001 aţ 50 000 50 001 aţ 100 000 více neţ 100 000
Četnost 71 115 114 57 146
Relativní četnost 0,1412 0,2286 0,2266 0,1133 0,2903
Kumulativní četnost 71 186 300 357 503
Kum. rel. četnost 0,1412 0,3698 0,5964 0,7097 1,0000
Tabulka 4: Četnosti velikosti obcí respondentů
7
Obrázek 6: Histogram – počet obyvatel
Obrázek 7: Výsečový graf – počet obyvatel
Na následujícím grafu (Obrázek 8) je vidět polygon kumulativních četností. Sklon (směrnice) polygonu u obce s počtem obyvatel 50 001 aţ 100 000 je niţší. Je to dáno tím, ţe četnost této varianty je také nízká.
Počet obyvatel Kumulativní četnosti
600 500 400 300 200 100 0 do 1000
1001 až 10 000
10 001 až 50 000 50 001 až 100 000 více jak 100 000 Kategorie obce
Obrázek 8: Galtonova ogiva – počet obyvatel
3.4 Zaměstnaní/studium respondentů Zaměstnání/studium respondentů je k dispozici v následující tabulce četnosti (Tabulka 5) a v histogramu (Obrázek 9) nebo ve výsečovém grafu (Obrázek 10). Většina dotázaných nějakým způsobem studovala. Největší zastoupení měli studenti VŠ, kterých bylo 203, coţ je 40,36% ze všech. Studentů SŠ bylo 160 (31,81%) a studentů ZŠ 20 (3,98%). Další početná skupina byli zaměstnanci či podnikatelé. Tuto volbu uvedlo 99 respondentů, coţ je 19,68% z celkového počtu dotázaných. Volbu nezaměstnaný uvedlo 20 dotázaných (3,98%) a vyskytl se také 1 penzista (0,2%). #
Zaměstnání
Četnost
Relativní četnost
1 2 3 4 5 6
Nezaměstnaný Penze Student SŠ Student VŠ Student ZŠ Zaměstnanec/podnikat
20 1 160 203 20 99
0,0398 0,0020 0,3181 0,4036 0,0398 0,1968
Tabulka 5: Četnosti zaměstnání respondentů
8
Obrázek 9: Histogram – zaměstnání
Obrázek 10: Výsečový graf – zaměstnání
4 Explorační analýza – informace týkající se filmu V této části jiţ bude analýza statistických proměnných týkajících se přímo oblasti filmu. Jmenovitě to bude nejoblíbenější ţánr respondentů, s kým nejčastěji sledují, kde nejčastěji sledují, zda je v jejich městě kino, kolik průměrně shlédnou filmů za měsíc a jakou formu lokalizace preferují u zahraničních filmů.
4.1 Nejoblíbenější žánr Rozloţení nejoblíbenějších ţánrů u dotázaných diváků je patrné z následující tabulky četnosti (Tabulka 6) nebo z histogramu (Obrázek 11) či z výsečového grafu (Obrázek 12). #
Žánr
Četnost
Relativní četnost
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Akční Animovaný Dobrodruţný Dokumentární Drama Fantasy Historický Horor Hudební Komedie Krimi Mysteriózní Romantický Sci-fi Thriller Válečný
62 13 6 4 63 25 11 20 1 152 6 16 8 72 31 13
0,1233 0,0258 0,0119 0,0080 0,1252 0,0497 0,0219 0,0398 0,0020 0,3022 0,0119 0,0318 0,0159 0,1431 0,0616 0,0258
Tabulka 6: Četnosti žánrů
Mezi nejoblíbenější ţánr patří komedie. Tento ţánr preferuje 152 dotázaných respondentů, coţ je 30,22%. Další oblíbené ţánry (v pořadí od nejoblíbenějších) jsou sci-fi (72 respondentů, 14,31%), drama (63 respondentů, 12,52%) a akční (62 respondentů, 12,33%).
9
Obrázek 11: Histogram – nejoblíbenější žánry
Obrázek 12: Výsečový graf – nejoblíbenější žánry
Mezi méně oblíbené ţánry patří hudební, který si jako svůj nejoblíbenější zvolil pouze jediný respondent (0,2%). Ţánr dokument zvolili také pouze 4 diváci (0,8%). Zde je nutné mít na paměti, ţe dotázaní diváci měli na výběr pouze jeden nejoblíbenější ţánr, coţ mohla být pro spoustu z nich těţká volba. Spousta filmů navíc kombinuje více ţánrů a je mezi nimi těţké udělat rozlišení.
4.2 S kým nejčastěji koukají na film V této části jsou výsledky ohledně dotazu "S kým nejčastěji sledují film". Konkrétní výsledky jsou patrné z následující tabulky četnosti (Tabulka 7) nebo z histogramu (Obrázek 13) či z výsečového grafu (Obrázek 14). #
S kým koukají
Četnost
Relativní četnost
1 2 3 4
S kamarády S přítelkyní/přítelem S rodinou Sám
48 67 33 355
0,0954 0,1332 0,0656 0,7058
Tabulka 7: Četnosti "s kým koukají"
Největší skupinou jsou samotáři, kteří na film koukají zásadně sami. Tuto moţnost označilo 355 respondentů, coţ je 70,58% z celkového počtu dotázaných. 13,32% dotázaných sleduje filmy s přítelkyní nebo přítelem (celkem 67 dotázaných). S kamarády sleduje filmy 9,54% dotázaných (48 lidí) a s rodinou 6,56% dotázaných (33 lidí).
Obrázek 13: Histogram – s kým koukají
Obrázek 14: Výsečový graf – s kým koukají
10
V souvislosti s touto otázkou a převahou samotářů při sledování filmů by jistě bylo zajímavé zjistit, zda je nějaká závislost mezi tím, s kým na film koukají, a tím, zda mají či nemají přítele/přítelkyni. Tato moţnost mě ale bohuţel při vytváření dotazníku nenapadla a tato otázka v něm chybí.
4.3 Kde nejčastěji koukají na film V této části jsou výsledky ohledně dotazu "Kde nejčastěji sledují film". Konkrétní výsledky jsou patrné z následující tabulky četnosti (Tabulka 8) nebo z histogramu (Obrázek 15) či z výsečového grafu (Obrázek 16). #
Kde koukají
1 Kino 2 Počítač 3 TV/DVD
Četnost
Relativní četnost
11 386 106
0,0219 0,7674 0,2107
Tabulka 8: Četnosti "kde koukají"
Nejvíce jednoznačně převládá sledování filmů na počítači. Tuto moţnost zvolilo 386 respondentů, coţ je 76,74% dotázaných. Sledování na počítači převáţně zahrnuje stahované filmy z internetu, které je však za určitých okolností v ČR legální. Kino uvedlo pouze 11 respondentů, coţ je 2,19% z celkového počtu dotázaných. To je celkem pochopitelné, jelikoţ pravidelná návštěva kina vyjde dráţ. V televizi či na DVD nosičích sleduje filmy 106 respondentů, coţ je 21,07% z celkového počtu dotázaných.
Obrázek 15: Histogram – kde koukají
Obrázek 16: Výsečový graf – kde koukají
4.4 Je ve vašem městě kino? Z následující tabulky četnosti (Tabulka 9) nebo z histogramu (Obrázek 17) či z výsečového grafu (Obrázek 18) je patrné, zda je ve městě respondentů kino nebo není. Tato otázka byla do dotazníku zařazena proto, ţe jsem chtěl ověřit, zda je závislost mezi kinem a tím, kde nejčastěji sledují. V kině však sleduje filmy mizivé % respondentů (viz předchozí kapitola 4.3). #
Je u vás kino?
Četnost Relativní četnost
1 2
Ano Ne
391 112
0,7773 0,2227
Tabulka 9: Četnosti "je u vás kino"
Na otázku, zda je ve městě dotázaných kino odpovědělo 391 respondentů odpovědí ano, coţ je 77,73% všech dotázaných. 112 respondentů (22,27%) nemá ve svém městě kino.
11
Obrázek 17: Histogram – je u vás kino
Obrázek 18: Výsečový graf – je u vás kino
4.5 Co preferujete u zahraničních filmů V této kapitole jsou výsledky otázky, co preferujete u zahraničních filmů. Ty mohou být buď nadabovány do českého jazyka, mohou být v originálním jazyce + doplněné o české titulky, anebo pouze v originálním znění bez českých titulek. Konkrétní výsledky jsou patrné z následující tabulky četnosti (Tabulka 10) nebo z histogramu (Obrázek 19) či z výsečového grafu (Obrázek 20). # 1 2 3
Co preferujete? CZ Titulky + originální znění CZ dabing Originální znění
Četnost 412 53 38
Relativní četnost 0,8191 0,1054 0,0755
Tabulka 10: Četnosti preferencí lokalizace
Největší procento dotázaných preferuje film v originálním znění + doplněné české titulky. Konkrétně tuto moţnost zvolilo 412 respondentů (81,91%). Český dabing před originálem preferuje 53 dotázaných (10,54%). Jakákoliv lokalizace přijde zbytečná 38 dotázaným, coţ je 7,55% z celkového počtu dotázaných.
Obrázek 19: Histogram – co preferujete
Obrázek 20: Výsečový graf – co preferujete
4.6 Kolik filmů shlédnete za měsíc U této kvantitativní proměnné nejprve provedu detekci a odstranění odlehlých pozorování, jelikoţ někteří respondenti podle zběţného pohledu na data výrazně přecenili tento počet. Dolní kvartil: Horní kvartil: Mezikvartilové rozpětí:
𝑥0,25 = 5 𝑥0,75 = 15 𝐼𝑄𝑅 = 10
12
Identifikaci jsem provedl podle metody vnitřních hradeb, kdy dolní mez vyšla -10 a horní mez 30. Vzhledem k podstatě dat je skutečná dolní mez 1. Odstraněny byly hodnoty 0, 35, 50, 50, 50, 50, 60, 70, 80 a 92. Výsledky lze vyčíst z krabicového grafu na Obrázku 21 a z histogramu na Obrázku 22. Průměrný počet filmů, které respondenti shlédnou za měsíc, je 9,9. To například vychází přibliţně po 4 filmech ve 2 týdnech a po 6 filmech v dalších 2 týdnech. Modus (tj. hodnota, kterou respondenti nejčastěji uváděli) je 10, stejně tak medián. Minimální počet filmů, který se vyskytl, je 1. Největší počet filmů zhlédnutých za měsíc je 30. Výběrová šikmost je 1,19. Tato hodnota je větší neţ 0, z toho vyplývá, ţe u této proměnné převaţují hodnoty menší neţ je průměr. To znamená, ţe převaţují respondenti, kteří uvedli menší počet filmů za měsíc neţ 10 (viz histogram na Obrázku 22).
Obrázek 21: Krabicový graf – počet filmů za měsíc
Obrázek 22: Histogram – počet filmů za měsíc
Na Obrázku 23 je pro zajímavost ještě uveden krabicový graf před smazáním odlehlých pozorování. Při porovnání s grafem po smazání odlehlých pozorování (Obrázek 21) je vidět, ţe se v podstatě jen odstranily odlehlá pozorování a změnilo se měřítko.
Obrázek 23: Krabicový graf – počet filmů s OP
13
5 Statistické indukce 5.1 Závislost velikosti města na existenci kina V této části bude ověřena hypotéza, zda je velikost města závislá na tom, zda je v daném městě přítomné kino. Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce neboli také Chi-Squared test. Potřebné hodnoty jsou uvedeny v Tabulce 11. Volba nulové a alternativní hypotézy H0: H A:
Existence kina nezávisí na velikosti města. Existence kina závisí na velikosti města.
Velikost města do 1000
1001 aţ 10 000
10 0001 aţ 50 000
50 001 aţ 100 000
100 000 a více
Celkem sloupce
Existence kina (1) (2) (3) (4) (5)
Ano 17 3,38% 55,19 -38,19 26,43 62 12,33% 89,39 -27,39 8,39 109 21,67% 88,62 20,38 4,69 57 11,33% 44,31 12,69 3,64 146 29,03% 113,49 32,51 9,31 391 77,73%
Ne 54 10,74% 15,81 38,19 92,26 53 10,54% 25,61 27,39 29,31 5 0,99% 25,38 -20,38 16,37 0 0,00% 12,69 -12,69 12,69 0 0,00% 32,51 -32,51 32,51 112 22,27%
Celkem řádky 71 14,12%
115 22,86%
114 22,66%
57 11,33%
146 29,03%
503 100,00%
Tabulka 11: Závislost velikosti města na existenci kina
Legenda k tabulce Řádky číslo 1 – Pozorované četnosti, 2 – sdruţené relativní četnosti, 3 – očekávané četnosti, 4 – rozdíly mezi pozorovanými a očekávanými četnostmi, 5 – sčítance testové statistiky 𝜒 2 .
Předpoklady pro korektní uskutečnění tohoto testu jsou splněny, tj. všechny očekávané četnosti (řádky 3) jsou větší neţ 5. Můţeme tedy rozhodnout o výsledku.
14
Test Chi-Squared
Statistika 235,592
Df 4
P-Value 0,0000
Rozhodnutí P- value < 0,01, proto zamítáme nulovou hypotézu ve prospěch alternativy, tj. velikost města závisí na existenci kina. Na následujícím mozaikovém grafu (Obrázek 24) je názorně vidět, jak pří zvětšování velikosti obce (počtu obyvatel v obci) klesají negativní odpovědi na existenci kina v daném městě. Na Obrázku 25 je vidět totéţ, jen ve formě histogramu.
Obrázek 24: Mozaikový graf – závislost velikosti města na existenci kina
Obrázek 25: Histogram – závislost velikosti města na existenci kina
15
5.2 Závislost mezi zaměstnáním/studiem a preferencí lokalizace V této části budu zkoumat závislost mezi aktuálním studiem/zaměstnáním na tom, jakou tazatel preferuje lokalizaci (ţádnou, CZ titulky, dabing). Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce (Tabulka 12) neboli také Chi-Squared test.
Zam./stu. Student ZŠ
Student SŠ
Student V3
Zaměstnaný
Nezaměstnaný
Penze
Celkem sloupce
(1) (2) (3) (4) (5)
Lok. CZ titulky 10 1,99% 16,38 -6,38 2,49 134 26,64% 131,05 2,95 0,07 164 32,60% 166,27 -2,27 0,03 87 17,30% 81,09 5,91 0,43 16 3,18% 16,38 -0,38 0,01 1 0,20% 0,82 0,18 0,04 412 81,91%
CZ dabing 8 1,59% 2,11 5,89 16,48 14 2,78% 16,86 -2,86 0,48 19 3,78% 21,39 -2,39 0,27 8 1,59% 10,43 -2,43 0,57 4 0,80% 2,11 1,89 1,70 0 0,00% 0,11 -0,11 0,11 53 10,54%
Originální znění 2 0,40% 1,51 0,49 0,16 12 2,39% 12,09 -0,09 0,00 20 3,98% 15,34 4,66 1,42 4 0,80% 7,48 -3,48 1,62 0 0,00% 1,51 -1,51 1,51 0 0,00% 0,08 -0,08 0,08 38 7,55%
Celkem řádky 20 3,98%
160 31,81%
203 40,36%
99 19,68%
20 3,98%
1 0,20%
503 100,00%
Tabulka 12: Závislost mezi zaměstnáním/studiem a preferencí lokalizace
Legenda k tabulce Řádky číslo 1 – Pozorované četnosti, 2 – sdruţené relativní četnosti, 3 – očekávané četnosti, 4 – rozdíly mezi pozorovanými a očekávanými četnostmi, 5 – sčítance testové statistiky 𝜒 2 . Volba nulové a alternativní hypotézy H0: H A:
Preference lokalizace nezávisí na typu zaměstnání/studia. Preference lokalizace závisí na typu zaměstnání/studia.
16
Test Chi-Squared
Statistika 27,446
Df 10
P-Value 0,0022
Hodnota P-value je 0,0022. Výsledky však nemůţeme vyvodit, jelikoţ nemáme splněny předpoklady Chi-Squared testu. V kontingenční tabulce (Tabulka 12) je několik očekávaných četností, které jsou menší neţ 5, coţ odporuje podmínkám pro Chi-Squared test. Tyto četnosti jsou v tabulce zvýrazněny červenou barvou. Tento jev je způsoben nízkým počtem odpovědí na konkrétní otázky. P- value < 0,01, takže teoreticky bychom mohli zamítnout nulovou hypotézu ve prospěch té alternativní, tj. že studium/zaměstnání závisí na preferenci lokalizace. Z důvodu nesplnění podmínek Chi-Squared testu však nemusí být tento výsledek relevantní. Grafické znázornění je k vidění v mozaikovém grafu na Obrázku 26.
Obrázek 26: Mozaikový graf – závislost zaměstnání na preferenci lokalizace
5.3 Závislost mezi pohlavím a oblíbeným žánrem V této části budu zkoumat závislost mezi pohlavím a nejoblíbenějším ţánrem. Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce neboli také Chi-Squared test. U tohoto testu zde nebudu uvádět celou tabulku, jelikoţ ţánrů existuje obrovské mnoţství a celá tabulka by se zde v rozumné formě nevešla. Volba nulové a alternativní hypotézy H0: H A:
Oblíbený ţánr nezávisí na pohlaví. Oblíbený ţánr závisí na pohlaví.
U tohoto testu opět nebyla splněna podmínka pro provedení Chi-Squared testu a výsledky tedy nelze brát s jistotou. Test Chi-Squared
Statistika 17,967
Df 15
P-Value 0,2644
P- value > 0,05, takže teoreticky bychom mohli zamítnout alternativní hypotézu ve prospěch té nulové, tj. že pohlaví nezávisí na oblíbeném žánru. Z důvodu nesplnění podmínek Chi-Squared testu však nemusí být tento výsledek relevantní. Grafické znázornění je vidět na mozaikovém grafu v Obrázku 27.
17
Obrázek 27: Mozaikový graf – Závislost mezi pohlavím a oblíbeným žánrem
5.4 Závislost mezi velikostí obce a "s kým nejčastěji koukají" V této části budu zkoumat závislost mezi velikostí obce a tím, s kým respondenti nejčastěji sledovali film. Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce neboli také Chi-Squared test. Hodnoty jsou vidět v Tabulce 13. Velikost do 1000
S kým (1) (2) (3) (4) (5) 1001 aţ 10 000
10 001 aţ 50 000
50 001 aţ 100 000
100 000 a více
Celkem sloupce
S kamarády 8 1,59% 6,78 1,22 0,22 12 2,39% 10,97 1,03 0,10 8 1,59% 10,88 -2,88 0,76 7 1,39% 5,44 1,56 0,45 13 2,58% 13,93 -0,93 0,06 48 9,54%
S přítelkyní přítelem 9 1,79% 9,46 -0,46 0,02 12 2,39% 15,32 -3,32 0,72 12 2,39% 15,18 -3,18 0,67 7 1,39% 7,59 -0,59 0,05 27 5,37% 19,45 7,55 2,93 67 13,32%
S rodinou 6 1,19% 4,66 1,34 0,39 10 1,99% 7,54 2,46 0,80 5 0,99% 7,48 -2,48 0,82 2 0,40% 3,74 -1,74 0,81 10 1,99% 9,58 0,42 0,02 33 6,56%
Sám 48 9,54% 50,11 -2,11 0,09 81 16,10% 81,16 -0,16 0,00 89 17,69% 80,46 8,54 0,91 41 8,15% 40,23 0,77 0,01 96 19,09% 103,04 -7,04 0,48 355 70,58%
Tabulka 13: Závislost mezi velikostí obce a "s kým nejčastěji koukají"
18
Celkem ř. 71 14,12%
115 22,86%
114 22,66%
57 11,33%
146 29,03%
503 100,00%
Legenda k tabulce Řádky číslo 1 – Pozorované četnosti, 2 – sdruţené relativní četnosti, 3 – očekávané četnosti, 4 – rozdíly mezi pozorovanými a očekávanými četnostmi, 5 – sčítance testové statistiky 𝜒 2 . Volba nulové a alternativní hypotézy H0: Osoby, se kterými respondenti nejčastěji koukají na filmy, nezávisí na velikosti obce. H A: Osoby, se kterými respondenti nejčastěji koukají na filmy, závisí na velikosti obce. Test Statistika Df P-Value Chi-Squared 10,305 12 0,5892 Hodnota P-value je 0,5892. Jedna očekávaná četnost je menší neţ 5 (označena červenou barvou). Z celkového počtu očekávaných četností je to však pouze 5% (celkem je 20 očekávaných četností), coţ můţeme povaţovat za přijatelné. P- value > 0,05, takţe můţeme zamítnout alternativní hypotézu ve prospěch té nulové, tj. ţe velikost obce nezávisí na osobě, se kterou respondenti nejčastěji sledují film. Grafické znázornění je vidět v mozaikovém grafu na Obrázku 28.
Obrázek 28: Mozaikový graf – závislost velikosti obce na osobě, se kterou koukají na film
5.5 Závislost mezi pohlavím a počtem filmu shlédnutým za měsíc Zde bych chtěl ověřit, zda existuje nějaká závislost mezi pohlavím respondenta a počtem filmů, které shlédne za měsíc. Ověření provedu parametrickým testováním. Ověření normality První krok je ověření normality, coţ je nezbytný krok před započetím parametrického testování. Na následujících dvou grafech je k vidění Q-Q graf počtů filmů (Obrázek 39) a graf empirické hustoty pravděpodobnosti (Obrázek 30). Z obou grafů je patrné, ţe data jsou pozitivně zešikmená. Na Q-Q grafu je vidět, ţe body neleţí moc v blízkosti vyznačené přímky. Graf má spíše konvexní tvar. Také graf empirické hustoty pravděpodobnosti příliš neodpovídá normálnímu rozdělení (delší pravý chvost hustoty). Podstatný odklon od normality naznačují také hodnoty šikmosti (10,8385) a špičatosti (4,89193).
19
Obrázek 29: Q-Q graf pro počty filmů
Obrázek 30: Graf empirické hustoty pravd podobnosti
Hodnoty počtu filmů za měsíc získaných od respondentů nemají normální rozdělení. Zkusím ověřit normalitu ještě Chi-Squared testem (doposud jsem ověřoval pouze vizuálním posouzením). H0: H A:
Počty shlédnutých filmů za měsíc mají normální rozdělení Počty shlédnutých filmů za měsíc nemají normální rozdělení
i
Dolní mez (
Horní mez ˃
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
-∞ -3,41438 -1,38714 -0,0729383 0,933735 1,76625 2,48609 3,12697 3,70954 4,24739 4,75003 5,22438 5,67569 6,10801 6,52461 6,92814 7,32083 7,70458 8,08102 8,45162 8,8177 9,18047 9,54107 9,90061 10,2601 10,6207 10,9835 11,3496 11,7202 12,0966
-3,41438 -1,38714 -0,0729383 0,933735 1,76625 2,48609 3,12697 3,70954 4,24739 4,75003 5,22438 5,67569 6,10801 6,52461 6,92814 7,32083 7,70458 8,08102 8,45162 8,8177 9,18047 9,54107 9,90061 10,2601 10,6207 10,9835 11,3496 11,7202 12,0966 12,4804
Počet pozorování 0 0 0 0 7 14 35 0 32 0 93 0 25 0 0 9 0 18 0 0 3 0 0 123 0 0 1 0 6 0
Očekávané četnosti 𝝅𝟎,𝒊 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72
Očekávané četnosti 𝒏 ∙ 𝝅𝟎,𝒊 10,72 10,72 10,72 10,72 1,29 1,01 55,02 10,72 42,26 10,72 631,73 10,72 19,03 10,72 10,72 0,28 10,72 4,95 10,72 10,72 5,56 10,72 10,72 1176,13 10,72 10,72 8,81 10,72 2,08 10,72
20
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
12,4804 12,8731 13,2766 13,6932 14,1255 14,5768 15,0512 15,5538 16,0917 16,6742 17,3151 18,035 18,8675 19,8742 21,1884 23,2156
12,8731 13,2766 13,6932 14,1255 14,5768 15,0512 15,5538 16,0917 16,6742 17,3151 18,035 18,8675 19,8742 21,1884 23,2156 ∞
0 2 0 1 0 52 0 2 0 1 1 0 0 42 0 26
10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72 10,72
10,72 7,09 10,72 8,81 10,72 159,02 10,72 7,09 10,72 8,81 8,81 10,72 10,72 91,31 10,72 21,79
Poţadavky Chi-Squared testu jsou splněny, veškeré očekávané četnosti jsou větší neţ 5. Hodnota P-Value je 0, coţ je menší neţ 0,01. Zamítáme tedy nulovou hypotézu ve prospěch té alternativní, tj. počty shlédnutých filmů za měsíc nemají normální rozdělení. Závislost mezi pohlavím a počtem filmu shlédnutým za měsíc Data nemají normální rozdělení a z tohoto důvodu budu porovnávat hodnoty mediánů z počtu zhlédnutých filmů za měsíc u jednotlivých pohlaví. Nulová a alternativní hypotéza je zvolena následovně: H0: H A:
𝑥0,5𝑀 = 𝑥0,5Ž (𝑥0,5𝑀 − 𝑥0,5Ž = 0) 𝑥0,5𝑀 ≠ 𝑥0,5Ž (𝑥0,5𝑀 − 𝑥0,5Ž ≠ 0)
Medián shlédnutých filmů za měsíc u muţů je 10, medián shlédnutých filmů za měsíc u ţen je také 10. P-value = 0,407669 > 0.05, čili nezamítáme nulovou hypotézu, tj. nebyla zjištěna závislost pohlaví na průměrném počtu zhlédnutých filmů za měsíc. Na Obrázku 31 je názorně vidět srovnání četností shlédnutých filmů u obou pohlaví.
Obrázek 31: Srovnání histogramů
21
6 Závěr V rámci této práce jsem se zabýval analýzou dat z vlastního dotazníkového šetření. V části s explorační analýzou vyšla najevo spousta zajímavých informací o respondentech, které reflektují s realitou. Například se ukázalo, ţe kino je nejméně časté místo pro sledování filmů (s tím souvisí také to, ţe se menší kina ruší, protoţe nedokáţou obstát v konkurenci velkých multiplexů, občas i multiplexy zruší pro nezájem některý ze svých sálů). Některé hypotézy nešlo objektivně potvrdit nebo vyvrátit díky nesplnění podmínek nutných k provedení daných testů. Nejčastěji to bylo způsobeno malým počtem hlasu pro dané odpovědi. U těchto hypotéz jsem určit teoretickou platnost nebo neplatnost, je však nutnost mít na paměti, ţe při nesplnění podmínek jsou tyto výsledky neobjektivní. V průběhu zpracovávání této statistiky vyšlo najevo také spousta dalších otázek, které by se daly zapracovat do další verze tohoto dotazníkového šetření a daly by se ověřit další zajímavé hypotézy.
22
Použitá literatura a software Literatura
BRIŠ, Radim, LITSCHMANNOVÁ, Martina. Statistika I. pro kombinované studium. [s.l.] : [s.n.], 2004. 391 s. Dostupný z WWW:
. LITSCHMANNOVÁ, Martina. Statistika I. - řešené příklady, studijní opora pro výuku Statistiky I.. [s.l.] : [s.n.], 2007. 195 s. Dostupný z WWW: .
Software
STATGRAPHICS Centurion XV, verze 15.2.11 Microsoft Excel 2007 SP2
23