Úvodem Vážení čtenáři, skripta, která právě otevíráte, jsou určena především posluchačům druhého ročníku bakalářského studia všech oborů Vysoké školy finanční a správní, tj. jako studijní materiál k předmětům „Pravděpodobnost a statistika 1“, „Pravděpodobnost a statistika 2“, „Statistika 1“, „Statistika 2“ a „Základy statistických metod“. Podobně jako v matematice, je i ve statistice propočítání značného množství příkladů nutným předpokladem ke zdárnému složení zkoušky. Předkládaný studijní materiál byl koncipován především jako sbírka příkladů, příkladům však předchází i speciální ucelený výklad tak, aby čtenář snáze pochopil přednášenou a procvičovanou látku. Sbírka obsahuje jednak řešené příklady, které mají stručný komentář postupu, a jednak cvičení s výsledky jednotlivých příkladů, na kterých má student možnost si ověřit, do jaké míry danou látku zvládl. Jelikož však zkouška nespočívá pouze ve výpočtu příkladů, ale student při ní musí prokázat i jistý stupeň teoretických znalostí, jsou zde zařazeny i příklady po stránce výpočtu trochu náročnější. S takovýmto typem příkladů se student u zkoušky přímo nesetká, avšak pomohou mu lépe pochopit probíranou teorii. Skripta jsou rozdělena do tří hlavních částí. První část, kterou napsali autoři Ing. Diana Bílková, Dr. a RNDr. Václav Vohanka, je zaměřena na popisnou statistiku. Tato část zahrnuje ukázky konstrukce tabulek a grafů a výpočtu různých měr z hodnot zkoumaného znaku, které byly zjištěny pozorováním statistického souboru. Druhou část věnovanou počtu pravděpodobnosti napsal RNDr. Petr Budinský, CSc. Tato část má za úkol naučit posluchače zacházet s pravděpodobnostmi a seznámit je se základními typy rozdělení náhodných veličin. Poslední třetí část, kterou napsali opět autoři Ing. Diana Bílková, Dr. a RNDr. Václav Vohanka, je zaměřena na statistickou indukci. Zde jsou obsaženy příklady na zobecňování výsledků, které byly získány pozorováním výběrového statistického souboru. Jako každá sbírka příkladů mají i tato skripta především pomoci posluchačům při samostatném studiu, ale jejich použití je rovněž možné a užitečné na cvičeních a pro domácí úkoly. Autoři skript budou vděčni a předem děkují za všechny užitečné rady a připomínky a v případných dalších vydáních této sbírky se budou snažit o jejich maximální respektování. Posluchačům přejeme, aby jim sbírka usnadnila cestu k získání zápočtů i k pozdějšímu úspěšnému složení zkoušky.
V Praze dne 20. září 2006
Za autorský kolektiv Diana Bílková
I. Popisná statistika 1.1 Statistika Termín statistika je odvozen od latinského slova status, které v latině znamená stav a v přeneseném slova smyslu stát. Z těchto uvedených termínů vznikla v období 16. až 17. století italská slova státistico, což znamená statistický nebo také statistik a státística, tj. statistika. Tento termín tehdy představoval souhrn znalostí o státních záležitostech a rovněž znamenal velmi ceněné muže − statistiky, kteří byli výbornými znalci důležitých státních záležitostí. V průběhu 17. a 18. století dostávala slova statistický, statistika a statistik postupně mezinárodní smysl. Od poloviny 18. století bylo slovo statistika především v Německu používáno namísto dříve preferovaného termínu státověda − die Staatswissenschaft. Toto slovo označovalo cyklus přednášek na univerzitách, které se zabývaly obyvatelstvem, územím obchodem peněžnictvím, armádou apod. jednotlivých států. Uvedená univerzitní statistika představovala především slovní popis, použití čísel bylo zpočátku zcela výjimečné. Vzniku slova statistika předcházelo úřední zjišťování počtu lidí a velikosti jejich majetku. Takováto úřední zjišťování se prováděla již před několika tisíci lety a docházelo k nim zejména v těch zemích, které potřebovaly znát zejména např. přesné počty mužů schopných bojovat nebo počty osob schopných a povinných platit daně. Takováto zjišťování se v průběhu let neustále zdokonalovala až po současnou podobu sčítání lidu, která jsou organizována a prováděna současnými statistiky ve všech kulturních zemích světa přibližně každých deset let.
1.1.1 Politická aritmetika V 17. století, kdy se v Itálii a v Německu začala utvářet univerzitní statistika, se v Anglii, která byla hospodářsky vyspělejší, zabývá John Graunt (1 620 až 1 674) a William Petty (1 623 až 1 687) zkoumáním společenských jevů na podkladě objektivních číselných záznamů. Jednalo se o zjišťování a zkoumání počtu obyvatel, složení rodin, pravidelností v rození a umírání. Objevili např., že se rodí o něco více chlapců než dívek, že umírá více mužů než žen nebo, že ve městech umírá více lidí, než se jich tam narodí apod. Dalším předmětem jejich zájmu bylo zjišťování a zkoumání pravidelností ve výši příjmů obyvatel podle jednotlivých povolání atd. Hlavním nástrojem těchto badatelů bylo číselné charakterizování jevů. Šlo přitom o obyvatelstvo jako celek, o pravidelnosti v narozeních, úmrtích atd. John Graunt a William Petty zkoumali hromadné jevy, zkoumali tedy skutečnosti, které se neustále opakují. Postupy zkoumání hromadných jevů Johna Graunta a Williama Pettyho byly nazvány politickou aritmetikou. Důvodem pro tento název byla nejenom ta skutečnost že se jedna z knih Williama Pettyho nazývala Politická aritmetika, ale především to, že jednak zkoumali jevy, které bylo možno po jejich zkoumání ovlivňovat a usměrňovat politicky státem, a jednak používali čísla k měření, vážení, počítání, neboli zkrátka aritmetiku při zkoumání a charakterizování hromadných jevů. Na základě záznamů o úmrtích a narozeních v některých městech prováděli podobné výpočty v Německu v 18. století Johann Peter Sőssmilch (1 707 až 1 767) i jiní. K ostrým střetům, ale i k vzájemnému obohacování znalostí začalo docházet posléze mezi politickými aritmetiky a univerzitními statistiky. V dalším vývoji se proto používají k charakterizování státních pozoruhodností, jako jsou území, obchod, peněžnictví, obyvatelstvo, armáda apod., stále více čísla.
1.1.2 Počet pravděpodobnosti Základy počtu pravděpodobnosti byly položeny již v 17. století v Itálii, Francii Švýcarsku a v Nizozemí. Výpočty pravděpodobností různých jevů včetně vět o sčítání a násobení pravděpodobností nacházíme již v 16. století u Geronima Cardana (1 501 až 1 576). O vývoj počtu pravděpodobnosti se zasloužil i známý Galileo Galilei (1 564 až 1 642). Jednalo se především o práci z roku 1 632, ve které je prezentován rozbor měření, který využívá teorii pravděpodobnosti. Mezi spolutvůrce počtu pravděpodobnosti patří i francouzští matematici Blaise Pascal (1 623 až 1 662), Pierre de Fermat (1 601 až 1 665) a Holanďan Christian Huygens (1 629 až 1 695). První známou ucelenou prací o počtu pravděpodobnosti je dílo Ars conjectandi, což v češtině znamená umění předvídat, od švýcarského matematika Jacoba Bernoulliho (1 654 až 1 705). O rozmach počtu pravděpodobnosti se potom zasloužil např. bratr Jacoba Bernoulliho Jan Bernoulli (1 667 až 1 748) a jeho syn Deniel Bernoulli (1 700 až 1 782), francouzský matematik Abraham de Moivre (1 667 až 1 754), anglický duchovní Thomas Bayes (1 702 až 1 761), švýcarský matematik Leonhardt Euler (1 707 až 1 783), francouzský matematik Pierre Simon de Laplace (1 749 až 1 827), francouzský matematik Simeon Denis Poisson (1 781 až 1 840), německý matematik Karl Friedrich Gauss (1 777 až 1 855) a ruští matematikové Pafnutij Lvovič Čebyšev (1 821 až 1 894), Andrej Andrejevič Markov (1 856 až 1 922) a Alexandr Michajlovič Ljapunov (1 857 až 1 918).
1.1.3 Vznik moderní statistiky Na základě postupné integrace vývoje úředních zjišťování, univerzitní statistiky, politické aritmetiky a počtu pravděpodobnosti se během 19. století začala utvářet moderní statistika. Úřední zjišťování především počtu osob, rozsahu jejich majetku, později i zapisování narození a úmrtí lidí vložilo do statistiky základní náplň po stránce obsahu. Univerzitní statistika dodala nové disciplíně její název, zasloužila se i o rozšíření obsahu statisticky zkoumaných jevů a vytvořila podmínky pro to, aby se tato disciplína rozvíjela jak prakticky, tak teoreticky, zejména na univerzitách. Základem moderní statistiky je politická aritmetika, neboť značně rozšířila obsahovou náplň statistiky o společenské hromadné jevy různého druhu, zkoumala je objektivně s využitím čísel, vyhledávala v nich pravidelnosti a studovala a nalézala jejich příčiny. Statistika a počet pravděpodobnosti se zprvu rozvíjely v podstatě izolovaně, přestože vývoj teorie pravděpodobnosti v určitém směru podmiňoval vznik nových statistických metod a statistika naopak v určitém směru podmiňovala vznik nových postupů v oblasti počtu pravděpodobnosti. Brzy došlo k vzájemnému prolínání počtu pravděpodobnosti a statistiky. Belgický matematik, astronom a statistik Lambert Adolphe Jacques Quételet (1 796 až 1 874) sehrál v 19. století významnou úlohu v procesu vzniku moderní statistiky. Statistiku pojal jako disciplínu, jejíž úkolem je jak pozorovat a popisovat hromadné sociální jevy, tak se snažit tyto jevy vysvětlit v tom smyslu, že má mezi nimi hledat příčinné vztahy. Lambert Adolphe Jacques Quételet na základě měřitelných vlastností obyvatelstva, jako jsou délka života, hmotnost, tělesná výška atd. i na základě bezprostředně neměřitelných morálních lidských vlastností, které se snažil nepřímo kvantifikovat např. počtem vražd, loupeží, sebevražd na 1 000 osob apod. objevoval některé společenské zákonitosti a usiloval o objasnění jejich příčin. Lambert Adolphe Jacques Quételet se zasloužil o vývoj teorie statistiky i o obrovské obohacení statistické praxe. V Belgii byl od roku 1 841 předsedou statistického úřadu a pod jeho vedením se zde provádělo sčítání lidu s mnoha moderními
prvky. Dále byl předsedou mnoha světových statistických kongresů. Mimo Lamberta Adolphe Jacquesa Quételeta měl v polovině 19. století velký vliv na vývoj statistiky Němec Karl Knies (1 821 až 1 898) se spisem Statistika jako samostatná věda — Die Statistik als selbständige Wissenschaft, který byl vydán v roce 1 850. Později docházelo k popisu a rozboru hromadných jevů na základě čísel i v oblastech přírodních a technických, především v biologii, antropologii, meteorologii i fyzice atd. Na rozvoji statistiky se podílela celá řada velice významných badatelů, budeme zde jmenovat dva anglické vědce, a to Francise Galtona (1 822 až 1 911), který položil základy zkoumání vztahů mezi hromadnými jevy, a Karla Pearsona (1 857 až 1 936), který zkonstruoval řadu originálních statistických měr a postupů. Ve 20. století se pod pojmem statistika chápal souhrn údajů a jejich charakteristik o hromadných jevech jakéhokoliv druhu.
1.2 Základní statistické pojmy Pojem statistika v současné době představuje: 1. Číselné a slovní údaje (data) a jejich souhrny o nejrůznějších hromadných jevech. Jedná se o statistické údaje a jejich charakteristiky, které lze nalézt v různých statistických publikacích, především ve statistických ročenkách a v přílohách statistických časopisů. 2. Činnost, která spočívá v získávání statistických dat, např. měření, vážení, počítání a zaznamenávání, o hromadných jevech, v jejich třídění, shrnování, grafickém znázorňování, v konstrukci a výpočtu jejich číselných charakteristik, ve vytváření jejich systémů a v jejich publikaci a analýze. 3. Vědu zkoumající statistické zákonitosti hromadných jevů nebo souhrn vědeckých metod sběru, zpracování a analyzování dat. Hromadné jevy jsou jevy, které se vyskytují mnohokrát a neustále se mohou opakovat. Hromadnými jevy se zabývá statistika. Existují dva typy hromadných jevů. První typ spočívá ve velkém počtu opakovaných pozorování, např. měření, vážení apod. určité vlastnosti jednoho předmětu. Cílem je zde zjištění skutečného stavu, např. velikosti, sledované vlastnosti daného předmětu, ale i posouzení přesnosti pozorovatele, např. měřícího přístroje nebo váhy. Jako příklad lze uvést řadu měření výšky jedné konkrétní osoby. Druhým typem hromadného jevu je nějaká vlastnost množiny, která se skládá z velkého počtu prvků, z nichž každý z těchto prvků má v nějaké míře danou vlastnost. Na základě zkušeností lze konstatovat, že jakmile je uvažován soubor 30 a více prvků, můžeme již hovořit o hromadných jevech. Studium hromadných jevů předpokládá definování množiny prvků, z nichž každý má řadu vlastností. Z těchto vlastností jsou některé u každého prvku uvažované množiny zcela stejné a jiné z těchto vlastností se u jednotlivých prvků dané množiny mohou vyskytovat v různé míře. Jsou-li identické vlastnosti prvků určité množiny přesně stanoveny, nazýváme uvažovanou množinu, která je tvořena z prvků s těmito přesně stanovenými shodnými vlastnostmi, statistickým souborem. Jako statistický soubor si můžeme představit množinu osob, zvířat, věcí, podniků, prodejen apod. Prvky statistického souboru nazýváme statistické jednotky. Počet statistických jednotek se nazývá rozsah statistického souboru. Základní soubor, někdy říkáme populace, je takový soubor, ve kterém poznání některých proměnlivých vlastností tohoto souboru je vlastním cílem statistického zkoumání. Může se jednat například o některé vlastnosti všech studentů Vysoké školy finanční a správní ve školním roce 2005/2006 apod. Základní soubor má obvykle velmi značný rozsah, a proto zjištění zkoumaných vlastností u všech prvků základního souboru nebývá často prakticky
vůbec uskutečnitelné nebo může být velmi pracné a nesmírně nákladné. Proto se většinou dané zjišťování provede jen u některých statistických jednotek, které jsou vybrány ze základního souboru. Statistické jednotky, které byly vybrány ze základního souboru, tvoří výběrový soubor. Výběrový soubor by měl být co nejlepším reprezentantem základního souboru, neboť na základě poznání vlastností výběrového souboru usuzujeme na vlastnosti základního souboru. Statistický znak je odraz určité vlastnosti každé statistické jednotky uvažovaného statistického souboru. Počet hodnot daného statistického znaku je roven rozsahu statistického souboru. Např. v 60 domácnostech určité obce můžeme sledovat následující statistické znaky: počet osob v domácnosti, počet dětí domácnosti, čistý měsíční příjem domácnosti, měsíční výdaje domácnosti apod. Hodnota statistického znaku, která se často nazývá rovněž pozorování, je označení stupně uvažované vlastnosti, která je vyjádřená určitým statistickým znakem, pozorovaného u každé jednotlivé statistické jednotky statistického souboru Statistický znak může v určitém statistickém souboru nabývat buď pouze jedné obměny, někdy říkáme varianty, nebo dvou obměn, neboli variant, nebo více obměn, tj. variant. Statistický znak, který nabývá v daném statistickém souboru pouze jedné obměny, se nazývá shodný, např. statistický znak „ročník studia“ nabývá v statistickém souboru studentů druhého ročníku Vysoké školy finanční a správní pouze jedné obměny, tj. 2. Statistický znak nabývající pouze jedné obměny se nazývá identifikačním statistickým znakem, neboť je zpravidla součástí definice daného statistického souboru. Statistické znaky, které nabývají v uvažovaném statistickém souboru více než jedné obměny, nazýváme proměnné. Proměnné jsou předmětem statistického zkoumání.
1.2.1 Typy proměnných Z hlediska toho, jsou-li obměny určité proměnné vyjádřeny slovně nebo číselně, rozdělujeme proměnné na slovní proměnné, které se občas rovněž nazývají alfabetické, častěji však kategoriální, a číselné proměnné, které se mezinárodně nazývají numerické. Někdy se můžeme setkat především ve starší odborné literatuře s členěním na kvalitativní znaky, které odpovídají slovním proměnným, a kvantitativní znaky, které odpovídají číselným proměnným. Jako příklad slovní proměnné lze uvést druh vlastnictví bytu 40 náhodně vybraných domácností s obměnami: nájemní, vlastní, družstevní. Jako příklad číselné proměnné můžeme uvést počet členů domácnosti nebo třeba měsíční výdaje domácnosti. Dalším příkladem slovní proměnné může být v souboru vysokoškolských studentů výsledek zkoušky ze statistiky s obměnami: výborně, velmi dobře, dobře a nevyhověl. Slovní proměnné se někdy snažíme převést na proměnné číselné, tak např. slovní proměnnou výsledek zkoušky ze statistiky můžeme převést na číselnou proměnnou známka ze statistiky s obměnami: 1, 2, 3 a 4. K převodu některých slovních proměnných na proměnné číselné nás vede povaha některých statistických postupů spočívajících ve zkoumání zákonitostí hromadných jevů pomocí čísel. U některých slovních proměnných není možný převod na numerické proměnné, např. druh vlastnictví bytu. Z hlediska toho, kolika obměn proměnné v daném statistickém souboru nabývají, členíme proměnné na alternativní proměnné, které nabývají pouze dvou obměn, a množné proměnné, které nabývají více než dvou obměn. Jako příklad alternativní proměnné ve statistickém souboru zaměstnanců určitého podniku můžeme uvést pohlaví s obměnami muž a žena. Slovní alternativní proměnná se často převádí na číselnou alternativní proměnnou tím způsobem, že se jedna z obou obměn
této proměnné označí číslem 1 a druhá z obou obměn dané proměnné se označí číslem 0. Jedničkou se obvykle označí ta z obou obměn, která nás v dané souvislosti více zajímá. Slovní alternativní proměnnou, která je uvedeným způsobem převedena na číselnou alternativní proměnnou, nazýváme nulajedničkovou veličinou. Příkladem množné proměnné ve statistickém souboru zaměstnanců určitého podniku může být věk zaměstnance v dokončených letech nebo počet dětí zaměstnance. Z hlediska toho, zda obměny číselné proměnné mohou nabýt v určitém intervalu, v němž se reálně pohybují, všech reálných čísel nebo jen izolovaných číselných hodnot, se číselné proměnné dále člení na nespojité proměnné, někdy říkáme diskrétní proměnné, které mohou nabývat v určitém intervalu pouze izolovaných číselných hodnot, nejčastěji jsou to přirozená čísla nebo nezáporná celá čísla, a spojité proměnné, někdy říkáme kontinuální proměnné, které mohou nabývat v daném intervalu jakýchkoliv reálných číselných hodnot. Členění proměnných na nespojité a spojité se týká, jak již bylo uvedeno, pouze číselných proměnných. Příkladem nespojité proměnné ve statistickém souboru zaměstnanců určitého podniku může být počet dětí zaměstnance s obměnami: 0, 1, 2, ..., příkladem spojité proměnné ve statistickém souboru zaměstnanců určitého podniku může být hrubý měsíční příjem zaměstnance. Členění číselných proměnných na nespojité a spojité je do určité míry relativní a subjektivně ovlivnitelné. Například ve statistickém souboru zaměstnanců určitého podniku bude číselná proměnná věk proměnnou spojitou (nikomu není v daném okamžiku přesně 20, 21, 22 atd. ale třeba 22,248...4 let), ale číselná proměnná věk v dokončených letech bude proměnnou nespojitou. Z hlediska typu vztahů mezi obměnami členíme proměnné na nominální proměnné, neboli jmenné proměnné, názvové proměnné, u jejichž obměn nelze objektivně jednoznačně stanovit jediné pořadí tak, aby obměna s vyšším pořadím vyjadřovala vyšší stupeň sledované vlastnosti, než jiná obměna s pořadím nižším, tj. o dvou obměnách nominální proměnné můžeme pouze říci, zda jsou stejné nebo různé, nic více, na ordinální proměnné, neboli pořadové proměnné, o jejichž obměnách lze nejen konstatovat, že jsou různé, ale rovněž je lze jednoznačně seřadit od nejnižší obměny po nejvyšší a rozdíl dvou obměn ordinální proměnné značí pouze rozdíl v pořadí těchto obměn, a na metrické proměnné, neboli měřitelné proměnné, to jsou ty proměnné, u kterých lze o dvou obměnách říci nejen, že jsou různé a že jedna z těchto obměn je větší než druhá, ale i změřit, o kolik je jedna obměna větší než druhá, metrické proměnné jsou vždy proměnné číselné. Pro metrické proměnné se často používá souběžně název kardinální proměnné, ale uvedené ztotožnění metrických a kardinálních proměnných není přesné, neboť kardinální proměnná je taková metrická proměnná, která nabývá v určitém statistickém souboru pouze kladných číselných obměn. O dvou obměnách kardinální metrické proměnné lze říci nejen, o kolik je jedna obměna větší než druhá, ale rovněž, kolikrát je jedna obměna větší než druhá. Jako příklad nominální proměnné ve statistickém souboru zaměstnanců určitého podniku můžeme uvést místo narození nebo druh absolvované střední školy. Příkladem ordinální proměnné ve statistickém souboru zaměstnanců určitého podniku může být nejvyšší dosažené vzdělání. Příkladem ordinální proměnné v souboru vysokoškolských studentů může být výsledek zkoušky ze statistiky s obměnami: výborně, velmi dobře, dobře a nevyhověl nebo známka ze statistiky s obměnami: 1, 2, 3 a 4. Příkladem metrické proměnné v souboru zaměstnanců určitého podniku může být hrubý měsíční příjem. Z hlediska oboru obměn, kterých může v daném souboru metrická proměnná nabýt, členíme metrické proměnné na kardinální metrické proměnné a nekardinální metrické proměnné, které nabývají v daném statistickém souboru kladných i nekladných číselných obměn. U dvou obměn nekardinální metrické proměnné lze pouze změřit, o kolik je jedna
obměna větší než druhá, ale nelze říci, kolikrát je jedna kladná obměna větší než jiná obměna nekladná. Příkladem nekardinální metrické proměnné může být ve statistickém souboru vysokoškolských studentů měsíční stipendium studenta, neboť tato proměnná může kromě kladných hodnot nabývat i hodnoty 0.
1.2.1 Statistická šetření Předmětem zájmu jsou některé vlastnosti určitých statistických souborů. Tyto vlastnosti jsou vyjádřeny určitými proměnnými, které nabývají u každé statistické jednotky určité hodnoty. Ke statistickému zkoumání jsou zapotřebí právě tyto hodnoty, neboli data či údaje. Tato data lze získat dvojím způsobem. Nejčastěji je odněkud převezmeme, např. z některé statistické ročenky. Sekundárními daty označujeme převzaté hodnoty proměnných, které nás zajímají. Méně často získáváme potřebná data tak, že je sami zjišťujeme. Jedná se pak o primární data. Získávání neznámých statistických dat o hodnotách proměnných jednotlivých statistických jednotek nazýváme statistické šetření, tj. statistické zjišťování. Kromě vlastního získávání statistických dat jsou náplní statistického šetření i teoretické a praktické postupy takovéhoto šetření. Účelem statistického šetření je získání statistických dat potřebných k prozkoumání nebo sledování nějakých hromadných jevů či jejich vztahů nebo jejich vývoje. Z konkrétního účelu statistického šetření plyne, které proměnné se mají zjišťovat, co bude statistickým souborem a co statistickou jednotkou. Ke splnění konkrétního účelu statistického šetření je třeba velmi přesné věcné, prostorové a časové vymezení statistického souboru a příslušných proměnných. Z hlediska časového vymezení nás zajímá rozhodný okamžik, což je časový moment určující pro zahrnutí či nezahrnutí statistických jednotek do statistického souboru a pro zachycení hodnot okamžikových statistických znaků, a rozhodná doba, což je časový interval o určité konečné délce, jehož obě hranice jsou vymezeny dvěma časovými okamžiky nebo počátečním časovým okamžikem a délkou tohoto období. Tento časový interval je potřebný v případě intervalového statistického znaku (např. měsíční kapesné studenta v Kč). Z hlediska toho, zda jsou zjišťovány hodnoty sledovaných proměnných u všech statistických jednotek základního souboru nebo pouze u některých jednotek základního souboru rozdělujeme statistická šetření na vyčerpávající a nevyčerpávající statistická šetření. Vyčerpávající statistická šetření jsou taková statistická šetření, při kterých zjišťujeme hodnoty příslušných proměnných u všech statistických jednotek základního statistického souboru. I při vyčerpávajícím statistickém šetření se však může stát, že se z nějakého důvodu nepodaří zjistit hodnoty zkoumaných proměnných u některých statistických jednotek, i když se to zamýšlelo. Jedná se tedy potom o statistické šetření, které není zcela úplné, ačkoliv bylo organizováno jako vyčerpávající statistické šetření a rovněž zůstává statistickým šetřením vyčerpávajícím. Úplné statistické šetření je takové statistické šetření, při kterém byly prošetřeny všechny statistické jednotky, které být prošetřeny měly. Pokud některé statistické jednotky, jejichž prošetření bylo zamýšleno, prošetřeny nebyly, jedná se o neúplné statistické šetření. Neúplnost vyčerpávajícího statistického zjišťování lze v některých případech tolerovat, a sice tehdy, je-li počet statistických jednotek, u kterých se nepodařilo zjistit hodnoty sledovaných proměnných, vzhledem k rozsahu základního souboru velmi malý. Výhodou úplného vyčerpávajícího statistického šetření je skutečnost, že poskytuje podklady pro zcela přesné charakterizování základního souboru, a skutečnost, že poskytuje hodnoty zkoumaných proměnných jednotlivě o každé statistické jednotce zvlášť. Nevýhodou
je to, že někdy nelze vyčerpávající statistické šetření vůbec uskutečnit, a to tehdy, je-li šetření spojeno s likvidací statistických jednotek (zkoumání pevnosti vyrobených součástek, změření pevnosti je spojeno se zničením součástky). Nevýhodou vyčerpávajícího statistického šetření je i to, že je velice drahé, velmi časově náročné a vede k relativně dlouhé době, která je potřebná ke statistickému zpracování. Nevyčerpávající statistická šetření jsou taková šetření, u kterých se předem počítá s tím, že hodnoty zkoumaných proměnných budou zjišťovány pouze u statistických jednotek výběrového statistického souboru. Nevyčerpávající statistické šetření může být opět úplné i neúplné. Hlavní výhodou nevyčerpávajícího statistického šetření je především to, že bývá jedinou alternativou v případech, kdy samotné zjišťování je spojeno se zničením statistických jednotek. Další výhodou nevyčerpávajících statistických šetření je skutečnost, že získání dat je poměrně úsporné na finanční, věcné a pracovní náklady a je možné snáze a rychleji zkontrolovat správnost a úplnost získaných výsledků. Při nevyčerpávajícím statistickém šetření lze registrační chyby, které vznikají při zaznamenávání, omezit na zanedbatelné minimum. Další výhodou nevyčerpávajícího statistického šetření je, že zpracování a vyhodnocování tohoto zjišťování je rychlejší. Hlavní nevýhodou nevyčerpávajícího statistického šetření je skutečnost, že odhady získané s využitím výběru se plně nekryjí se skutečnými vlastnostmi základního souboru, ale jsou zatíženy výběrovou chybou. Výběrová chyba vzniká proto, že hodnoty proměnných jsou zjišťovány pouze u výběrového statistického souboru a závěry jsou prováděny pro celý základní statistický soubor. Z hlediska toho, do jaké míry lze výsledky nevyčerpávajícího statistického šetření zobecnit, neboli rozšířit poznatky získané nevyčerpávajícím statistickým šetřením na základní soubor, členíme nevyčerpávající statistická šetření na nereprezentativní nevyčerpávající statistická šetření a reprezentativní nevyčerpávající statistická šetření. V případě nereprezentativních nevyčerpávajících statistických šetření výběrový statistický soubor nereprezentuje, tj. nepředstavuje, dostatečně celý zkoumaný základní statistický soubor a možnost zobecnění poznatků získaných nereprezentativními nevyčerpávajícími statistickými šetřeními je problematická. Jako příklad takovýchto statistických šetření lze uvést anketu. V případě reprezentativních nevyčerpávajících statistických šetření je výběrový statistický soubor svými vlastnostmi věrnou zmenšeninou vlastností základního statistického souboru a poznatky pořízené z prozkoumání vlastností výběrového statistického souboru je možné zobecnit na vlastnosti základního statistického souboru. Z hlediska způsobu zajištění reprezentativnosti se reprezentativní nevyčerpávající statistická šetření člení ještě na dva druhy, a to na záměrný výběr a na náhodný výběr. V případě záměrného výběru, neboli úsudkového výběru, zkušený odborník na základě známých vlastností základního statistického souboru a vlastního úsudku vybírá ze základního statistického souboru určité statistické jednotky záměrně tím způsobem, aby byl výběrový statistický soubor reprezentativní. V případě náhodného výběru, neboli pravděpodobnostního výběru, se reprezentativnost zabezpečuje prostřednictvím náhody.
1.3 Zpracování dat o slovní proměnné Obměny slovní proměnné označíme ai, i = 1, 2, ..., k, kde k je počet obměn uvažované slovní proměnné. Dále označíme absolutní četnosti ni, i = 1, 2, ..., k, což znamená, že n1 statistických jednotek statistického souboru má obměnu a1, n2 statistických jednotek statistického souboru má obměnu a2 atd. až nk statistických jednotek statistického souboru má obměnu ak. Rozsah výběrového statistického souboru označíme n. Platí
k ∑ ni i =1
n1 + n2 + L + nk =
= n.
(1.1)
Stejným způsobem označíme relativní četnosti pi, kde
pi =
ni , i = 1, 2, ..., k , n
(1.2)
tedy p1 představuje relativní četnost jednotek, které mají obměnu a1, p2 představuje relativní četnost jednotek, které mají obměnu a2, atd. až pk představuje relativní četnost jednotek, které mají obměnu ak. Platí
p1 + p2 + L + p k =
k ∑ p i i =1
=
k ni ∑ i =1 n
=
1 k n ∑ ni = = 1, n i =1 n
(1.3)
součet relativních četností je roven jedné. Jestliže vynásobíme relativní četnosti stem, získáváme relativní četnosti v procentech a jejich součet je tedy roven 100 %. Zpracování dat o slovní proměnné spočívá ve vytvoření statistické tabulky, tzv. tabulky rozdělení četností, jejíž obecné schéma uvádí tabulka 1.1. Tabulka 1.1 Obměna proměnné
Četnost absolutní
relativní
ai
ni
pi =
a1 a2
n1 n2
p1 p2
M
M
M
ak
nk
pk
Celkem
n=
k ∑ ni i =1
1=
ni n
k ∑p i i =1
V políčkách tabulky jsou číselné hodnoty nebo smluvené značky, z nichž jsou nejčastější: 0 – pro číselné hodnoty menší než polovina použité měrné jednotky, · – pro neznámou hodnotu, x – pro případy, kdy by hodnota neměla logicky smysl. Zpracování dat o slovní proměnné do formy grafu spočívá ve znázornění struktury statistického souboru podle obměn uvažované slovní proměnné grafem či diagramem. Nejčastěji se v tomto případě používají sloupkové diagramy, u kterých výšky sloupků představují počet prvků příslušejících dané obměně slovní proměnné a šířky sloupků jsou stejné, a plošné grafy, u kterých obsah určitého geometrického obrazce v rovině odpovídá 100 % a části tohoto obrazce v rovině odpovídají příslušným relativním četnostem v procentech. Z nejčastěji používaných plošných grafů můžeme uvést výsečové grafy.
Modus slovní proměnné, neboli modální obměna, je obměna s největší četností, značíme x$ . Variabilita představuje měnlivost či nepodobnost hodnot uvažované proměnné. Variabilita slovní proměnné se nazývá mutabilita. Variabilitu slovní proměnné měříme mírou mutability
n M = n −1
k ∑ ni ⋅ (n − ⋅ i =1 2
ni)
(1.4)
.
n
Výraz ve vzorci (1.4)
nomvar =
k ∑ ni ⋅ (n − i =1 2
ni )
(1.5)
n
nazýváme nominální variance. Protože platí k ∑ ni (n i =1
− ni) =
k ∑ (n ⋅ ni i =1
k
− ni2) = n ∑ ni − i =1
k ∑ ni2 i =1
= n2 −
k ∑ ni2 , i =1
můžeme míru mutability (1.4) zapsat také
M=
n2 −
k ∑ ni2 i =1
(1.6)
n (n − 1)
a nominální varianci
nomvar = 1 −
k 2 ∑p . i i =1
(1.7)
Míra mutability se pohybuje od nuly (při nulové mutabilitě) do jedné (při maximální mutabilitě). Nominální variance se pohybuje od nuly (při nulové mutabilitě) do čísla o něco málo menšího než jedna (při maximální mutabilitě).
Příklad 1.1 U 50 náhodně vybraných studentů druhého ročníku Vysoké školy finanční a správní byly zjištěny údaje týkající se nejčastěji používaného dopravního prostředku z místa bydliště do školy, které se nacházejí v tabulce 1.2. Tabulka 1.2 Číslo studenta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Dopravní prostředek tramvaj autobus vlak metro metro vlak tramvaj metro autobus autobus autobus vlak metro auto vlak vlak metro metro auto autobus autobus tramvaj autobus vlak metro
Číslo studenta 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Dopravní prostředek vlak autobus vlak autobus vlak vlak vlak auto autobus vlak vlak vlak vlak autobus vlak auto autobus vlak tramvaj tramvaj vlak metro tramvaj metro metro
Sestavte tabulku rozdělení četností nejčastěji používaného dopravního prostředku z místa bydliště do školy 50 náhodně vybraných studentů Vysoké školy finanční a správní. Získané četnosti interpretujte a znázorněte graficky.
Řešení: Nejčastěji používaný dopravní prostředek z místa bydliště do školy je slovní proměnná, která má k = 5 obměn: auto, autobus, metro, tramvaj a vlak. Z tabulky 1.2 je zřejmé, že z výběrového statistického souboru 50 studentů používají n1 = 4 studenti nejčastěji při cestě do školy auto, n2 = 12 studentů autobus, n3 = 10 studentů metro, n4 = 6 studentů tramvaj a n5 = 18 studentů vlak. Rozsah výběrového statistického souboru n = 50 studentů. Příslušné relativní četnosti vypočteme s využitím vztahu (1.2):
p1 =
n1 4 = = 0,08 , n 50
p2 =
n2 12 = = 0,24 , n 50
p3 =
n3 10 = = 0,20 , n 50
p4 =
n4 6 = = 0,12 , n 50
p5 =
n5 18 = = 0,36 . n 50
Nyní již sestavíme tabulku rozdělení četností, viz tabulka 1.3. Tabulka 1.3 Dopravní prostředek auto autobus metro tramvaj vlak Celkem
Četnosti absolutní 4 12 10 6 18 50
relativní 0,08 0,24 0,20 0,12 0,36 1,00
Je vidět, že z výběrového statistického souboru 50 studentů jezdí pouze 4 studenti nejčastěji do školy autem, což představuje 8 % studentů (po vynásobení relativních četností stem), 12 studentů, kteří představují 24 % studentů, jezdí nejčastěji do školy autobusem, 10 studentů, což je 20 % studentů, jezdí nejčastěji do školy metrem, 6 studentů, tj. 12 %, jezdí nejčastěji do školy tramvají a nejvíce studentů, tj. 18, kteří tvoří 36 % studentů, jezdí nejčastěji do školy vlakem. Grafickým zobrazením struktury slovní proměnné může být výsečový graf, viz obrázek 1.1, nebo sloupkový graf, viz obrázek 1.2.
Obrázek 1.1
Nejčastěji používaný dopravní prostředek z místa bydliště do školy 4
auto autobus
18
12
metro tramvaj vlak
6
10
Obrázek 1.2
Nejčastěji používaný dopravní prostředek z místa bydliště do školy
A b so lu tn í četn o st
20 15 10 5 0 auto
autobus
metro
tramvaj
vlak
50 48 46 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0
vlak
tramvaj
metro
autobus
auto
Příklad 1.2 Tabulka 1.4 obsahuje údaje o druhu vlastnictví bytu 40 náhodně vybraných domácností. Tabulka 1.4 Číslo domácnosti 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Druh vlastnictví bytu nájemní nájemní vlastní družstevní vlastní nájemní družstevní družstevní vlastní vlastní družstevní družstevní nájemní nájemní vlastní vlastní nájemní družstevní vlastní družstevní
Číslo domácnosti 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Druh vlastnictví bytu vlastní družstevní družstevní družstevní nájemní nájemní družstevní vlastní vlastní vlastní nájemní družstevní nájemní nájemní vlastní družstevní vlastní nájemní družstevní družstevní
Vypočtěte míru mutability a nominální varianci. Řešení: Rozsah výběrového statistického souboru n = 40 domácností. Druh vlastnictví bytu je slovní proměnná, která má k = 3 obměny: družstevní, nájemní a vlastní, přičemž n1 = 15 domácností bydlí v družstevním bytě, n2 = 12 domácností bydlí v nájemním bytě a n3 = 13 domácností bydlí ve vlastním bytě. K výpočtu použijeme tabulku 1.5. Tabulka 1.5 Druh vlastnictví bytu
ni
ni2
n − ni
ni (n − ni)
družstevní nájemní vlastní Celkem
15 12 13 40
225 144 169 538
25 28 27
375 336 351 1 062
Z tabulky 1.5 získáváme
3 ∑ ni2 i =1
= 538
3 ∑ n i (n i =1
a
− ni ) = 1 062 .
S využitím vztahu (1.6) vypočteme míru mutability
402 − 538 M= = 0,680 769 23 =& 0,681 40 ⋅ (40 − 1) a dosazením do vztahu (1.5) vypočteme nominální varianci
nomvar =
1 062 402
= 0,663 75 =& 0,664.
Ukazuje se, že druh vlastnictví bytu je dosti proměnlivý, 68,1 % dvojic domácností mělo různý druh vlastnictví bytu. Cvičení 1. U 50 náhodně vybraných studentů druhého ročníku Vysoké školy finanční a správní byly zjištěny údaje týkající se hlavního studovaného jazyka, které se nacházejí v tabulce 1.6. Tabulka 1.6 Číslo Hlavní studovaný studenta jazyk 1 angličtina 2 angličtina 3 angličtina 4 angličtina 5 angličtina 6 angličtina 7 angličtina 8 němčina 9 angličtina 10 angličtina 11 angličtina 12 francouzština 13 angličtina 14 angličtina 15 angličtina 16 angličtina 17 angličtina 18 angličtina 19 němčina 20 němčina 21 němčina 22 angličtina 23 angličtina
Číslo Hlavní studovaný studenta jazyk 26 angličtina 27 angličtina 28 němčina 29 němčina 30 ruština 31 angličtina 32 němčina 33 ruština 34 ruština 35 angličtina 36 němčina 37 němčina 38 angličtina 39 ruština 40 angličtina 41 angličtina 42 angličtina 43 francouzština 44 francouzština 45 angličtina 46 francouzština 47 francouzština 48 francouzština
24 25
angličtina angličtina
49 50
angličtina němčina
Sestavte tabulku rozdělení četností hlavního studovaného jazyka 50 náhodně vybraných studentů Vysoké školy finanční a správní. Určete modus. 2. Tabulka 1.7 obsahuje údaje o rodinném stavu 34 náhodně vybraných pedagogů Vysoké školy finanční a správní. Tabulka 1.7 Číslo pedagoga 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Rodinný stav ženatý vdovec ženatý vdaná vdaná svobodný ženatý ženatý svobodný vdaná vdaná ženatý ženatý svobodný rozvedený ženatý svobodná
Číslo pedagoga 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Rodinný stav rozvedená ženatý svobodná vdova vdaná vdaná ženatý vdaná vdaná ženatý ženatý ženatý svobodná svobodný rozvedený ženatý vdaná
Vypočtěte míru mutability a nominální varianci. 3. V uvedené tabulce je uvedeno hodnocení studentů prvního ročníku z matematiky. Sestavte tabulku četností a vytvořte grafické vyjádření, určete modus, dále vypočtěte míru mutability a nominální varianci. Číslo studenta 1 2 3 4 5 6 7 8 9 10
Známka 1 2 1 3 3 3 2 3 1 3
Číslo studenta 18 19 20 21 22 23 24 25 26 27
Známka 1 1 2 3 2 2 2 3 1 1
11 12 13 14 15 16 17
2 1 1 3 2 1 3
28 29 30 31 32
2 1 2 1 2
Výsledky 1. Hlavní studovaný jazyk angličtina francouzština němčina ruština Celkem
Četnosti absolutní 30 6 10 4 50
relativní 0,60 0,12 0,20 0,08 1,00
x$ = angličtina Graf absolutních četností 35 30 25 20 15 10 5 0 angličtina
f rancouzština
2. Rodinný stav
ni
ženatý/vdaná svobodný/svobodná rozvedený/rozvedená vdovec/vdova Celkem
22 7 3 2 34
M = 0,544
němčina
ruština
nomvar = 0,528 3. Četnosti Hodnocení 1 2 3 Celkem
absolutní 12 11 9 32
relativní 0,375 0,344 0,281 1,00
M = 0,6835 nomvar = 0,6621 x$ = 1
Graf relativních četností
0,28125 0,375
0,34375
1.4 Elementární zpracování dat o číselné proměnné 1.4.1 Prosté rozdělení četností V případě číselné proměnné nabývající pouze několika málo obměn se tabulka rozdělení četností tvoří stejným způsobem, jako tabulka rozdělení četností u slovní proměnné pouze s tím rozdílem, že se obměny proměnné uspořádají podle velikosti. Proto u číselné proměnné mají smysl i kumulativní absolutní četnosti a kumulativní relativní četnosti, které vznikají postupným přičítáním absolutních četností (v případě kumulativních absolutních četností) a postupným přičítáním relativních četností (v případě kumulativních relativních četností). Výsledkem zpracování dat o číselné proměnné, která nabývá pouze několika málo obměn, je tabulka rozdělení absolutních a relativních četností a kumulativních absolutních a relativních četností, jejíž obecné schéma udává tabulka 1.8. Tabulka 1.8 Obměna proměnné
Četnost absolutní
xi
ni
pi =
x1 x2 x3
n1 n2 n3
p1 p2 p3
n1 n1 + n2 n1 + n2 + n3
p1 p1 + p2 p1 + p2 + p3
M
M
M
M
M
xk Celkem
relativní
nk
n=
k ∑ ni i =1
ni n
pk
1=
Kumulativní četnost absolutní relativní
k ∑p i i =1
n=
k ∑ ni i =1
x
1=
k ∑p i i =1
x
V tabulce 1.8 jsou obměny proměnné xi, i = 1, 2, ..., k, uspořádané vzestupně od nejmenší po největší tak, že x1 < x2 < x3 < ... < xk . Kumulativní absolutní četnosti informují o tom, kolik statistických jednotek souboru má hodnotu sledované proměnné menší nebo rovnou příslušné obměně proměnné, a kumulativní relativní četnosti po vynásobení stem podávají informaci o tom, jaké procento statistických jednotek souboru má hodnotu proměnné menší nebo rovnou dané obměně proměnné. Jedná-li se o elementární zpracování hodnot číselné proměnné s několika málo obměnami, můžeme znázornit rozdělení četností proměnné v pravoúhlé soustavě souřadnic tak, že obměny proměnné x1, x2, x3, ..., xk znázorníme na vodorovné ose a jejich absolutní či relativní četnosti na svislé ose, získáme tak body (x1, n1), (x2, n2), (x3, n3), ..., (xk, nk) v případě absolutních četností a body (x1, p1), (x2, p2), (x3, p3), ..., (xk, pk) v případě relativních četností. Jestliže tyto body spojíme, získáváme polygon četností, neboli mnohoúhelník četností. Srovnáváme-li rozdělení četností dané proměnné v různých statistických souborech s různými rozsahy, je vhodnější na svislou osu nanášet relativní četnosti. Nanášíme-li na svislou osu kumulativní absolutní četnosti nebo lépe kumulativní relativní četnosti, získáváme neklesající lomenou čáru kumulativních četností, které říkáme (název není zcela přesný) součtová křivka či S–křivka nebo ogiva, což znamená lomený oblouk.
Pro grafické znázorňování struktury souboru podle obměn číselné proměnné můžeme rovněž sestavovat sloupkové grafy i různé plošné grafy, např. výsečové grafy. Obměna s největší absolutní i relativní četností vzhledem k nejbližšímu okolí se nazývá modus či modální obměna číselné proměnné a v této obměně proměnné je vrchol rozdělení četností. Podle počtu vrcholů rozlišujeme jednovrcholová rozdělení četností, neboli unimodální rozdělení četností, která mají jeden vrchol a vyskytují se nejčastěji, a vícevrcholová rozdělení četností, která mají více vrcholů. V případě jednovrcholových rozdělení četností rozlišujeme dva druhy těchto rozdělení, a sice v prvním případě modus leží mezi minimální a maximální obměnou proměnné, viz obrázek 1.3, a v druhém případě se jedná o J–rozdělení, kdy modus je buď minimální nebo maximální obměna proměnné, viz obrázek 1.4. Obrázek 1.3
Obrázek 1.4
Modus číselné proměnné je každá obměna, jejíž absolutní, a tedy i relativní četnost je větší než příslušné četnosti obou sousedních obměn. Vícevrcholové rozdělení četností má více než jeden modus. Takováto rozdělení četností proto nazýváme rovněž vícemodální rozdělení četností nebo multimodální rozdělení četností. Jedná se zejména o rozdělení mající dva vrcholy, a tedy dvě modální obměny, kdy jedná o bimodální rozdělení četností, viz obrázek 1.5 Speciálním případem bimodálního rozdělení četností je U–rozdělení, kdy modus je minimální a maximální obměna proměnné, a tedy toto rozdělení má vrcholy na obou krajích, viz obrázek 1.6. V případě U–rozdělení se obměna s nejmenší absolutní i relativní četností nazývá antimodus. Obrázek 1.5
Obrázek 1.6
Podle souměrnosti rozlišujeme souměrná rozdělení četností, neboli symetrická rozdělení četností, viz obrázek 1.7, a nesouměrná rozdělení četností, neboli asymetrická rozdělení četností. Jsou-li četnosti malých obměn v rozdělení četností vcelku větší než
četnosti velkých obměn, a tedy vrchol spíše nalevo, jedná se o nesouměrné rozdělení sešikmené kladně, neboli o rozdělení četností s kladnou šikmostí, viz obrázek 1.8. Jsou-li četnosti malých obměn vcelku menší než četnosti velkých obměn, a tedy vrchol je spíše napravo, jedná se o nesouměrné rozdělení sešikmené záporně, neboli o rozdělení četností se zápornou šikmostí, viz obrázek 1.9. Obrázek 1.7
Obrázek 1.8
Obrázek 1.9
Rozdělení četností se také mohou lišit špičatostí. To rozdělení četností, které má výraznější vrchol, je špičatější než jiné rozdělení četností, které je plošší, viz obrázek 1.10. Obrázek 1.10
Příklad 1.3 U 40 domácností sledujeme počet členů domácnosti, viz tabulka 1.9. Tabulka 1.9 Číslo domácnosti 1 2 3 4 5 6 7 8 9 10
Počet členů 5 4 4 6 3 2 1 2 2 1
Číslo domácnosti 11 12 13 14 15 16 17 18 19 20
Počet členů 4 4 5 6 2 2 4 4 4 5
Číslo domácnosti 21 22 23 24 25 26 27 28 29 30
Počet členů 3 3 4 2 1 4 4 5 6 5
Číslo domácnosti 31 32 33 34 35 36 37 38 39 40
Počet členů 3 5 3 3 4 3 1 4 6 2
Sestavte tabulku rozdělení četností a kumulativních četností, v obou případech absolutních i relativních, počtu členů domácnosti. Výsledky okomentujte a znázorněte graficky. Řešení: Jedná se o číselnou proměnnou nabývající k = 6 obměn, které uspořádáme vzestupně od nejmenší po největší: x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5 a x6 = 6. Rozsah výběrového statistického souboru n = 40. Ze statistického souboru čtyřiceti domácností je n1 = 4 domácností s x1 = 1 členem domácnosti, n2 = 7 domácností s x2 = 2 členy domácnosti, n3 = 7 domácností s x3 = 3 členy domácnosti, n4 = 12 domácností s x4 = 4 členy, n5 = 6 domácností s x5 = 5 členy a n6 = 4 domácnosti s x6 = 6 členy domácnosti. Příslušné relativní četnosti vypočteme s využitím vztahu (1.2)
p1 =
n1 4 = = 0,100 , n 40
p2 =
7 n2 = = 0,175 , n 40
p3 =
n3 7 = = 0,175 , n 40
p4 =
n4 12 = = 0,300 , n 40
p5 =
n5 6 = = 0,150 , n 40
p6 =
n6 4 = = 0,100 , n 40
dále vypočteme kumulativní absolutní četnosti a kumulativní relativní četnosti
n1 = 4 ,
n1 + n2 = 4 + 7 = 11, n1 + n2 + n3 = 4 + 7 + 7 = 18 , n1 + n2 + n3 + n4 = 4 + 7 + 7 + 12 = 30 , n1 + n2 + n3 + n4 + n5 = 4 + 7 + 7 + 12 + 6 = 36 , n1 + n2 + n3 + n4 + n5 + n6 = 4 + 7 + 7 + 12 + 6 + 4 = 40 = n , p1 = 0100 , , p1 + p2 = 0100 , + 0175 , = 0,275, p1 + p2 + p3 = 0100 , + 0175 , + 0175 , = 0,450 , p1 + p2 + p3 + p4 = 0,100 + 0,175 + 0,175 + 0,300 = 0,750 , p1 + p2 + p3 + p4 + p5 = 0,100 + 0,175 + 0,175 + 0,300 + 0,150 = 0,900 ,
p1 + p2 + p3 + p4 + p5 + p6 = 0100 , + 0175 , + 0175 , + 0,300 + 0150 , + 0100 , = 1000 , , Sestavíme tabulku rozdělení četností, viz tabulka 1.10. Tabulka 1.10 Počet členů 1 2 3 4 5 6 Celkem
Četnost absolutní 4 7 7 12 6 4 40
Komentář: absolutní četnosti
relativní 0,100 0,175 0,175 0,300 0,150 0,100 1,000
Kumulativní četnost absolutní relativní 4 0,100 11 0,275 18 0,450 30 0,750 36 0,900 40 1,000 X X
Je zřejmé, že ve statistickém souboru jsou čtyři domácnosti jednočlenné, sedm dvoučlenných a sedm tříčlenných. Nejvíce domácností, tj. dvanáct domácností, je čtyřčlenných. Dále máme šest pětičlenných domácností a čtyři šestičlenné. Komentář: relativní četnosti (po vynásobení relativních četností stem) Jednočlenné domácnosti tvoří 10 % domácností. Dvoučlenné domácnosti tvoří 17,5 % stejně jako domácnosti tříčlenné. Nejvíce domácností je čtyřčlenných, které tvoří 30 % celkového statistického souboru domácností. Pětičlenných domácností je z celkového počtu domácností 15 % a šestičlenných 10 %. Komentář: kumulativní četnosti Ve čtyřech domácnostech je jeden člen, což je 10 % všech domácností. Jedenáct domácností je tvořeno jedním nebo dvěma členy, tj. 27,5 % všech domácností. Osmnáct domácností je nejvýše tříčlenných, což představuje 45 % všech domácností, třicet domácností se skládá ze čtyř a méně členů, tj. 75 % domácností, ve 36 domácnostech je nejvýše pět členů, což je 90 % všech domácností. Ani v jedné z uvažovaných domácností není více než šest členů, neboli ve všech domácnostech je nejvýše šest členů. Nejpoužívanějším grafickým znázorněním rozdělení četností je polygon četností, viz obrázek 1.11. Obrázek 1.11 12
ni
11 10 9 8 7 6 5 4 3 2 1 xi
0 1
2
3
4
5
6
1.4.2 Intervalové rozdělení četností V případě číselné proměnné nabývající mnoha obměn nenese tabulka rozdělení četností v podstatě žádné požadované zpřehlednění statistických dat. Z tohoto důvodu, jestliže číselná proměnná nabývá mnoha obměn, sestavujeme tabulku intervalového rozdělení četností, kdy vědomě zanedbáváme drobné odlišnosti mezi sobě blízkými obměnami a rozdělíme variační rozpětí souboru, které představuje rozdíl mezi maximální a minimální zjištěnou hodnotou proměnné a které nejprve zvětšíme na nějaké hladké číslo (např. vypočtené variační rozpětí 8 428 zvětšíme na 8 500), na určitý počet intervalů a poté zjistíme počty hodnot
patřících do jednotlivých intervalů. Začátek prvního intervalu volíme tak, aby všechny intervaly pokrývaly všechny hodnoty sledované proměnné. Obměny patřící do jednoho intervalu zastupujeme středem tohoto intervalu. K určení počtu intervalů existuje více návrhů, nejpoužívanější z nich je Sturgesovo pravidlo, podle kterého by měl být počet intervalů k přibližně
k ≈ 1 + 3,3 log n ,
(1.8)
kde „log“ představuje dekadický logaritmus a n je rozsah souboru. Při zařazování jednotlivých hodnot proměnné do intervalů se může stát, že máme zařadit hodnotu, která leží na hranici dvou intervalů. Tuto hodnotu zařazujeme zpravidla do vyššího intervalu, neboť se tím dopouštíme menší relativní chyby. Kumulativní absolutní četnosti nás potom informují, kolik statistických jednotek má hodnotu menší než horní hranice příslušného intervalu a kumulativní relativní četnosti po vynásobení stem podávají informaci o tom, kolik procent statistických jednotek má hodnotu menší než horní mez daného intervalu. Vhodným grafickým znázorněním intervalového rozdělení četností je histogram četností, což je sloupkový graf skládající se z obdélníků, jejichž základny mají délku zvolených intervalů a jejichž obsahy ploch jsou úměrné četnostem jednotlivých intervalů (intervaly obecně nemusí být stejně dlouhé). Zpracováváme-li data o číselné proměnné nabývající velmi mnoha obměn výše uvedeným způsobem, ztrácíme tím informaci o výši napozorovaných hodnot této proměnné. Takováto ztráta informace se zmírní, jestliže statistická data zpracujeme do grafu stem–and– leaf (stonek a listy), neboli do číslicového dendrogramu. Tento graf vzniká ve dvou krocích pro data neuspořádaná vzestupně podle velikosti nebo přímo pro data, která jsou uspořádaná vzestupně od nejmenší hodnoty po největší. Stonek (vlevo od kolmice) je tvořen desítkami, stovkami či tisíci, stonek je nejvyšší řád a listy (vpravo od kolmice) jsou tvořeny jednotkami, desítkami či stovkami, tj. listy jsou druhý nejvyšší řád (je-li např. stonek tvořen tisíci, listy budou tvořeny stovkami apod.). Číslice na ostatních řádech zanedbáváme, ale nezaokrouhlujeme. V prvním sloupci jsou kumulace absolutních četností od nejmenší hodnoty k mediánu (prostřední hodnota) a od největší hodnoty k mediánu. Číslo v závorce identifikuje skupinu, v níž se nachází medián a je to absolutní četnost této skupiny. Příklad 1.4 V tabulce 1.11 jsou k dispozici údaje o výši měsíčního příjmu 36 domácností. Tabulka 1.11 Číslo domácnosti 1 2 3 4 5 6 7 8
Výše měsíčního příjmu 23500 28059 26875 31000 31750 28500 32250 24023
Číslo domácnosti 13 14 15 16 17 18 19 20
Výše měsíčního příjmu 26750 22625 26750 28375 28125 22750 27750 26625
Číslo domácnosti 25 26 27 28 29 30 31 32
Výše měsíčního příjmu 24876 26875 33002 23039 24875 30125 24750 29750
9 10 11 12
22500 30250 28375 36125
21 22 23 24
30752 25250 26500 22875
33 34 35 36
28625 32250 28875 26375
Sestavte tabulku intervalového rozdělení četností ze statistického souboru 36 domácností podle výše měsíčního příjmu domácnosti. Výsledky interpretujte a znázorněte graficky. Řešení: Je zřejmé, že se v tomto případě jedná o číselnou proměnnou nabývající mnoha obměn. S využitím Sturgesova pravidla (1.8) určíme počet intervalů, rozsah souboru n = 36
, 798 253 =& 6 , k ≈ 1 + 3,3 log 36 = 6135 přičemž nejmenší hodnota číselné proměnné výše měsíčního příjmu domácnosti je v uvažovaném statistickém souboru 22 500 Kč a největší hodnota 36 125 Kč. Vypočteme variační rozpětí představující rozdíl mezi největší a nejmenší hodnotou sledované proměnné
R = x max − xmin = 36 125 − 22 500 = 13 625. Vypočtené variační rozpětí nejprve zvětšíme na nějaké hladké číslo tak, abychom takto upravené variační rozpětí mohli snadno rozdělit na k = 6 stejně dlouhých intervalů, např. variační rozpětí zvětšíme tímto způsobem z 13 625 Kč na 15 000 Kč. Protože 15 000/6 = 2500 Kč, hodnoty číselné proměnné výše měsíčního příjmu domácnosti rozdělíme do následujících intervalů, které představují jednu z mnoha možností: 1. 22 001 − 24 500, 2. 24 501 − 27 000, 3. 27 001 − 29 500, 4. 29 501 − 32 000, 5. 32 001 − 34 500, 6. 34 501 − 37 000. Jednotlivé intervaly jsme vytvořili tak, aby se krajní meze sousedních intervalů nepřekrývaly, odpadne nám tím problém týkající se toho, do jakého intervalu zařadit hodnotu, která leží právě v bodě krajních mezí dvou sousedních intervalů. Čárkovací metodou určíme absolutní četnosti v jednotlivých intervalech ni, i = 1, 2, ..., 6, viz tabulka 1.12. Tabulka 1.12 Interval 22 001 − 24 500 24 501 − 27 000 27 001 − 29 500 29 501 − 32 000 32 001 − 34 500 34 501 − 37 000
Absolutní četnosti ni 7 11 8 6 3 1
V prvním intervalu se nachází n1 = 7 hodnot sledované proměnné, v druhém intervalu n2 = 11 hodnot, ve třetím intervalu n3 = 8 hodnot, ve čtvrtém intervalu n4 = 6 hodnot, v pátém intervalu n5 = 3 hodnoty a v šestém intervalu n6 = 1 hodnota sledované proměnné a skutečně opět platí vztah (1.1), kde ni, i = 1, 2, ..., k, představují absolutní četnosti tentokrát v jednotlivých intervalech
n1 + n2 + n3 + n4 + n5 + n6 =
6 ∑ ni i =1
= 7 + 11 + 8 + 6 + 3 + 1 = 36 = n .
S využitím vztahu (1.2) vypočteme příslušné relativní četnosti analogicky, jako tomu bylo v příkladu 1.3
p1 =
n1 7 = = 0,194 , n 36
p2 =
n2 11 = = 0,306 , n 36
p3 =
n3 8 = = 0,222 , n 36
p4 =
6 n4 = = 0,167 , n 36
p5 =
3 n5 = = 0,083, n 36
p6 =
1 n6 = = 0,028 , n 36
Je zřejmé, že opět platí vztah (1.3)
p1 + p2 + p3 + p4 + p5 + p6 =
6 ∑ p i i =1
= 0,194 + 0,306 + 0,222 + 0,167 + 0,083 +
+ 0,028 = 1. Obdobně, jako v příkladu 1.3, vypočteme i kumulativní četnosti
n1 = 7 , n1 + n2 = 7 + 11 = 18 , n1 + n2 + n3 = 7 + 11 + 8 = 26 , n1 + n2 + n3 + n4 = 7 + 11 + 8 + 6 = 32 , n1 + n2 + n3 + n4 + n5 = 7 + 11 + 8 + 6 + 3 = 35 ,
n1 + n2 + n3 + n4 + n5 + n6 = 7 + 11 + 8 + 6 + 3 + 1 = 36 = n , p1 = 0,194 , p1 + p2 = 0,194 + 0,306 = 0,500 , p1 + p2 + p3 = 0,194 + 0,306 + 0,222 = 0,722 , p1 + p2 + p3 + p4 = 0,194 + 0,306 + 0,222 + 0,167 = 0,889 , p1 + p2 + p3 + p4 + p5 = 0,194 + 0,306 + 0,222 + 0,167 + 0,083 = 0,972 ,
p1 + p2 + p3 + p4 + p5 + p6 = 0194 , + 0,306 + 0,222 + 0167 , + 0,083 + 0,028 = 1000 , , Nyní již můžeme sestavit tabulku intervalového rozdělení četností, viz tabulka 1.13 Tabulka 1.13 Číslo intervalu 1 2 3 4 5 6
Interval pro výši měsíčního příjmu 22 001 − 24 500 24 501 − 27 000 27 001 − 29 500 29 501 − 32 000 32 001 − 34 500 34 501 − 37 000 Celkem
Četnost absolutní relativní 7 0,194 11 0,306 8 0,222 6 0,167 3 0,083 1 0,028 36
1,000
Kumulativní četnost absolutní relativní 7 0,194 18 0,500 26 0,722 32 0,889 35 0,972 36 1,000 X
X
Komentář: absolutní a relativní četnosti (po vynásobení relativních četností stem) Je vidět, že měsíční příjem v intervalu od 22 001 Kč do 24 500 Kč má sedm domácností, tj. 19,4 % ze všech 36 domácností. V intervalu od 24 501 Kč do 27 000 Kč má měsíční příjem jedenáct domácností, což je 30,6 % všech domácností daného statistického souboru. Osm domácností, tj. 22,2 % domácností, má měsíční příjem v intervalu od 27 001 Kč do 29 500 Kč, šest domácností, tj. 16,7 % domácností, má měsíční příjem v intervalu od 29 501 Kč do 32 000 Kč, tři domácnosti, tj. 8,3 %, mají měsíční příjem v intervalu od 32 001 Kč do 34 500 Kč a jedna domácnost, která tvoří pouze 2,8 % domácností zkoumaného statistického souboru, má mají měsíční příjem v intervalu od 34 501 Kč do 37 000 Kč. Komentář: kumulativní četnosti Sedm domácností, které představují 19,4 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 24 500 Kč, osmnáct domácností, které představují 50,0 % domácností, má měsíční příjem v intervalu od 22 001 Kč do 27 000 Kč, 26 domácností, tj. 72,2 %, má měsíční příjem domácnosti v intervalu od 22 001 Kč do 29 500 Kč, 32 domácností, což je 88,9 % všech domácností, má měsíční příjem v intervalu od 22 001 Kč do 32 000 Kč, 35 domácností, tj. 97,2 % domácností daného
statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 34 500 Kč a všech 36 domácností zkoumaného statistického souboru, tj. všech 100 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 37 000 Kč, neboli žádná z uvažovaných domácností nemá měsíční příjem větší než 37 000 Kč. Grafickým znázorněním intervalového rozdělení četností je histogram četností, viz obrázek 1.12. Obrázek 1.12 12 10 8 6 4 2 0 22000
24500
27000
29500
32000
34500
37 000
Cvičení U 60 studentů druhého ročníku Vysoké školy finanční a správní byly před zápisem do třetího ročníku zjištěny následující údaje tykající se počtu ztracených kreditů v druhém Tabulka 1.14 1. ročníku. Tyto údaje se nacházejí v tabulce 1.14.
Počet Číslo ztracenýc student h kreditů a 1 6 2 3 3 2 4 1 5 7 6 8 7 6 8 5 9 2 10 0
Počet Číslo ztracených studenta kreditů 16 17 18 19 20 21 22 23 24 25
7 8 4 4 2 1 2 4 0 0
Počet Číslo ztracených studenta kreditů 31 32 33 34 35 36 37 38 39 40
2 4 0 1 0 3 2 6 4 4
Počet Číslo ztracených studenta kreditů 46 47 48 49 50 51 52 53 54 55
6 1 5 7 0 4 0 0 0 6
11 12 13 14 15
7 1 6 3 5
26 27 28 29 30
6 2 0 1 0
41 42 43 44 45
4 3 1 0 3
56 57 58 59 60
5 2 4 2 6
Sestavte tabulku rozdělení četností a kumulativních četností, v obou případech absolutních a relativních, počtu ztracených kreditů studenta. 2. U 36 domácností jsou k dispozici údaje týkající se průměrného věku vydělávajících členů domácnosti (po zaokrouhlení na celá čísla), viz tabulka 1.15. Tabulka 1.15 Číslo domácnosti 1 2 3 4 5 6 7 8 9 10 11 12
Průměrný věk vydělávajících členů 28 24 42 38 40 32 58 35 42 28 40 40
Průměrný věk Číslo vydělávajících domácnosti členů 13 25 14 45 15 58 16 40 17 30 18 27 19 43 20 47 21 36 22 41 23 49 24 50
Číslo domácnosti 25 26 27 28 29 30 31 32 33 34 35 36
Průměrný věk vydělávajících členů 40 65 34 36 45 52 30 40 44 36 38 25
Sestavte tabulku intervalového rozdělení četností pro průměrný věk vydělávajících členů domácnosti. Výsledky 1. Počet ztracených kreditů 0 1 2 3 4 5 6 7 8 Celkem
Četnost absolutní 12 7 9 5 9 4 8 4 2 60
relativní 0,200 0,117 0,150 0,083 0,150 0,067 0,133 0,067 0,033 1,000
Kumulativní četnost absolutní relativní 12 0,200 19 0,317 28 0,467 33 0,550 42 0,700 46 0,767 54 0,900 58 0,967 60 1,000 X X
2.
k =& 6
R = 41 dělitelné k = 6 a větší než R = 41 je číslo 42, variační rozpětí zvětšíme na 42, abychom hodnoty mohli rozdělit do k = 6 stejně dlouhých intervalů, např. zvolíme intervaly Číslo intervalu 1 2 3 4 5 6
Interval pro průměrný věk vydělávajících členů 24 − 30 31 − 37 38 − 44 45 − 51 52 − 58 59 − 65 Celkem
Četnost absolutní relativní 8 0,222 6 0,167 13 0,361 5 0,139 3 0,083 1 0,028 36
1,000
Kumulativní četnost absolutní Relativní 8 0,222 14 0,389 27 0,750 32 0,889 35 0,972 36 1,000 X
X
1.5 Kvantily Kvantil je hodnota, která je určená tak, že hodnoty menší než daný kvantil nebo stejné jako tento kvantil tvoří procentuálně předem stanovenou část rozsahu statistického souboru (např. 5 %, 10 %, 25 % apod.) a hodnoty, které jsou větší než příslušný kvantil nebo stejné jako tento kvantil, tvoří zbývající procentuální část rozsahu statistického souboru (např. 95 %, 90 %, 75 % apod.). Označme p relativní četnost malých hodnot číselné proměnné x. 100p% kvantil proměnné x rozděluje statistický soubor hodnot této proměnné na dvě části tak, že odděluje 100p % malých hodnot proměnné x od 100(1 – p) % velkých hodnot proměnné x. 100p% kvantil proměnné x označujeme
x~100 p . Pro výpočet kvantilů je nutné nejprve všechny napozorované hodnoty sledované číselné proměnné uspořádat vzestupně podle velikosti od nejmenší hodnoty po největší. Označme m100p pořadové číslo hodnoty ve vzestupně uspořádané posloupnosti odpovídající hledanému kvantilu (tj. m100p je přirozené číslo) a n je počet statistických jednotek v proměnné, tj. rozsah statistického souboru. Při výpočtu kvantilu je třeba určit pořadové číslo prvku m100p, které určíme pomocí vztahu
n ⋅ p ≤ m100 p ≤ n ⋅ p + 1.
(1.9)
Vyjdou-li n · p a n · p + 1 jako desetinná čísla, je hledaným kvantilem m100p-tá hodnota v uspořádané posloupnosti hodnot sledované proměnné. Vyjdou-li n · p a n · p + 1 jako celá čísla (přirozená čísla), potom příslušný kvantil vypočteme jako aritmetický průměr dvou hodnot, které mají pořadí n · p a n · p + 1 (určené nerovností (1.9)) ve vzestupně uspořádané posloupnosti hodnot dané proměnné. Z tabulky intervalového rozdělení četností je možné odhadnout přibližnou hodnotu 100p% kvantilu lineární interpolací podle vztahu
~ x 100 p − xd 100 p − i d = , xh − xd ih − id
(1.10)
kde: xh je dolní hranice intervalu, ve kterém leží hledaný kvantil, xd je horní hranice intervalu, ve kterém leží hledaný kvantil, ih je kumulativní relativní četnost v procentech (po vynásobení stem) odpovídající xh, id je kumulativní relativní četnost v procentech (po vynásobení stem) odpovídající xd, přičemž s využitím sloupce kumulativních relativních četností nejprve zjistíme, ve kterém intervalu se hledaný kvantil nachází. Nejdůležitější z kvantilů je 50% kvantil, který se nazývá medián a značíme jej
~ x 50 nebo v případě mediánu i x~ . Medián, neboli prostřední hodnota, rozděluje statistický soubor na dvě stejně četné poloviny. Při lichém rozsahu statistického souboru n je medián vždy hodnota prostřední statistické jednotky souboru (po vzestupném uspořádání hodnot proměnné), při sudém rozsahu statistického souboru n leží medián mezi hodnotami dvou prostředních statistických jednotek (opět po vzestupném uspořádání hodnot sledované proměnné) a vypočte se jako aritmetický průměr těchto dvou hodnot. Druhů kvantilů je velmi mnoho, kvantily menší než medián nazýváme dolní kvantily a kvantily větší než medián nazýváme horní kvantily. Tercily jsou dva kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na tři stejně četné části. Dolní tercil
~ x 33, 3 je 33, 3 % kvantil a odděluje jednu třetinu statistických jednotek s menší nebo stejnou hodnotou sledované proměnné jako dolní tercil od dvou třetin statistických jednotek s větší nebo stejnou hodnotou sledované proměnné jako dolní tercil. Horní tercil
~ x 66,6 je 66, 6 % kvantil a odděluje dvě třetiny statistických jednotek, které mají hodnotu sledované proměnné menší nebo stejnou jako horní tercil, od jedné třetiny statistických jednotek, které mají hodnotu sledované proměnné větší nebo stejnou jako horní tercil. Kvartily jsou tři kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na čtyři stejně četné části. Dolní kvartil
~ x 25 je 25% kvantil a odděluje jednu čtvrtinu statistických jednotek s menší nebo stejnou hodnotou sledované proměnné jako dolní kvartil od tří čtvrtin statistických jednotek s větší nebo stejnou hodnotou sledované proměnné jako dolní kvartil. Prostřední kvartil je medián. Horní kvartil
~ x 75 je 75% kvantil a odděluje tři čtvrtiny statistických jednotek, které mají hodnotu sledované proměnné menší nebo stejnou jako horní kvartil, od jedné čtvrtiny statistických jednotek, které mají hodnotu sledované proměnné větší nebo stejnou jako horní kvartil. Kvintily jsou čtyři kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na pět stejně četných částí. Jedná se o dolní kvintily
~ x 20 a
~ x 40
~ x 60 a
~ x 80 .
a horní kvintily
Stejným způsobem rozdělují neklesající řadu hodnot sledované proměnné sextily na šest stejně četných částí, septily na sedm stejně četných částí, oktávily na osm stejně četných částí, nonily na devět stejně četných částí, decily na deset stejně četných částí atd. až percentily, rovněž se používá název centily nebo procentily, na sto stejně četných částí. Podobně např. půlpercentily rozdělují neklesající řadu hodnot sledované proměnné na 200 stejně četných částí atd. Oblíbeným znázorněním extrémních hodnot a kvartilů je krabičkový graf, viz obrázek 1.13, kde extrémní hodnoty: xmin je minimální hodnota sledované proměnné a xmax je maximální hodnota sledované proměnné v souboru.
Obrázek 1.13
Příklad 1.5 Tabulka 1.16 obsahuje údaje v dokončených letech 32 domácností.
o věku
člena
domácnosti
s největším
příjmem
Tabulka 1.16 Číslo domácnosti 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Věk člena s nejvyšším příjmem 33 41 48 28 61 38 44 31 46 27 68 45 37 41 39 43
Číslo domácnosti 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Věk člena s nejvyšším příjmem 48 35 55 61 33 38 43 45 47 31 39 50 41 43 25 28
Určete nejmenší a největší hodnotu, variační rozpětí a kvartily věku člena domácnosti s nejvyšším příjmem. Výsledky interpretujte a znázorněte graficky. Řešení: Všechny výše uvedené hodnoty věku člena domácnosti s nejvyšším příjmem nejprve uspořádáme podle velikosti od nejmenší hodnoty po největší, viz tabulka 1.17. Tabulka 1.17 Pořadí Hodnota
1. 25
2. 27
3. 28
4. 28
5. 31
6. 31
7. 33
8. 33
Pořadí Hodnota
9. 35
10. 37
11. 38
12. 38
13. 39
14. 39
15. 41
16. 41
Pořadí Hodnota
17. 41
18. 43
19. 43
20. 43
21. 44
22. 45
23. 45
24. 46
Pořadí Hodnota
25. 47
26. 48
27. 48
28. 50
29. 55
30. 61
31. 61
32. 68
Z tabulky 1.17 je zřejmé, že nejmenší hodnota věku člena domácnosti s nejvyšším příjmem je
xmin = 25 let a největší hodnota
xmax = 68 let, a tedy variační rozpětí
R = xmax – xmin = 68 – 25 = 43 let. Počet sledovaných statistických jednotek (rozsah výběru) n = 32 domácností. Kvartily jsou tři, a to dolní kvartil, tj. 25% kvantil, medián (prostřední kvartil), tj. 50% kvantil, a horní kvartil, tj. 75% kvantil. Nejprve vypočteme dolní kvartil, v takovém případě je 100 p = 25, a tedy p = 0,25. Dosadíme do vztahu (1.9)
32 ⋅ 0,25 ≤ m25 ≤ 32 ⋅ 0,25 + 1, Odtud získáváme
8 ≤ m25 ≤ 9 , z tabulky 1.17 je vidět, že 8. nejmenší hodnota je 33 let a 9. nejmenší hodnota je 35 let. Protože n · p = 8 a n · p + 1 = 9 jsou celá čísla (přirozená) a nikoliv čísla desetinná, vypočteme dolní kvartil jako aritmetický průměr 8. nejmenší hodnoty a 9. nejmenší hodnoty, tj. jako aritmetický průměr z hodnot 33 a 35
33 + 35 ~ = 34 let . x 25 = 2 V případě mediánu je 100 p = 50, a tedy p = 0,5. Opět dosadíme do vztahu (1.9)
32 ⋅ 0,5 ≤ m50 ≤ 32 ⋅ 0,5 + 1 a získáváme
16 ≤ m50 ≤ 17 . Z tabulky 1.17 vyplývá, že 16. nejmenší hodnota je 41 let a 17. nejmenší hodnota je rovněž 41 let. Protože opět n · p = 16 a n · p + 1 = 17 jsou celá čísla (přirozená) a nikoliv čísla desetinná, vypočteme medián jako aritmetický průměr 16. a 17. nejmenší hodnoty
41 + 41 ~ = 41 let . x 50 = 2
Zbývá vypočítat horní kvartil, kdy 100 p = 75, a tedy p = 0,75. Dosazením do vztahu (1.9) získáváme
24 ≤ m50 ≤ 25. Z tabulky 1.17 je zřejmé, že 24. nejmenší hodnota je 46 let a 25. nejmenší hodnota je 47 let. Horní kvartil z již uvedených důvodů vypočteme opět jako aritmetický průměr těchto dvou hodnot
46 + 47 ~ = 46,5 let . x 75 = 2 Lze konstatovat, že v případě 25 % domácností uvažovaného statistického souboru je věk člena domácnosti s nejvyšším příjmem nejvýše 34 let a v případě 75 % domácností uvažovaného statistického souboru je věk člena domácnosti s nejvyšším příjmem nejméně 34 let. Obdobně, polovina domácností z uvažovaného statistického souboru domácností má věk člena s nejvyšším příjmem nejvýše 41 let a polovina nejméně 41 let. U třech čtvrtin domácností je věk člena domácnosti s nejvyšším příjmem maximálně 46 let (protože se jedná o věk v dokončených letech, můžeme konstatovat 46 místo 46,5 let) a u jedné čtvrtiny domácností je věk člena domácnosti s nejvyšším příjmem minimálně 47 let (číslo 46,5 je mezi čísly 46 a 47). Pro zobrazení kvartilů se nejčastěji používá krabičkový graf, viz obrázek 1.14.
Obrázek 1.14
25
34
41
46,5
68
Další možností znázornění dat je číslicový dendrogram, který na ukázku vytvoříme z neuspořádaných dat, tedy z tabulky 1.16. Data v tomto příkladu mají nejvyšší řád desitky, stonek bude tvořen tedy desítkami. Druhý nejvyšší řád jsou jednotky, listy budou tedy tvořeny jednotkami. Hodnoty věku člena domácnosti s nejvyšším příjmem se pohybují od 25 let do 68 let. Stonek bude tedy tvořen číslicemi od 2 (25) do 6 (68). Aby graf nebyl příliš široký, dohodneme se tak, že všechny číslice (s výjimkou krajních, pokud nejsou potřeba) budou ve stonku obsaženy dvakrát, a to tak, že k hoření číslici budeme přiřazovat listy v rozmezí 0 až 4 a k dolení číslici listy v rozmezí 5 až 9. Nadepíšeme si číslice stonku a číslice listů k nim postupně dopisujeme z tabulky 1.16. Zde končí první krok. V druhém kroku číslice stonku
v každém řádku uspořádáme podle velikosti vzestupně od nejmenší po největší. Vzniká následující graf, viz obrázek 1.15. Obrázek 1.15 První krok stonek (*10) 2 3 3 4 4 5 5 6 6
Druhý krok
listy (*1) 8758 3131 879589 1413313 865857 0 5 11 8
stonek (*10) 2 3 3 4 4 5 5 6 6
listy (*1) 5788 1133 578899 1113334 556788 0 5 11 8
Příklad 1.6 U 38 domácností jsme sledovali měsíční výdaje za potraviny (v Kč). Zjištěné údaje poskytuje tabulka 1.18. Tabulka 1.18 Číslo domácnosti 1 2 3 4 5 6 7 8 9 10 11 12 13
Měsíční výdaje za potraviny 9 921 9 119 12 358 7 793 7 073 5 925 8 115 10 075 11 455 7 068 6 038 9 844 9 005
Číslo domácnosti 14 15 16 17 18 19 20 21 22 23 24 25 26
Měsíční výdaje za potraviny 10 057 9 454 6 879 7 580 8 894 7 435 6 299 9 271 8 045 9 442 10 400 10 283 7 278
Číslo domácnosti 27 28 29 30 31 32 33 34 35 36 37 38
Měsíční výdaje za potraviny 8 451 9 608 8 860 12 097 7 441 7 036 5 659 6 825 7 231 6 089 9 484 8 857
Vypočtěte kvartily a kvartilové rozpětí. Řešení: Hodnoty měsíčních výdajů za potraviny nejprve uspořádáme podle velikosti vzestupně, tj. od nejmenší hodnoty po největší, viz tabulka 1.19. Tabulka 1.19
Pořadí Hodnota
1. 5 659
2. 5 925
3. 6 038
4. 6 089
5. 6 299
6. 6 825
7. 6 879
8. 7 036
Pořadí Hodnota
9. 7 068
10. 7 073
11. 7 231
12. 7 278
13. 7 435
14. 7 441
15. 7 580
16. 7 793
Pořadí Hodnota
17. 8 045
18. 8 115
19. 8 451
20. 8 857
21. 8 860
22. 8 894
23. 9 005
24. 9 119
Pořadí Hodnota
25. 9 271
26. 9 442
27. 9 454
28. 9 484
29. 9 608
30. 9 844
31. 9 921
32. 10 057
Pořadí Hodnota
33. 10 075
34. 10 283
35. 10 400
36. 11 455
37. 12 097
38. 12 358
Rozsah výběru (počet statistických jednotek) n = 38 domácností. Nejprve vypočteme dolní a horní kvartil. K výpočtu dolního kvartilu opět použijeme vztah (1.9), kdy 100p = 25, tedy p = 0,25
38 ⋅ 0,25 ≤ m25 ≤ 38 ⋅ 0,25 + 1, tedy
9,5 ≤ m25 ≤ 10,5 . Získáváme, že m25 = 10. Z tabulky 1.19 zjistíme, že 10. nejmenší hodnota je 7 073 Kč. Dolní kvartil tedy je
~ x 25 = 7 073 Kč . Obdobným způsobem vypočteme i horní kvartil, kdy 100p = 75, tedy p = 0,75
38 ⋅ 0,75 ≤ m75 ≤ 38 ⋅ 0,75 + 1, 28,5 ≤ m75 ≤ 29,5 , tedy m75 = 29. Z tabulky 1.19 plyne, že 29. nejmenší hodnota je 9 608 Kč. Horní kvartil je
~ x 75 = 9 608 Kč . Zbývá výpočet mediánu, kdy 100p = 50, tedy p = 0,5
38 ⋅ 0,5 ≤ m50 ≤ 38 ⋅ 0,5 + 1,
19 ≤ m50 ≤ 20 , z tabulky 1.19 je zřejmé, že 19. nejmenší hodnota je 8 451 Kč a 20. nejmenší hodnota je 8 857 Kč. Medián vypočteme jako aritmetický průměr hodnot
8 451 + 8 857 ~ = 8 654 Kč . x 50 = 2 Interpretace dosud vypočtených výsledků je obdobná jako v příkladu 1.5. Kvartilové rozpětí vypočteme jako rozdíl horního a dolního kvartilu
x 75 − ~ x 25 = 9 608 − 7 073 = 2 535 Kč . Rq = ~ Na základě vypočteného kvartilového rozpětí můžeme konstatovat, že polovina, tj. 50 %, domácností má měsíční výdaje za potraviny v intervalu od 7 073 Kč do 9 608 Kč, tj. v rozmezí 2 535 Kč. Příklad 1.7 V tabulce 1.20 máme k dispozici údaje o měsíčních nákladech na bydlení (v Kč) 33 domácností. Tabulka 1.20 Číslo domácnosti 1 2 3 4 5 6 7 8 9 10 11
Měsíční náklady na bydlení 6 838 9 116 8 386 9 546 9 950 9 030 9 755 7 310 6 536 9 676 9 288
Číslo domácnosti 12 13 14 15 16 17 18 19 20 21 22
Měsíční náklady na bydlení 6 405 8 257 6 708 8 558 7 776 8 160 8 988 7 870 8 798 8 342 6 966
Číslo domácnosti 23 24 25 26 27 28 29 30 31 32 33
Měsíční náklady na bydlení 7 956 6 902 6 816 7 320 6 794 7 482 6 139 8 531 9 423 9 925 8 125
Zkonstruujte číslicový dendrogram. Řešení: Protože číslicový dendrogram konstruujeme opět z neuspořádaných dat, budeme postupovat opět ve dvou krocích. Nejvyšší řád hodnot měsíčních nákladů na bydlení v tabulce 1.20 jsou tisíce, stonek číslicového dendrogramu budou tedy tvořeny tisíci (jsou zde číslice 6, 7, 8 a 9). Aby graf nebyl příliš široký, každou číslici napíšeme do stonku zase dvakrát, viz příklad 1.5. Druhý nejvyšší řád hodnot měsíčních nákladů na bydlení jsou stovky, listy budeme tedy tvořit stovkami. Číslice na ostatních nižších řádech (v tomto příkladu desítky a jednotky) zanedbáváme, ale nezaokrouhlujeme. K číslicím stonku postupně
přiřazujeme číslice listů, přičemž se opět dohodneme, že číslice listů 0 až 4 budeme přiřazovat k příslušné horní číslici stonku a číslice listů 5 až 9 budeme přiřazovat k dolní dané číslici stonku. Zde končí první krok. V druhém kroku pouze číslice listů uspořádáme vzestupně, viz obrázek 1.16. Obrázek 1.16 První krok
Druhý krok
Listy (*100) 41 8579987 334 789 32131 5975 1024 59769
stonek (*1000) 6 6 7 7 8 8 9 9
stonek (*1000) 6 6 7 7 8 8 9 9
listy (*100) 14 5778899 334 789 11233 5579 0124 56799
Příklad 1.8 Tabulka 1.21 představuje tabulku intervalového rozdělení četností měsíčního příjmu domácnosti (v Kč) 36 domácností. Tabulka 1.21 Číslo intervalu 1 2 3 4 5 6
Hranice intervalu dolní horní 15 001 20 000 20 001 25 000 25 001 30 000 30 001 35 000 35 001 40 000 40 001 45 000
Střed intervalu 17 500 22 500 27 500 32 500 37 500 42 500
Četnost absolutní relativní 5 0,139 8 0,222 13 0,361 5 0,139 3 0,083 2 0,056
Kumulativní četnost absolutní relativní 5 0,139 13 0,361 26 0,722 31 0,861 34 0,944 36 1,000
Odhadněte medián. Řešení: Ze sloupce kumulativních absolutních četností je zřejmé, že 36,1 % nejmenších hodnot měsíčního příjmu domácnosti se nachází v prvních dvou intervalech a 72,2 % nejmenších hodnot měsíčního příjmu domácnost je v prvních třech intervalech. Medián je 50% kvantil, z čehož vyplývá, že víme, že se bude s jistotou nacházet v prvních třech intervalech a že se nebude s jistotou nacházet v prvních dvou intervalech. Medián tedy musí být ve třetím intervalu. Protože se jedná o 50% kvantil, 100p = 50 a p = 0,5. Horní hranice intervalu, ve kterém leží hledaný kvantil, je horní hranice třetího intervalu, tj. xh = 30 000, dolní hranice intervalu, ve kterém leží hledaný kvantil, je dolní hranice třetího intervalu, tj. xd = 25 001. Kumulativní relativní četnost v procentech odpovídající xh je ih = 72,2 % a kumulativní relativní četnost v procentech odpovídající xd je vlastně kumulativní relativní četnost v procentech odpovídající horní hranici předcházejícího intervalu (dolní hranice daného intervalu vlastně
odpovídá horní hranici předcházejícího intervalu), tj. id = 36,1 %. Medián odhadneme dosazením do vztahu (1.10)
~ x 50 − 25 001 = 50 − 36,1 . 30 000 − 25 001 72,2 − 36,1 Medián měsíčního příjmu domácnosti je přibližně
~ x 50 = 26 926 Kč . Cvičení 1. K dispozici máme následující údaje týkající se hrubého měsíčního příjmu 33 zaměstnanců jedné firmy, viz tabulka 1.22. Tabulka 1.22 Hrubý měsíční příjem 25 405 29 335 28 234 29 333 27 245 30 845 26 894 24 444 25 679 27 385 27 853
Číslo zaměstnance 1 2 3 4 5 6 7 8 9 10 11
Číslo zaměstnance 12 13 14 15 16 17 18 19 20 21 22
Hrubý měsíční příjem 27 354 31 856 28 353 26 893 23 555 22 843 24 788 25 785 27 784 25 689 24 333
Číslo zaměstnance 23 24 25 26 27 28 29 30 31 32 33
Hrubý měsíční příjem 28 965 27 466 27 888 29 974 28 758 29 486 29 544 25 784 27 543 28 864 24 796
Určete kvartily a kvartilové rozpětí. 2. Z tabulky intervalového rozdělení četností, viz tabulka 1.23, odhadněte přibližnou hodnotu sedmého decilu. Tabulka 1.23 Hranice intervalu dolní horná 41 60 61 80 81 100 100 120
Interval 1 2 3 4
Četnost absolutní relativní 6 0,048 40 0,323 48 0,387 30 0,242
3. Z následující tabulky určete kvartily a kvartilové rozpětí 1 5
2 6
2 7
2 11
3 15
4 20
Kumulativní četnost absolutní relativní 6 0,048 46 0,371 94 0,758 124 1,000
4. Následující hodnoty představují životnost 50 obrazovek téhož typu (tis.hodin) zaokrouhleno na stovky hodin. 13,5 13,4 12,6 13,7 13,1
13,0 13,9 14,7 11,9 14,2
12,2 13,4 12,5 13,3 14,8
13,8 13,1 14,3 11,6 14,1
13,5 13,1 13,4 13,7 13,2
13,5 13,6 13,7 15,0 15,1
14,1 12,6 13,9 14,5 14,2
14,5 13,3 13,6 14,4 12,6
13,2 13,8 12,9 13,2 13,9
Výsledky 1.
~ x = 27 466 Kč ~ x 25 = 25 689 Kč ~ x 75 = 28 864 Kč
2.
~ x 70 = 97,152
3.
~ x min = 1 ~ x 25 = 2 ~ x 75 = 9 ~ x max = 20
1
2
4,5
9
20
13,0 14,1 13,3 13,1 13,7
4. 11 |6 9 12 |2 5 6 6 6 9 13 |0 0 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 7 8 8 9 9 9 14 | 1 1 1 2 2 3 4 5 5 7 8 15 |0 1
~ x 25 =13.1 ~ x 75 = 14.1
Medián =13,5
1.6 Charakterizování polohy, variability a koncentrace hodnot číselné proměnné Při popisu statistických souborů nás zajímá poloha, někdy říkáme úroveň, rozdělení četností a variabilita rozdělení četností. Méně často sledujeme další dvě vlastnosti, a to šikmost, někdy říkáme asymetrii, a špičatost, neboli exces rozdělení četností.
1.6.1 Charakteristiky polohy Základní vlastností rozdělení četností je jeho poloha. Měříme ji pomocí různých druhů středních hodnot, které rozdělujeme v zásadě na dvě skupiny. Do první skupiny patří takové střední hodnoty, které se počítají z hodnot sledované proměnné všech statistických jednotek statistického souboru. Takovéto střední hodnoty se nazývají průměry, z nichž nejdůležitější jsou aritmetický průměr, harmonický průměr, geometrický průměr a kvadratický průměr. Do druhé skupiny patří takové střední hodnoty, jejichž hodnoty jsou rovny pouze některým hodnotám proměnné ve statistickém souboru. Nejdůležitější z těchto středních hodnot je medián a modus. Průměry představují kvalitnější charakteristiku polohy, neboť jejich výpočet vychází z hodnot sledované proměnné všech statistických jednotek statistického souboru. Střední hodnota číselné proměnné x nabývající hodnot xj, j = 1, 2, ..., n, ze kterých některá hodnota je minimální hodnota, značíme xmin, a některá hodnota je maximální hodnota, značíme xmax, je každá hodnota xstr, pro kterou platí vztah
x min ≤ x str ≤ x max .
(1.11)
Z hodnot xstr vyhovujících vztahu (1.11) můžeme jmenovat extrémní hodnoty xmin a xmax, modus x$ , medián x~ , dolní a horní kvartil, decily, percentily apod. Z těchto středních hodnot jsou velmi vhodnými charakteristikami polohy modus a medián. Všechny tyto druhy středních hodnot jsou konkrétní hodnoty sledované proměnné nebo aritmetický průměr dvou konkrétních hodnot sledované proměnné, a tedy nejsou přímo ovlivněny velikostí všech hodnot sledované proměnné, což se stává výhodou zejména tehdy, když se vyskytují náhodně jedna nebo několik málo mimořádně extrémních hodnot proměnné, kterým říkáme odlehlá pozorování. V takovém případě je výhodou, že např. medián ani modus nejsou těmito odlehlými pozorováními ovlivněny. Někdy se však necitlivost těchto středních hodnot vnímá jako nevýhoda, kterou překonává jiná skupina středních hodnot, které říkáme průměry. Průměry jsou střední hodnoty, které jsou funkcí všech hodnot sledované proměnné. Teoreticky rozlišujeme nekonečně mnoho druhů průměrů. Aritmetický průměr Prostý aritmetický průměr n hodnot x1, x2, ..., xn, které nemusí být uspořádány, lze vypočítat jako
x=
n ∑ xi i =1
x1 + x 2 + L + xn = . n n
(1.12)
Máme-li hodnoty proměnné uspořádány do tabulky rozdělení četností, je lepší použít vážený aritmetický průměr
x=
k ∑ xi ⋅ ni i =1 k ∑ ni i =1
x1⋅ n1 + x 2 ⋅ n2 + L + x k ⋅ n k = n1 + n2 + L n k
=
k ∑ xi ⋅ p , i i =1
(1.13)
kde absolutní četnosti n1, n2, ..., nk udávají váhu, kterou přisuzujeme jednotlivým obměnám proměnné x1, x2, ..., xk . Aritmetický průměr má smysl tehdy, má-li nějaký informační smysl součet hodnot proměnné. Aritmetický průměr má řadu vlastností: 1. Jestliže vynásobíme aritmetický průměr x rozsahem statistického souboru n, získáme vždy součet všech hodnot proměnné
x ⋅n =
n ∑ xi . i =1
(1.14)
2. Součet všech odchylek hodnot proměnné od jejich aritmetického průměru je vždy roven nule n ∑ (x i i =1
− x ) = 0.
(1.15)
3. Součet čtverců všech odchylek hodnot proměnné od jejich aritmetického průměru je minimální n ∑ ( xi i =1
− x )2 = min ,
(1.16)
to znamená, že je menší než součet čtverců všech odchylek hodnot proměnné od jakékoliv konstanty b ≠ x . 4. Aritmetický průměr konstanty je roven této konstantě
c = c.
(1.17)
5. Přičteme-li ke všem hodnotám, resp. odečteme-li od všech hodnot, proměnné libovolnou kladnou konstantu (a > 0), aritmetický průměr se zvětší, resp. zmenší, o tuto konstantu
x±a=
n ∑ ( xi i =1
±a)
n
=
n ∑ xi i =1
± n⋅a n
=
n ∑ xi i =1
n
±
n⋅a = x ± a. n
(1.18)
6. Násobíme-li všechny hodnoty proměnné libovolnou nenulovou konstantou ( k ≠ 0), aritmetický průměr se rovněž znásobí touto konstantou
k⋅x =
n ∑k⋅x i i =1
n
= k⋅
n ∑ xi i =1
n
= k⋅x.
(1.19)
7. Násobíme-li váhy aritmetického průměru libovolnou nenulovou konstantou (b ≠ 0), aritmetický průměr se nezmění k ∑ x i ⋅ b ⋅ ni i =1 k ∑ b⋅n i i =1
k
=
b ⋅ ∑ xi ⋅ ni i =1 k b ⋅ ∑ ni i =1
=
k ∑ x i ⋅ ni i =1 k ∑ ni i =1
= x.
(1.20)
8. Je-li statistický soubor rozdělen do k dílčích podsouborů s dílčími aritmetickými průměry v jednotlivých dílčích podsouborech
x 1, x 2 , L, x k a s počty pozorování v jednotlivých dílčích podsouborech n1, n2, ..., nk , aritmetický průměr celkového statistického souboru vypočteme jako vážený aritmetický průměr dílčích aritmetických průměrů
x=
k ∑ x i ⋅ ni i =1 k ∑ ni i =1
=
k ni ∑ xi ⋅ k i =1 ∑ ni i =1
=
k ∑ xi ⋅ p . i i =1
(1.21)
Počítáme-li aritmetický průměr z intervalového rozdělení četností s k intervaly a známeli aritmetické průměry v jednotlivých intervalech
x 1, x 2 , L, x k , lze k výpočtu aritmetického průměru rovněž použít vztah (1.21). Jestliže aritmetické průměry v jednotlivých intervalech neznáme, což je v praxi častější případ, nemůžeme celkový aritmetický průměr spočítat přesně a musíme jej proto pouze odhadnout. Jsou-li všechny intervaly ohraničeny, budeme předpokládat, že aritmetický průměr v každém intervalu odpovídá středu tohoto intervalu a jednotlivé intervaly nehradíme jejich středy. Výpočet aritmetického průměru za všechny intervaly dohromady pak provedeme stejným způsobem jako výpočet váženého aritmetického průměru v prostém rozdělené četností, přičemž středy jednotlivých intervalů dosazujeme do vzorce (1.13) za obměny proměnné. V případě, že jsou krajní intervaly neuzavřené, potom se buď neuzavřený krajní interval považuje za stejně široký, jako je interval bezprostředně sousedící, a takto pomyslně vytvořené krajní intervaly se nahradí svými středy, nebo se určí minimální, resp. maximální, hodnota proměnné ve statistickém souboru a tato hodnota slouží jako odhad hranice intervalu, který potom stejným způsobem nahradíme jeho středem. Výpočet potom provedeme opět pomocí vztahu (1.13), kde za obměny proměnné opět dosazujeme středy jednotlivých intervalů, v případě krajních neuzavřených intervalů dosadíme odhadnuté středy intervalů.
Geometrický průměr
Prostý geometrický průměr n kladných hodnot x1, x2, ..., xn, které opět nemusí být uspořádány, vypočteme jako
x G = n x1 ⋅ x 2 ⋅L⋅ x n = n
n ∏ xi i =1
,
(1.22)
kde řecké písmeno Π představuje symbol používaný pro součin hodnot. Jsou-li hodnoty proměnné již setříděny do tabulky rozdělení četností, použijeme raději vážený geometrický průměr
xG =
(n1 + n2 + L + n k )
x1n1⋅ x2n2 ⋅L⋅ xnk k =
k ∑ ni k i =1 ∏ x ni i i =1
.
(1.23)
Geometrický průměr má smysl tehdy, má-li nějaký informační smysl součin hodnot proměnné.
Harmonický průměr Prostý harmonický průměr n kladných hodnot x1, x2, ..., xn, které nemusí být uspořádány, lze vypočítat jako
xH =
n . n 1 ∑ i =1 xi
(1.24)
Máme-li hodnoty proměnné uspořádány do tabulky rozdělení četností, je lepší použít vážený harmonický průměr
xH =
k ∑ ni i =1 k ni ∑ i =1 xi
.
(1.25)
Harmonický průměr má smysl tehdy, má-li nějaký informační smysl součet převrácených hodnot proměnné. Jak plyne ze vzorce (1.24), je převrácená hodnota harmonického průměru n 1 ∑ i =1 xi
1 = n xH
aritmetickým průměrem převrácených hodnot proměnné.
Kvadratický průměr
(1.26)
Prostý kvadratický průměr n hodnot x1, x2, ..., xn, které opět nemusí být uspořádány, vypočteme jako n ∑ xi2 i =1
xK =
n
(1.27)
.
Jsou-li hodnoty proměnné již setříděny do tabulky rozdělení četností, použijeme raději vážený kvadratický průměr
xK =
k ∑ xi2 ⋅ ni i =1 k ∑ ni i =1
.
(1.28)
Kvadratický průměr má smysl tehdy, má-li nějaký informační smysl součet čtverců hodnot proměnné. Ze vzorce (1.27) plyne, že čtverec kvadratického průměru
x 2K =
n ∑ xi2 i =1
(1.29)
n
je aritmetickým průměrem čtverců hodnot proměnné. Pro kladné hodnoty x1, x2, ..., xn platí mezi uvedenými čtyřmi typy průměrů těchto hodnot relace nerovnosti
x H ≤ xG ≤ x ≤ x K .
(1.30)
Znaménko rovnosti ve vztahu (1.30) platí pouze v případě, jestliže jsou všechny hodnoty číselné proměnné ve statistickém souboru stejné.
Příklad 1.9 U sedmi skupin studentů bydlících na koleji byla zjišťována výše měsíčního kapesného od rodičů. Průměrné měsíční kapesné od rodičů v i-té skupině budeme značit
~ x i , i = 1, 2, ..., 7 ,
viz tabulka 1.24. Tabulka 1.24
i
xi
ni
1 2 3 4 5 6
1 600 − 3 000 1 160 2 440 2 000
60 24 16 20 − 40
7
1 400
30
Určete chybějící údaje v tabulce, víte-li, že bylo provedeno šetření u 200 studentů a že průměrná výše měsíčního kapesného od rodičů je 1 747 Kč. Řešení: Průměrné měsíční kapesné od rodičů za všech k = 7 skupin studentů dohromady je x = 1 747 Kč a celkový počet studentů, u kterých bylo provedeno šetření, za všech k = 7 skupin dohromady n = 200. Vypočteme
n1 + n2 + n3 + n 4 + n6 + n7 = 60 + 24 + 16 + 20 + 40 + 30 = 190 . Protože k ∑ ni i =1
= n,
vypočteme chybějící hodnotu n5 jako
n5 = n − (n1 + n 2 + n3 + n 4 + n5 + n6) = 200 - 190 = 10 , tj. získáváme
n 5 = 10 . K výpočtu hodnoty
~ x2 použijeme vztah (1.21), který lze napsat jako
x=
k ∑ x i ⋅ ni i =1
n
,
takže
x ⋅ n = x1 ⋅ n1 + x 2 ⋅ n2 + ... + x k ⋅ nk a protože k = 7
x ⋅ n = x1 ⋅ n1 + x 2 ⋅ n2 + x 3 ⋅ n3 + x 4 ⋅ n4 + x 5 ⋅ n5 + x 6 ⋅ n6 + x 7 ⋅ n7 , získáváme
x2 =
=
x ⋅ n − ( x1 ⋅ n1 + x 3 ⋅ n3 + x 4 ⋅ n4 + x 5 ⋅ n5 + x 6 ⋅ n6 + x 7 ⋅ n7) = n2
1 747 ⋅ 200 − (1 600 ⋅ 60 + 3 000 ⋅16 + 1 160 ⋅ 20 + 2 440 ⋅10 + 2 000 ⋅ 40 + 1 400 ⋅ 30) = 24 =& 1 492 Kč ,
takže další chybějící údaj v tabulce je
x 2 = 1 492 Kč . Příklad 1.10 V akciové společnosti je průměrný plat 34 000 Kč, přičemž 60 % pracovníků s nejnižším platem má průměrně 20 000 Kč. Na začátku roku došlo ke zvýšení platů pracovníků této skupiny jednotně o 2 000 Kč. O kolik procent vzrostl průměrný plat v celé společnosti následkem tohoto zvýšení nejnižších platů?
Řešení: Celkový aritmetický průměr platu v celé akciové společnosti je x = 34 000 Kč . Relativní četnost pracovníků s nejnižším platem pN = 0,6 a aritmetický průměr platu pracovníků s nejnižším platem
x N = 20 000 Kč .
Relativní četnost ostatních pracovníků je potom pO = 1 − pN = 1 − 0,6 = 0,4 (tedy 40 %). Nejprve vypočteme aritmetický průměr platu ostatních pracovníků. Opět využijeme vztah (1.21), přičemž máme zde k = 2 skupiny, tj. pracovníky s nejnižším platem (značíme N) a ostatní pracovníky (značíme O). Tentokrát využijeme vztahu (1.21) vyjádřeného pomocí relativních četností, neboť neznáme absolutní četnosti pracovníků v jednotlivých skupinách, nýbrž pouze relativní četnosti. Ze vztahu (1.21) získáváme
x = x N ⋅ p N + x O ⋅ pO , odtud
xO =
x − x N ⋅ pN . pO
Po dosazení aritmetický průměr platu ostatních pracovníků
xO =
34 000 − 20 000 ⋅ 0,6 = 55 000 . 0,4
Z vlastnosti aritmetického průměru číslo pět plyne, že jestliže všem zaměstnancům akciové společnosti s nejnižším platem jednotně přidáme 2 000 Kč, aritmetický průměr platu zaměstnanců této skupiny vzroste o 2000 Kč, neboli po zvýšení platů bude aritmetický průměr platu pracovníků s nejnižším platem
\ x N = 22 000 Kč .
Jestliže přidáme na platu pracovníkům s nejnižším platem jednotně 2 000 Kč, vzroste tím rovněž aritmetický průměr platu pracovníků celé akciové společnosti. Opět využijeme vztah (1.21) a vypočteme nový průměrný plat za celou akciovou společnost dohromady.
x \ = x \N ⋅ p N + x O ⋅ p O = 22 000 ⋅ 0,6 + 55 000 ⋅ 0,4 = 35 200 Kč . Nyní vypočteme, o kolik procent vzrostl průměrný plat v celé společnosti následkem zvýšení nejnižších platů
35 200 x\ ⋅100 − 100 = ⋅100 − 100 = 3,53 % , x 34 000 tj. průměrný plat v celé společnosti vzrostl o 3,53 %.
Příklad 1.11 Je dáno intervalové rozdělení četností, viz tabulka 1.25. Tabulka 1.25
Interval 121 − 125 126 − 130 131 − 135 136 − 140 141 − 145 146 − 150 151 − 155 156 − 160 161 − 165 166 − 170
Relativní četnost 0,03 0,05 0,08 0,19 0,17 0,27 0,13 0,04 0,03 0,01
Vypočítejte aritmetický průměr. Řešení: Všechny intervaly jsou ohraničeny, jednotlivé intervaly nahradíme jejich středy. Výpočty shrneme do tabulky 1.26. K výpočtu použijeme vztah (1.13). Protože známe pouze relativní četnosti v jednotlivých intervalech a nikoliv četnosti absolutní, použijeme vztah (1.13) vyjádřený pomocí relativních četností. Proto si v tabulce 1.26 ještě připravíme sloupeček xi · pi. Tabulka 1.26
Střed intervalu
Relativní četnost
xi 123 128 133 138 143 148 153 158 163 168 Celkem
pi 0,03 0,05 0,08 0,19 0,17 0,27 0,13 0,04 0,03 0,01 1,00
xi · pi 3,69 6,40 10,64 26,22 24,31 39,96 19,89 6,32 4,89 1,68 144
Aritmetický průměr vypočteme následovně
x=
k ∑ xi ⋅ i =1
pi = 144 .
Příklad 1.12 V tabulce 1.27 jsou uvedeny koeficienty růstu prodeje automobilů značky Škoda a značek dovezených zahraničních automobilů v jednom autosalonu v letech 2000 až 2005. Koeficienty růstu jsou indexy, kde v čitateli je hodnota z období t a ve jmenovateli je hodnota z období t − 1. Tabulka 1.27
Rok Automobily Škoda Zahraniční automobily
2000 − −
2001 1,136 1,421
2002 1,217 1,568
2003 1,154 1,047
2004 0,819 0,825
2005 0,934 1,146
Určete, zda byl v uvedeném období vyšší průměr z těchto koeficientů u značky Škoda nebo u značek zahraničních automobilů. Řešení: Koeficienty růstu představují relativní změny prodeje automobilů v období t oproti období t − 1. Tyto hodnoty nelze proto sčítat, smysl má však shrnutí součinem, jinými slovy průměrný koeficient růstu (průměr z koeficientů růstu) je vždy geometrický průměr. Protože je zde každý koeficient růstu obsažen pouze jednou, použijeme prostý geometrický průměr (1.22). Vždy se jedná o geometrický průměr z pěti hodnot, tudíž n = 5. Výpočet provedeme následovně Škoda
xG
= 5 1,136 ⋅1,217 ⋅1,154 ⋅ 0,819 ⋅ 0,934 = 1,041
a
x GZahr. = 5 1,421 ⋅1,568⋅1,047 ⋅ 0,825⋅1,146 = 1,171.
Získáváme Škoda
xG
= 1,041 < x GZahr. = 1,171 .
Příklad 1.13 Cena jedné akcie banky na burzovním trhu vzrostla od úterý 16. května 2006 do čtvrtka 18. května 2006 z 1 552 Kč na 1 612 Kč. Jaký byl průměrný relativní denní přírůstek ceny této akcie?
Řešení: Relativní denní přírůstky ceny této akcie udávají koeficienty růstu. Označme: x16…cena akcie v úterý 16. května 2006, x16 = 1 552 Kč, x17…cena akcie ve středu 17. května 2006, x18…cena akcie ve čtvrtek 18. května 2006, x18 = 1 612 Kč. Koeficient růstu kt je index
kt =
xt , xt − 1
kde xt je hodnota v období t a xt − 1 je hodnota v období t − 1. Koeficient růstu z úterý 16. května 2006 na středu 17. května 2006 je
k17 =
x17 x16
a koeficient růstu ze středy 17. května 2006 na čtvrtek 18. května 2006 je
k18 =
x18 . x17
Průměrný relativní denní přírůstek ceny této akcie vypočteme opět jako geometrický průměr. Jedná se opět o prostý geometrický průměr, neboť každý z uvedených dvou koeficientů růstu je zde pouze jednou, n = 2, neboť počítáme průměr ze dvou koeficientů růstu
1 612 k = x G = 2 k 17 ⋅ k 18 = x17 ⋅ x18 = x18 = = 1,019 147 . 1 552 x16 x17 x16 (Poznámka:
2
je použit pro zdůraznění, že se jedná o druhou odmocninu)
Chceme-li vědět o kolik procent
k ⋅100 − 100 = 1,019 147 ⋅100 − 100 =& 1,91 % , tj. denní přírůstek v průměru o 1,91 %.
Příklad 1.14 Řidič zkušebního automobilu jel do cílového místa průměrnou rychlostí 60 km/h a zpět průměrnou rychlostí 80 km/h. Předpokládáme, že trasa tam i zpět je totožná. Jakou průměrnou rychlost dosáhl řidič na celé trase?
Řešení: Označíme x1 = 60 km/h a x2 = 80 km/h. Podíl
1 x1
=
1 60
představuje, „kolik hodin (jako desetinné číslo) jel v průměru jeden kilometr při cestě tam“, obdobně podíl
1 x2
=
1 80
představuje, „kolik hodin jel v průměru jeden kilometr při cestě zpět“. Protože obě trasy jsou stejně dlouhé a obě jel řidič pouze jednou, použijeme při výpočtu prostý vzorec. Trasy jsou dvě, tedy n = 2. protože má smysl součet podílů
1 xi
, i = 1, 2, ..., n ,
Použijeme při výpočtu vzorec prostého harmonického průměru (1.24)
xH =
2 1 1 + 60 80
= 68,571 km/h .
Na celé trase řidič dosáhl rychlosti v průměru 68,571 km/h. Příklad 1.15 Automobil jel z města A do města B průměrnou rychlostí 60 km/h, z města B do města C průměrnou rychlostí 70 km/h a z města C do města D průměrnou rychlostí 80 km/h. Vypočítejte, jakou průměrnou rychlost dosáhl automobil na celé trase, jestliže: a) vzdálenost města A a města B je 5 km, vzdálenost města B a města C je 8 km a vzdálenost města C a města D je 10 km, b) vzdálenost města A a města B představuje 10 % celkové trasy, vzdálenost města B a města C představuje 40 % celkové trasy a vzdálenost města C a města D představuje 50 % celkové trasy.
Řešení: a) Označme x1 = 60 km/h, x2 = 70 km/h a x3 = 80 km/h, přičemž x1 = 60 je zde n1 = 5krát (touto rychlostí jel automobil 5 km), x2 = 70 je zde n2 = 8-krát (touto rychlostí jel automobil 8 km) a x3 = 80 je zde n3 = 10-krát (touto rychlostí jel automobil 10 km). Tedy k = 3. Podíl
1 x1
=
1 60
představuje „kolik hodin (jako desetinné číslo) jel v průměru jeden kilometr z města A do města B“. Protože z města A do města B je n1 = 5 km, získáváme podíl
n1 ⋅
1
5 = n1 = . x1 x1 60
Analogickou úvahou získáváme podíly
n2 = 8 x 2 70
a
n3 = 10 . x 3 80
Pro výpočet použijeme vzorec váženého harmonického průměru (váženého proto, že x1 = 60 je zde n1 = 5-krát, x2 = 70 je zde n2 = 8-krát a x3 = 80 je zde n3 = 10-krát), protože má smysl součet podílů
ni , i = 1, 2, ..., k . xi Dosadíme do vzorce (1.25)
xH =
5 + 8 + 10 = 71,292 km/h . 5 8 10 + + 60 70 80
Automobil dosáhl na celé trase průměrnou rychlost 71,292 km/h. b) Opět x1 = 60 km/h, x2 = 70 km/h a x3 = 80 km/h, přičemž tentokrát neznáme absolutní četnosti ni, i = 1, 2, …, k, ale pouze četnosti relativní pi, i = 1, 2, …, k, tj. p1 = 0,1 (vzdálenost města A a města B tvoří 10 % trasy), p2 = 0,4 (vzdálenost města B a města C tvoří 40 % trasy) a p3 = 0,5 (vzdálenost města C a města D tvoří 50 % trasy). Trasy zůstávají tři, tedy k = 3. Vztah (1.25) vyjádříme pomocí relativních četností
xH =
Do získaného vztahu dosadíme
k ∑ ni i =1 k ni ∑ i =1 xi
1 n= 1 ⋅ n ⋅
k ∑ ni i =1
n n = n = 1 . k pi k pi ni ∑ ∑ k n i =1 xi i =1 xi ∑ i =1 xi 1
xH =
1 1 = = 73,362 km/h . 0,1 0,4 0,5 k pi + + ∑ 60 70 80 i =1 xi
Na celé trase automobil dosáhl průměrné rychlosti 73,362 km/h. Příklad 1.16 Při placení zboží platební kartou v hypermarketu byla v jednom okamžiku na dvanácti pokladnách měřena doba, během které pokladní ověří platnost platební karty zákazníka v bance. U sedmi zákazníků trvalo ověření tři minuty a u pěti zákazníku dvě minuty. Určete průměrnou dobu potřebnou k ověření platební karty.
Řešení: U n1 = 7 zákazníků trvalo ověření x1 = 3 minuty a u n2 = 5 zákazníků trvalo ověření x2 = 2 minuty. Opět podíl
1 x1
=
1 3
představuje, „kolik zákazníků (jako desetinné číslo) bylo v průměru ověřeno za jednu minutu v prvním případě“, takovýchto zákazníků je však n1 = 7. Získáváme
n1 ⋅
1 x1
=
n1 7 = . x1 3
Obdobně pro druhý případ získáváme podíl
n2 5 = . x2 2 Opět, protože má smysl součet podílů
ni , i = 1, 2, ..., k . xi použijeme pro výpočet harmonický průměr. Hodnota x1 = 3 je zde obsažena n1 = 7 krát, hodnota x2 = 2 je zde obsažena n2 = 5 krát. Použijeme proto vzorec váženého harmonického průměru (1.25), máme dvě skupiny zákazníků, tedy k = 2
xH =
7+5 = 2,483 min . 7 5 + 3 2
Průměrná doba potřebná k ověření platební karty je 2,483 min.
Cvičení 1.Určete aritmetický průměr následujícího souboru, který obsahuje spotřebu elektrické energie v jednotlivých kancelářích.
150 135 122 194
135 144 136 144
144 132 187 157
169 171 149 169
101 211 151 136
201 133 164 145
303 145 163 139
214 154 152 178
158 162 201 148
41 179 144 260
118 187 178 247
2. Sledovaný statistický znak nabyl následujících hodnot. Určete aritmetický průměr.
90 85 109 178
78 78 90 144
102 69 75 121
104 89 108 169
87 90 118 100
69 90 103 81
80 109 112 256
3.V následující tabulce jsou uvedeny koeficienty růstu produkce výrobního podniku A a výrobního podniku B. 2001 až 2005.
Podniky A B
2001 − −
2002 1,1112 1,3681
Rok 2003 1,0017 1,3642
2004 0,9988 0,7814
2005 1.0555 0,8802
Určete, který podnik má vyšší průměr z těchto koeficientů.
4. V následující tabulce jsou uvedeny koeficienty nárůstu státního dluhu státu XSR a státu YSR v letech. 1990 až 2002
Stát 1990 XSR − YSR −
1991 1,04 1,10
1992 1,07 1,20
Rok 1993 1994 1995 1996 1997 1998 1999 2000 2001 1,05 1,06 1,09 1,4 1,23 1,12 1,14 1,09 1,1 1,09 0,95 0,98 0,99 1,01 1,05 1,06 1,7 1,6
Určete, který stát má vyšší průměr z těchto koeficientů.
5. Naměřené délky souběžně probíhajících výrobních operací jsou uvedeny v následující tabulce. Učete průměrnou dobu provedení jedné operace.
15,7 14,7
17,6 14,6
12,3 11,5
14,1 18,1
16,7 11,9
11,2 16,7
21,3 20,3
2002 1,01 1,3
6. Naměřené délky souběžně odbavovaných turistů na letišti jsou uvedeny v následující tabulce. Učete průměrnou dobu odbavení jednoho turisty.
7 7,5 5,7 4,7
8,7 5,6 7,3 4,6
12 15 6,9 10,1
11 8,2 4,1 8,9
17 11 16,3 9,9
6,2 6,7 4,2 4,7
Výsledky 1. 162,523 2. 106,571 3. Podnik B (1,0644) má vyšší koeficient než podnik A (1,0408) 4. YSR (1,1486) má vyšší koeficient než XSR (1,1125) 5.14,88 6. 7,81
23 13 15,7 20,0
1.6.2 Charakteristiky variability Obrázek 1.17
A B
B
Hodnoty statistického souboru A jsou těsněji koncentrovány okolo aritmetického průměru x než hodnoty statistického souboru B, můžeme proto konstatovat, že v případě statistického souboru A aritmetický průměr lépe vystihuje polohu statistického souboru, nežli je tomu v případě statistického souboru B. Vypovídací schopnost aritmetického průměru je tím větší, čím je menší variabilita sledované proměnné a naopak. Číselná proměnná je vždy variabilní na rozdíl od konstanty, jejíž variabilita je nulová. Malý stupeň variability, tj. stupeň variability blízký nulové variabilitě, představuje malou vzájemnou odlišnost hodnot sledované proměnné, a tedy velkou vzájemnou podobnost hodnot dané proměnné, což znamená, že průměr, medián i modus jsou dobrými charakteristikami obecné velikosti hodnot sledované proměnné ve statistickém souboru. Vysoký stupeň variability představuje velkou vzájemnou odlišnost hodnot sledované proměnné, což znamená, že vypočítané charakteristiky polohy, jako jsou průměr, medián i modus, nejsou dobrými charakteristikami obecné výše hodnot sledované proměnné ve statistickém souboru. Charakteristik variability existuje celá řada, nulová hodnota charakteristik variability značí konstantnost, neboli nulovou variabilitu. Kladné hodnoty charakteristik variability značí vyšší stupeň variability. Žádná z charakteristik variability nemůže nabýt záporné hodnoty. Charakteristiky měřící proměnlivost statistického souboru v absolutní velikosti označujeme jako charakteristiky absolutní variability. Takovéto charakteristiky vyjadřují variabilitu ve stejných měrových jednotkách, ve kterých je vyjádřena sledovaná proměnná (nebo např. ve čtvercích těchto měrových jednotek). Srovnáváme-li variabilitu statistických souborů, které se liší svojí polohou, používáme charakteristiky relativní variability. Tyto charakteristiky vyjadřují variabilitu sledované proměnné v poměru k poloze sledované proměnné ve statistickém souboru. Takovéto charakteristiky jsou bezrozměrná čísla (nebo po vynásobení stem v procentech), což umožňuje rovněž srovnání variability proměnných, které se liší měrovou jednotkou.
Charakteristiky absolutní variability
Variační rozpětí Variační rozpětí číselné proměnné x je definováno jako rozdíl mezi maximální hodnotou proměnné xmax a minimální hodnotou proměnné xmin
R = x max − x min .
(1.31)
Variační rozpětí představuje pouze velice přibližnou charakteristiku variability hodnot číselné proměnné z toho důvodu, že je příliš ovlivněno velikostí extrémních hodnot. Výskyt jediné extrémní hodnoty proměnné vyvolá značnou velikost variačního rozpětí. Variační rozpětí dále nic neříká o variabilitě hodnot sledované proměnné uvnitř variačního rozpětí. Kvantilová rozpětí Kvartilové rozpětí číselné proměnné x je definováno jako rozdíl mezi horním kvartilem proměnné a dolním kvartilem proměnné
Rq = ~ x 75 − ~ x 25 .
(1.32)
Podobně je dále definováno decilové rozpětí jako
Rd = ~ x 90 − ~ x 10
(1.33)
Rp = ~ x 99 − ~ x 1.
(1.34)
a percentilové rozpětí jako
Kvantilová rozpětí při charakterizování variability neberou v úvahu velikost všech hodnot číselné proměnné. Rozptyl Prostý rozptyl n hodnot x1, x2, ..., xn, které nemusí být uspořádány, je definován jako aritmetický průměr čtverců odchylek jednotlivých hodnot sledované proměnné od jejich aritmetického průměru
s2x =
n ∑ ( xi i =1
− x )2
(1.35)
,
n
jsou-li hodnoty proměnné setříděny do tabulky rozdělení četností, lze použít vážený rozptyl
s2x =
k ∑ ( xi i =1
− x )2 ⋅ ni k ∑ ni i =1
=
k ∑ ( xi i =1
− x )2 ⋅ ni n
.
(1.36)
Jestliže při výpočtu váženého rozptylu (1.36) použijeme namísto absolutních četností n1, n2, ..., nk četnosti relativní p1, p2, ..., pk , získáváme
s2x =
k ∑ ( xi i =1
− x )2 ⋅ ni k ∑ ni i =1
=
k ∑ ( xi i =1
− x )2 ⋅ ni
=
n
k ∑ ( xi i =1
− x )2 ⋅
ni k 2 = ∑ ( xi − x ) ⋅ pi . n i =1
(1.37)
Častěji než rozptyl (1.35) až (1.37) je prostý rozptyl n hodnot x1, x2, ..., xn, které opět nemusí být uspořádány, definován jako
s2 =
n ∑ ( xi i =1
− x )2
n −1
(1.38)
.
Jsou-li hodnoty proměnné již setříděny do tabulky rozdělení četností, použijeme raději vážený rozptyl
s2 =
k ∑ ( xi i =1
− x ) 2 ⋅ ni n −1
(1.39)
.
Použijeme-li při výpočtu váženého rozptylu (1.39) místo absolutních četností n1, n2, ..., nk relativní četnosti p1, p2, ..., pk , dostaneme
2 s =
k ∑ ( xi i =1
− x ) 2 ⋅ ni n −1
n = ⋅ n −1 =
k ∑ ( xi i =1
− x ) 2 ⋅ ni n
=
k n 2 n ⋅ ∑ ( xi − x ) ⋅ i = n − 1 i =1 n
(1.40)
n k 2 ⋅ ∑ ( xi − x ) ⋅ pi . i = 1 n −1
Rozdíl mezi rozptyly
s 2x a s 2 při velkém rozsahu výběru n > 30 je zanedbatelný. Např. ze vztahů (1.35) a (1.38) plyne 2 2 s x ⋅ n = s ⋅ (n − 1),
odtud získáváme
s 2x = a
n−1 2 ⋅s n
(1.41)
s2 =
n ⋅ s 2x, n −1
(1.42)
tj. z rozptylu
s získáme násobením
2
n −1 n
rozptyl
s2x a z rozptylu
s2x získáme násobením
n n −1 rozptyl
s 2. Je-li nutné symbolicky rozlišit rozptyl základního souboru a rozptyl výběrového souboru, tak rozptyl základního souboru označujeme zpravidla σ2 a rozptyl výběrového souboru s2. Rozptyl má některé důležité vlastnosti: 1. Rozptyl konstanty se rovná nule
s 2c = 0.
(1.43)
2. Součet čtverců odchylek jednotlivých hodnot sledované proměnné od jejich aritmetického průměru (čitatel rozptylu) je vždy menší než součet čtverců odchylek jednotlivých hodnot sledované proměnné od libovolné konstanty b ≠ x n ∑ ( xi i =1
− x )2 <
n ∑ ( xi i =1
(1.44)
− b)2 .
3. Přičteme-li ke všem hodnotám, resp. odečteme-li od všech hodnot, proměnné libovolnou kladnou konstantu (a > 0), rozptyl se nezmění
s2( x + a) = resp.
n ∑ [( xi i =1
+ a) − ( x + a)]2 n
=
n ∑ ( xi i =1
− x )2 n
= s2x , (1.45)
n ∑ [( xi i =1
s(2x − a) =
− a) − ( x − a)]2 n
n ∑ ( xi i =1
=
− x )2
= s2x .
n
4. Násobíme-li všechny hodnoty proměnné libovolnou nenulovou konstantou ( k ≠ 0), rozptyl se znásobí čtvercem této konstanty
s2( k ⋅ x) =
n ∑ ( k ⋅ xi i =1
− k⋅x )
2
=
n
n ∑ [ k ⋅ ( xi i =1
− x )]2
n
n ∑ ( xi 2 i =1
=k ⋅
− x )2 n
= k 2 ⋅ s2x .
(1.46)
5. Rozptyl (1.35) až (1.37) můžeme vyjádřit jako aritmetický průměr čtverců hodnot sledované proměnné zmenšený o čtverec aritmetického průměru hodnot dané proměnné
s2x
=
n ∑ ( xi i =1
− x )2 n
=
n ∑ ( xi2 i =1
− 2 ⋅ x ⋅ x i + x 2) n
n ∑ xi2 i =1
n ∑ xi i =1
n⋅ x2 = − 2⋅ x ⋅ + =, n n n 2
∑n x i = x2 − 2 ⋅ x 2 + x 2 = x2 − x 2 = − i =1 , n n n ∑ xi2 i =1
s2x =
=
k ∑ xi2 ⋅ ni i =1 k ∑ ni i =1
−
k ∑ ( xi i =1
− x )2 ⋅ ni k ∑ ni i =1
k ∑ xi ⋅ ni i =1 2⋅ x ⋅ k ∑ ni i =1
=
s2x = k ∑ xi2 ⋅ i =1
k ∑ ( xi i =1
pi − 2 ⋅ x
+
=
− 2 ⋅ x xi + x 2) ⋅ ni k ∑ ni i =1
k ∑ ni i =1 x2⋅ k ∑ ni i =1
=
= x2 − 2 ⋅ x 2 + x 2 = x2 − x 2 =
2
∑k x ⋅ n i i − i =1k , ∑ ni i =1
k ∑ xi2 ⋅ ni i =1 k ∑ ni i =1
− x )2 ⋅ pi =
k ∑ xi ⋅ i =1
k ∑ ( xi2 i =1
k ∑ ( xi2 i =1
k
− 2 ⋅ x ⋅ xi + x 2) ⋅ pi =
pi + x 2 ⋅ ∑ pi = x 2 − 2 ⋅ x 2 + x 2 = x 2 − x 2 = i =1
=
2
k ⋅ pi − ∑ xi ⋅ pi , i =1
k ∑ xi2 i =1
takže platí
s2x =
s2x =
s2x =
n ∑ ( xi i =1
− x )2 n
k ∑ ( xi i =1
(1.47)
2
=
k ∑ xi2 ⋅ ni i =1 k ∑ ni i =1
∑k x ⋅ n i =1 i i 2 2 − k =x −x , ∑ ni i =1
− x )2 ⋅ pi =
k ∑ xi2 ⋅ p i i =1
k − ∑ xi ⋅ pi = x2 − x 2 .
− x )2 ⋅ ni k ∑ ni i =1
k ∑ ( xi i =1
2
∑n x i =1 i = − = x2 − x 2 , n n n ∑ xi2 i =1
(1.48)
2
i =1
(1.49)
Vztahům 2
∑n x i =1 i 2 − = x2 − x 2 , sx = n n n ∑ xi2 i =1
(1.50)
2
s2x =
k ∑ xi2 ⋅ ni i =1 k ∑ ni i =1
∑k x ⋅ n i =1 i i 2 2 − k =x −x , ∑ ni i =1
s2x =
k ∑ xi2 ⋅ p i i =1
k − ∑ xi ⋅ pi = x2 − x 2
(1.51)
2
i =1
(1.52)
říkáme výpočtový tvar rozptylu. 6. Rozptyl součtu dvou číselných proměnných x a y je roven součtu rozptylů obou těchto proměnných, ke kterému přičteme dvojnásobek kovariance
s2( x + y) = s2x + s2y + 2 ⋅ s xy ,
(1.53)
rozptyl rozdílu dvou číselných proměnných x a y je roven součtu rozptylů obou těchto proměnných, od kterého odečteme dvojnásobek kovariance
s2( x − y) = s2x + s2y − 2 ⋅ s xy ,
(1.54)
kde
s xy =
n ∑ ( xi i =1
− x )⋅( yi − y ) n
=
n ∑ xi⋅ y i i =1
n
−
n ∑ xi i =1
n
⋅
n ∑y i i =1
n
= x ⋅ y − x⋅ y
(1.55)
je kovariance proměnných x a y, která charakterizuje vzájemnou závislost těchto proměnných. 7. Je-li statistický soubor rozdělen na k dílčích podsouborů s dílčími rozptyly v jednotlivých dílčích podsouborech
s12x , s22 x , L , s2kx , s dílčími aritmetickými průměry v jednotlivých dílčích podsouborech
x 1, x 2 , L, x k , a s počty pozorování v jednotlivých dílčích podsouborech n1, n2, ..., nk , rozptyl celkového statistického souboru vypočteme jako součet aritmetického průměru dílčích rozptylů a rozptylu dílčích aritmetických průměrů (1.56)
s2x = s2 + s2x , kde
s2x =
k ni ∑ ∑ ( xij − i =1 j =1 k ∑ ni i =1
2 x)
(1.57)
je celkový rozptyl statistického souboru (celková variabilita),
s2 =
k 2 ∑ six ⋅ ni i =1 k ∑ ni i =1
(1.58)
je aritmetický průměr dílčích rozptylů (vnitroskupinová variabilita) a
s2x =
k ∑ (xi i =1
− x )2 ⋅ ni k ∑ ni i =1
=
k ∑ x i2 ⋅ ni i =1 k ∑ ni i =1
∑k x ⋅ n i i − i =1k ∑ ni i =1
2
je rozptyl dílčích aritmetických průměrů (meziskupinová variabilita).
(1.59)
S využitím vztahu (1.56) můžeme vypočítat celkový rozptyl (1.57), i když neznáme původní hodnoty číselné proměnné. Výše uvedený rozklad celkového rozptylu (1.57) na aritmetický průměr dílčích rozptylů (1.58) a rozptyl dílčích aritmetických průměrů (1.59) umožňuje rovněž posoudit, do jaké míry je celkový rozptyl ovlivněn variabilitou uvnitř skupin (vnitroskupinová variabilita) a do jaké míry variabilitou mezi skupinami (meziskupinová variabilita). Z interpretačního hlediska je jistou nevýhodou rozptylu to, že je vyjádřen ve čtvercích měrové jednotky příslušné číselné proměnné. Směrodatná odchylka
Variabilitu je rovněž možné popisovat pomocí kladné druhé odmocniny z rozptylu, která nese název směrodatná odchylka (1.60)
s x = s2x .
Směrodatná odchylka n hodnot x1, x2, ..., xn, které nemusí být uspořádány, je definována jako kvadratický průměr odchylek jednotlivých hodnot sledované proměnné od jejich aritmetického průměru
sx =
n ∑ ( xi i =1
− x )2 n
.
(1.61)
Směrodatná odchylka udává, jak se v průměru ve zkoumaném statistickém souboru odchylují jednotlivé hodnoty sledované proměnné od jejich aritmetického průměru. Směrodatná odchylka je uvedena ve stejných měrových jednotkách jako sledovaná proměnná, což je její značnou výhodou. Jestliže chceme symbolicky rozlišit směrodatnou odchylku základního souboru a směrodatnou odchylku výběrového souboru, tak směrodatná odchylka základního souboru se označuje zpravidla σ a směrodatná odchylka výběrového souboru s. Průměrná odchylka Průměrná odchylka n hodnot, x1, x2, ..., xn, které nemusí být uspořádány, je definována jako aritmetický průměr absolutních hodnot odchylek jednotlivých hodnot sledované proměnné od jejich aritmetického průměru
d =
n ∑xi i =1
−x . n
(1.62)
Jsou-li hodnoty proměnné setříděny do tabulky rozdělení četností, vypočítá se průměrná odchylka
d =
k ∑xi i =1
− x ⋅ ni k ∑ ni i =1
.
(1.63)
Průměrná odchylka je uvedena ve stejných měrových jednotkách jako sledovaná proměnná. Kvantilové odchylky Kvantilové odchylky jsou definovány jako aritmetický průměr kladných odchylek sousedních kvantilů. Kvartilová odchylka je definována jako aritmetický průměr kladných odchylek sousedních kvartilů
( x~75 − ~ x ) + (~ x −~ x 25) ~ x 75 − ~ x 25 Q= = . 2 2
(1.64)
V čitateli vztahu (1.63) je kvartilové rozpětí. Kvartilová odchylka se uvádí ve stejných měrových jednotkách jako sledovaná proměnná.
Charakteristiky relativní variability Pomocí charakteristik absolutní variability nelze srovnávat variabilitu proměnné u dvou nebo více statistických souborů, které se výrazně liší polohou sledované proměnné, nebo variabilitu dvou nebo více proměnných, které jsou vyjádřeny v různých měrových jednotkách. V těchto případech používáme charakteristiky relativní variability, které vliv polohy proměnné nebo vliv měrové jednotky proměnné vylučují, neboť dávají do poměru charakteristiku absolutní variability k aritmetickému průměru nebo k mediánu. Variační koeficient Variační koeficient je nejznámější charakteristikou relativní variability. Je definován jako podíl směrodatné odchylka a aritmetického průměru
vx =
sx . x
(1.65)
Variační koeficient je bezrozměrné číslo, po vynásobení stem udává variabilitu v procentech. Velmi hrubé pravidlo říká, že variační koeficient vyšší než 50 % značí poměrně velkou nesourodost statistického souboru. Variační koeficient po vynásobení stem udává, z kolika procent se směrodatná odchylka podílí na aritmetickém průměru. Skutečnost, že variační koeficient je možné interpretovat v procentech, může zavádět uživatele v tom smyslu, že za definiční obor variačního koeficientu považují pouze interval od 0 do 1 nebo v procentech od 0 % do 100 %, což je veliký omyl. Protože směrodatná odchylka může být obecně větší než aritmetický průměr vypočtený ze stejných hodnot jako směrodatná odchylka, může být tedy variační koeficient větší než 1 nebo v procentech větší než 100 %. Protože aritmetický průměr může být obecně i záporné číslo a směrodatná
odchylka je nezáporné číslo, může být tedy variační koeficient i číslo záporné. Variační koeficient se tedy obecně pohybuje v intervalu (−∞, +∞). Variační koeficient se používá mimo jiné hlavně tehdy, srovnáváme-li variabilitu hodnot dvou nebo více různorodých proměnných vyjádřených zpravidla v různých měrových jednotkách. Variační koeficient používáme rovněž při srovnávání variability hodnot stejné proměnné ve dvou nebo více statistických souborech, jestliže se aritmetické průměry dané proměnné v těchto statistických souborech podstatně liší. Rovněž variační koeficient má některé důležité vlastnosti: 1. Přičteme-li ke všem hodnotám, resp. odečteme-li od všech hodnot, proměnné libovolnou kladnou konstantu (a > 0), variační koeficient se zmenší
v( x + a) =
sx s < x = v x, x+a x
(1.66)
v( x − a) =
sx s > x = v x. x −a x
(1.67)
resp. zvětší
2. Násobíme-li všechny hodnoty proměnné libovolnou nenulovou konstantou ( k ≠ 0), variační koeficient se nezmění
v(k ⋅ x) =
k ⋅ sx k⋅x
=
sx = v x. x
(1.68)
Ze vztahů (1.66) a (1.67) vyplývá, že i při stejné absolutní variabilitě dvou nebo více statistických souborů mohou mít tyto statistické soubory různou relativní variabilitu, protože při
s( x + a ) = s x = s( x − a ) ,
(1.69)
v ( x + a ) < v x < v ( x − a ).
(1.70)
je
Při stejné relativní variabilitě ve dvou nebo více statistických souborech může existovat různá absolutní variabilita těchto statistických souborů. Charakteristika komplexní variability
Protože směrodatná odchylka měří objektivně absolutní variabilitu a variační koeficient měří objektivně relativní variabilitu, byla zkonstruována charakteristika komplexní variability hodnot kardinální proměnné, která měří variabilitu hodnot jak z hlediska absolutních rozdílů mezi hodnotami proměnné, tak z hlediska podílů hodnot proměnné. Charakteristika komplexní variability hodnot kardinální proměnné je z n hodnot x1, x2, ..., xn, které nemusí být uspořádány a kde xi > 0, i = 1, 2, ..., n, definována
VK =
n n ∑ ∑ ( xi i =1 j =1
− x j) ⋅ ln
xi xj
n ⋅ (n − 1)
(1.71)
.
Upravíme čitatele vztahu (1.71) n n ∑ ∑ ( xi i =1 j =1
= =
n n xi = ∑ ∑ ( xi − x j) ⋅ (ln xi − ln x j) = x j i =1 j =1
− x j) ⋅ ln
n n ∑ ∑ ( xi ⋅ ln xi i =1 j =1
n ∑ [n ⋅ xi ⋅ ln xi i =1
− xi ⋅
− xi ⋅ ln x j − x j ⋅ ln xi + x j ⋅ ln x j) = n ∑ ln x j j =1
− (ln xi) ⋅
n ∑ xj j =1
n
n
n
n
n
i =1
j =1
i =1
j =1
i =1
+
n ∑ x j ⋅ ln x j ] j =1
= n ⋅ ∑ xi ⋅ ln xi − ( ∑ ln x j) ⋅ ( ∑ xi) − ( ∑ x j) ⋅ ( ∑ ln xi) + n ⋅ n
n
n
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
=
n ∑ x j ⋅ ln x j j =1
=
= 2 ⋅ n ⋅ ∑ xi ⋅ ln xi − 2 ⋅ ( ∑ xi) ⋅ ( ∑ ln xi) =
= 2 ⋅[n ⋅ ∑ xi ⋅ ln xi − ( ∑ xi) ⋅ ( ∑ ln xi)], neboť platí, že n ∑ xi i =1
=
n ∑ xj j =1
n ∑ ln xi i =1
=
n ∑ ln x j . j =1
a
Čitatel vztahu (1.71) je tedy n n ∑ ∑ ( xi i =1 j =1
− x j) ⋅ ln
n n n xi = 2 ⋅[n ⋅ ∑ xi ⋅ ln xi − ( ∑ xi) ⋅ ( ∑ ln xi)]. i =1 i =1 i =1 xj
Jestliže dosadíme vztah (1.72) do vztahu (1.71), získáváme
(1.72)
VK =
n n ∑ ∑ ( xi i =1 j =1
− x j) ⋅ ln
xi xj
n ⋅ (n − 1)
=
n
n
n
i =1
i =1
i =1
2 ⋅[n ⋅ ∑ xi ⋅ ln xi − ( ∑ xi) ⋅ ( ∑ ln xi)] n ⋅ (n − 1)
=
n n ∑n x ⋅ ln x ∑ xi ∑ ln xi i i 2 ⋅ n i =1 = ⋅ − i =1 ⋅ i =1 , n −1 n n n
tedy n n n 2 ⋅ n i∑=1xi ⋅ ln xi i∑=1xi i∑=1ln xi ⋅ − ⋅ . V K= n − 1 n n n
(1.73)
Výraz v závorce vztahu (1.73) n n ∑n x ⋅ ln x ∑ xi ∑ ln xi i i c( x , ln x) = i =1 − i =1 ⋅ i =1 = x ⋅ ln x − x ⋅ ln x n n n
(1.74)
je kovariance hodnot proměnné x a logaritmů hodnot proměnné x, kterou značíme c(x, ln x). Charakteristiku komplexní variability hodnot kardinální proměnné můžeme tedy zapsat
VK =
2⋅n ⋅ c( x , ln x) . n −1
(1.75)
Charakteristika komplexní variability hodnot kardinální proměnné má opět některé důležité vlastnosti: 1. Přičteme-li ke všem hodnotám proměnné libovolnou kladnou konstantu (a > 0), charakteristika komplexní variability hodnot kardinální proměnné se zmenší. 2. Odečteme-li od všech hodnot proměnné kladnou konstantu a < xmin, charakteristika komplexní variability hodnot kardinální proměnné se zvětší. 3. Násobíme-li všechny hodnoty proměnné kladnou konstantou (k > 0), charakteristika komplexní variability hodnot kardinální proměnné se násobí touto konstantou.
Příklad 1.17 Ze 42 hodnot xi, i = 1, 2, …, 42 byl vypočítán aritmetický průměr x = 7,8 a rozptyl 2 sx = 2,5. Při kontrole bylo zjištěno, že chybí tři jednotky s hodnotami x43 = 4,2, x44 = 7,3 a x45 = 9,6. Opravte uvedený aritmetický průměr a rozptyl.
Řešení:
Vyjdeme ze vzorce prostého aritmetického průměru (1.12). Musíme však odlišovat původní (špatnou) hodnotu aritmetického průměru od nové (správné) hodnoty aritmetického průměru. Rovněž původní (špatný) počet statistických jednotek npuv = 42 a nový (správný) počet statistických jednotek nnov = 45 (po přičtení chybějících tří statistických jednotek). Původní aritmetický průměr je
x puv =
42 ∑ xi i =1
npuv
,
odtud součet původních 42 hodnot je 42 ∑ xi i =1
= x puv ⋅ npuv = 7,8 ⋅ 42 = 327,6 .
K tomuto součtu původních 42 hodnot je třeba přičíst chybějící tři hodnoty 45 ∑ xi i =1
=
42 ∑ xi i =1
+ x 43 + x44 + x 45 = 327,6 + 4,2 + 7,3 + 9,6 = 348,7 .
Tím jsme získali součet všech 45 hodnot. Nyní vypočteme opravený aritmetický průměr
x nov =
45 ∑ xi i =1
nnov
=
348,7 = 7,749 , 45
tj. správný aritmetický průměr je
x nov = 7,749 . Nyní je třeba opravit rozptyl. Vyjdeme přitom z prostého rozptylu ve výpočtovém tvaru (1.50) 2
n 2 ∑n x ∑ xi i i =1 i =1 2 = − = − x2 , sx n n n n 2 ∑ xi i =1
tedy špatný rozptyl
s x puv = 2
odtud součet čtverců původních 42 hodnot
42 2 ∑ xi i =1
npuv
− x 2puv ,
42 2 ∑ xi i =1
= n puv ⋅ (s 2x puv + x 2puv) = 42 ⋅ (2,5 + 7,82) = 2 660,28 .
Potřebujeme ale součet čtverců všech 45 hodnot 45 2 ∑ xi i =1
=
42 2 ∑ xi i =1
+ x 243 + x 244 + x 245 = 2 660,28 + 4,2 2 + 7,32 + 9,6 2 = 2 823,37 .
Nyní vypočteme opravený rozptyl všech 45 hodnot
s x nov = 2
45 2 ∑ xi i =1
nnov
− x 2nov =
2 823,37 − 7,7492 = 2,695 . 45
Opravený rozptyl tedy je
s 2x nov = 2,695 . Příklad 1.18 Sledovali jsme proměnnou x a dodatečně jsme zjistily chyby u dvou jednotek. Místo 90 má být správně 100 a místo 125 má být správně 155. Ostatních 18 údajů je správných. Opravte vypočítaný aritmetický průměr a rozptyl, byl-li aritmetický průměr 115 a rozptyl 900.
Řešení: Počet statistických jednotek se v tomto případě nemění, a tedy npuv = nnov = n = 18 + 2 = 20 (18 správných hodnot a 2 špatné hodnoty). Nejprve opět opravíme vypočítaný aritmetický průměr a opět vyjdeme ze vzorce prostého aritmetického průměru (1.12)
x puv
20 ∑ xi i =1 puv = , n
Odtud součet 20 hodnot, mezi kterými jsou ale i dvě špatné hodnoty, je
20 ∑ x = n ⋅ x = 20 ⋅115 = 2 300 . i =1 i puv Tento součet 20 hodnot je však špatný, neboť místo 90 je třeba započítat 100 (tedy o 10 více) a místo 125 je třeba započítat 155 (tedy o 30 více). Získáme tak opravený součet 20 hodnot 20 20 ∑ xi = ∑ x i − 90 + 100 − 125 + 155 = 2 300 + 10 + 30 = 2 340 . i =1 nov i =1 puv
Nyní již známe správný součet 20 hodnot a můžeme tedy vypočítat správný aritmetický průměr
20 ∑ xi i =1 nov 2 340 = = 117 , x nov = n 20 opravený aritmetický průměr je tedy
x nov = 117 . Nyní přistoupíme k rozptylu. Opět vyjdeme z prostého rozptylu ve výpočtovém tvaru (1.50) 2 20 ∑ xi i =1 puv 2 − x 2puv , s x puv = n
odtud součet čtverců 20 hodnot, mezi nimiž jsou i dvě hodnoty nesprávné je 2 20 ∑ xi = n ⋅ (s 2x puv + x 2puv) = 20 ⋅ (900 + 1152) = 282 500 . i = 1 puv
Místo 902 je třeba započítat 1002 (nelze přičíst 102) a místo 1252 je třeba započítat 1552 (nelze přičíst 302) 20 2 20 ∑ xi = ∑ x i2 − 90 2 + 100 2 − 125 2 + 155 2 = i =1 nov i =1 puv
= 282 500 − 8 100 + 10 000 − 15 625 + 24 025 = 292 800 , což je opravený součet čtverců 20 hodnot. Nyní vypočteme opravený rozptyl 2 20 ∑ xi 292 800 i =1 nov 2 = − x 2nov = − 117 2 = 951, s x nov n 20
opravený rozptyl je tedy
s x nov = 951. 2
Příklad 1.19 Obchodní firma odebírá určitý druh zboží od čtyř výrobců. První výrobce dodává zboží v průměru za 210 Kč a směrodatná odchylka jeho ceny (cena během roku kolísá) je 30 Kč, dodávky tohoto výrobce tvoří 20 % celkového odběru firmy. Odběrní cena od druhého výrobce je v průměru 198 Kč se směrodatnou odchylkou 32 Kč a jeho podíl na celkových dodávkách firmy je 10 %. Odběrní cena od třetího výrobce je v průměru 220 Kč se směrodatnou odchylkou 34 Kč, podíl tohoto výrobce na celkových dodávkách firmy je
40 %. Podíl posledního výrobce je 30 % a zboží dodává v průměru za 200 Kč se směrodatnou odchylkou 33 Kč. Stanovte průměrnou cenu výrobku a celkový rozptyl ceny, se kterým musí obchodní firma počítat od všech výrobců. Řešení: Jedná se o čtyři výrobce, statistický soubor je tedy rozdělen do k = 4 dílčích podsouborů, přičemž známe aritmetické průměry v jednotlivých dílčích podsouborech
r x1 = 210 , x 2 = 198 , x 3 = 220 , x 4 = 200 , směrodatné odchylky v jednotlivých dílčích podsouborech
s1x = 30 , s 2 x = 32 , s 3 x = 34 , s 4 x = 33 a relativní četnosti v jednotlivých dílčích podsouborech
p1 = 0,2 ,
p 2 = 0,1,
p 3 = 0,4 ,
p 4 = 0,3 .
Nejprve je třeba vypočítat rozptyly six2 v dílčích podsouborech. Potřebné výpočty jsou obsaženy v tabulce 1.28. Tabulka 1.28
i
xi
six
pi
1 2 3 4 Celkem
210 198 220 200 X
30 32 34 33 X
0,2 0,1 0,4 0,3 1,0
x i ⋅ pi
six2 302 = 322 = 342 = 332 =
900 1 024 1 156 1 089 X
210 · 0,2 = 198 · 0,1 = 220 · 0,4 = 200 · 0,3 =
six2 ⋅ pi 42 19,8 88 60 209,8
900 · 0,2 = 1 024 · 0,1 = 1 156 · 0,4 = 1 089 · 0,3 =
180 102,4 462,4 326,7 1 071,5
( x i - x )2 ⋅ pi (210 − 209,8)2 · 0,2 = (198 − 209,8)2 · 0,1 = (220 − 209,8)2 · 0,4 = (200 − 209,8)2 · 0,3 =
0,008 13,924 41,616 28,812 84,360
Z tabulky 1.28 získáváme k ∑ xi⋅ i =1
p i = 209,8 ,
k 2 ∑ s ix ⋅ i =1
p i = 1 071,5 ,
k ∑ (x i i =1
2
- x ) ⋅ p i = 84,36 .
Protože neznáme absolutní četnosti ni, i = 1, 2, 3, 4, v jednotlivých dílčích podsouborech, ale známe pouze relativní četnosti pi, i = 1, 2, 3, 4, k výpočtu použijeme vždy vzorec vyjádřený pomocí relativních četností. Celkový aritmetický průměr za celý statistický soubor dohromady vypočteme s využitím vztahu (1.13)
x=
k ∑ xi i =1
⋅ p i = 209,8 ,
celkový aritmetický průměr za celý statistický soubor dohromady (průměrná cena výrobku) je tedy
x = 209,8 Kč , tuto hodnotu potom dosadíme za x v posledním sloupci tabulky 1.28. Nyní zbývá vypočítat celkový rozptyl za celý statistický soubor dohromady. Nejprve vypočteme pomocí vztahu (1.58) aritmetický průměr dílčích rozptylů. Vztah (1.58) vyjádříme pomocí relativních četností
s2 =
k 2 ∑ s ix ⋅ n i i =1 k ∑ ni i =1
k 2 ∑ s ix ⋅ n i i =1
=
n
=
k 2 ∑ s ix i =1
⋅ ni = ∑ s ix2 ⋅ p i = 1 071,5 . n i =1 k
S využitím vztahu (1.59), který opět nejprve vyjádříme pomocí relativních četností, vypočteme rozptyl dílčích aritmetických průměrů
s 2x =
k ∑ (xi i =1
- x )2 ⋅ ni k ∑ ni i =1
=
k ∑ (xi i =1
- x )2 ⋅ ni n
=
k ∑ (xi i =1
k 2 2 - x ) ⋅ ni = ∑ ( x i - x ) ⋅ pi = 84,36 . n i =1
S využitím (1.56) vypočteme celkový rozptyl
s 2x = s 2 + s 2x = 1 071,5 + 84,36 = 1 155,86 . Celkový rozptyl ceny je tedy
s x = 1 155,86 . 2
Příklad 1.20 Z údajů byl vypočítán rozptyl měsíčních mezd sx2 = 1 000 000. Určete směrodatnou odchylku mezd, zvýší-li se mzdy: a) o 1 500 Kč b) o 8 % c) 1,1 krát.
Řešení: a) Máme zde funkci y = x + a. Vzhledem k vlastnosti rozptylu číslo 3, jestliže přičteme ke všem mzdám stejnou konstantu a = 1 500 Kč, rozptyl se nezmění. Rozptyl proměnné y je
s y = s ( x + a) = s x = 1 000 000 , 2
2
2
a tedy směrodatná odchylka mezd (kladná druhá odmocnina z rozptylu) po zvýšení mezd bude
s y = s 2y = 1 000 000 = 1 000 Kč . b) Jestliže všechny mzdy vzrostou jednotně o 8 %, každou jednotlivou mzdu násobíme stejnou konstantou k = 1,08. Máme zde tedy funkce y = k · x. Vzhledem k vlastnosti rozptylu číslo 4, jestliže vynásobíme všechny hodnoty stejnou konstantou k = 1,08, rozptyl se vynásobí čtvercem této konstanty. Rozptyl proměnné y tentokrát tedy bude 2 2 2 2 2 s y = s (k ⋅ x) = k ⋅ s x = 1,08 ⋅1 000 000 = 1 166 400 ,
a tedy směrodatná odchylka mezd po zvýšení mezd tentokrát bude
s y = s 2y = 1 166 400 = 1 080 Kč . c) Vzrostou-li všechny mzdy 1,1 krát, tedy každá mzda vzroste o 10 %, získáváme opět funkci funkce y = k · x. Jedná se tedy o analogický postup, jako v ad b) 2 s 2y = s (2k ⋅ x) = k 2 ⋅ s 2x = 1,1 ⋅1 000 000 = 1 210 000 ,
takže směrodatná odchylka mezd 2 s y = s y = 1 210 000 = 1100 Kč .
Příklad 1.21 Máme n výsledků měření teploty x ve stupních Celsia. Aritmetický průměr x = 25 a rozptyl sx2 = 16. Převeďte výsledky na stupně Fahrenheita y, je-li yi = 1,8 · xi + 32 pro každé měření. Vypočítejte: a) aritmetický průměr teplot měřených ve stupních Fahrenheita, b) rozptyl teplot měřených ve stupních Fahrenheita, c) variační koeficient teplot měřených ve stupních Celsia a zjistěte, liší-li se od variačního koeficientu vypočítaného z teplot měřených ve stupních Fahrenheita.
Řešení: Máme zde funkci y = k · x + a, kde k = 1,8 a a = 32. a) Aritmetický průměr teplot měřených ve stupních Fahrenheita je aritmetický průměr proměnné y. K výpočtu využijeme vlastností aritmetického průměru číslo 5 (přičteme-li ke všem hodnotám stejnou konstantu a = 32, aritmetický průměr se zvětší o tuto konstantu) a 6 (násobíme-li všechny hodnoty stejnou konstantou k = 1,8, aritmetický průměr se rovněž znásobí touto konstantou). Aritmetický průměr teplot měřených ve stupních Fahrenheita je
y = k ⋅ x + a = k ⋅ x + a = 1,8 ⋅ 25 + 32 = 77 .
b) Rozptyl teplot měřených ve stupních Fahrenheita je rozptyl proměnné y. Pro výpočet použijeme vlastnosti rozptylu číslo 3 (přičteme-li ke všem hodnotám stejnou konstantu a = 32, rozptyl se nezmění) a 4 (násobíme-li všechny hodnoty stejnou konstantou k = 1,8, rozptyl se znásobí čtvercem této konstanty). Rozptyl teplot měřených ve stupních Fahrenheita určíme tedy následovně 2 2 2 2 2 s y = s (k ⋅ x + a) = k ⋅ s x = 1,8 ⋅16 = 51,84 .
c) Nejprve je třeba určit směrodatnou odchylku teplot měřených ve stupních Celsia sx a směrodatnou odchylku teplot měřených ve stupních Fahrenheita sx. Směrodatnou odchylku vypočteme jako kladnou druhou odmocninu z rozptylu 2 2 s x = s x = 16 = 4 a s y = s y = 51,84 = 7,2 ,
proto variační koeficient teplot měřených ve stupních Celsia bude
vx =
4 sx = = 0,16 , tj. 16 % x 25
a variační koeficient teplot měřených ve stupních Fahrenheita
vy =
s y 7,2 = = 0,093 506 , tj. 9,35 % . y 77
Variační koeficient teplot měřených ve stupních Celsia je větší než variační koeficient teplot měřených ve stupních Fahrenheita. Příklad 1.22 Průměrná výše vkladů na jedné vkladní knížce se zvýšila o 40 %, variabilita vkladů měřená rozptylem vzrostla o 96 %. Jak se změnil variační koeficient?
Řešení: Jestliže aritmetický průměr výše vkladů na jedné vkladní knížce vzrostl o 40 %, je nový aritmetický průměr y 1,4-násobek původního aritmetického průměru x , tj.
y = 1,4 ⋅ x ⋅ Podobně nový rozptyl sy2 je 1,96-násobek původního rozptylu sx2, tj.
s 2y = 1,96 ⋅ s 2x , takže nová směrodatná odchylka sy bude 2 2 s y = s y = 1,96 ⋅ s x = 1,4 ⋅ s x ,
tj. směrodatná odchylka vzrostla o 40 %. Potom nový variační koeficient vx bude
vy =
s y 1,4 ⋅ s x s x = = = vx , y 1,4 ⋅ x x
získáváme tedy
v y = vx , tedy variační koeficient se nezměnil. Příklad 1.23 U 1 000 osob starších 18 let byl v roce 2 000 zjištěn jejich věk. Ze zjištěných údajů byl vypočten aritmetický průměr 50 let a směrodatná odchylka 8 let. Jaký byl variační koeficient věku těchto osob v roce 2006, předpokládáme-li, že nikdo nezemřel?
Řešení: Vzhledem k vlastnosti aritmetického průměru číslo 5, jestliže přičteme k věku každé z 1 000 osob v roce 2 000 jednotnou konstantu a = 6 let (každá z těchto osob od roku 2 000 do roku 2 006 zestárla o 6 let), aritmetický průměr věku těchto osob se zvětší o tuto konstantu, tj. vzroste o 6 let. K výpočtu použijeme vztah (1.18)
y = x + a = x + a = 50 + 6 = 56 let . Vzhledem k vlastnosti rozptylu číslo 3, jestliže přičteme k věku každé z 1 000 osob v roce 2 000 jednotnou konstantu a = 6 let, rozptyl se nezmění, viz vztah (1.45). Protože směrodatná odchylka je kladná druhá odmocnina z rozptylu (1.60), když se nemění rozptyl, nebude se měnit ani směrodatná odchylka
s y = s x = 8 let . Variační koeficient věku těchto osob v roce 2006 bude tedy
vy =
sy 8 1 = = = 0,142 9 , tj. 14,29 % . y 56 7
Příklad 1.24 V přádelně bavlny byla vytvořena směs tří zásilek v poměru 2 : 3 : 5. Průměrná délka vlákna v první zásilce je 30 mm a variační koeficient 30 %, průměrná délka vlákna ve druhé zásilce je 33 mm a variační koeficient 28 % a průměrná délka vlákna ve třetí zásilce je 32 mm a variační koeficient 25 %. Vypočtěte průměrnou délku vlákna a variační koeficient vzniklé směsi.
Řešení:
Směs k = 3 zásilek je v poměru 2 : 3 : 5, 2 + 3 + 5 = 10, vypočteme relativní četnost pro každou zásilku
p1 =
2 10
= 0,2 ,
p2 =
3 10
= 0,3 ,
p3 =
5 10
= 0,5.
Řešení příkladu je zpočátku obdobné, jako tomu bylo při řešení příkladu 1.19. Pro výpočet poslouží tabulka 1.29. Protože variační koeficient v i-té skupině vypočteme jako
vix =
six , i = 1, 2, 3 , xi
potom směrodatná odchylka v i-té skupině bude
six = x i ⋅ vix , i = 1, 2, 3. Vypočteme tedy nejprve směrodatnou odchylku six pro každou skupinu
s1x = x1 ⋅ v1x = 30 ⋅ 0,30 = 9 mm , s 2 x = x 2 ⋅ v2 x = 33 ⋅ 0,28 = 9,24 mm , s31x = x 3 ⋅ v3x = 32 ⋅ 0,25 = 8 mm . Tabulka 1.29
i
pi
xi
vix
x i ⋅ pi
six2
six
1 2 3
0,2 0,3 0,5
30 33 32
0,30 0,28 0,25
9,00 9,24 8,00
Celkem
1,0
X
X
X
2
9,00 = 81,000 0 9,242 = 85,377 6 8,002 = 64,000 0
30 · 0,2 = 6,0 33 · 0,3 = 9,9 32 · 0,5 = 16,0
X
31,9
six2 ⋅ pi
( x i - x ) ⋅ pi
81,000 0 · 0,2 = 16,200 00 85,377 6 · 0,3 = 25,613 28 64,000 0 · 0,5 = 32,000 00 73,813 28
(30 − 31,9)2 · 0,2 = 0,722 (33 − 31,9)2 · 0,3 = 0,363 (32 − 31,9)2 · 0,5 = 0,005 1,090
2
Obdobně, jako v příkladu 1.19 vypočteme celkový aritmetický průměr za celý statistický soubor dohromady
x=
k ∑ xi i =1
⋅ pi = 31,9 mm ,
Průměrná délka vlákna vzniklé směsi je tedy 31,9 mm. Opět stejným způsobem, jako tomu bylo v příkladu 1.19, vypočteme aritmetický průměr dílčích rozptylů
s2 =
k 2 ∑ s ix ⋅ i =1
pi = 73,813 28 ,
rozptyl dílčích aritmetických průměrů
s 2x =
k ∑ (x i i =1
- x ) 2 ⋅ p i = 1,090
a celkový rozptyl za celý statistický soubor dohromady
s 2x = s 2 + s 2x = 73,813 28 + 1,090 = 74,903 28 . S využitím (1.60) vypočteme směrodatnou odchylku za celý statistický soubor dohromady
s x = s 2x = 74,903 28 = 8,654 668 mm , a tedy variační koeficient za celý statistický soubor dohromady bude podle (1.65)
vx =
s x = 8,654 668 = 0,271 306 , x 31,9
tj. variační koeficient vzniklé směsi bude 27,13 %. Příklad 1.25 V tabulce 1.30 máme k dispozici údaje o hrubém měsíčním příjmu 22 domácností v květnu roku 2000 a v květnu roku 2006 v Kč. Tabulka 1.25
Číslo domácnosti 1 2 3 4 5 6 7 8 9 10 11
Hrubý měsíční příjem květen 2000 květen 2006 20 745 31 565 33 253 42 836 21 456 33 525 32 443 41 333 28 558 39 938 27 453 39 261 21 111 33 835 20 453 32 445 26 354 38 523 27 998 39 555 26 996 38 453
Číslo domácnosti 12 13 14 15 16 17 18 19 20 21 22
Hrubý měsíční příjem květen 2000 květen 2006 26 564 37 253 24 878 35 864 22 523 34 938 23 001 35 631 25 122 37 641 23 136 36 252 22 839 33 853 29 855 39 422 32 899 42 221 20 111 31 555 26 344 38 235
Srovnejte variabilitu hrubých měsíčních příjmů 22 domácností v květnu roku 2000 a v květnu roku 2006.
Řešení: Označme proměnnou x hrubý měsíční příjem domácnosti v květnu roku 2000 a proměnnou y hrubý měsíční příjem domácnosti v květnu roku 2006. Potřebné výpočty uspořádáme do tabulky 1.26. Tabulka 1.26
xi 20 745 33 253 21 456 32 443 28 558 27 453 21 111 20 453 26 354 27 998 26 996 26 564 24 878 22 523 23 001 25 122 23 136 22 839 29 855 32 899 20 111 26 344 Celkem 564 092
ln xi xi · ln xi 9,940 060 53 206 206,555 8 10,411 900 27 346 226,919 6 9,973 759 61 213 996,986 1 10,387 239 98 336 993,226 7 10,259 692 39 292 996,295 2 10,220 230 73 280 575,994 2 9,957 549 51 210 213,827 7 9,925 884 85 203 014,122 8 10,179 375 35 268 267,257 8 10,239 888 36 286 696,394 2 10,203 443 99 275 452,173 8 10,187 312 19 270 615,761 1 10,121 739 16 251 808,626 8 10,022 292 29 225 732,089 2 10,043 292 97 231 005,781 7 10,131 499 24 254 523,523 8 10,049 145 12 232 497,021 6 10,036 224 88 229 217,340 0 10,304 107 61 307 629,132 7 10,401 197 54 342 188,997 9 9,909 022 21 199 280,345 6 10,178 995 82 268 155,466 0 Celkem Celkem 223,083 854 60 5 733 293,840 0
yi 31 565 42 836 33 525 41 333 39 938 39 261 33 835 32 445 38 523 39 555 38 453 37 253 35 864 34 938 35 631 37 641 36 252 33 853 39 422 42 221 31 555 38 235 Celkem 814 134
ln yi 10,359 804 19 10,665 134 15 10,420 046 71 10,629 416 49 10,595 083 53 10,577 986 94 10,429 251 05 10,387 301 63 10,559 010 74 10,585 447 39 10,557 192 00 10,525 487 76 10,487 489 29 10,461 330 34 10,480 971 32 10,535 849 16 10,498 249 83 10,429 782 90 10,582 079 32 10,650 673 01 10,359 487 33 10,551 506 61 Celkem 231,328 581 70
yi · ln yi 327 007,219 3 456 851,686 4 349 332,065 9 439 345,671 8 423 146,446 0 415 302,345 2 352 873,709 2 337 016,001 3 406 764,770 9 418 707,371 4 405 955,703 8 392 105,995 4 376 123,315 7 365 497,959 5 373 447,489 3 396 579,898 3 380 582,552 9 353 079,440 5 417 166,730 8 449 682,065 0 326 893,622 8 403 436,855 1 Celkem 8 566 898,917 0
Vzhledem k tomu, že počet zjišťovaných domácností je v květnu 2000 stejný, jako počet zjišťovaných domácností v květnu 2006, je nx = ny = 22. Z tabulky 1.26 získáváme nx ∑ xi i =1
= 564 092,
nx ∑ ln x i i =1
= 223,083 854 60 ,
nx ∑ xi i =1
⋅ ln xi = 5 733 293,840 ,
ny ∑y i i =1
= 814 134,
ny ∑ ln i =1
yi = 231,328 581 70 ,
ny ∑y i i =1
⋅ ln yi = 8 566 898,917 .
Vypočteme
x=
nx ∑ xi i =1
nx
=
564 092 = 25 640,545 45 , 22
ln x =
x ⋅ ln x =
nx ∑ ln x i i =1
nx
nx ∑ x i ⋅ ln x i i =1
y ⋅ ln y =
=
nx
y=
ln y =
223,083 854 60 = 10,140 175 21, 22
=
ny ∑y i i =1
ny
ny ∑ ln i =1
yi
ny ny ∑ y ⋅ ln i i =1
ny
=
=
yi
5 733 293,840 = 260 604,265 5 , 22
814 134 = 37 006,090 91, 22
231,328 581 70 = 10,514 935 53 , 22
=
8 566 898,917 = 389 404,496 2 . 22
Podle (1.74) vypočteme kovarianci hodnot proměnné x a logaritmů hodnot proměnné x
c( x , ln x) = x ⋅ ln x − x ⋅ ln x = 260 604,265 5 - 25 640,545 45 ⋅10,140 175 21 = 604,642 158 , a stejně kovarianci hodnot proměnné y a logaritmů hodnot proměnné y
c( y , ln y) = y ⋅ ln y − y ⋅ ln y = 389 404,496 2 - 37 006,090 91 ⋅10,514 935 53 = 287,836 065 . Nyní podle (1.75) vypočteme charakteristiku komplexní variability hodnot proměnné x
V Kx =
2 ⋅ nx nx − 1
⋅ c( x , ln x) =
2 ⋅ 22 ⋅ 604,642 158 = 1 266,869 283 22 - 1
a charakteristiku komplexní variability hodnot proměnné y
VKy =
2⋅ny ny − 1
⋅ c( y , ln y) =
2 ⋅ 22 ⋅ 287,836 065 = 603,085 089 . 22 - 1
Cvičení 1. Pro následující tabulku určete : 11 15
11 16
12 17
13 21
14 21
15 22
Variační rozpětí, kvantilové rozpětí, rozptyl, prostý rozptyl, směrodatná odchylka, průměrná odchylka, variační koeficient.
2. Pro následující tabulku určete : 21 45 18 15
10 18 19 10
32 47 23 12
44 58 63 72
15 33 40 36
41 17 38 29
Variační rozpětí, kvantilové rozpětí, rozptyl, prostý rozptyl, směrodatná odchylka, průměrná odchylka, variační koeficient.
Výsledky 1. 11; 6,5; 13,89; 15,15; 3.73; 3.11; 0.238 2. 320.5; 25; 287,92; 300.43; 16.97; 14.25; 1.31
1.6.3 Obecné, centrální a normované momenty Obecný moment l-tého řádu je u rozdělení četností číselné proměnné x definován jako
m\x, l =
k ∑ xil ⋅ ni i =1 k ∑ ni i =1
=
k ∑ xil ⋅ ni i =1
n
,
(1.76)
kde n je počet jednotek statistického souboru a k je počet obměn číselné proměnné x. Jestliže budeme postupně dosazovat za l = 1, 2, 3, ..., získáme jednotlivé obecné momenty
m\x,1 =
k ∑ xi ⋅ ni i =1 k ∑ ni i =1
m\x, 2 =
k ∑ xi2 ⋅ ni i =1 k ∑ ni i =1
m\x, 3 =
k ∑ xi3 ⋅ ni i =1 k ∑ ni i =1
=
=
=
k ∑ x i ⋅ ni i =1
n k ∑ xi2 ⋅ ni i =1
n k ∑ xi3 ⋅ ni i =1
n
,
,
,
(1.77)
(1.78)
(1.79)
m\x, 4 =
k ∑ xi4 ⋅ ni i =1 k ∑ ni i =1
=
k ∑ xi4 ⋅ ni i =1
n
(1.80)
,
atd. Mimořádný význam má první obecný moment (1.77), který se nazývá aritmetický průměr
m\x, 1 = x ,
(1.81)
který představuje momentovou charakteristiku polohy rozdělení četností. Centrální moment l-tého řádu je u rozdělení četností číselné proměnné x definován jako
mx , l =
k ∑ ( xi i =1
− a)l ⋅ ni
k ∑ ni i =1
=
k ∑ ( xi i =1
− a)l ⋅ ni ,
n
(1.82)
kde a je konstanta, n je počet jednotek statistického souboru a k je počet obměn číselné proměnné x. Jestliže budeme postupně dosazovat za l = 1, 2, 3, ..., získáme jednotlivé centrální momenty
mx , 1 =
mx , 2 =
mx , 3 =
mx , 4 =
k ∑ ( xi i =1
− a) ⋅ ni
k ∑ ni i =1 k ∑ ( xi i =1
− a)2 ⋅ ni k ∑ ni i =1
k ∑ ( xi i =1
− a) 3 ⋅ ni k ∑ ni i =1
k ∑ ( xi i =1
− a)4 ⋅ ni k ∑ ni i =1
=
=
=
=
k ∑ ( xi i =1
− a) ⋅ ni n
k ∑ ( xi i =1
− a)2 ⋅ ni n
k ∑ ( xi i =1
,
− a) 3 ⋅ ni n
k ∑ ( xi i =1
(1.83)
,
,
− a)4 ⋅ ni n
,
(1.84)
(1.85)
(1.86)
atd. V popisné statistice má důležitý význam druhý centrální moment v případě, že a = x
mx , 2 =
k ∑ ( xi i =1
− x )2 ⋅ ni k ∑ ni i =1
=
k ∑ ( xi i =1
− x )2 ⋅ ni
(1.87)
,
n
který se nazývá rozptyl
mx,2 = s2x
(1.88)
a je společně se směrodatnou odchylkou momentovou charakteristikou absolutní variability rozdělení četností. Normovaný moment l-tého řádu je u rozdělení četností definován jako moment normované proměnné
ui =
xi − x , sx
(1.89)
jedná se o bezrozměrnou proměnnou, kde x je aritmetický průměr (1.13) a (1.77) a sx je směrodatná odchylka (1.60), l-tý moment normované proměnné (1.89) je potom definován jako
mu, l =
k ∑ uil ⋅ ni i =1 k ∑ ni i =1
=
k ∑ uil ⋅ ni i =1
n
1 k 1 k xi − x = ⋅ ∑ uil ⋅ ni = ⋅ ∑ ⋅ ni . n i =1 n i =1 s x l
(1.90)
Jestliže budeme postupně dosazovat za l = 1, 2, 3, ..., získáváme
1 k 1 k xi − x ⋅ ∑ ui ⋅ ni = ⋅ ∑ ⋅ ni = 0 , n i =1 n i =1 s x
(1.91)
1 k 1 k xi − x mu, 2 = ⋅ ∑ ui2 ⋅ ni = ⋅ ∑ ⋅ ni = 1 , n i =1 n i =1 s x
(1.92)
mu,1 =
2
1 k 1 k xi − x mu, 3 = ⋅ ∑ ui3 ⋅ ni = ⋅ ∑ ⋅ ni = n i =1 n i =1 s x 3
1 k 1 k xi − x mu, 4 = ⋅ ∑ ui4 ⋅ ni = ⋅ ∑ ⋅ ni = n i =1 n i =1 s x 4
k ∑ ( xi i =1
− x )3 ⋅ ni
k ∑ ( xi i =1
− x ) 4 ⋅ ni
n ⋅ s3x
n ⋅ s4x
,
.
(1.93)
(1.94)
Z (1.91) plyne, že aritmetický průměr normované proměnné (1.89) je roven nule, z (1.92) a (1.91) plyne, že rozptyl normované proměnné (1.89) se rovná jedné (protože aritmetický
průměr, a tedy první obecný moment normované proměnné u je roven nule, rovná se druhý obecný moment normované proměnné u přímo druhému centrálnímu momentu, tedy rozptylu), tedy i směrodatná odchylka normované proměnné (1.89) je rovna jedné
u=
s2u =
k ∑ (ui i =1
k ∑ ui ⋅ ni i =1 k ∑ ni i =1
− u )2 ⋅ ni k ∑ ni i =1
=
=
k ∑ ui ⋅ ni i =1
k ∑ (ui i =1
n
− u )2 ⋅ ni n
(1.95)
= 0,
=
k ∑ ui2 ⋅ ni i =1
n
su = su2 = 1.
= 1,
(1.96)
(1.97)
Třetí normovaný moment (1.93) se používá často jako momentová charakteristika šikmosti rozdělení četností. Čtvrtý normovaný moment (1.94) zmenšený o 3 se často používá jako momentová charakteristika špičatosti rozdělení četností.
1.6.4 Charakteristiky koncentrace Koncentrací hodnot číselné proměnné rozumíme hustější nakupení hodnot této proměnné v některé části variačního rozpětí oproti jiným částem tohoto variačního rozpětí. Máme dva základní druhy koncentrace, a tedy dva základní způsoby charakterizování koncentrace. První druh koncentrace spočívá ve srovnání stupně nahuštěnosti malých hodnot sledované proměnné se stupněm nahuštěnosti velkých hodnot dané proměnné. Stejný stupeň koncentrace malých i velkých hodnot sledované proměnné značí zpravidla symetričnost tvaru rozdělení četností. Větší stupeň koncentrace malých hodnot v porovnání se stupněm koncentrace velkých hodnot značí zpravidla kladně sešikmený tvar rozdělení četností. Větší stupeň koncentrace velkých hodnot v porovnání se stupněm koncentrace malých hodnot značí zpravidla záporně sešikmený tvar rozdělení četností. Charakterizování koncentrace je zde vázáno na charakterizování šikmosti, někdy říkáme kososti, rozdělení četností. Druhý druh koncentrace spočívá ve srovnání stupně nahuštěnosti hodnot sledované proměnné, které mají prostřední velikost, se stupněm nahuštěnosti ostatních hodnot dané proměnné. Stejný stupeň koncentrace prostředních hodnot i ostatních hodnot sledované proměnné značí zpravidla plochost tvaru rozdělení četností. Větší stupeň koncentrace prostředních hodnot v porovnání se stupněm koncentrace ostatních hodnot značí zpravidla špičatý tvar rozdělení četností. Charakterizování koncentrace je zde vázáno na charakterizování špičatosti, někdy říkáme excesu, rozdělení četností. V případě špičatého rozdělení četností vrchol tohoto rozdělení četností velmi výrazně vystupuje.
Charakteristiky šikmosti Je-li rozdělení četností souměrné, viz obrázek 1.7, platí
x=~ x,
(1.98)
tj. aritmetický průměr se rovná mediánu, polovina malých hodnot sledované proměnné x je nahuštěna v rámci první poloviny variačního rozpětí a polovina velkých hodnot sledované proměnné x je nahuštěna v rámci druhé poloviny variačního rozpětí. Je zde stejný počet podprůměrných a nadprůměrných hodnot. Je-li rozdělení četností nesouměrné sešikmené kladně, viz obrázek 1.8, platí
x>~ x,
(1.99)
tj. aritmetický průměr je větší než medián, polovina malých hodnot sledované proměnné x je nahuštěna v rámci menší části variačního rozpětí a polovina velkých hodnot sledované proměnné x je nahuštěna v rámci větší části variačního rozpětí. Je zde větší počet hodnot podprůměrných než nadprůměrných. Je-li rozdělení četností nesouměrné sešikmené záporně, viz obrázek 1.9, platí
x<~ x,
(1.100)
tj. aritmetický průměr je menší než medián, polovina malých hodnot sledované proměnné x je nahuštěna v rámci větší části variačního rozpětí a polovina velkých hodnot sledované proměnné x je nahuštěna v rámci menší části variačního rozpětí. Je zde větší počet hodnot nadprůměrných než podprůměrných. K měření šikmosti používáme různé charakteristiky šikmosti vycházející vesměs ze součtu třetích mocnin odchylek hodnot sledované proměnné od jejich aritmetického průměru. Je-li hodnota charakteristiky šikmosti nulová, jedná se o souměrné rozdělení četností a stejný stupeň koncentrace malých a velkých hodnot sledované proměnné. Je-li hodnota charakteristiky šikmosti kladná, jedná se o nesouměrné kladně sešikmené rozdělení četností a větší stupeň koncentrace malých hodnot sledované proměnné než velkých hodnot této proměnné. Je-li hodnota charakteristiky šikmosti záporná, jedná se o nesouměrné záporně sešikmené rozdělení četností a větší stupeň koncentrace velkých hodnot sledované proměnné než malých hodnot této proměnné. Momentovou charakteristikou šikmosti rozdělení četností je třetí normovaný moment (1.93), značí se zpravidla α. Z n hodnot x1, x2, ..., xn, které nemusí být uspořádány, se vypočítá
α=
n ∑ ( xi i =1
− x )3
n ⋅ s3x
,
(1.101)
jsou-li hodnoty proměnné setříděny do tabulky rozdělení četností, vypočteme α
(1.102)
Charakteristiku šikmosti (1.101) a (1.102) často stručně nazýváme pouze šikmost. V případě souměrného rozdělení četností nabývá nulové hodnoty, v případě nesouměrného kladně
sešikmeného rozdělení četností nabývá kladné hodnoty a v případě nesouměrného záporně sešikmeného rozdělení četností nabývá záporné hodnoty. Často je charakteristika šikmosti různě modifikována, ale vztah (1.101) je základem momentového měření šikmosti rozdělení četností. Šikmost, kterou budeme značit α\, je definována jako n
α\ =
3 n ⋅ ∑ ( xi − x ) i =1
(n − 1) ⋅ (n −
3, 2) ⋅ s\x
n > 2,
(1.103)
kde směrodatná odchylka je definována jako kladná druhá odmocnina ze vztahu (1.38)
s\x = s\x . 2
(1.104)
K měření šikmosti rozdělení četností se rovněž používá standardizovaná šikmost, kterou budeme značit α\ \ a která je definována jako
α\ . α = 6 n \\
(1.105)
Dále je možno k měření šikmosti rozdělení četností použít velmi jednoduchou charakteristiku šikmosti, kterou označíme α\ \ \ a která je definována jako
n \ − n \\ , α = n \\\
(1.106)
n je celkový počet hodnot sledované proměnné, tj. rozsah statistického souboru, n\ je počet hodnot sledované proměnné menších než aritmetický průměr, n\ \ je počet hodnot sledované proměnné větších než aritmetický průměr. V případě souměrného rozdělení četností nabude charakteristika šikmosti (1.106) nulové hodnoty, v případě nesouměrného kladně sešikmeného rozdělení četností nabude kladné hodnoty a v případě nesouměrného záporně sešikmeného rozdělení četností nabude záporné hodnoty. kde:
Charakteristiky špičatosti Rozdělení četností číselné proměnné se mohou lišit svojí špičatostí, jejíž podstatou je větší stupeň nahuštěnosti hodnot prostřední velikosti ve srovnání se stupněm nahuštěnosti ostatních hodnot sledované proměnné. Rozdělení četností je špičatější, tj. má výraznější vrchol, jestliže polovina prostředních hodnot sledované proměnné x je nahuštěna v rámci značně menší části variačního rozpětí než zbývající polovina hodnot sledované proměnné. Velká špičatost představuje vysoký stupeň koncentrace hodnot sledované proměnné
v blízkosti středních hodnot. O špičatosti rozdělení četností se velmi často hovoří jako o excesu, což pochází z latinského slova „excedere“, které znamená „vystupovat“, neboť ve špičatém rozdělení četností vrchol velmi výrazně vystupuje. K měření špičatosti používáme různé charakteristiky špičatosti vycházející vesměs ze součtu čtvrtých mocnin odchylek hodnot sledované proměnné od jejich aritmetického průměru. Vyšší hodnota těchto charakteristik špičatosti znamená špičatější rozdělení četností a vyšší stupeň koncentrace prostředních hodnot sledované proměnné v porovnání s ostatními hodnotami dané proměnné. Momentovou charakteristikou špičatosti rozdělení četností je čtvrtý normovaný moment (1.94) zmenšený o 3, značí se zpravidla β. Z n hodnot x1, x2, ..., xn, které nemusí být uspořádány, se vypočítá
β=
n ∑ ( xi i =1
− x )4
n ⋅ s4x
(1.107)
− 3,
jsou-li hodnoty proměnné setříděny do tabulky rozdělení četností, vypočteme β
β=
k ∑ ( xi i =1
− x ) 4 ⋅ ni
n ⋅ s4x
(1.108)
− 3.
Charakteristiku špičatosti (1.107) a (1.108) často stručně nazýváme pouze špičatost nebo exces. Je-li rozdělení četností stejně špičaté jako tzv. normované normální rozdělení (viz kapitola počtu pravděpodobnosti tohoto textu), nabývá uvedená charakteristika nulové hodnoty, je-li rozdělení četností špičatější než normované normální rozdělení, nabývá uvedená charakteristika kladné hodnoty, je-li rozdělení četností plošší než normované normální rozdělení, nabývá uvedená charakteristika záporné hodnoty. Charakteristika špičatosti je často různě modifikována, ale vztah (1.107) je základem momentového měření špičatosti rozdělení četností. Špičatost, kterou budeme značit β\, je definována jako n
β = \
4 n ⋅ (n + 1) ⋅ ∑ ( xi − x ) i =1
(n − 1) ⋅ (n − 2) ⋅ (n −
4 3) ⋅ s\x
−
3⋅ (n − 1)2 (n − 2) ⋅ (n − 3)
, n > 3,
(1.109)
kde směrodatná odchylka je opět definována vztahem (1.104). K měření špičatosti rozdělení četností se rovněž používá standardizovaná špičatost, kterou budeme značit β\ \ a která je definována jako
β = \\
β\ 24 n
.
(1.110)
Před momentovými i dalšími charakteristikami špičatosti se často v ekonomických aplikacích upřednostňují některá názornější měření stupně koncentrace. Často používaným
nástrojem grafického znázornění a měření stupně koncentrace číselné proměnné je Lorenzova křivka. Lorenzovu křivku, viz obrázek 1.18, zakreslujeme do pravoúhlého grafu se dvěma stupnicemi, z nichž každá je od 0 % do 100 %. Na vodorovné ose jsou kumulativní relativní četnosti v procentech statistických jednotek, které jsou nositeli sledované proměnné, na svislé ose jsou naopak kumulativní součty v procentech koncentrované proměnné. Souřadnicemi bodů na Lorenzově křivce jsou tedy kumulativní relativní četnosti v procentech statistických jednotek, které jsou nositeli zkoumané proměnné, a jim odpovídající kumulativní součty v procentech koncentrované proměnné. V případě nulové koncentrace splývá Lorenzova křivka s úhlopříčkou, což znamená, že na každou statistickou jednotku připadá stejně z celkového součtu hodnot sledované proměnné. Čím se Lorenzova křivka více prohýbá, tím větší je koncentrace zkoumané proměnné, tj. koncentrace poměrně velké části z celkového součtu hodnot sledované proměnné do malého počtu statistických jednotek. V případě nejvyšší možné koncentrace se Lorenzova křivka promění ve dvě navzájem na sebe kolmé úsečky, tj. splyne s vodorovnou osou a pravým okrajem grafu, což znamená, že úhrnný součet hodnot zkoumané proměnné je soustředěn pouze do jedné statistické jednotky. Charakteristikou koncentrace je potom poměr obsahu plochy mezi úhlopříčkou a Lorenzovou křivkou k ploše celého trojúhelníku pod úhlopříčkou. Při nulové koncentraci nabývá tato charakteristika hodnoty nula, při nejvyšší možné koncentraci nabývá tato charakteristika hodnoty jedna, tj. pohybuje se od nuly do jedné.
K u m u la tiv n ís o u č tyvp ro c e n te c hk o n c e n tro v a n ép ro m ě n n é
Obrázek 1.18 120
100
80
60
40
20
0
0 1
10 2
20 3
30 4
40 5
50 6
60 7
70 8
80 9
90 10
11
Kum ulativní r e lativní če tnos ti v pr oce nte ch s tatis ick ých je dnote k , k te r é js ou nos ite li s le dované pr om ě nné
Příklad 1.26 Máme k dispozici následující údaje týkající se počtu ztracených kreditů u 51 studentů druhého ročníku jisté vysoké školy, které byly zjištěny po zkoušce ze statistiky, viz tabulka 1.27. Tabulka 1.27
Číslo studenta 1
Počet ztracených kreditů 6
Číslo studenta 18
Počet ztracených kreditů 4
Číslo studenta 35
Počet ztracených kreditů 3
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
3 2 1 7 8 6 5 2 0 7 1 6 3 5 7 8
4 2 1 2 4 0 0 6 2 6 3 1 2 4 1 0
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
2 8 7 6 5 2 0 7 1 6 3 5 7 8 4 0
Na základě údajů tabulky 1.27 posuďte, na kolik je rozdělení počtu ztracených kreditů u 51 studentů zešikmené a rozhodněte, zda je rozdělení počtu ztracených kreditů u 51 studentů z hlediska tvaru rozdělení špičaté nebo ploché. Řešení: Jedná se o statistický znak počet ztracených kreditů studenta, statistickou jednotkou je student a statistický soubor je soubor zjišťovaných 51 studentů. Rozsah statistického souboru je tedy n=
k ∑ ni i =1
= 51.
Máme zde následujících k = 9 obměn statistického znaku: x1 = 0, žádný kredit neztratilo n1 = 6 studentů, x2 = 1, jeden kredit ztratilo rovněž n2 = 6 studentů, x3 = 2, dva kredity ztratilo n3 = 8 studentů, x4 = 3, tři kredity ztratilo n4 = 5 studentů, x5 = 4, čtyři kredity ztratilo rovněž n5 = 5 studentů, x6 = 5, pět kreditů ztratili n6 = 4 studenti, x7 = 6, šest kreditů ztratilo n7 = 7 studentů, x8 = 7, sedm kreditů ztratilo n8 = 6 studentů a x9 = 8, osm kreditů ztratili n9 = 4 studenti. Výpočty uspořádáme do tabulky 1.28.
Tabulka 1.28
Počet ztracených kreditů xi
Počet studentů ni
0 1 2 3 4
6 6 8 5 5
xi ⋅ ni 0·6 = 1·6 = 2·8 = 3·5 = 4·5 =
0 6 16 15 20
xi2 ⋅ ni 02 · 6 = 12 · 6 = 22 · 8 = 32 · 5 = 42 · 5 =
0 6 32 45 80
5 6 7 8 Celkem
4 7 6 4 51
5·4 = 6·7 = 7·6 = 8·4 =
20 42 42 32 193
52 · 4 = 62 · 7 = 72 · 6 = 82 · 4 =
100 252 294 256 1 065
S využitím (1.13) vypočteme průměrný počet ztracených kreditů na jednoho studenta
x=
k ∑ xi ⋅ ni i =1 k ∑ ni i =1
=
193 = 3,784 314 kreditů , 51
s využitím (1.48) vypočteme rozptyl počtu ztracených kreditů
sx = 2
k 2 ∑ x i ⋅ ni i =1 k ∑ ni i =1
2
∑k x ⋅ n i i − i =1k = ∑ ni i =1
k 2 ∑ x i ⋅ ni i =1 k ∑ ni i =1
− x2 =
1 065 − 3,784 3142 = 6,561 320 51
a podle (1.60) vypočteme směrodatnou odchylku počtu ztracených kreditů 2 s x = s x = 6,561 320 = 2,561 507 kreditů .
V tabulce 1.29 si připravíme další výpočty ( xi - x )3 ⋅ ni a
( x i - x ) 4 ⋅ ni ,
kde za x dosadíme již vypočtené x = 3,784 314 . Tabulka 1.29
Počet ztracených kreditů xi
Počet studentů ni
0 1 2 3 4 5 6 7 8
6 6 8 5 5 4 7 6 4
Celkem
51
( xi - x )3 ⋅ ni
(0 − 3,784 314)3 · 6 = (1 − 3,784 314)3 · 6 = (2 − 3,784 314)3 · 8 = (3 − 3,784 314)3 · 5 = (4 − 3,784 314)3 · 5 = (5 − 3,784 314)3 · 4 = (6 − 3,784 314)3 · 7 = (7 − 3,784 314)3 · 6 = (8 − 3,784 314)3 · 4 =
− 325,171 702 − 129,510 770 − 45,446 855 − 2,412 348 0,050 169 7,186 613 76,141 720 199,513 439 299,684 829 80,035 095
( x i - x ) 4 ⋅ ni
(0 − 3,784 314)4 · 6 = (1 − 3,784 314)4 · 6 = (2 − 3,784 314)4 · 8 = (3 − 3,784 314)4 · 5 = (4 − 3,784 314)4 · 5 = (5 − 3,784 314)4 · 4 = (6 − 3,784 314)4 · 7 = (7 − 3,784 314)4 · 6 = (8 − 3,784 314)4 · 4 =
1 230,551 823 360,598 649 81,091 460 1,892 038 0,010 821 8,736 664 168,706 142 641,572 573 1 263,377 137 3 756,537 307
Z tabulky 1.29 získáváme k ∑ ( xi i =1
k ∑ ( xi i =1
3
- x ) ⋅ ni = 80,035 095 a
4
- x ) ⋅ ni = 3 756,537 307 .
Nyní již vypočteme s využitím (1.102) šikmost
α=
k ∑ ( xi i =1
3
- x ) ⋅ ni 3 n ⋅ sx
=
k ∑ ( xi i =1
3 - x i) ⋅ ni
2 n ⋅ sx ⋅ sx
=
80,035 095 = 0,093 373 51 ⋅ 6,561 320 ⋅ 2,561 507
a s využitím (1.108) špičatost
β=
k ∑ ( xi i =1
- x )4 ⋅ ni n ⋅ s 4x
−3=
k ∑ ( xi i =1
- x )4 ⋅ ni
n ⋅ s 2x ⋅ s 2x
−3=
3 756,537 307 − 3 = −1,289 059 . 51⋅ 6,561 320 ⋅ 6,561 320
Z vypočtené hodnoty α = 0,093 373 lze usuzovat, že rozdělení četností počtu ztracených kreditů je mírně kladně zešikmené, což představuje, že počty ztracených kreditů u sledovaného souboru studentů jsou spíše menší než větší. Z vypočtené hodnoty β = − 1,289 059 můžeme usuzovat, že rozdělení četností počtu ztracených kreditů je poměrně ploché. Polygon četností graficky znázorňující rozdělení četností počtu ztracených kreditů představuje obrázek 1.19. Obrázek 1.19
9
ni
8
2; 8
7
6; 7
6
0; 6
1; 6
7; 6
5
3; 5
4; 5
4
5; 4
8; 4
3 2 1
xi
0 0
1
2
3
4
5
6
7
8
Cvičení 1. Výsledky zkoušky z matematiky za 1.ročník jsou uvedeny v následující tabulce. Určete šikmost a špičatost tohoto souboru.
Číslo studenta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Hodnocení studentů 1 1 1 2 2 2 3 3 3 3 3 3 3 4 4 4
2. Určete šikmost a špičatost následujícího statistického souboru.
Pořadové číslo 1 2 3 4 5 6 7 8 9 10 11 12
Hodnota 8 8 10 11 11 11 15 17 21 28 31 31
3. Určete šikmost a špičatost následujícího statistického souboru.
Pořadové číslo 1 2 3 4 5 6 7 8 9 10 11 12 13
Hodnota 25 37 26 28 27 31 33 28 14 19 19 19 28
4. Následující tabulka obsahuje denní počty vyrobených nákladních vozů za jeden měsíc roku.
3 3 5
4 4 3
5 2 2
4 4 4
2 3 3
3 2 5
4 4 2
5 5 3
3 3 5
2 4 2
Vytvořte variační řadu, určete modus, kvartily, střední hodnotu, rozptyl, šikmost a špičatost.
Výsledky
1. Ax = 1,153 ; Ex = -1,603 2. Ax = 0,676 ; Ex = -1,110 3. Ax = -0,153 ; Ex = -0,659
4. xi 2 3 4 5 N=
fi 7 9 8 6 30
Modus =3, Median = 3, x25 = 3; x75 = 4; x = 3,43.
s 2x = 1,112 Ax = 0,0904; Ex = -1,12.
1.6.5 Korelační koeficient K měření síly (těsnosti, intenzity) lineární závislosti dvou číselných proměnných x a y lze využít různé statistické charakteristiky, mezi nejčastěji používané patří korelační koeficient. Korelační koeficient proměnných x a y budeme značit rxy a je to poměr kovariance (1.55) těchto proměnných k součinu jejich směrodatných odchylek (1.60)
r xy =
s xy , sx ⋅ s y
(1.111)
vztah (1.111) lze ještě rozepsat n ∑ ( xi i =1
s xy = r xy = sx ⋅ s y
n ∑ xi ⋅ y i i =1
- x ) ⋅ ( yi - y ) n
n ∑ ( xi i =1
-x) n
2
⋅
n ∑ ( yi i =1
-y )
2
n
= n 2 ∑ xi i =1
n
=
n
x⋅ y − x ⋅ y
−
2 ∑n x i =1 i
− ⋅ n
n n ∑ xi ∑ y i i =1 i =1
⋅
n
n 2 ∑y i i =1
n
, 2
(x - x ) ⋅ ( y - y ) 2
2
2
tj. pro numerický výpočet korelačního koeficientu můžeme použít vzorec
n 2 ∑n y i =1 i
− n
=
r xy =
x⋅ y − x ⋅ y
.
(1.112)
2
(x - x ) ⋅ ( y - y ) 2
2
2
Korelační koeficient může nabývat hodnot z intervalu
− 1; 1 . Znaménko hodnoty
korelačního koeficientu určuje směr závislosti. V případě přímé závislosti je rxy > 0, v případě nepřímé závislosti je rxy < 0. Z absolutní hodnoty korelačního koeficientu usuzujeme na sílu závislosti obou proměnných. Jestliže pro všechny dvojice hodnot (xi; yi) platí vztah yi = a + b xi, a ≠ 0. b ≠ 0, i = 1, 2, …, n, mezi proměnnými x a y existuje funkční lineární závislost a absolutní hodnota korelačního koeficientu je v takovém případě rovna jedné. Čím více se liší závislost proměnných x a y od funkční lineární závislosti, tím je absolutní hodnota korelačního koeficientu bližší nule. Proměnné x a y jsou lineárně nezávislé, jestliže rxy = 0, říkáme, že jsou nekorelované. Z hlediska toho, zda je absolutní hodnota korelačního koeficientu blízká nule či jedné, hovoříme o slabě či silně korelovaných proměnných. Závěrem je třeba zdůraznit, že korelační koeficient měří sílu lineární závislosti dvou proměnných a nikoliv sílu jejich závislosti obecně, z čehož plyne, že jestliže je absolutní hodnota korelačního koeficientu blízká jedné, jedná se o silně závislé proměnné. Je-li absolutní hodnota korelačního koeficientu blízká nule, nelze tyto proměnné ještě prohlásit za slabě závislé, neboť mohou být silně závislé jinak než lineárně. Příklad 1.27 Ve výzkumu byli respondenti požádáni, aby udali výši svého čistého měsíčního příjmu a odhadli, kolik hodin týdně v průměru pracují. Výsledky byly získány u deseti majitelů firem s jedním zaměstnancem a jsou uvedeny v tabulce 1.30. Tabulka 1.30
Majitel firmy Týdenní počet odpracovaných hodin Měsíční příjem (v tis. Kč)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
61
60
65
55
65
46
60
53
50
65
21,6 27,3 24,0 27,6 33,9 36,6 35,4 25,5 18,9 19,2
Vypočtěte korelační koeficient a výsledky interpretujte. Řešení: Rozsah výběru n = 10 majitelů firem. Označme x proměnnou průměrný týdenní počet odpracovaných hodin a proměnnou y označíme čistý měsíční příjem. Údaje z tabulky x.x uspořádáme do následující tabulky umožňující využití uvedených pomocných výpočtů. Tabulka 1.31
Majitel firmy i 1 2 3 4
Týdenní počet hodin xi 61 60 65 55
Měsíční příjem yi 21,6 27,3 24,0 27,6
xi2 3 721 3 600 4 225 3 025
Pomocné výpočty yi2 466,56 745,29 576,00 761,76
xi · yi 1 317,6 1 638,0 1 560,0 1 518,0
5 6 7 8 9 10 Celkem
65 46 60 53 50 65 580
33,9 36,6 35,4 25,5 18,9 19,2 270,0
4 225 2 116 3 600 2 809 2 500 4 225 34 046
1 149,21 1 339,56 1 253,16 650,25 357,21 368,64 7 667,64
2 203,5 1 683,6 2 124,0 1 351,5 945,0 1 248,0 15 589,2
Vypočteme n ∑ xi i =1
580 x= = = 58 , n 10 n 2 ∑ xi i =1
34 046 2 = = 3 404,6 , x = n 10
x⋅ y =
n ∑ xi ⋅ y i i =1
n
=
n ∑y i i =1
y=
n n 2 ∑ y i i =1
2 y =
n
=
270 = 27 , 10
=
7 667,64 = 766,764 , 10
15 589,2 = 1 558,92 . 10
Pro výpočet korelačního koeficientu použijeme vztah (1.112)
r xy =
1 558,92 − 58 ⋅ 27 (3 404,6 - 58 ) ⋅ (766,764 - 27 ) 2
2
= − 0,180 813 663 =& − 0,180 8 .
V tomto statistickém souboru majitelů firem se projevila velice slabá nepřímá lineární závislost obou proměnných. Vzhledem k nízké absolutní hodnotě korelačního koeficientu lze konstatovat, že se v tomto statistickém souboru příjmy majitelů firem při růstu pracovního zatížení prakticky nezvětšovaly ani nezmenšovaly. Cvičení 1.Zkouška z matematiky má dvě části. Ústní a písemnou. Obě části se hodnotí nezávisle na sobě pomocí bodového ohodnocení v rozsahu 0 až 20 bodů. Výsledky zkoušek jsou uvedeny v následující tabulce
Číslo studenta Výsledek písemné části Výsledek ústní části
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
18
9
14
19
11
16
8
14
19
11
15
9
6
19
11
17
18
9
12
11
15
18
8
12
11
5
Vypočtěte korelační koeficient a výsledky interpretujte. 2. Pro statistický soubor uvedený v následující tabulce vypočtěte koeficient korelace.
Pořadové číslo X Y
1. 2. 3. 4. 5. 6. 7. 8. 9. 4,6 4,9 6,1 5,3 4,1 6,2 7,3 5,1 4,1 172 181 196 183 178 185 191 180 170
10. 4,3 177
3.Pro statistický soubor uvedený v následující tabulce vypočtěte koeficient korelace.
Pořadové číslo X Y
1. 2 12
2. 3 13
3. 2,3 18
4. 4,1 11
5. 1,8 14
6. 2,3 19
7. 3,2 9
8. 4,7 10
4.Pro statistický soubor uvedený v následující tabulce vypočtěte koeficient korelace.
Pořadové číslo X Y
1. 2 21
2. 3 1
3. 2,3 1
Výsledky 1. 0,848; relativně silná lineární závislost 2. 0,839 3. -0,604 4. -0,123
4. 4,1 3
5. 1,8 14
6. 2,3 1
7 3,2 6
8. 4,7 21
9. 1 18