Lesk a bída průměru Jen se školáček naučí dělit jednociferným číslem, začne otravovat své učitele zaklínadlem (aritmetického) průměru. Třeba takhle: „Jak to, že mi dáváte trojku, když mám průměr známek dvě celé tři?“ Přitom zapomíná, že si svým výkonem vybojoval hodnocení 1, 2, 4, kde každá známka má jinou váhu. Když budou spolu zápasit v boxu hubená 1 a tlustá 5, tak všem bude jasné, že zvítězí těžší váha (ne, že to bude nerozhodně za 3). Proč to tak mnoho studentů odmítá vzít na vědomí, když jde o hodnocení jejich vlastních výkonů? – No, uměl bych odpovědět, ale nechci být vulgární hned na první stránce. Známá je historka: „Sním-li dvě husy a ty žádnou, pak jsme v průměru snědli každý jednu.“
Průměr často jen předstírá rovnoměrnost, která neexistuje. Když v „průměru“ každý člověk sní husu, je zcela možné, že někteří lidé se přežerou a jiní budou hladovět. Průměr! Vypočítané číslo málokdy odpovídá skutečnosti (jeho hodnota je mimo obor zkoumaných reálií). Jako z hororu může působit zpráva, že „průměrný počet dětí na jednu dospělou ženu dosáhl hodnoty 2,2 dítěte“. Však také navrhla kterási parlamentní komise, aby se středním vrstvám poskytla finanční podpora pro dosažení celočíselných hodnot. Holt politici!
Modus Belgický vědec, Adolphe-Lambert Quételet se zabýval biometrií, vědou o měření člověka, a hledal „homme mayen“, což se může přeložit jako „průměrný člověk“ či „střední člověk“. Pro něho byl „homme mayen“ vznešenou, vysněnou představou, která svědomitému statistikovi umožňovala přesně nahlédnout do dílny přírody a objevovat její nejtajnější cíle. V počátcích výroby pánské i dámské konfekce mnozí výrobci této myšlence podlehli a vyráběli průměrné velikost, po nichž se stěží nacházela poptávka prostě proto, že „ideální postavy“ se vyskytují velmi zřídka. Pro textiláky je daleko důležitější vyrábět oděvy odpovídající nejčetnějším mírám a ne aritmeticky průměrným. Statistika skutečně používá „nejčetnější hodnotu“, tzv. modus, jako důležitou formu střední hodnoty souboru. Ale pozor, modus neříká nic o krajnostech a
textiláci na to zapomínají. Nejspíš proto sehnat nadměrné velikosti je pro některé jedince velkým problémem. Vyskytnou-li se v nějakém šetření dvě různé „nejčetnější“ (tedy přibližně stejně četné) hodnoty, byly zde bezpochyby omylem smíšeny dva různé celky. Takové dvouvrcholové rozdělení se vyskytuje například u tělesné výšky dospělého obyvatelstva jako celku – jedna nejčetnější hodnota pro ženy a jedna pro muže.
Medián Podívejme se na jinou formu střední hodnoty souboru. K tomu si vybereme abiturientskou třídu určitého ročníku - řekněme 1965 - a dotážeme se jí na příjmové poměry. Získané hodnoty uvádíme v tabulce: počet dotázaných 1 1 2 3 5 1 12
vydělává ročně v tolarech (T) 100 000 60 000 40 000 25 000 20 000 18 000 13 000
Pomocí listu papíru a tužky nebo malé kancelářské počítačky rychle zjistíme aritmetický průměr - součet ročních příjmu činí 589 000 T a (aritmetický) průměr je 23 560 T, tedy zase částka, kterou nikdo z dotazovaných ve skutečnosti nevydělává. Nejčetnější hodnota je od ní velmi vzdálena; představuje ji na konci tabulky oněch dvanáct chudáků s 13 000 tolary. Co teď? Po krátkém uvažování se nabízí následující řešení: za průměrný příjem by bylo nejvhodnější považovat ten "prostřední" - prostřední podle pořadí v tabulce uspořádané podle výše příjmů. Jinými slovy: mezi uvedenými 25 osobami vyhledáme tu, která vydělává více než dvanáct nejchudších, avšak méně než dvanáct nejbohatších. To je, jak zjistíme z tabulky, muž s 18 000 T. Statistika již dávno objevila a používá tuto "prostřední hodnotu", "centrální hodnotu" tzv. medián. Má mimo jiné tu výhodu, že ji lze použít také v tzv. "topologických stupnicích" nebo řadách, u nichž výpočet aritmetického průměru nemá žádný smysl. Je možné zjistit "prostředního" žáka - před ním je 15 lepších, za ním 15 horších, zatímco aritmetický průměr ze součtu známek na vysvědčení by spíše mátl. Mimoto lze mediánu použít i v "otevřených stupnicích". Kdybychom třeba řekli, že dva z našich abiturientů vydělávali "přes 50 000 T", pak by nebylo možno vypočítat aritmetický průměr, medián však zůstane stejný. Z těchto důvodů medián nalézáme např. v rakouské statistice věku uzavírání sňatků, protože věk novomanželů sahá od patnáctého až k devadesátému (a někdy i vyššímu) roku věku a prostřední hodnota je velmi názorná: Jestliže se tedy uvádí, že průměrný sňatkový věk svobodných nevěst činil v roce 1969 21,6 roku, vidíme z toho, že polovině všech až dosud svobodných nevěst bylo méně a polovině více než 21,6 roku; zda v tom byly nebo nebyly i šedesátnice, to medián zamlčuje. Z těchto důvodů jej lze účelně použít tam, kde chybí omezení nahoru nebo dolů, protože se třeba shrnou všechny nízké a všechny vysoké hodnoty pod označení typu "více než.. .", "méně než ".
Přesto má i tato "prostřední hodnota" své nevýhody. Představme si akciovou společnost, jejíž celkový kapitál je rozdělen do 500 000 akcií. Akcie této společnosti vlastní 50 000 osob, a průměrně má tedy každý akcionář 10 akcií. Skutečnost je však jiná. počet akcionářů 1 1 100 49 898
vlastní celkem akcií (podílů) 320 000 30 102 1 000 1
Jediný majoritní akcionář má 320 000 podílů, další 30 102, sto osob vlastní po 1000 akciích a zbývajících 49 898 akcionářů má jen po jediném podílu ve své hubené peněžence. Kdybychom chtěli tuto skutečnost skrýt a přitom nemluvit o prostém průměru, můžeme říct, že vlastnictví akcií je „neobyčejně široce rozptýleno“. Nebo, že 99 % akcionářů má méně než 800 akcií. (Věta je pravdivá, ale hodně zamlžuje skutečnost. Však i použití průměru „každý akcionář má v průměru celých 10 akcií“ je zkreslující tvrzení třebaže pravdivé.) Vraťme se k mediánu. I ten je v příkladu našich akcionářů značně nevhodný. je vidět, že je nutno uvést jednoho z 49 898 nejmenších akcionářů jako "prostředního", ačkoliv všichni mají stejně málo. Dokonce ani v naší abiturientské třídě nepředstavuje medián nejlepší řešení. Co by se stalo, kdyby onen muž s 18 000 T, náš "prostřední příjemce", vydělával místo toho jen 14 000 T nebo naopak 19 000 T? Medián by jej věrně provázel, zatímco aritmetický průměr by na tuto změnu reagoval jen nepatrně. Jestliže se však prostřední hodnota - medián může tak značně změnit nahodilým výsledkem, musíme se na něj dívat s určitými pochybnostmi. K tomu je však třeba přičinit dvě poznámky. Především: takové nebezpečí sotva hrozí v rozsáhlé oblasti popisné statistiky - klasické statistiky hromadných jevů; jen u malých výběrových souborů (vzorků) je nutno být nanejvýš opatrný. Čím rozsáhlejší je však číselný materiál získaný šetřením, tím menší je nebezpečí, že průměr klame. Kdybychom měli v tabulce např. 2000 výdělečných osob místo 25, pak by jistě, i za předpokladu zcela podobného strukturálního rozdělení, nebyla mezera mezi 14000 a 19000, prostřední hodnota (medián) by mohla být zjištěna přesně a byla by uchráněna vlivu nahodilých výkyvů. Za druhé, v povaze všech průměrů však je, že něco ponechávají nevyjádřeno. Vždyť průměry vytváříme s úmyslem zbavit se číselné změti jednotlivých údajů. Proto nemůžeme od průměrů požadovat, aby na první pohled vyjadřovaly podstatné a zároveň odpovídaly na detailní otázky. Každý průměr zakrývá a uhlazuje krajnosti a je jimi současně ovlivňován. Vzniknou-Ii pochybnosti, lze jej použít jen s doplňujícími údaji, např. o rozptylu. V případě pochybností je nutno se vždy ptát, o který z četných průměrů se vlastně jedná. (Nebo správněji: o kterou z mnoha středních hodnot. To proto, že statistika pojmu ,.průměr" moc ráda nepoužívá. a to tím méně, že v teorii množin se tímto pojmem vyjadřuje něco zcela jiného.)
Tři různé průměry Zopakujme si: Kromě známého aritmetického průměru jsme si uvedli další dvě užitečné statistiky střední hodnoty souboru dat.
Modus x - nejčetnější hodnota udávající, který jednotlivý výsledek je zastoupen nejčastěji.
x - prostřední hodnota někdy označovaná také jako centrální hodnota (má nad i pod Medián ~ sebou stejný počet jednotlivých měrných hodnot). Při sudém počtu pozorování nebo měření není pochopitelně žádná reálná prostřední hodnota; pak se medián definuje jako aritmetický průměr z nejvyššího čísla dolní poloviny a nejnižšího čísla horní poloviny údajů uspořádaných podle velikosti. Máme tedy tři střední hodnoty, a přesto nemůžeme žádnou z nich použít, chceme-Ii vypočítat něco tak všedního, jako je průměrná rychlost jízdy auta. Předpokládejme, že jedeme 30 km daleko a prvních 10 km jedeme rychlostí 60 km/hod, dalších deset rychlostí 80 km/hod a posledních deset rychlostí 100 km/hod. Jakou průměrnou rychlostí jsme jeli? Aritmetický průměr odpovídá zdánlivě jednoznačně: 80 km/hod, protože (60 + 80 + 100)/3 = 80. Chceme-Ii u těchto tří čísel určit prostřední hodnotu – medián, uvedený výpočet se jen potvrzuje; nejčetnější hodnotu nemáme. Tedy „průměrně 80 km v hodině". Jenže podle hodinek jsme uvedených 30 km ujeli za 23 minut 30 sekund (23,5/60 hod = 47/120 hod), což představuje průměrnou rychlost dráha/čas = 30/(47/120) km/hod = 76,5 km/hod. Jednoznačný závěr: aritmetický průměr v tomto případě dává chybnou hodnotu. Právě nedostatky modusu a mediánu (ignorace okrajových hodnot a snadná ovlivnitelnost v malých souborech), i nepoužitelnost prostého průměru vždy a všude, vedly k hledání jiné reprezentativní hodnoty, která by brala v úvahu všechna zjištěná data. A tak vznikly tři různé průměry, podle toho jaký požadavek splňují. Pro ilustraci předpokládejme, že máme naměřeny tři údaje: 30, 80, 100, a pro vzorce, že máme soubor N hodnot x1 , x2 ,..., x N
Aritmetický průměr je taková hodnota, která zachovává součet.
x
x1 x1
x2 ... x N x 2 ... x N N
Nx 1 N xi Ni 1
60 80 100 3
80
tedy pro uvedená čísla
x
Geometrický průměr je taková hodnota, která zachovává součin
x1 x 2 ... x N xG
N
xG
xG ... xG
x1 x 2 ... x N
a pro uvedená čísla
xG
3
60 80 100
78 ,3
xGN
Harmonický průměr je taková hodnota, která zachovává součet převrácených hodnot
1 x1
1 x2
xH
1 x1
... 1 x2
1 xN N
N xH 1 xN
...
pro sledovaná čísla pak
xH
1 60
3 1 80
1 100
76 ,6
Hle! Toto je správný vzorec pro výpočet průměrné rychlosti (pozor, jen když ujeté vzdálenosti jsou vždy stejné – našich 10 km). Vždy platí vztah
xH
xG
x.
Geometrický průměr se často vyskytuje v ekonomických a demografických úvahách, všude tam, kde lze předpokládat exponenciální růst (pokles). Například jisté město mělo v roce 1960 200000 obyvatel, v roce 1970 už 300000 obyvatel. Nemáme žádné průběžné údaje a přitom nás zajímá, kolik obyvatel mělo město v roce 1965? Aritmetický průměr říká, že 250000. Jenže to znamená přírůstek v obou pětiletích stejný, roven 50000 a to vzbuzuje pochybnosti. Očekáváme spíše „populační explozi“ a na místě je použít geometrický průměr (exponenciální růst). xG = 245 000.
Příklad z praxe Uveďme si ještě jeden příklad (fyzikálně obchodní). Hospodář přišel do obchodu a požádal o 2,25 kg cukru. Prodavačka zvážila zboží na pravé misce a na levou pokládala závaží. Když si hospodář vzal cukr, zapochyboval o správnosti váhy a požádal o převážení, přičemž položil zboží na levou misku a závaží na pravou. Ukázalo se, že cukru je jen 1,44 kg. V obchodě vypukl zmatek a hádka. Objevil se tam naštěstí středoškolák, který chvíli počítal a pak prohlásil: „Hospodáři, zaplaťte za 1,8 kg cukru. Tolik máte v sáčku.“ Měl student pravdu? Řešení: Předpokládejme, že skutečná hmotnost cukru je x, a že ramena vah jsou a a b cm dlouhá. Podle podmínek rovnováhy na páce je při prvním vážení x a = 2,25 b a při druhém vážení 1,44 a = x b Protože ani jedna strana nenabývá hodnoty nula, můžeme obě rovnice mezi sebou vynásobit x2 ab = 2,25.1,44 ab tedy
x = (2,25.1,44) = 1,8 Skutečná hmotnost předmětu váženého na váze s nestejně dlouhými rameny je rovna geometrickému průměru obou vážení.