VŠB – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky
Využití statistických metod ve fotbale Statistical methods in football
2016
Patrik Šenk
Prohlašuji, že jsem tuto bakaláˇrskou práci vypracoval samostatnˇe. Uvedl jsem všechny literární prameny a publikace, ze kterých jsem cˇ erpal.
V Ostravˇe 29. dubna 2016
.............................
Podˇekování Rád bych podˇekoval mému vedoucímu bakaláˇrské práce panu Ing. Janu Kracíkovi, Ph.D. nejen za cenné rady pˇri tvorbˇe, ale také za cˇ as, trpˇelivost a ochotu, kterou mi v prubˇ ˚ ehu zpracování bakaláˇrské práce poskytl. Také nesmím zapomenout vyslovit velké slova díku˚ mým rodiˇcum, ˚ kteˇrí mˇe podporovali po celou dobu studia.
Abstrakt Cílem této bakaláˇrské práce je vytvoˇrit rešerši, která by mapovala využití statistických metod ve fotbale. Zamˇerˇ íme se také na zdroje dat a možné pˇrínosy z jejich analýzy. Popsány jsou rovnˇež nejˇcastˇeji používané statistické modely. Práce ukazuje rovnˇež ukázku aplikace statistického modelu s využitím Bayesovského pˇrístupu. ˇ Klícová slova: Fotbal, statistika, analýza utkání, statistický software, lineární regrese, Poissonovská regrese, Bayesovské modely
Abstract The aim of the bachelor thesis is to create searches that would map out the use of statistical methods in football. We will focus to data processing and possible benefits from their analysis. The most common statistical models described. The bachelor thesis shows an example application of the statistical model using a Bayesian approach. Keywords: Football, statistics, match analysis, statistics software, linear regression, Poisson regression, Bayesian model
Seznam použitých zkratek a symbolu˚ BBC ESPN FIFA
– – –
MLB NBA NFL RAF
– – – –
British Broadcasting Corporation Entertainment and Sports Programming Network International Federation of Association Football (Fédération Internationale de Football Association) Major League Baseball National Basketball Association National Football League Royal Air Force
1
Obsah 1
Úvod
2
Fotbal a statistika 2.1 Historický vývoj . . . . . 2.2 Gól . . . . . . . . . . . . 2.3 Vzácnost a hodnota gólu 2.4 Pˇrihrávky . . . . . . . . .
3
4
5
6
5 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
6 6 8 8 8
Duležité ˚ osobnosti 3.1 Charles Reep . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Eli Ben-Naim . . . . . . . . . . . . . . . . . . . . . . . . 3.3 David Spiegelhalter . . . . . . . . . . . . . . . . . . . . . 3.4 Edward Miguel, Sebastian Saiegh a Shanker Satyanath 3.5 Jimmy Hill . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Alexander Dilger a Hannah Geyer . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
10 10 11 12 12 14 14
Zdroje a využití dat 4.1 Zpracování obrazové informace . 4.2 Kineziologie . . . . . . . . . . . . 4.3 Zátˇežový test - Laktátová kˇrivka 4.4 Souhrnná data (výsledky) . . . . 4.5 Sport testery . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
15 15 15 17 17 18
Technologické statistické softwary 5.1 Opta . . . . . . . . . . . . . . . 5.2 Wyscout . . . . . . . . . . . . . 5.3 InStat . . . . . . . . . . . . . . . 5.4 StatDNA . . . . . . . . . . . . . 5.5 Match Analysis . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
20 20 20 21 21 22
Statistické metody 6.1 Regresní analýza . . . . . . . . . . . . . . . . . . . . 6.2 Logistická regrese . . . . . . . . . . . . . . . . . . . . 6.3 Poissonuv ˚ proces a poissonovská náhodná veliˇcina 6.4 Poissonovská regrese . . . . . . . . . . . . . . . . . . 6.5 Dvourozmˇerný Poissonuv ˚ model . . . . . . . . . . . 6.6 Dvourozmˇerný Poissonuv ˚ regresní model . . . . . . 6.7 Bayesovské sítˇe . . . . . . . . . . . . . . . . . . . . . 6.8 Bayesovská statistika . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
23 23 25 26 26 27 27 28 29
. . . . .
2
7
Aplikace 7.1 Výbˇer dat . . . . . . . . . . . . . 7.2 Prvotní grafický pohled na data 7.3 Model . . . . . . . . . . . . . . . 7.4 Výsledky a závˇery . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
30 30 33 34 35
8
Závˇer
38
9
Reference
39
3
Seznam tabulek 1 2
Celkový poˇcet vstˇrelených gólu˚ za sezóny 1933-1974 . . . . . . . . . . . . . Celkový poˇcet vstˇrelených gólu˚ za sezóny 1975-2015 . . . . . . . . . . . . .
31 31
4
Seznam obrázku˚ 1 2 3 4 5 6 7 8
Rozložení pˇrihrávek 1953-1967 [1] . . . . . . . . . . . . . . . . . Nejvíce zatˇežované svaly ve fotbale [2]. . . . . . . . . . . . . . . Laktátová kˇrivka [3]. . . . . . . . . . . . . . . . . . . . . . . . . . Smart Ball [4]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . The man bra [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Graf odhadnuté intenzity Poissonova procesu. . . . . . . . . . . Graf odhadnuté intenzity poˇctu vstˇrelených gólu˚ v celé lize. . . Graf odhadnuté intenzity poˇctu vstˇrelených gólu˚ pro vítˇeze ligy.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
11 16 17 18 19 34 36 37
5
1 Úvod Statistika a fotbal jsou cˇ ím dál cˇ astˇeji souˇcasnˇe sklonovaná ˇ slova. Nemalé peníze se investují do vývoje statistických softwaru˚ a na monitorování hráˇcu. ˚ Tento trend v novém tisíciletí stoupá, proto bylo téma „využití statistických metod ve fotbale“ pro mˇe atraktivní. V dnešní dobˇe je fotbalová statistika rozsáhlý proces sbˇeru a analýzy dat, z kterých lze vyˇcíst plno duležitých ˚ informací o aktuální formˇe a slabinách soupeˇre, nebo nárustu ˚ rizika vzniku poranˇení, které by ho mohlo odstavit mimo hru klidnˇe i na pul ˚ roku. Proto jsou dnes souˇcástí každého vˇetšího týmu nejen vlastní sportovní centra, ale i rozsáhlé technické zázemí. Cílem této práce je vytvoˇrit rešerši, která by mapovala možnosti sbˇeru dat související s fotbalem a využití statistických metod pˇri jejich zpracování. V prvních dvou kapitolách se budu vracet v historii, kdy se poprvé objevila statistika ve fotbale, jaký mˇela vývoj a jak se jevila, které slavné osoby mají co do cˇ inˇení s využitím a statistickou analýzou dat a statistikou ve fotbale obecnˇe a jaký byl jejich pˇrínos at’ už statistický cˇ i fotbalový. Další kapitola pojednává o získávání a využití dat. Je naivní si myslet, že existuje jen statistik s tužkou a papírem a dˇelá si cˇ árku pokaždé, když hráˇc vystˇrelí. Existuje rˇ ada technických prostˇredku, ˚ které mapují hráˇce nejen po herní, ale i fyzické a zdravotní stránce. Kluby vynakládají spoustu penˇez na kamerové systémy a licence na softwary, které pˇresnˇe analyzují pohyb hráˇce, jeho ubˇehnutou vzdálenost po hˇrišti, aktuální a celkovou rychlost, pohyb míˇce, atd. V další kapitole volnˇe navazuji na pˇredchozí, kdy jsem si vybral pár statistických firem, které analyzují data a poskytují užiteˇcné informace pro kluby, trenéry, agenty i hráˇce samotné. Nˇekteré firmy mají dlouhou tradici z pohledu fotbalu, ale ví se o nich a naplno se využívají až v dnešní moderní dobˇe. Poté se dostávám k matematickému popisu a praktickému využití statistických metod a modelu, ˚ které se používají ve fotbalové sféˇre na modelování konkrétních situací. Popsané modely v pˇredposlední kapitole využiji k vlastní analýze fotbalových dat. Stanovil jsem si cíl zjistit, jestli mˇely nˇejaké vnˇejší faktory vliv na pokles, nebo naopak rust ˚ ˇ ˇ prumˇ ˚ ernému poˇctu gólu˚ za zápas v urˇcitém cˇ asovém úseku v naší Ceské, respektive Ceskoslovenské fotbalové lize.
6
2 Fotbal a statistika 2.1
Historický vývoj
Existují dvˇe cesty, které odkazují na historii vývoje fotbalu a s ním spojené statistiky, která díky tˇemto dvˇema smˇerum ˚ donutila chytré a bystré hlavy vzít do rukou tužku a papír a zapisovat si údaje o dˇení na hˇrišti. První cesta poukazuje na slavné hráˇce a jejich vynalézavost, zlepšování, dokonalost v dané dobˇe, kouzlení s míˇcem. Tato historie je podporována Colvinovou teorií [6]. Mezi tyto velikány a génie se rˇ adí napˇríklad Di Stefano, Masopust, Pelé, Beckenbauer, Cruyff, Puskás, Maradona, Ronaldinho, Zidane a v dnešní dobˇe Messi a Ronaldo. Hledali a hledají stále nové cesty ke zlepšení, aby tuto nejoblíbenˇejší hru na svˇetˇe posunuli na vyšší úroven. ˇ Ta druhá vypráví o mužích, kteˇrí se snažili udˇelat vše pro to, aby tyto geniální a obdivované hráˇce zastavili. Tato cesta nepojednává o obráncích, jak se muže ˚ zdát, ale o trenérech, kteˇrí vytvoˇrili tzv. „catenaccio“, neboli zónovou obranu. Karel Brückner to nazývá „hlubokým obranným blokem“. Styl, o kterém se bavíme, uvedl do praxe v šedesátých letech dvacátého století v Itálii argentinský trenér Helenio Herrera trénující Inter Milán. Tímto cˇ inem dokázal rozdˇelit celý fotbalový národ na dva tábory. Hra se neustále zrychluje a hráˇci zlepšují. A tím, jak se zlepšují, vznikají zárovenˇ systémy, které se snaží jejich zlepšení co nejvíce eliminovat. Všechny ofsajdové pasti, zónové obrany, trojúhelníkové rotovaˇcky, to vše zapˇríˇcinilo postupný úbytek gólu. ˚ Komplexnost taktiky a strategie zastavila pˇrísun gólu. ˚ Individuální schopnosti útoˇcících hráˇcu˚ stoupaly pomalu k maximu, ale to nedˇelalo problém najít cestu, jak je bezpeˇcnˇe neutralizovat. Propracovanost pozic ve hˇre a celková struktura týmu ukazuje, že se fotbal stal sportem, kde tým pusobí ˚ víc jako celek. Díky tomu vytahují brankáˇri mnohem ménˇe balónu˚ ze sítˇe. Dukazem ˚ budiž i pohled na historii formací, kdy od doby, kdy se fotbal odtrhl od rugby a kdy se prakticky jen útoˇcilo, uplynulo 160 let. Standardní systém rozestavení 1-2-7 v roce 1850 na tento útoˇcný styl poukazuje. Sedm útoˇcníku˚ doplnovali ˇ dva záložníci, jeden obránce a brankáˇr. Následovala formace 2-3-5, od které se brzy upustilo a objevila se zmˇena v tzv. W-W rozestavení. Dva útoˇcící hráˇci se stáhli na post vysunutých záložníku˚ a tím vytvoˇrili formaci 2-3-2-3. Následovala 50. léta 20. století a dominující Mad’aˇri a Brazilci. Po jejich 4-2-4 systému pˇrišla tzv. W-M formace, 3-2-2-3 a pak už ostrovními trenéry oblíbené 4-4-2 rozestavení. V souˇcasnosti se objevují ruznorodé ˚ typy formací podle toho, co jakému týmu víc vyhovuje a co trenér preferuje. Jonathan Wilson se ve své knize, nazvané „Pyramida se obrátila“ [7], kterou vˇenoval dˇejinám taktiky, zminuje ˇ o útoˇcníkovi, který se podle souˇcasného trendu ocitá v útoku sám. Od roku 2010, kdy knihu vydal, se rozestavení opˇet pˇrizpusobilo ˚ stylu celého fotbalu a nyní se spíše pˇrechází na 4-3-3 [8]. Tyto systémy vypovídají o pˇrechodu z cˇ istˇe útoˇcného stylu hry na cíl vybudovat symetrii mezi vstˇrelením gólu a neinkasováním. Neboli vyváženost mezi ofenzivou a defenzivou. Nyní princip tohoto sportu spoˇcívá v eliminaci chyb a potrestání soupeˇre za ty jeho. Když se podíváme na statistiku firmy Opta, zjistíme, že v sezónˇe 2010/11 v Premier League se prumˇ ˚ ernˇe obránci dotkli balónu 63 krát za zápas, záložníci mˇeli 73 dotyku˚ s míˇcem a útoˇcníci jen 51. Na jednu stranu nás to muže ˚ znepokojovat, na druhou když
7
si uvˇedomíme, že rozestavení jednotlivých týmu má klasického útoˇcícího hráˇce jen jednoho, je pochopitelné, že poˇcet dotyku˚ s míˇcem bude menší než u ostatních pozic. Ovšem tento pˇrechod z ryze ofenzivního na defenzivní sport zapˇríˇcinil, že vstˇrelení branky je tˇežší a hrozí mu „vyhynutí“. Palacios-Huerta analyzoval data mezi léty 1888-1996 a nasbíral tolik údaju˚ z anglických ligových i amatérských zápasu, ˚ kolik jen mohl. Dospˇel k závˇeru, že samotný gól muže ˚ jednou zahynout [9]. Chris Anderson a David Sally se rozhodli doplnit tuto práci Palacios-Huerty o další údaje od roku 1996, kde jeho analýza konˇcí, aby zjistili, jestli muže ˚ opravdu nastat den, kdy gól zahyne [10]. ˇ Chrise Andersona a Davida Sallyho o „vyhynutí“ gólu 2.1.1 Výzkum a záver Chris Anderson a David Sally se zamˇerˇ ili na data po druhé svˇetové válce a prozkoumali vývoj skórování. Podle jedné sezóny se tento trend nedá urˇcit, protože se mužou ˚ objevit ovlivnující ˇ faktory jako tˇreba poˇcasí, náhoda, štˇestí nebo pár katastrofálnˇe slabých týmu. ˚ Aby si byli jistí, že dospˇejí k trendu nezkreslenému náhodnými výkyvy, použili statistickou metodu známou jako vyhlazování metodou loess [11], která vˇetšinu takového šumu odfiltruje. A dospˇeli k zajímavému závˇeru. Po 150 let, kdy poˇcet vstˇrelených branek klesal, se za posledních 60 let trend narovnává. Gól jako takový nezaniká, ale stagnuje. Od 70. let 20. století se udržuje toto stabilní skórování, což znamená dynamickou rovnováhu mezi ofenzivní dokonalostí a obrannou technologií. Pokud bychom chtˇeli sledovat prumˇ ˚ erný poˇcet vstˇrelených gólu, ˚ mužeme ˚ se dostat do problému spojené s prumˇ ˚ erem, který není vždy dobrou volbou. Tým muže ˚ postupnˇe vstˇrelit 1, 0, 1, 5 a 8 gólu˚ v pˇeti zápasech, pˇriˇcemž druhý tým, který vsítí v pˇeti utkáních po sobˇe pokaždé 3 branky má stejný prumˇ ˚ er, jako první tým. Tím bychom nedokázali popsat, kolik netypických zápasu˚ cˇ i dokonce mužstev se za jednotlivou sezónu objevilo a jestli se tyto výjimky v cˇ ase mˇenily. David Sally a Chris Anderson pˇrišli na to, že se tento fakt znaˇcnˇe mˇenil. Spoˇcítali rozdíl v prumˇ ˚ eru vstˇrelených branek na jedno utkání všech sezón ligového fotbalu od roku 1888. Týmy se neustále sbližují v útoˇcné i obranné práci, poˇcet gólu˚ vedoucí k 3 bodum, ˚ tedy k vítˇezství, je menší a rozdíl branek mezi vítˇezem a poraženým klesl z 1 na ménˇe než 0,5 za poslední století. Rozdíly v kvalitˇe, konkurenceschopnosti a infrastruktuˇre se snížily za posledních 100 let o 50%. Relativní zlepšení tˇech nejhorších klubu˚ je vˇetší než zlepšení tˇech nejlepších. Dnes již jen výjimeˇcnˇe mužeme ˚ zhlédnout zápas, kdy si to na hˇrišti rozdá plnˇe profesionální tým z nejvyšší soutˇeže, proti týmu, kde jednotliví hráˇci musí chodit do práce, protože by se fotbalem neuživili, a tak jej berou jako koníˇcek. V sezónˇe 2007/08 se dle statistik stal vubec ˚ nejhorším týmem historie Premier League tým Derby Country, ale urˇcitˇe mˇel blíže co do kvality k Manchesteru United, který v tomto roˇcníku vyhrál ligu, než tˇreba Birmingham, který pˇred sto lety postoupil do nejvyšší ligy, v níž zminovaný ˇ tým z Manchesteru získal svuj ˚ první titul. Konkurence a kvalita týmu˚ pˇrinesly ještˇe jeden fakt, jak rˇ íkají autoˇri tohoto výzkumu: „Góly se staly ještˇe vzácnˇejší a drahocennˇejší než pˇred šedesáti cˇ i sto lety“ [10].
8
2.2
Gól
Pravidla rˇ íkají, že branky je dosaženo, jestliže míˇc celým objemem pˇrejde brankovou cˇ áru mezi brankovými tyˇcemi a pod brankovým bˇrevnem a útoˇcící družstvo pˇredtím neporušilo žádné pravidlo [12]. Gól, to je podstata celého fotbalu. Divák, který odchází z útrob stadionu, kdy jeho milovaný klub remizoval 0:0 s vidinou jednoho bodu, si odnáší pocit prázdnosti, nebot’ na ochozy pˇrišel kvuli ˚ podstatné vˇeci, co spojuje všechny fanoušky na svˇetˇe, gólu.
2.3
Vzácnost a hodnota gólu
Když se podíváme na statistiku Premier League, tak prumˇ ˚ ernˇe tým vstˇrelí v 63% pˇrípadu˚ maximálnˇe jeden gól na zápas a v 30% utkání má nulu na kontˇe. Góly jsou vzácné po celém svˇetˇe a ještˇe vzácnˇejší jsou pro hráˇce. Ve tˇrech sezónách Premier League v letech 2008/09 až 2010/11 se dostalo do hry 861 hráˇcu, ˚ což znamená, že hráˇc nastoupil k zápasu celkem 30 937krát. Pˇri naprosté vˇetšinˇe tˇechto startu˚ (konkrétnˇe 28 326, tj. 91,6%) daný hráˇc neskóroval; 45% hráˇcu˚ nevzrostlo po zmínˇených tˇrech sezónách stˇrelecké konto ani o jediný bod; 56% startu˚ (pˇresnˇe 17 322) potom skonˇcilo bez jediné stˇrely a nˇeco málo ˇ pˇres 80% maximálnˇe s jednou stˇrelou. Ctvrtina hráˇcu˚ za tu dobu ani jednou nevystˇrelila. Za tˇri roky. Ani jedna stˇrela. Po dobu tˇrí let. Pˇríkladem je barcelonský obránce Javier Mascherano, který od roku 2010, kdy pˇrestoupil z Liverpoolu do zminovaného ˇ katalánského klubu a odehrál 111 zápasu, ˚ nevstˇrelil ani jeden gól. A za celou svou profesionální kariéru od roku 2003, kdy poprvé nastoupil za argentinský klub River Plate a vystˇrídal 5 zamˇestnání (tj. 314 zápasu), ˚ vsítil pouze 3 góly. Když se to barcelonští fanoušci dozvˇedˇeli, že za jejich klub nedal ještˇe ani jeden gól, sepsali petici, kde prosí trenéra a vedení Barcelony, aby zahrál pokutový kop. Proto ti vyvolení, kteˇrí umí nejen vystˇrelit, ale také dát gól, se cení zlatem. Za útoˇcníky se platí cˇ ím dál vˇetší sumy, protože kluby vˇedí, že góly vyhrávají zápasy a vítˇezství znamená trofeje. Nemužeme ˚ ale zastávat tvrzení, že každý gól má stejnou hodnotu. Nˇekteré jsou cennˇejší, jiná zas ménˇe. Nedostatek gólu˚ cˇ iní gól samotný velmi cenným. V celé fotbalové elitˇe je tento nedostatek víceménˇe stejný. Stejnˇe jako existuje kurz pro smˇenu dolaru˚ za libry a eur za dolary, existuje smˇenný kurz pro góly a body. Je zde ovšem jeden stˇežejní rozdíl. Na rozdíl od mˇen, kde má první vymˇenˇená libra stejnou hodnotu jako ta osmá, u gólu uvidíme, že kurz silnˇe závisí na poˇctu branek, které už byly smˇenˇeny [10].
2.4
Pˇrihrávky
Pˇrihrávka by se dala definovat jako vˇedomé a zámˇerné usmˇernˇení balónu nˇekterou, pravidly povolenou, cˇ ástí tˇela spoluhráˇci. Pˇrihrávka pˇredchází gólu, proto je také vysoce ˇ hodnocená. Synonymem pˇrihrávky ve fotbalové analytice je držení míˇce. Cím vyšší je procentuální držení míˇce v zápase, tím vyšší je pravdˇepodobnost výhry. Prumˇ ˚ ernˇe se potká míˇc s hráˇcem 60x za zápas, ubˇehne s ním 190 metru˚ a pod absolutní kontrolou ho má celkem 53,4 sekundy. Tedy pokud si to pˇrevedeme do procent, tak
9
po celý zápas má prumˇ ˚ erný hráˇc 1% cˇ asu míˇc ve své režii. Navíc když si uvˇedomíme, že hráˇc nabˇehá 11,393 km za 90 minut, jsou tato cˇ ísla ohromující [13]. „Fotbal nespoˇcívá v držení míˇce, ale spíše v rˇ ízení zdánlivé posloupnosti nevyhnutelných zmˇen, obratu“ ˚ [10]. Kvalita držení míˇce muže ˚ spoˇcívat v možnosti tento míˇc usmˇernit a mít fyzickou kontrolu nad míˇcem co nejdelší možnou dobu. Nejideálnˇejším schématem by bylo od úvodního hvizdu rozhodˇcího mít absolutní kontrolu nad míˇcem a v poslední možnou chvíli skórovat, bohužel nebo bohudík to není úplnˇe reálné. Týmy, které jsou založené na držení míˇce, musí eliminovat poˇcet ztrát balónu a zvýšit dobu jeho držení mimo dosah soupeˇre. K tomu ale potˇrebují týmovou spolupráci, nikoliv individuální výkon. Toto tvrzení chtˇel dokázat Jaeson Rosenfeld, statistik a analytik ze spoleˇcnosti StatDNA. Zkoumal, jestli hráˇcovy schopnosti mají vliv na úspˇešnost jeho pˇrihrávek. Rosenfeld pˇredpokládal, že ménˇe záleží na hráˇcových schopnostech v souvislosti s procentuální úspˇešností pˇrihrávek, než na jeho pozici v okamžiku pˇríjmu pˇrihrávky. Podle analytikových slov nejde o to, co udˇeláme, jako spíš o to, kde se nacházíme. Analyzoval 100 tisíc dat o pˇrihrávkách v brazilské lize. Rozdˇelil si je na ruzné ˚ typy, jako tˇreba pˇrihrávky blízko soupeˇrovy brány a pod tlakem obrany, které jsou daleko obtížnˇejší, než pˇrihrávky mezi stopery a brankáˇrem, kteˇrí nejsou dobýváni. Dále pˇridal hodnoty jako délka pˇrihrávky, pozice, kde došlo k pˇrihrávce, kam smˇerˇ ovala, tlak soupeˇre, atd. Výsledek byl takový, že všechny týmy z brazilské Serie A mají shodnou technickou úrovenˇ pˇri nahrávání. To znamená, že minimálnˇe v brazilské nejvyšší soutˇeži urˇcuje úspˇešnost hráˇcových pˇrihrávek situace, v které se nachází a ne jeho schopnosti [14].
10
3 Duležité ˚ osobnosti 3.1
Charles Reep
Thorold Charles Reep se narodil v anglickém Cornwallu a to 22. záˇrí 1904. Je známý jako zakladatel taktiky tzv. nakopávaných dlouhých míˇcu, ˚ ale pˇredevším je jednou z hlavních postav fotbalové analytiky. Vystudoval Plymouth High School jako úˇcetní. V roce 1928 vyhrál první cenu v soutˇeži pro novˇe vzniklou úˇcetní firmu RAF. Poté se pˇridal ke Královskému letectvu. V roce 1933 se Reep zúˇcastnil nˇekolika pˇrednášek kapitána Londýnského klubu Arsenal Charlieho Jonese. Detailnˇe pˇrednášel o klubovém systému hry, o rozestavení, souhry pravého a levého kˇrídla, kterou vytvoˇril trenér Arsenalu Herbert Chapman a díky nˇemu se zmodernizoval fotbal a z Arsenalu vytvoˇril v té dobˇe dominantní tým. Reep byl natolik fascinován touto pˇrednáškou, že se rozhodl ponoˇrit do fotbalové sféry. Spojil úˇcetnictví s fotbalem a zaˇcal zaznamenávat každou akci odehrávající se na hˇrišti, pro kterou vyvinul svuj ˚ vlastní systém [7]. První uskuteˇcnˇený záznam byl však kvuli ˚ válce až 18. bˇrezna 1950. Nastoupily proti sobˇe divizní týmy anglické ligy Swindon s Bristol Rovers. „Nepˇretržitá akce zápasu se dˇelí do série jednotlivých událostí na míˇci, jako jsou pˇrihrávka, centr nebo stˇrela,“ rˇ ekl Reep o svém systému. „Pro každý dˇej jsem vytvoˇril detailní rozˇclenˇení a vyvinul pro nˇej zkrácené kódování. Napˇríklad každá pˇrihrávka zápasu se klasifikuje a zaznamenává podle délky, smˇeru, výšky a výsledku, stejnˇe jako podle pozice na hˇrišti, pˇri kterých vznikla a skonˇcila“ [15]. Za svou celou analytickou fotbalovou kariéru zaznamenal více než 2200 zápasu, ˚ pˇri kterých strávil zhruba 80 hodin analýzy s detailním rozborem. Nejvˇetším jeho dílem byla celková analýza finálového duelu mistrovství svˇeta 1958, kde zachytil na 50 stránkách pohyb míˇce v prubˇ ˚ ehu hry. Spolu s Bernandem Benjaminem, vedoucím statistikem Hlavního matriˇcního úˇradu, publikoval vˇedeckou práci Skill and Chance in Association Football [1]. 3.1.1 Cíl a výsledky jeho práce Cílem práce, která byla v roce 1958 publikována v cˇ asopise Journal of the Royal Statistical Society, bylo zjistit, jestli nasbírané údaje mužou ˚ pˇredpovˇedˇet momenty a události v zápase. Šlo sice jen o krátký akademický spis, ale byl základem pro samotné statistické analýzy, které si Reepuv ˚ kódovací systém vypujˇ ˚ cily. Dále se ukázalo, že nˇekteré momenty v zápase se neustále opakují podle stabilních vzorcu, ˚ jako napˇríklad prumˇ ˚ erné skórování z každé vyslané deváté stˇrely. Charles Reep zjistil, že šance na správnˇe provedenou pˇrihrávku byla kolem 50% a každá následující se procentuálnˇe zmenšovala. Jedna z devíti stˇrel vedla ke gólu. Týmy byly, dle Reepova mínˇení, lepší, jestliže se snažily o rychlé a efektivní pˇresuny míˇce na soupeˇrovu polovinu a do jeho pokutového území, než kdyby se snažily vytváˇret mnoho zˇretˇezených pˇrihrávek. Potvrdil tím svoji teorii o dlouhých nakopávaných míˇcích, které se staly efektivnˇejší.
11
Obrázek 1: Rozložení pˇrihrávek 1953-1967 [1] Pro ilustraci uved’me na obrázku 1, jak efektivní jsou série pˇrihrávek. X-ová osa zobrazuje úspˇešný poˇcet série pˇrihrávek, kde 0 znaˇcí, že se hráˇc pokusil o pˇrihrávku, ale ta byla hned zachycena; 1 znamená jednu úspˇešnˇe vykonanou pˇrihrávku pˇred ztrátou ˇ míˇce, atd. Císla, která jsou na vrcholcích sloupcu, ˚ znaˇcí procentuální úspˇešnost jednotlivých sérií pˇrihrávek v zápase [1].
3.2
Eli Ben-Naim
Eli Ben-Naim je teoretický fyzik a profesor fyzikální chemie na Hebrejské univerzitˇe v Jeruzalémˇe. V Los Alamos National Laboratory sestavil, spolu se Sidneym Rednerem a Federicem Vazquezem z Bostonské univerzity, studii, ve které použili celou známou historii u mnoha sportu. ˚ Jejich hlavním cílem se stal výpoˇcet pravdˇepodobnosti zklamání, tedy jak pˇredvídatelné jsou ligové soutˇeže [16]. 3.2.1 Výsledky jeho práce K tomuto úˇcelu využil data anglické nejvyšší soutˇeže ve fotbalu od roku 1888, NHL od roku 1917, MLB od roku 1901 a od roku 1922 NFL. Dohromady pˇres 300 tisíc zápasu˚ a výsledkem bylo zjištˇení, že fotbalové výsledky jsou z tˇechto 4 sportu˚ nejvíce nejisté. Pravdˇepodobnost výhry toho horšího z dvojice, neboli outsidera, cˇ inila 45,2%. Je to vysoké cˇ íslo už jen když vezmeme v potaz, že tým, který má v týmu marodku, horší hráˇce, nebo není v takové formˇe jako soupeˇr, dosáhne skoro v polovinˇe pˇrípadu˚ k vítˇezství. Fotbal je tedy jednoznaˇcnˇe odlišný od ostatních sportu. ˚ Pokud by si chtˇel vášnivý sázkaˇr vsadit na jasného favorita ve fotbale, zjistil by, že medián kurzu dosahuje na tento
12
favorizovaný tým hodnotu 1,95, což v porovnání tˇreba s NBA nebo v NFL, kde hodnoty mediánu˚ jsou 1,42, respektive 1,49, opˇet znamená, jak jsme si rˇ ekli o odstavec výše, že pˇredpokládaný papírový favorit není témˇerˇ v polovinˇe pˇrípadu˚ vítˇezem. Pokud chceme najít více jasných favoritu, ˚ mˇeli bychom se podívat do házené, kde vítˇezství favorita je témˇerˇ jisté s mediánem kurzu˚ 1,49.
3.3
David Spiegelhalter
Sir David John Spiegelhalter je britský statistik a profesor veˇrejného porozumˇení riziku na University of Cambridge. Je vysoce citovaným autorem v ISI (Ústav vˇedecko–pedagogických informací). Hodnˇe se opírá o Bayesovskou statistiku. Mezi jeho výzkumné zájmy se rˇ adí napˇríklad Bayesuv ˚ pˇrístup ke klinickým studiím, expertní systémy a komplexní modelování, epidemiologie [17], grafové modely, atd [18]. Vytvoˇril statistický modelovací systém WinBUGS, který pˇrispˇel k propagaci víceúrovnových ˇ modelu, ˚ které se staly široce používanými napˇríklad v epidemiologii a vzdˇelávání [19]. Jeho zájmem v oblasti fotbalu byla analýza koneˇcného poˇradí týmu˚ nejvyšší anglické soutˇeže na základˇe skuteˇcné síly týmu. ˚ 3.3.1 Cíl a výsledky jeho práce Jako zdroj dat si vzal roˇcník 2006/07, kdy se z vítˇezství radoval Manchester United a naopak sestupujícími týmy byly Watford, Charlton Athletic a Sheffild United. Zajímalo ho, jestli týmy z horních pater tabulky byly opravdu nejlepší a naopak týmy ze spodní cˇ ásti tabulky byly ti nejhorší ve smyslu pˇredsezónních prognóz. Nejdˇríve se podíval na celkové rozdˇelení bodu. ˚ Zjišt’oval, jestli získané body byly opravdu zasloužené, nebo v nich hrála velkou roli náhoda. Data ukazovala, že 48% utkání vyhrál domácí tým, 26% zápasu˚ skonˇcilo remízou a ve 26% vyhrál tým hostu. ˚ Díky pravidlu, které si Spiegelhalter zavedl a nazval 48/26/26, si vypoˇcítal výsledky všech zápasu˚ za podmínky, že se týmy nebudou lišit svými schopnostmi. Je pochopitelné, že mezi týmy jsou rozdíly v kvalitˇe, ale poˇrád zustává ˚ urˇcitá suma bodu, ˚ které týmy získají díky náhodˇe. Po sestavení koneˇcné tabulky si byl na 53% jistý, že mistr ligy bude Manchester United oproti Chelsea, které vypoˇcítal pravdˇepodobnost úspˇechu 31%. Dále mˇel jasný obrázek, že nejhorším týmem bude se 77% pravdˇepodobností Watford [20].
3.4
Edward Miguel, Sebastian Saiegh a Shanker Satyanath
3.4.1 Edward Miguel Edward Andrew Miguel je profesorem životního prostˇredí a ekonomie na Kalifornské univerzitˇe v Berkeley. Je zakladatelem a rˇ editelem Center for Effective Global Action v Berkeley. Jeho výzkumy se zamˇerˇ ují na africký ekonomický rozvoj a ekonomické pˇríˇciny a dusledky ˚ násilí [21].
13
3.4.2 Sebastian Saiegh Sebastian Saiegh je profesorem politologie na Kalifornské univerzitˇe v San Diego. Jeho zájmy jdou napˇríˇc oblastmi komparativní politologie, pozitivní politické teorie a politické ekonomie. Je odborníkem na argentinskou politiku. Zabývá se rˇ adou ruzných ˚ témat jako napˇríklad statutární tvorba politiky, legislativní politika, státní pujˇ ˚ cky, expozice obˇcanské války a sportovní analytika [22]. 3.4.3 Shanker Satyanath Shanker Satyanath je profesor mezinárodní politiky, politického ekonomického rozvoje, mezinárodní politiky a mezinárodní politické ekonomie New Yorské univerzitˇe [23]. ˇ ˇ 3.4.4 Závislost udelování karet na zemi hrácova puvodu ˚ V roce 2011 byl zahájen výzkum, jehož obsahem bylo zjištˇení souvislosti mezi mírou obcˇ anských konfliktu˚ v rodné zemi hráˇce a jeho náchylnosti k násilnému chování na hˇrišti, které bylo mˇerˇ eno pomocí žlutých a cˇ ervených karet. Tento výzkum vedli politiˇctí ekonomové Edward Miguel, Sebastian Saiegh a Shanker Satyanath a výsledky jejich práce jsou pozoruhodné [24]. Vzali si data ze sezón 2004/05 a 2005/06 z pˇeti nejvyšších lig fotbalových velmocí Anglie, Francie, Nˇemecka, Itálie a Španˇelska. Odpovˇed’, jestli ovlivnuje ˇ puvod ˚ chování na trávníku, je kladná. 3.4.5 Výsledky jejich práce Výsledky výzkumu tˇechto ekonomu˚ odhalily, že existuje souvislost mezi obˇcanskými neˇ pokoji v rodné zemi a jeho sklonem chovat se násilnˇe. Cím delší jsou obˇcanské nepokoje v rodné zemi, tím vyšší je i prumˇ ˚ erný poˇcet udˇelených karet pro hráˇce z tohoto státu. Tato analýza muže ˚ být zkreslená a urˇcitˇe muže ˚ existovat plno alternativních vysvˇetlení. V souˇcasné dobˇe pˇrichází mnoho hráˇcu˚ z rozvojových zemí a jejich základním instinktem je neskonˇcit tam, kde zaˇcali - v chudobˇe. Proto dˇelají vše pro to, aby se udrželi v základní sestavˇe, proto by na trávníku vypustili duši, a proto je také pˇrirozené, že více dohrávají souboje a zákonitˇe dostávají žluté, pˇrípadnˇe cˇ ervené karty. Mohli bychom uvažovat o ovlivnˇení rozhodˇcího proti urˇcitým etnickým skupinám, kdy má potˇrebu systematicky udˇelovat víc karet hráˇcum ˚ z urˇcitých regionu˚ [25]. Toto je však diskutabilní tvrzení, stejnˇe jako proˇc ve Španˇelské La Lize se udˇeluje prumˇ ˚ ernˇe víc karet na zápas, než v anglické Premier League, která je tvrdší a silovˇejší. Rozdíl mezi tˇemito ligami je 59%. Na anglickou nejvyšší ligu to cˇ iní 3,2 žlutých karet na zápas, kdežto ve španˇelské 5,1.
14
3.5
Jimmy Hill
James William Thomas „Jimmy“ Hill byl anglický fotbalový profesionál. Zastával mnoho funkcí ve sportovní, respektive fotbalové sféˇre a je oznaˇcován jako nejvˇetší revolucionáˇr fotbalu. Za svou celou bohatou kariéru proslul jako televizní moderátor, pˇredseda Asociace profesionálních fotbalistu, ˚ trenér, manažer, výkonný producent, analytik a asistent rozhodˇcího. Byl u zrodu zrušení platového stropu. Když se v roce 1961 stal manažerem Coventry City, byl tento cˇ as ve znamení velkých zmˇen v klubu. Tomuto období se pˇrezdívá „The Sky Blue Revolution“, protože zmˇenil celý klub, od barvy dresu, ˚ klubovou písen, ˇ prvního prodaného programu zápasu, až po nový anglický stadión, který mˇel místa jen k sezení [26]. Mezi jeho nejvˇetší fotbalový pˇrínos bylo zavedení tˇríbodového pravidla, kdy místo dvou bodu˚ za výhru chtˇel prosadit body tˇri. Domníval se, že každou další sezonu padá ménˇe gólu˚ a že se fotbal stává pro oko diváka nudnˇejším. V 70. letech bylo toto pravidlo zavedeno jen zkušebnˇe v Isthmian League. Dlouho trvalo, než se Hillovo pravidlo zavedlo ve všech ligách, konkrétnˇe až v roce 1995 se FIFA rozhodla, že tˇríbodové pravidlo bude platit ve všech ligových soutˇežích. Hra mˇela být atraktivnˇejší, mˇelo padat více gólu˚ a pˇrilákat to více fanoušku, ˚ protože nyní bylo vítˇezství odmˇenˇeno o 50% víc [27].
3.6
Alexander Dilger a Hannah Geyer
Alexander Dilger a Hannah Geyer jsou nˇemeˇctí ekonomové, kteˇrí se zamˇerˇ ili na hypotézu, jestli po zavedení Hillova tˇríbodového pravidla nastala zmˇena. Shromáždili data za 20 let z ligových i pohárových zápasu, ˚ kdy 10 let bylo pˇred zavedením pravidla a 10 po nˇem. Domnívali se, že to bude mít vliv na poˇcet vstˇrelených gólu, ˚ ale mýlili se. Místo toho se rapidnˇe zvýšil poˇcet udˇelených žlutých karet. Zvýšila se sice útoˇcná hra, což mˇelo za následek i úbytek poˇctu remíz, protože nechat se „obrat“ o 2 body místo jednoho je samozˇrejmˇe horší, ale spíše se útoˇcilo na soupeˇrovy nohy, cˇ i dohrávání souboju. ˚ Dále z dat zjistili, že došlo k rustu ˚ poˇctu vítˇezství o jeden gól, trenéˇri se zamˇerˇ ili spíš na defenzivu než ofenzivu a zvýšil se poˇcet nakopávaných dlouhých míˇcu˚ [28].
15
4 Zdroje a využití dat Nedílnou souˇcástí dnešního moderního fotbalu už není jen trénink samotný, ale dlouhé rozbory videí ze zápasu, ˚ tréninku, ˚ jednotlivých hráˇcu˚ a jejich fyzické, technické a zdravotní analýzy. Týmy zamˇestnávají mnohem více kvalifikovaných zamˇestnancu˚ a specialistu˚ ve svém oboru, aby zajistili hráˇcum ˚ ty nejlepší podmínky pro rust ˚ a kvalitu. Pro tyto úˇcely je celý tým sledován stále novˇejšími a technologiˇctˇejšími pˇrístroji.
4.1
Zpracování obrazové informace
Každý modernˇejší stadión má špiˇckové vybavení v podobˇe kamer, které snímají celkové dˇení na hˇrišti a programu˚ pro zpracování obrazu a video sekvencí. Poˇrídit video a aplikovat na nˇej algoritmus se dá pomocí HD digitálních kamer, web, DV cˇ i IP kamer. Aplikace, které zpracovávají obraz, sledují pohyb objektu, ˚ extrahují informace z obrazu pro vkládání virtuálních objektu˚ do scény a automaticky rozpoznávají hodnoty ze záznamových analogových zaˇrízení. V praxi to vypadá tak, že algoritmus oznaˇcí objekt, jako napˇríklad míˇc, a sleduje jeho dráhu po hˇrišti. Dále snímá jeho celkovou uraženou vzdálenost, aktuální a prumˇ ˚ ernou rychlost, jednotlivé vzdálenosti mezi ostatními objekty (hráˇci), atd. Dˇríve se uvažovalo, že by arbitr mˇel na ruce hodinky, které by ohlásili gól v pˇrípadˇe, že by míˇc pˇrekroˇcil celým svým objemem brankovou cˇ áru. Tato technická vymoženost se zamítla a místo ní pˇribyli další dva brankový rozhodˇcí, kteˇrí mají za úkol sledovat brankovou cˇ áru, pokutové území a podporovat pomocí vysílaˇcky hlavního rozhodˇcího. Toto zavedené opatˇrení má výhody v podobnˇe dalších pomocníku˚ a navíc zachovává lidský fakt, bohužel se objevují nevýhody v podobˇe lidského oka, které zaznamenává pouze 16 snímku˚ za vteˇrinu a navíc cˇ lovˇek není tvor neomylný. Kromˇe tˇechto a dalších záporných faktoru˚ se už objevily situace, kdy míˇc byl za brankovou cˇ árou, ale brankový rozhodˇcí gól nepotvrdil. Tím se zaˇcaly objevovat názory, že by se mˇel fotbal obohatit o tzv. „videorozhodˇcího“. Ten by díky programum ˚ pro zpracování obrazu mohl posuzovat zda míˇc pˇrešel brankovou cˇ áru, veškeré offsidové situace, fauly, simulování, hraní rukou, oplácení a pˇrestupky za zády rozhodˇcího.
4.2
Kineziologie
Kineziologie je vˇeda o mechanickém pohybovém aparátu. Zabývá se studií svalu˚ a pohybu˚ tˇela. Cílem této metody je udržení rovnovážného zdravotního stavu pomocí svalu˚ lidského tˇela. 4.2.1 Kineziologická analýza Vˇetšinu herních dovedností ve fotbale zajišt’ují svaly dolních konˇcetin. Hlavní kontrakce svalu nastávají pˇri bˇezích, skocích, kopech a zpracování míˇce.
16
Napˇríklad typickou dovedností pro kineziologickou analýzu ve fotbale je kop. V pˇrípravné fázi se na kopající dolní konˇcetinˇe kontrahují extenzory kyˇcelního kloubu a flexory kolenního kloubu. V druhé fázi (samotný kop), dochází k explozivní flexi kyˇcelního kloubu a extenzi kolenního kloubu. Zárovenˇ se kontrahuje bˇrišní svalstvo. Na stojné dolní konˇcetinˇe se aktivují hýžd’ový sval, svaly dolních konˇcetin, cˇ tyˇrhlavý sval stehenní a trojhlavý sval lýtkový, které zajišt’ují stabilitu fotbalisty pˇri kopu[2].
Obrázek 2: Nejvíce zatˇežované svaly ve fotbale [2]. Pro profesionální týmy je samozˇrejmostí sledovat své hráˇce nejen po herní stránce, ale i zdravotní a fyzické. Chodit na pravidelné zdravotní prohlídky nebo zátˇežové testy je pro nˇekteré hráˇce denní záležitostí. Dnešní analýzy dokáží s maximální pˇresností pˇredpovˇedˇet, kdy by mˇel hráˇc ubrat a kdy naopak pˇridat, aby mˇel co nejlepší zápasové pˇredpoklady k pˇredejití možnosti zranˇení. Pˇríkladem toho, že nejen prvoligové týmy dávají nemalé peníze do zdravotnického zázemí svého klubu, je anglický druholigový tým Brighton, kam nedávno pˇrestoupil z Mladé Boleslavi cˇ eský reprezentant Jiˇrí Skalák. Kromˇe pˇrísných pˇrestupových zdravotních prohlídek a testu, ˚ které musel absolvovat, musí každé ráno pˇred tréninkem vyplnoˇ vat dotazník o tom, kolik hodin naspal, jak se mu spalo, jestli ho nebolí tˇrísla, svaly, atd. Navíc musí odevzdávat vzorek moˇci, kterou analyzují kluboví lékaˇri a pokud naleznou nˇejakou výchylku, hned hráˇci nasadí nápoje, aby doplnili chybˇející látky v tˇele. Následuje speciální klubová snídanˇe a poté dopolední tréninkový blok [29]. ˇ 4.2.2 Predikce poranení Zdravotní rizika a úrazovost související s fotbalem se v dnešní dobˇe díky technice zpracování dat a pˇrístrojum, ˚ které napomáhají pˇredcházení zranˇení snižují, ale v absolutním pocˇ tu úrazu˚ stojí stále vysoko. Tˇri cˇ tvrtiny úrazu˚ vznikají pˇri zápasech. Nejˇcastˇejšími akutními poranˇeními jsou naražení a zhmoždˇení svalu˚ a kloubu˚ dolních konˇcetin, distorze hlezenního kloubu s poškozením vazu˚ (natažení cˇ i natržení), distorze kolenního kloubu (natažení cˇ i natržení vazu˚ a poškození menisku) ˚ a mezi chronické poranˇení patˇrí únavové zlomeniny, mikrotraumatizace a zánˇet uponu˚ stehenních adduktoru˚ („fotbalové tˇríslo“).
17
4.3
ˇ Zátežový test - Laktátová kˇrivka
Laktátová kˇrivka je druh vyšetˇrení, jehož výstupem je graf, kde jsou uvedeny na y-ové ose hladina laktátu v mmol/l a na x-ové ose je vyobrazena tepová frekvence, rychlost pohybu nebo velikost zátˇeže. Vyšetˇrování laktátové kˇrivky je v dnešní dobˇe jedna z nejcˇ astˇejších vyšetˇrovacích metod co se týˇce sportovního tréninku. Laktát, neboli kyselina mléˇcná, má v souˇcasnosti velký význam po diagnostické stránce. Podle hodnot, které dosahuje laktát v kapilární krvi, lze pˇrizpusobit ˚ množství a zpusob ˚ nahrazení energetických požadavku˚ organismu v prubˇ ˚ ehu sportovního vytížení. Tento test se skládá z 4 až 6 stupnových ˇ zátˇeží, každá tato zátˇež trvá 4 minuty. Po každém z jednotlivých stupnˇ u˚ testu se odebírá krev z prstu nebo ušního laluˇ ˚ cku, aby se stanovila hladina kyseliny mléˇcné v krvi. Z nasbíraných hodnot se sestaví laktátová kˇrivka a stanoví se aerobní a anaerobní práh. Vyšetˇrování se vˇetšinou provádí na speciálním cyklistickém trenažéru, bˇežícím pásu nebo veslaˇrském trenažéru [30]. Ukázka laktátových kˇrivek je na obrázku 3.
Obrázek 3: Laktátová kˇrivka [3].
4.4
Souhrnná data (výsledky)
Velkým a objemným zdrojem dat jsou dnes již webové stránky zamˇerˇ ující se na online výsledky a ruzné ˚ rozsáhlé statistiky. Moderní technika se posunuly na takovou úroven, ˇ že staˇcí kliknout na jeden odkaz a máte všechny potˇrebné informace nejen o poˇradí týmu˚ v jednotlivých ligách, ale i konkrétnˇejší statistiky o hráˇcích. Nedílnou souˇcástí živého televizního vysílání fotbalového zápasu jsou pˇredzápasové a pozápasové analýzy. V nich si libují komentátoˇri, kteˇrí tzv. elektronickou tužkou malují na dotykové rozhraní a analyzují zápasové události rozkouskované po vteˇrinách. Oficiálními stránkami cˇ eské nejvyšší soutˇeže je http://www.synotliga.cz/, kde v sekci statistika uvidíme nˇekolik podkapitol pojednávajících o hráˇcích, brankáˇrích, týmech, trenérech, rozhodˇcích, zápasech samotných nebo divácích. Každá tato sekce má k nahlédnutí plno zajímavých tabulek, které se urˇcitˇe na ostatních online webech nevyskytují [31]. I tyto statistiky mohou pomoci týmum ˚ k lepším výsledkum, ˚ zlepšení kvality na jednotlivých postech nebo k celkovému obrázku, jak si stojí v lize.
18
4.5
Sport testery
Sport testery jsou zaˇrízení, které dokážou mˇerˇ it a vyhodnocovat sportovní aktivitu. Sledují rˇ adu faktoru˚ bˇehem výkonu. 4.5.1 Footpod Footpod je pˇrístroj na mˇerˇ ení rychlosti a ubˇehnuté vzdálenosti. Tento snímaˇc lze chápat jako malý krokomˇer, který se umístí na botu, nebo pˇrímo do speciálního otvoru v botˇe a pˇri každém kroku snímá otˇresy, které jsou zpusobeny ˚ dopadem nohy na zem. V dnešní dobˇe šla technika dál, a tak jsou footpody vybaveny dalšími pokroˇcilými senzory, které umožnují ˇ snímat délku kroku, akceleraci cˇ i smˇer pohybu. Pˇresnost dat je více než 97% za podmínky dobré kalibrace pˇrístroje. Obrovskou výhodou oproti GPS sport testerum ˚ je jeho nezávislost na satelitech. Muže ˚ se využívat i na místech, kde by GPS signál nebyl. Footpod je urˇcen primárnˇe na bˇeh a chuzi, ˚ což je pro multifunkˇcní sportovce nevýhoda, ale pro fotbalové úˇcely se hodí náramnˇe [32]. 4.5.2 Smart Ball Smart Ball od spoleˇcnosti Adidas, který je první svého druhu, je fotbalový míˇc, který dokáže zlepšit kopací techniku díky okamžitˇe poskytnuté zpˇetné vazbˇe. Ta je k vidˇení prostˇrednictvím chytrého telefonu s rozhraním bluetooth. Míˇc má ve svém stˇredu umístˇené integrované senzory, které posílají pomocí patentovaného algoritmu data do mobilu s nainstalovanou aplikací miCoach, která graficky ukáže rotaci míˇce, sílu, trajektorii a rychlost stˇrely. V nabídce „Pro challenge“ si dokonce muže ˚ uživatel vybrat, jak zahrávat pˇrímé kopy jako fotbalová hvˇezda. Staˇcí si jen zvolit, jakou kopací techniku po vzoru svého oblíbeného stˇrelce se chce nauˇcit a aplikace ukáže pˇresnou vizualizaci cesty míˇce, jakou cˇ ástí nohy má být stˇrela kopnuta a do jaké cˇ ásti míˇce se má kopnout. Smart Ball umožnuje ˇ ukládat a sdílet své kopací techniky, které díky výukovým programum ˚ muže ˚ mít majitel tohoto míˇce stále lepší a lepší [4].
Obrázek 4: Smart Ball [4].
19
4.5.3
„The man bra“
Tato nová nejmodernˇejší technologie se zaˇcíná cˇ astˇeji objevovat jako nedílná souˇcást výbavy fotbalových hráˇcu. ˚ Jde o vesty sloužící k monitorování výkonu hráˇce pomocí systému GPS. V této „podprsence“, jak je oznaˇcována mezi sportovci, je zabudovaný systém, který je propojený pˇres satelit se softwarem v poˇcítaˇci, který je souˇcástí licence nutné k užívání systému. Bohužel né každý si to muže ˚ dovolit, protože základní balíˇcek, který obsahuje potˇrebné komponenty a program do poˇcítaˇce, stojí milion korun a licence je vˇetšinou na tˇri roky. Nejedná se jen o nˇejaký módní výstˇrelek. Systém totiž vede k maximalizaci sportovního výkonu a minimalizování rizika zranˇení. Také usnadnuje ˇ sportovci dostat se rychleji do formy po zranˇení. Software funguje tak, že na základˇe zátˇežových testu˚ pˇriˇradí hráˇci hodnotu, kterou musí bˇehem tréninku dosáhnout. Je-li hodnota dosažena, trénink pro nˇej konˇcí, protože pˇri pˇrekroˇcení hodnoty hrozí zranˇení. Je-li naopak nenaplnˇena hodnota po tréninku, musí si hráˇc pˇridat, aby dosáhl požadovaných hodnot. Systém na sledování hráˇcu˚ je mnohem modernˇejší a sofistikovanˇejší než tˇreba sport testery. Data, která tento produkt zahrnuje, jsou kupˇríkladu poˇcet nabˇehaných kilometru, ˚ prumˇ ˚ erná tepová frekvence, maximální tepová frekvence, maximální rychlost, akcelerace, minuty (vteˇriny) ve sprintu, rozložení síly na pravou a levou nohu pˇri bˇehu, metabolické zatížení organismu a poˇcet kolizí, což je využíváno spíše v NFL nebo ragby, nebot’ osobní souboje cˇ i stˇrety vyžadují zvýšený výdej energie. Už pˇred pˇeti lety byl systém rozšíˇren mezi kluby západní Evropy, ovšem v té dobˇe ho využívali jen špiˇckoví hráˇci jednotlivých klubu. ˚ Nyní se objevuje tento pomocník cˇ astˇeji i v místech, kde by to ne každý oˇcekával. Momentálnˇe je k dispozici pro mladé hráˇce z juniorek, aby se pˇri jejich zaˇclenování ˇ mezi elitu eliminovalo riziko zranˇení z pˇretížení. A napˇríklad fotbalová reprezentace Indie se bez nich neobejde a trenér tohoto národního týmu Stephen Constantine si pochvaloval, že jde o novou úrovenˇ odborné technické vymoženosti a je to neocenitelné pˇri urˇcování schopnosti hráˇcu˚ z fyziologického hlediska [33].
Obrázek 5: The man bra [5].
20
5 Technologické statistické softwary Pohled do minulosti ukazuje, že prvními sporty, které zaˇcaly analyzovat utkání, byly basketbal a americký fotbal. Bylo to již v šedesátých letech dvacátého století. V dnešní dobˇe je cˇ ím dál více investováno do výzkumu analýzy utkání a vybavení jak stadionu, ˚ tak i tréninkových center nejmodernˇejšími technologickými pˇrístroji, které pomáhají týmum ˚ a hlavnˇe hráˇcum ˚ k lepšímu výkonu. Nejen vrcholové týmy, ale i týmy z nižších soutˇeží jsou monitorovány a poté analyzovány stále se rozvíjejícími softwary. Nejduležitˇ ˚ ejším prvkem je ale správné vyhodnocování získaných videí, respektive informací a dat [34]. Dnes je již, hlavnˇe pro trenéry, nedílnou souˇcástí tyto rozbory utkání mít, nebot’ díky ˇ nim mohou výkonnost celého týmu pozvednout a posunout na vyšší úroven. ˇ Casto mu˚ žeme vidˇet, jak si kouˇc zapisuje bˇehem utkání poznámky k jednotlivým akcím, ovšem hlavní práce v analýze zápasu pro nˇej zaˇcíná až po finálním hvizdu hlavního arbitra, kdy si pouští znovu a znovu zápas a analýzou výsledku se snaží zefektivnit tréninkový proces. Díky firmám, jako jsou Opta, ProZone, Wyscout, InStat a další, se zavádí nový fotbalový pojem a to „moderní fotbalový trenér“.
5.1
Opta
Znaˇcka OPTA se v roce 1996 spojila s Premier League díky hodnotícímu systému OPTA Index. O šest let pozdˇeji, v roce 2002, koupila firma Aidan Cooney’s Sportingstatz akcie Opty a snažila se pˇrenést celou firmu do nového podnikání. V roce 2005-2006 postupnˇe pronikají do Nˇemecka a Itálie. V roce 2007 kupuje podíl ve španˇelském podniku Geca Sport. V letech 2009-2012 postupnˇe proráží se svým softwarem do Francie, otevírá poboˇcku v Leeds jako centrum sbˇeru dat pro rugby, v New Yorku pro nejvyšší americkou ligu Major League Soccer a v Sydney pro rugby. Nyní se snaží shromažd’ovat, analyzovat a distribuovat více živých a podrobnˇejších dat, než kdokoliv jiný v 70 zemích pro více než 30 sportu. ˚ Jejich data jsou využívána v sázkovém prumyslu, ˚ v tisku, živých pˇrenosech a profesionálních analýzách výkonu. Mezi nejvýznamnˇejší klienty se rˇ adí sportovní kanály Sky Sports, ESPN a BBC Sport, fotbalové kluby Arsenal F.C. a Manchester City F.C., rugbyový národní tým Nového Zélandu All Blacks, sázková kanceláˇr William Hill, uznávaný britský sportovní deník The Guardian, atd. [35]
5.2
Wyscout
Software Wyscout založil v roce 2004 Matteo Campodonico, který se svým kolegou Simonem Falzettim zaˇcal natáˇcet nižší soutˇeže italské ligy. Spoleˇcnost vznikla jako koníˇcek, ale už v roce 2008 pˇrišel pˇrelom, který pˇredstavoval duležitou ˚ fázi pro technologický rozvoj produktu. Své služby rozšíˇrili do Serie A, kde postupnˇe získávali více týmu. ˚ Na konci roku 2009 získala spoleˇcnost své první zahraniˇcní zákazníky.
21
Nyní je Wyscout pˇrední svˇetovou spoleˇcností pomáhající fotbalovým funkcionáˇrum, ˚ sportovním rˇ editelum, ˚ skautum, ˚ manažerum, ˚ hráˇcským agentum ˚ i hráˇcum ˚ pˇri hledání talentu, ˚ analýzách zápasu˚ a pˇrestupech. Nabízí jeden z nejrozsáhlejších archívu, ˚ jenž již byl využit ke skautingu 220 tisíc hráˇcu, ˚ týdnˇe slouží k analýze více než 900 zápasu˚ a obsahuje technická a taktická data a specifické nástroje pro každou profesionální úroven. ˇ Celkovˇe Wyscout využívá 450 fotbalových klubu˚ z celého svˇeta a mezi cˇ eské kluby se rˇ adí SK Slavia Praha a AC Sparta Praha a pár hráˇcských agentur [36] [37].
5.3
InStat
InStat je statistická agentura pocházející z Albánie. Založena byla roku 1940, ale poˇcátky byly už v roce 1924, kdy byla firma specializována na shromažd’ování ekonomických dat na ministerstvu veˇrejných vˇecí a zemˇedˇelství v Albánii. Hlavním produktem firmy je webová stránka, která slouží pro všechny trenéry a skauty, kteˇrí díky zakoupené licenci mohou sledovat jakýkoliv fotbalový zápas na celé Zemi. Dále mohou získávat informace a celkovou analýzu odehraného zápasu. Sami mužou ˚ prostˇrednictvím svého profilu vkládat informace a posouzení o jejich týmech, respektive klientech. InStat technologie je založena na využití matematických modelu˚ a dokonale vyškoleném týmu s více než 300 certifikovanými analytiky. Dˇríve, než jsou data vypuštˇena do svˇeta, musí projít pˇres trojitý kontrolní postup. Chybovost certifikovaných pracovníku˚ je 1,2%. Jejich klientela se skládá z celého fotbalového svˇeta ze všech kontinentu. ˚ Mezi nejvýznamnˇejší se rˇ adí napˇríklad z fotbalových týmu˚ Chelsea, Manchester City, Liverpool, Borussia Dortmund, Wolfsburg, Lazio, ale i 56 fotbalových federací, krom Španˇelska, Itálie, ˇ Francie i federace Ceské Republiky a Slovenska. Dalšími uživateli jsou fotbalové akademie, vysoké školy a ligy. Dohromady má spoleˇcnost pˇres 850 klientu˚ [38].
5.4
StatDNA
Firma StatDNA je pomˇernˇe mladá firma založená roku 2010 se sídlem v USA. Je to svˇetový poskytovatel vyspˇelých fotbalových dat a analytiky. Uživatel muže ˚ sledovat kterýkoliv sportovní tým kdekoli na svˇetˇe s použitím mobilního telefonu. Software indexuje každý dotek míˇce každého hráˇce v týmu. Video lze prohledávat a zkoumat jednotlivé významné události jako jsou stˇrely, útoˇcná postavení, zákroky brankáˇre, poziˇcní útoˇcnou hru, stˇrely mimo a na bránu a dalších 75 typu˚ událostí. V programu lze vytváˇret poznámky, ukládat klipy, sdílet svuj ˚ seznam uložených klipu˚ s hráˇci a trenéry a používat službu na poˇcítaˇci, iPadu nebo iPhonu s internetovým pˇripojením. Každý uživatel dostane na každý zápas v lize 25-stránkový pdf soubor, který zahrnuje všechny klíˇcové statistiky a vizuální mapové zprávy a analýzy od každého hráˇce z obou týmu z jednotlivého utkání [39].
22
5.5
Match Analysis
Firma Match Analysis vznikla tak, že její zakladatel Mark Brunkhart chtˇel zmˇenit hráˇce a tréninkový proces jeho týmu tak, aby vidˇeli to, co dˇelají na hˇrišti, jak se pohybují, kam pˇrihrávají, a tak vzal papír a tužku a zaˇcal si zaznamenávat všechny události, které se postupem cˇ asu promˇenily do sbírky tištˇených zpráv a putovaly do programu Mambo Studio. Prvního profesionálního klienta mˇela spoleˇcnost Match Analysis v roce 2001, kdy byla také otevˇrena kanceláˇr a najatí první zamˇestnanci. Ukázalo se, že spojení Mambo Studia a jednoduchosti analytického softwaru byl prukopnický ˚ krok a za rok už mˇela 90% svých klientu, ˚ které tvoˇrily profesionální týmy z nejvyšší ligy v USA. Svou klientelu rozšíˇrili kromˇe celých Spojených státu˚ také do všech profesionálních týmu˚ Mexika, do špiˇckových týmu˚ Evropy, na Stˇredním východˇe, do národních týmu˚ na Svˇetovém poháru, federací, v živém vysílání, do vysokých škol a mládežnických týmu˚ [40].
23
6 Statistické metody V této kapitole jsou struˇcnˇe popsány nejˇcastˇeji využívané modely a metody, které zasahují do fotbalové statistiky a analýzy. Budu vycházet z knihy Jiˇrího Andˇela – Statistické metody [41].
6.1
Regresní analýza
Regresní analýzu používáme k popisu a modelování závislosti náhodné veliˇciny Y na veliˇcinˇe X. Tato závislost je vyjádˇrena lineárním modelem Y = Xβ + e
(6.1)
kde X = (xij ) ∈ Rn,k je matice hodnot nezávisle promˇenných (vysvˇetlujících). Regresní model je speciální pˇrípad lineárního modelu, kde X má plnou hodnost a poˇcet rˇ ádku˚ n > k. β = (β1 , ..., βk ) je vektor neznámých parametru˚ a e = (e1 , ..., en )′ je vektor náhodných veliˇcin. Ve fotbalovém prostˇredí se používá napˇríklad pro modelování množství laktátu v krvi v závislosti na rychlosti bˇehu, viz 4.3. Pro odhad koeficientu˚ regresního modelu se využívá metoda nejmenších cˇ tvercu. ˚ Spoˇcívá v minimalizaci souˇctu cˇ tvercu˚ reziduí: S(β) = (Y − Xβ)′ (Y − Xβ).
(6.2)
Pro odhad parametru˚ b ∈ Rk tedy platí b = argminS(β)
(6.3)
β∈Rk
Dále jsou uvedeny nejˇcastˇeji používané regresní modely. Zde uvádím explicitní vzorce, u kterých se pˇredpokládá, že e1 , ..., en jsou nezávislé náhodné veliˇciny s rozdˇelením N (0, σ 2 ). ˇ 6.1.1 Pˇrímka procházející pocátkem Uvažujme model Yi = βxi + ei ,
i = 1, ..., n.
Pomocí metody nejmenších cˇ tvercu˚ dostaneme odhad parametru β P xi Yi b= P 2 . xi
(6.4)
(6.5)
Pro odhad rozptylu σ 2 dostáváme reziduální rozptyl s2
R , R = (Y − Xb)′ (Y − Xb), n−1 kde R je tzv. reziduální souˇcet cˇ tvercu. ˚ Pro model (6.4) lze R vyjádˇrit jako X X R= Yi2 − b xi Yi . s2 =
(6.6)
(6.7)
24
6.1.2 Obecná pˇrímka Uvažujme model Y i = β 0 + β 1 xi + e i , Nyní je tedy β = (β0 , β1 )′ a 1 x1 X = . . . . . . . . , 1 xn
′
XX=
Oznaˇcme
i = 1, ..., n.
P Pn P x2i , xi xi
(6.8)
P Y XY = P i . xi Yi ′
1X 1X Yi , x ¯= xi . Y¯ = n n Odhady parametru nyní mužeme ˚ vyjádˇrit ve tvaru P 2 P P P Y i − b0 Y i − b1 x i Y i xi Yi − n¯ xY¯ 2 ¯ , b0 = Y − b1 x ¯, s = . b1 = P 2 n−2 xi − n¯ x2
(6.9)
(6.10)
6.1.3 Kvadratická regrese Uvažujme model
Yi = β0 + β1 xi + β2 x2i + ei ,
Nyní je tedy 1 x1 x21 X = . . . . . . . . . . , 1 xn x2n
i = 1, ..., n.
P P n xi P x2i P P X ′ X = P xi P x2i P x3i , x4i x3i x2i
(6.11)
P Yi P X ′ Y = P x i Y i . x2i Yi
Pomocí rˇ ešení soustav rovnic X ′ Xb = X ′ Y se vypoˇcte odhad b = (b0 , b1 , b2 )′ vektoru β = (β0 , β1 , β2 )′ . Potom se i vypoˇcítá X X X 1 X 2 2 2 s = Y i − b0 (6.12) Y i − b1 x i Y i − b2 xi Yi . n−3 ˇ ˇ 6.1.4 Regrese se dvema nezávisle promennými Tento model umožnuje ˇ postihnout závislost Yi na více vysvˇetlujících veliˇcinách. Pro jednoduchost uvažujme pouze 2 vysvˇetlující veliˇciny. Obdobnˇe bychom postupovali pro více veliˇcin. Uvažujme model Yi = β0 + β1 xi + β2 zi + ei , Nyní je tedy 1 x 1 z1 X = . . . . . . . . . . , 1 x n zn
i = 1, ..., n.
P P n x i P zi P P X ′ X = P xi P x2i Pxi 2zi , zi x i zi zi
(6.13)
P P Yi ′ X Y = P xi Yi . zi Yi
25
Stejnˇe jako u kvadratické regrese se i zde vypoˇcítá pomocí rˇ ešení soustav rovnic X ′ Xb = X ′ Y odhad b = (b0 , b1 , b2 )′ vektoru β = (β0 , β1 , β2 )′ . Pomocí vzorcu˚ vypoˇcítáme reziduální souˇcet cˇ tvercu˚ R a reziduální rozptyl s2 R=
6.2
X
Yi2 − b0
X
Y i − b1
X
x i Y i − b2
X
zi Yi ,
s2 =
R . n−3
(6.14)
Logistická regrese
Logistická regrese modeluje závislost binární veliˇciny na jedné cˇ i více vysvˇetlujících promˇenných. Tudíž závisle promˇennou predikujeme odhad pravdˇepodobnosti, jestli událost nastane Y = 1 cˇ i nenastane Y = 0. Logistická regrese modeluje pravdˇepodobnost jevu Y = 1. et 1 ˚ vyjádˇrit pravdˇepodobnost Pomocí logistické funkce φ(t) = 1+e t = 1+e−t mužeme jevu Y = 1 v závislosti na jedné vysvˇetlující promˇenné x: P (Y = 1|x) = π(x),
(6.15)
π(x) = φ(β0 + β1 x),
(6.16)
kde po úpravˇe dostaneme inverzní vztah log
π(x) = β0 + β1 x, 1 − π(x)
(6.17)
kde β0 a β1 jsou regresní koeficienty, x je nezávisle promˇenná a náhodná veliˇcina Y má v závislosti na x alternativní rozdˇelení s parametrem π(x). Nezávisle promˇennou x mu˚ žeme mít ve tvaru vícerozmˇerném, x = (x1 , ..., xn ), kdy model odpovídá tvaru: π(x) =
exp(β0 + β1 x1 + β2 x2 + ... + βn xn ) . 1 + exp(β0 + β1 x1 + β2 x2 + ... + βn xn )
(6.18)
Poznamenejme, že popsaný model lze chápat tak, že pravdˇepodobnost π(x) je urˇcena složením logistické funkce φ(t) a tzv. lineárního prediktoru (napˇr. β0 + β1 x), který tvoˇrí základ lineárních regresních modelu. ˚ Poznámka 6.1 Tento model lze zobecnit pro diskrétní náhodnou veliˇcinu Y s více než 2 možnými hodnotami. p se rˇ íká logitová. Poznámka 6.2 Inverzní funkci k logistické funkci, tj. log 1−p
Logistická regrese je využívána napˇríklad pˇri stanovování kurzu pro kurzové sázení [42].
26
6.3
ˇ Poissonuv ˚ proces a poissonovská náhodná velicina
Pˇrevedeme-li tuto podkapitolu do rˇ eˇci fotbalu, tak výskyt gólu, ˚ rohu, ˚ faulu, ˚ atd. se dá chápat jako poissonuv ˚ proces. Nejprve obecnˇe definujme pojem náhodného procesu [43]. Definice 6.1 Necht’ T je libovolná neprázdná množina. Pak systém náhodných veliˇcin {Xt (·), t ∈ T } nazýváme náhodným procesem na T . V praxi je hojnˇe využíván jako cˇ ítací proces Xt : t ≥ 0 se spojitým cˇ asem a množinou stavu˚ J = {0, 1, 2, ...}. Hodnotu Xt interpretujeme jako poˇcet událostí, které nastaly do cˇ asu t. Poissonuv ˚ proces lze charakterizovat pomocí rozdˇelení intervalu˚ mezi událostmi. Homogenní poissonuv ˚ proces je nazýván takový proces, který splnuje: ˇ 1. X0 = 0, 2. délky intervalu˚ mezi 2 po sobˇe jdoucími událostmi jsou navzájem nezávislé náhodné veliˇciny, 3. délky tˇechto intervalu˚ mají exponenciální rozdˇelení s hustotou: ( λe−λx pro x > 0, f (x) = 0 pro x ≤ 0,
(6.19)
kde λ > 0 je parametr intenzity Poissonova procesu. Pro takto zavedený náhodný proces platí, že Xt mají Poissonovo rozdˇelení s parametrem λt, tedy: P (Xt = i) =
(λt)i −λt e , i!
i = 0, 1, ..., n.
(6.20)
Veliˇcinu s tímto rozdˇelením znaˇcíme X ∼ P o(λt). Náhodnou veliˇcinu s Poissonovským rozdˇelením Xt chápeme jako poˇcet výskytu˚ událostí, které v Poissonovˇe procesu nastaly v cˇ asovém intervalu h0, ti, jejichž stˇrední poˇcet je roven λt. Intenzita homogenního Poissonova procesu λ udává stˇrední poˇcet výskytu˚ sledované události za jednotku cˇ asu. Pˇríkladem využití Poissonova procesu je stˇrílení branek. Poˇcet branek vstˇrelených napˇríklad bˇehem 1 zápasu pak má Poissonovo rozdˇelení. Pˇredpovˇed’ vítˇeze pˇri sázkách na fotbal [44].
6.4
Poissonovská regrese
Poissonovská regrese je speciálním pˇrípadem tzv. zobecnˇeného lineárního modelu [45]. Pˇredpokládá, že náhodná veliˇcina Y má Poissonovo rozdˇelení a logaritmus jeho oˇcekávané hodnoty muže ˚ být modelován pomocí lineární kombinace parametru. ˚ Bývá oznacˇ ován jako log–lineární model.
27
Pokud x ∈ Rn je vektor nezávislých promˇenných, pak zobecnˇený lineární model má tvar log(E(Y |x)) = β0 + β1 ′ x, (6.21) kde β0 ∈ R a β1 ∈ Rn . Nˇekdy je upravováno na tvar kompaktnˇejší (viz. úvod k regresi Y = xβ + e) log(E(Y |x)) = xβ T , (6.22) kde x je n + 1 rozmˇerný vektor jehož první složka je konstanta rovna 1 a ostatní složky jsou tvoˇreny nezávislými promˇennými. Podobnˇe β vznikne spojením β0 a β1 do n + 1 rozmˇerného vektoru. Parametry modelu mužeme ˚ odhadnout napˇr. metodou maximální vˇerohodnosti. Odhady metodou maximální vˇerohodnosti ovšem postrádají analytické rˇ ešení a musí být nalezeno numericky. Pˇríklad použití je napˇr. výsledek zápasu pro každé mužstvo zvlášt’ [46].
6.5
ˇ Dvourozmerný Poissonuv ˚ model
Necht’ Yi ∼ P o(λi ), i = 0, 1, 2. Definujme náhodné veliˇciny Y = X1 + X0 , Z = X2 + X0 . Takto definované veliˇciny mají dvourozmˇerné Poissonovo rozdˇelení s parametry λ0 , λ1 , λ2 a znaˇcíme je (X, Y ) ∼ BP (λ1 , λ2 , λ0 ). Pravdˇepodobnostní funkce má tvar: P (Y = y, Z = z) = e
λy2 x! y!
x −(λ1 ,λ2 ,λ0 ) λ1
min(x,y)
X i=0
x i
y λ0 i i! . i λ1 λ2
(6.23)
Dvourozmˇerný Poissonuv ˚ model má tu vlastnost, že marginální rozdˇelení jsou Poissonovská Y ∼ P o(λ1 + λ0 ), Z ∼ P o(λ2 + λ0 ).
6.6
ˇ Dvourozmerný Poissonuv ˚ regresní model
Necht’ (Yi , Zi ) ∼ BP (λ1i , λ2i , λ3i ), log(λ1i ) = x1i β1 , log(λ2i ) = x2i β2 , log(λ3i ) = x3i β3 ,
28
kde i = 1, ..., n oznaˇcuje index jednotlivých pozorování. x1i , x2i a x3i oznaˇcují vektory vysvˇetlujících promˇenných pro i−té pozorování a βk oznaˇcuje odpovídající vektory regresních koeficientu. ˚ Pro modelování λki jsou využívány vektory xki , které nemusí být (pro každé k ∈ {1, 2, 3}) stejné. Dvourozmˇerný Poissonuv ˚ regresní model lze využít k celkovému odhadu výsledku zápasu [47]. Výhody dvourozmˇerného Poissonova modelu: • Je více realistiˇctˇejší, než model využívající jednorozmˇernou poissonovskou regresí pro každé mužstvo. • Zlepšuje odhad remíz. • Lépe se pˇrizpusobuje ˚ datum. ˚ • Pˇrijímá spoleˇcné faktory, které mohou mít vliv na výsledek (napˇr. neutrální zemˇe, poˇcasí, informace o hráˇcích, atd.).
6.7
Bayesovské síteˇ
Bayesovské sítˇe slouží k popisu rozdˇelení náhodného vektoru s využitím podmínˇených nezávislostí. Existuje nˇekolik ekvivalentních definic Bayesovské sítˇe. Necht’ G = (V, E) je orientovaný acyklický graf a necht’ X = (Xv )v∈V je náhodný vektor veliˇcin indexovaných V , kde pro jednoduchost pˇredpokládáme Xv jsou diskrétní náhodné veliˇciny. Mˇejme P (X = x) > 0 na celém oboru hodnot náhodného vektoru X. X je Bayesovská sít’ s ohledem na G, jestliže její sdružená pravdˇepodobnostní funkce muže ˚ být psána jako souˇcin podmínˇených pravdˇepodobnostních funkcí P (X = x) =
Y
v∈V
P Xv = xv |Xpa(v) = xpa(v) ,
(6.24)
kde x = (xv )v∈V je vektor hodnot náhodné veliˇciny X, pa(v) je množina rodiˇcu˚ vrcholu v a Xpa(v) = (Xu )u∈pa(v) a podobnˇe xpa(v) = (xu )u∈pa(v) . Množinu vrcholu˚ mužeme ˚ vždy volit jako {1, ..., n} pro nˇejaké n ∈ N. Obecnˇe platí, že sdruženou pravdˇepodobností funkcí náhodného vektoru x mužeme ˚ vyjádˇrit P (X = x) =
n Y
P (Xv = xv |Xv+1 = xv+1 , ..., Xn = xn ).
(6.25)
v=1
Je-li cˇ íslování vrcholu˚ voleno tak, aby (i, j) ∈ E ⇒ i > j, pak ∀v ∈ V : pa(v) ⊂ {v + 1, ..., n}, tj. P (Xv = xv |Xv+1 = xv+1 , ..., Xn = xn ) = P Xv = xv |Xpa(v) = xpa(v) . (6.26)
Xv je podmínˇenˇe nezávislá na (Xu )u∈{v+1,...,u}\pa(v) za podmínky Xpa(v) = xpa(v) . Bayesovské sítˇe se využívají pro pˇredpovídání výsledku˚ utkání [48].
29
6.8
Bayesovská statistika
Pro toto odvˇetví statistiky využívám online dostupný text [49]. Existuje geniální myšlenka, která je základem bayesovských metod. Pˇrišel s ní v 18. století Thomas Bayes a zní takto: „Všechny neznámé parametry vyskytující se v úloze jsou považovány za náhodné veliˇciny“. Bayesovský pˇrístup je bˇežnˇe využíván pro složité statistické modely. V kapitole 7 je Bayesovský pˇrístup využit, proto budeme potˇrebovat struˇcný základ, o který se opˇreme. Definice 6.2 Necht’ A, B jsou náhodné jevy a P (A) > 0. Podmínˇená pravdˇepodobnost jevu B za podmínky jevu A znaˇcíme P (B|A) a je definováno vztahem P (B|A) =
P (B ∩ A) , P (A)
(6.27)
Podmínˇená pravdˇepodobnost vyjadˇruje míru oˇcekávání jevu B, za podmínky, že nastal jev A. Po úpravˇe ze vzorce podmínˇené pravdˇepodobnosti (6.27) plyne P (B ∩ A) = P (B|A)P (A).
(6.28)
„Mechanizmus“ pˇrenosu informace je formulován Bayesovou vˇetou. Vˇeta 6.1 Necht’ Bi tvoˇrí úplný systém vzájemnˇe disjunktních náhodných jevu˚ a necht’ A je náhodný jev, pro který platí P (A) > 0. Pak P (Bi |A) =
P (A|Bi )P (Bi ) P (A|Bi )P (Bi ) . = Pn P (A) i=1 P (A|Bi )P (Bi )
(6.29)
Chápeme-li P (Bi ) jako míru oˇcekávání výskytu jevu Bi , P (Bi |A) je míra oˇcekávání Bi za podmínky, že máme dodateˇcnou informaci, že nastal jev A. P (Bi ) je nazývána „apriorní rozdˇelení“ a P (Bi |A) „aposteriorní rozdˇelení“. Obdobný postup lze použít pro náhodné veliˇciny. Chceme-li dostat tzv. „aposteriorní hustotu“, odvodíme Bayesuv ˚ vzorec pomocí apriorního rozdˇelení f (λ) a modelu f (x|λ). Potom platí f (x|λ)f (λ) f (λ|x) = , (6.30) f (x) R kde f (x) = f (x|λ)f (λ)dλ. Aposteriorní rozdˇelení je (až na výjimky) složité a v praxi se proto aproximuje. Nejcˇ astˇejším používaným nástrojem jsou Monte Carlo metody, které k aproximaci rozdˇelení využívají veliké soubory náhodnˇe generovaných vzorku. ˚
30
7 Aplikace V této kapitole se budu zabývat ukázkou konkrétního využití statistických metod pˇri analýze fotbalových dat. Mým cílem bude zjistit, jestli nˇejaké vnˇejší faktory ovlivnily pokles, nebo naopak rust ˚ poˇctu gólu˚ v jednotlivých sezónách cˇ eské, respektive cˇ eskoslovenské nejvyšší soutˇeže. Data jsou vybrána od sezóny 1933/34 až do 2014/15. Rok 1933 jsem si vybral zámˇernˇe, protože od tohoto roku jde o celostátní soutˇež. Do té doby se soutˇeže úˇcastnily ˇ pouze týmy z Cech, hlavnˇe z Prahy a Stˇredoˇceského kraje. K tomuto úˇcelu budu využívat bayesovského pˇrístupu, díky kterému budu modelovat vývoj poˇctu nastˇrílených gólu˚ v závislosti na cˇ ase (roˇcník ligy). Pro numerický výpoˇcet pomocí MCMC metody byla využita knihovna PyMC implementovaná v jazyce Python. Cílem této práce (aplikace) není plnˇe porozumˇet a naprogramovat jednotlivé složitˇejší metody, ale ukázat, že s využitím vhodných nástroju˚ lze uskuteˇcnit plno zajímavých analýz, které mají uplatnˇení ve fotbale. Proto bych chtˇel ještˇe jednou podˇekovat mému vedoucímu bakaláˇrské práce panu Ing. Janu Kracíkovi, Ph.D., který mi s tˇemito pokroˇcilými metodami a s naprogramováním pomohl.
7.1
ˇ dat Výber
Pˇribližme si nyní data, která byla pro tuto analýzu vybrána. V níže uvedených tabulkách 1 a 2 jsou vyobrazeny celkové poˇcty gólu, ˚ které padly za jednotlivé sezóny spolu s celkovým poˇctem odehraných zápasu, ˚ tzn. když se roˇcníku 1933/34 zúˇcastnilo 10 týmu, ˚ které hrály formou každý s každým na domácím a venkovním hˇrišti, odehrálo se dohromady 90 zápasu. ˚ Poˇcet týmu˚ se v prubˇ ˚ ehu let mˇenil. V roce 1944/45 nebyla soutˇež pro vyostˇrenou váleˇcnou situaci ani rozehrána, proto není tento rok do našich dat zapoˇcítán. Zvýšenou pozornost má sezóna 1945/46, která mˇela jiný formát soutˇeže, než v ostatních letech. Byla rozdˇelena na 2 skupiny po 10 týˇ mech, pˇriˇcemž 14 týmu˚ bylo z Cech a Moravy a 6 ze Slovenska. Další duvod ˚ k zbystˇrení je v roce 1953, kdy 14 týmu˚ hrálo pouze každý s každým, tzn. o polovinu zápasu˚ v sezónˇe ménˇe, než v ostatních roˇcnících.
31
Roˇcník 33 / 34 34 / 35 35 / 36 36 / 37 37 / 38 38 / 39 39 / 40 40 / 41 41 / 42 42 / 43 43 / 44 45 / 46 46 / 47 47 / 48 1949 1950 1951 1952 1953 1954 1955 1956 57 / 58 58 / 59 59 / 60 60 / 61 61 / 62 62 / 63 63 / 64 64 / 65 65 / 66 66 / 67 67 / 68 68 / 69 69 / 70 70 / 71 71 / 72 72 / 73 73 / 74 74 / 75
Celkový poˇcet gólu˚ 406 546 821 577 537 545 662 620 696 717 938 1031 929 540 832 698 706 676 331 405 403 446 648 532 513 584 659 540 539 491 428 491 498 471 533 575 660 586 660 676
Celkový poˇcet zápasu˚ v sezónˇe 90 132 182 132 132 110 132 132 132 132 182 380 182 110 182 182 182 182 91 132 132 132 132 182 182 182 182 182 182 182 182 182 182 182 240 240 240 240 240 240
Tabulka 1: Celkový poˇcet vstˇrelených gólu˚ za sezóny 1933-1974
Roˇcník 75 / 76 76 / 77 77 / 78 78 / 79 79 / 80 80 / 81 81 / 82 82 / 83 83 / 84 84 / 85 85 / 86 86 / 87 87 / 88 88 / 89 89 / 90 90 / 91 91 / 92 92 / 93 93 / 94 94 / 95 95 / 96 96 / 97 97 / 98 98 / 99 99 / 00 00 / 01 01 / 02 02 / 03 03 / 04 04 / 05 05 / 06 06 / 07 07 / 08 08 / 09 09 / 10 10 / 11 11 / 12 12 / 13 13 / 14 14 / 15
Celkový poˇcet gólu˚ 608 692 640 650 618 634 589 690 639 634 643 695 715 735 638 649 662 672 602 632 634 571 585 625 570 613 590 592 578 531 567 534 556 582 574 634 635 620 673 645
Celkový poˇcet zápasu˚ v sezónˇe 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240 240
Tabulka 2: Celkový poˇcet vstˇrelených gólu˚ za sezóny 1975-2015
32
7.1.1 Vývoj fotbalové ligy u nás Pro správné vyhodnocení a dospˇení k smysluplnému závˇeru je potˇreba znát ovlivnující ˇ faktory, které mohly vést k poklesu cˇ i rustu ˚ poˇctu gólu. ˚ Proto si nyní pˇribližme vývoj fotbalové ligy a její události, jak se s cˇ asem mˇenila struktura soutˇeže. Od roku 1933, kdy naše data zaˇcínají, se struktura soutˇeže neustále mˇenila, zvláštˇe pak poˇcet úˇcastníku. ˚ Nutno podotknout, že od tohoto roku se poprvé objevil v soutˇeži ˇ tým z Moravy a o rok pozdˇeji byla soutˇež již plnohodnotnˇe Ceskoslovenská. Sezóna 1938/39 se nesla ve váleˇcném duchu, protože došlo k invazi nˇemeckých nacistických vojsk a v dusledku ˚ toho byly týmy rozdˇeleny podle územní správy na cˇ eskou a slovenskou cˇ ást. V roce 1944/45 nebyla soutˇež pro vyostˇrenou váleˇcnou situaci ani rozehrána. O rok pozdˇeji se znovu rozbˇehla, ale hrálo se formou dvou skupin, z kterých pak vzešli finalisté soutˇeže, kteˇrí si pomˇerˇ ili síly v jednom finálovém utkání. Od roku 1946 až do 1969 se poˇcet úˇcastníku˚ (až na výjimky) a forma ligy ustálily. V roce 1948 se zmˇenil politický systém, díky kterému docházelo k cˇ astým nepochopitelným zmˇenám v systému tˇelesné výchovy a sportu. Za komunistického režimu a hlavnˇe pak v roce 1952 docházelo ke kˇriklavým pˇrípadum ˚ vyˇrazení nˇekolika celku˚ ze soutˇeže v rámci zavedení tzv. „prumyslových ˚ odvˇetví“. Tyto zmˇeny negativnˇe ovlivnily i fotbalové soutˇeže. Mnohokrát se mˇenila tváˇr tˇechto soutˇeží, pˇredevším se mˇenil poˇcet úˇcastníku, ˚ dále docházelo i ke zmˇenám hracího období. Rovnˇež se cˇ asto mˇenil poˇcet sestupujících a postupujících. V sezónˇe 1969/70 se poˇcet týmu˚ zvýšil z puvodních ˚ 14 na 16 a toto cˇ íslo se už neˇ mˇenilo a zustává ˚ dodnes. V roce rozpadu Ceskoslovenska a vzniku samostatných státu˚ vznikají také nové ligy. V uvedených datech je pro jednoduchost poˇcítáno pouze s 1. cˇ eskou fotbalovou ligou. Všechny tyto zmˇeny mohou mít vliv na prumˇ ˚ erný poˇcet gólu˚ za utkání, proto jsou zde zmínˇeny, ale nejsou nˇejak zohlednˇeny. 7.1.2 Historie vývoje fotbalu a pravidel Jak již bylo zmínˇeno v kapitole 2.1, fotbal procházel svým vývojem, až vyrostl v moderní a nejsledovanˇejší sport. Nyní si ukážeme nejduležitˇ ˚ ejší události, které by nám mohly pomoct pˇri analýze vývoje gólové struktury. Pomineme-li období 1873-1933, kdy byl zaveden rohový kop, byly stanoveny rozmˇery brankové konstrukce, vhazování ze zázemí pomocí obou rukou, zavedení cˇ íslování dresu˚ nebo rok, kdy rozhodˇcí zaˇcal používat píšt’alku, dostaneme se k roku 1958. Míˇc od té doby nemohl mít šnˇerování. V roce 1965 bylo povoleno stˇrídání zranˇených hráˇcu˚ a 1976 jsou uvedeny do chodu žluté a cˇ ervené karty. V roce 1990 bylo zmˇenˇeno pravidlo o ofsajdu, které známe dnes. O 4 roky pozdˇeji, jak již bylo zmínˇeno v kapitole 3.5, je zavedeno tˇríbodové pravidlo. Vítˇezný tým dostane místo dosud pˇridˇelovaných 2 bodu˚ 3, za remízu zustává ˚ 1 bod a za prohru 0. Opˇet mužeme ˚ pˇredpokládat, že tyto okolnosti mužou ˚ mít vliv na prumˇ ˚ erný poˇcet gólu˚ za utkání.
33
7.1.3 Rychlý pruˇ ˚ rez historie rozestavení Udˇelejme si nyní pruˇ ˚ rez vývoje historického rozestavení od vzniku fotbalu až po soucˇ asné formace. O rozestavení jsem se zminoval ˇ již v kapitole 2.1, ale pro pˇrehlednost si vypíšeme rozestavení seˇrazené od nejranˇejší po souˇcasné. Poznámka 7.1 První cˇ íslice v trojˇcíslí níže znamená poˇcet obráncu, ˚ cˇ íslo (ˇcísla) uprostˇred je poˇcet záložníku˚ a krajní pravé cˇ íslo oznaˇcuje poˇcet útoˇcníku. ˚ Napˇríklad rozestavení 4-1-2-1-2 znamená, že tým hrál na 4 obránce, (1+2+1=) 4 záložníky a 2 útoˇcníky. • 1-1-8: Prvopoˇcátky fotbalu; Fotbal se spíše podobal rugby. • 1-2-7: „Passing game“ - 1850. • 2-3-5: „Pyramida“ - 1872 až konec 19. století. • 2-3-2-3: WW „METODO“ - 30. léta 20. století. ˇ • 3-2-2-3: WM „Safety first“ - Arsenal, Chapman; v Ceskoslovensku se zaˇcal používat až roku 1948. • 4-2-4: 50. léta 20. století - dominance Mad’aru˚ a Brazilcu; ˚ zónová obrana; vznikla nezávisle na sobˇe na dvou kontinentech, nejdˇríve neporazitelní Mad’aˇri, pak skvostná útoˇcná cˇ tyˇrka Brazilcu. ˚ • 4-3-3: „Totální fotbal“ - 60. léta 20. století - ne všechny týmy mˇely fyzické proporce na pˇredchozí formaci, proto se pˇriklonily k tomuto rozestavení. • 4-4-2: 80. a 90. léta - ostrovní rozestavení; Anglie z toho profitovala. ˇ • 3-5-2: 90. léta - populární rozestavení; používalo ho i Ceskoslovensko. • 4-1-2-1-2: „Diamant“ - varianta pro pˇredchozí rozestavení. • 4-5-1, 4-3-1-2, 4-2-3-1: Souˇcasnost + ruzné ˚ další varianty.
7.2
Prvotní grafický pohled na data
Z tabulek 1 a 2 byl sestavený bodový graf s prumˇ ˚ erným poˇctem gólu˚ na 1 zápas v jednotlivých letech.
34
Obrázek 6: Graf odhadnuté intenzity Poissonova procesu. Horizontální osa zobrazuje rozpˇetí let od roku 1933 do 2015 a vertikální prumˇ ˚ erný poˇcet gólu˚ na zápas. Body v grafu jsou prumˇ ˚ erné poˇcty gólu˚ na 1 zápas v jednotlivých letech. Z pohledu na data lze pˇredbˇežnˇe vyˇcíst, že z poˇcátku dochází nejprve k rustu, ˚ poté k poklesu prumˇ ˚ erného poˇctu na jeden zápas. Pˇribližnˇe od roku 1967 to vypadá, že poˇcty gólu˚ stagnují.
7.3
Model
V našem modelu budeme poˇcty gólu˚ za sezónu chápat jako poissonovské veliˇciny, jejichž intenzita je spojitá, po cˇ ástech lineární funkce cˇ asu (roku) se dvˇema body zlomu. Poˇcty gólu˚ v jednotlivých sezónách reprezentujeme diskrétními veliˇcinami Xi , kde i ∈ {1933, ..., 2015}\{1945}. Potom Xi ∼ P o(λi · ti ),
(7.1)
kde λi je intenzita poissonovského procesu v roce i. ti pˇredstavuje poˇcet zápasu˚ odehraných v roce i a tento parametr je pevnˇe daný, viz. tabulky 1 a 2. Intenzity λi modelujeme pomocí spojité po cˇ ástech lineární funkce, kde si zavedeme parametry s1 a s2 , které pˇredstavují roky, kdy došlo ke zmˇenˇe ve vývoji. Dále si urˇcíme
35
intenzity v námi zavedených parametrech (rocích) s1 , s2 a dále v poˇcáteˇcní a koncové intenzity. Tyto intenzity si pojmenujeme m0 , m1 , m2 , m3 , kde m0 je poˇcáteˇcní intenzita v roce 1933, m1 a m2 je intenzita v rocích s1 , respektive s2 a m3 je koncová intenzita v roce 2015. Potom m1 −m0 m0 + s1 −1933 (i − 1933) pro i ∈ {1933, ..., s1 }, 1 λi = m1 + ms22 −m (7.2) pro i ∈ {s1 + 1, ..., s2 }, −s1 (i − s1 ) m3 −m2 m2 + 2015−s (i − s2 ) pro i ∈ {s1 + 1, ..., 2015}. 2
Apriorní rozdˇelení parametru˚ modelu, tj. vektoru s1 , s2 , m0 , m1 , m2 , m3 volíme následovnˇe: s1 má diskrétní rovnomˇerné rozdˇelení na {1933, ..., 2015}, s2 má diskrétní rovnomˇerné rozdˇelení na {s1 + 1, ..., 2015}. Poznamenejme, že u s1 nemáme duvod ˚ preferovat jakýkoliv rok, za to s2 je rok druhé zmˇeny, tedy platí s2 > s1 , ale žádný z roku˚ {s1 + 1, ..., 2015} opˇet nemáme duvod ˚ preferovat. Dále volíme mk ∼ Exp(1), kde k = 1, ..., 4 a to cˇ istˇe z technických duvod ˚ u˚ jako exponenciální rozdˇelení s malou hodnotou parametru (λ = 1), cˇ ímž je výsledný odhad ovlivnˇen jen minimálnˇe. Navíc m0 , m1 , m2 , m3 jsou nezávislé náhodné veliˇciny. Jak jsem již na zaˇcátku této kapitoly zmínil, k numerickému výpoˇctu odhadu parametru˚ modelu se využívá Markov Chain Monte Carlo metoda, která generuje vzorky z aposteriorního rozdˇelení náhodného vektoru (s1 , s2 , m0 , m1 , m2 , m3 ) a samotný výpoˇcet byl udˇelán pomocí knihovny PyMC. Výsledný odhad je vizualizovaný v grafu 7. Z aposteriorního rozdˇelení bylo vygenerováno 900 vzorku˚ a pro každý z nich byl vykreslen pˇríslušný prubˇ ˚ eh intenzit.
7.4
ˇ Výsledky a závery
Výstupem jsou dva grafy. První 7 je vytvoˇren z dat prumˇ ˚ erného poˇctu celkových vstˇrelených gólu˚ v lize na jeden zápas. U druhého 8 grafu jsme opˇet vzali celkový poˇcet gólu, ˚ ale pouze od ligového vítˇeze a také v pomˇeru na jeden zápas.
36
Obrázek 7: Graf odhadnuté intenzity poˇctu vstˇrelených gólu˚ v celé lize. V tomto grafu jde jasnˇe vidˇet, že body zlomu pro zvolený model nastávají okolo roku 1942/1943 a okolo 1963/1964. Mezi tˇemito 2 body vidíme pokles prumˇ ˚ erných poˇctu˚ gólu˚ na zápas. Na základˇe poznámek 7.1.1, 7.1.2 a 7.1.3 se mužeme ˚ domnívat, že hlavním duvodem ˚ poklesu byly zmˇeny v rozestavení a zpusobu ˚ hry. Pˇrechod z cˇ istˇe útoˇcné hry na takticky rozvíjející se defenzivní cˇ innost se jevila jako zásadní pro celkový poˇcet gólu. ˚ Z rozestavení 2-3-2-3 a 3-2-2-3 se pˇrešlo do obranné formace 4-2-4 a 4-3-3, což zpusobilo ˚ rozvoj taktické cˇ innosti pro zónové obrany. Celkové pojetí hry se zmˇenilo. Obránci dostávali více úkolu, ˚ jak zamezit útoˇcníkum ˚ vstˇrelení gólu.
37
Obrázek 8: Graf odhadnuté intenzity poˇctu vstˇrelených gólu˚ pro vítˇeze ligy. Stejný model jsme použili pro poˇcet gólu˚ nastˇrílených vítˇezem ligy (v jednotlivých letech). U druhého grafu je situace podobná. Avšak všimnˇeme si, kdy nastává bod zlomu. První v okolí roku 1940 a druhý v okolí 1954/1955. Zaˇcátek poklesu je pˇribližnˇe stejný jako pro celou ligu, ale konec poklesu je o 10 let dˇríve oproti odhadnutému modelu pro celou ligu. Na první pohled lze usoudit, že data jsou více rozprostˇrena po celém grafu než v pˇredchozím pˇrípadˇe. Nemužeme ˚ s jistotou rˇ íct, co pˇresnˇe ovlivnilo tento klesající trend, ale mužeme ˚ si dovolit udˇelat logický závˇer. Týmy, které vyhrávali cˇ astˇeji svoji ligu, jako napˇríklad Pražská S (AC Sparta Praha a SK Slavia Praha), se dostávali do konfrontace s pˇredními evropskými týmy, které vytvárˇ ely nové rozestavení, taktiky a vývoj fotbalu celkovˇe. Díky tomu byly pˇrevzaty poznatky o hˇre a aplikovány do cˇ eské ligy. To zpusobilo ˚ pokles gólu, ˚ protože se cˇ eské týmy chtˇely vyrovnat s evropskou fotbalovou špiˇckou, a tak podnikaly taktické defenzivní kroky, aby udržely tempo s Evropou.
38
ˇ 8 Záver Cílem bakaláˇrské práce bylo vytvoˇrit pˇrehled využití statistických metod v souvislosti s fotbalem, získávání zdroju˚ dat a jejich využití. Kromˇe toho práce pˇrinesla rˇ adu poznatku, ˚ které lze využít pˇri tvorbˇe a interpretaci statistických modelu, ˚ což je ilustrováno aplikací.
39
9 Reference [1] B. Benjamin C. Reep. Skill and chance in association football. Journal of the Royal Statistical Society. Series A (General), 131(4):581–585, 1968. [2] Novotný Jan Bernaciková Martina, Kapounková Kateˇrina, Fyziologie sportovních disciplín [online]. 2015 [cit. 2016-04-22]. Dostupné z: https://is.muni.cz/do/fsps/elearning/fyziologie-sport/sport/hry-fotbal.html. [3] Miloš Škorpil, TF – LAKTÁT – AEROBNÍ PRÁH – BOD VARU [online]. 2010 [cit. 2016-04-08]. Dostupné z: http://www.bezeckaskola.cz/clanek-681-tf-laktataerobni-prah-bod-varu.html. [4] Adidas, Míˇc miCoach Smart [online]. 2016 [cit. 2016-04-08]. Dostupné z: http://www.adidas.com/us/micoach-smart-ball/G83963.html. [5] Heather Timmons, It’s not a man bra—it’s a wearable technology optimization device [online]. 2014 [cit. 2016-04-08]. Dostupné z: http://qz.com/214611/its-not-aman-bra-its-a-wearable-technology-optimization-device/. [6] Geoff Colvin. Talent is overrated: What really separates world-class performers from everybody else. New York: Portfolio, 2008. [7] Jonathan Wilson. Inverting the pyramid: The history of football tactics. Hachette UK, 2010. [8] Joakim Österberg. Magie cˇ ísel - rozestavení na hˇrišti. Pro Football, 7(5):42–45. [9] Ignacio Palacios-Huerta. Structural changes during a century of the world’s most popular sport. Statistical Methods and Applications, 13(2):241–258, 2004. [10] Chris Anderson and David Sally. The numbers game: why everything you know about football is wrong. Penguin UK, 2013. [11] William S Cleveland, Eric Grosse, and William M Shyu. Local regression models. Statistical models in S, 2:309–376, 1992. [12] Jan Hora, Jaroslav Nitsche, Jiˇrí Kureš, Bohuslav Jachimstál, and Milan Skoˇcovský. Pravidla fotbalu, futsalu a minifotbalu platná od 1.7. 2005. 1. vyd. praha: Olympia, 2005. 200 s. Technical report, ISBN 80-7030-922-5. [13] V. Di Salvo, R. Baron, H. Tschan, F.J. Calderon Montero, N. Bachl, and F. Pigozzi. Performance characteristics according to playing position in elite soccer. International journal of sports medicine, 28(3):222, 2007. [14] J. Rosenfeld. Why players, teams are undifferentiated on "passing skill", 2011. [15] Richard Pollard and Charles Reep. Measuring the effectiveness of playing strategies at soccer. Journal of the Royal Statistical Society: Series D (The Statistician), 46(4):541– 550, 1997.
40
[16] Eli Ben-Naim, Federico Vazquez, and Sidney Redner. Parity and predictability of competitions. Journal of Quantitative Analysis in Sports, 2(4), 2006. [17] David J Spiegelhalter, Nicola G Best, Bradley P Carlin, and Angelika Van Der Linde. Bayesian measures of model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 64(4):583–639, 2002. [18] Steffen L Lauritzen and David J Spiegelhalter. Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society. Series B (Methodological), pages 157–224, 1988. [19] David Spiegelhalter, Andrew Thomas, Nicky Best, and Dave Lunn. Winbugs user manual, 2003. [20] David Spiegelhalter, May the best team win [online]. 2007 [cit. 2016-04-22]. Dostupné z: http://understandinguncertainty.org/node/61. [21] Edward Miguel, [online]. 2013 http://emiguel.econ.berkeley.edu/. [22] Sebastian M. Saiegh, [online]. http://pages.ucsd.edu/ ssaiegh/.
1999
[cit. [cit.
2016-04-02]. 2016-04-01].
[23] Shanker Satyanath, [online]. 2008 [cit. 2016-04-01]. http://politics.as.nyu.edu/object/ShankerSatyanath.
Dostupné
z:
Dostupné
z:
Dostupné
z:
[24] Edward Miguel, Sebastián M Saiegh, and Shanker Satyanath. Civil war exposure and violence. Economics & Politics, 23(1):59–73, 2011. [25] Edoardo Gallo, Thomas Grund, and James James Reade. Punishing the foreigner: Implicit discrimination in the premier league based on oppositional identity*. Oxford Bulletin of Economics and Statistics, 75(1):136–156, 2013. [26] Jim Brown. Sky Blue Revolution: Jimmy Hill at Coventry City 1961-1967. Desert Island eBooks, United Kingdom, 2011. [27] Paul Wilson. Jimmy hill changed the way football is played, watched and talked about. The Guardian, 2015. [28] Alexander Dilger and Hannah Geyer. Are three points for a win really better than two? a comparison of german soccer league and cup games. Journal of Sports Economics, 2009. [29] Radek Malina, Skalák je po pˇrestupu paf z lékaˇrských procedur a netají ambice: Chci do Premier League [online]. 2016 [cit. 2016-04-16]. Dostupné z: https://www.sport.cz/fotbal/synot-liga/clanek/746378-skalak-je-po-prestupupaf-z-lekarskych-procedur-a-netaji-ambice-chci-do-premier-league.html.
41
[30] V Bielik, M Aneštík, J Petroviˇc, J Pelikánová, and E Jamrochová. Laktátová krivka– teória a prax. Vedecký zborník, pages 6–12, 2006. [31] Synot Liga [online]. 2016 http://www.synotliga.cz/index.php.
[cit.
2016-04-20].
Dostupné
z:
[32] Zuzana Pitrová, GPS nebo Footpod? [online]. 2016 [cit. 2016-04-08]. Dostupné z: http://sporttester.info/2012/gps-nebo-footpod/. [33] Radek Malina and Pavel Dosadil, Messi a spol. nosí podprsenky s GPS za milión. Pro cˇ eské fotbalisty jsou pˇríliš drahé [online]. 2016 [cit. 2016-04-16]. Dostupné z: https://www.sport.cz/fotbal/ostatni/clanek/750690-messi-a-spol-nosipodprsenky-s-gps-za-milion-pro-ceske-fotbalisty-jsou-prilis-drahe.html. [34] Rob Mackenzie and Chris Cushion. Performance analysis in football: A critical review and implications for future research. Journal of Sports Sciences, 31(6):639–676, 2013. PMID: 23249092. [35] OPTA, [online]. 2016 [cit. 2016-04-05]. Dostupné z: http://www.optasports.com/. [36] Wyscout, [online]. 2016 [cit. 2016-04-05]. Dostupné z: https://wyscout.com/. [37] Jan Jaroš. Fotbalové analýzy. Pro Football, 10(6):57. [38] InStat, [online]. 2016 [cit. 2016-04-05]. Dostupné z: http://www.instatfootball.com/. [39] StatDNA, [online]. 2016 [cit. https://www.statdna.com/Default.aspx. [40] Match Analysis, [online]. 2016 http://matchanalysis.com/index.htm.
2016-04-05]. [cit.
2016-04-05].
Dostupné Dostupné
z: z:
[41] Jiˇrí Andˇel. Statistické metody. 3. vyd. praha: Matfyzpress, 2003. 299 s. Technical report, ISBN 80-86732-08-8. [42] Rodney J Paul and Andrew P Weinbach. Sportsbook behavior in the ncaa football betting market: Tests of the traditional and levitt models of sportsbook behavior. Journal of Prediction Markets, 3(2), 2009. ˇ [43] Michálek Jiˇrí. Úvod do teorie náhodných procesu. ˚ CVUT,(Praha 2000). [44] Jack Ratcliffe, Poissonovo rozdˇelení: Pˇredpovˇed’ vítˇeze pˇri sázkách na fotbal [online]. 2014 [cit. 2016-04-22]. Dostupné z: http://www.pinnaclesports.com/cs/betting-articles/soccer/how-to-calculatepoisson-distribution. [45] David W Hosmer Jr and Stanley Lemeshow. Applied logistic regression. John Wiley & Sons, 2004.
42
[46] John Goddard. Regression models for forecasting goals and match results in association football. International Journal of forecasting, 21(2):331–340, 2005. [47] Dimitris Karlis and Ioannis Ntzoufras. Analysis of sports data by using bivariate poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52(3):381–393, 2003. [48] Anthony C Constantinou, Norman E Fenton, and Martin Neil. pi-football: A bayesian network model for forecasting association football match outcomes. KnowledgeBased Systems, 36:322–339, 2012. [49] Jan Kracík, Poznámky k pˇredmˇetu Statistika 3 [online]. 2014 [cit. 2016-04-20]. Dostupné z: http://homel.vsb.cz/ kra0220/sta3/sta3.pdf.