Mendelova univerzita v Brně Provozně ekonomická fakulta
Nehody způsobené střety letadel s ptáky Bird Strikes Databázové systémy II
Zpracovali: Bc. Tomáš Orálek Bc. Tomáš Przybek Bc. Jiří Syrový
Brno 2015
2
Obsah
Obsah 1
2
Úvod a cíl práce
3
1.1
Úvod .......................................................................................................................................... 3
1.2
Cíl práce ................................................................................................................................... 3
Metodika 2.1
5
ETL proces .............................................................................................................................. 5
2.1.1
Extrakce......................................................................................................................... 5
2.1.2
Transformace .............................................................................................................. 5
2.1.3
Loadování ..................................................................................................................... 8
3
Výsledky
9
4
Diskuze a závěr
18
5
Literatura
19
Úvod a cíl práce
3
1 Úvod a cíl práce 1.1
Úvod
V současné době rozmachu letecké dopravy více než kdy dříve díky značnému zpřístupnění této služby je velice důležité zajistit co nejvyšší bezpečnost pro všechny osoby, jež využívají tohoto druhu přepravy. Nicméně některé důvody porušení bezpečnosti nelze zcela eliminovat. Mezi nejčastější příčiny nehod spojených s letadly řadíme kromě srážky letadla s terénem či s objektem na zemi také srážku ve vzduchu (střet s ptáky). Střet s ptáky patří mezi významné hrozby co do vztahu k bezpečnosti letu. Existují i případy kde následkem střetu letadla s ptákem byly lidské oběti. Ve většině případů zmíněného druhu nehod pták narazí do čelního skla letadla, nebo vletí do motoru. Což každoročně způsobí celosvětově škody na komerčních letadlech ve výši až 1,2 miliardy amerických dolarů (Wikipedia, 2014). Veškeré informace o těchto nehodách jsou pečlivě evidovány. Následně je pak tedy možné tyto data podrobit důkladné analýze, za účelem nalezení určitých skrytých vzorů, jež se v nich mohou nacházet. Všechny objevené informace skryté v těchto datech by poté mělo být teoreticky možné uplatnit jako podklady pro optimalizované plánování leteckého provozu. Zdroj dat: http://www.tableausoftware.com/public/sites/default/files/Bird%20Strikes.xlsx
1.2
Cíl práce
Hlavním cílem této seminární práce je zjistit, zdali existují určité rozpoznatelné vzory mezi vybraným statistickými ukazateli. Analýza provedená nad zdrojovými daty by měla mimo jiné odhalit odpovědi na následující otázky: Podílí se na nehodách určití specifičtí ptáci, popřípadě jací? Existuje klíčová fáze letu, při níž dochází nejčastěji ke střetům? Mění se vybrané ukazatele výkonnosti v čase, a pokud ano, tak co to mohlo způsobit? Současně bychom chtěli také ověřit správnost námi definovaných hypotéz: H1: S klesající výškou, ve které se letadlo nachází, roste počet střetů. H2: Velikost zvířete má přímý vliv na růst celkových nákladů vzniklých při střetu. H3: Nejvíce střetů letadel s ptáky se odehraje v noci.
4
Úvod a cíl práce
Ukazatele výkonnosti (KPI): Celkové náklady – definují rozsah skutečné škody po incidentu. Typ letadla s největším počtem srážek – model, který v průměru zabije nejvíce ptáků. Letiště s největším výskytem ptáků – žebříček stanovený v závislosti na počtu srážek. Fáze letu při nárazu – jedná se o fázi letu, kdy dochází ke střetu letadla s ptákem. Doba incidentu – doba, ve které se v průměru usmrtí nejvíce těchto zvířat.
Metodika
5
2 Metodika Pro tento projekt jsme se rozhodli použít databázový systém Microsoft SQL server 2012, konkrétně tedy v kombinaci s lokální datovým uložištěm. K provádění jednotlivých operací nad daty nám především posloužily nástroje jako Management Studio a Visual Studio 2012. Zdrojová data vybraná pro účely tohoto projektu měli formu excelovské tabulky, a tudíž je bylo nutné upravit prostřednictvím ETL procesu tak, aby z nich následně bylo možné vytvořit datový sklad.
2.1
ETL proces
ETL jak již název napovídá, se skládá ze tří částí: Extrakce, Transformace a Loadování. Při tomto procesu jsme použili celkem dvě datová uložiště: BirdStrikes2014 (data stage) – neutrální prostor, data zde získali určitou integritu. BS_DWH_Birdstrikes2014 (data warehouse) – již transformovaná data, které lze podrobit analýze. 2.1.1
Extrakce
Fáze Extrakce spočívala v získání zdrojových dat a jejich nahrání do námi definovaného datového uložiště (obr. 1). K tomu byl využit nástroj určený pro import a export dat, který je součástí MS SQL Serveru. Již při importu díky možnostem tohoto nástroje jsme upravili datové typy u jednotlivých sloupců zdrojových dat, aby odpovídaly jejich skutečné povaze. Většinou se jednalo o změny datového typu float (špatně rozpoznaný typ) na int, který více odpovídal konkrétním datům. Dále jsme vynechali sloupce „Number of human fatalities“, „Location: Nearby if en route“ a „Location: Freeform en route“ vzhledem k tomu, že neobsahovaly dostatečné množství hodnot, nebo pro nás nebyly reálně využitelné. Úpravou v této fázi prošly také názvy jednotlivých sloupců, aby vyhovovali definovaným konvencím (např. Aircraft: Type upraveno na AircraftType).
Obr. 1
Vzorek dat z datového úložiště BirdSrikes2014
2.1.2
Transformace
Náplní této fáze bylo transformovat data, která jsme si v předchozím kroku uložily do databáze BirdStrikes2014 tak, abychom je mohli nahrát do datového skladu. Jak
6
Metodika
již bylo zmíněno výše, tyto transformovaná data poslouží k realizaci zamýšlených analýz. Nejprve však bylo nutné cílové uložiště připravit. Datový sklad BS_DWH_Birdstrikes2014 (obr. 2), jež byl vytvořen na základě vytyčených zdrojových dat, se skládá z dimenzionálních tabulek dimAircraft, dimBird, dimCost, dimDate, dimFlight a faktové tabulky factAccident. Během vytváření těchto tabulek jsme do nich navíc kromě vytyčených atributů přidali ještě umělé primární klíče (AircraftKey, BirdKey, FlightKey, …).
Obr. 2
Struktura datového skladu BS_DWH_BirdStrikes2014
Po vytvoření jednotlivých tabulek přišlo na řadu jejich naplnění. U dimenzí dimAircraft, dimBird, dimCost a dimFlight bylo nejdříve zapotřebí prostřednictvým SQL dotazu (obr. 3) odstranit duplicity, které se v původních datech nacházely. Následně bylo nutné v datech vyřešit přítomné NULL hodnoty. K tomu posloužil nástroj Derived Column, ve kterém byly NULL hodnoty ve sloupcích typu řetězec nahrazeny za „NA“ a ve sloupcích typu int podle významu, aby nedošlo ke změně vypovídající hodnoty, nahrazeny buď za -1 (např. CostAircraftTimeOutOfServiceInHours) nebo za 0 (např. SpeedIAS).
Metodika
Obr. 3
7
Selekce dat pro dimenzionální tabulku dimAircraft
Specifickým případem v této části bylo vytvoření a nahrání dimenze dimDate. Což se událo s využitím částečné upraveného externího skriptu, jehož originál je dostupný z https://dwbi1.wordpress.com/2012/05/26/how-to-populate-a-facttable-using-ssis-part1/. Ve chvíli, kdy byly jednotlivé dimenze hotové, tak přišla na řadu faktová tabulka factAccident. Zde bylo nejdůležitější namapovat jednotlivá vstupní data na vyselektovaná data z dimenzionálních tabulek a získat tak jejich primární klíče, které budou následně uloženy v tabulce faktů. Tento problém jsme řešili prostřednictvím nástroje Lookup, jež byl navržen pro každou dimenzi zvlášť. Následovalo nahrazení NULL hodnot za jiné použitelné hodnoty (viz řešení skrze nástroj Derived column u dimenzionálních tabulek). Speciálně tedy NULL hodnoty ve sloupci ReportedDate jsme nahradili za 0. Což reprezentuje záznam, jenž byl navíc vložen do tabulky dimDate pro tyto účely (vložené hodnoty: 0, 'Unknown', 'Unknown', '0001-01-01', 'Unknown'). Tento záznam je vytvořený tak, aby byl jednoznačně rozpoznatelný, a tudíž nezkresloval výstupy budoucích analýz. Finální verze datového skladu BS_DWH_Birdstrikes2014, jež vyplynula z uskutečnění jednotlivých činností popsaných výše, je zachycena na obrázku 4.
8
Metodika
Obr. 4
Schéma datového skladu BS_DWH_BirdStrikes2014
2.1.3
Loadování
Fázi loadování transformovaných dat lze opakovaně provádět skrze balíčky, vytvořené pro jednotlivé tabulky v nástroji Visual Studio. Nejvíce dat je nahráváno v balíčku určeném pro faktovou tabulku factAccident, což lze vidět na obrázku 5.
Obr. 5
Nahrávání dat do faktové tabulky factAccident
Výsledky
9
3 Výsledky Našim cílem seminární práce bylo zjistit, zdali existují rozpoznatelné vzory mezi statistickými ukazateli. Analýza dat nám dala odpovědi na následující otázky: Podílí se na nehodách určití specifičtí ptáci, popřípadě jací?
Obr. 6
Počet nehod podle druhu ptáků (Count of Accident According Bird Species)
V grafu počet nehod podle druhu ptáků můžeme vidět, že nejvíce střetů letadla s ptáky, je pták neznámého druhu střední velikosti (23 416 střetů), dále neznámý druh malé velikosti (18 567 střetů) a dále je to holubice (4365 střetů, Mourning dove), neznámý druh či netopýr, racek (Gulls), poštolka (American Kestrel), čejka (Killdeer) a špaček (European starling). Celkem jsme zjistili přes 600 druhů ptáků, kteří se střetli s letadlem (helikoptérou). Existuje klíčová fáze letu, při níž dochází nejčastěji ke střetům? V grafu počet nehod podle fáze letu vidíme, že nejvíce ke střetům dochází při nezaznamenaném údaji (34 738 střetů), dále při přípravě letadla na přistání (Approach, 26329), rozjezdu letadla (Take-off run, 11 914), přistání (Landing Roll, 11 419), stoupání (Climb, 10 409), sestupu (Descent), za letu (En Route), přistání (Landing), pojíždění (Taxi) a parkování (Parked).
10
Výsledky
Obr. 7
Počet nehod podle fáze letu (Count of Accident Phase Of Flight)
Mění se vybrané ukazatele výkonnosti v čase, a pokud ano, tak co to mohlo způsobit?
Obr. 8 Počet nehod v jednotlivých letech podle velikosti ptáků (Count of Accident According Bird Size and Year)
V grafu můžeme vidět, že od roku 2002 do roku 2012 počet nehod podle velikosti ptáků klesá. V roce 2002 bylo počet nehod: malá velikost ptáka (Small, 1 976), nezaznamenaná (NA, 555), střední (Large, 2 288), velká (Large, 293). V roce 2012, je u všech velikostí ptáků zaznamenám menší počet nehod: malá (Small, 28), nezaznamenaná (NA, 160), střední (Medium, 4) a velká (Large, 1). V grafu jsme nezahrnuli záznamy, které nemají datum, protože by znehodnotily graf. Jsou to hodnoty: malá velikost (Small, 36 133), nezaznamenaná (NA, 9 818), střední (Medium, 21 740) a velká (Large, 3 846).
Výsledky
11
Obr. 9 Počet celkových nákladů v jednotlivých letech podle velikosti ptáků (Count of Accident According Total Cost and Year)
V grafu počet celkových nákladů v jednotlivých letech podle velikosti ptáků vidíme, že nejvíce nákladů bylo v letech 2001 až 2005. Je to způsobeno tím, že v těchto letech bylo zaznamenáno i nejvíce nehod podle grafu počet nehod v jednotlivých letech podle velikosti ptáků. Celkové náklady od roku 2006 klesají podle klesajícího počtu nehod (obr. 8).
Obr. 10 Počet nehod v jednotlivých letech podle fáze letu (Count of Accident According Phase of Flight and Year)
V grafu počet nehod v jednotlivých letech podle fáze letu vidíme, že nejvíce ke střetům dochází v roce 2002 při nezaznamenaném údaji (NA, 1 600 střetů), dále při přípravě letadla na přistání (Approach, 1 366), rozjezdu letadla (Take-off run, 722), přistání (Landing Roll, 598), stoupání (Climb, 654), sestupu (Descent, 115), za letu (En Route, 49), pojíždění (Taxi, 10) a parkování (Parked, 7). V následujících letech počet střetů klesá a v roce 2011 jsou údaje následující: nezaznamenáno (NA, 351), dále při přípravě letadla na přistání (Approach, 188), rozjezdu letadla (Takeoff run, 107), přistání (Landing Roll, 90), stoupání (Climb, 52), sestupu (Descent, 6), za letu (En Route, 17), pojíždění (Taxi, 3) a parkování (Parked, 0). V grafu jsme nezahrnuli záznamy, které nemají datum, protože by znehodnotily graf. Jsou to
12
Výsledky
hodnoty: nezaznamenáno (NA, 25 382), příprava letadla na přistání (Approach, 18 775), rozjezd letadla (Take-off run, 8 329), přistání (Landing Roll, 8 238), stoupání (Climb, 7 193), přistání (Landing, 315), sestup (Descent, 1 457), za letu (En Route, 1 650), pojíždění (Taxi, 151) a parkování (Parked, 47).
Obr. 11 Počet nehod v jednotlivých letech podle části dne (Count of Accident According Time of Day and Year)
V grafu můžeme vidět počet nehod v jednotlivých letech podle části dne. Nejvíce nehod bylo zaznamenáno v roce 2002. Jsou to hodnoty podle části dne: nezaznamenáno (NA, 2213), den (Day, 1778), noc (Night, 780), soumrak (Dusk, 197), svítání (Dawn, 142) a neznámé (UNKNOWN, 2). V následujících letech počet nehod klesá a v roce 2011 jsou údaje následující: nezaznamenáno (NA, 460), den (Day, 244), noc (Night, 83), soumrak (Dusk, 12), svítání (Dawn, 15) a neznámé (UNKNOWN, 0). V grafu jsme nezahrnuli záznamy, které nemají datum, protože by znehodnotily graf. Jsou to údaje: nezaznamenáno (NA, 24 964), den (Day, 27 974), noc (Night, 15 043), soumrak (Dusk, 2 117), svítání (Dawn, 1 439) a neznámé (UNKNOWN, 0). Dále jsme si také ověřili správnost námi definovaných hypotéz: H1: S klesající výškou, ve které se letadlo nachází, roste počet střetů. Z grafu počet nehod podle výšky letu můžeme vyčíst, že největší zastoupení má nezaznamenaná hodnota (Unknown, 43 955), dále výška menší než 1 000 stop (< 1000 ft, 43 901) a výška větší než 1 000 stop (> 1000 ft, 11 548). Z těchto hodnot můžeme říci, že námi definovaná hypotéza se nezamítá. Protože s nižší výškou letu roste počet střetů letadla s ptáky.
Výsledky
Obr. 12
13
Počet nehod podle výšky letu (Count of Accident According Altitude)
H2: Velikost zvířete má přímý vliv na růst celkových nákladů vzniklých při střetu.
Obr. 13
Celkové náklady podle velikosti ptáka (Total Cost According Bird Size)
V předchozí tabulce a grafu lze vidět celkové náklady podle velikosti ptáků. Největší celkové náklady jsou u velkého ptáka (Large, 232 670 137 $), dále u středního (Medium, 134 141 021 $), malého (Small, 58 697 368 $) a nejmenší náklady jsou u velikosti nezaznamenáno (NA, 43 221 871 $). Hypotézu velikost zvířete má přímý vliv na růst celkových nákladů vzniklých při střetu nezamítáme.
14
Výsledky
H3: Nejvíce střetů letadel s ptáky se odehraje v noci.
Obr. 14
Počet nehod podle části dne (Count of Accident According Time of Day)
Pomocí grafu počet nehod podle části dne, můžeme říct, že námi definovaná hypotéza: nejvíce střetů letadel s ptáky se odehraje v noci, se zamítá. Nejvíce střetů se totiž odehraje ve dne (Day, 37 797), dále nezaznamenáno (NA, 36 920), v noci (Night, 19 4254), při soumraku (Dusk, 3 101), při svítání (Dawn, 2 157) a neznámé hodnotě (UNKNOWN, 5).
Výsledky
15
Ukazatele výkonnosti (KPI): Celkové náklady – definují rozsah skutečné škody po incidentu.
Obr. 15
Celkové náklady podle velikosti ptáků (Total Cost According Bird Size)
Pomocí grafu celkové náklady podle velikost ptáků (rozsah škody po incidentu), můžeme říct, že největší celkové náklady jsou u velkého ptáka (Large, 232 670 137 $), dále u středního (Medium, 134 141 021 $), malého (Small, 58 697 368 $) a nejmenší náklady jsou u velikosti nezaznamenáno (NA, 43 221 871 $). Náklady celkové se skládají ze dvou složek a to nákladů na opravu a ostatních nákladů, kdy největší náklady jsou na opravu. Typ letadla s největším počtem srážek – model, který v průměru zabije nejvíce ptáků. V následujícím grafu vidíme typy letadel s největším množstvím srážek s ptáky. Seřazeny od největšího počtu nehod jsou to letadla typu: neznámé (UNKNOWN, 24 637), B-737-300 (5 524 střetů), A-320 (4 654), CL-RJ100/200 (4 262), B-737700 (4 046). V celkovém počtu 526 typů letadel a 99 404 srážek s ptáky.
16
Výsledky
Obr. 16
Počet nehod podle modelu letadla (Count of Accident According Aircraft Model)
Letiště s největším výskytem ptáků – žebříček stanovený v závislosti na počtu srážek.
Obr. 17
Počet nehod podle letišť (Count of Accident According Airport Name)
V předchozím grafu jsme si seřadili letiště s největším výskytem ptáků stanovených v závislosti na počtu srážek. Nejvíce srážek bylo na letištích: neznámé (UNKNOWN, 10 866), Denver Intl Airport (3 397), Dallas/Fort Worth Intl Arpt (3 397), Chicago O’hare Intl Arpt (1 907), John F. Kennedy Intl (1 859), Memphis Intl (1 854), Sacramento Intl (1 517) a další. Celkem byla zaznamenána nehoda na 1 703 různých letištích. Fáze letu při nárazu – jedná se o fázi letu, kdy dochází ke střetu letadla s ptákem. V následujícím grafu počet nehod podle fáze letu vidíme, že nejvíce ke střetům dochází při nezaznamenaném údaji (NA, 34 738 střetů), dále při přípravě letadla na přistání (Approach, 26 329), rozjezdu letadla (Take-off run, 11 914), přistání (Lan-
Výsledky
17
ding Roll, 11 419), stoupání (Climb, 10 409), sestupu (Descent, 2 032), za letu (En Route, 1 973), pojíždění (Taxi, 215) a parkování (Parked, 60).
Obr. 18
Počet nehod podle fáze letu (Count of Accident Accourding Phase of Flight)
Doba incidentu – doba, ve které se v průměru usmrtí nejvíce těchto zvířat.
Obr. 19
Počet nehod podle části dne (Count of Accident Accourding Time of Day)
Pomocí grafu počet nehod podle části dne, můžeme říct, že doba incidentu, ve které se usmrtí nejvíce ptáků, se odehraje ve dne (Day, 37 797). Dále je to nezaznamenáno (NA, 36 920), v noci (Night, 19 4254), při soumraku (Dusk, 3 101), při svítání (Dawn, 2 157) a neznámé hodnotě (UNKNOWN, 5).
18
Diskuze a závěr
4 Diskuze a závěr Tato práce si kladla za cíl objevit rozpoznatelné vzory ve srážce letadel s ptáky a odpovědět na důležité otázky týkající se srážek s ptáky. Otázky byly následující: 1) Podílí se na nehodách určití specifičtí ptáci, popřípadě jací? Nejčastěji střet bývá s malým až středním ptákem neznámého druhu. Dále s holubicí, špačkem, netopýrem, rackem atd. Toto jsou pravděpodobně jedny z nejčastěji se vyskytujících druhů ptáků, proto i střety s nimi bývají časté. 2) Existuje klíčová fáze letu, při níž dochází nejčastěji ke střetům? Určitá klíčová fáze nebyla nalezena, ale je zřejmé, že střety jsou nejčastěji v počátečních či koncových fázích letu. Je to z důvodu, že dopravní letadlo většinu cesty absolvuje v nadmořské výšce, kde ptáci nelétají a tak ke střetům dochází většinou při přistání vzletu či na ranveji. 3) Mění se vybrané ukazatele výkonnosti v čase, a pokud ano, tak co to mohlo způsobit? Počet střetu od roku 2002 do 2012 významně klesl. Může to být způsobeno lepším opatřením letišť v odhánění ptáků, nebo některé nehody nebyly zaznamenány v datech. Vytvořili jsme také hypotézy a ty jsme následnou analýzou nad daty vyvraceli nebo potvrzovali. 1) H1: S klesající výškou, ve které se letadlo nachází, roste počet střetů. Tuto hypotézu můžeme potvrdit. Většina nehod se stane do výšky 300 m. n. m. 2) H2: Velikost zvířete má přímý vliv na růst celkových nákladů vzniklých při střetu. Tuto hypotézu můžeme potvrdit. Střet s větším ptákem nebývá tak častý, ale když už se stane, tak škody bývají mnohem vyšší. 3) H3: Nejvíce střetů letadel s ptáky se odehraje v noci. Tuto hypotézu zamítáme. Většina nehod se stane za denního světla. Cíle práce jsme tedy dosáhli a získali z dat informace, které nám odpověděli na položené otázky či potvrdili/vyvrátili naše hypotézy.
Literatura
19
5 Literatura WIKIPEDIA: The free encyclopedia. Bird Strike [online]. 2014 [cit. 2014-12-15]. Dostupné z: http://en.wikipedia.org/wiki/Bird_strike
20
Chyba! V dokumentu není žádný text v zadaném stylu.