No title

2015 http://excel.fit.vutbr.cz

ˇ Odhad nadmoˇrske´ vy´ sky z obrazu Jan Vaˇs´ıcˇ ek* Abstrakt ´ ´ Tato prace se zabýva´ automatickým odhadem nadmoˇrske´ výsˇ ky kamery z obrazu. Ulohu jsem ˇreˇsil pomoc´ı konvoluˇcn´ıch neuronových s´ıt´ı, u nichˇz vyuˇz´ıvam ´ schopnost uˇcit se nove´ pˇr´ıznaky na ´ ´ ´ zaklad eˇ trenovac´ ıch dat. Trenovac´ ı sada obrazu˚ (dataset), ktera´ by obsahovala udaje o nadmoˇrske´ ´ ˇ v výsˇ ce kamery, nebyla k dispozici, a proto bylo nutne´ vytvoˇrit dataset nový. Schopnosti cˇ loveka ´ ˇ rit dane´ uloze take´ nebyly dˇr´ıve testovany, proto jsem provedl uˇzivatelský experiment s c´ılem zmeˇ ´ ˇ ´ odhadu nadmoˇrske´ výsˇ ky kamery. Experimentu se zuˇ prum kvalitu lidskeho ˚ ernou ´ castnilo 100 lid´ı a ˇ a´ chyba odhadu cˇ loveka ˇ je 879 m. Automatický system ´ zaloˇzený na výsledky ukazuj´ı, zˇ e prum ˚ ern ’ ´ ˇ ˇ ˇ ´ konvoluˇcn´ı neuronove s´ıti dosahuje lepˇs´ıch výsledku˚ neˇz clovek, nebot prum ˚ erna chyba odhadu ´ muˇ ´ odhadu nadmoˇrske´ se pohybuje okolo hodnoty 751 m. Navrˇzený system ˚ ze kromeˇ samotneho ´ uplatnen´ ˇ ı take´ ve sloˇzitejˇ ˇ s´ıch uloh ´ ´ ı geo-lokalizace výsˇ ky z obrazových dat nalezt jako je vizualn´ ´ ach, kamery. ˇ a´ slova: Odhad nadmoˇrske´ výsˇ ky — Konvoluˇcn´ı s´ıteˇ — EXIF data Kl´ıcov ´ Pˇriloˇzene´ materialy: N/A *[email protected], Faculty of Information Technology, Brno University of Technology

´ 1. Uvod Lidský mozek dokázˇ e porozumˇet okoln´ımu svˇetu v ˇra´ du nˇekolika stovek milisekund. Bˇehem jediného pohledu je schopný z obrazové informace urˇcit kategorii sledovaného objektu/scény [1]. Jak je tomu, ale pˇri odhadu nadmoˇrské výsˇ ky z obrazu? Zamysleme se nad fotografiemi na obrázku 1. V jaké nadmoˇrské výsˇ ce byly tyto sn´ımky poˇr´ızeny? Nadmoˇrská výsˇ ka kamery se bˇezˇ nˇe mˇeˇr´ı pˇresnou nivelac´ı k stˇredn´ı hladinˇe nejbliˇzsˇ´ıho moˇre. Dalˇs´ım zp˚usobem jak zmˇeˇrit nadmoˇrskou výsˇ ku je porovnán´ı GPS souˇradnic daného bodu s matematicky vypoˇcteným elipsoidem WGS ˇ 84 [2]. Casto vˇsak kromˇe obrazu nejsou k dispozici zˇ a´ dné doplˇnuj´ıc´ı informace. U videa to plat´ı dvojnásob. Pokud bychom byli schopn´ı urˇcit nadmoˇrskou výsˇ ku kamery z obrazu, tak to m˚uzˇ e pomoci pˇri hledán´ı ztracených osob, v automatizovaných meteorologických systémech, geo-lokalizaci obrazu (redukce vyhledávac´ıho prostoru), apod. [3]. V tomto cˇ lánku se zabývám automatickým odhadem nadmoˇrské výsˇky kamery pomoc´ı metod strojového uˇcen´ı. K tomuto u´ cˇ elu jsem vytvoˇril nový dataset a provedl uˇzivatelský test, abych

zjistil, jak si navrˇzené experimenty vedou v porovnán´ı s cˇ lovˇekem.

´ 2. Pˇredchoz´ı prace V souˇcasnosti bohuˇzel neexistuj´ı dostupné materiály o výzkumech týkaj´ıc´ıch se odhadu nadmoˇrské výsˇ ky kamery z obrazu. V této kapitole jsou uvedeny pˇr´ıklady projekt˚u, které ˇreˇs´ı podobnou u´ lohu. 2.1 IM2GPS Práce [3] pˇredstavuje algoritmus urˇcený ke geo-lokalizaci obrazu. Výsledná lokace obrázku je reprezentována jako rozdˇelen´ı pravdˇepodobnosti výskytu na zemském povrchu. Pokud je na obrázku známá kulturn´ı památka, kterou systém rozpozná, tak vrac´ı jednu konkrétn´ı pozici. Pokud je na obrázku sp´ısˇ e obecná scéna jako pouˇst’, tak systém vrac´ı vysoké hodnoty pro suchá, p´ısˇcitá m´ısta. V této práci je vytvoˇren dataset, který obsahuje GPS souˇradnice ze kterých je moˇzné urˇcit nadmoˇrskou výsˇ ku. Problém tohoto datasetu je nedostatek fotek

´ Obrazek 1. Ukázka obrázk˚u z datasetu.

zachycuj´ıc´ıch venkovn´ı scény v jednotlivých nadmoˇr- pro dotazován´ı obrázk˚u na Flickru 1 pomoc´ı hash tag˚u. ských výsˇkách a pˇr´ıliˇs velký rozsah zemˇepisných lokalit. Staˇzeny byly veˇrejné obrázky, které obsahovaly GPS souˇradnice. Tyto obrázky nesmˇely obsahovat hash 2.2 Places205 tagy, které nesouvisej´ı s venkovn´ımi scénami (svatba, Places 205 [4] je dataset slouˇz´ıc´ı k trénován´ı klasi- oslava, atd). Po staˇzen´ı byly fotky jeˇstˇe automatfikátor˚u scén. Obsahuje témˇeˇr 2,5 milionu obrázk˚u icky upraveny tak, aby neobsahovaly jedno-barevné z 205 kategori´ı. Poˇcet obrázk˚u v jednotlivých kate- okraje. Takto vytvoˇrená kolekce obsahovala témˇeˇr gori´ıch nen´ı stejný a pohybuje se v rozmez´ı 5 000 - 1,2M fotek. Tento postup bohuˇzel vedl také ke staˇzen´ı 15 000. Z tohoto datasetu by bylo moˇzné vytvoˇrit velkého poˇctu fotek nepouˇzitelných pro u´ lohu odhadu vhodný subset pro ˇreˇsenou u´ lohu. Dataset Places205 nadmoˇrských výsˇek. vˇsak neobsahuje dodateˇcné informace k fotkám (GPS Pro filtraci nevhodných obrázk˚u je moˇzné pouˇz´ıt souˇradnice cˇ i nadmoˇrskou výsˇ ku). Pro tento výzkum klasifikátor scén, který obrázky z kolekce klasifikuje jsem proto vytvoˇril nový dataset obsahuj´ıc´ı nadmoˇrskou do r˚uzných kategori´ı. V této práci jsem pouˇzil konvýsˇku ke kaˇzdé fotce (Dále jen Alpine altitudes). voluˇcn´ı s´ıt Places-CNN (viz. kapitola 5.1.1). Výstupem s´ıtˇe jsou pravdˇepodobnosti pro jednotlivé kategorie scén 2 . Toho jsem vyuˇzil pˇri sestavován´ı algoritmu 3. Dataset Alpine altitudes pro filtraci fotek. Vybral jsme kategorie, které souPˇr´ırodn´ı ráz krajiny se s nadmoˇrskou výsˇ kou mˇen´ı. vis´ı s horami, krajinou a venkovn´ımi scénami. Z Nadmoˇrská výsˇ ka napˇr´ıklad ovlivˇnuje teplotu, intenˇ ım vyˇssˇ´ı datasetu byly vyˇrazeny fotografie, pro které souˇcet zitu sluneˇcn´ıho svitu, cˇ i mnoˇzstv´ı srázˇ ek. C´ pravdˇepodobnost´ı relevantn´ıch kategori´ı byl menˇs´ı neˇz nadmoˇrská výsˇka, t´ım nepˇr´ıznivˇejˇs´ı bývaj´ı klimatické experimentálnˇe urˇcený práh 0,50. Pomoc´ı klasifikace podm´ınky. Zimy ve vyˇssˇ´ıch polohách bývaj´ı delˇs´ı, sn´ıh scén bylo odstranˇeno 75% fotek (rozloˇzen´ı skóre je taje pozdˇeji neˇz v n´ızˇ inách a nástup jara bývá opoˇzdˇen zobrazeno v grafu na obrázku 2). [5]. Z datové sady byly také odstranˇeny duplicitn´ı fotky Dalˇs´ı element, který pˇrisp´ıvá k pˇr´ırodn´ı variabilitˇe a fotky jejichˇz m´ısto poˇr´ızen´ı leˇz´ı mimo Alpy. M´ısto je zemˇepisná poloha daného m´ısta. Charakter dvou m´ıst se stejnou nadmoˇrskou výsˇ kou ale v r˚uzných poˇr´ızen´ı bylo urˇceno pomoc´ı GPS souˇradnic uloˇzených zemˇepisných lokalitách se bude velmi pravdˇepodobnˇe v EXIF datech. Výsledný dataset obsahuje 93 733 liˇsit. Pro tvorbu datasetu jsem tedy vybral pouze fotek. Nadmoˇrská výsˇ ka fotek se z´ıskala pomoc´ı GPS oblast pohoˇr´ı Alp. Tato oblast se dá povaˇzovat za 3 dostateˇcnˇe malou a m˚uzˇ eme ˇr´ıct, zˇ e krajinný charak- souˇradnic z výsˇkových map [7]. ter v jednotlivých nadmoˇrských hladinách bude velmi podobný. 3.1 Vytvoˇren´ı datasetu Seznam hor byl vytvoˇren pomoc´ı metadat ve sluˇzbˇe OpenStreetMap [6]. Tento seznam byl následnˇe pouˇzit

1 www.flickr.com 2 lesn´ı cesta, p´ısˇcité pobˇreˇz´ı, pole, zasnˇezˇ ená hora, moˇre, jezero, baˇzina, lyˇzaˇrské stˇredisko, louka, horská chata, sopka 3 Pˇresnost v´ ysˇkových map se pohybuje kolem hodnoty 30 m.

´ Obrazek 2. Rozloˇzen´ı skóre fotek. Skóre je z´ıskáno z

klasifikátoru scén jako suma pravdˇepodobnost´ı pro relevantn´ı kategorie. ´ Obrazek 5. Uˇzivatelské rozhran´ı testu. Vpravo je

zobrazen posuvn´ık, kterým uˇzivatel zadával sv˚uj odhad nadmoˇrské výsˇky. výsˇku na vytvoˇreném datasetu. Kromˇe toho, zˇ e z´ıskané výsledky poskytuj´ı nové a zaj´ımavé poznatky o schopnostech cˇ lovˇeka, slouˇz´ı také jako reference pro automatické metody, které jsou popsány v následuj´ıc´ı kapitole. ´ Obrazek 3. Rozloˇzen´ı nadmoˇrských výsˇek v datasetu.

´ Obrazek 4. Pokryt´ı Alp fotkami z datasetu.

3.2 Charakteristiky datasetu Dataset obsahuje 93 733 obrázk˚u s nadmoˇrskými výsˇkami v rozmez´ı od 79 m do 4463 m. Histogram nadmoˇrských výsˇek je zobrazen na obrázku 3. Rozloˇzen´ı grafu nen´ı uniformn´ı a odpov´ıdá tomu jak cˇ asto lidé fot´ı v r˚uzných nadmoˇrských výsˇkách. Mnoˇzstv´ı fotek s nadmoˇrskou výsˇ kou vˇetˇs´ı neˇz 3000 m je malé, coˇz omezuje pouˇzitelnost datové sady pro nejvyˇssˇ´ı m´ısta Alp. Kromˇe francouzské cˇ a´ sti je pokryta vˇetˇsina u´ zem´ı Alp (viz obr. 4). D˚uvodem je nedostupnost fotek z Francie v dobˇe vytváˇren´ı datasetu. Dataset také obsahuje kompletn´ı EXIF data dostupná z Flickru.

ˇ 4. Odhad nadmoˇrske´ vy´ sky kamery ˇ ˇ clov ekem Tato kapitola prezentuje uˇzivatelský test, jehoˇz c´ılem bylo kvantifikovat schopnost lid´ı urˇcovat nadmoˇrskou

´ ı 4.1 Parametry testovan´ Testován´ı probˇehlo pomoc´ı webové aplikace (viz obr. 5). Experimentu se zúcˇ astnilo 100 lid´ı, kteˇr´ı odhadovali nadmoˇrskou výsˇ ku kamery pro 50 obrázk˚u . Vˇek u´ cˇ astn´ık˚u je v rozmez´ı od 11 do 61. Obrázky byly náhodnˇe vybrány z testovac´ı sady datasetu Alpine altitudes tak, aby rovnomˇernˇe pokrývaly rozsah nadmoˇrských výsˇek od 79 m do 4463 m. (viz obr. 6). Pˇred spuˇstˇen´ım testu byl kaˇzdý uˇzivatel pouˇcen o u´ cˇ elu testu a správném zp˚usobu jak test vyplnit (napˇr. uˇzivatel urˇcuje nadmoˇrskou výsˇ ku kamery a ne vzdáleného objektu na fotce). Samotný test pak prob´ıhal tak, zˇ e se uˇzivateli v náhodném poˇrad´ı postupnˇe zobrazovaly obrázky z testovac´ı kolekce. Kromˇe obrázku nebyla k dispozici zˇ a´ dná doplˇnuj´ıc´ı informace. ´ castn´ık urˇcoval nadmoˇrskou výsˇ ku kamery pomoc´ı Uˇ posuvn´ıku (viz obr. 5). Tento odhad pak uˇzivatel potvrdil tlaˇc´ıtkem po jehoˇz zmácˇ knut´ı se zobrazil dalˇs´ı obrázek. Pr˚umˇerná doba trván´ı testu byla 10 minut. ´ 4.2 Vyhodnocen´ı uˇzivatelskeho testu Výsledek uˇzivatelského testu jsem nejdˇr´ıve analyzoval funkc´ı ANOVA (analýza rozptylu) [8] abych ovˇeˇril, zˇ e odhady nadmoˇrské výsˇ ky kamery nejsou náhodné a cˇ lovˇek je ji schopný urˇcovat na základˇe fotografie. K tomuto u´ cˇ elu jsem vytvoˇril nulovou hypotézu H0 : Pˇri odhadu cˇ lovˇeka nezáleˇz´ı na obrázku. Výsledek analýzy rozptylu je (F = 165.094 , p < 0.001), coˇz zna4 F je testová statistika. Vyjadˇruje pomˇer mezi rozptylem ”mezi” skupinami a rozptylem ”uvnitˇr” skupin. Hodnota testové statistiky výraznˇe vyˇssˇ´ı neˇz 1 umoˇznuje hypotézu zam´ıtnout.

mená, zˇ e cˇ lovˇek je schopný odhadovat nadmoˇrskou výsˇku kamery pouze na základˇe obrazové informace. V tuto chv´ıli jiˇz m˚uzˇ eme zkoumat charakteristiku odhadu cˇ lovˇeka. Na obrázku 6 je zobrazena stˇredn´ı hodnota a rozptyl odhadu vˇsech u´ cˇ astn´ık˚u testu pro kaˇzdý obrázek. Nadmoˇrské výsˇky do 1000 m je cˇ lovˇek schopný odhadnout s malou chybou. S rostouc´ı nadmoˇrskou výsˇkou vˇsak chyba roste. Nejv´ıce je to vidˇet u nadmoˇrských výsˇek nad 3000 m, kde cˇ lovˇek odhady velmi podhodnocuje. Jedn´ım z d˚uvod˚u m˚uzˇ e být to, zˇ e vˇetˇsina u´ cˇ astn´ık˚u nemˇela zkuˇsenosti s pobytem v tˇechto výsˇ kách. Pr˚umˇerná chyba odhadu cˇ lovˇeka je 879,94 m.

ˇ 5. Automaticky´ odhad nadmoˇrske´ vy´ sky Velký vliv na kvalitu výsledk˚u metod strojového uˇcen´ı maj´ı pouˇzité pˇr´ıznaky. V tradiˇcn´ım pˇr´ıstupu byly vhodné pˇr´ıznaky navrhovány na základˇe znalost´ı a zkuˇsenost´ı odborn´ık˚u. Pro obecné u´ lohy klasifikace a vyhledáván´ı fotografi´ı jsou to napˇr´ıklad GIST [9] a SIFT (Scale-invariant feature transform) [10], které zachycuj´ı globáln´ı respektive lokáln´ı vzhled obrazu. Výbˇer vhodných pˇr´ıznak˚u pro konkrétn´ı u´ lohu je dlouhý a nároˇcný proces, zvlásˇ tˇe pokud nejsou dostupné prameny o dˇr´ıvˇejˇs´ı práci, tak jako v tomto pˇr´ıpadˇe. Alternativou k ruˇcnˇe navrˇzeným pˇr´ıznak˚um, která v posledn´ıch letech nab´ırá na popularitˇe, je hluboké uˇcen´ı, které vyuˇz´ıvá rostouc´ıho výkonu výpoˇcetn´ı techniky a velkých datových sad k nauˇcen´ı vhodných pˇr´ıznak˚u pˇr´ımo z dat. Jednou z u´ spˇesˇ ných metod hlubokého uˇcen´ı pro obrazová data jsou hluboké konvoluˇcn´ı s´ıtˇe, které dosahuj´ı v souˇcasnosti nejlepˇs´ıch výsledk˚u na u´ lohách klasifikace obrazu [11], rozpoznáván´ı lid´ı podle obliˇceje [12] a detekce objekt˚u [13]. Obecnost konvoluˇcn´ıch s´ıt´ı je vykoupena vˇetˇs´ımi nároky na mnoˇzstv´ı trénovac´ıch dat a velkou výpoˇcetn´ı nároˇcnost´ı jejich trénován´ı. Z d˚uvodu nedostatku dostupných materiál˚u o dˇr´ıvˇejˇs´ıch prac´ıch na odhadu nadmoˇrské výsˇ ky kamery z obrazu jsem pouˇzil právˇe konvoluˇcn´ı neuronové s´ıtˇe. Návrh architektury a výsledky experiment˚u jsou popsány v následuj´ıc´ıch kapitolách. 5.1 Architektura s´ıteˇ Odhad nadmoˇrské výsˇky je svým charakterem a sloˇzitost´ı srovnatelný s obecným problémem klasifikace fotografi´ı [11]. S´ıtˇe pouˇz´ıvané v tˇechto u´ lohách maj´ı milióny parametr˚u (viz obr. 7) a vyˇzaduj´ı statis´ıce trénovac´ıch obrázk˚u. Dataset Alpine altitudes nen´ı dostateˇcnˇe velký pro trénován´ı s´ıtˇe od zaˇca´ tku s náhodnˇe inicializovanými parametry, a proto jsem zvolil postup

´ Obrazek 7. Architektura konvoluˇcn´ı s´ıtˇe

Places-CNN. adaptace pˇr´ıznak˚u z existuj´ıc´ı s´ıtˇe. V této práci jsem vytvoˇril 3 regresn´ı modely a zkoumal jejich chován´ı na vytvoˇreném datasetu. Pˇri návrhu vˇsech model˚u s´ıtˇe jsem vycházel z modelu s´ıtˇe natrénovaného na datasetu Places205 [4], který je popsán v následuj´ıc´ı kapitole. 5.1.1 Places-CNN

Places-CNN [4] je konvoluˇcn´ı s´ıt’, která v souˇcasnosti dosahuje nejlepˇs´ıch výsledk˚u v u´ loze klasifikace indoor/outdoor scén. S´ıt’ je natrénovaná na pˇribliˇznˇe 2,5M obrázc´ıch z datasetu Places205. Architektura s´ıtˇe je shodná s architekturou pouˇzitou v Caffe reference network [11]. Vstupem s´ıtˇe jsou barevné 2D obrázky zmenˇsené na velikost 256x256 pixel˚u. S´ıt’ je tvoˇrena 8 vrstvami (viz obr. 7). Prvn´ıch 5 vrstev jsou vrstvy konvoluˇcn´ı. Zbylé 3 vrstvy jsou plnˇe propojené. Hlavn´ı rozd´ıl konvoluˇcn´ıch a plnˇe propojených vrstev je ten, zˇ e plnˇe propojené vrstvy nemaj´ı sd´ılené váhy. Výstup posledn´ı plnˇe propojené vrstvy je vstupem softmax funkce, která produkuje distribuci nad 205 tˇr´ıdami. 5.1.2 Pˇr´ıznaky Places

Pˇredeˇslé práce [12] [14] ukazuj´ı, zˇ e pˇr´ıznaky extrahované z existuj´ıc´ıch s´ıt´ı jsou dostateˇcnˇe obecné a dávaj´ı informaci i pro podobné u´ koly, na které nejsou p˚uvodnˇe urˇcené. V tomto experimentu jsem zjiˇst’oval jak zafunguj´ı pˇr´ıznaky s´ıtˇe Places-CNN na datasetu Alpine altitudes. Extrahoval jsem aktivace prvn´ı plnˇe propojené vrstvy (4096 neuron˚u) pro vˇsechny obrázky datasetu. Extrahované aktivace reprezentuj´ı globáln´ı deskriptor obrazu a slouˇz´ı jako vstup pro 2-vrstvou neuronovou s´ıt’, jej´ızˇ parametry jsou na zaˇca´ tku trénován´ı náhodnˇe inicializovány. Výstupn´ı vrstva této s´ıtˇe je lineárn´ı s jedn´ım neuronem, který pˇr´ımo odhaduje nadmoˇrskou výsˇku. S´ıt’ byla trénována pomoc´ı optimalizaˇcn´ı kritéria mean square error, které je vhodné pro regresn´ı problémy, kde lze pˇredpokládat normáln´ı rozloˇzen´ı chyb. 5.1.3 Adaptovane´ pˇr´ıznaky Places

Lepˇs´ıch výsledk˚u neˇz pˇr´ımým pouˇzit´ım existuj´ıc´ı s´ıtˇe pro extrakci pˇr´ıznak˚u lze vˇetˇsinou dosáhnout adaptac´ı existuj´ıc´ı s´ıtˇe pro konkrétn´ı u´ lohu — tak zvaným Fine-

´ Obrazek 6. Odhady cˇ lovˇeka a konvoluˇcn´ı s´ıtˇe na 50 obrázc´ıch z uˇzivatelského testu. Na ose y je vynesena

nadmoˇrská výsˇka. Kaˇzdý ”box” odpov´ıdá jednomu obrázku a zobrazuje rozloˇzen´ı odhad˚u lid´ı. (zelené kˇr´ızˇ ky správná hodnota, modrá koleˇcka - Adaptované pˇr´ıznaky Places, cˇ ervená cˇ a´ ra - stˇredn´ı hodnota odhadu u´ cˇ astn´ık˚u testu pro daný obrázek). tunningem [15] [13]. Toho je dosaˇzeno inicializac´ı vah s´ıtˇe z jiˇz existuj´ıc´ı s´ıtˇe kromˇe posledn´ıch vrstev, které jsou inicializovány náhodnˇe. Taková s´ıt je pak uˇcena celá pomoc´ı metody Stochastic Gradient Descent. Tento postup jsem pouˇzil pˇri trénován´ı druhého modelu (Adaptované pˇr´ıznaky Places). Architektura s´ıtˇe je shodná s architekturou s´ıtˇe Places-CNN. Parametry jsou inicializovány pomoc´ı parametr˚u z modelu Places-CNN. 5.1.4 Adaptovane´ pˇr´ıznaky Places + EXIF

Témˇeˇr polovina datasetu obsahuje EXIF data, která mohou být pouˇzita jako dodateˇcné informace o obrázku a upˇresnit tak odhad nadmoˇrské výsˇ ky. Pro tento experiment jsem vytvoˇril neuronovou s´ıt’ jej´ımˇz vstupem byly aktivace prvn´ı plnˇe propojené vrstvy z modelu Adaptované pˇr´ıznaky Places a zakódovaná EXIF data. Zde uvád´ım výcˇ et pouˇzitých EXIF tag˚u a zp˚usob jejich kódován´ı: ˇ - Pozice slunce se bˇehem dne mˇen´ı a to se 1. Cas na sn´ımc´ıch m˚uzˇ e projevit zmˇenou st´ın˚u nebo r˚uznou intenzitou svˇetla. Denn´ı dobu kóduji jako 1 z 16 s uniformn´ı velikost´ı bin˚u. 2. Datum - Datum poˇr´ızen´ı sn´ımku nás informuje o specifických povˇetrnostn´ıch podm´ınkách v dané cˇ a´ sti roku a délce sluneˇcn´ıho svitu bˇehem dne. Pozici dne bˇehem roku kóduji jako 1 z 16 kde biny maj´ı uniformn´ı velikost. 3. Nastaven´ı fotoaparátu - Informace o nastaven´ı fotoaparátu (ohnisková vzdálenost, expoziˇcn´ı

cˇ as, ISO) jsem pouˇzil k urˇcen´ı mnoˇzstv´ı svˇetla ve scénˇe v dobˇe poˇr´ızen´ı sn´ımku. Mnoˇzstv´ı svˇetla ve scénˇe EV (expoziˇcn´ı hodnota) je vypocˇ´ıtáno jako ISO EV = 2 log2 (F)−log2 (t)−log2 , (1) 100 kde F je clonové cˇ ´ıslo, t je expoziˇcn´ı cˇ as a ISO je citlivost sn´ımac´ıho senzoru. Kromˇe samotné expoziˇcn´ı hodnoty jsou pouˇzity i jednotlivé parametry nastaven´ı. Pˇredpokladem bylo, zˇ e i jednotlivé parametry mohou nést informaci d˚uleˇzitou pro odhad nadmoˇrské výsˇ ky. Expoziˇcn´ı hodnota je zakódovaná jako 1 z 16 s pouˇzit´ım uniformn´ıch bin˚u. Pro kódován´ı ostatn´ıch parametr˚u je pouˇzito kódováni 1 z N kde velikost bin˚u exponenciálnˇe roste 5 . 4. Zorné pole - urˇcuje cˇ a´ st scény, která se zobraz´ı na sn´ımek. To pomáhá pˇri odhadu projekce scény na senzor fotoaparátu. Informaci o zorném poli obsahuje pouze velmi malá cˇ a´ st datasetu. Tento u´ daj jsem musel dopoˇc´ıtat z ostatn´ıch metadat pomoc´ı rovnice SEN 180 FOV = 2atan 0.5 , (2) f π kde FOV je zorné pole, SEN je rozmˇer senzoru a f je ohnisková vzdálenost. 5 Stupnice

tˇechto parametr˚u je logaritmická.

Tabulka 1. Porovnán´ı výsledk˚u vˇsech variant model˚u.

Model

RMSE(m)

Pˇr´ıznaky Places

569.63

Ad. pˇr´ıznaky Places

549.82

Ad. pˇr´ıznaky Places + EXIF 510.79

Tabulka 2. Pr˚umˇerná chyba odhad˚u cˇ lovˇeka a

konvoluˇcn´ı s´ıtˇe na obrázc´ıch z uˇzivatelského testu. RMSE(m) ˇ ek Clovˇ

879.94

Ad. pˇr´ıznaky Places 751.12

V souˇcasnosti neexistuje freeware program s databáz´ı obsahuj´ıc´ı velikost senzor˚u pro vˇsechny modely fotoaparátu. Velikost senzoru jednotlivých model˚u jsem proto manuálnˇe hledal na stránkách výrobc˚u. Statisticky jsem zjistil, zˇ e pˇri vytvoˇren´ı databáze pro 100 model˚u je pokryto 40% datasetu. Zorné pole jsem kódoval jako 1 z 16. 5.2 Vyhodnocen´ı modelu˚ Pro korektn´ı porovnán´ı jednotlivých variant model˚u s´ıt´ı jsem vytvoˇril subset datasetu Alpine altitudes (dále jen EXIF dataset), který pro kaˇzdou fotku obsahuje EXIF data pouˇzitá pˇri tvorbˇe varianty Adaptované pˇr´ıznaky Places + EXIF. Trénovac´ı sada obsahuje 34 889 obrázk˚u. Testovac´ı sada má 5046 obrázk˚u. EXIF dataset jsem následnˇe pouˇzil pro pˇretrénován´ı model˚u Pˇr´ıznaky Places a Adaptované pˇr´ıznaky Places. Vˇsechny modely tak lze pˇr´ımo porovnávat, protoˇze byly trénovány/testovány na stejných datech. V následuj´ıc´ı cˇ a´ sti popisuji chován´ı model˚u na testovac´ı sadˇe EXIF datasetu. 5.2.1 Pˇr´ıznaky Places

Pˇr´ıznaky extrahované z konvoluˇcn´ı s´ıtˇe Places-CNN se ukázaly jako dostateˇcnˇe obecné. Pr˚umˇerná chyba odhadu na celé testovac´ı sadˇe (viz tabulka 1) se málo liˇs´ı od pr˚umˇerné chyby modelu Adaptované pˇr´ıznaky Places (v uˇzivatelském testu dosahuje lepˇs´ıch výsledk˚u neˇz cˇ lovˇek). Dobré výsledky na této u´ loze pˇrisuzuji faktu, zˇ e pˇr´ıznaky s´ıtˇe Places-CNN byly trénovány na vysokém poˇctu r˚uznorodých venkovn´ıch scén. 5.2.2 Adaptovane´ pˇr´ıznaky Places

Adaptace konvoluˇcn´ı s´ıtˇe na EXIF dataset vede k m´ırnému zlepˇsen´ı výsledk˚u regrese (tabulka 1). Velikost EXIF datasetu je malá a pˇr´ınos metody fine-tuning se v tomto experimentu výraznˇe neprojevil. 5.2.3 Adaptovane´ pˇr´ıznaky Places + EXIF

Pˇredpoklad, zˇ e dodateˇcné informace k obrázku pomohou pˇri odhadu nadmoˇrské výsˇ ky kamery se potvrdil. Konvoluˇcn´ı s´ıt’ byla schopna vyuˇz´ıt vˇetˇs´ı mnoˇzstv´ı informac´ı k zpˇresnˇen´ı odhadu a zmenˇsen´ı chyby (viz obr. 8, tabulka 1). Provedený experiment zároveˇn ukazuje vhodnost pouˇzitých EXIF dat pro podobné u´ lohy.

´ Obrazek 8. Graf zobrazuj´ıc´ı poˇcet testovac´ıch dat (osa y) s chybou do urˇcité hodnoty (osa x).

´ ı vykonu ˇ ˇ a konvolucn´ ˇ ıch 5.3 Porovnan´ ´ clov eka s´ıt´ı Na základˇe provedeného uˇzivatelského testu je moˇzné konstatovat, zˇ e konvoluˇcn´ı s´ıtˇe dosahuj´ı v této u´ loze lepˇs´ıch výsledk˚u neˇz cˇ lovˇek (tabulka 2). Jelikoˇz u´ cˇ astn´ıci testu mˇeli k dispozici pouze obrazovou informaci, tak je porovnán´ı provedeno s variantou Adaptované pˇr´ıznaky Places 6 . Do grafu na obrázku 6 jsou zaneseny odhady lid´ı i konvoluˇcn´ı s´ıtˇe pro obrázky pouˇzité v uˇzivatelském testu. Konvoluˇcn´ı s´ıtˇe maj´ı stejnˇe jako lidé nejvˇetˇs´ı problémy u obrázk˚u poˇr´ızených ve vyˇssˇ´ıch nadmoˇrských výsˇ kách. V této práci to m˚uzˇ e být zp˚usobeno malým mnoˇzstv´ım fotografi´ı z tˇechto výsˇek v datasetu.

´ er ˇ 6. Zav V této práci je ukázáno, zˇ e konvoluˇcn´ı neuronové s´ıtˇe dosahuj´ı na u´ loze odhadu nadmoˇrské výsˇky kamery z obrazu lepˇs´ıch výsledk˚u neˇz cˇ lovˇek. Odhady nadmoˇrské výsˇ ky jsou pouze pˇribliˇzné a pr˚umˇerná chyba se pohybuje kolem hodnoty 550 m. Tuto chybu je moˇzné sn´ızˇ it pokud se pouˇzij´ı dodateˇcná data o obrázku (EXIF data). Na experimentech je dobˇre prezentována potˇreba vhodného datasetu pro ˇreˇsenou u´ lohu. Dataset vytvoˇrený v této práci je unikátn´ı sada obraz˚u z horského prostˇred´ı doplnˇená informac´ı o nadmoˇrské výsˇce kamery. Tento dataset sice nen´ı tak obsáhlý jako obecné datasety pouˇz´ıvané pˇri trénován´ı konvoluˇcn´ıch s´ıt´ı, ovˇsem i na nˇem bylo moˇzné u´ spˇesˇ nˇe provést experimenty, které do budoucna dávaj´ı nadˇeji na vytvoˇren´ı 6 V´ yrazný rozd´ıl ve velikosti chyby v tabulkách 1 a 2 je zp˚usoben odliˇsným rozloˇzen´ım nadmoˇrských výsˇ ek v pouˇzitých testovac´ıch sadách.

ˇreˇsen´ı, které by se dalo pouˇz´ıt v praxi. Vˇeˇr´ım, zˇ e pˇri trénován´ı konvoluˇcn´ı s´ıtˇe na dostateˇcnˇe velkém datasetu, který bude splˇnovat poˇzadavky na hustotu a rozmanitost [4], je moˇzné dosáhnout jeˇstˇe pˇresnˇejˇs´ıch odhad˚u nadmoˇrské výsˇky kamery z obrazu.

ˇ ´ ı Podekov an´ Chtˇel bych podˇekovat vedouc´ımu mé diplomové práce ˇ ıkovi, Ph.D. za pomoc a rady pˇri Ing. Martinu Cad´ zpracován´ı této práce. Dále bych rád podˇekoval Ing. Michalu Hradiˇsovi za odborné rady bˇehem návrhu konvoluˇcn´ıch s´ıt´ı. Výzkum vedouc´ı k tˇemto výsledk˚um vznikl v rámci projektu LOCATE 4SGA8694, který je financován z programu SoMoPro II, spolufinancovaného Evropskou uni´ı a Jihomoravským krajem.

Literatura [1] Talia Konkle, Timothy F Brady, George A Alvarez, and Aude Oliva. Scene memory is more detailed than you think: the role of categories in visual long-term memory. Psychological science : a journal of the American Psychological Society / APS, 21(11):1551–1556, 2010. ˇ ´ [2] Václav Cada. Uvod do Geodézie. [3] James Hays and Alexei A Efros. IM2GPS: estimating geographic information from a single image. In Proceedings of the {IEEE} Conf. on Computer Vision and Pattern Recognition ({CVPR}), 2008. [4] B Zhou, A Lapedriza, J Xiao, A Torralba, and A Oliva. Learning Deep Features for Scene Recognition using Places Database. NIPS, 2014. [5] William Burroughs. Climate: Into the 21st Century. Cambridge University Press, 2003. [6] Kevin Curran, John Crumlish, and Gavin Fisher. OpenStreetMap. International Journal of Interactive Communication Systems and Technologies, 2(1):69–78, 2012. ˇ [7] Lionel Baboud, Martin Cad\’ik, Elmar Eisemann, and Hans-Peter Seidel. Automatic Phototo-terrain Alignment for the Annotation of Mountain Pictures. In Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition, CVPR ’11, pages 41–48, Washington, DC, USA, 2011. IEEE Computer Society. [8] Viv Bewick, Liz Cheek, and Jonathan Ball. Statistics review 9: one-way analysis of variance. Critical care (London, England), 8(2):130–136, 2004.

[9] Aude Oliva and Antonio Torralba. Modeling the shape of the scene: A holistic representation of the spatial envelope. International Journal of Computer Vision, 42(3):145–175, 2001. [10] David G Lowe. Distinctive Image Features from Scale-Invariant Keypoints. Int. J. Comput. Vision, 60(2):91–110, 2004. [11] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Advances In Neural Information Processing Systems, pages 1–9, 2012. [12] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf. DeepFace: Closing the Gap to Human-Level Performance in Face Verification. In Conference on Computer Vision and Pattern Recognition (CVPR), page 8, 2014. [13] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. [14] Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, and Trevor Darrell. DeCAF: {A} Deep Convolutional Activation Feature for Generic Visual Recognition. CoRR, abs/1310.1, 2013. [15] Pulkit Agrawal, Ross B Girshick, and Jitendra Malik. Analyzing the Performance of Multilayer Neural Networks for Object Recognition. CoRR, abs/1407.1, 2014.

No title

Recommend Documents