Masarykova univerzita Fakulta sociálních studií Katedra psychologie
Diplomová práce Obor psychologie
Vliv percepce pozadí v průběhu sledování pohybu více objektů Vypracoval
Bc. Jakub Mazanec
Vedoucí práce
Mgr. Radovan Šikl, Ph.D.
Brno 2010
Prohlašuji, že jsem práci vypracoval samostatně a všechny použité informační zdroje uvedl v seznamu literatury.
Jakub Mazanec
Děkuji vedoucímu Mgr. Radovanu Šiklovi, Ph.D. za podnětné vedení této práce, Evě za pomoc s opravami, ochotným přátelům za jejich zájem a rady a rovněž všem, kteří obětovali svůj čas a zúčastnili se mého výzkumu.
Abstrakt Sledování pohybu více objektů (multiple object tracking, MOT) je experimentální metoda pro výzkum pozornosti a zároveň jev sám o sobě. Spočívá ve sledování podskupiny z vizuálně identických objektů po určitý časový úsek. V současnosti je zcela opomíjena otázka, jaký má na MOT vliv percepce pozadí. Visual saliency je mechanismus vizuální pozornosti zpracovávající vizuální pole bottom-up způsobem a určující, kterou lokaci, dostatečně nápadnou proti svému okolí, je vhodné podrobněji zpracovávat. Cílem této práce bylo zjistit, zda bottom-up visual saliency ovlivňuje kvalitu výkonu při sledování pohybu více objektů. Teoretická část blíže popisuje obecné vlastnosti MOT a navrhuje, že přesnost sledování objektů v průběhu MOT je ovlivněna jejich nápadností oproti pozadí. Objekty, které jsou méně nápadné, lze úspěšně sledovat pouze za vynaložení více kognitivních zdrojů; jinými slovy, nenápadných objektů lze sledovat, při konstantnosti ostatních podmínek, méně než nápadných. Výzkumná část tento předpoklad ověřuje. Na vzorku 298 obyvatel ČR (152 žen) ve věku 14–51 let byl experimentálně zjišťován vliv počtu cílů a nápadnosti objektů proti pozadí na přesnost sledování. Výsledky ukázaly, že na přesnost sledování má vliv saliency objektů v interakci s počtem cílů – zvýšení nápadnosti cílů kompenzovalo negativní dopad zvýšení počtu cílů. To podporuje úvahu, že nápadnost objektů má vliv na množství kognitivního zdroje nutného k jejich sledování. Závěr práce shrnuje zjištěné výsledky, dává je do souvislosti s teoretickou částí a naznačuje možné aplikace i navazující výzkumy. Multiple object tracking (MOT) is an experimental method used for an attention research and a phenomenon in itself. It consists in tracking of a subset of visual identical objects for a period of time. Currently, a question of influence of background perception on MOT is neglected. Visual saliency is visual attention mechanism that processes visual field in bottom-up manner and specifies which location, compared to its background, is conspicuous enough and should be attended to in more detail. The goal of this work is to find out whether the bottom-up visual saliency affects a performance quality during MOT. Theoretical part describes MOT general properties and proposes that tracking precision during MOT is influenced by the saliency of objects compared to their background. Less salient object can be successfully tracked only if sufficiently large amount of the cognitive resource is allocated; while keeping other conditions constant, more of salient objects can be tracked than of objects that are less salient, The experimental part attests this premise. Influence of the number of targets and the saliency of objects against their background on MOT accuracy was investigated on the sample of 298 Czech citizens (152 female), 14–51 years old. The results showed that the interaction between the number of targets and the saliency of objects affects the accuracy of tracking – an increase in the saliency helps compensate negative impact of an increase in the number of targets. That supports the assumption that the saliency of objects influences the amount of the cognitive resource necessary for the tracking. The conclusion sums up the found results, puts them into the context of theoretical part and suggests possible application and next research.
4
Obsah Abstrakt 6
1 Úvod
7
2 Experimentální paradigma MOT
8
3 Teoretické modely MOT
10 4 Kapacitní omezení a vlivy na přesnost MOT 10 4.1 Rychlost a hustota objektů 11 4.2 Kognitivní zdroj MOT 13 5 MOT ve skutečném životě 13 5.1 Počítačové hry a trénink MOT 13 5.2 Osobní determinanty výkonu v MOT 14 5.3 Sledování v pohybu 15 6 Vliv percepce pozadí v průběhu MOT 15 6.1 Visual saliency a MOT 17 6.2 Hypotézy 18 7 Metoda 18 7.1 Vzorek 19 7.2 Experimentální aplikace 19 7.2.1 Úvodní instrukce 20 7.2.2 Trénink 21 7.2.3 Experiment 21 7.2.4 Dotazník 21 7.3 Operacionalizace proměnných 21 7.3.1 Počet cílů a distraktorů 21 7.3.2 Poměr správně určených cílů a očekávaný poměr správně určených cílů 22 7.3.3 Pozadí 22 7.3.4 Saliency 23 7.3.5 Velikost prostoru 23 7.3.6 Framerate 23 7.3.7 Časy 23 7.3.8 Dotazníkové proměnné 24 7.4 Design 25
8 Výsledky
28
9 Diskuze
33
10 Závěr Literatura Přílohy
5
1 Úvod Žijeme a pohybujeme se ve světě, který nikdy není zcela v klidu, a jsme zahlceni nekončícím proudem vizuálních dat. Značná část objektů okolo nás nepřetržitě mění polohu a často musíme i ve zcela běžných situacích sledovat několik z nich najednou. Mohlo by se zdát, že v takovém chaosu se nelze vyznat, ale nám se to přesto daří. Když hrajeme fotbal, víme, kde se nachází a kam běží ostatní hráči, a odlišíme soupeře. Za volantem auta v hustém provozu pozorujeme ostatní vozidla a volíme trasu tak, abychom se s žádným nestřetli. Hrajeme-li počítačovou hru, její dění reprezentované na obrazovce je často velmi dynamické a nutí nás současně analyzovat několik pohybujících se prvků. Souběžné sledování několika objektů tedy zřejmě není nemožný úkol, což ostatně již před čtvrtstoletím prokázali Pylyshyn a Storm (1988) v dnes již klasickém experimentu, jehož účastníci byli schopni delší dobu pozorovat pohyb vybraných objektů a po skončení sledování je s vysokou přesností odlišit od těch zbylých, byť všechny vypadaly stejně. Toto zjištění i použitá metoda se staly základem pro další výzkum sledování více objektů – multiple object tracking (dále jen MOT) –, kterému se v posledních patnácti letech dostává stále větší pozornosti ze strany badatelů; Scholl (2009) o MOT mluví jako „o fenoménu a paradigmatu“: MOT je zažitá experimentální metoda pro výzkum pozornosti – s její pomocí lze zjišťovat její selektivitu, kapacitu, nároky na koncentraci, stejně jako interference s dalšími kognitivními procesy, a MOT je rovněž jev sám o sobě – schopnost sledovat více než jeden objekt najednou je v životě nezbytná a tudíž často využívaná, a je proto dobré vědět, jak přesně funguje: jaké jsou její základní procesy, na čem všem závisí přesnost a kapacita sledování, jak a čím ji lze vylepšit a vytrénovat. Tento text je pokusem alespoň částečně propojit MOT s vizuální percepcí, přesněji řečeno pokusit se zjistit, jaké má na MOT vliv vnímání pozadí. Otázka tohoto účinku je v současnosti zcela opomíjena; převážná, ne-li absolutní většina výzkumů používá pozadí jednolité – což je ovšem pochopitelné, neboť i na pozadí záleží, jak jsou objekty vnímány (Desimone & Duncan, 1995). Nicméně vizuálně jednoduché pozadí se v reálných situacích téměř nikdy nevyskytuje. Mým cílem je proto zjistit, co se na sledování změní, když se objekty budou pohybovat po pozadí složitějším, a jak tato změna ovlivní výsledky, kterých lidé obvykle dosahují. Struktura této práce je následující: prvních čtyři kapitoly shrnují současné poznatky o MOT – zaměřil jsem se především na teoretické modely, omezení spojená s MOT, a srovnání s využíváním MOT v běžném životě; následuje kapitola propojující MOT a percepci pozadí; navržené hypotézy jsou následně ověřeny empirickým výzkumem, rozděleným do standardních částí Metoda, Výsledky a Diskuze; v Závěru pak shrnuji výsledná zjištění, upozorňuji na důsledky pro praxi, a navrhuji další možné směry výzkumu.
6
2 Experimentální paradigma MOT Podoba běžného MOT experimentu je vcelku jednoduchá, a vychází z výše zmíněného výzkumu Pylyshyna a Storma (1988): s pomocí počítače zobrazili na monitoru deset pohybujících se křížků; studenti, kteří se pokusu účastnili, měli za úkol sledovat předem vybrané z nich. Pylyshyn a Strom se domnívali, že sice nepochybně existuje určitá oblast vizuálního pole, kde lidé „soustředí své kognitivní snahy“, ale odmítli takové pojetí, že v žádném časovém okamžiku neexistuje přístup i jinam než mimo tuto oblast; na některém stupni pozornosti předpokládali více než jeden nezávislý lokus – jednalo by se o funkci předpozornosti, která by spravovala identitu vizuálního objektu při jeho pohybu ve vizuálním poli. Tedy, v případě jejich experimentu, identitu křížku při jeho pohybu na monitoru počítače – neboť všechny křížky vypadaly úplně stejně. I přes tuto zapeklitost však studenti byli schopni sledovat až 5 cílových křížků s 87% přesností. Z tohoto prvotního pokusu se vyvinulo základní experimentální paradigma MOT (Pylyshyn & Storm, 1988; Scholl, 2009; Pylyshyn, 2004), a typický MOT experiment vypadá a probíhá následujícím způsobem. Subjekt se dívá obvykle na fixační bod1, vykreslený uprostřed na nějakém zobrazovacím zařízení (monitor či displej počítače). Na obrazovce se dále nachází několik identicky vypadajících objektů, obvykle v podobě nějakého jednoduchého tvaru – čtverce, kruhu, či křížku. Polovina z těchto objektů slouží jako cíle, druhá polovina jako distraktory. Počet cílů se obvykle pohybuje od dvou do pěti. Na začátku pokusu jsou cíle nejdříve dočasně vizuálně odlišeny, např. zablikáním. Poté se všechny objekty, již opět nerozlišitelné, začnou pohybovat. Druh pohybu se různí, většinou je přímočarý, ale někdy, ze specifických důvodů, se objekty pohybují po kružnici. V některých uspořádáních je rovněž trasa objektů upravena tak, aby se nesrazily, či je vizuální podoba objektů změněna tak, aby bylo možné využít okluzní vodítka. Po určité době, obvykle 5 až 10 sekundách, se objekty zastaví a subjekt pomocí ukazovacího zařízení (např. myši počítače) buď vybere všechny cíle (mark all metoda), nebo určí, zda náhodně vybraný a vizuálně zvýrazněný objekt je cílový (probe one metoda). Měřítkem výkonu v MOT je počet sledovaných objektů či přesnost sledování, tedy kolik objektů byl respondent schopen správně sledovat, a z jakého celkového počtu. Na MOT lze velmi dobře objasnit 3 vlastnosti pozornosti (dle Pashler, 1999): selektivitu, limit kapacity a vyžadování úsilí či koncentrace. Scholl (2009) poukazuje na to, že MOT je v podstatě jednoduchý a nenáročný úkol, ovšem to, jakým způsobem ilustruje tyto vlastnosti pozornosti, jej činí velmi důmyslným a užitečným. Podle Scholla je to díky následujícím charakteristikám: především, MOT vyžaduje průběžnou pozornost, a ne pouze její krátké změny – pro úspěšné zvládnutí sledování je třeba více než chvíle zvýšené pozornosti; týká se více objektů a je aktivním úkolem, nikoliv pasivním; navíc umožňuje stupňovat zátěž (přidáním počtu objektů ke sledování, zvýšením jejich rychlosti, atd.). Tím vším se diametrálně odlišuje od jiných metod ve většině výzkumů pozornosti a navíc lépe odpovídá reálným situacím. Není proto překvapivé, že již vzniklo několik teoretických modelů, které se snaží vysvětlit mechanismy MOT, a zapojit je do širšího konceptu psychologického nazírání na fungování pozornosti. Ty nejdůležitější popíšu v následující kapitole.
1 Zkoumané osoby mají sice explicitně určeno dívat se na něj, ale Fehd a Seiffert (2008) zjistili, že i bez toho příkazů subjekty nesledují přímo objekty, ale prostor ve středu mezi nimi. Tato intuitivní strategie přináší o trochu lepší výsledky než situace, kdy subjekt těká pohledem z jednoho cíle na další.
7
3 Teoretické modely MOT Nejjednodušší modely se snaží fungování MOT vysvětlit s pomocí jediného ohniska pozornosti, a to buď na principu přepínání objektů (switching; Pylyshyn & Storm, 1988), nebo jejich seskupování (grouping; Yantis, 1992). Switching předpokládá, že v průběhu sledování zaměřujeme v určitém okamžiku pozornost na právě jeden cíl. Pro úspěšné sledování pak pozorovatel musí mezi ohnisko pozornosti přesouvat z cíle na cíl a aktualizovat jejich polohu. Simulace však ukázaly, že pro tak rychlé cyklování mezi objekty cílů by bylo potřeba pozornost přesouvat rychlostí 30 – 250 °/s (Pylyshyn & Storm, 1988), což není fyziologicky možné (Scholl, 2009; Cavanagh& Alvarez, 2005). Alvarez a Cavanagh (2005) rovněž zjistili, že levá a pravá vizuální hemisféra mají zřejmě oddělené zdroje pro sledování – pokud by tedy existovalo pouze jedno ohnisko pozornosti, které se pohybuje od jednoho cíle k dalšímu, nemůže fungovat nezávisle ve dvou hemisférách. Na problém naráží i grouping; Yantis (1992) poukázal na to, že lze cíle vnímat jako vrcholy mnohoúhelníku, tedy jednoho objektu. Pozorovatel v průběhu MOT nesleduje samostatné objekty, ale jeden mnohoúhelník, a stačí mu tedy jedno ohnisko pozornosti. Čím pravidelnější tento útvar je, tím větší přesnosti MOT dosahuje. Vezme-li se ovšem v úvahu nezávislosti hemisfér, sady vrcholů onoho mnohoúhelníku by musely být nejdříve nezávislé vybrány a pak kombinované z levé i pravé hemisféry dohromady (Alvarez & Cavanagh, 2005). Seskupování tak může sloužit pouze jako vodítko (Cavanagh & Alvarez, 2005), protože nelze sledovat mnohoúhelník bez sledování jeho vrcholů, jednotlivých cílových objektů. Navíc lidé úspěšně objekty sledují i v případech, kdy pravidelné mnohoúhelníky netvoří (Pylyshyn, 2001). Závěrem tedy je, že mechanismus pro sledování více objektů musí být paralelní (Alvarez & Canavagh, 2005; Scholl, 2009), což ostatně dokládá i studie Howeho a kolegů (2010) vzájemně porovnávající výkony v sériovém a paralelním sledování: v obou případech respondenti sledovali objekty, které se pohybovaly pouze po určitý čas, a to buď sekvenčně, či simultánně. Sériový mechanismus MOT by předpokládal vyšší výkonnost při sekvenčním pohybu – protože pozorovatel se musí v jednom okamžiku věnovat menšímu počtu pohybujících se objektů. Ve skutečnosti to mu však bylo naopak, výkonnost respondentů byla vyšší v průběhu simultánního pohybu objektů. Pylyshyn navrhl a použil MOT, aby získal empirické důkazy podporující jeho model vizuálních indexů, které jinak nazýval FINST2 (Pylyshyn & Storm, 1988; Pylyshyn, 2001; Pylyshyn, 2004), a schopnost sledovat více objektů vychází právě z tohoto modelu. Podle něj existuje mechanismus, který přiřazuje objektům ve vizuálním poli indexy (tedy ony FINSTy). Každý takový index odkazuje ke svému objektu jako individuální jednotce, u které nezáleží na žádných jejích rysech (jako např. barva nebo tvar), pouze na poloze ve vizuálním prostoru (Pylyshyn, 2004). Na rozdíl od běžného způsobu fungování vizuální pozornosti, přiřazování indexů se odehrává nezávisle a paralelně na různých místech vizuálního pole; jedná se o činnost předpozornosti3 (Pylyshyn & Storm, 1988). Aplikace tohoto principu na sledování pohybu více objektů je následující: je třeba brát v úvahu, že cílové objekty jsou vizuálně odlišeny pouze na začátku jejich sledování, tedy v čase t0. Představme si onen výše popsaný základní MOT experiment: na obrazovce se nachází 8 objektů, a ty 4 z nich, které má subjekt sledovat, jsou označeny zablikáním – v této chvíli proběhne přiřazení indexů. Jakmile blikání skončí, jsou od sebe objekty opět vizuálně nerozpoznatelné; udržení identity cíle v dalších okamžicích probíhá pouze pomocí vyřešení problému korespondence polohy objektů v současnosti a v předchozím okamžiku (Pylyshyn, 2004). Pohne-li se objekt, porovná se jeho nová pozice s tou předchozí, a tato pozice s tou ještě starší, a tak dále až do času t0, kdy odvodíme identitu objektu – je-li cíl, nebo ne. Právě tento proces zajišťují indexy. Je-li udržena identita objektu, index úspěšně ukazuje na objekt a tento je schopen dále vstupovat do kognitivních procesů s minimálními náklady na pozornost (Pylyshyn, 2001). Výše popsaným způsobem dochází během MOT k průběžnému rozlišování cílových a necílových objektů; Pylyshyn (Pylyshyn, 2004) ovšem zjistil, že i když pozorovatel nemá problémy určit tuto identitu („Tento čtvereček je cíl.“), nedokáže určit, který cíl je který, rozpoznat individualitu (potvrzeno Horowitz et al., 2007; viz kapitolu 4.2). Obohaťme příklad o označení oněch 4 cílových objektů písmeny A až D. Na začátku pokusu, kdy cíle blikají, bude u nich zobrazeno i příslušné písmeno, a úkolem subjektu na konci sledování již není pouze odlišit cílové objekty, ale rovněž správně přiřadit i jejich označení („Tento čtvereček je cíl B.“) – toto ovšem již pozorovatel nedokáže, a cíle si poplete, často mezi sebou navzájem (Pylyshyn, 2004). 2 Zkratka z Finger of INSTantiation. 3 S teorií vizuálních indexů nepřímo souvisí i object files – koncept, který navrhli Kahneman, Treisman, Gibbs (1992); object file je „dočasná episodická reprezentace, v které jsou provázáný a integrovány po sobě jdoucí stavy objektu“. Rozdíl oproti FINSTům je v množství informací, které jsou zpracovávány (Pylyshyn, 2001): FINST slouží především k udržení identity objektu v průběhu času, a je tak spíše základní jednotkou, stavebním kamenem pro object file, který dále váže i další rysy objektu a usnadňuje tak ukládání informací do paměti i jejich vybavování (Kahneman, Tresiman, & Gibbs, 1992; Pylyshyn, 2001).
8
Scholl (2009) vidí neschopnost rozpoznat individualitu jako důsledek toho, že sledování je prováděno pomocí multiohniskové pozornosti. Podle tohoto modelu multifocal attention Cavanagha a Alvareze (2005) je každý cíl sledován vlastním ohniskem pozornosti, nezávislým na těch ostatních. Na konci pozorování má pak jedinec pozornost zaměřenou na stále stejnou sadu cílových objektů, byť na jiném místě. Protože jednotlivá ohniska se od sebe nijak neliší (slouží pouze pro posílení pozornosti v určité oblasti vizuálního pole), ani cíle nejsou nijak individualizovány. Neschopnost odlišit cíle od sebe navzájem podle Scholla (2009) vyvrací základ modelu FINST a podporuje model multiohniskové pozornosti. Index nemá smysl, pokud není jasné, ke kterému cílovému objektu se vztahuje. Vraťme se zpět k příkladu – v něm je příslušnost objektu do množiny cílů, tak, jak to navrhuje Pylyshyn (Pylyshyn, 2004) odvozena v průběhu času k okamžiku začátku sledování v čase t0; Scholl (2009) však namítá: Sledování probíhá v přítomnosti, a k určení, zda je objekt cíl, potřebujeme pouze jediné – vědět, zda jím byl i v předchozím okamžiku; ovšem protože všechny objekty jsou vizuálně stejné, nelze tímto způsobem přenášet individualitu. Jinak řečeno, na začátku sledování víme o 4 objektech, že jsou to cíle A až D. Jakmile jejich označení zmizí, subjekt má informaci pouze o jejich pozici. Díky korespondenci polohy dokáže v průběhu času sledovat cíle, ale aby tyto vizuálně stejné objekty od sebe odlišil a přiřadil jim písmena, musí kromě pozornosti ještě využívat paměť; a pokud se cíle náhodou dostanou poblíž sebe a hrozí riziko záměny, je třeba si vybavit celou jejich časoprostorovou trajektorii až do místa, kde byly v čase t0 a kdy byly tudíž jednoznačně individualizované. Z tohoto pohledu se tedy teorie vizuálních indexů může pro MOT jevit jako nadbytečná, ačkoliv to zcela nevylučuje její existenci. V několika posledních letech se rovněž objevují pokusy popsat MOT na neurální bázi. Stručně zmíním tři: model Kazanoviche a Boriyuska, model Yilmaze, a model založený na dynamic field theory. Kazanovich a Borisyuk (2006) vytvořili model MOT využívající oscilační neuronové sítě, a přestože je oproti skutečnému biologickému systému značně zjednodušený a rigidní, simulace naznačují dobrou shodu s experimentálními daty studie Oksamy& Hyönäho (2008). Model obsahuje pro každý sledovaný objekt vrstvu lokálně propojených oscilátorů (LO), které zastupují kortikální neurony primární vizuální mozkové kůry reagující na rysy obrazu (v tomto případě na rozdíl intenzity pixelů objektů a pozadí); izolované objekty jsou představovány synchronizovanou skupinou lokálních oscilátorů. Dynamika lokálních oscilátorů je kontrolována oscilátorem centrálním (CO, zastupujícím neurony centrální exekutivy) pomocí zpětných a dopředných vazeb. Ty LO, které jsou synchronizované s CO, představují objekt sledovaný pozorností (přičemž prvotní synchronizace nastává v úvodní fázi sledování, kdy cílové objekty blikají a jsou tak nápadnější než distraktory). Yilmaz (2012) pro sledování pohybujících se objektů rovněž navrhl oscilační neuronový model, sestávající se z dvou vrstev se schopností synchronizace. Selekce relevantních informací a vyřazení těch nedůležitých je dosažena modulováním temporální korelace aktivity těchto dvou propojených vrstev retinoskopicky uspořádaných neuronů. Výhodou tohoto modelu je i zahrnutí zpracování aktivity vyvolané okolím objektů, tedy i distraktory; ačkoliv tato aktivita není propagována do druhé vrstvy, je nezbytná pro správné přiřazení korespondence objektů a tím i zvýšení přesnosti sledování. Spencer s kolegy (2012) model MOT postavili na základech teorie prostorového vnímání Dynamic Field Theory4. Pro tento účel zjednodušili původní počet 7 vrstev neuronových sítí na 3: vrstvu percepčního pole, vrstvu prostorové pracovní paměti a inhibiční vrstvu. Sledování pohybu objektů je zajištěno pomocí interakcí špiček aktivací v těchto vrstvách. Výhodou tohoto modelu je, že jeho simulace odpovídají nejen behaviorálním datům ze studie (Franconeri, Jonathan & Scimeca, 2010), ale i ERP datům studie (Sternshein, Agam & Sekuler, 2011). Ze všech popsaných modelů MOT se jeví jako funkční ty, které jsou ve své podstatě paralelní, a – s výjimkou FINSTu – jejich základem je to, že ke správnému sledování pohybu více objektů stačí pozornost (či obecně nějaký kognitivní zdroj) rozdělena do několika oblastí. Ačkoliv konkrétní mechanismy a principy fungování sledování více objektů se mohou u jednotlivých modelů lišit, a jsou popisovány na různých úrovních analýzy – pokud bych použil Marrovy tři úrovně (Marr & Vision, 1982) –, jejich cílem je co nejlépe vysvětlit empiricky zjištěná omezení sledování – tedy jaké zdroje využívá a co omezuje jeho přesnost. Těmto omezením se budu věnovat v následující kapitole.
4 „Dynamic Neural Fields jsou formalizací toho, jak populace neuronů reprezentují kontinuální dimenze, které charakterizují percepční rysy, pohyb a kognitivní rozhodnutí. Neuronová pole se dynamicky vyvíjejí jak pod vlivem smyslových vstupů, tak díky interakcím neuronů, jež generují elementární formy kognice pomocí dynamických nestabilit.“ (Spencer, Perone & Johnson, 2009)
9
4 Kapacitní omezení a vlivy na přesnost MOT Schopnost sledovat více objektů najednou je v běžném životě téměř nezbytná, a znát její limity je proto velmi užitečné. Pro dosažení tohoto poznání je třeba dokázat odpovědět na následující tři okruhy otázek: 1. Jaká je kapacita sledování – kolik objektů najednou dokáže člověk sledovat? 2. Co tuto kapacitu omezuje, jaké podmínky snižují přesnost sledování? 3. Jaké povahy je zdroj umožňující sledování – jedná se o pozornost či nějakou její podsložku, možná sdílenou s jinými kognitivními procesy? Pylyshyn a Storm (1998) ve svém prvním experimentu zjistili, že lidé bez problémů sledují 4 objekty, nicméně výzkumy v průběhu dalších let toto tvrzení více či méně zpochybňovaly (Cavanagh& Alvarez, 2005), nebo dokonce tvrdily, že kapacita sledování není dána pevně, a úspěšnost sledování je ovlivněna více proměnnými, z nichž hlavní jsou: počet sledovaných objektů, jejich rychlost, a rozestup či hustota (interobject crowding) – tedy jak blízko se nacházejí u sebe (Franconeri, Jonathan & Scimeca, 2010; Franconeri et al., 2008; Vul et al., 2009). Co se týče kognitivního zdroje nutného pro sledování, existují tři základní teorie: teorie fixního limitu předpokládá daný počet pozornostních „ukazatelů“, které jsou pro sledování objektů k dispozici; teorie prostorové interference tvrdí, že pokud jsou cíle blízko sebe, oblasti zaměřené pozornosti se vzájemně ruší; teorie zdroje navrhuje, že mezi cíle jsou rozdělené omezené prostředky zdroje, a výkon odráží množství zdroje přidělené každému cíli (Holcombe & Chen, 2012; Horowitz & Cohen, 2010).
4.1 Rychlost a hustota objektů Protože je to právě kapacita sledování, která je podstatou MOT a hlavním měřítkem užitečnosti sledování, můžeme o počtu objektů uvažovat jako o proměnné, kterou determinují rychlost a hustota objektů. V následujících odstavcích se budu jednotlivě věnovat vybraným aktuálním empirickým studiím, které se zabývají právě kapacitou sledování a povahou zdroje MOT; zaměřím se především to, jakou míru vlivu přikládají rychlosti a hustotě objektů, a pro kterou z teorií zdroje pro sledování přinášejí důkazy. Alvarez & Franconeri (2005) nechali respondenty sledovat 1–8 cílů s tím, že si sami respondenti mohli upravit rychlost pohybu objektu tak, aby byli schopní je bez problémů sledovat. Poté následovalo další sledování 1–8 cílů s touto „osobní“ rychlostí. Výsledky ukázaly závislost mezi rychlostí a logaritmem počtu cílů, bez jakýchkoliv diskontinuit; byla-li rychlost dostatečně nízká (ačkoliv stále nenulová), respondenti byli schopni sledovat i všech osm cílů. Tento závěr je tedy nekonzistentní s fixním limitem čtyř cílů, naopak nasvědčuje tomu, že kapacita sledování je ovlivněna množstvím zdroje vyčleněnému každému cíli. V navazující studii Alvarez & Franconeri (2007) znovu ověřovali vliv rychlosti na kapacitu sledování, a znovu potvrdili, že při dostatečně nízké rychlosti pohybu objektů jich zle sledovat i osm; naopak, jeden velmi rychle se pohybující objekt dokáže být ke sledování náročný. Alvarez a Franconeri se domnívají, že toto je způsobeno prostorovým rozlišením pozornosti, a počet sledovatelných objektů je určen flexibilně alokovatelným zdrojem. Holcombe & Chen (2012) se snažili vyčerpat zdroje pozornosti tím, že nechali respondenty sledovat jeden a dva pohybující se vzdálené objekty – protože dva cíle se nemohly pohybovat tak rychle jako jeden, podporuje to teorii zdroje – i jeden cíl, pohybující se vysokou rychlostí, dokáže plně vyčerpat pozornost. Feria (2013) rovněž ukázala, že pokud je počet „blízkých setkání“ (close encounters) objektů udržován konstantní, i samotná rychlost má dopad na kapacitu sledování, což opět dokladuje, že MOT vyžaduje pro rychlejší cíle více zdroje. Na druhou stranu, jiné studie se snaží dokladovat, že rychlost není klíčovým parametrem ovlivňujícím sledování. Franconeri s kolegy (2008) promítali MOT na hemisférický monitor a manipulovali velikost použité plochy – od malé oblasti ve středu polokoule po celou její plochu. Tím měnili retinální obraz a rychlost pohybu objektů, ale ne jejich hustotu. Protože přesnost sledování zůstala stejná, vede to k závěru, že kapacitu sledování neovlivňuje rychlost objektů, ale právě jejich hustota. Franconeri, Jonathan & Scimeca (2010) na základě svých experimentů rovněž tvrdí, že MOT je omezeno pouze hustotou objektů (interobject crowding); byla-li distribuce rozestupu objektů konstantní, rychlost ani délka sledování neovlivňovaly celkový výkon, což napovídá, že kromě rozestupu cílů neexistuje limit v počtu objektů, které lidé dokážou sledovat. Přesnost 10
sledování zároveň lze nejlépe předpovědět pomocí kumulativní délky trasy (cumulative distance traveled) objektů – což je celkový součet trajektorií všech objektů za celou dobu sledování. Bae a Flombaum (2012) se zaměřili na odhalení chyb, které způsobují nepřesný výkon sledování. Protože hlavní chybou se zdála být záměna objektů, pokud se dostaly blízko sebe, klasický MOT experiment byl doplněn o variantu, kdy distraktory, které se příliš přiblížily cílům, byly náhodně obarveny. Výsledky ukázaly, že toto mělo pozitivní vliv na výkon, ale přitom vliv nenarůstal spolu se vzdáleností – měl podobu skokové funkce, což dokazuje, že hlavním omezením kapacity sledování je nejistota ohledně polohy objektů, což způsobuje záměnu cílů a distraktorů. Vul s kolegy (2009) při výzkumu MOT použili bayesovské modelování ideálního pozorovatele. Jejich výsledný model je založený na následujících principech: pozorované pozice sledovaných objektů jsou pouze nepřesná měření jejich skutečné pozice v určitém čase; a respondent musí odhadovat identitu objektů podle jejich současné a předchozí pozice, a zároveň správně přiřadit tato dvě pozorování ke stejným objektům. To znamená, že pokud se objekty pohybují rychle, predikce o jejich pozici v dalším okamžiku je zatížená mnohem větší nejistotou – a přiřazování jednotlivých pozorování ze dvou časových okamžiků ke správným objektům je tak více chybové. Stejně tak pokud jsou objekty hustěji u sebe, může se snadněji stát, že v oblasti, kde se má s určitou pravděpodobností objekt v příštím okamžiku nacházet, bude víc „kandidátů“, což opět povede k obtížím s korespondencí polohy a udržením správné identity objektů. Takovýto model MOT je nicméně omezený nikoliv kognitivními limity, ale pouze strukturou úkolu (rychlost objektů, velikost plochy, na které sledování probíhá) a množstvím percepčně dostupných informací. Respondenti nicméně snadněji sledují např. 4 objekty z 16 než 8 objektů z 16, i když je jejich prezentace totožná. Omezená kapacita sledování tak musí být následkem nejistoty způsobené flexibilním zdrojem (který je modulovaný právě konkrétní povahou úkolu). Pro svůj model Vul nabízí dva druhy tohoto zdroje: vizuální pozornost, která zlepšuje věrnost měření pozic objektů, nebo paměť, která umožňuje více bezšumovou propagaci odhadů objektů v průběhu času. V každém případě, je-li objektů více, méně zdroje je dostupné každému z nich, což zvyšuje šum a nejistotu měření. Všechny výše uvedené studie vesměs svými výsledky podporují předpoklad, že kapacita sledování je proměnlivá, a závisí na tom, jak jsou mezi cíle přidělené omezené prostředky zdroje. Horowitz a Cohen (2010) způsob tohoto přidělování měřili pomocí přesnosti reprezentace směru objektů: respondenti sledovali cíle a byli-li dotázání na vektor jejich pohybu – naznačovali ho šipkou. Přesnost odhadu směru pohybu se snižovala v závislosti na počtu cílů, což ukazuje, že ono dělení zdroje MOT je kontinuální. Shoda nicméně nepanuje v oblasti, zda více zdroje je potřeba pro rychlejší, nebo hustěji prostorově rozmístěné objekty. Domnívám se – jak ostatně ukázal Vul s kolegy (2009) – že tyto parametry nelze doopravdy separovat. Jistě je možné, když se cíl pohybuje moc rychle, zvýšit rozestup mezi objekty tak, aby sledování bylo stále přesné, ovšem narážíme i na to, že naše vizuální pole je omezené – pokud bude rychlost objektů dostatečně velká, vyžádá si to tak od sebe vzdálené objekty, že prostě „vyletí z dohledu“. A naopak, u hustěji se vyskytujících objektů je vliv rychlosti na přesnost sledování nezpochybnitelný. Kapacita sledování je tedy závislá jak na rychlosti objektů, tak na interobject crowding, což ukazuje bayesovský model MOT (Vul et al., 2009) i modely MOT založené na neuronových sítích (Kazanovich & Borisyuk, 2006; Spencer et al., 2012).
4.2 Kognitivní zdroj MOT Přejdu nyní k třetí otázce z úvodu této kapitoly: Jaké povahy je zdroj umožňující sledování? Obecně se předpokládá, že jím je pozornost (Scholl, 2009), a Alvarez & Cavanagh (2005) dokládají, že kapacita sledování je omezena nezávisle pro pravé i levé vizuální pole – jakoby se o sledování staraly oddělené systémy; díky tomu je možné sledovat dvakrát více cílů, pokud jsou rozděleny mezi pravé a levé pole. Existenci dvou systémů podporují i výsledky Holcomba & Chena (2012). Přesnější povahu zdroje MOT lze pak zjišťovat pomocí interference s dalšími kognitivními procesy v rozličných dual-task experimentech. Trick, Guindon & Vallis (2006) porovnávali výkon v MOT se situacemi, kdy respondenti kromě sledování vykonávali další úkol: buď klepali třemi prsty ve stanoveném pořadí, nebo v určitém pořadí vyslovovali tři slabiky. Přestože sekvenční klepání nevyžaduje zrak nebo zapamatovávání si polohy externích objektů, významně ovlivňovalo výkon v MOT, více než artikulace, což nasvědčuje tomu, že klepání a sledování sdílí společný (omezený) zdroj. Tombu & Seiffert (2008) porovnávali náročnost MOT, kdy respondenti museli kromě sledování i rychle odpovídat v závislosti na výšce zahraného tónu. Prokázal se předpoklad, že pokud sledování vyžaduje pozornost, odpověď na tón ovlivní přesnost sledování; zvýšení rychlosti objektů a snížení jejich vzájemné vzdálenosti narušovalo sledování více, pokud se odehrálo zároveň s vyžadovaným reagováním na zvuk, což svědčí pro tvrzení, že MOT vyžaduje pozornost, která je sdílená s jinými činnostmi. Chesney & Haladjian (2011) zkoumali, zda subitizing – dovednost rychle a přesně vyčíslit malou množinu objektů – využívá stejné mechanismy jako MOT. Respondenti proto v průběhu sledování počítali krátce zobrazenou sadu 0–9 objektů. Výsledky ukázaly, že maximální počet vyčíslených objektů se snižoval v závislosti na počtu sledovaných pohybujících se cílů. Tento vliv se ovšem neprojevil, pokud vyčíslování neprobíhalo v průběhu MOT, ale v průběhu stejně obtížného nevizuálního úkolu využívajícím pracovní paměť. 11
Allen a jeho kolegové (2006) předpokládali, že MOT vyžaduje zdroje centrální exekutivy a tudíž by jeho výkon měl klesat při zvýšené kognitivní zátěži. Tu představovaly 4 druhy sekundárních úkolů, které subjekty prováděly během MOT: verbální kategorizace vizuálně zobrazené číslice, verbální kategorizace zvuku (kategorie byly vesměs omezené na „menší/nižší“ a „větší/vyšší“), artikulační potlačení a prostorové ťukání (spatial tapping). Úkoly skutečně snížily kvalitu MOT: schopnost rozlišit cílové objekty od ostatních se snížila, stejně jako reakční časy na sondu, určující, o kterém objektu má ZO usuzovat; toto je podle autorů studie důsledek omezené kapacity pracovní paměti. Stejně tak Fougnie & Marois (2009) zjistili, že je-li MOT prováděno v průběhu retenčního intervalu, stěžuje zapamatování si rysů (tvaru a barvy) předtím zobrazených objektů. Na druhou stranu neovlivňuje zapamatování si scén, zobrazených pod sledovanými objekty v průběhu samotného sledování (Scholl, 2009). Zdá se tedy jisté, že MOT vyžaduje jako zdroj pozornost – pro sledování objektů jako takové – otázkou nicméně zůstává, jaká je role pracovní paměti. Model Vula a kolegů (2009) nabízí pracovní paměť vedle pozornosti jako jeden z možných mechanismů udržování identity objektů jako cílů. Feria (2012) zase ukázala, že distraktory lišící se od cílů (barvou, tvarem, či rychlostí pohybu) vedou k vyšší přesnosti, ale zároveň větší množství byť odlišných distraktorů i tak snižuje kapacitu sledování – což znamená, že efekt distraktorů je závislý na top-down nastavení na rysy cílů; i toto svědčí pro možné využívání pracovní paměti v průběhu MOT (viz např. Pessoa & Ungerleider, 2004). Howe & Holcombe (2012) ve své studii rovněž použili lišící se objekty – čtverečky odlišné v barvě a velikosti, a to buď tak, že cíle byly všechny stejné a lišily se od distraktorů, anebo byla polovina cílů odlišná od druhé poloviny cílů, a všechny cíle se lišily od stejných, nebo od dvou vzájemně odlišných polovin distraktorů. Výsledky ukázaly nejvyšší přesnost sledování, když se cíle od distraktorů lišily v obou rysech (přičemž barva pomáhala více než velikost), nižší, když a) cíle některý rys sdílely, a lišily se v jiném – ať už ode všech či pouze od poloviny distraktorů, a b) když polovina cílů se lišila od druhé, a každá z těchto polovin se lišila od distraktorů; nejmenší přesnost sledování nastala v případě, když poloviny cílů a distraktorů sdílely barvu a lišily se ve velikosti křížem. Ale hlavně, ve všech těchto případech byla přesnost vyšší než v základní MOT variantě, kdy všechny objekty vypadají stejně. To nasvědčuje tomu, že odlišnost cílů od distraktorů pomáhá v okamžicích, kdy pozorovatel v průběhu sledování cíl „ztratí“, ho opět najít díky specifickým rysům. Pokud se cíle od sebe neliší, je tento tracking recovery snažší. K podobnému závěru dospěli i Makovski & Jiang (2009a). Ti nechali respondenty sledovat barevné číslice, lišící se identitou (čísla byla různá) a barvou; na konci sledování se všechny objekty zakryly stejnobarevným čtvercem, a pak teprve respondenti vybírali cíle. Kombinace barev a čísel se lišily, a to buď mezi všemi objekty, nebo mezi cíli a distraktory zvlášť, přičemž ovšem vždy jeden cíl a distraktor vypadaly stejně. Pokud se distraktory lišily od cílů, výsledky sledování byly lepší (i pokud cíle navzájem stejně nevypadaly), než když cíle a distraktory sdílely rysy. Protože v navazujícím experimentu (Makovski & Jiang, 2009b), ve kterém se barvy objektů v průběhu času měnily (ale tak, aby se stále lišily), rozdíl mezi cíli a objekty přesnosti sledování nenapomáhal, zdá se, že informace o identitě objektů je udržována jiným systémem (např. právě vizuální pracovní pamětí) než pomocí kterého probíhá samotné sledování. Existenci dvou systémů, z nichž jeden se věnuje poloze objektů, a druhý jeho identitě, podporuje i výzkum Pinta, Scholteho& Lammeho (2012). Ti místo abstraktních objektů použili obrázky předmětů (např. citron, kámen či vlajka); respondenti nejenže sledovali jejich pohyb, ale po skončení sledování – kdy se obrázky zakryly – museli navíc zodpovědět, zda zvýrazněný objekt obsahoval určitý obrázek. Výsledky jak dle behaviorálních, tak fMRI dat ukázaly, že sledování polohy objektu (což je dostačující pro správné určení cíle) je méně náročné než uchování informace o jeho konkrétní identitě („Je to citron!“). Mezi další důkazy o využívání paměti v průběhu MOT patří různé studie zabývající se okluzí objektů v průběhu MOT. Horowitze et al.(2006) ukázali, že respondenti jsou schopní pokračovat ve sledování, i v případě, že objekty během svého pohybu na krátkou dobu (do 500 ms) zmizí; vysvětlují si to existencí paměťového bufferu, který ukládá rozpracovaný úkol – v tomto případě pozice cílů. Zda se ukládá i směrový vektor není jisté; Keane & Pylyshyn (2006) zkoumali extrapolaci pohybu v průběhu a zjistili, že zmizí-li na chvíli všechny objekty, ale přitom se dále pohybují, sledování je po jejich objevení do určité míry narušeno. I v případech, kdy je další trasa velmi snadno odhadnutelná (s 75% úspěšností), je přesnost horší, než když se po svém „zmizení“ objekty objeví na svém původním místě. Na druhou stranu je zajímavé, že pokud je pohyb objektů po objevení „převinut“ (objekty se pohybují znovu po předchozí trase), sledování narušeno není. Fencsik, Klieger & Horowitz (2007) pak potvrdili, že zmizení objektů na řádově stovky milisekund bez pokračování v pohybu neznamená pro přesnost sledování újmu; ovšem jakmile se objekty během zmizení pohybují, je člověk je schopen jejich sledování zvládnout pouze u omezeného počtu – v průměru 1,5 objektů. Pracovní paměť je tedy v průběhu MOT nejspíše využívána nejen k uchování identit objektů, ale i k jejich poloze, vyžádáli si to konkrétní situace. Nicméně kapacitu sledování základní varianta MOT primárně ovlivňuje pozornost, která je flexibilně alokována jednotlivým cílům
12
5 MOT ve skutečném životě Všechny doposud zmíněné výzkumy MOT se uskutečnily v laboratorních podmínkách, lidé se dívali na obrazovky, na kterých sledují pohybující se čtverečky, kolečka či křížky – obecně řečeno nekonkrétní objekty. Těžko odhadnout, jak velká je ekologická validita takových studií, ale v každém případě je omezená, neboť takovéto umělé situace se pochopitelně liší od těch reálných, kdy sledujeme auta, sportovce/hráče nebo kulečníkové koule. Výjimku mohou tvořit některá zaměstnání, jejichž náplní je právě pozorování abstraktních vizualizací: letoví dispečeři nebo operátoři radiolokátorů pracují na počítačích a monitorují pohyb většího množství cílů. Přestože je hlavním zájmem badatelů je stále odhalování obecných mechanismů a zákonitostí MOT, existuje několik reálných situací, v nichž probíhá MOT, a které byly podrobeny výzkumu.
5.1 Počítačové hry a trénink MOT Na půl cesty mezi reálným světem a abstraktní reprezentací stojí počítačové hry – přestože děj a situace, které pomocí nich člověk zažívá, jsou zcela virtuální a odehrávají se pouze na zobrazovacích jednotkách počítačů, jejich vizuální podoba má často za cíl maximální podobnost s realitou (viz např. Galloway, 2004). Pro činnosti, které hráč vykonává, je v mnoha případech vyžadováno sledování a správné reagování na více objektů. Již dříve bylo ověřeno, že hráči jsou výkonnější v rozličných aspektech pozornosti (Green & Bavelier, 2003), vnímání (Boot, Blakely & Simons, 2011), i kognice (Colzato et al., 2010), a především pak kognice prostorové (Spence & Feng, 2010). MOT tedy není výjimkou, i v něm hráči (tedy ti, co dlouhodobě a několikrát týdně hrají hry) dosahují lepších výsledků (Green & Bavelier, 2006) oproti lidem, kteří hry nehrají, zvládají sledovat i o 2 objekty více. Hraní počítačových her tedy zlepšuje výkonnost v MOT, a hry – zvláště ty akční, kde hráč musí vnímat větší množství podnětů najednou a rychle se rozhodovat v reálném čase– lze použít jako pomůcku pro zlepšení celé vizuální pozornosti (Green, Li & Bavelier, 2010). To navíc znamená, že MOT lze natrénovat, a že se tedy jedná o dovednost, která se individuálně alespoň do jisté míry liší. Jak již jsem zmínil, operátoři radiolokátorů dosahují při sledování lepších výsledků – jejich pozornost není tolik zatížena, takže buď mohou sledovat více objektů, nebo lépe zvládají souběžně vykonávat další úkoly (Allen et al., 2004; Barker, Allen & McGeorge, 2010). Podobný efekt tréninku ovšem nefunguje ve sportu; mezi zkušenými hráči házené, atlety nezabývajícími se týmovým sportem i nezkušenými sportovci nebyly zjištěny rozdíly ve výkonu v MOT (Memmerta, Simons, & Grimme, 2009). Je nicméně možné, že k zlepšení schopností nutných ke kvalitnímu MOT je potřeba větší zátěž – sportovci v průběhu času provádějí MOT relativně méně častěji (toto se navíc liší podle druhu sportu) než hráči a dispečeři, pro které je MOT základní činností. Problémem navíc je, že k ověřování schopnosti sledování je stále používáno počítačových experimentů – studie se sice snaží zkoumat MOT v přirozeném prostředí, ale samotné testování přirozeně neprobíhá; stále tak existuje rozdíl realitou a abstraktním znázorněním MOT. Výjimku tvoří zajímavý experiment Lochner& Trick (2011), kteří modifikovali klasické MOT paradigma pro sledování vozidel. K tomuto účelu použili řidičský simulátor/trenažér s 300° projekční plochou. Respondenti sledovali 1–4 identicky vypadající vozidla, a v některých případech i vykonávali další úkoly: řízení, a udržování vzdálenosti od okolních vozů. Výsledky ukázaly, že sledování vozidel není těžší než generické MOT experimenty – kapacita sledování 4 objekty byla zachována; ovšem úkoly navíc přesnost sledování značně snižovaly.
5.2 Osobní determinanty výkonu v MOT Výkon v MOT je – ostatně jako jiné kognitivní funkce – ovlivněn věkem. Trick, Pearl a Sethi (2005) u lidí starších 70 let zjistili rozdíl v počtu úspěšně sledovaných objektů zhruba o 1 oproti mladším lidem (zhruba 20 let); u těchto starších jedinců rovněž dochází ke snížení přesnosti sledování rychlejších objektů, a při delším trvání sledování (Sekuler, McLaughlin & Yotsumoto, 2008). V jiné studii, zaměřující se na děti a adolescenty od 6 do 19 let (Trick, Jaspers-Fayer & Sethi, 2005), se rovněž projevil vliv věku – nejmenší děti, mající ještě problémy s koncentrací pozornost, byly schopny sledovat jen jeden objekt – s přibývajícím věkem pak kapacita sledování rostla; zároveň ty děti, které hrály hry nebo sportovaly, dosahovaly mírně lepších výsledků.
13
Stres a emocionální rozrušení rovněž snižují kvalitu sledování; v MOT experimentu uskutečněném po prezentaci standardizovaných fotografií, které způsobují střední nárůst úrovně stresu, došlo u respondentů k mírnému snížení přesnosti (Morelli & Burton, 2004). Je možné, že existují i kulturní rozdíly v přesnosti sledování MOT. Savani & Markus (2012) spekulovali, že pozornostní vzorce, lišící se v míře pozornosti přikládané objektům či pozadí, a konceptualizované jako analytické vizuální zpracovávání a holistické vizuální zpracovávání, mají dopad na způsob sledování a tím i výkonnost v MOT. Porovnávali americkou a asijskou populaci (European Americans a Asians) a zjistili, že první skupina byla schopna sledovat o čtvrtinu objektů více. Savani & Markus to přičítají tomu, že analytické zpracovávání – převažující u European Americans – zahrnuje i selektivní pozornost, důležitou pro MOT.
5.3 Sledování v pohybu Laboratorní MOT experimenty mají obvykle – kromě toho, že se pohyb objektů většinou odehrává na nějakém dvojrozměrném zobrazovacím zařízení – společnou ještě jednu věc: respondenti sami nemění polohu. V reálných situacích se ovšem často pohybují nejen sledované cíle, ale i pozorovatel. Thomas a Seiffert (Thomas & Seiffert, 2010; Thomas & Seiffert, 2011) v sérii experimentů zjistili, že pokud respondent v průběhu sledování mění pozici (ať jde, či je pohybován ne vlastním přičiněním), přesnost sledování je ovlivněna – kapacita sledování se snížila o jeden objekt.
14
6 Vliv percepce pozadí v průběhu MOT Jak jsem již předestřel v úvodu, mým cílem je pokusit se propojit MOT – tedy v podstatě proces závislý na pozornosti – s vizuální percepcí, a zjistit, jaký má na MOT vliv vnímání pozadí. Tento faktor není v současné době podroben bádání; ve většině MOT experimentů je pozadí prázdné, jednolité a nejčastěji černé. To má své opodstatnění – docílí se tak právě nejmenší možný rušivý vliv pozadí na objekty; neboť je to i pozadí, které ovlivňuje, do jaké míry z něj objekty vystupují či vyčnívají (Desimone & Duncan, 1995). Na druhou stranu, situace, kdy jsou objekty od pozadí maximálně odlišené, se v běžné praxi příliš často nevyskytují – pozadí bývá více či méně členité. Proto je třeba zjistit, jakým způsobem pozadí samotné sledování ovlivňuje5. Různé vizuální vlastnosti pozadí mohou souviset s některými charakteristikami MOT a tím pozitivně nebo naopak negativně ovlivňovat přesnost sledování nebo maximální sledovatelný počet objektů – tedy základní měřítka výkonu při MOT. Experimentem pro svoji bakalářské práci (Mazanec, 2010) jsem zjišťoval, zda těmito charakteristikami nemůže být hustota okrajů, vnitřní kontrast jednotlivých grafických prvků pozadí, a také jejich tvar. Předpokládal jsem, že tyto charakteristiky se budou podílet na míře visual clutter pozadí. Visual clutter je stav, kdy přemíra položek, jejich reprezentace nebo organizace způsobují snižování, což vede k tomu, že nově přidané položky nepřitahují tolik pozornosti; důsledkem vysoké míry visual clutter je pak i horší výkonnost v určitých úkolech (Bravo & Farid, 2006; Rosenholtz, Li & Nakano, 2007). Mojí hypotézou bylo, že pozadí lišící se ve visual clutter (vyjádřeným výše zmíněnými třemi parametry), budou mít různý vliv na přesnost MOT – vysoká míra visual clutter povede k nižší přesnosti. Výsledky potvrdily, že již pouhá přítomnost pozadí má vliv na přesnost sledování, a navíc ukázaly, že především vyšší hustota okrajů a vyšší vnitřní kontrast přesnost negativně ovlivňují; při některých interakcích se nicméně objevil vliv opačný: byl-li vnitřní kontrast nízký, zvyšující se hustota okrajů nepůsobila negativně, stejně tak pokud se podoba pozadí sestávala z pravidelných tvarů, při interakci s vyšším kontrastem se přesnost tolik nesnižovala. Přestože tedy výsledky experimentu byly uspokojivé, těžko se z nich vyvozovaly nějaké obecné, netriviální zákonitosti a mechanismy. Abych dokázal MOT propojit s percepcí, musel jsem využít nějakého uceleného teoretického rámce; rozhodl jsem se tedy prozkoumat koncept visual saliency.
6.1 Visual saliency a MOT Naše pozornost je přitahována k vizuálně nápadným podnětům, neboť je pro nás – jako komplexní biologické systémy – důležité rychle detekovat předměty hodné zájmu, od potenciálních hrozeb přes možnou kořist až po partnery. Okolní svět je plný objektů a informací, ale simultánně zpracovávat tento neustávající proud dat a využívat tak všechny stimuly v reálném čase je příliš sofistikovaný úkol pro jakýkoliv biologický mozek (Tsotsos, 1995); odhaduje se, že množství informací proudící optickým nervem činí řádově 108 bit/s, tj. necelých 12 MiB/s (Itti & Koch, 2000). Následkem toho je v některém bodě mezi vstupem podnětů a odpovědí systému třeba rozhodnout, který z objektů v tomto vizuálním vstupu bude dále zpracováván. Tímto selektivním mechanismem je pozornost – ať už vyobrazována jako metaforický reflektor zvyšující zpracování osvětlené položky, nebo jako vynořující se vlastnost neurálních mechanismů, snažících se vyřešit, který z nich se bude moci ucházet o vizuální zpracování a kontrolu chování (Desimone & Duncan, 1995). Vizuální pozornost tedy sice řeší problém, jak se vyrovnat se zpracováním množství vnímaných dat, ale zároveň přináší další otázku: Pokud budu zpracovávat jeden objekt či lokaci, jakým způsobem je zvolit? Jednu z hypotéz, jak výpočetně modelovat vizuální pozornost, označuje Tsotsos (1995) jako hypotézu selektivního směrování (selective routing hypothesis), a patří do ní model Kocha & Ulmana (1985). Ten se sestává z následujících elementů a principů: 1. Prvotní reprezentace dovolující zvlášť znázornit několik charakteristik podnětu 2. Selektivní mapování těchto reprezentací na centrální netopografickou reprezentaci tak, že tato centrální reprezentace v jednom okamžiku obsahuje vlastnosti pouze jedné lokace vizuálního pole 3. Winner-take-all síť implementující proces selekce založený na jednom hlavním pravidle: nápadnosti lokace 4. Inhibice takto vybrané lokace způsobuje automatické přesunutí na další nejvíce nápadnou lokaci 5 Pro zjednodušení se budu zabývat pouze statickým pozadím.
15
Tento mechanismus pozornosti je tedy záložen na vizuální nápadnosti (visual saliency), a jeho jádrem je signál, vycházející ze vstupního podnětu bottom-up způsobem, a ukazující, kterou lokaci, dostatečně odlišnou od svého okolí, je vhodné podrobněji zpracovávat (Itti & Koch, 2000); příkladem takové nápadné lokace může být osamocený červený objekt, nacházející se v poli objektů zelených. Konkrétní implementací je pak model Ittiho & Kocha (Itti & Koch, 2000; Itti, Koch & Niebur, 1998), kterému se nyní budu věnovat podrobněji. Základem jsou 4 předpoklady, vycházející z těch Kocha & Ullmana (1985) uvedených výše: 1. Vizuální vstup je reprezentován ikonickými topografickými feature mapami. 2. Informace z těchto feature map je zkombinována do jediné mapy, která reprezentuje saliency každé lokace vzhledem k jejímu okolí 3. Maximum této saliency mapy je nejnápadnější lokací v daném čase, a determinuje umístění fokusu pozornosti. 4. Saliency mapa je doplněna vnitřní dynamikou umožňující vjemovému systému skenovat vizuální vstup tak, že různým lokacím je věnována pozornost podle jejich klesající nápadnosti. Feature mapy jsou generované pomocí lineárního filtrování z původního obrazu extrahovaných rysů (červené, zelené, modré a žluté barvy, intenzity a orientace) v devíti prostorových poměrech, vytvořených pomocí gaussovských pyramid. Každý rys je počítán v center-surround struktuře blízké vizuálním recepčním polím, díky čemuž je model citlivý nikoliv na amplitudu, ale na lokální prostorový kontrast. Center recepčního pole koresponduje pixelům na úrovních c = {2, 3, 4} gaussovské pyramidy, a surround pixelům na úrovních s = c + δ, δ = {3, 4}; celkem je tedy vygenerováno 42 feature map – na 6 úrovních (2– 5, 2–6, 3–6, 3–7, 4–7, 4–8) pro každý ze 7 rysů: intenzita, barevné kanály červená–zelená a modrá–žlutá, a čtyři orientace (0°, 45°, 90°, 135°); intenzita je počítána z jasu obrazu (tj. průměr všech tří barevných složek obrazu), barevné kanály jsou normalizovány podle intenzity, a orientace jsou počítány pomocí gaborova filtru rovněž z intenzity. Protože výsledkem má být topografická saliency mapa, je třeba jednotlivé feature mapy zkombinovat do jediné skalární míry nápadnosti. Tyto mapy však vycházejí z různých vizuálních modalit, které nemají porovnatelné veličiny; otázkou tedy je, jak např. 10° diskontinuitu v orientaci porovnat s 5% rozdílem kontrastu intenzity? Itty & Koch toto řeší normalizací feature map a jejich následnou iterativní konvolucí pomocí DoG filtru. Poté jsou mapy pro intenzitu, barvu a orientaci spojeny do tří oddělených conspicuity map, které jsou rovněž iterativně konvolovány, a sečteny do výsledné saliency mapy. Je ovšem třeba zdůraznit, že takto vytvořená mapa vychází pouze z bottom-up mechanismu, a nezahrnuje tudíž některé zdroje nápadnosti zapříčiněné top-down procesy (Gao& Vasconcelos, 2009); stejně tak nezahrnuje jako zdroj nápadnosti pohyb. Proč je nicméně pro účely tohoto výzkumu takový model postačující, zmíním později. Míra visual saliency v určité lokaci tedy určuje prioritu přidělování pozornosti. Jak ale tento winner-take-all přístup souvisí s MOT? Pokud je mi známo, žádný výzkum propojující nápadnost pozadí a MOT nebyl dosud vypracován. Mahadevan & Vasconcelos (2012) se ovšem zaměřili na ověření, zda výkon v MOT ovlivňuje právě nápadnost objektů, především těch cílových. Vycházejí z hypotézy, že sledování je založeno na modelu decision-theoretic saliency6 (Gao & Vasconcelos, 2009), a probíhá následujícím způsobem (Mahadevan & Vasconcelos, 2009): v každém snímku animace představuje diskriminace cíle od pozadí binární klasifikační problém; ze zásoby rysů popisujících cíle i pozadí je vybrána podmnožina těch, které jsou nejvíce informativní pro tuto klasifikaci; v dalším snímku je pozice cíle určena pomocí top-down saliency; model nicméně dovede využívat i bottom-up saliency pro identifikaci pohybujících se cílů. V experimentu, který navrhli po podpoření této hypotézy, nechali Mahadevan & Vasconcelos (2012) respondenty sledovat vždy jeden cíl mezi 70 distraktory. Cíl byl buď nápadný – to znamená, že byl zabarven odlišně od distraktorů –, nebo ne-nápadný – v tom případě se jeho barva v půlce sledování změnila na barvu distraktorů. Aby se zamezilo pop-out efektu, odlišně zabarvených bylo jen 7 nejbližších, zbytek měl náhodně přidělenu jednu ze dvou použitých barev. V dalších variantách experimentu byla manipulována míra podobnosti cílů a distraktorů, a vzdálenost stejně zbarvených distraktorů, Výsledky ukázaly, že nápadné cíle, tedy ty více odlišné od okolních objektů, jsou sledovány mnohem přesněji. To potvrzuje předpoklad, že nápadnost cílů má vliv na kapacitu MOT. Je třeba si ovšem uvědomit, že v tomto případě se jednalo o top-down saliency – respondenti museli vyhledávat specificky vypadající objekt; v tomto výsledky navazují na již dříve zmíněné studie o vlivu odlišnosti (viz kapitolu 4.2), a doplňují tak hypotézu, že identita objektů je uchovávána v pracovní paměti (Makovski & Jiang, 2009b; Pinto, Scholte & Lamme, 2012) o princip, jakým je tato informace využívána při samotném sledování. Mým cílem je ovšem prozkoumat vliv pozadí na sledování identických, nikoliv odlišných objektů, na nižší úrovni percepce s pomocí mechanismu bottom-up saliency. MOT je úkol náročný na pozornost, která je cílům flexibilně přidělována na základě parametrů sledování, jako jsou počet objektů, jejich rychlost či hustota (Alvarez & Franconeri, 2005; Alvarez & Franconeri, 2007; Holcombe & Chen, 2012; Vul et al., 2009). Bottom-up saliency popisuje, jak nápadné jsou jednotlivé oblasti vizuálního pole, a na základě toho určuje, která z oblastí nejdříve upoutá pozornost. Protože základem této saliency je odlišnost a kontrast určitých rysů lokace proti jejímu okolí, domnívám se, že ji lze použít nejen ve winner-take-all přístupu, ale i ke zjišťování, jak snadno a rychle je určitá pozice od svého okolí odlišitelná – podobně jako to navrhují Mahadevan & Vasconcelos (2009), ovšem v bottom-up směru. A nadto, MOT je paralelní proces umožňující zaměřit pozornost na více různých míst (Cavanagh & Alvarez, 2005), a tak lze předpokládat, že 6 „Nápadnost rysů dané lokace ve vizuálním poli je definována jako síla těchto rysů rozlišovat mezi podnětem dané lokace a nulovou hypotézou. Pro bottom-up saliency je touto hypotézou množina rysů obklopující danou lokaci.“ (Gao& Vasconcelos, 2009)
16
saliency každého z těchto míst je v průběhu vizuálního zpracovávání důležitá. Jestliže sledování pohybu objektů spočívá v měření jejich polohy a vyřešení problému korespondence s předchozím časovým okamžikem, objekty, které jsou méně nápadné oproti svému pozadí, se tudíž hůře lokalizují. Pokud by platil model Vula et al. (2009) (viz kapitola 4.1), omezení přesnosti sledování je důsledkem nejistoty způsobené nepřesným měřením polohy objektů; nebo jinými slovy, pokud má být přesnost měření polohy objektů zachována, musí jím být alokováno více zdroje, což ovšem vede ke snížení kapacity MOT.
6.2 Hypotézy Tvrdím tedy, že přesnost sledování objektů v průběhu MOT je ovlivněna jejich nápadností oproti jejich pozadí. Objekty, které jsou méně nápadné, lze úspěšně sledovat pouze za vynaložení více zdrojů; jinými slovy, nenápadných objektů lze sledovat, při konstantnosti ostatních podmínek, méně než nápadných. Na základě těchto předpokladů navrhuji tyto nulové hypotézy: 1. Nápadnost objektů oproti pozadí nemá vliv na přesnost sledování. 2. Počet cílů spolu s nápadností objektů proti pozadí nemají vliv na přesnost sledování. Tyto hypotézy jsem ověřoval experimentem, který popíšu v následující kapitole.
17
7 Metoda 7.1 Vzorek Výzkumu se zúčastnilo celkem 356 osob, z toho 193 žen (54,2 %). Věk účastníků se pohyboval mezi 14–58 lety (M = 23,778; SD = 4,529). Výběr respondentů probíhal dvěma způsoby: uveřejněním žádosti o účast na sociální síti Facebook, a rozesláním obdobné žádosti pomocí e-mailu náhodně vybraným studentům Masarykovy univerzity. Prvním způsobem bylo osloveno přibližně osob 1955 osob7. 425 z nich si otevřelo internetovou experimentální aplikaci, která sloužila ke sběru dat (je popsána dále v kapitole 7.2), a 177 z nich experiment dokončilo; návratnost tedy činila 9,05 %. Druhým způsobem bylo osloveno 800 osob, z nichž 347 z nich si otevřelo experimentální aplikaci a 179 experiment dokončilo. Návratnost v tomto případě činila 22,38 %8, a celková návratnost 12,92 %. Účast ve výzkumu byla dobrovolná a bez jakékoliv odměny. Do výsledné analýzy bylo nakonec zahrnuto pouze 298 osob; někteří respondenti byli vyřazeni, neboť průběhu jejich experiment vykazoval určité anomálie, které ohrožovaly validitu výzkumu (důvody jsou blíže popsány v kapitole 8). Z toho finálního vzorku bylo 152 žen (51,0 %), věk se pohyboval mezi 14–51 lety (M = 23,782; SD = 4,189). Sběr dat přes internet s sebou pochopitelně přinesl určité metodologické problémy. Protože zkoumané osoby pracovaly samostatně na různých místech, nelze pokládat podmínky, za kterých experiment proběhl, za plně standardizované. Výkon respondentů mohla ovlivnit řada vnějších faktorů. Především, velikosti zobrazovacích zařízení se nepochybně lišily. Přestože jsem mohl změřit tuto velikost v pixelech, přesný údaj o fyzické velikosti zjistitelný nebyl. Důsledkem je, že předpokládaná hustota pixelů 96 ppi nemusela odpovídat hustotě skutečné. Stejně tak se nemohu spolehnout na to, že respondenti přesně splnili instrukci, že mají dodržovat pozorovací vzdálenost 50 cm. Vizuální úhly, kterým respondenti sledovali jednotlivé objekty v experimentu, tedy nebyly jednotné. Na druhou stranu, protože nemám důvod domnívat se, že by odchylky v pozorovacích úhlech byly zkreslené systematicky, předpokládám, Tabulka 1 Kategorie proměnné Dosažené vzdělání Dosažené vzdělání
N
%
Základní vzdělání, nebo nedokončené základní vzdělání
5
1,7%
Střední vzdělání, bez maturity
3
1,0%
175
58,7%
2
0,7%
Vysokoškolské vzdělání, bakalářské studium
76
25,5%
Vysokoškolské vzdělání, magisterské studium, nebo vyšší
37
12,4%
Střední vzdělání, s maturitou Vyšší odborné vzdělání
7 Facebook nezobrazuje přesný počet lidí, kteří viděli určitý příspěvek; odhadl jsem ho tedy na základě počtu přátel a followerů všech, kteří tento příspěvek se žádostí o účast na experimentu sdíleli. 8 Je jistě pozoruhodné, že rozdíl mezi návratnostmi je tak velký. Může to být způsobeno tím, že e-mail je osobnější než příspěvek na Facebooku. Možné také je, že vyhovění výzvě v e-mailu je cílevědomější rozhodnutí, než kliknutí na jeden odkaz z mnoha – neboť na sociální sítí má člověk mnohem víc možností, jak se „zabavit“.
18
že přispívají do rozptylu chyby měření. Přesto jsem se aspoň část této chyby pokusil změřit tím, že jsem se respondentů dotazoval na fyzickou velikost jejich zobrazovacího zařízení. Co se týče dalších vlivů okolí, myslím si, že MOT jako úloha náročná na pozornost vyžadovala od zkoumaných osob takovou míru soustředění, že oproti laboratornímu prostředí nemusely být výsledky zkresleny rušením a rozptýlením. Pro jistotu jsem se respondentů rovněž dotazoval na to, zda byli vyrušeni, a navíc jsem měřil časy, v jakých experimentem procházeli, a jak dlouho jim trvaly fáze jednotlivých pokusů. Přestože je tedy internetový sběr dat nepochybně méně reliabilní než sběr v laboratorních podmínkách, domnívám se, že je to vyváženo vyšší ekologickou validitou, a především menší nákladností; díky provedení výzkumu přes internet jsem mohl oslovit a využít řádově větší množství respondentů, což bylo nutné pro robustnost statistického modelu. U zkoumaných osob byly dále kromě věku a pohlaví zjišťovány i další proměnné: 1. Nejvyšší dosažené vzdělání 2. Zda někdy pracovali v řízení letového provozu, jako operátor radiolokátoru či v podobné profesi, neboť u těchto profesí byl zjištěn vliv na výkon v MOT (Allen et al., 2004; Cavanagh& Alvarez, 2005) 3. Zda mají nějakým způsobem narušené normální vidění 4. Kolik hodin týdně v průměru hrají počítačové hry, neboť u hráčů byl rovněž zjištěn vyšší výkon v MOT (Green & Bavelier, 2006) Nejvyšší dosažené vzdělání zkoumaných osob shrnuje tabulka 1; většina respondentů, 175 (58,7 %) měla maturitu. Dva z respondentů někdy pracovali v některé z výše uvedených specifických profesí. Průměrná doba hraní počítačových her týdně se pohybovala mezi 0–50 hodinami (M = 3,193; SD = 6,376). Na základě těchto údajů se domnívám, že výsledy výzkumu lze spolehlivě vztahovat na část populace ČR ve věku zhruba 19–35 let, která dosáhla alespoň středního vzdělání s maturitou. Protože ovšem MOT závisí na základních kognitivních procesech (Pylyshyn & Storm, 1988; Scholl, 2009), myslím si, že výsledky lze zobecnit na populaci mnohem širší, kromě dětí a starších lidí, u kterých se projevuje vliv věku na schopnost maximální koncentrace pozornosti (Trick, Perl & Sethi, 2005; Trick, Jaspers-Fayer & Sethi, 2005).
7.2 Experimentální aplikace Podnětový materiál byl zkoumaným osobám zobrazen pomocí speciální experimentální aplikace běžící v běžném webovém prohlížeči9, sestávající se ze 4 na sebe navazujících částí: úvodní instrukce → trénink → experiment → dotazník. Aplikace je naprogramovaná pomocí běžných webových technologií (HTML5 a Javascript), a je tedy nezávislá na operačním systému, na kterém ji respondenti spouštěli.
7.2.1 Úvodní instrukce Při spuštění aplikace se rovnou zobrazily úvodní instrukce, a do prohlížeče respondenta byla uložena cookie s identifikátorem ve standardu UUID10 verze 4. Tato cookie ovšem nemůže být využita k přesné identifikaci respondenta, neboť se jedná o náhodný řetězec znaků; slouží k tomu, aby mohlo být zaznamenáno vícenásobné spuštění aplikace, a všechna nasbíraná data byla přiřazena správnému subjektu. Úvodní instrukce obsahovaly informace o účelu aplikace, tj. sběr dat pro výzkum sledování pohybu více objektů. Experiment byl popsán jako sledování několikasekundových animací, bez upozornění na to, že je zkoumán vliv pozadí. Respondenti byli ujištěni, že výzkum je anonymní. Součástí instrukcí bylo rovněž vybídnutí k následování pokynů, průběžně vypisovaných v průběhu experimentu. Zdůrazněna byla nutnost dívat se na obrazovku kolmo ze vzdálenosti 50 cm. Pokud velikost okna prohlížeče neposkytovala aplikaci prostor o velikost alespoň 1000 × 400 pixelů, respondent o tom byl informován, ale nemohl pokračovat.
9 Aplikaci si lze prohlédnout na adrese http://mot.php5.cz 10 UUID, universally unique identifier, je řetězec 36 znaků – 32 hexadecimálních číslic a 4 spojovníků. Verze 4 využívá schéma spoléhající pouze na náhodná čísla, a má formát xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx, kde x je hexadecimální číslo, a y je 8, 9, a, nebo b (tedy např. 3e43ab83-6872-4dae-b26c-cad2954c187b). Pravděpodobnost, že budou vygenerována dvě stejná UUID je prakticky nulová; pokud bychom generovali miliardu UUID každou sekundu po dobu 100 let, pravděpodobnost vytvoření jediného duplikátu by byla 50 %, což je mnohonásobně nižší šance, než např. riziko, že bude člověk v průběhu jednoho roku zasažen meteoritem (Vara, 1994).
19
7.2.2 Trénink V tréninkové části si zkoumané osoby vyzkoušely, jak MOT probíhá. Každý jeden MOT pokus se skládal z obvyklých fází: začátek → ukázání cílových objektů → pohyb objektů a sledování → vybrání cílových objektů → zpětná vazba o úspěšnosti sledování. Na začátku se prohlížeč přepnul do fullscreen módu (pokud to umožňoval) a na obrazovce se objevil určitý počet objektů. Tyto objekty měly tvar kruhu, výplň bílé barvy (RGB kód #FFFFFF), velikost 1°11, nacházely se na černém pozadí (RGB kód #000000) a jejich rozmístění bylo náhodné, ovšem omezené tak, aby vzdálenost mezi objekty byla alespoň 1°, a objekty se nenacházely více než 4° od okraje obrazovky. Jakmile respondent stiskl tlačítko potvrzující, že je připraven, cíle – náhodně vybrané ze všech objektů – změnily barvu na žlutou (RGB kód #FFD70D) a začaly blikat frekvencí 2 Hz. Počet cílů byl vždy polovinou ze všech objektů, a rovnal se tedy počtu distraktorů. Blikání trvalo 5 sekund, poté ustalo a všechny cíle se obarvily zpět na bílou, aby nebyly od distraktorů odlišitelné. Po další 0,5 sekundě zmizel kurzor a objekty se začaly pohybovat. Fáze pohybu objektů trvala vždy 8 sekund, a probíhala podle dynamiky, kterou lze popsat podle následujících rovnic: = vxt vxt −1 + dwxt = v yt v yt −1 + dw yt = x x −1 + dvxt = y y −1 + dv yt
w xt ~ N ( 0 , sw )
w yt ~ N ( 0 , sw )
kde x a y jsou pozice a vx a vyrychlost objektu v čase t; wt je náhodný akcelerační šum přidaný v každém snímku animace, distribuovaný podle normálního rozložení se směrodatnou odchylkou sw, jejíž hodnota byla vždy počet pixelů odpovídající 20°; d je čas v sekundách, který uplynul mezi okamžikem t a t – 1; hodnota d se měnila podle toho, jak rychle prohlížeč stíhal aplikaci vykreslovat. Pokud by nebylo dosaženo překreslování každou šedesátinu sekundy (zamýšlený framerate byl 60 fps), vyšší hodnota d zajistila, aby se neměnila průběžná rychlost objektů. Dynamika pohybu objektů tedy byla v základě Wienerův proces, ovšem omezený dalšími dvěma pravidly: 1. Pokud by se nová pozice objektu měla nacházet blíže než 4° od okraje obrazovky, vt bylo navíc vynásobeno konstantou −0,2. 2. Pokud by nová pozice objektu byla taková, že by se objekt protínal s jiným objektem, vt bylo navíc vynásobeno konstantou −0,2. K druhé restrikci jsem přistoupil z toho důvodu, aby překrýváním objektů nebyla snižována přesnost sledování (Franconeri, Jonathan & Scimeca, 2010; Bae & Flombaum, 2012), což by byl rušivý jev, který by mohl eliminovat jakýkoliv případný vliv saliency. V průběhu fáze pohybu se desetkrát v pravidelných intervalech ukládala pozice všech objektů; tyto pozice byly využity při výpočtu saliency (viz kapitola 7.3.4). Jakmile se objekty zastavily, opět se objevil kurzor a respondent vybral cíle, tj. objekty, které v označovací fázi blikaly. Protože jsem nemohl nijak zjistit, zda zvolil objekty skutečně správně sledované, bylo nutné vybrat takový počet objektů, kolik bylo v daném pokusu cílů. Moje úvaha byla takováto: představme si situaci, že pozorovatel zvládne sledovat pouze čtvrtinu cílů; někteří jedinci poslechnou pokyn, aby cíle neodhadovali, a zvolí jen tuto čtvrtinu, o které jsou si zcela jisti. Jiní ovšem vyberou i objekty jiné, ať už proto, že se domnívají o správnosti takového rozhodnutí, či prostě jen tipují bez ohledu na instrukci. Tím, že jsem donutil všechny zkoumané osoby hádat, jsem vyrovnal šance na správné označení objektů. Poté, co respondent potvrdil stisknutím tlačítka svůj výběr, cíle se orámovaly žlutou barvou. Tím byla zajištěna zpětná vazba; porovnáním vybraných objektů a skutečných cílů mohl respondent reflektovat svůj výkon, a byl tak nepřímo motivován pokračovat v experimentu a třeba se i v jeho následujícím postupu zlepšit. Zároveň aplikace na server uložila data o průběhu pokusu: ID pokusu (v podobě UUID), všechny jeho parametry (zda šlo o trénink či ne, počet cílů a distraktorů, a použité pozadí); uložené pozice objektů; počet správně označených cílů; doba, jak dlouho trvalo respondentovi, než pokus odstartoval, jak dlouho vybíral cíle a jak dlouho se díval na zpětnou vazbu; přesný čas dokončení pokusu; velikost prostoru, na kterém se sledování odehrálo (a který byl pochopitelně závislý na konkrétním rozlišení obrazovky či velikosti okna prohlížeče); a minimální a maximální dosažený framerate. Dalším stisknutím tlačítka pokus skončil, a objevil se pokus nový, opět v počáteční fázi. Trénink se sestával z celkem tří pokusů; v prvním se nacházely 2 cíle, ve druhém 4 a ve třetím 6. Stoupající obtížnost měla zajistit, aby si účastníci plynule zvykli na zátěž, kterou MOT představuje; tím se i částečně omezil vliv zácviku – zvládnout MOT je zpočátku jednoduché, a postačí právě takovýto trénink; ovšem výrazně zvýšit výkonnost vyžaduje mnohonásobně 11 Všechny vizuální stupně se přepočítávaly na pixely tak, jakoby pozorovací vzdálenosti byla 50 cm a hustota pixelů 96 ppi.
20
delší dobu pravidelného sledování MOT (Green & Bavelier, 2006). Testeři aplikace potvrdili, že tři pokusy byly dostatečné, aby princip MOT pochopili. V první verzi aplikace se uprostřed obrazovky nacházel fixační křížek, a respondenti byli instruování se v průběhu sledování dívat pouze na něj. Testeři aplikace si ovšem stěžovali, že toto subjektivně snižuje přesnost sledování. Protože lidé jsou schopni sami využívat strategie vedoucí k co nejlepšímu výsledku, jako je např. pozorování prostoru mezi cíli (Fehd & Seiffert, 2008), a bez využití eye-trackingu jsem stejně neměl jak ověřit, zda respondenti plnili pokyn, fixační křížek byl ve finální verzi aplikace odstraněn.
7.2.3 Experiment Když trénink skončil, byl respondent upozorněn, že následuje dalších devět, tentokrát již experimentálních, sledování. Těchto devět pokusů se lišilo počtem cílů a zobrazeným pozadím – zatímco pozadí v tréninku bylo čistě černé, v experimentu samotném mělo v každém pokusu vždy jinou grafickou podobu (viz kapitolu 7.3.3). Experimentální pokusy jinak probíhaly totožně jako ty tréninkové.
7.2.4 Dotazník Po celkem 12 pokusech byla zkoumaná osoba požádána o vyplnění formuláře, který obsahoval 8 otázek; tři se týkaly základních demografických proměnných (věk, pohlaví a dosažené vzdělání), zbylé proměnných, které mohly ovlivnit výkon v MOT (zda byl respondent vyrušen, zda má nějaký problém ovlivňující normální vidění, kolik hodin týdně v průměru hraje počítačové hry, jak velký je jeho monitor či displej). Respondent rovněž mohl připojit svůj komentář či poznámku k výzkumu, a pokud chtěl být informován o výsledcích celého výzkumu, tak i e-mail. Ten se ukládal odděleně od ostatních dat, a nemohl tak být využit k jednoznačné identifikaci. Po stisknutí formuláře aplikace uložila vložené údaje na server, a zobrazila respondentovu úspěšnost v jednotlivých dvanácti pokusech, včetně jejich průměru. Tuto finální zpětnou vazbu jsem zařadil až na úplný konec, aby motivace respondenta zjistit, jak si celkově vedl, ho přiměla formulář vyplnit – pokud by snad již byl experimentem znuděn.
7.3 Operacionalizace proměnných Parametry experimentu a data v něm nasbíraná sloužily k definování řady proměnných; následující kapitoly obsahují podrobný popis jejich operacionalizace. Hlavními proměnnými jsou: 1. Počet cílů (nezávislá proměnná) 2. Poměr nápadnosti (nezávislá proměnná) 3. Očekávaný poměr (závislá proměnná)
7.3.1 Počet cílů a distraktorů Proměnné Počet cílů a Počet distraktorů jsou definovány na základě parametrů MOT; protože v každém pokusu, který respondenti sledovali, byl počet cílů i distraktorů stejný, relevantní je pouze proměnná Počet cílů; ta mohla nabývat hodnot z celočíselného intervalu [1; 6]. Cíle byly ty objekty, které na počátku každého pokusu blikaly.
7.3.2 Poměr správně určených cílů a očekávaný poměr správně určených cílů Poměr správně určených cílů určitého pokusu je úspěšnost daného pokusu, určená dle vzorce p=
m n
kde n je počet cílů; a m je počet objektů, které respondent označil po skončení sledování jako cíle a které jimi zároveň skutečně byly, tj. jde o počet správně vybraných cílů. Je nutné si ovšem uvědomit, že respondent mohl – a v určitých konkrétních případech zcela jistě i musel – cíle hádat (protože po skončení pokusu vždy musel vybrat přesně tolik objektů, kolik bylo cílů), a tudíž objekty správně označené nemusel 21
doopravdy sledovat po celou dobu trvání pokusu. Vhodnější je tedy použití Očekávaného poměru správně určených cílů (dále jen Očekávaný poměr), který Hulleman (2005) vypočítává vzorcem p=
m+
( n − m )2 2n − m n
kde n je počet cílů; a m je počet správně vybraných cílů. Očekávaný poměr je předpokládaná úspěšnost, ke které by se respondent svým výkonem přibližoval, pokud by konkrétní variantu pokusu opakoval; představme si, že v určitém pokusu musí sledovat 4 cíle, ovšem pokus je (díky ostatním parametrům) natolik obtížný, že není schopen sledovat ani jeden. Vždy se však může pokusit cíle uhádnout, a protože tyto tvoří polovinu všech objektů, má 50% pravděpodobnost, že se trefí, což odpovídá hodnotě 0,5 Očekávaného poměru. Pokud by respondent zvládal sledovat dva cíle, musel by hádat již jen dva, a v dlouhodobém měřítku by měl 66% úspěšnost, atp. Pro větší přehlednost statistické analýzy byla hodnota Očekávaného poměru navíc převedena na procenta.
7.3.3 Pozadí Vizuální podoba pozadí může v praxi nabývat nekonečného množství variant, a proto je pochopitelné, že jsem musel pro potřeby výzkumu učinit několik zásadních zjednodušení. Především, barvy pozadí měly nulovou sytost, a protože objekty byly bílé, odstranil jsem tak vliv barvy na výslednou nápadnost; budu-li tedy dále hovořit o barvě, mám tím na mysli odstíny šedé. Pozadí se skládala vždy ze dvou vrstev; první vrstvu tvořila jednolitá barva, vrstvu druhou pravidelně rozmístěné grafické elementy. Tyto elementy nabývaly dvou tvarů: kruhu a kosočtverce; a 4 velikostí: 0,5°, 1°, 2°, a 4°. Dalších 6 variant vzniklo barevnými kombinacemi obou vrstev (v RGB hexadecimálním formátu): #000000 a #3b3b3b, #000000 a #919191, #000000 a #e1e1e1, #3b3b3b a #919191, #3b3b3b a #e1e1e1, #919191 a #e1e1e1. Celkem jsem tedy předgeneroval 48 obrázků pozadí (viz přílohu XXX) na základě kombinací těchto tří parametrů. Protože objekty měly bílou barvu, je zjevné, že budou nejméně nápadné, pokud se elementy pozadí budou svým tvarem, barvou a kontrastem oproti první vrstvě blížit vzhledu objektů. Protože cílem výzkumu nebylo zjistit vliv podoby konkrétního pozadí na MOT, na této podobě přímo nezáleží; pozadí jsem volil tak, aby saliency objektů (jejíž operacionalizaci popíšu v následující kapitole) nabývala co nejrůznějších hodnot.
7.3.4 Saliency Součástí mých hypotéz je koncept nápadnosti objektů oproti jejich pozadí. Ovšem jak připomínají Kazanovich & Borisyuk (2006), modely vizuální pozornosti, mezi které patří i různé modely visual saliency, patří mezi konekcionistické – jsou implementované pomocí modifikace vah spojení v hierarchické neuronové sítí. Takové modely jsou poněkud nepraktické v případě pohybujících se objektů, neboť sítě pracují v prostoru vizuálního pole a pro každou novou pozici objektu je potřeba všechna spojení přepočítat. Abych snížil tuto výpočetní náročnost, uchýlil jsem se k určitému zjednodušení. Jak jsem zmínil v kapitole 7.2.2, v průběhu sledování jsem desetkrát v pravidelných intervalech uložil pozice všech objektů. Při zpracovávání nasbíraných dat jsem tak mohl pro všechny pokusy zrekonstruovat deset snímků, zachycujících celou pozorovanou scénu v jednom okamžiku tak, že na pozadí použité v pokusu jsem dle uložených pozic vykreslil všechny cíle i distraktory. Z každého snímku jsem pak spočítal saliency mapu (viz obr); k výpočtu jsem použil implementaci12 původního algoritmu Ittyho & Kocha (2000) vytvořenou Harelem (2012), která je rychlejší a přesnější ( Judd, Durand, & Torralba, 2012). Z těchto saliency map jsem získal Poměr nápadnosti dle následujícího vzorce r=
1 K Sk ( O ) ∑ K k=1 Sk ( B )
kde Sk(O) je aritmetický průměr hodnot saliency pixelů O patřících objektům ve snímku k; Sk (B) je aritmetický průměr hodnot saliency pixelů B patřících pozadí ve snímku k; K je počet snímků (vždy rovno 10). Poměr nápadnosti tedy vyjadřuje, kolikrát jsou objekty nápadnější než jejich okolí. Nápadnosti objektů samozřejmě variovala snímek od snímku (někdy se více objektů vyskytlo u sebe, což vedlo k nápadnějšímu shluku pixelů, či objekt překryl grafický element na pozadí, čímž kolem něj vzniklo více kontrastního „volného místa“, apod.), ale simulace ukázaly velmi malý rozptyl, a proto se domnívám, že se jedná o vcelku dobrou aproximaci. 12 Napsanou pro Matlab; já jsem ji využíval verzi 7.12.2 (R2011a) (The MathWorks Inc., 2011).
22
Nevýhodou samozřejmě je zanedbání vliv pohybu na nápadnost objektů – i kdyby grafické elementy pozadí vypadaly zcela identicky jako objekty, tím, že by se objekty pohybovaly, by byly postřehnutelné. Toto zanedbání nicméně nepovažuji za zásadní; všechny objekty se chovaly podle stejné dynamiky, a tudíž by vliv pohybu na nápadnost byl neměnný. Uvažoval jsem, zda do Poměru nápadnosti nezahrnout pouze saliency pixelů cílů; tuto myšlenku jsem ovšem posléze zavrhnul, a to protože mě zajímala bottom-up saliency, a domnívám se, že při rozlišování mezi cíli a distraktory je používán mechanismus top-down saliency (Mahadevan & Vasconcelos, 2012). Navíc v případě tohoto experimentu na tom příliš nezáleželo – hodnoty nápadnosti byly pro cíle i distraktory prakticky stejné.
7.3.5 Velikost prostoru Protože experimentální aplikace byla spouštěná na různých zobrazovacích zařízeních, a protože respondent mohl změnit velikost svého prohlížeče, ukládal jsem po skončení každého pokusu rozměry plochy, na které sledování probíhalo; pohyb objektů byl omezen těmito rozměry, a tím i hustota objektů – na větší obrazovce se snížil interobject crowding; ten má vliv na přesnost sledování (Franconeri, Jonathan & Scimeca, 2010), a proto jsem ze zjištěných rozměrů plochy rozhodl vypočítat proměnnou Velikost prostoru dle vzorce s=
wh 10 3
kde w a h je šířka a výška plochy ve vizuálních úhlech.
7.3.6 Framerate Přestože experimentální aplikace byla nastavená tak, aby se překreslovala šedesátkrát za sekundu, bylo možné, že se skutečný framerate lišil; jeho hodnotu jsem počítal vzorcem ft =
1 9 1 ∑ 9 i=0 dt −i
kde ft je hodnota framerate v čase t; a dt je doba v sekundách, která uplynula mezi časem t a t– 1 (kdy nastaly dvě po sobě jdoucí překreslení). Jedná se tedy o průměr hodnot framerate vždy z posledních deseti snímků. Protože jediný náhlý pokles framerate může způsobit změnu plynulosti pohybu objektů, což negativně ovlivňuje přesnost sledování (Keane & Pylyshyn, 2006), důležité bylo minimum z průběhu celého sledování v jednom pokusu; toto minimum tak určovalo hodnotu proměnné Minimální framerate.
7.3.7 Časy Jak jsem již zmínil v kapitole 7.2.2, experimentální aplikace rovněž ukládala několik časů, které šlo využít k popsání toho, jak respondent experimentem procházel: 1. Doba do začátku sledování byla doba v sekundách, kterou respondentovi trvalo, než kliknul na tlačítko, které odstartovalo fázi ukázání cílových objektů; jednalo se tedy o délku trvání počáteční fáze pokusu. 2. Délka vybírání cílů byla doba, kterou respondentovi trvala fáze vybírání cílových objektů. Tato proměnná je důležitá, neboť při MOT je možné, že pokud pozorovatel vybírá cíle příliš dlouho, zapomene jejich umístění – a tedy přestože mohl některé cíle správně sledovat, již neví, které objekty to jsou, a je nucen hádat. 3. Délka zpětné vazby byla délka trvání fáze zpětné vazby, tedy jak dlouho se respondent díval, kde se spletl, a které objekty byly skutečně cíle. 4. Čas dokončení pokusu je přesný okamžik, kdy skončila fáze pohybu objektů a sledování.
7.3.8 Dotazníkové proměnné Tyto proměnné, popsané v kapitolách 7.1 a 7.2.4, byly měřené dotazníkem po skončení experimentu; hodnoty, které mohl respondent uvést, měly určitá omezení: 1. Věk – celé číslo větší než 0 23
2. 3. 4. 5. 6. 7. 8.
Pohlaví – muž; nebo žena Dosažené vzdělání – základní vzdělání, nebo nedokončené základní vzdělání; vyučení v oboru; střední vzdělání, bez maturity; střední vzdělání, s maturitou; vyšší odborné vzdělání; vysokoškolské vzdělání, bakalářské studium; vysokoškolské vzdělání, magisterské studium, nebo vyšší Vyrušení – ne; ano Narušení vidění – ne; ano Specifická profese – ne; ano Hodin hraní týdně – celé číslo větší než 0 Velikost obrazovky – malá – do 16″; střední – 17″ až 23″; velká – 24″ a více
7.4 Design Každý respondent v průběhu experimentu sledoval 3 tréninkové a 9 experimentálních pokusů, přičemž aplikace manipulovala se dvěma proměnnými: Počtem dílů a Pozadím. Protože existovalo 288 kombinací hodnot těchto dvou proměnných, žádný z respondentů nemohl sledovat všechny pokusy, které mohla aplikace potenciálně vygenerovat. Hodnoty Počtu cílů i Pozadí jsem proto rozdělil do tří skupin; tyto 3 × 3 skupiny odpovídaly 9 experimentálním pokusům – pro každý z nich aplikace náhodně vybrala jednu hodnotu každé proměnné z příslušné skupiny. Skupiny a hodnoty Počtu cílů byla následující: 1. 1, nebo 2 cíle 2. 3, nebo 4 cíle 3. 5, nebo 6 cílů Pozadí jsem rozdělil do skupin podle použitých barev, neboť ta měla dle simulací největší vliv na následnou hodnotu saliency; skupiny a hodnoty byly tedy následující: 1. Varianty pozadí používající barvy kombinace barev #000000 a #3b3b3b, a #3b3b3b a #919191 2. Varianty pozadí používající barvy kombinace barev #000000 a #919191, a #919191 a #e1e1e1 3. Varianty pozadí používající barvy kombinace barev #000000 a #e1e1e1, a #3b3b3b a #e1e1e1 Poté, co aplikace vygenerovala 9 experimentálních pokusů, promíchala jejich pořadí pomocí Fisher–Yatesova algoritmu13; toto náhodné promíchání tak omezilo případný efekt pořadí pokusů.
13 Množina pokusů T = {1; 2; 3; 4; 5; 6; 7; 8; 9} tak byla přeskládána např. na T = {4; 9; 7; 5; 3; 2; 1; 8; 6}
24
8 Výsledky Na nasbíraných a zpracovaných datech jsem testoval následující nulové hypotézy: 1. Nápadnost objektů oproti pozadí nemá vliv na přesnost sledování. 2. Počet cílů spolu s nápadností objektů proti pozadí nemají vliv na přesnost sledování. Data jsem před samotnou statistickou analýzou upravil: od každého respondenta jsem počítal pouze první sérii sledování – pokud respondent několikrát zopakoval tréninkové pokusy, nevadilo to, ale 9 experimentálních pokusů musel vykonat v řadě; rovněž, pokud Doba do začátku sledování nebo Délka zpětné vazby byla vyšší než tři minuty, a Délka vybírání cílů vyšší než minuta, byl příslušný pokus vyřazen; dále jsem vyřadil ty pokusy, u nichž došlo ke kritickému snížení framerate, tj. pokud hodnota Minimálního framerate klesla pod 24. Žádný respondent neuvedl, že by byl v průběhu sledování vyrušen – tato proměnná tedy nebyla dále relevantní. V průměru tak bylo od každého respondenta použito 8,567 pokusů; protože nepředpokládám, že výše uvedené hodnoty proměnných, na základě kterých jsem pokusy vyřazoval, spolu nějak systematicky souvisely, nedomnívám se, že toto vyřazení bude mít vliv na výsledky. K analýze jsem použil linear mixed model14, metodou odhadu maximum likelihood. Závislou proměnnou byl Očekávaný poměr, nezávislými proměnnými – sloužícími k ověření hypotéz – Počet cílů a Poměr nápadnosti; do modelu byly rovněž zařazeny všechny potenciálně intervenující proměnné: Velikost prostoru, Věk, Pohlaví, Dosažené vzdělání, Specifické povolání, Narušení vidění, Hodin hraní týdně, Velikost obrazovky. U intervalových proměnných, jsem ověřil multikolinearitu (viz tabulku 2); žádná z hodnot tolerance či VIF nepřesáhla nepřípustnou hodnotu; všechny tolerance jsou vyšší než 0,9 a žádná VIF není vyšší než 1,1. Do prvotního modelu jsem zařadil všechny výše zmíněné proměnné jako fixed effects; jako random effect jsem zvolil intercept a seskupení statistických jednotek (jednotlivých pokusů) dle respondentů. Výsledky (viz tabulku 3) ukázaly signifikantní vliv pouze proměnných Počet cílů, F(1; 2338,658) = 2271,721, p < 0,001 a Pohlaví, F(1; 285,444) = 6,071, p = 0,014. BIC mělo hodnotu 18920,713. Na základě těchto výsledků jsem z modelu vyřadil proměnné Věk, Dosažené vzdělání, Specifické povolání, Narušení vidění, Hodin hraní týdně a Velikost obrazovky, a přidal interakci Počet cílů × Poměr nápadnosti (důležitou pro ověření druhé hypotézy). Ve druhém modelu tak byly jiné fixed effects: Počet cílů, Poměr nápadnosti, Velikost prostoru, pohlaví a Počet cílů × Poměr nápadnosti; random effect zůstal beze změny. Analýza tentokrát ukázala signifikantní vliv všech proměnných (viz tabulku 4): Tabulka 2 Kolinearita proměnných Počet cílů, Poměr saliency, Velikost prostoru, Věk a Hodin hraní týdně
Statistiky kolinearity Tolerance
VIF
Počet cílů
0,926
1,080
Poměr saliency
0,924
1,083
Velikost prostoru
0,914
1,095
Věk
0,948
1,055
Hodin hraní týdně
0,930
1,075
14 Výpočty byly provedeny pomocí IBM SPSS Statistics 21 (IBM Corp., 2012).
25
Počet cílů, F(1; 2425,782) = 1161,612, p < 0,001, Poměr nápadnosti, F(1; 2484,662) = 36,883, p < 0,001, Velikost prostoru, F(1; 290,481) = 4,818, p = 0,029, Pohlaví, F(1; 285,512) = 8,963, p = 0,003, Počet cílů × poměr nápadnosti, F(1; 2462,007) = 78,456, p < 0,001. BIC mělo hodnotu 18771,918, arozdíl −2LL mezi tímto druhým a předchozím modelem byl významný, χ2(10) = 70,345, p < 0,001. Všechny odhady parametrů fixed effects modelu byly významné (viz tabulku 5): Počet cílů, b = -7,008, t(2425,782) = -34,082, p < 0,001, Poměr nápadnosti, b = -0,430, t(2484,662) = -6,073, p < 0,001, Velikost prostoru, b = 1,514, t(290,481) = 2,195, p = 0,029, Pohlaví (muž), b = 1,294, t(285,512) = 2,994, p = 0,003, Počet cílů× Poměr nápadnosti, b = 0,247, t(2462,007) = 8,858, p < 0,001. I odhad rozptylu interceptu náhodného efektu (viz tabulku 6) byl signifikantní, var = 2,454, χ2(1) = 2,288, p = 0,022. Rozložení reziduí modelu (viz grafy 1 a 2) se zdá být zhruba normální, a stejně tak jejich homoskedasticita vypadá v pořádku (viz ograf 3). Protože nemám důvod domnívat se, že mezi parametry fixed effects modelu a závislou proměnnou neexistuje lineární vztah, domnívám se, že model splňuje všechny předpoklady pro jeho použití. Jediným problémem může být omezení hodnot Očekávaného poměru (které pochopitelně v reálné situaci náleží vždy do intervalu [50; 100]), což linear mixed model nepostihuje. Protože parametry Počet cílů, Poměr nápadnosti a Počet cílů× Poměr nápadnosti jsou nenulové a signifikantní, zamítnul jsem obě nulové hypotézy; nápadnost objektů a počet cílů mají dle výsledného modelu vliv na přesnost sledování vyjádřenou očekávaným poměrem přesnosti sledování. Vliv Počtu cílů je značný – za každý sledovaný cíl navíc klesá šance, že respondent označí cíle správně, o 7 procentních bodů. Oproti tomu vliv Poměru nápadnosti – byť statisticky významný – není téměř patrný; navíc je oproti teoretickým předpokladům záporný. Pohled na graf 4 závislosti Očekávaného poměru na Poměru nápadnosti dle Počtu cílů (který ignoruje náhodný efekt respondentů, ale pro ilustraci postačí) ukazuje, že toto může být způsobeno tím, že při sledování pouhých tří cílů se jejich nápadnost na přesnosti sledování nijak neprojevuje; nápadnost objektů má vliv až při sledování 4 cílu a vyšších. To rovněž vyplývá i z hodnoty parametru Počet cílů × Poměr nápadnosti, jehož hodnota je sice malá, ale zato kladná – pokud se tedy při zvětšení počtu cílů zvýší i nápadnost cílů proti pozadí, Očekávaný poměr neklesne, dokonce se o dvě desetiny procentního bodu zvýší. Hodnota parametru Velikost prostoru tolik pozoruhodná není; zvětší-li se prostor, na kterém se objekty pohybují, o 1000 plošných vizuálních stupňů (v takových jednotkách je proměnná velikost prostoru vyjádřena) – ovšem interval spolehlivost je dosti široký. Zajímavější je rozdíl mezi pohlavími, ten je sice minimální, ale i tak představuje určitý vliv. Může být způsoben tím, že muži hrají častěji hry? Proměnná Hodin hraní týdně byla díky malé statistické významnosti z modelu vyřazena, ale zároveň mezi ní a Pohlavím (kódovaným jako 0 pro muže a 1 pro ženu) existuje významná korelace, r = −0,276, p < 0,001. Protože kromě proměnných bylo sledování definováno dalšími specifickými parametry – především rychlostí objektů, která měla normální rozložení, při zobecnění vlivu saliency na jiné situace vyžadující MOT je třeba být obezřetný, což ukazují i velké rozptyly reziduí.
26
Tabulka 3 Testy fixed effects prvního modelu df čitatele
df jmenovatele
F
p
Intercept
1
410,965
2122,366
0,000
Počet cílů
1
2338,658
2271,721
0,000*
Poměr nápadnosti
1
2484,064
3,209
0,073
Velikost prostoru
1
288,410
2,414
0,121
Věk
1
278,978
2,687
0,102
Pohlaví
1
285,444
6,071
0,014*
Dosažené vzdělání
5
291,920
1,137
0,341
Specifické povolání
1
571,765
0,020
0,888
Narušení vidění
1
284,441
0,123
0,726
Hodin hraní týdně
1
279,235
0,016
0,899
Velikost obrazovky
2
289,677
0,113
0,893
df čitatele
df jmenovatele
F
Intercept
1
766,952
12900,158
Počet cílů
1
2425,782
1161,612
0,000*
Poměr nápadnosti
1
2484,662
36,883
0,000*
Velikost prostoru
1
290,481
4,818
0,029*
Pohlaví
1
285,512
8,963
0,003*
Počet cílů× Poměr nápadnosti
1
2462,007
78,456
0,000*
* p < 0,05
Tabulka 4 Testy fixed effects finálního modelu p 0,000
* p < 0,05
27
9 Diskuze Cílem toho výzkumu bylo ověřit, zda visual saliency, přesněji její bottom-up mechanismus, který popsali Itty & Koch (Itti & Koch, 2000; Itti, Koch & Niebur, 1998), má vliv na sledování pohybu více objektů. MOT je úkol náročný na pozornost, která je cílům flexibilně přidělována na základě parametrů sledování, jako jsou počet objektů, jejich rychlost či hustota (Alvarez & Franconeri, 2005; Alvarez & Franconeri, 2007; Holcombe & Chen, 2012; Vul et al., 2009). Bottom-up saliency popisuje, jak nápadné jsou jednotlivé oblasti vizuálního pole, a na základě toho určuje, která z oblastí nejdříve upoutá pozornost. Protože základem této saliency je odlišnost a kontrast určitých rysů lokace proti jejímu okolí, lze ji použít ke zjišťování, jak snadno a rychle je určitá pozice od svého okolí odlišitelná. Protože MOT je paralelní proces (Howe et al., 2010) umožňující zaměřit Tabulka 5 Odhady parametrů fixed effects finálního modelu 95% interval spolehlivosti Parametr
b
df
SE
t
Intercept
109,728
0,950
813,810
115,996
Počet cílů
-7,008
0,206
2425,782
Poměr nápadnosti
-0,430
0,071
Velikost prostoru
1,514
Pohlaví (muž) Počet cílů × Poměr nápadnosti
p
Spodní mez
Horní mez
0,000
107,871
111,585
-34,082
0,000*
-7,412
-6,605
2484,662
-6,073
0,000*
-0,569
-0,291
0,690
290,481
2,195
0,029*
0,156
2,871
1,294
0,432
285,512
2,994
0,003*
0,443
2,145
0,247
0,028
2462,007
8,858
0,000*
0,193
0,302
* p < 0,05
Tabulka 6 Odhady parametrů random effects finálního modelu Parametr
Reziduum
Intercept (subjekt = respondent)
Rozptyl
95% interval spolehlivosti Odhad
SE
Wald Z
p
Spodní mez
Horní mez
86,940
2,587
33,611
0,000
82,015
92,160
2,454
1,073
2,288
0,022*
1,042
5,780
* p < 0,05
28
graf 1 Histogram reziduí
pozornost na více různých míst (Cavanagh & Alvarez, 2005), lze předpokládat, že saliency každého z těchto míst je v průběhu vizuálního zpracovávání důležitá. Jestliže sledování pohybu objektů spočívá v měření jejich polohy a vyřešení problému korespondence s předchozím časovým okamžikem – jak navrhuje Vul et al. (2009) –, objekty, které jsou méně nápadné oproti svému pozadí, se tudíž hůře lokalizují. Omezení přesnosti sledování je pak důsledkem nejistoty způsobené nepřesným měřením polohy objektů; pokud má být přesnost měření polohy objektů zachována, musí jím být alokováno více zdroje, což ovšem vede ke snížení kapacity MOT. Na základě této úvahy jsem předpokládal, že objekty, které jsou méně nápadné, lze úspěšně sledovat pouze za vynaložení více zdrojů; jinými slovy, nenápadných objektů lze sledovat, při konstantnosti ostatních podmínek, méně než nápadných. Na základě tohoto předpokladů jsem navrhl nulové hypotézy: 1. Nápadnost objektů oproti pozadí nemá vliv na přesnost sledování. 2. Počet cílů spolu s nápadností objektů proti pozadí nemají vliv na přesnost sledování. Výsledky experimentu tyto nulové hypotézy zamítly. Testovaný model ukázal, že na očekávanou přesnost sledování (což byla pravděpodobnost, že respondent po konci sledování správně určí cíle) má největší vliv počet sledovaných cílů – každý cíl navíc zásadně snižoval očekávaný poměr správně označených cílů. Díky tomuto velkému vlivu neměla samotná saliency objektů proti pozadí velký účinek; její efekt se ovšem projevil v interakci Počtu cílů a Poměru nápadnosti: zvýšila-li se náležitě nápadnost, eliminovalo to negativní dopad nárůstu sledovaných cílů. To svědčí pro teoretický předpoklad tvrdící, že nápadnost objektů má vliv na množství zdroje nutného k jejich sledování. Výsledky experimentu lze interpretovat následovně: velké množství cílů způsobovalo, že každému mohlo být alokováno menší množství pozornosti. Pokud byly navíc objekty málo nápadné, těžko se určovala jejich poloha. Tato nejistota vedla k nepřesnému řešení korespondence poloh objektů (Vul et al., 2009), což mohlo způsobovat záměnu cílů a distraktorů. Pokud však 29
graf 2 Q-Q graf reziduí
objekty byly naopak dostatečně nápadné, dobře se odlišovaly od svého okolí (pozadí), a menší množství přiděleného zdroje tolik nevadilo – určení polohy mohlo být přesnější. Tento vliv má samozřejmě praktické omezení – zatímco počet cílů lze zvyšovat neomezeně, o saliency totéž říct nelze. Snadno si to můžeme představit, např. bíle objekty na černém pozadí již nápadnější být nemohou. V takovém případě pak kapacitu MOT omezuje především rychlost a hustota objektů. To, že model nebral rychlost v úvahu (ta byla náhodná), má dopad na možná zobecnění zjištěných výsledků. Lze předpokládat, že rychlost interaguje se saliency podobně jako počet cílů: rychlejší objekty vyžadují rovněž k úspěšnému sledování více zdroje, protože se hůře určuje jejich poloha, ale pokud jsou nápadné, je toto určení snazší. Tuto úvahu ovšem činí složitějším fakt, že rychlost pohybu je navíc sama o sobě zdrojem nápadnosti, a otázkou tedy je, jak by se ty to dva efekty navzájem kombinovaly. Mnou použitá aproximace výpočtu saliency, která v úvahu pohyb objektů, bohužel nedovolovala vliv rychlosti modelovat. Porovnání skutečných a předpovězených hodnot Očekávaného poměru (viz graf 5) ukazuje, že model je v predikci relativně nepřesný; kromě vlivu rychlosti na tento rozptyl je to nejspíše způsobeno tím, že v experimentu se nevyskytovaly středně obtížné pokusy. Byl-li počet cílů malý (1 až 3), objekty se sledovaly snadno a saliency nehrála roli; byl-li počet objektů vyšší, primárním zdrojem nepřesnosti sledování byl právě počet cílů; proto se nejspíš vliv nápadnosti neprojevil sám o sobě, ale pouze v interakci s Počtem cílů. Dovoluji si proto tvrdit, že skutečný vliv bottom-up saliency může být v některých případech i vyšší – nabízí se mnoho možností, jak experiment vylepšit, aby mohl být vytvořen přesnější model. Rovněž by bylo mohlo být užitečné zkusit použít k popisu mechanismu visual saliency oscilační neuronovou síť, neboť ty konekcionistické nejsou pro pohybující se objekty příliš vhodné, neboť pracují v prostoru vizuálního pole a pro každou novou pozici objektu je potřeba všechna spojení přepočítat (Kazanovich & Borisyuk, 2006). Dále, jak už jsem zmínil, by bylo vhodné modelovat i rychlost, a rovněž i interobject crowding. Rovněž by bylo vhodné rozšířit škálu použitých pozadí – zahrnout i barevná pozadí, či pozadí, která sama obsahují pohybující se grafické prvky. Tím 30
graf 3 Rozptyl reziduí dle předpovězené hodnoty
by se model značně přiblížil realitě, ve které rovněž sledujeme řadu objektů proti pozadí, ve kterém se nacházejí jiné objekty měnící polohu. Můj výzkum se rovněž týkal pouze pozadí složených z abstraktních obrazců; přestože způsob výpočtu bottom-up saliency Ittyho & Kocha je použitelný i na „živé“ a reálné scény (Itti & Koch, 2000; Itti, Koch & Niebur, 1998), tento předpoklad je nutné teprve potvrdit. Je totiž třeba si uvědomit, že při MOT ve skutečných situacích se bude uplatňovat i top-down mechanismus – když např. při týmovém sportu sledujeme hráče, je nutné zároveň rozlišovat, ke kterému patří týmu. Připočteme-li k tomu i nutnost přesněji modelovat rychlost a hustotu objektů, dostáváme značně komplikovaný model s řadou parametrů hlavních efektů, nepočítaje v tom velké množství jejich interakcí. Problémem je rovněž neošetřené prostředí, ve kterém zkoumané osoby pracovaly. Protože dotazování probíhalo přes internet a účastníci pracovali samostatně na různých místech, nelze pokládat podmínky, za kterých u nich experiment proběhl, za standardizované. Na druhou stranu, vliv některých vnějších proměnných – rozdílů v zobrazovacím zařízení –, potenciálně ohrožujících validitu výzkumu, se nepotvrdil, nebo byl – jako v případě vyrušení, framerate či velikosti plochy, na které sledování probíhalo – zahrnut do modelu. Zajímavé je, že žádný z respondentů v závěrečném dotazníku neuvedl, že byl vyrušen – ovšem časy ukazující průběh určitá zdržení ukázaly. Tento vliv vyrušení by ovšem nejspíš nebyl z celkového hlediska nijak významný – je třeba si uvědomit, že ono vyrušení by pravděpodobně proběhlo v průběhu jednoho MOT pokusu a vzhledem k jeho krátké délce nemělo vliv na další pokusy (tedy pokud se neopakovalo). Rovněž se nepotvrdil vliv hraní her, problémů s normálním viděním, specifického povolání (jako je práce v řízení letového provozu či jako operátor radiolokátoru) a věku; rozdíl mezi pohlavími byl sice významný, ale poměrně malý. Výsledky výzkumu lze, především díky velké velikosti vzorku, zobecnit minimálně na populaci alespoň středoškolsky vzdělaných obyvatel ČR ve věku 19–35 let; a protože schopnost sledovat více objektů je jednou ze základních vlastností pozornosti (Pylyshyn & Storm, 1988, Scholl, 2009), lze se domnívat, že obdobných výsledků by dosáhla i širší populace. 31
graf 4 Očekávaný poměr v závislosti na Poměru saliency
Přestože jsou tedy možnosti zobecnění mého modelu částečně omezené, díky specifickému výpočtu nápadnosti je nepochybné, že vliv bottom-up visual saliency hraje v MOT určitou, alespoň minimální roli. Toto zjištění má praktické dopady – pokud ne pro MOT ve skutečných situacích, tak alespoň pro návrh počítačových systémů (jako třeba těch pro řízení letového provozu) – jejich autoři by měli dbát na to, aby objekty, které uživatel musí sledovat, byly dostatečně vizuálně odlišitelné.
32
10 Závěr Provedl jsem výzkum, který aplikuje model vizuální pozornosti založený na bottom-up visual saliency mechanismu na MOT. Výsledky experimentu ukázaly, že existují rozdíly v přesnosti sledování pohybu více objektů v závislosti na hodnotách saliency objektů oproti jejich pozadí. Moje interpretace toho zjištění tvrdí, že je to způsobeno tím, že méně nápadné objekty vyžadují ke svému přesnému sledování více zdroje pozornosti, který je sice flexibilně alokovatelný, ale zároveň omezený. Podobný výzkum vlivu bottom-up saliency na MOT je dle mého vědomí zcela unikátní, a představuje proto počáteční krok k propojení vlivu percepce pozadí v průběhu sledování pohybu více objektů. Další možné směry výzkumu jsou jasné: replikace výsledků a vytvoření obecnějšího modelu beroucího kromě počtu objektů v úvahu i jejich rychlost a hustotu, s možností využití neuronových sítí či bayesovského ideálního pozorovatele. Závěry tohoto experimentu lze bez obav prakticky aplikovat na dvojrozměrné plochy displejů a monitorů a rozhraní, která jsou na nich zobrazovaná; pro využití v reálných situacích by rovněž bylo potřeba sledovat delší než několikavteřinové úseky, kdy je potřeba neustále udržovat pozornost, aby sledování nebylo narušeno, či použít trojrozměrné zobrazení a pozadí s živými či dokonce pohybujícími se scénami. Celkově však považuji tento výzkum za přínosný pro další studium problematiky sledování pohybu více objektů, a domnívám se, že může sloužit jako základ pro výzkum MOT v situacích, které se více přibližují realitě. graf 5 Očekávaný poměr a jeho předpovězená hodnota
33
Literatura Allen, R., Mcgeorge, P., Pearson, D. & Milne, A. B. (2004). Attention and Expertise in Multiple Target Tracking. Applied Cognitive Psychology, 18, 337–347. Allen, R., McGeorge, P., Pearson, D. G. & Milne, A. (2006). Multiple-target tracking: A role for working memory?. The Quarterly Journal of Experimental Psychology, 59(6), 1101–1116. Alvarez, G. A. & Cavanagh, P. (2005). Independent Resources for Attentional Tracking in the Left and Right Visual Hemifields. Psychological Science, 16(8), 637–643. Alvarez, G. A. & Franconeri, S. L. (2005). How many objects can you track? Evidence for a flexible tracking resource. Journal of Vision, 5(8), 641–641. Alvarez, G. A. & Franconeri, L. F. (2007). How many objects can you track?: Evidence for a resource-limited attentive tracking mechanism. Journal of Vision, 7(13), 1–10. Bae, G. Y. & Flombaum, J. I. (2012). Close encounters of the distracting kind: Identifying the cause of visual tracking errors. Attention, Perception, & Psychophysics, 74(4), 703–715. Barker, K., Allen, R. & McGeorge, P. (2010). Multiple-Object Tracking: Enhanced Visuospatial Representations as a Result of Experience. Experimental Psychology, 57(3), 208–214. Boot, W. R., Blakely, D. P. & Simons, D. J. (2011). Do action video games improve perception and cognition?. Frontiers in Psychology, 2. Bravo, M. J. & Farid, H. (2006).Object Recognition in Dense Clutter. Perception & Psychophysics, 68, 911–918. Cavanagh, P. & Alvarez, G. A. (2005). Tracking multiple targets with multifocal attention. Trends in Cognitive Sciences, 9(7), 349–354. Colzato, L. S., Van Leeuwen, P. J., van den Wildenberg, W. P. & Hommel, B. (2010). DOOM‘d to switch: superior cognitive flexibility in players of first person shooter games. Frontiers in Psychology, 1. Desimone, R. & Duncan, J. (1995). Neural mechanisms of selective visual attention. Annual review of neuroscience, 18(1), 193–222. Fehd, H. M. & Seiffert, A. E. (2008). Eye movements during multiple object tracking: Where do participants look? Cognition, 108, 201–209. Fencsik, D. E., Klieger, S. B. & Horowitz, T. S. (2007). The role of location and motion information in the tracking and recovery of moving objects. Perception & Psychophysics, 69, 567–577. Feria, C. S. (2012). The effects of distractors in multiple object tracking are modulated by the similarity of distractor and target features. Perception, 41(3), 287–304. Feria, C. S. (2013). Speed has an effect on multiple-object tracking independently of the number of close encounters between targets and distractors. Attention, Perception, & Psychophysics, 75(1), 53–67. Fougnie, D. & Marois, R. (2009). Attentive Tracking Disrupts Feature Binding in Visual Working Memory. Visual Cognition, 17(1–2), 48–66. Franconeri, S. L., Jonathan, S. V. & Scimeca, J. M. (2010). Tracking multiple objects is limited only by object spacing, not by speed, time, or capacity. Psychological Science, 21(7), 920–925. Franconeri, S. L., Lin, J. Y., Pylys hyn, Z. W., Fisher, B. & Enns, J. T. (2008). Evidence against a speed limit in multiple-object cracking. Psychonomic Bulletin & Review, 15(4), 802–808. Galloway, A. R. (2004). Social realism in gaming. Game Studies, 4(1). Získáno z: http://gamestudies.org/0401/galloway Gao, D. & Vasconcelos, N. (2009). Decision-theoretic saliency: Computational principles, biological plausibility, and implications for neurophysiology and psychophysics. Neural Computation, 21(1), 239–271. Green, C. S. & Bavelier, D. (2003). Action video game modifies visual selective attention. Nature, 423, 534–537. Green, C. S. & Bavelier, D. (2006). Enumeration versus multiple object tracking: the case of action video game players. Cognition, 101, 217–245. Green, C. S., Li, R. & Bavelier, D. (2010). Perceptual learning during action video game playing. Topics in cognitive science, 2(2), 202–216. Harel, J. (2012). A Saliency Implementation in MATLAB. Získáno z: http://www.klab.caltech.edu/~harel/share/gbvs.php Holcombe, A. O. & Chen, W. Y. (2012). Exhausting attentional tracking resources with a single fast-moving object. Cognition, 123(2), 218–228. Horowitz, T. S., Birnkrant, R. S., Fencsik, D. E., Tran, L. & Wolfe, J. M. (2006). How do we track invisible objects?. Psychonomic Bulletin & Review, 13, 516–523. Horowitz, T. S. & Cohen, M. A. (2010). Direction information in multiple object tracking is limited by a graded resource. Attention, Perception, & Psychophysics, 72(7), 1765–1775. Horowitz, T. S., Klieger, S. B., Fencsik, D. E., Yang, K. K., Alvarez, G. A. & Wolfe, J. M. (2007). Tracking unique objects. Perception & Psychophysics, 69(2), 172–184.
34
Howe, P. D., Cohen, M. A., Pinto, Y. & Horowitz, T. S. (2010). Distinguishing between parallel and serial accounts of multiple object tracking. Journal of Vision, 10(8). Howe, P. D. & Holcombe, A. O. (2012). The effect of visual distinctiveness on multiple object tracking performance. Frontiers in Psychology, 3. Hulleman, J. (2005). The mathematics of multiple object tracking: From proportions correct to number of objects tracked. Vision Research, 45, 2298–2309. Chesney, D. L. & Haladjian, H. H. (2011). Evidence for a shared mechanism used in multiple-object tracking and subitizing. Attention, Perception, & Psychophysics, 73(8), 2457–2480. IBM Corp. (2012). IBM SPSS Statistics for Windows, Version 21.0. Armonk, New York: IBM Corp. Itti, L. & Koch, C. (2000). A saliency-based search mechanism for overt and covert shifts of visual attention. Vision research, 40(10–12), 1489–1506. Itti, L., Koch, C. & Niebur, E. (1998). A model of saliency-based visual attention for rapid scene analysis. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 20(11), 1254–1259. Jardine, N. L., Thomas, L. E. & Seiffert, A. E. (2011). Visually guided self-motion does not impair multiple object-tracking. Journal of Vision, 11(11), 285–285. Judd, T., Durand, F. & Torralba, A. (2012). A Benchmark of Computational Models of Saliency to Predict Human Fixations. Získáno z: http://dspace.mit.edu/handle/1721.1/68590 Kahneman, D., Tresiman, A. & Gibbs, B. J. (1992). The reviewing of object files: Object-specific integration of information. Cognitive Psychology, 24(2), 175–219. Kazanovich, Y. & Borisyuk, R. (2006). An oscillatory neural model of multiple object tracking. Neural Computation, 18(6), 1413–1440. Keane, B. P & Pylyshyn, Z. W. (2006). Is motion extrapolation employed in multiple object tracking? Tracking as a low-level, nonpredictive fiction. Cognitive Psychology, 52, 346–368. Koch, C. & Ullman, S. (1985). Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurobiology, 4(4), 219–227. Lochner, M. & Trick, L. (2011). Attentional tracking of multiple vehicles in a highway driving scenario. In Proceedings of the Sixth International Symposium on Human Factors in Driver Assessment, Training and Vehicle Design. Mahadevan, V. & Vasconcelos, N. (2009). Saliency-based discriminant tracking. Computer Vision and Pattern Recognition, CVPR 2009, IEEE Conference on, 1007–1013. Mahadevan, V. & Vasconcelos, N. (2012). On the connections between saliency and tracking. Advances in Neural Information Processing Systems, 25, 1673–1681. Makovski, T. & Jiang, Y. V. (2009a). Feature binding in attentive tracking of distinct objects. Visual cognition, 17(1–2), 180–194. Makovski, T. & Jiang, Y. V. (2009b). The role of visual working memory in attentive tracking of unique objels. Journal of Experimental Psychology: Human Perception and Performance, 35(6), 1687–1697. Marr, D. & Vision, A. (1982). A computational investigation into the human representation and processing of visual information. WH San Francisco: Freeman and Company. Mazanec, J. (2010). Vliv pozadí na kvalitu sledování pohybu více objektů (bakalářská práce). Dostupné z: http://is.muni.cz/th/254834/ fss_b/ Memmerta, D., Simons, D. J. & Grimme, T. (2009). The relationship between visual attention and expertise in sports. Psychology of Sport and Exercise, 10(1), 146–151. Morelli, F. & Burton, P. A. (2004). The Impact of Induced Stress Upon Multiple-Object Tracking: Research in Support of the Cognitive Readiness Initiative. Army Research Lab Aberdeen Proving Ground MD Human Research And Engineering Directorate. Oksama, L. & Hyönä, J. (2008). Dynamic binding of identity and location information: A serial model of multiple identity tracking. Cognitive psychology, 56(4), 237–283. Pashler, H. E. (1999). The Psychology of Attention. Cambridge, Massachusetts: MIT Press. Pessoa, L. & Ungerleider, L. G. (2004). Top-Down Mechanisms for Working Memory and Attentional Processes. In Gazzaniga, M. S. (Ed), The cognitive neurosciences (pp. 919–930). Cambridge, Massachusetts: MIT Press. Pinto, Y., Scholte, H. S. & Lamme, V. A. F. (2012). Tracking Moving Identities: After Attending the Right Location, the Identity Does Not Come for Free. PloS one, 7(8). Pylyshyn, Z. W. (2001). Visual indexes, preconceptual objects, and situated vision. Cognition, 80, 127–158. Pylyshyn, Z. W. (2004). Some puzzling findings in multiple object tracking: I. Tracking without keeping track of object identities. Visual Cognition, 11(7), 801–822. Pylyshyn, Z. W & Storm, R. W. (1988). Tracking multiple independent targets: Evidence for a parallel tracking mechanism. Spatial Vision, 3(3), 179–197. Rosenholtz, R., Li, Y. & Nakano, L. (2007). Measuring visual cluster. Journal of Vision, 7(2), 1–22. Savani, K. & Markus, H. R. (2012). A processing advantage associated with analytic perceptual tendencies: European Americans outperform Asians on multiple object tracking. Journal of Experimental Social Psychology, 48(3), 766–769. Sekuler, R., McLaughlin, C. & Yotsumoto, Y. (2008). Age-related changes in attentional tracking of multiple moving objects. Perception, 37(6), 867–876.
35
Scholl, B. J. (2009). What Have We Learned about Attention from Multiple-Object Tracking (and Vice Versa)? In Dedrick, D. & Trick, L. (Eds.), Computation, Cognition, and Pylyshyn (pp. 49–78). Cambridge, Massachusetts: MIT Press. Scholl, B. J. & Pylyshyn, Z. W. (1999). Tracking Multiple Items Through Occlusion: Clues to Visual Objecthood. Cognitive Psychology, 38, 259–290. Spencer, J. P., Barich, K., Goldberg, J. & Perone, S. (2012). Behavioral dynamics and neural grounding of a dynamic field theory of multiobject tracking. Journal of Integrative Neuroscience, 11(3), 339–362. Spence, I. & Feng, J. (2010). Video games and spatial cognition. Review of General Psychology, 14(2), 92–104. Spencer, J. P., Perone, S. & Johnson, J. S. (2009). The dynamic field theory and embodied cognitive dynamics. In Spencer,J. P., Thomas, M. S. & McClelland, J. L. (Eds.) Toward a Unified Theory of Development: Connectionism and Dynamic Systems Theory Re-Considered (pp. 146-202). New York: Oxford University Press. Sternshein, H., Agam, Y. & Sekuler, R. (2011). EEG correlates of attentional load during multiple object tracking. PloS one, 6(7). The MathWorks Inc. (2011). MATLAB, Version 7.12.2 (R2011a). Natick, Massachusetts: The MathWorks Inc. Thomas, L. E. & Seiffert, A. E. (2010). Self-motion impairs multiple-object tracking. Cognition, 117(1), 80–86. Thomas, L. E. & Seiffert, A. E. (2011). How many objects are you worth? Quantification of the self-motion load on multiple object tracking. Frontiers in psychology, 2. Tombu, M., & Seiffert, A. E. (2008). Attentional costs in multiple-object tracking. Cognition, 108(1), 1–25. Trick, L. M., Guindon, J. & Vallis, L. A. (2006). Sequential tapping interferes selectively with multiple-object tracking: Do finger-tapping and tracking share a common resource?. The Quarterly Journal of Experimental Psychology, 59(7), 1188–1195. Trick, L. M., Jaspers-Fayer, F. & Sethi, N. (2005). Multiple-object tracking in children: The “Catch the Spies” task. Cognitive Development, 20(3), 373–387. Trick, L. M, Perl, T. & Sethi, N. (2005). Age-Related Differences in Multiple-Object Tracking. The Journals of Gerontology, 60(2), 102–105. Tsotsos, J. K. (1995). Towards a computational model of visual attention. Early vision and beyond, 207–218. Vara, J. (1994). Taking your Chances: An Explanation of Risk, Assessment and the Psychology of Worry. Old Farmer‘s Almanac, 220–222. Vul, E., Frank, M. C., Alvarez, G. A. & Tenenbaum, J. B. (2009). Explaining human multiple object tracking as resource-constrained approximate inference in a dynamic probabilistic model. Advances in neural information processing systems, 22, 1955–1963. Wolfe, J. M., Place, S. S. & Horowitz, T. S. (2007). Multiple object juggling: Changing what is tracked during extended multiple object cracking. Psychonomic Bulletin & Review, 14(2), 344–349. Yantis, S. (1992). Multielement visual tracking: attention and perceptual organization. Cognitive Psychology, 24, 295–340. Yilmaz, O. (2012). Oscillatory synchronization model of attention to moving objects. Neural Networks, 29, 20–36.
36
Přílohy Soubory s experimentálními daty a použitá pozadí najdete v archivu této diplomové práce v IS MU v souboru „supplement.zip“.
37