Počítačové vidění vs. digitální zpracování obrazu Digitální obraz a jeho vlastnosti Václav Hlaváč Fakulta elektrotechnická ČVUT, katedra kybernetiky Centrum strojového vnímání, Praha
[email protected] http://cmp.felk.cvut.cz/∼hlavac
1/32
LIDSKÉ na rozdíl od POČÍTAČOVÉHO VIDĚNÍ 2/32
Vidění lidem dovoluje vnímat a porozumět světu kolem nich. Počítačové vidění se snaží napodobit lidské vidění snímáním obrazu elektronickými prostředky a porozuměním jejich obsahu počítačovým zpracováním.
Digitální obraz = vstup (chápán intuitivně) jako obraz sejmutý na sítnici lidského oka nebo TV kamerou. Obrazová funkce f (x, y ), f (x, y, t), nebo obrazová matice (po digitalizaci).
PŘÍKLADY VSTUPNÍCH OBRAZŮ 3/32
SOUVISEJÍCÍ OBORY ZKOUMÁNÍ 4/32
Digitální zpracování obrazu – 2D statický svět, nevyužívá se interpretace obrazových dat (proto jsou do značné míry nezávislé na konkrétní aplikační oblasti). Používají se techniky zpracování signálů. Analýza obrazu – často jen 2D svět, zahrnuje interpretaci obrazu. Interpretace přináší důležitou dodatečnou znalost umožňující řešit i úlohy, které by jinak řešit nešly. Počítačové vidění – nejobecnější formulace úloh, 3D svět, interpretace, potenciálně informace o dynamice (tj. nutnost zpracovávat sekvence obrazů), špatně podmíněné úlohy, velmi ambiciózní cíle.
ROLE INTERPRETACE, SÉMANTIKA 5/32
Interpretace: pozorování → model světa syntax → sémantika
Jablko na běžícím pásu → {třída 1, třída 2, třída 3}.
Příklady: Pohled z okna → {prší, neprší}.
Dopravní scéna → vyhledávání čísla auta.
Opora v teorii: matematická logika, teorie formálních jazyků. Hluboká teoretická potíž: Gödelova věta – logický systém s kvantifikátory ∀, ∃ nemůže být dokázán ani vyvrácen.
NIŽŠÍ A VYŠŠÍ ÚROVEŇ z hlediska využívané znalosti
6/32
Obrazová data se neinterpretují, tj. nevyužívá se jejich sémantiky.
Používají se metody zpracování signálů, např. 2D Fourierova transformace.
Nižší úroveň = zpracování obrazu
Stejné postupy se používají na širokou třídu aplikačních úloh.
Interpretace s využitím znalosti o konkrétní aplikační oblasti.
Složité, využívá se zpětná vazba a techniky umělé inteligence.
Vyšší úroveň = porozumění obsahu obrazu, počítačové vidění
Obecně příliš těžká úloha. Obvykle se musí radikálně zjednodušit.
PROČ JE POČÍTAČOVÉ VIDĚNÍ TĚŽKÉ ? ALESPOŇ 6 PŘÍČIN
7/32
3D → 2D přináší ztrátu informace díky vlastnostem perspektivní transformace (matematická abstrakce, dírková komora). Měřený jas je dán složitým fyzikálním postupem vytváření obrazu. Zář (angl. radiance) (≈ jas) závisí na typu světelných zdrojů, jejich poloze, intenzitě, poloze pozorovatele, lokální geometrii povrchu a odrazivosti povrchu. Obrácená úloha je špatně podmíněna. Nevyhnutelná přítomnost šumu v každém měření ve skutečném světě. Příliš mnoho dat Stránka A4, 300 dpi, 8 bit per pixel = 8.5 Mbytes. Neprokládané video 512 × 768, RGB (24 bit) = 225 Mbits/sekundu. Nutnost zahrnout interpretaci (již bylo probráno výše). Lokální okno v kontrastu s potřebou globálního pohledu
NEDOSTATEČNOST LOKÁLNÍHO POHLEDU 8/32
NEDOSTATEČNOST LOKÁLNÍHO POHLEDU 8/32
LOKÁLNÍ POHLED NESTAČÍ K INTERPRETACI 9/32
LOKÁLNÍ POHLED NESTAČÍ K INTERPRETACI 9/32
ROZPOZNÁVÁNÍ NA ZÁKLADĚ OBRAZŮ hierarchie reprezentací Objekt nebo scéna
2D obraz
od objektù k obrazùm Digitální obraz
od obrazù k pøíznakùm
Oblasti
Hrany
Mìøítko
Obraz s pøíznaky
Objekty
Orientace
Textura
od pøíznakù k objektùm
porozumìní objektùm
10/32
OBRAZ 11/32
Obraz - chápán intuitivně jako obraz na sítnici nebo snímacím čipu TV kamery. Obrazová funkce f (x, y), f (x, y, t) je výsledkem perspektivního zobrazení.
bod ve 3D scénì
Y
P(x,y,z)
X y
y' - x'
x'
- y' f
ob
x0 =
xf , z
ov raz
á
i ro v
y0 =
na
yf . z
x
Z
OBRAZOVÁ FUNKCE = 2D SIGNÁL 12/32
Monochromatický statický obraz f (x, y), kde (x, y) jsou souřadnice v rovině s definičním oborem R = {(x, y), 1 ≤ x ≤ xm, 1 ≤ y ≤ yn} ; f je hodnota obrazové funkce (≈ jasu, optické hustotě u průhledných předloh, vzdálenosti od pozorovatele, teplotě v termovizi, atd.) (Přirozeně) 2D obrazy: Tenký vzorek v optickém mikroskopu, obrázek písmene na listu papíru, otisk prstu, jeden řez z počítačového tomografu, atd.
PŘÍKLAD DIGITÁLNÍHO OBRAZU jeden řez z rentgenového tomografu
13/32
DIGITALIZACE
Vzorkování & kvantizace hodnoty obrazové funkce (též intenzity).
Digitální obraz se obvykle reprezentuje maticí.
14/32
Pixel = akronym, angl. picture element.
VZORKOVÁNÍ 15/32
Zahrnuje dvě úlohy: 1. Uspořádání vzorkovacích bodů do rastru.
(a)
(b)
2. Vzdálenost mezi vzorky (Shannonova věta o vzorkování).
PRVNÍ SCANNER OBRAZU 1956 16/32
R. Kirsch, SEAC and the start of image processing at the National Bureau of Standards. In: Annals of the history of computing, IEEE, vol. 20 (1998), p 7-13.)
VZORKOVÁNÍ, PŘÍKLAD 1 17/32
Originál 256 × 256
128 × 128
VZORKOVÁNÍ, PŘÍKLAD 2 18/32
Originál 256 × 256
64 × 64
VZORKOVÁNÍ, PŘÍKLAD 3 19/32
Originál 256 × 256
32 × 32
KVANTOVÁNÍ, PŘÍKLAD 1 20/32
Originál 256 jasových úrovní
64 jasových úrovní
KVANTOVÁNÍ, PŘÍKLAD 2 21/32
Originál 256 jasových úrovní
16 jasových úrovní
KVANTOVÁNÍ, PŘÍKLAD 3 22/32
Originál 256 jasových úrovní
4 jasové úrovně
KVANTOVÁNÍ, PŘÍKLAD 4 (binární obraz) 23/32
Originál 256 jasových úrovní
2 jasové úrovně
VZDÁLENOST 24/32
Funkce D se nazývá vzdáleností, když
D(p, q ) ≥ 0 ,
speciálně D(p, p) = 0 (identita).
D(p, q ) = D(q, p) ,
(symetrie).
D(p, r) ≤ D(p, q ) + D(q, r) , (trojúhelníková nerovnost).
NĚKOLIK DEFINIC VZDÁLENOSTI ve čtvercovém rastru Euklidovská vzdálenost DE ((x, y), (h, k)) =
p
(x − h)2 + (y − k)2 .
Vzdálenost městských bloků (též vzdálenost na Manhattanu) D4((x, y), (h, k)) =| x − h | + | y − k | . Vzdálenost na šachovnici (z pohledu šachového krále) D8((x, y), (h, k)) = max{| x − h |, | y − k |} .
0 1 2 3 4 0 1 2
DE D4 D8
25/32
4-OKOLÍ A 8-OKOLÍ 26/32
Množina složená ze samotného pixelu (reprezentativní bod) a jeho sousedů o vzdálenosti 1.
PARADOX PROTÍNAJÍCÍCH SE ÚSEČEK 27/32
BINÁRNÍ OBRAZ & RELACE “BÝT SOUVISLÝM”
Poznámka pro zvědavé. Japonský kanji znak znamená “blízko odtud”.
Sousední pixely jsou souvislé.
černá ∼ objekty bílá ∼ pozadí
Dva pixely jsou souvislé, když mezi nimi existuje cesta složená ze souvislých pixelů.
28/32
OBLAST = SOUVISLÁ MNOŽINA
Relace “být souvislým” is reflexivní, symetrická a tranzitivní. Tudíž je ekvivalencí.
29/32
Relace ekvivalence rozkládá pixely obrazu do tříd ekvivalence = do oblastí.
HRANICE OBLASTI
Hranice oblasti je množina pixelů oblasti majících alespoň jednoho souseda nepatřícího do oblasti.
Spojitá obrazové funkce ⇒ nekonečně tenká hranice.
V digitálním obraze má hranice konečnou tloušťku. Je nutné rozlišovat vnitřní a vnější hranici.
30/32
Hranice oblasti (border) × hrana (edge) × hranový bod (edgel).
KONVEXNÍ MNOŽINA, KONVEXNÍ OBAL 31/32
Konvexní množina = její každé dva body lze spojit úsečkou ležící uvnitř množiny.
Konvexní obal, jezero, záliv.
Region
Convex hull
Lakes Bays
HISTOGRAM HODNOT JASU 32/32
Histogram hodnot jasu je odhadem hustoty pravděpodobnosti jevu, že pixel bude mít určitou jasovou hodnotu. 3500
3000
2500
2000
1500
1000
500
0
0
výchozí obraz
50
100
150
histogram hodnot jasu
200
250