Pannon Egyetem Informatikai Tudományok Doktori Iskola
Tanuló és adaptív videófeldolgozó eljárások A doktori disszertáció téziseinek összefoglalója
Licsár Attila Képfeldolgozás és Neuroszámítógépek Tanszék Témavezető: Prof. Szirányi Tamás
Veszprém, 2007.
Előzmények, célkitűzések
Előzmények, célkitűzések Az utóbbi évtizedekben a számítási teljesítmény növekedésével, a különböző képrögzítő és megjelenítő eszközök fejlődésével lehetővé vált a nagyfelbontású (pl. 6000x4000 képpont) képsorozatok feldolgozása, illetve kamerás rendszerek alkalmazásával a képi információ valós idejű analízise. A növekvő mennyiségű információ feldolgozásának hatékonyságát az adott eljárás sebessége, minősége mellett befolyásolja az emberi tényező is, amely az eljárás hibája esetén a manuálisan elvégzett korrekciót jelenti. Mivel az emberi beavatkozás lassítja a feldolgozás menetét és növeli annak költségét, ezért lényeges hatékony és megbízható módszerek kidolgozása. A szerző a Pannon Egyetem Képfeldolgozás és Neuroszámítógépek Tanszékén végzett kutatásai során az emberi kézjelek látás alapú felismerésével és az archív filmek hibáinak digitális restaurációjával foglalkozott. Ennek során az NKFP-2/049/2001 (Nemzeti Kutatás és Fejlesztési Program – Széchenyi terv) által támogatott DIMORF (Digitális Mozgóképhelyreállító Rendszer Filmarchívumok Számára) projekt keretében egy filmjavító szoftver keretrendszerének és több restauráló eljárás fejlesztésében vett részt. A disszertációban bemutatott kutatások két fő téma köré csoportosíthatóak: az ember-gép kapcsolat feltételeinek javítása a kéz gesztusainak hatékony és tanítható felismerésével, illetve az archív felvételek remegésének („image vibration”) és folthibáinak („blotch”) korrekciójával foglalkozó módszerek. A vizsgált feladatok mindegyikében a probléma megfogalmazása és a kutatás irányainak kijelölése a valós felhasználási körülmények vizsgálatával történt, amikor is a számítógépnek mozgóképek gyors analízise alapján kell döntéseket és beavatkozásokat végeznie adaptív és tanuló eljárások segítségével. Erre utal a disszertáció összefoglaló címe. A vizsgált problémák a videófeldolgozás néhány, a gyakorlati felhasználás szempontjából fontosnak tekinthető feladatával kapcsolatosak:
1
Előzmények, célkitűzések
1) kézjelek felismerési hatékonyságának csökkenése olyan felhasználók esetén, akik nem vettek részt a gépi felismeréshez szükséges tanító minták létrehozásában [22,23]; 2) képremegés automatikus stabilizációjának hibája összetett, komplex mozgást tartalmazó felvételeken; 3) a folthibák automatikus detektálásának magas hamis pozitív hibarátája, aminek következtében a tévesen foltnak kijelölt képterületek tartalmát módosítja a korrekciót végző eljárás, ezzel meghamisítva az eredeti képi tartalmat.
Az archív filmek hibáinak javításakor fontos szabály, hogy az eredeti képi tartalom nem módosulhat, kivéve, ha az információ sérülése miatt az elkerülhetetlen [24,25]. A vizsgált eljárásokban az automatikus feldolgozás hibája esetén rendszerint kézi beavatkozással történik a korrekció. A feldolgozás során további problémát jelentettek: • A nagymennyiségű feldolgozandó adat a nagyfelbontású képsorozatok, illetve a valós idejű eljárások esetén. • Az archív filmekre jellemző képi hibák (pl. intenzitás villódzása, szemcsezaj) csökkentik a lokális és globális képi információ elemzésének és feldolgozásának megbízhatóságát.
Ezért a képsorozatok analízise és feldolgozása során további feladatot jelentett a különféle műveletek (pl. osztályozás, mozgásbecslés) számítási igényének csökkentése és megbízhatóságának, pontosságának növelése a különböző képi zajok esetén. A disszertáció célja olyan tanuló és adaptív módszerek kidolgozása az ismertetett videófeldolgozó eljárásokban, amelyek segítségével javítható az ember-gép kapcsolat hatékonysága, növelhető a feldolgozás sebessége, minősége, továbbá csökkenthető a szükséges emberi beavatkozás mennyisége.
2
A kutatás módszertana
A kutatás módszertana A kutatások során követelmény volt az eljárások magas fokú automatizálása a valós felhasználói körülmények vizsgálatával. Ennek érdekében a bemutatott videófeldolgozó eljárások adaptív, illetve felügyelt és nem felügyelt tanuló módszereket alkalmaznak. A filmes munkafolyamatok vizsgálatában, a problémák feltárásában a DIMORF szoftver fejlesztésében való részvétel [14], illetve a „Lúdas Matyi” (1949) című film felújítása [6] során szerzett tapasztalatok jelentettek segítséget. Az eljárások minőségének objektív kiértékelése teszt adatbázisok („ground truth”) létrehozásával történt, amely tartalmazza az egyes mintákhoz tartozó referencia adatokat, például a kézjelek osztályait, illetve a folthibák pozícióját. A referencia adatok gyűjtése a folthibák detektálása során egy új, fél-automatikus eljárással történt a nagyszámú folthibák hatékony kijelölése és az eredeti archív filmeken történő kiértékelés érdekében. A szerző az eredmények teszteléséhez, megjelenítéséhez, a statisztikai adatok generálásához saját keretrendszert fejlesztett ki, amelynek továbbfejlesztett változata a DIMORF projektben a különböző restaurációs eljárások keretrendszeréül szolgált. Feladata a filmhiba javító eljárások futtatása és dokumentálása, a képszekvenciák kezelése, megjelenítése és összehasonlítása. A statisztikai eredmények tárolása XML (Extended Markup Language) és CSV (Comma Separated Values) formátumban történt, amely lehetővé tette az adatok további feldolgozását és megjelenítését. Az eljárások fejlesztése Microsoft Visual C++ környezetben történt. A szerző az alapvető képfeldolgozási eljárások, illetve a különböző formátumú képfájlok kezeléséhez szabadon elérhető programozási könyvtárakat használt fel: nyílt forráskódú OpenCV [26] (Open Source Computer Vision Library), az Intel által kifejlesztett IPL [27] (Image Processing Library). Az SVM („support vector machine”) alapú tanuló eljárás implementációja a LIBSVM [28] fejlesztői könyvtárával készült.
3
Téziscsoportok
Téziscsoportok 1. Téziscsoport: interaktív tanító eljárást alkalmazó kézfelismerés kamera-kivetítő környezetben.
1.1 Bevezettem egy felhasználó adaptív kézfelismerő eljárást, amely a felhasználó és a számítógép közötti folyamatos interakció segítségével javítja a gesztusok felismerési hatékonyságát. Tipikus probléma az elkülönített tanítási és felismerési fázist alkalmazó kézfelismerő eljárásokban, hogy ha egy adott felhasználó nem végzett előzetes tanítást, a kézjelek felismerési hatékonyság lecsökken [22,23]. Megmutattam, hogy amennyiben a felhasználó nem végez előzetes tanítást, a felismerési fázisba ágyazott interaktív tanító eljárással kijavíthatóak a tévesen felismert kézjelek. Kísérletileg igazoltam, hogy a módszer révén elegendő csak a tévesen detektált gesztusokat újratanítani a kézjelek használata közben, így nem szükséges az összes kézjel előzetes tanítását elvégezni az alkalmazott gesztusok megfelelő felismerési hatékonysága érdekében.
1.2
A kézjelek kontúr alapú osztályozására bevezettem egy Fourier leírókon alapuló
osztályozó eljárást, amely időben több egymást követő kontúr vizsgálatával a maximális valószínűség elve alapján végzi a kézjelek osztályozását. Megmutattam, hogy mivel a felhasználó egy minimális ideig ugyanazon gesztust formálja meg, a kézjelek időbeni vizsgálatával javítható a felismerés hatékonysága. Kísérletek során igazoltam, hogy a bevezetett kontúrleíró függvénnyel a Fourier leírókon alapuló osztályozó eljárás nagyobb felismerési hatékonyságot eredményez az eddig alkalmazott kontúrleíró metódusoknál. Az osztályozó és tanító eljárás fejlesztésénél figyelembe vettem, hogy a felhasználó és a számítógép közötti kapcsolatnak valós idejűnek kell lennie, ezért alacsony komplexitású műveletek szükségesek.
4
Téziscsoportok
1.3 Bevezettem egy kar és kézszegmentáló eljárást, amely kinyeri a felhasználó kézjelének kontúrját egy ún. kamera-kivetítő környezetben. Megmutattam, hogy az eljárás segítségével a vetített képre mutató kar és kéz kontúrja meghatározható tetszőleges statikus, illetve változó háttérkép esetén. Az eljárás előnye, hogy a szegmentáció nem igényel speciális eszközöket, mint például infra kamerát és fényforrást. Kísérletekkel bizonyítottam, hogy a kéz szegmentálásának hatékonysága nem függ a felhasználó öltözetétől, amely révén kötetlenebb kommunikáció érhető el.
Kapcsolódó publikációk: [2,4,12].
2. Téziscsoport: archív felvételek képremegésének adaptív stabilizálása a vizsgált képterület (ROF, „region of fixation”) automatikus kiválasztásával.
2.1 Bevezettem egy képstabilizáló eljárást, amely adaptív módon a kép négyágú fa („quad-tree”) alapú térbeli szegmentációjával és mozgásvektorok időbeli analízisével választja ki a kép egy adott területét („region of fixation”, ROF), amely alapján becsülhető a képsorozat remegő mozgása. Megmutattam, hogy több mozgó objektum esetén a hibás stabilizáció oka a téves mozgásbecslés, mivel a teljes képterületet alkalmazásakor a becslés nem megbízható. A bemutatott eljárás a mozgás struktúrájától függően olyan képterületet határoz meg, amely mozgása megbízhatóan becsülhető és időben egyenletes mozgással jellemezhető. Kísérletekkel bizonyítottam, hogy az adaptív szegmentációs eljárás által meghatározott képterület mozgása alapján hatékonyan stabilizálhatóak a különböző komplexitású mozgásokat tartalmazó képsorozatok.
Kapcsolódó publikációk: [3,5,13].
3. Téziscsoport: folthibák detektálása nagyfelbontású, archív felvételeken minimális emberi beavatkozással.
5
Téziscsoportok
3.1 Bevezettem egy eljárást a folthibák detektálására, amely csökkenti a mozgásból származó hamis pozitív (tévesen foltnak azonosított) képpontok arányát a folt-gyanús területek mozgásának ROI („region of interest”) alapú becslésével és kompenzálásával. Megmutattam, hogy a lehetséges folt-gyanús területek előzetes kiválasztásával elegendő a mozgásbecslést a kiválasztott terület (ROI) alapján elvégezni, a teljes képterület alkalmazása helyett. Kísérletek alapján bebizonyítottam, hogy az eljárás a számítási komplexitás jelentős csökkentése mellett közel azonos felismerési hatékonyságot ért el, összehasonlítva a teljes képterületen mozgáskompenzációt végző metódussal. Új félautomatikus eljárást vezettem be a folthibák elhelyezkedését leíró referencia képmaszk („ground truth”) előállítására, amely segítségével valódi körülmények között, nagyfelbontású archív felvételeken tesztelhető a detektálás hatékonysága.
3.2 Bevezettem egy eljárást a detektált folthibák hamis pozitív találatainak csökkentésére, amely az előzőleg meghatározott folt-gyanús alakzatok osztályozásával szűri ki a nem valódi foltokat. Az archív felvételek filmhibái, az objektumok komplex mozgása esetén a lokális mozgáskompenzáció hibája hamis pozitív találatokat eredményez. Kísérletek alapján bizonyítottam, hogy a lehetséges folthibák és annak környezete alapján kinyert képi jellemzők osztályozásával hatékonyan csökkenthetőek a hamis pozitív találatok. Bevezettem egy új, a foltok detektálásának minőségét kiértékelő eljárást, amely alapja a felhasználó által végzett munka mennyiségének becslése, amely az automatikus feldolgozást követően az objektumok kézzel történő osztályozásához szükséges. Kísérletileg igazoltam, hogy a folt-gyanús területek neurális hálózat (NN, „neural network”) és support vektor gép (SVM, „support vector machine”) alapú osztályozásával hatékonyan csökkenthető a szükséges emberi munka mennyisége.
Kapcsolódó publikációk: [1,6,7,9,10].
6
Lehetséges alkalmazások
Lehetséges alkalmazások A bemutatott gesztusfelismerő eljárás és kamera-kivetítő rendszer segítségével tetszőleges felhasználói felület vezérelhető a kéz pozíciója és a felismert kézjelek segítségével. Az Európai Unió MUSCLE („Multimedia Understanding through Semantics, Computation and Learning”) projektjének [29] keretén belül lehetőség nyílt a kézfelismerő eljárás alkalmazására a BilVideo [30] videó adatbáziskezelő rendszerben. A videók keresése során a kézjelek segítségével definiálhatóak a lekérdezések az objektumok térbeli elhelyezkedése alapján, ahol megadható például, hogy „A” objektum hátrébb helyezkedik el „B” objektumhoz képest. Az elkészült DIMORF keretrendszert és a filmjavító eljárások egyes komponenseit (filmremegés stabilizálása, villódzás csökkentése) felhasználták az 1949-ben készült magyar színes film, a „Lúdas Matyi” rekonstrukciójához [6]. A Magyar Nemzeti Filmarchívum a Nemzeti Kulturális Örökség Minisztériuma támogatásával végezte el a felújítási munkálatokat, amelyben a Magyar Filmlaboratórium, Veszprémi Egyetem (Pannon Egyetem), MTA SZTAKI és az RDI Hangstúdió vett részt. Az elkészült keretrendszer és filmjavító eljárások remélhetőleg a jövőben további filmek restaurálásában használhatóak majd fel. Az ausztriai HS-ART Digital cég által kifejlesztett és forgalmazott a DIAMANT [31] filmrestauráló szoftver az egyik legelterjedtebb alkalmazás a filmarchívumok és filmiparban dolgozó cégek körében. A céggel történő együttműködés során lehetőség nyílik a kifejlesztett eljárások DIAMANT szoftverbe történő beillesztésére és tesztelésére.
7
Publikációk
Publikációk
Nemzetközi SCI folyóirat
[1]
Licsár A., Szirányi T., Czúni L., Trainable blotch detection on high resolution archive films minimizing the human interaction, Machine Vision and Applications Journal, accepted, 2007. (IF: 0.667)
[2]
Licsár A., Szirányi T., User-adaptive hand gesture recognition system with interactive training, Image and Vision Computing, Vol. 23, No.12 , pp. 1102-1114, 2005. (IF: 1.159)
[3]
Czúni L., Hanis A., Kovács L., Kránicz B., Licsár A., Szirányi T., Kas I., Kovács Gy., Manno S., Digital Motion Picture Restoration System for Film Archives (DIMORF), SMPTE Motion Imaging Journal, Vol. 113, pp.170-176, 2004. (IF: 0.333)
Nemzetközi SCI periodika
[4]
Licsár A., Szirányi T., Hand Gesture Recognition in Camera-Projector System, International Workshop on Human-Computer Interaction, Lecture Notes in Computer Science, Vol. LNCS 3058, pp.83-93, 2004. (IF: 0.513)
[5]
Licsár A., Czúni L., Szirányi T., Adaptive Stabilization of Vibration on Archive Films, Lecture Notes in Computer Science, CAIP’2003, Vol. LNCS 2756, pp. 230237, 2003. (IF: 0.515)
8
Publikációk
Hazai folyóirat
[6]
Czúni L., Licsár A., Szirányi T., Digitális filmjavító eljárások, Magyar Elektronika, (11), HU ISSN 0236-6134, pp. 44-46, 2005.
Nemzetközi konferencia
[7]
Licsár A., Szirányi T., Czúni L., Adaptive Blotch Detection in a Film Restoration Framework, ECCV Workshop on Applications of Computer Vision, Graz, pp. 94101, 2006.
[8]
Licsár A., Szirányi T.; Kovács L., Pataki B., Tillarom: an AJAX based folk folk song search and retrieval system with gesture interface based on Kodály hand signs, International multimedia conference. Proc. of the 1st ACM international workhsop on human-centered multimedia, Santa Barbara, USA, pp. 81-88, 2006.
[9]
Licsár A., Czúni L., Szirányi T., Trainable Post-Processing Method To Reduce False Alarms In The Detection Of Small Blotches Of Archive Films, IEEE International Conference on Image Processing (ICIP), Genoa, Italy, pp. 562-565, 2005.
[10] Licsár A., Szirányi T., Czúni L., Blotch Detection in Archive Film Restoration by Adaptive Learning, Workshop on Machine Learning Techniques for Processing Multimedia Content (MLMM), Bonn, pp. 7-11, 2005. [11] Czúni L., Császár G., Hanis A., Kovács L., Licsár A., Szirányi T., Semi Automatic Digital Motion Picture Restoration System with Learning Capabilities, Learning for Adaptable Visual Systems (LAVS), Cambridge, UK, 2004. [12] Licsár A., Szirányi T., Dynamic Training of Hand Gesture Recognition System, ICPR’04, Cambridge, UK, IEEE & IAPR, Vol. 4, pp.971-974, 2004. [13] Licsár A., Czúni L., Szirányi T., Stabilization Of Vibration On Archive Films By Automatic Multi-scale ROF Selection, Advanced Concepts for Intelligent Vision
9
Publikációk
Systems (Acivs), Ghent, Belgium, pp. 260-266, 2003. [14] Bölecz M., Czúni L., Gál B., Hanis A., Kovács L., Kránicz B., Licsár A., Szirányi T., Kas I., Kovács Gy., Manno S., DIgital MOtion Picture Restoration System for Film Archives (DIMORF), A complex solution for film scanning, processing and recording, Conference of the International Broadcasting Convention, Amsterdam, pp. 509-517, 2003. [15] Licsár A., Szirányi T., Supervised training based hand gesture recognition system, 16th ICPR, Vol. 3., IEEE & IAPR, pp. 999-1002, 2002. [16] Licsár A., Szirányi T., Hand-Gesture Based Film Restoration, 2nd Int. WS on Pattern Recognition in Inf. Systems (PRIS’02), IAPR, Alicante, Spain, pp. 95-103, 2002.
Hazai konferencia
[17] Licsár A., Czúni L., Szirányi T., Blotch Detection with Trainable Post-processing Method, Joint Hungarian-Austrian Conference on Image Processing and Pattern Recognition (HACIPPR), Veszprém, pp. 123-127, 2005. [18] Licsár A., Czúni L., Szirányi T., Automatic Stabilization of Image Vibration, Képfeldolgozók és Alakfelismerők IV. Konferenciája, Miskolc-Tapolca. pp. 178184, 2004. [19] Czúni L., Szirányi T., Licsár A., Hanis A., Schanda J., Kránicz B., Farkas P., DIgitális MOzgóképhelyreállító Rendszer Filmarchívumok számára (DIMORF), Képfeldolgozók és Alakfelismerők III. Konferenciája, Domaszék, 2002. [20] Licsár A., Szirányi T., Supervised Training Based Hand Gesture Recognition System, Képfeldolgozók és Alakfelismerők III. Konferenciája, Domaszék, 2002.
10
Publikációk
Kutatási témához nem kapcsolódó publikációk
[21] Czúni L., Császár G., Licsár A., Estimating the Optimal Quantization Parameter in H.264, International Conf. on Pattern Recognition (ICPR), pp. 330-333, 2006.
11
Referenciák
Referenciák [22] Ramamoorthy A., Vaswani N., Chaudhury S., Bannerjee S., Recognition of dynamic hand gestures, Pattern Recognition, Vol. 36(9), pp. 2069-2081, 2003. [23] Raytchev B., Hasegawa O., Otsu N., User-independent online gesture recognition by relative motion extraction, Pattern Recognition Letters, Vol. 21(1), pp. 69-82, 2002. [24] Read P., Meyer M.P., Restoration of Motion Picture Film, Butterworh-Heinemann, 2000. [25] Delaney B., Hoomans B., PrestoSpace User Requirements Feedback meeting in London, An integrated solution for Audio-visual preservation and access, 2004. [26] Intel Open Source Computer Vision Library: http://www.intel.com/technology/computing/opencv/index.htm [27] Intel Image Processing Library: http://www.intel.com/cd/software/products/asmo-na/eng/perflib/ipp/index.htm [28] Chang C.C., Lin C.J., LIBSVM: a library for support vector machines, 2005. http://www.csie.ntu.edu.tw/~cjlin/libsvm [29] MUSCLE projekt: http://www.muscle-noe.org/ [30] BilVideo: http://www.cs.bilkent.edu.tr/~bilmdg/bilvideo/ [31] HS-ART Digital: http://www.hs-art.com/
12