Samenvatting De laatste decennia zijn we getuige geweest van een snel stijgende verspreiding en beschikbaarheid van mediabronnen. Deze toename kan hoofdzakelijk toegeschreven worden aan de groei van het internet en de vooruitgang op het gebied van videocompressie, evenals aan de dalende kost van apparatuur voor de opname, opslag, en consumptie van multimediale data. Vandaag bieden heel wat openbare en publieke omroepen gebruikers de mogelijkheid om videomateriaal op te vragen en te bekijken via digitale televisie of over het internet. De populariteit van video gecre¨eerd door de gebruikers zelf heeft verder geleid tot nieuwe manieren om content te delen. Ook de opkomst van videobewakingssystemen heeft ertoe bijgedragen dat de hoeveelheid content dat dagelijks beschikbaar komt substantieel groeit. Daarenboven neemt de diversiteit in de apparaten om multimedia af te spelen steeds maar toe. Waar mobiele telefoons tien jaar terug voornamelijk gebruikt werden om te bellen, zijn deze op heden uitgegroeid tot ware multimediaspelers die tevens uitgerust zijn met videocamera’s. Om deze grote hoeveelheid visuele data effici¨ent te consumeren, om op een eenvoudige manier een overzicht te genereren of om bepaalde gebeurtenissen eenvoudig terug te vinden, moet deze data verrijkt worden met informatie omtrent de onderliggende structuur van en de gebeurtenissen aanwezig in mediabronnen. Deze additionele data over data wordt ook metadata genoemd. Aangezien het manueel annoteren en controleren van videomateriaal zeer arbeidsintensief en ineffici¨ent is, werd de laatste jaren heel wat onderzoek verricht in het domein van automatische en semiautomatische videoanalyse. Op basis van de resulterende metadata kan men multimediasystemen opbouwen voor het indexeren en bevragen van databanken, evenals het samenvatten en extraheren van de hoogtepunten. Een voorbeeld hiervan zijn het genereren van visuele inhoudsopgaven welke het navigeren doorheen videostromen vereenvoudigen. In het kader van videobewaking denken we dan aan het assisteren van bewakingsagenten door hen te wijzen op incidenten of verdachte gebeurtenissen.
x Tegenwoordig wordt het overgrote deel van deze data gecomprimeerd om zowel het nodige geheugen als de bandbreedte te beperken. Aangezien de meeste analysetechnieken op pixeldata werken, moet het gecomprimeerde videomateriaal eerst volledig gedecodeerd worden alvorens de analyse kan starten. Het is echter belangrijk om te weten dat gecomprimeerde videostromen reeds heel wat ruwe, maar potentieel bruikbare informatie bevatten die kan ge¨extraheerd worden zonder de stroom volledig te decoderen. Door de analyse in het gecomprimeerde domein uit te voeren, kan men tijdrovende stappen als decodering en het extraheren van visuele kenmerken vermijden. Heel wat algoritmen die gebruikmaken van de MPEG-1- en MPEG-2-videoformaten zijn reeds voorgesteld in de literatuur en hebben aangetoond dat verschillende domeinen binnen videoanalyse voordeel kunnen halen uit het werken op gecomprimeerde data. Voornamelijk het detecteren van shotovergangen, het analyseren van object- en camerabeweging en het volgen van bewegende objecten in applicaties als sport, videobewaking en het indexeren blijken geschikt te zijn voor analyse in het gecomprimeerd domein. Hierbij mag men echter niet uit het oog verliezen dat de bruikbare informatie aanwezig in gecomprimeerde videostromen opnieuw kan berekend worden door algoritmen die werken op pixeldata. Doorgaans zullen de laatstgenoemde technieken accuratere resultaten bekomen, maar zullen hun complexiteit en nodige rekentijd ook hoger zijn. Bijgevolg zijn deze niet altijd even geschikt voor toepassingen in ware tijd. Derhalve moet men in praktische applicaties een afweging maken tussen accuraatheid en complexiteit bij het selecteren van de gewenste algoritmen. In 2003 werd H.264/AVC gestandaardiseerd door het Joint Video Team van ISO/IEC MPEG en ITU-T VCEG. Deze standaard slaagt erin de bitsnelheid verder te reduceren ten opzichte van voorgaande videocodeerstandaarden zonder aan kwaliteit in te boeten, en heeft momenteel reeds zijn intrede gemaakt in heel wat multimediale toepassingen. Deze standaard werd dan ook gekozen als uitgangspunt in dit proefschrift. De nieuwe en verbeterde codeertechnieken van H.264/AVC be¨ınvloeden de eigenschappen van de gecodeerde informatie gebruikt binnen voorgaande analysetechnieken sterk, waardoor deze technieken niet langer toegepast kunnen worden. Het groeiende marktaandeel van H.264/AVC leidt tot de vraag naar nieuwe of aangepaste technieken voor het analyseren van videostromen in het gecomprimeerde domein. Daarom stellen we in dit proefschrift twee algoritmen voor voor het detecteren van shotovergangen en bewegende objecten die de problemen ge¨ıntroduceerd door deze nieuwe of aangepaste codeertechnieken oplossen. Verder tonen we aan hoe men de bekomen metadata kan gebruiken om de oorspronkelijke videostromen aan te passen zodanig dat deze beter overeenkomen met de gebruikersomgeving en persoonlijke voorkeuren.
xi Een eerste belangrijk deel in dit proefschrift behandelt het automatisch detecteren van shotovergangen in H.264/AVC-gecodeerde videostromen. Het doel van dit type technieken is het achterhalen hoe een videostroom temporeel is opgebouwd, aangezien shots algemeen beschouwd worden als de basisblokken van een videostroom. Eerst gaan we uitvoerig in op het verwante werk in dit domein en bespreken we waarom algoritmen voorgesteld voor voorgaande videostandaarden niet langer kunnen gebruikt worden voor H.264/AVC. Op basis van deze observaties wordt ons nieuwe algoritme voorgesteld. In een eerste luik richten we ons op klassieke codeerpatronen, waarbij er een onderscheid wordt gemaakt tussen abrupte en graduele overgangen. Voor het lokaliseren van abrupte overgangen wordt de temporele correlatie tussen opeenvolgende beelden bepaald, wat sterk overeenkomt met verwant werk. Daarnaast wordt echter ook gebruikgemaakt van spatiale informatie wanneer deze temporele predictieketen onderbroken wordt. Om dit probleem op te lossen zou men in voorgaande standaarden typisch beroep doen op DC-beelden om de gelijkenissen tussen opeenvolgende beelden te bestuderen. Met de introductie van spatiale predictie in de H.264/AVC-standaard is het echter niet meer mogelijk om deze lage-resolutiebeelden zonder extra decompressie te genereren. Daarom hebben we zelf het concept “intrapartitioneringskaart” geintroduceerd, welke de spatiale karakteristieken van een beeld weergeeft op basis van de gekozen intrapartitioneringsmodes. Hoewel intragecodeerde macroblokken hoofdzakelijk voorkomen in intragecodeerde beelden, is het belangrijk dat deze kaart bijgewerkt wordt met informatie afkomstig van tussenliggende, intergecodeerde beelden wanneer er zich veranderingen in content voordoen. De statische intrapartitioneringskaart wordt vernieuwd telkens een intragecodeerd macroblok wordt gedetecteerd. De bewegingsgecompenseerde intrapartitioningsmap is hiervan een uitbreiding, waarbij bewegingsvectoren gebruikt worden om de kaart te verfijnen. Aangezien deze laatstgenoemde kaart beter overweg kan met contentveranderingen dan zijn statische tegenhanger, zijn de bekomen resultaten een stuk correcter en komen deze zelfs in de buurt van verwante technieken in het pixeldomein. Graduele transities worden voornamelijk gekenmerkt door het stijgend aantal intragecodeerde macroblokken. Aangezien dit patroon zich eveneens voordoet wanneer de camera of de objecten snel bewegen, is het afgeraden om enkel het percentage intragecodeerde macroblokken te beschouwen tijdens het detecteren van graduele overgangen. Daarom stellen we voor om eveneens de bewegingsvectoren in rekening te brengen om zo een onderscheid te maken tussen graduele overgangen en snelle beweging. Aangezien graduele overgangen sterk kunnen vari¨eren in duur en het gebruikte effect, is de accuraatheid minder hoog dan bij abrupte overgangen, wat in lijn is met gerelateerd werk.
xii In een tweede luik onderzoeken we hoe de voorgestelde shotdetectietechniek kan geoptimaliseerd worden voor hi¨erarchische codeerpatronen. Door de gelaagde structuur inherent verbonden aan hi¨erarchische codeerpatronen uit te buiten, kan ons algoritme zo aangepast worden dat slechts een welbepaald deel van de beelden moet geanalyseerd worden. Op deze manier wordt nog steeds een hoge accuraatheid gegarandeerd, terwijl de complexiteit drastisch wordt verlaagd. Een tweede belangrijk deel in dit proefschrift behandelt het detecteren van bewegende objecten in het gecomprimeerde domein. De meerderheid van de algoritmen voorgesteld in de literatuur maakt gebruik van de bewegingsvectoren aangezien deze een ruwe schatting geven van de beweging aanwezig in de videostroom. Deze vectoren worden gecre¨eerd vanuit het standpunt van videocodering, waardoor deze niet noodzakelijk overeenkomen met de echte beweging. De meeste algoritmen zullen bijgevolg spatiale en temporele filtering toepassen om de invloed van ruis te beperken. Met de introductie van variabele en kleinere blokgroottes binnen H.264/AVC is de aanwezigheid van ruis verder toegenomen. Bijgevolg verdiepen we ons eerst in de mogelijke oorzaken van deze bewegingsvectorruis en kijken we hoe we deze ruis kunnen behandelen. Op basis van deze observaties stellen we ons algoritme voor het detecteren van bewegende objecten in H.264/AVC-gecodeerde videostromen voor. Hiervoor wordt informatie afkomstig van bewegingsvectoren, residuele data en voorgaande detectieresultaten gecombineerd. Deze gegevens worden gebruikt om drie indicatiewaarden te berekenen die de waarschijnlijkheid aangeven dat een blok behoort tot de voorgrond of de achtergrond. In een eerste stap worden de bewegingsvectoren bestudeerd. Enerzijds leggen de grootte van de vectoren de gewenste labels vast. Anderzijds wordt de betrouwbaarheid van deze indicator bepaald door de vectoren in het huidige beeld te vergelijken met geprojecteerde vectoren afkomstig van omringende beelden. De hoeveelheid residuele data wordt als tweede indicator gebruikt en wordt vergeleken met een achtergrondmodel. Grote waarden zullen typisch voorkomen aan de randen van bewegende objecten, e´ e´ n van de locaties waar bewegingsvectoren vaak onbetrouwbaar zijn. Als laatste indicator worden voorgaande detectieresultaten geprojecteerd naar het huidige beeld om zo de temporele correlatie van bewegende objecten in opeenvolgende beelden uit te buiten. Het finale classificatielabel, namelijk voorgrond of achtergrond, wordt bekomen door de verschillende indicatoren te combineren, waarna spatiale en temporele filtering wordt doorgevoerd. In beide hoofdstukken wordt bijzondere aandacht besteed aan het bepalen van de drempelwaarden. Deze drempelwaarden zijn essentieel in het lokali-
xiii seren van shotovergangen en bewegende objecten, en worden toegepast op de verschillende metrieken die de gelijkenissen tussen opeenvolgende beelden of blokken weergeven. Het aantal en de constructie van deze drempelwaarden zijn bepalend voor de accuraatheid en de bruikbaarheid van de voorgestelde technieken in praktische applicaties. Bijgevolg is een van onze doelstellingen om het aantal drempelwaarden tot een minimum te beperken en deze indien mogelijk automatisch te laten aanpassen aan de karakteristieken van de geanalyseerde sequenties. Zo kan het manueel instellen van deze waarden tot een minimum beperkt worden. Om beide technieken te evalueren, zijn deze uitvoerig getest op basis van meerdere uitdagende videosequenties met uiteenlopende karakteristieken. Aangezien de instellingen van de encoder de eigenschappen van de bekomen sequenties sterk kunnen be¨ınvloeden en bijgevolg een impact hebben op de gebruikte gecomprimeerde informatie, zijn deze sequenties verschillende malen gecodeerd om de robuustheid van de voorgestelde algoritmen te illustreren. Bovendien worden de bekomen resultaten nauwkeurig vergeleken met gerelateerd werk om hun accuraatheid beter in te kunnen schatten. Het shotdetectiealgoritme wordt hiervoor vergeleken met een publiek beschikbare techniek uit het pixeldomein. Hoewel beide algoritmen vergelijkbare resultaten opleveren, is het belangrijk om op te merken dat onze techniek gekarakteriseerd is door een aanzienlijk lagere complexiteit. Het objectdetectiealgoritme daarentegen wordt vergeleken met verschillende technieken die eveneens werken op gecomprimeerde data, waaruit duidelijk blijkt dat ons algoritme de beste resultaten oplevert. Het laatste deel in dit proefschrift toont aan dat naast de traditionele toepassingen zoals indexatie en bevraging van multimediale data, ook het domein van het personaliseren van multimediale data baat kan hebben bij de aanwezigheid van metadata afkomstig van videoanalysemodules. Het doel van personalisatie is deze bronnen aan te passen aan de gebruikersomgeving en de persoonlijke voorkeuren. Wanneer de gebruiker gehaast is, kan deze bijvoorbeeld een verkorte versie van een nieuwsuitzending opvragen op basis van zijn eigen interesses. Een ander voorbeeld is het reduceren van de bitsnelheid wanneer de gebruiker slechts een beperkte bandbreedte ter beschikking heeft. Op basis van twee applicaties wordt aangetoond hoe metadata omtrent de spatiale en temporele structuur van een videostroom tot semantische adaptatietechnieken kan leiden. Beide applicaties vertrekken van de oorspronkelijke, gecomprimeerde videostromen en hergebruiken de aanwezige informatie zodat tijdrovend hercoderen tijdens de adaptatie kan vermeden worden. Als eerste applicatie beschouwen we sc`eneselectie. Deze techniek kan gebruikt worden om gepersonaliseerde samenvattingen te genereren op basis
xiv van metadata en gebruikersvoorkeuren. Om deze adaptatietechniek formaatonafhankelijk te maken, wordt een hoogniveau, generieke representatie van de videostructuur voorgesteld gedreven door de MPEG-21 gBS Schema-taal. Bijgevolg kan steeds dezelfde filter worden toegepast voor videostromen gecodeerd met behulp van verschillende codeerstandaarden. De representatie van de structuur is hi¨erarchisch opgebouwd op basis van toegangspunten aanwezig in de stroom om zo het extraheren van geldige videostromen te vereenvoudigen en om de complexiteit verder terug te dringen. Als tweede applicatie maken we gebruik van interessegebieden om videostromen aan te passen aan de beschikbare bandbreedte. In het bijzonder wordt de bitsnelheid gereduceerd, waarbij de verschillende regio’s anders behandeld worden op basis van hun belangrijkheid. In tegenstelling tot de voorgaande applicatie werkt deze techniek op een lager niveau in de videostroom en is daardoor formaatspecifiek. Beide technieken werden grotendeels ontwikkeld binnen het Europees project INTERMEDIA. We hopen de lezer overtuigd te hebben dat analyse van videostromen in het gecomprimeerde domein voordelig kan zijn voor een brede waaier aan applicaties, gaande van het detecteren van gebeurtenissen en het indexeren tot het personaliseren van multimedia. Met de migratie van analoge naar digitale video geloven we dat de resultaten voorgesteld in dit proefschrift de komende jaren nog in waarde zullen toenemen.