Publieke PhD Verdediging

Scène-perceptie: Genereren en exploiteren van visie-gebaseerde meta-data

English version

General Info

Datum 24 augustus 2021 om 17:00
Plaats Jan Pieter de Nayerlaan 5, 2860 St-Katelijne-Waver
Lokaal K104
Ingediende Tekst Link naar Lirias

Aangezien dit een publieke doctoraatsverdediging was, moedig ik jou aan deze pagina te delen met anderen die interesse hebben om mijn presentatie te volgen.

Livestream Opname

*Nederlandse ondertitelingen worden nog vervolledigd

Samenvatting

Wij mensen zijn goed geoefend om het beeld van onze ogen te begrijpen. Een enkele blik voldoet om in staat te zijn een omschrijving te maken met veel visuele details. In de huidige digitale tijd zijn computers stap voor stap in staat geworden eenzelfde scène perceptie of beeld te begrijpen. Veel onderzoeksmiddelen worden gestopt in “Computer Visie”: technieken om afbeeldingen te classificeren, objecten te detecteren, personen te heridentificeren en meer. Desondanks blijkt dat deze technieken vaak enkel getest zijn op grote generische datasets. Deze manier is inderdaad nodig om de prestatieverschillen tussen “state-of-the-art” technieken te meten en vergelijken. Helaas blijven de prestaties op toepassingen in de praktijk hierdoor onbekend en ondoorgrond. In dit doctoraat onderzoeken we hoe goed state-of-the-art technieken presteren aan de hand van verschillende real-life use cases. Voor elke use case, met telkens met verschillende uitdagingen, volgen we twee onderzoeksstappen. Ten eerste extraheren we op visie gebaseerde metadata als een abstracte tussenbeschrijving van de scène. Deze metadata kunnen verschillende vormen aannemen, bv. een kader rond objecten telkens voorgesteld doormiddel van 2 coördinaten. Afhankelijk van de toepassing kan meer use case-specifieke metadata worden afgeleid, bv. coördinaten voor de aansturing van een pan-tilt-zoom camera. Beide meta-datatypes werden vergeleken, rekening houdend met de use case-specifieke uitdagingen. Onze tweede stap bouwt verder op de geëxtraheerde, waarbij we de prestaties voor exploitatie in de praktijk onder de loep nemen, bv. het starten of stoppen van een of meerdere camera-opnames.

Binnen dit doctoraat evalueren we de huidige technologie aan de hand van vier praktische use cases. In de eerste werkten we samen met een productiehuis om een innovatief en maatschappelijk reality-tv-programma op te nemen. In het programma werden mensen 24/7 gevolgd en gefilmd met behulp van verschillende pan-tilt-zoomcamera’s geïnstalleerd in hun woning. Opnames 24/7 laten lopen resulteert in een enorme hoeveelheid verzameld beeldmateriaal. Daarbij komt ook de intensieve werklast om de camera’s continu te besturen en herpositioneren. In deze use case vergeleken we verschillende state-of-the-art technieken om een autonoom systeem te ontwikkelen dat in staat is de camera’s te sturen richting cinematografisch aantrekkelijke mediumshots. Daarnaast stellen we een techniek voor die de hoeveelheid opgenomen beeldmateriaal vermindert op basis van kameractiviteit. Ten slotte, hebben we verschillende state-of-the-art technieken gecombineerd om samenvattende tijdlijnen te genereren. Deze tijdlijnen verminderen op hun beurt de zoektijd in de opnames voor de redacteur. In deze tijdlijnen combineren we identiteiten van personen, actie- en geluidslabels.

In de volgende use case hebben we een systeem ontwikkeld om mensen te tellen in beelden van op het plafond gemonteerde camera’s. Deze camera’s bestaan uit een embedded systeem met een omni-directionele cameralens. Door dit systeem te gebruiken, bv. boven flexplekken of vergadertafels, kan de bezettingsgraad gemeten worden om daarna de bezetting te optimaliseren. Wanneer camera’s worden geïnstalleerd in de werkruimtes, moeten we de opgelegde privacyregelgeving respecteren. Een eerste stap is het voorzien van een systeem dat geen visuele gegevens verzendt of opslaat. Om de privacy verder te garanderen, werken we op extreem lage resolutie-afbeeldingen, waarop we nog net in staat zijn mensen te tellen, maar niet te herkennen. Om de prestaties van ons systeem te verbeteren, gebruiken we ook tijdsinformatie met behulp van interliniërende kernel upschaling. Ons werk concludeert dat het mogelijk is om acceptabele prestaties te bereiken bij een resolutie van maar 48X48 pixels, met een snelheid van 0,1 FPS op een embedded systeem.

In onze derde use case ontwikkelden we een systeem om automatisch interessegebieden uit mobiele eye-tracker-opnames te extraheren. Deze eye-trackers zijn een soort van “smart-glasses” die in staat zijn het perspectief van de drager vast te leggen, samen met de locatie van hun visuele focus of bliklocatie. In tegenstelling tot schermgemonteerde eye-trackers zijn mobiele eye-trackers minder opvallend en draagbaar. Mede hierdoor worden ze vaak ingezet in studies rond de interactie van mensen tijdens conversaties. Doordat de camerabeelden nooit twee keer dezelfde zijn bij mobiele eye-trackers levert iedere studie ongeziene gegevens op. Deze telkens verwerken is een zware werklast voor menselijke annotators, die herhaald wordt na elke opname. Door gebruik te maken van een state-of-the-art techniek, zoals een “pose estimator”, kunnen dezelfde interessegebieden van personen automatisch worden geëxtraheerd, bv. het hoofdgebied van de conversanten. Door de marge rond het hoofd aanpasbaar te maken laten we toe om de voorkeur van een menselijke annotator te imiteren. Bovendien stellen we de gebruiker in staat om identiteitslabels aan te maken met slechts een beperkte hoeveelheid aan handmatige invoer. Doormiddel van deze handmatig ingestelde identiteiten kan het systeem automatisch de overige onbekende persoonsidentiteiten bepalen. Door de bliklocatie en de interessegebieden te combineren, produceren we de labels automatisch.

In een ziekenhuis is veel geavanceerde apparatuur aanwezig, onder andere een röntgenscanner. Om meer flexibiliteit mogelijk te maken, zijn moderne röntgenscanners bevestigd aan een beweegbare robotarm. Hierdoor is het mogelijk om meerdere flexibele scanposities in te stellen. Bij zo’n systeem dringen aanvullende veiligheidsmaatregelen zich op om de persoonsveiligheid te garanderen en ongelukken te vermijden, bv. botsingen tussen de personen en de robotarm. In deze laatste use case hebben we een systeem ontwikkeld dat in staat is een 3D “occupancy map” te creëren van de personen in de ruimte. We vergelijken hiervoor de snelheid en naukeurigheid van een “instance segmentation” en “objectdetector” architectuur. Hun output op meerdere overlappende camera’s wordt gecombineerd met de “visual hull” techniek. Achteraf kan deze 3D “occupancy map” worden gebruikt om een beperking op te leggen op de mogelijke robotposities. Hierdoor zijn we in staat de kans op botsingen tussen mens en robot grotendeels te beperken.

Elk van de bovengenoemde use cases betreft een praktisch industriële use case, elk met zijn eigen uitdagingen. Binnen dit doctoraat gebruiken en vergelijken we verschillende technieken die in staat zijn om abstracte visie metadata te extraheren. Daarna bouwen we verder op deze abstracte metadata om ook de exploitatie in de praktijk ervan te evalueren. In ons onderzoek pushen we state-of-the-art computervisietechnieken verder dan enkel generieke evaluaties op grote datasets. Hierdoor verworven we telkens nieuwe en verschillende inzichten over de prestaties specifiek voor exploitatie in de praktijk.

Next