Project
2021 - 2023VisXP
Flexible use of computer vision
Het VisXP project heeft het doel om beeldherkenning breed inzetbaar te maken binnen media archieven op basis van interactieve lerende interfaces die gebruikers zelf in staat stelt om de data visueel te verkennen. Dit vereist onderzoek naar het combineren van de verschillende soorten databronnen binnen archieven, voor zowel de analyse als voor het tonen en visualiseren in de interface. Het onderzoek hiervoor wordt gedaan in twee onderzoekslijnen:
- De eerste onderzoekslijn ‘Multimedia Analytics’ onderzoekt nieuwe methoden en technieken voor het interactief en lerend verkennen van media archief data op schaal.
- De tweede onderzoekslijn ‘Computer Vision’ richt zich op op het ontwikkelen van flexibel inzetbare algoritmes voor het extraheren van informatie uit visuele archief data met een focus op generieke en niet taak-specifieke toepassingen.
Om het onderzoek ook een praktische vorm te geven binnen de media archief context wordt er een interactieve lerende module ontwikkeld. Middels deze module kunnen gebruikers zelf data organiseren, categoriseren, en interpreteren om tot antwoorden te komen op onderzoeks- en informatievragen. Uitgangspunt daarbij is dat zo’n module gekoppeld moet kunnen worden aan data infrastructuren en archieven, en dus aansluit bij de geldende standaarden en best-practices voor de grootschalige en computationeel intensieve verwerking van audiovisuele data, inclusief (beveiligde) opslag en opvraagbaarheid van gegevens.
Het project wordt iteratief opgezet, waarbij de focus ligt op het in toenemende mate ontwikkelen van kennis over hoe Computer Vision en Multimedia Analytics technieken ingezet kunnen worden binnen media archieven. Gebaseerd op een agile werkwijze starten we bij de huidige state-of-the-art, met het door het UvA MultiX lab ontwikkelde MediaTable systeem en een selectie aan media archief data. Aanvullende wordt er in het project doorgebouwd op de door UvA en Beeld & Geluid ontwikkelde DANE infrastructuur. Deze voor CLARIAH ontwikkelde infrastructuur maakt het mogelijk om grootschalige CV analyses uit te voeren op media archieven met het doel om deze te ontsluiten voor toepassingen zoals het interactief verkennen van de data. Door in iteraties door te bouwen op dit beginpunt wordt er gewerkt naar een prototype waarin de in het onderzoek ontwikkelde principes gekoppeld kunnen worden aan de media archieven in de Media Suite.
Om de ontwikkeling in de juiste banen te leiden wordt de functionaliteit geëvalueerd met gebruikers. Hierbij wordt er gebouwd op de kennis en ervaring bij Beeld & Geluid labs en wordt aangehaakt bij bestaande initiatieven zoals het CLICKNL Field Lab Virtual Worlds en onderzoeksprojecten (CLARIAH, AI4Media). Via deze lijnen worden ook de media bedrijven zelf betrokken, met RTL als belangrijke vertegenwoordiger met grote interesse en verwachtingen van CV technologie voor deze media organisatie. De uitkomst van deze evaluaties wordt vervolgens terugvertaald naar concrete stappen voor de ontwikkeling door de UvA onderzoekers. Door deze ontwikkeling en evaluatie iteratief af te wisselen kan de functionaliteit geleidelijk opgeschaald worden, binnen de infrastructuur van Beeld & Geluid.
Voor de ontwikkeling en evaluaties wordt er gebruik gemaakt van een combinatie van selecties uit het audiovisueel materiaal beschikbaar bij Beeld & Geluid, en openbare onderzoeks datasets. Deze combinatie maakt het mogelijk om de toepasbaarheid binnen de media archieven te bepalen, en om de functionaliteit af te zetten tegen state-of-the-art ontwikkelingen binnen het onderzoeksveld. Concrete voorbeelden van te gebruiken collecties zijn de openbare YFCC100M dataset (zoals ook zichtbaar in Figuur 2), en de in het Beeld & Geluid open data lab gebruikte Openbeelden collectie. Naast de bij Beeld & Geluid beschikbare infrastructuur voor DANE, wordt er ook gebruik gemaakt van de onderzoeksomgeving beschikbaar bij de UvA om te experimenten en prototypes te ontwikkelen.
Updates
- 13 april 2022: kick-off VisXP bij Beeld & Geluid.