De computer merkt dat het spannend wordt

000e11
Film- en televisiemaatschappijen hebben enorme archieven, die slechts op één manier automatisch toegankelijk zijn te maken: naar de beelden kijken, opschrijven wat je ziet en de notities in de computer opslaan. Dat moet beter kunnen, dacht dr. A. Hanjalic aan de TU Delft

Computers zijn goed in harde gegevens. Een computer kan bij een video meteen zien welke kleuren er allemaal gebruikt worden. Hij kan ook beweging detecteren, net als de frequentie van de geluidsband. Maar hij heeft geen idee wat er vertoond wordt, een vredige natuuropname van een kabbelend beekje met wat vogeltjes of een keiharde actiefilm waar de ontploffingen en kogels je om de oren vliegen.

Once upon a time in the west

Althans, tot voor kort. Na vijf jaar werk heeft Hanjalic het begin van een systeem dat ook een beetje kan kijken naar de inhoud van videobeelden. ‘Er zit een verschil tussen de meetbare eigenschappen van video en de betekenis ervan’, legt hij uit. ‘Dat heet de semantic gap. Dat gat kun je nooit helemaal overbruggen, maar je kunt het wel kleiner maken. Het gaat erom de zoekruimte te beperken.’

Iets concreter: Hanjalic zag ooit archivarissen van de Portugese radio en televisie aan het werk. Zij moesten alle banden doorworstelen om te noteren wat er precies te zien en te horen was. Dat werk zou heel wat efficiënter verlopen als de computer suggesties kon doen. Zelfs als het maar in de helft van de gevallen correct zou zijn, zou het al werk schelen. Er zijn echter meer toepassingen. De bekendste daarvan is de geweldchip in televisies, een systeem dat zou moeten kijken of de beelden niet te gewelddadig zijn om aan kinderen te vertonen. Zo’n chip (die nog niet bestaat) moet ook in staat zijn de inhoud van het beeld te beoordelen.

‘Als je begint met je analyse, moet je je eerst afvragen wát je wilt extraheren uit de beelden, vertelt Hanjalic. ‘Gaat het je om het herkennen van onderdelen – is het een dier of een landschap – of wil je weten welk gevoel de kijker krijgt bij het zien van de beelden? Met dat laatste houd ik me de laatste tijd bezig. In Europa zijn wij de eersten die hieraan werken.’

Keyframes

Natuurlijk is het onmogelijk en ook onwenselijk om in een film beeldje voor beeldje te bekijken of het spannend, komisch of nog iets anders is. Je moet het per scène beoordelen. Dan moet je wel weten waar een scène begint en eindigt. Sterker nog, een scène bestaat uit een aantal shots (beelden vanuit één camera) en zelfs het begin en einde van een shot detecteren is al lastig genoeg.

Once upon a time in the west

‘Zolang de camera en de objecten in beeld met een gewone snelheid bewegen , is het eenvoudig’, vertelt Hanjalic. ‘Dan vergelijk je de opeenvolgende beelden en als die ongeveer hetzelfde zijn, dan is het één shot. Hier wordt al tien jaar aan gewerkt en er is nog altijd geen algoritme dat in alle gevallen werkt. Soms zijn de verschillen tussen opeenvolgende beelden toch groot, bijvoorbeeld door flitsen of door grote bewegingen vlak voor de camera. Bovendien zijn de grenzen tussen shots niet altijd abrupt: als de shots langzaam in elkaar overvloeien, ziet de computer de overgang niet. Het zou nog wel te doen zijn als de vorm en de lengte van de overgang vastlagen, maar dat is niet het geval.’

Hanjalic bracht verbeteringen aan in de bestaande methoden om shots te onderscheiden door gebruik te maken van de zogenoemde statistische detectietheorie. Hierin wordt de beslissing over een hypothese (‘shot wisseling’ of ‘geen shot wisseling’) op een bepaald tijdstip genomen op basis van een combinatie van verschillende statistische parameters. De eerste parameter houdt bij hoeveel frames voorbij kwamen sinds de laatste vastgestelde shot wisselling. Door deze parameter af te wegen tegen bestaande kennis over de conventionele lengte van shots mee te wegen, wordt een beter resultaat verkregen. Ultrakorte shots zijn zeldzaam. Als de computer op grond van de beelden steeds shots van een seconde onderscheidt, is er waarschijnlijk iets anders aan de hand, bijvoorbeeld een scène in een discotheek met een stroboscoop.

Voor de tweede en de derde parameter worden de verschillen tussen opeenvolgende beelden gemeten. De tweede parameter proeft alleen of de meetwaarde voldoende hoog of laag is, om het tot de eerste of de tweede hypothese toe te kennen. Hier wordt simpel gezegd gebruik gemaakt van het feit dat als een beeld ineens sterk afwijkt van het vorige, er waarschijnlijk sprake is van een shot wisseling. De derde parameter vergelijkt het patroon dat gecreëerd is door een aantal opeenvolgende meetwaarden met het patroon dat volgens een model te verwachten is bij een shot wisseling. Komen de patronen overeen, dan is er waarschijnlijk sprake van een shot wisseling.

Once upon a time in the west

Uit ieder shot wordt vervolgens een aantal keyframes geselecteerd, beelden die representatief zijn voor het betreffende shot. Bij een kalm shot kan een enkel keyframe voldoende zijn, bij actie zijn er meer nodig. Ook deze selectie vindt automatisch plaats, aan de hand van de hoeveelheid beweging tussen de opeenvolgende beelden.

Vier bruiloften

De volgende stap is het groeperen van shots tot een scène. ‘Een scène wordt gekarakteriseerd door een bepaalde locatie en bepaalde personages’, zegt Hanjalic. ‘Dat betekent een bepaalde kleurcompositie, waar je gebruik van kunt maken door over meerdere shots te kijken naar de consistentie van die kleurcompositie. Een mooi voorbeeld is een dialoog tussen drie personen, waarbij de camera steeds van een naar de ander switcht. Je begint met het eerste shot waar persoon A in voorkomt. Als de keyframes in dat shot voor vijftig tot zeventig procent overeenkomen met de keyframes zes shots verderop, waarschijnlijk een shot waarin A weer voorkomt, dan kun je ervanuitgaan dat het dezelfde scène is.’

Er even vanuit gaand dat de regisseur niet heel wild shots door elkaar gemonteerd heeft, betekent dit voorbeeld dat de tussenliggende vijf shots bij dezelfde scène horen. Je gaat dan in het vervolg van de video speuren naar shots waarvan de keyframes hiermee overeenkomen. Zo vind je uiteindelijk wellicht een stuk of twintig shots die een eenheid vormen. Dat wil zeggen, hiertussen bevinden zich geen losse shots meer en een eindje verderop volgen geen shots meer die overeenkomsten vertonen met de shots uit deze eenheid. De grenzen van de scène zijn gevonden.

‘We hebben dit model getest op twee films, Jurassic Park en Four Weddings and a Funeral’, vertelt Hanjalic. ‘In zestig tot zeventig procent van de gevallen leverde dat correcte scènegrenzen op. De rest van de overgangen voldeed niet aan het model dat ik hanteerde, en werd daarom niet gevonden.’

Jurassic Park

Journaal

Tot zover volgde Hanjalic’ onderzoek de bekende lijnen voor beeldherkenning. Dit werk stond echter in dienst van een ander doel: het classificeren van de inhoud. Voor hij zich stortte op het herkennen van emoties stortte, keek Hanjalic naar nieuwsuitzendingen. Hij wilde die automatisch opknippen per onderwerp. Daarvoor waren bovenstaande technieken niet voldoende. Vanwege de steeds terugkerende nieuwslezer zou het systeem immers geneigd zijn het hele journaal als een enkele scène te beschouwen.

‘We hebben eerst gekeken naar het videosignaal’, vertelt Hanjalic over de aanpak die hij en zijn collega’s volgden. ‘De nieuwslezer kun je er goed uithalen. Als hij in beeld verschijnt, is dat een goede aanwijzing voor de grens van een reportage. Maar tussen de items van het korte nieuws verschijnt hij niet, dus het is niet voldoende. Daarom kijken we ook naar het geluid. Een pauze van twee seconden wijst ook vaak op het overschakelen van het ene onderwerp naar het andere.’

Nadat de grenzen tussen de onderwerpen gevonden zijn, is het zaak te bepalen om welk onderwerp het gaat. Dit lukt nog niet zonder menselijke hulp. ‘Je hebt een database van onderwerpen nodig’, zegt Hanjalic. ‘Daarvoor neem je een aantal artikelen die over een bepaald onderwerp gaan. Een mechanisme bepaalt hoe specifiek bepaalde woorden zijn voor het onderwerp. Ieder woord krijgt een weegfactor mee.’

Vervolgens wordt het geluid van het nieuwsonderwerp middels spraakherkenning omgezet in tekst. De frequentie waarin woorden voorkomen wordt vergeleken met de verdeling van woorden in de voorbeeldteksten in de database. Als de woordverdeling in het journaal overeenkomt met die van onderwerp x in de database, dan gaat het journaalonderwerp waarschijnlijk ook over x. ‘Tegenwoordig wordt het je vaak nog makkelijker gemaakt doordat nieuwszenders de tekst met de beelden meesturen’, zegt Hanjalic. ‘Dan hoef je geen gebruik meer te maken van spraakherkenning. Overigens is het waarschijnlijk dat ze in de toekomst ook onderwerpaanduidingen gaan meesturen. Mijn systeem is dan ook vooral bedoeld voor archieven.’

Hanjalic testte zijn systeem op verschillende journaaluitzendingen. Het ging bijna altijd goed. ‘Als het onderwerp genoeg getraind is, dat wil zeggen als de teksten in de database representatief zijn, dan gaat de classificatie goed.’

Hartritme

Voor het herkennen van beelden op basis van de emoties die ze oproepen, ging Hanjalic eigenlijk op dezelfde manier te werk. Het grote verschil is dat de grens tussen twee reportages een min of meer objectief gegeven is, terwijl het onderscheid tussen emoties veel vager is. Er moesten dus keuzes gemaakt worden.

Het werd een al bekend model dat de menselijke emoties langs drie assen verdeelt: controle, opwinding en plezierigheid. Controle over de situatie speelt in het echte leven een belangrijke rol, maar bij het bekijken van video niet, dus dat aspect kon hier weggelaten worden. Zo ontstond een tweedimensionaal model met opwinding (van kalm tot opgewonden) en plezierigheid (van aangenaam tot onaangenaam) als factoren. Dit model is populair bij psychologen, omdat het meetbare factoren zijn. Opwinding valt te meten aan de weerstand van de huid, terwijl de mate van plezier verband houdt met het hartritme en beweging van de gezichtsspieren.

Ook in medialand staat opwinding als emotie hoog aangeschreven. Het is bijvoorbeeld bekend dat opwinding de belangrijkste factor is bij de waardering van sportwedstrijden. Een systeem dat automatisch de hoogtepunten uit een voetbalwedstrijd selecteert, is een aantrekkelijke gedachte voor mediabedrijven. Als je van een speelfilm een emotie-diagram zou kunnen maken, kun je ook veel beter mensen op hun individuele interesses bedienen. Kortom, een uiterst interessant onderwerp voor de vermaaksindustrie. Hanjalic deed een deel van zijn werk op dit gebied dan ook bij British Telecom, dat werk wil maken van personificatie van het televisieaanbod.

Saving Private Ryan

De vraag was alleen hoe je opwinding en plezierigheid afleidt uit de video. ‘Voor opwinding heb ik drie features gevonden’, zegt Hanjalic. ‘De eerste is beweging: meer beweging betekent doorgaans dat er opwindende dingen gebeuren. Hetzelfde geldt voor de lengte van de shots. Een lang shot wijst op kalmte. De derde feature is de energie van het geluid in de hogere frequenties.’

Dat laatste laat zich vertalen als schreeuwende mensen. In feite probeert Hanjalic de trucs te detecteren die regisseurs gebruiken om spanning op te bouwen. De rol van geluid laat zich mooi illustreren aan de hand van een voetbalwedstrijd: iedereen weet dat commentatoren opgewonden beginnen te spreken als er een doelpunt valt. Radiocommentatoren vergroten dit audio-aspect zelfs uit, om luisteraars bij gebrek aan beelden toch aan de nodige opwinding te helpen. Hanjalic liet zijn methode los op een voetbalwedstrijd en op de film Saving Private Ryan. Dat leverde resultaten op die goed overeenkwamen met wat een menselijke kijker zou ervaren. Bij de voetbalwedstrijd leidden de doelpunten en kansen tot duidelijke pieken in het diagram.

Voor plezierigheid vond Hanjalic vooralsnog één feature, namelijk de fundamentele frequentie (toonhoogte) van de spraaksignalen. Lage stemmen wijzen op een depressieve sfeer, hoge op optimisme. ‘Ik heb dit getest op een stuk uit Saving Private Ryan en het blijkt goed te werken. Je ziet dat de curve overal negatief is. Slechts op één plek zegt het systeem dat de film aangenaam is. Dat is inderdaad de scène waar ze een beetje lopen en grapjes maken.’

Saving Private Ryan

Hanjalic, die samen met zijn collega bij British Telecom patent heeft aangevraagd op het systeem, laat een diagram zien waarin opwinding en plezierigheid samen uitgezet zijn. In één oogopslag valt het verloop van het stukje film op te maken. Het gaat negatief maar kalm start (voor wie de film gezien heeft: het geanalyseerde stuk slaat de afschrikwekkende landingsscène over), loopt dan licht omhoog qua opwinding en mate van aangenaamheid, schiet vervolgens terug naar negatief maar opwindender, bereikt een bloedstollende climax om tenslotte geleidelijk terug te lopen naar kalm en redelijk positief.
Hanjalic is de eerste om toe te geven dat zijn systeem nog verre van volmaakt is. Films die zich onttrekken aan de conventies zijn moeilijk te classificeren. Een kannibaal die ijselijk kalm iemands hersens leeglepelt, onlangs vertoond in de film Hannibal, glipt langs de criteria voor opwinding. Er is dan ook nog een hele weg te gaan voordat een werkbaar systeem ontstaat.

‘Ik ben ervan overtuigd dat dit de toekomst heeft’, zegt Hanjalic. ‘Een van de belangrijkste dingen die nog moet gebeuren is het ontwikkelen van meer features om een betere classificatie van de emoties te krijgen. Ook zullen er tests met gebruikers moeten komen om vast te stellen hoe goed de mening van het systeem overeenkomt met de indrukken van de kijkers.’

Eerder verschenen in Delft Integraal nr 3, 2001.