Tekst Jochem Davidse
Foto Loes Spruijt-van der Meer

Het NFI over de inzet van Artificial Intelligence bij spraak- en gezichtsvergelijking

Bij spraak- en gezichtsvergelijkingsonderzoeken schakelt het Nederlands Forensisch Instituut sinds een paar jaar, naast menselijke expertise, ook de hulp in van Artificial Intelligence. Het gebruik daarvan bij dit soort onderzoeken is internationaal niet onomstreden, maar bij het NFI gaat men niet over één nacht ijs. “De waarde ervan valt of staat met de zorgvuldigheid waarmee je het inzet.”

'Dit is met afstand de hoogste mannenstem die ik ooit in mijn werk ben tegengekomen'

In een geluidsdichte kamer van het Nederlands Forensisch Instituut in Den Haag, een zogenaamde box-inbox-ruimte, klinkt een stem. De spreker voert een telefoongesprek over criminele activiteiten, maar hoe verleidelijk het ook is om naar de inhoud daarvan te luisteren, die doet op dit moment niet ter zake. Het gaat om de stem. Om de klank en om de manier van spreken.

“Wat valt je op?” vraagt forensisch foneticus David van der Vloed, terwijl hij naar de geluidsgolven kijkt die op zijn scherm op en neer dansen.

“Man of vrouw?” vraagt hij.

“Man?”

“Check.

En verder?”

“Hoge stem.”

“Nogal. Nog meer?”

“Relatief jong. In de twintig?”

“Check. Nog meer?”

“Van Noord-Afrikaanse origine?”

“Vermoedelijk.“

Dan klikt Van der Vloed een ander geluidsbestand aan. Opnieuw klinkt een opvallend hoge mannenstem, maar dit keer voert de spreker een veel onschuldiger gesprek.

“Wat denk je? Is dit dezelfde stem?”

Zijn glimlacht verraadt het antwoord al. “Soms is mijn werk niet zo heel erg ingewikkeld. Dit is met afstand de hoogste mannenstem die ik ooit in mijn werk ben tegengekomen. Een erg in het oor springende stem, zeg maar. Meer dan 300 Hertz, terwijl de gemiddelde mannenstem 110 Hertz is. Deze twee stemopnames zijn alleen al vanwege de hoogte van de stem sterk bewijs.”

Niet onomstreden

Van der Vloed is een van de NFI-specialisten op het gebied van sprekervergelijking. Regelmatig wordt zijn expertise ingeroepen bij strafzaken waarin de verdachte ontkent degene te zijn wiens stem op tapgesprekken of andere onderschepte communicatie te horen is. Van der Vloed en zijn team bepalen de ‘bewijskracht’ van de stem. Daarmee kunnen ze aangeven of het een en dezelfde persoon is, of dat het om verschillende personen gaat. Het rapport waarin zij hun bevindingen uiteenzetten en motiveren weegt mee in de bewijslast.

Sinds drie jaar worden die bevindingen aangevuld met een tweede oordeel, namelijk die van Artificial Intelligence (AI). Door spraakbestanden in speciaal daarvoor ontwikkelde software in te voeren, berekent een computer de overeenkomst van de klank van de stem in de twee opnames. Nederland is niet het eerste land dat deze technologie inzet, maar nog altijd wel een van de weinige. Internationaal is het middel namelijk niet onomstreden. Het meest gehoorde bezwaar van sceptici is dat niemand precies weet hoe AI werkt. Moet je daar dan dit soort oordelen aan toevertrouwen? Van der Vloed begrijpt die scepsis, maar beschouwt het als zijn missie om die twijfels weg te nemen. “Wat is belangrijker: weten hóé het werkt, of weten dát het werkt, en dat ook wetenschappelijk kunnen aantonen? Volgens mij dat laatste.”  

Forensisch foneticus Van der Vloed: 'Wat is belangrijker: weten hóé AI werkt, of weten dát het werkt, en dat ook wetenschappelijk kunnen aantonen?'

“Van de mens weten we ook niet precies hoe die werkt,” vult zijn NFI-collega Arnout Ruifrok aan. Zijn werkplek bevindt zich een paar deuren verderop, op de afdeling Gezichtsvergelijking, waar men met soortgelijke software werkt.

“Waaraan herken je iemand nou precies?” vervolgt hij. “Je eigen partner bijvoorbeeld. Dat is best moeilijk te zeggen. Maar je herkent hem of haar wel. Bij AI is dat in feite niet anders.”

'Het testen van de betrouwbaarheid van een menselijk oordeel is lastig en zeer tijdrovend. Het testen van software is dat niet'

AI is objectiever

Van der Vloed: “Zolang je de mens als enig meetinstrument gebruikt, zul je altijd vatbaar blijven voor het verwijt van subjectiviteit. Hoe vakkundig en integer je je werk ook probeert te doen, je kunt je daar nooit helemaal tegen wapenen. Een oordeel op basis van AI is objectiever, maar de waarde ervan valt of staat met de zorgvuldigheid waarmee je het inzet. Doe je dat met de grootst mogelijke zorgvuldigheid, en ik denk dat wij daar bij het NFI wereldwijd in voorop lopen, dan is het een geweldige aanvulling op onze menselijke expertise. Want laat dat duidelijk zijn: we varen niet blind op de bevindingen van de computer, maar we gebruiken die als deskundigen naast onze eigen bevindingen. Ons vakgebied wordt nog altijd gedomineerd door menselijk onderzoek.”

“In feite is onze manier van werken sinds de komst van AI niet eens wezenlijk veranderd,” vertelt Ruifrok, die al ruim twintig jaar werkzaam is bij het NFI. “Bij het beoordelen van beelden werken wij nog altijd met onze ‘ouderwetse’ lijst van gezichtskenmerken. Die wordt in elk onderzoek door drie deskundigen afzonderlijk van elkaar ingevuld. De een kan immers overeenkomsten of verschillen zien die een ander wellicht niet ziet. Of dingen anders interpreteren. Is dat wel een litteken of toch de afdruk van het Forensisch paspoortnietje? Dat leidt vervolgens tot een gezamenlijke conclusie. Of niet, ook dat komt voor. Verschillen we onderling van mening dan melden we dat in het rapport en dan lichten we dat ook toe. Zo hebben we altijd gewerkt en zo werken we nog steeds.

Het AI-oordeel is daar nu bij gekomen. Met de computer kunnen we niet in discussie, maar het kan wel tot andere inzichten leiden. Hebben wij misschien iets gemist of verkeerd geïnterpreteerd? Dat maakt de kans op eventuele vergissingen alleen maar kleiner. Mits je er dus zorgvuldig mee omgaat en je bewust bent van hoe de software zich gedraagt. Dat doe je door het uitvoerig te testen. Dat is het grote voordeel van software boven mensen. Het testen van de betrouwbaarheid van een menselijk oordeel is lastig en zeer tijdrovend. Het testen van software is dat niet. Daar kun je een enorme hoeveelheid data ingooien en dan weet je betrekkelijk snel hoe die zich gedraagt.”

Achttien foto's, maar van hoeveel personen? Eentje: Arnout Ruifrok, specialist gezichtsvergelijking bij het NFI

'Je moet de valkuilen kennen, anders is deze software in principe waardeloos, of zelfs gevaarlijk'

Om het gedrag van de software te testen, en het zodoende te kunnen doorgronden, moest die gevoed worden met zoveel mogelijk menselijke gezichten en stemmen. Ruifrok zocht het daarbij niet ver van huis. Hij vond een honderdtal collega’s bereid om zich bij binnenkomst in het NFI-pand op camera te laten vastleggen. Of beter: op zes camera’s. Vanuit verschillende hoeken en vanaf verschillende afstanden werden zij gefilmd, vaak met weinig of slecht licht, om het soort beeld te benaderen waarmee Ruifrok in de praktijk veelal zijn werk moet doen. Duizenden andere beelden om het systeem mee te testen haalde hij uit publieke datasets, zoals Labeled Faces in the Wild, een enorme verzameling foto’s van bekende personen van over de hele wereld.

Zijn ‘spraak-collega’ Van der Vloed legde door de jaren heen een soortgelijke verzameling aan van tapgesprekken, voicemailberichten, politieverhoren en andere stemopnames. Een verzameling die, ondanks dat hij er naar eigen zeggen ‘zijn halve carrière’ aan heeft besteed, nooit compleet zal zijn.

Van der Vloed: “Doe je dat soort investeringen niet dan is deze software in principe waardeloos, of zelfs gevaarlijk. Je moet de valkuilen kennen. Wat is bijvoorbeeld de invloed van bepaalde achtergrondgeluiden? Wat is de invloed van emoties? Welke opnames kun je wel met elkaar vergelijken en welke vooral niet? Het is veel meer dan op een knop drukken.”

Verbluffende resultaten

Ruifrok: “Wat wij door alle tests inmiddels van de software weten is dat die geneigd is een hogere vergelijkingswaarde toe te dichten aan twee slechte, donkere foto’s dan aan een goede en een slechte foto, ook al staat op al die foto’s een en dezelfde persoon. Die kennis is essentieel bij het vormen van een eindoordeel. Dat moet je meewegen. Ook weten we dat als het gaat om gezichtsvergelijking de software niet altijd onderscheid maakt tussen mannen en vrouwen, of tussen mensen met een verschillende huidskleur, terwijl dat iets is wat de meeste mensen vaak meteen doen. Zoals de mens van nature ook veel meer let op secundaire kenmerken, buiten het gezicht om. Dingen zoals haar of het gebruik van make-up. Daar kun je aanknopingspunten in vinden, maar ze kunnen ook misleidend zijn. Het algoritme van deze software oordeelt objectiever en let veel meer op gelaatstrekken. Met soms verbluffende resultaten. Laatst is er een test gedaan waarbij de computer in een enorme hoeveelheid data op zoek moest naar een specifiek vrouwengezicht. Maar in de bestanden die de computer moest doorzoeken droeg die vrouw een schoonheidsmasker, zo’n lichtgroen kleimasker. Toch pikte hij haar eruit. Het is geen wedstrijd, maar toch, ik denk dat ik dat niet had klaargespeeld.”

Van der Vloed: “Zo vullen menselijke expertise en AI elkaar aan. Op mijn vakgebied beperkt de software zich bijvoorbeeld uitsluitend tot de klank van de stem, terwijl de mens ook luistert naar de manier van praten, naar het tempo, eventuele accenten, opvallend woordgebruik en dergelijke. AI doet dat allemaal niet. Of iemand met een Limburgs of een Fries accent spreekt, haalt de software er niet uit. Net zo min als een spraakgebrek, kenmerkende stopwoordjes of andere maniertjes. En dat is met het oog op een objectieve beoordeling ook precies de bedoeling.”

Meer feedback

Van der Vloed volgde de eerste zaak waarbij hij in het forensisch onderzoeksrapport, naast een menselijk oordeel, ook het oordeel op basis van AI opnam, vanzelfsprekend op de voet. Of de betrokken partijen wisten dat ze met een Nederlandse primeur van doen hadden durft hij niet te zeggen, maar zoals hij al verwachtte, zette de verdediging de grootst mogelijke vraagtekens bij de inzet van AI en bij de beoordeling die daaruit volgde. In tegenstelling tot de rechtbank, die van enige twijfel over het nieuwe onderzoeksinstrument geen enkele blijk gaf.

Daaruit, en uit het feit dat het ook in latere zaken nooit tot noemenswaardige ophef leidde, concluderen de NFI-onderzoekers dat de inzet van AI ook in de rechtszaal inmiddels is geaccepteerd, al geven beiden aan dat meer feedback vanuit het Openbaar Ministerie en de Rechtspraak welkom zou zijn.

Ruifrok: “Zeker met het oog op dit soort relatief nieuwe ontwikkelingen zou dat goed zijn. En dan heb ik het niet eens zozeer over de waarde die aan onze expertise wordt toegekend, of over de rol die onze bevindingen in de uiteindelijke afloop van de zaak hebben gespeeld. Veel belangrijker vind ik het dat rechters, officieren en advocaten begrijpen wat wij doen en onze rapporten ook op de juiste manier interpreteren. Daar hebben we nu vaak onvoldoende zicht op.”