De afgelopen weken hadden heel wat mensen op maandag een vaste afspraak met Team Scheire op Canvas. Acht makers vonden een antwoord op vragen van mensen die door een beperking niet ten volle van het leven konden genieten. Een van de makers was Katrien De Graeve, Cloud IoT Specialist bij Microsoft. Zij hielp twee bijzondere mensen met hun vraag aan de makers van Team Scheire. Monique, die blind is, wou zelfstandig kunnen fotograferen en Wouter, die door een cerebrale visuele inperking geen woordbeelden herkent, wou Engelstalige films kunnen kijken zonder de ondertitels te hoeven lezen of Engels te moeten kunnen. De technologische rode draad – of misschien wel kabel – in de oplossingen van Katrien is artificiële intelligentie.
De fotografie-app van Monique
De vraag om te kunnen fotograferen met een visuele beperking, was geen eenvoudige vraag voor Katrien. Ze ging op zoek naar inspiratie en vond die in Seeing AI, een app die aan mensen met een visuele beperking vertelt welke objecten ze ziet via de camera van de smartphone. Katrien en haar collega’s bouwden hierop een eigen app die rekening hield met de specifieke noden van Monique.
Net zoals bij Seeing AI, gebruikt de app van Monique objectherkenningsalgoritmes. Die kun je bijvoorbeeld aanleren om een waterfles te herkennen op beelden. De AI kreeg daarvoor een hoop afbeeldingen van een fles te zien en haalde daar een reeks eigenschappen uit. Wanneer ze een nieuw beeld krijgt voorgeschoteld, kijkt ze of de karakteristieken van een flesje terug te vinden zijn. Zo weet het algoritme of er al dan niet een fles op de foto staat. Daarnaast kan hij ook bepalen waar in het beeld het object zich bevindt. Vervolgens bouwt het algoritme op basis van die data een zinnetje dat door de app wordt voorgelezen.
Monique kan met de app zelfstandig foto’s nemen. En dus ook selfies!
“Monique kan het algoritme de gezichten van vrienden en familie aanleren! Het enige dat ze moet doen is drie foto’s opladen uit drie verschillende standpunten van iemands gezicht.”
Ook offline kiekjes maken
Omdat AI wel wat rekenkracht vraagt, wordt er vaak een beroep gedaan op de cloud. Daarvoor is echter een internetverbinding nodig en zit er ook wat vertraging op de analyse van het beeld. Als je snel een leuk moment wil vastleggen, kun je daar uiteraard niet op wachten. Dus zorgde Katrien dat er een iets beperkter model offline op de smartphone kon draaien. Zo wint de herkenning aan snelheid, maar zijn er ook minder objecten die kunnen worden herkend want het cloud-model wordt voortdurend geüpdatet. Om te zorgen dat de app ook Dinky, Moniques blindegeleidepaardje, kon herkennen, combineerde Katrien de twee. Ze maakte en trainde het herkenningsmodel en downloadde het vervolgens om offline te kunnen draaien. Maar zelf kan Monique ook offline het model iets leren: ze kan namelijk het algoritme de gezichten van vrienden en familie aanleren! Het enige dat ze moet doen is drie foto’s opladen uit drie verschillende standpunten van iemands gezicht.
Maximaal gebruik maken van de sensoren in de smartphone
In onze smartphone zitten al heel wat vernuftige sensoren waar Katrien dankbaar gebruik van maakte om een aantal extra functies voor Monique te coderen. De lichtmeter, die al in de oorspronkelijke Seeing AI-app zat en de lichtsensor van de camera gebruikt, paste Katrien aan zodat die een geluid maakt op basis van hoeveel licht er binnenvalt. Om te weten of Monique haar telefoon rechthoudt, gebruikt de toepassing de accelerometer van het toestel. Dat instrument meet de hoek waarin het apparaat wordt gehouden. Als die een paar graden afwijkt van nul, of wel recht, dan doet de software van Katrien de smartphone trillen zodat Monique weet dat ze de positie van haar smartphone moet aanpassen.
De app herkent objecten die voor Monique staan zoals een koffietas.
“Deel van de filmmagie is de soundtrack en de geluidseffecten. Wilde Katrien Wouter ten volle van zijn favoriete blockbusters laten genieten, dan moest ze op zoek naar een manier waarop Wouter de app én de tv kon horen.”
De ondertitel-app en plug-in van Wouter
Engelstalige films kijken als je moeilijk kan lezen en weinig Engels begrijpt is bijna onmogelijk. Toch kreeg Katrien het voor elkaar met artificiële intelligentie die heel goed lijkt op wat ze voor Monique gebruikte. Deze keer herkennen de algoritmes geen objecten, maar wel de letters van de ondertitels op het tv-scherm. De technische naam daarvoor is OCR of optical character recognition. Het beeldscherm filmt Wouter ook niet met een smartphone, maar wel met een Surface-tablet. Net zoals bij de app van Monique, analyseren de algoritmes in de toepassing de camerabeelden. Ze halen de letters eruit en zetten die vervolgens om naar tekst. Het enige dat de applicatie dan nog moet doen via tekst-naar-spraak-software de zinnetjes laten voorlezen door een computerstem. En naar die stem luistert Wouter gewoon met een hoofdtelefoon. Hoe dat klink kan je trouwens zelf uitproberen met de voorleesfunctie in Word of andere Office-toepassingen!
Wouter filmt de ondertitels door een Surface-tablet voor de tv te zetten.
Vibrerende botten om de filmmuziek te horen
Deel van de filmmagie is de soundtrack en de geluidseffecten. Wilde Katrien Wouter ten volle van zijn favoriete blockbusters laten genieten, dan moest ze op zoek naar een manier waarop Wouter de app én de tv kon horen. Een collega wees haar op bone-conducting, een manier om geluid over te brengen naar de gehoorzenuw via trillingen van het schedelbot. Een hoofdtelefoon met deze techniek zit niet op, maar voor je oren zodat je niet worden afgesloten door de schelp van een traditionele headset. Daardoor hoor je nog steeds alles rondom je, maar ook wat er door de headset komt. Wouter kan via de techniek zo de filmmuziek en geluidseffecten horen én zonder problemen praten met zijn familie.
Wouter houdt zijn speciale hoofdtelefoon in zijn hand.
Spreken met API’s om ook op VRT NU te kunnen kijken
Canvas, en bij uitbreiding de VRT, heeft een groot aanbod aan videocontent op hun VRT NU-platform. Zo kan je er alle afleveringen van Team Scheire herbekijken! Om dat zo toegankelijk mogelijk te maken worden er ook ondertitels voorzien voor alle programma’s. Die zitten in een aparte datastroom in de mediaspeler van VRT NU. Katrien kreeg het voor elkaar dat ze de API hiervan openstelden voor haar. Een API of een application programming interface is een set definities waarmee verschillende computerprogramma’s met elkaar kunnen praten en informatie uitwisselen. Zodat Wouter ook op VRT NU Engelstalige programma’s kon bekijken, maakte Katrien een plug-in die via de API babbelt met de mediaspeler. Dat stukje code haalt de data van de ondertitels eruit en leest die vervolgens weer voor met tekst-naar-spraaksoftware.
Ontwikkel je eigen plug-in voor je favoriete mediaspeler
Heel wat online videospelers gebruiken hetzelfde principe als VRT NU. Wil je een eigen plug-in maken voor bijvoorbeeld YouTube, Vimeo, enzovoort, dan kan dat. De broncode voor de plug-in, maar ook de Windows-app die Wouter gebruikt, staan online op de Github van Team Scheire.
Wil je nog meer weten over de toepassingen die Katrien voor Wouter en Monique maakte? Katrien kroop samen met Lieven Scheire en Kurt Beheydt achter de microfoon voor een aflevering van de Moules de Geek-podcast waar ze alles nog eens uit de doeken doet. Beluister hem hier.