Ces dernières semaines, l’émission Team Scheire diffusée sur la chaîne flamande Canvas est devenue un rendez-vous incontournable du lundi soir pour un grand nombre de téléspectateurs du nord du pays et au-delà. Huit concepteurs (nos compatriotes néerlandophones les appellent des « makers ») ont trouvé des solutions aux problèmes de personnes qui ne pouvaient pas profiter pleinement de la vie en raison d’un handicap. Katrien De Graeve, spécialiste Cloud et IoT chez Microsoft, est un de ces esprits créateurs. Elle a aidé deux personnes uniques qui ont adressé une demande à l’équipe des créatifs de génie de Team Scheire.
Monique, qui est aveugle, voulait pouvoir photographier seule et Wouter, qui ne reconnaît pas les images des mots en raison d’une déficience visuelle cérébrale, voulait pouvoir regarder des films en anglais sans avoir à lire les sous-titres ou à connaître l’anglais. Le fil – pour ne pas dire le câble – d’Ariane technologique des solutions concoctées par Katrien est l’intelligence artificielle.
L’appli photo de Monique
Le défi était de taille pour Katrien : pouvoir photographier avec une déficience visuelle ! Elle a puisé son inspiration dans Seeing AI, une appli qui indique aux personnes atteintes d’une déficience visuelle quels objets elles voient à travers l’appareil photo de leur smartphone. Katrien et ses collègues ont créé leur propre application en tenant compte des besoins spécifiques de Monique.
À l’instar de Seeing AI, l’appli de Monique utilise des algorithmes de reconnaissance d’objets. Vous pouvez leur apprendre, par exemple, à reconnaître une bouteille d’eau sur des images. Pour arriver à ce résultat, l’IA a dû voir beaucoup de photos de bouteilles et en a déduit une série de propriétés. Lorsque vous lui présentez une nouvelle image, elle vérifie si les caractéristiques d’une bouteille s’y trouvent. De cette façon, l’algorithme sait si l’image comprend ou non une bouteille. Il peut également déterminer l’emplacement de l’objet dans l’image. L’algorithme utilise ensuite les données pour construire une phrase qui est lue par l’appli.
Monique peut prendre des photos en toute autonomie avec l’appli. Et donc aussi des selfies !
« Monique peut apprendre à l’algorithme à reconnaître les visages des amis et de la famille ! Seule condition : télécharger trois photos prises sous trois angles différents du visage de la ou des personnes. »
Prendre des clichés aussi hors ligne
Étant donné que l’intelligence artificielle nécessite une puissance de calcul considérable, il est souvent fait appel au cloud. Toutefois, qui dit cloud, dit forcément connexion internet, sans oublier un certain retard dans l’analyse de l’image. Bien sûr, si vous voulez immortaliser un moment unique rapidement, pas question d’attendre… Katrien s’est donc assurée qu’un modèle un peu plus limité puisse fonctionner hors ligne sur le smartphone. Il augmente la vitesse de reconnaissance, mais il reconnaît aussi moins d’objets, logique puisque le modèle dématérialisé est constamment mis à jour. Pour s’assurer que l’appli puisse aussi reconnaître Dinky, l’adorable cheval nain qui est le guide d’aveugle de Monique, Katrien a combiné les deux. Elle a créé et « formé » le modèle de reconnaissance, puis l’a téléchargé pour l’exécuter hors ligne. Mais Monique peut aussi apprendre quelque chose au modèle hors ligne : elle peut apprendre à l’algorithme à reconnaître les visages des amis et de la famille ! Pour ce faire, il lui suffit de télécharger trois photos du visage d’une personne, prises sous trois angles différents.
Exploitation maximum des capteurs du smartphone
Fort heureusement, notre smartphone contient déjà de très nombreux capteurs ingénieux que Katrien s’est attachée à utiliser pour encoder des fonctions supplémentaires pour Monique. Katrien a ainsi adapté le posemètre, qui se trouvait déjà dans l’appli originale Seeing AI et qui utilise le capteur de lumière de l’appareil photo, pour produire un son en fonction de la quantité de lumière incidente. Pour savoir si Monique tient son téléphone droit, l’application utilise l’accéléromètre du téléphone. Cet instrument mesure l’angle sous lequel l’appareil est tenu. S’il diffère de quelques degrés de zéro ou de la position droite, le logiciel de Katrien fera vibrer le smartphone pour que Monique sache qu’elle doit ajuster la position de son smartphone.
L’appli reconnaît les objets qui se trouvent devant Monique comme une tasse de café.
« Une partie de la magie de tout film est la bande-son et les effets sonores. Si Katrien voulait que Wouter profite pleinement de ses blockbusters préférés, elle devait trouver un moyen pour qu’il puisse écouter tout à la fois l’appli et la télévision. »
L’appli de sous-titrage et le plug-in de Wouter
Si vous avez des difficultés à lire et que vous ne comprenez que peu l’anglais, il vous est presque impossible de suivre un film en version originale. Pourtant, Katrien a réussi ce véritable tour de force avec une intelligence artificielle qui ressemble beaucoup à celle utilisée pour Monique. Cette fois-ci, les algorithmes ne reconnaissent pas des objets, mais les lettres des sous-titres sur l’écran du téléviseur. Il s’agit de l’OCR ou reconnaissance optique de caractères. Wouter ne filme pas l’écran avec un smartphone, mais avec une tablette Surface. À l’instar de l’appli de Monique, les algorithmes de l’application analysent les images de la caméra. Ils en captent les lettres et les convertissent en texte. Reste ensuite à l’appli à faire lire les phrases par une voix d’ordinateur par le biais d’un logiciel de synthèse vocale. Et Wouter écoute cette voix avec des écouteurs. Vous pouvez découvrir le résultat avec la fonction lecture à haute voix dans Word ou d’autres applications Office !
Wouter filme les sous-titres en plaçant une tablette Surface devant le téléviseur.
Conduction osseuse pour écouter la musique du film
Une partie de la magie de tout film est la bande-son et les effets sonores. Si Katrien voulait que Wouter profite pleinement de ses blockbusters préférés, elle devait trouver un moyen pour qu’il puisse écouter tout à la fois l’appli et la télévision. Un collègue lui a parlé de la conduction osseuse, une manière de transmettre le son au nerf auditif par les vibrations des os du crâne. Un casque doté de cette technique est placé non pas sur mais devant les oreilles, et n’impose donc aucune pression physique sur les oreilles ni aucune exclusion du monde extérieur comme les casques traditionnels. De cette manière, Wouter entend tout ce qu’il se passe autour de lui et aussi le son diffusé dans le casque. Wouter peut utiliser cette technique pour entendre la musique du film et les effets sonores tout en parlant avec sa famille sans aucun problème.
Wouter et son casque dédié.
Parler avec les API pour pouvoir aussi suivre les émissions de VRT NU
Canvas et, par extension la VRT, dispose d’une large offre de contenus vidéo sur sa plateforme VRT NU. Vous pouvez y revoir toutes les prouesses de Team Scheire ! Des sous-titres sont également prévus pour tous les programmes afin de les rendre aussi accessibles que possible. Ceux-ci se trouvent dans un flux de données séparé dans le lecteur multimédia de VRT NU. Katrien a sollicité – et obtenu – l’ouverture des API. Une API ou interface de programmation applicative est un ensemble de définitions avec lesquelles différents programmes informatiques peuvent communiquer entre eux et échanger des informations. Pour que Wouter puisse également visionner des émissions en anglais sur VRT NU, Katrien a créé un plug-in qui dialogue avec le lecteur de média via l’API. Ce morceau de code extrait les données des sous-titres et les lit ensuite à l’aide d’un logiciel de synthèse vocale.
Développez votre propre plug-in pour votre lecteur multimédia préféré
De nombreux lecteurs vidéo en ligne utilisent le même principe que VRT NU. Si vous voulez créer votre propre plug-in pour YouTube, Vimeo, etc., c’est tout à fait possible ! Le code source du plug-in, mais aussi l’appli Windows que Wouter utilise, sont en ligne sur le Github de Team Scheire.