Skip to main content

24 Mai, 2024

Les écouteurs AI permettent à l’utilisateur d’écouter une seule personne dans une foule, en la regardant une seule fois

Les écouteurs AI permettent à l’utilisateur d’écouter une seule personne dans une foule, en la regardant une seule fois

Les chercheurs ont utilisé l’IA attachée à des écouteurs disponibles dans le commerce pour isoler la voix d’un locuteur dans une foule bruyante simplement en le regardant. Le code de leur système de suppression du bruit de niveau supérieur est disponible gratuitement si vous souhaitez créer le vôtre.

Il est difficile d’entendre ce que dit une personne dans un espace bondé et bruyant où de nombreuses autres personnes parlent. Cela est particulièrement vrai pour les personnes malentendantes. Bien que les aides auditives modernes utilisent une technologie de suppression du bruit, elles ne peuvent pas éliminer complètement le bruit de fond.

Des chercheurs de l’Université de Washington (UW) ont mis au point une solution pour mieux entendre dans un environnement bruyant. À l’aide d’écouteurs antibruit ordinaires équipés d’IA, ils ont développé un système capable de distinguer la voix d’un locuteur simplement en le regardant une seule fois.

« Nous avons désormais tendance à considérer l’IA comme des chatbots basés sur le Web qui répondent aux questions », a déclaré Shyam Gollakota, professeur à la Paul G. Allen School of Computer Science and Engineering de l’UW et auteur principal de l’étude. « Mais dans ce projet, nous développons une IA pour modifier la perception auditive de toute personne portant des écouteurs, en fonction de ses préférences. Grâce à nos appareils, vous pouvez désormais entendre clairement un seul locuteur, même si vous êtes dans un environnement bruyant avec de nombreuses autres personnes qui parlent.« 

Les écouteurs disponibles dans le commerce sont équipés de microphones et d’un bouton

Le système « Target Speech Hearing » (THS) développé par les chercheurs est simple mais efficace. Les écouteurs disponibles dans le commerce sont équipés de deux microphones, un sur chaque oreillette. Tout en regardant la personne qu’il souhaite entendre, l’utilisateur appuie une fois sur un bouton situé sur le côté du casque, pendant trois à cinq secondes. Les ondes sonores de la voix de ce locuteur atteignent les deux microphones simultanément (il y a une marge d’erreur de 16 degrés) et sont envoyées à un ordinateur de bord, où un logiciel d’apprentissage automatique apprend les modèles vocaux du locuteur. La voix de l’orateur est alors isolée et canalisée via les écouteurs, même lorsqu’il bouge, et les bruits parasites sont filtrés.

La vidéo ci-dessous montre à quel point les écouteurs sont efficaces. Ils filtrent rapidement le bruit ambiant pour se concentrer sur l’enceinte, supprimant ainsi le bruit généré par une personne parlant au téléphone à proximité (à l’intérieur) et une fontaine extérieure très bruyante.

Les écouteurs AI filtrent le bruit pour que vous puissiez entendre une seule voix dans la foule

À quelle vitesse l’IA peut-elle traiter la voix de l’orateur et supprimer les sons indésirables ? Lors des tests, les chercheurs ont constaté que leur système avait une latence de bout en bout de 18,24 millisecondes. A titre de comparaison, un clignement des yeux dure entre 300 et 400 millisecondes. Cela signifie qu’il n’y a pratiquement aucun décalage entre regarder quelqu’un que vous souhaitez écouter et entendre uniquement sa voix dans vos écouteurs ; tout se passe en temps réel.

Ils ont soumis leur système THS à 21 sujets, qui ont évalué la suppression du bruit fournie par les écouteurs dans des environnements intérieurs et extérieurs réels. En moyenne, les sujets ont évalué la clarté de la voix de l’orateur presque deux fois plus élevée que lorsqu’elle n’était pas traitée.

Leur système THS s’appuie sur la technologie « d’audition sémantique » que les chercheurs de l’UW avaient précédemment développée. Comme THS, cette technologie utilisait un algorithme d’IA exécuté sur un smartphone connecté sans fil à des écouteurs antibruit. Le système auditif sémantique pourrait identifier des bruits comme le chant des oiseaux, les sirènes et les alarmes.

Actuellement, le nouveau système ne peut filtrer qu’un locuteur cible à la fois et uniquement lorsqu’aucune autre voix forte ne vient de la même direction que l’orateur. Mais si l’utilisateur du casque n’est pas satisfait de la qualité du son, il peut rééchantillonner la voix de l’orateur pour améliorer la clarté. Les chercheurs travaillent à étendre leur système aux écouteurs et aux appareils auditifs. Et ils ont rendu leur code THS accessible au public sur GitHub afin que d’autres puissent s’en servir. Le système n’est pas disponible dans le commerce.

Les chercheurs ont présenté leurs travaux plus tôt ce mois-ci lors de la conférence sur l’interaction ordinateur-humain (CHI) de l’Association of Computing Machinery (ACM) sur les facteurs humains dans les systèmes informatiques, qui s’est tenue à Honolulu, à Hawaï, où ils ont reçu une mention honorable . Le document de recherche non publié est disponible ici .

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing