Skip to main content

7 Avr, 2023

Les lunettes équipées d’IA peuvent lire la parole silencieuse

Les lunettes équipées d’IA peuvent lire la parole silencieuse

Il peut sembler que Ruidong Zhang se parle à lui-même, mais en fait, le doctorant dans le domaine des sciences de l’information prononce silencieusement le mot de passe pour déverrouiller son smartphone à proximité et jouer la chanson suivante de sa playlist.

Ce n’est pas de la télépathie : ce sont les lunettes apparemment ordinaires et prêtes à l’emploi qu’il porte, appelées EchoSpeech – une interface de reconnaissance vocale silencieuse qui utilise la détection acoustique et l’intelligence artificielle pour reconnaître en continu jusqu’à 31 commandes non vocales, basées sur les mouvements des lèvres et de la bouche .

Ruidong Zhang, doctorant dans le domaine des sciences de l’information, portant des lunettes EchoSpeech.

Développée par le laboratoire d’interfaces informatiques intelligentes pour les interactions futures (SciFi) de Cornell , l’interface portable à faible consommation ne nécessite que quelques minutes de données de formation de l’utilisateur avant de reconnaître les commandes et de pouvoir être exécutée sur un smartphone, ont déclaré les chercheurs.

Zhang est l’auteur principal de « EchoSpeech : Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing », qui sera présenté à la conférence de l’Association for Computing Machinery sur les facteurs humains dans les systèmes informatiques (CHI) ce mois-ci à Hambourg, en Allemagne. .

« Pour les personnes qui ne peuvent pas vocaliser le son, cette technologie de parole silencieuse pourrait être une excellente entrée pour un synthétiseur vocal. Cela pourrait redonner la parole aux patients », a déclaré Zhang à propos de l’utilisation potentielle de la technologie avec un développement ultérieur.

Dans sa forme actuelle, EchoSpeech pourrait être utilisé pour communiquer avec d’autres via un smartphone dans des endroits où la parole est gênante ou inappropriée, comme un restaurant bruyant ou une bibliothèque tranquille. L’interface vocale silencieuse peut également être associée à un stylet et utilisée avec un logiciel de conception tel que la CAO, éliminant ainsi le besoin d’un clavier et d’une souris.

Équipées d’une paire de microphones et de haut-parleurs plus petits que des gommes à crayons, les lunettes EchoSpeech deviennent un système de sonar portable alimenté par l’IA, envoyant et recevant des ondes sonores sur le visage et détectant les mouvements de la bouche. Un algorithme d’apprentissage en profondeur, également développé par les chercheurs du SciFi Lab, analyse ensuite ces profils d’écho en temps réel, avec une précision d’environ 95 %.

« Nous déplaçons le sonar sur le corps », a déclaré Cheng Zhang , professeur adjoint de sciences de l’information au Cornell Ann S. Bowers College of Computing and Information Science et directeur du SciFi Lab.

« Nous sommes très enthousiastes à propos de ce système », a-t-il déclaré, « car il fait vraiment avancer le domaine en matière de performances et de confidentialité. Il est petit, à faible consommation d’énergie et sensible à la confidentialité, qui sont toutes des caractéristiques importantes pour le déploiement de nouvelles technologies portables dans le monde réel. »

Le SciFi Lab a développé plusieurs appareils portables qui suivent les mouvements du corps , des mains et du visage à l’aide de l’apprentissage automatique et de caméras vidéo miniatures portables. Récemment, le laboratoire s’est éloigné des caméras et s’est tourné vers la détection acoustique pour suivre les mouvements du visage et du corps, citant l’amélioration de la durée de vie de la batterie ; sécurité et confidentialité renforcées ; et un matériel plus petit et plus compact. EchoSpeech s’appuie sur le dispositif de détection acoustique similaire du laboratoire appelé EarIO , un écouteur portable qui suit les mouvements du visage.

La plupart des technologies de reconnaissance vocale silencieuse se limitent à un ensemble sélectionné de commandes prédéterminées et obligent l’utilisateur à faire face ou à porter une caméra, ce qui n’est ni pratique ni faisable, a déclaré Cheng Zhang. Il existe également des problèmes majeurs de confidentialité concernant les caméras portables – à la fois pour l’utilisateur et pour ceux avec qui l’utilisateur interagit, a-t-il déclaré.

La technologie de détection acoustique comme EchoSpeech élimine le besoin de caméras vidéo portables. Et parce que les données audio sont beaucoup plus petites que les données image ou vidéo, elles nécessitent moins de bande passante pour être traitées et peuvent être relayées vers un smartphone via Bluetooth en temps réel, a déclaré François Guimbretière, professeur en sciences de l’information à Cornell Bowers CIS et co-auteur.

« Et parce que les données sont traitées localement sur votre smartphone au lieu d’être téléchargées sur le cloud », a-t-il déclaré, « les informations sensibles à la confidentialité ne vous quittent jamais. »

La durée de vie de la batterie s’améliore également de manière exponentielle, a déclaré Cheng Zhang : Dix heures avec une détection acoustique contre 30 minutes avec une caméra.

L’équipe explore la commercialisation de la technologie derrière EchoSpeech, en partie grâce à Ignite : Cornell Research Lab to Market gap funding .

Dans des travaux à venir, les chercheurs du SciFi Lab explorent des applications de verre intelligent pour suivre les mouvements du visage, des yeux et du haut du corps.

« Nous pensons que le verre sera une plate-forme informatique personnelle importante pour comprendre les activités humaines au quotidien », a déclaré Cheng Zhang.

Les autres co-auteurs étaient le doctorant en sciences de l’information Ke Li, Yihong Hao ’24, Yufan Wang ’24 et Zhengnan Lai ’25. Cette recherche a été financée en partie par la National Science Foundation.

https://news.cornell.edu/stories/2023/04/ai-equipped-eyeglasses-can-read-silent-speech