Skip to main content

30 Jan, 2019

Un système d’IA avancé convertit les signaux du cerveau en parole

Un système d’IA avancé convertit les signaux du cerveau en parole

Dans le cadre d’une remarquable percée historique, des scientifiques ont fait la démonstration d’un système informatique qui traduit efficacement les signaux du cerveau en paroles intelligibles. Cette expérience extraordinaire présente une preuve de concept qui pourrait ouvrir la voie à une grande variété d’appareils de communication contrôlés par le cerveau dans l’avenir.

Les neuroingénieurs se heurtent à un obstacle de taille sur la voie des interfaces cerveau-ordinateur efficaces : ils tentent de traduire le large éventail de signaux produits par notre cerveau en mots et en images qui peuvent être facilement transmissibles. L’idée de la science-fiction de pouvoir contrôler les appareils ou communiquer avec les autres simplement en pensant se rapproche lentement, mais sûrement, de la réalité.

Les progrès récents de la technologie de l’apprentissage automatique ont permis aux scientifiques d’obtenir des masses de données abstraites. Pas plus tard que l’an dernier, une équipe de chercheurs canadiens a révélé un algorithme qui pourrait utiliser les données de l’électroencéphalographie (EEG) pour recréer numériquement les visages d’un sujet testé.

Traduire les ondes cérébrales en mots a été un autre défi de taille pour les chercheurs, mais encore une fois, à l’aide d’algorithmes d’apprentissage automatique, des progrès incroyables ont été réalisés ces dernières années. Le dernier bond en avant d’une équipe de neuroingénieurs américains a révélé un algorithme informatique capable de décoder les signaux enregistrés dans le cortex auditif humain et de les traduire en paroles intelligibles.

L’étude a d’abord recueilli des données auprès de cinq patients alors qu’ils subissaient une neurochirurgie pour l’épilepsie. Les patients avaient une variété d’électrodes implantées dans leur cerveau, ce qui a permis aux chercheurs d’enregistrer des mesures complètes d’électrocorticographie pendant que les patients écoutaient de courtes histoires continues racontées par quatre conférenciers différents.

En raison de la nature invasive de la nécessité de recueillir ces données pendant que les patients subissaient une chirurgie du cerveau, on n’a pu recueillir qu’environ 30 minutes d’enregistrements neuronaux auprès de chaque personne.

« En collaboration avec le Dr Mehta, le neurochirurgien qui effectue l’intervention, nous avons demandé aux patients épileptiques qui subissaient déjà une chirurgie du cerveau d’écouter les phrases prononcées par différentes personnes, tout en mesurant l’activité cérébrale « , explique Nima Mesgarani, auteure principale de cette nouvelle étude. « Ces schémas neuronaux ont entraîné le vocodeur. »

Pour tester l’efficacité de l’algorithme, on a demandé au système de décoder les voix comptant de zéro à neuf qui n’étaient pas incluses dans les données initiales de formation. Pendant que les conférenciers récitaient les chiffres, les signaux cérébraux des patients étaient enregistrés et transmis par le vocodeur. Un réseau neuronal analyse et nettoie ensuite la sortie produite par le vocodeur.

« Nous avons constaté que les gens pouvaient comprendre et répéter les sons environ 75 % du temps, ce qui est bien au-delà de toutes les tentatives précédentes, » souligne Nima Mesgarani. « Le vocodeur sensible et les puissants réseaux neuronaux représentaient les sons que les patients avaient écoutés avec une précision surprenante. »

Nima Mesgarani admet volontiers qu’il faudra peut-être au moins une décennie avant que cette technologie ne devienne réellement disponible de façon réaliste. Après tout, nous ne pouvons pas facilement implanter une vaste gamme d’électrodes dans notre cerveau pour enregistrer ces signaux neuronaux.

Cependant, en tant que preuve de concept, cette recherche est quelque peu révolutionnaire, prouvant que les signaux traités par un cortex auditif humain peuvent être décodés en parole. Si ces résultats superficiels peuvent être obtenus à partir d’un si petit ensemble de données, on ne peut qu’imaginer ce qui pourrait être généré à partir d’un plus grand volume de données.

La prochaine étape pour Nima Mesgarani et son équipe consiste à affiner les algorithmes pour voir si des mots et des phrases plus complexes peuvent être décodés à partir des mêmes données neuronales auditives. Par la suite, l’objectif serait de passer du simple décodage de données auditives à la recherche de données neurales précises qui peuvent traduire l’acte d’imaginer parler en mots synthétisés.

Dans ce scénario, si le porteur pense  » j’ai besoin d’un verre d’eau « , notre système pourrait prendre les signaux cérébraux générés par cette pensée et les transformer en parole verbale synthétisée « , lance Nima Mesgarani. « Ça changerait la donne. Cela donnerait à toute personne qui a perdu la capacité de parler, que ce soit à cause d’une blessure ou d’une maladie, la chance de renouer le contact avec le monde qui l’entoure. »

https://www.nature.com/articles/s41598-018-37359-z#Abs1

https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech