Skip to main content

22 Nov, 2020

Un réseau neuronal apprend quand il ne faut pas lui faire confiance

Un réseau neuronal apprend quand il ne faut pas lui faire confiance

Un moyen plus rapide d’estimer l’incertitude dans la prise de décision assistée par l’IA pourrait conduire à des résultats plus sûrs.

Les chercheurs du MIT ont mis au point un moyen d’apprentissage profond (deep learning) des réseaux de neurones pour estimer rapidement les niveaux de confiance dans leurs résultats. Cette avancée pourrait améliorer la sécurité et l’efficacité de la prise de décision assistée par l’IA.

De plus en plus, les systèmes d’intelligence artificielle connus sous le nom de réseaux neuronaux d’apprentissage profond sont utilisés pour aider aux décisions vitales pour la santé et la sécurité humaines, comme la conduite autonome ou le diagnostic médical. Ces réseaux sont capables de reconnaître des modèles dans de grands ensembles de données complexes afin d’aider à la prise de décision. Mais comment savoir s’ils sont corrects ? Alexander Amini et ses collègues du MIT et de l’université de Harvard voulaient le savoir.

Ils ont mis au point un moyen rapide pour un réseau neuronal d’écraser les données et de produire non seulement une prédiction mais aussi le niveau de confiance du modèle en fonction de la qualité des données disponibles. Cette avancée pourrait sauver des vies, car l’apprentissage profond est déjà déployé dans le monde réel aujourd’hui. Le niveau de certitude d’un réseau peut faire la différence entre un véhicule autonome déterminant que « tout est OK pour passer l’intersection » et « c’est probablement Ok, alors arrêtez-vous au cas où ».

Les méthodes actuelles d’estimation de l’incertitude pour les réseaux neuronaux ont tendance à être coûteuses en termes de calcul et relativement lentes pour les décisions en une fraction de seconde. Mais l’approche d’Alexander Amini, appelée « régression probante profonde » (deep evidental regression), accélère le processus et pourrait conduire à des résultats plus sûrs. « Nous devons être capables non seulement d’avoir des modèles performants, mais aussi de comprendre quand nous ne pouvons pas faire confiance à ces modèles », explique Alexander Amini, doctorant dans le groupe du professeur Daniela Rus au laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL).

« Cette idée est importante et largement applicable. Elle peut être utilisée pour évaluer des produits qui s’appuient sur des modèles appris. En estimant l’incertitude d’un modèle appris, nous apprenons également combien d’erreurs il faut attendre du modèle, et quelles données manquantes pourraient améliorer le modèle », explique Daniela Rus.

Alexander Amini présentera ces recherches à la conférence NeurIPS du mois prochain, en compagnie de Daniela Rus, qui est la professeur d’Andrew et Erna Viterbi du  laboratoire en génie électrique et d’informatique, directeur de CSAIL et doyen adjoint de la recherche au Stephen A. Schwarzman College of Computing du MIT, et des étudiants diplômés Wilko Schwarting du MIT et Ava Soleimany du MIT et de Harvard.

Une incertitude efficace

Après des hauts et des bas, l’apprentissage profond a démontré des performances remarquables dans une variété de tâches, dans certains cas, dépassant même la précision humaine. Et aujourd’hui, l’apprentissage profond semble aller partout où vont les ordinateurs. Il alimente les résultats des moteurs de recherche, les flux des médias sociaux et la reconnaissance faciale. « Nous avons connu d’énormes succès grâce à l’apprentissage profond », déclare Alexader Amini. « Les réseaux neuronaux sont vraiment bons pour connaître la bonne réponse 99 % du temps. » Mais 99 % ne suffisent pas quand des vies sont en jeu.

« Une chose qui a échappé aux chercheurs est la capacité de ces modèles à savoir et à nous dire quand ils peuvent se tromper », explique Alexander Amini. « Nous nous soucions vraiment de ce 1 % de temps et de la manière dont nous pouvons détecter ces situations de manière fiable et efficace ».

Les réseaux neuronaux peuvent être massifs, parfois débordant de milliards de paramètres. Il peut donc s’avérer très difficile d’obtenir une réponse, et encore moins un niveau de confiance. L’analyse de l’incertitude dans les réseaux de neurones n’est pas nouvelle. Mais les approches précédentes, issues de l’apprentissage bayésien approfondi, s’appuyaient sur l’exécution, ou l’échantillonnage, d’un réseau de neurones à plusieurs reprises pour comprendre son niveau de confiance. Ce processus demande du temps et de la mémoire, un luxe qui n’existe peut-être pas dans le trafic à grande vitesse.

Les chercheurs ont conçu un moyen d’estimer l’incertitude à partir d’une seule exécution du réseau neuronal. Ils ont conçu le réseau avec une production volumineuse, produisant non seulement une décision mais aussi une nouvelle distribution probabiliste capturant les preuves à l’appui de cette décision. Ces distributions, appelées distributions probabilistes, reflètent directement la confiance du modèle dans sa prédiction. Cela inclut toute incertitude présente dans les données d’entrée sous-jacentes, ainsi que dans la décision finale du modèle. Cette distinction peut indiquer si l’incertitude peut être réduite en modifiant le réseau neuronal lui-même, ou si les données d’entrée sont simplement bruitées.

Contrôle de confiance

Pour mettre leur approche à l’épreuve, les chercheurs ont commencé par une tâche stimulante de vision par ordinateur. Ils ont formé leur réseau de neurones à l’analyse d’une image couleur monoculaire et à l’estimation d’une valeur de profondeur (c’est-à-dire la distance par rapport à l’objectif de la caméra) pour chaque pixel. Un véhicule autonome pourrait utiliser des calculs similaires pour estimer sa proximité par rapport à un piéton ou à un autre véhicule, ce qui n’est pas une tâche simple.

Les performances de son réseau étaient comparables à celles des modèles de pointe précédents, mais il a également acquis la capacité d’estimer sa propre incertitude. Comme les chercheurs l’avaient espéré, le réseau a projeté une incertitude élevée pour les pixels où il a prédit une mauvaise profondeur. « Il était très calibré aux erreurs que le réseau fait, ce qui, selon nous, était l’une des choses les plus importantes pour juger de la qualité d’un nouvel estimateur d’incertitude », souligne Alexander Amini.

Pour tester leur calibrage, l’équipe a également montré que le réseau prévoyait une incertitude plus élevée pour les données « hors distribution » – des types d’images complètement nouveaux jamais rencontrés pendant la formation. Après avoir formé le réseau sur des scènes domestiques intérieures, ils lui ont fourni un lot de scènes de conduite extérieures. Le réseau a constamment averti que ses réactions aux nouvelles scènes extérieures étaient incertaines. Le test a mis en évidence la capacité du réseau à signaler les cas où les utilisateurs ne devraient pas avoir pleinement confiance dans ses décisions. Dans ces cas-là, « s’il s’agit d’une application de soins de santé, peut-être ne faisons-nous pas confiance au diagnostic que le modèle donne, et demandons-nous plutôt un deuxième avis », lance Alexander Amini.

Le réseau savait même quand les photos avaient été trafiquées, ce qui pouvait permettre de se prémunir contre les attaques de manipulation de données. Dans un autre essai, les chercheurs ont augmenté le niveau de bruit contradictoire d’un lot d’images qu’ils ont fourni au réseau. L’effet était subtil – à peine perceptible par l’œil humain – mais le réseau a reniflé ces images, marquant sa sortie d’un niveau d’incertitude élevé. Cette capacité à tirer la sonnette d’alarme sur des données falsifiées pourrait aider à détecter et à dissuader les attaques adverses, une préoccupation croissante à l’ère des contrefaçons.

La régression probabiliste profonde est « une approche simple et élégante qui fait progresser le domaine de l’estimation de l’incertitude, ce qui est important pour la robotique et d’autres systèmes de contrôle du monde réel », explique Raia Hadsell, un chercheur en intelligence artificielle de DeepMind qui n’a pas participé aux travaux. « Cela est fait d’une manière originale qui évite certains des aspects désordonnés d’autres approches – par exemple l’échantillonnage ou les ensembles – ce qui la rend non seulement élégante mais aussi plus efficace sur le plan du calcul – une combinaison gagnante ».

Une régression probante profonde pourrait améliorer la sécurité de la prise de décision assistée par l’IA. « Nous commençons à voir beaucoup plus de ces modèles [de réseaux de neurones] sortir du laboratoire de recherche et pénétrer dans le monde réel, dans des situations qui touchent les humains avec des conséquences potentiellement mortelles », déclare Alexander Amini. « Tout utilisateur de la méthode, qu’il s’agisse d’un médecin ou d’une personne sur le siège passager d’un véhicule, doit être conscient de tout risque ou incertitude associé à cette décision ». Il envisage le système non seulement de signaler rapidement l’incertitude, mais aussi de l’utiliser pour prendre des décisions plus prudentes dans des scénarios risqués comme celui d’un véhicule autonome approchant d’une intersection.

« Tout domaine qui va disposer d’un apprentissage automatique déployable doit en fin de compte avoir une conscience fiable de l’incertitude », dit-il.

Ce travail a été soutenu, en partie, par la Fondation nationale des sciences et l’Institut de recherche Toyota par l’intermédiaire du Centre de recherche conjoint Toyota-CSAIL.

https://news.mit.edu/2020/neural-network-uncertainty-1120