Skip to main content

3 Jan, 2024

Des sous-marins autonomes utilisent l’IA pour se repérer sans GPS

Des sous-marins autonomes utilisent l’IA pour se repérer sans GPS

Les véhicules sous-marins non habités (UUV) commencent à apprendre leur chemin.

Des chercheurs testent des systèmes d’apprentissage par renforcement profond pour des sous-marins autonomes – pour l’instant, dans une piscine de l’université Flinders à Adélaïde, en Australie.

Les véhicules sous-marins sans équipage (UUV : Uncrewed Underwater Vehicles) sont des robots sous-marins qui fonctionnent sans être habités. Les premiers cas d’utilisation de ces véhicules comprennent des tâches telles que l’exploration des fonds marins et le désamorçage de mines sous-marines.

Cependant, les UUV souffrent d’une communication et d’un contrôle de la navigation médiocres en raison de l’effet de distorsion de l’eau. Les chercheurs ont donc commencé à développer des techniques d’apprentissage automatique qui peuvent aider les UUV à mieux naviguer de manière autonome.

L’absence de signaux GPS, qui ne peuvent pénétrer sous la surface de l’eau, est peut-être le plus grand défi auquel les chercheurs sont confrontés. D’autres types de techniques de navigation reposant sur des caméras sont également inefficaces, car les caméras sous-marines sont peu visibles.

Les chercheurs ont modifié la formation de l’UUV pour qu’il échantillonne à partir de sa mémoire tampon d’une manière plus proche de la façon dont le cerveau humain apprend.

Selon les chercheurs, l’une de leurs motivations est de s’attaquer au dangereux travail de nettoyage des organismes biologiques qui s’accumulent sur les coques des navires. Ces accumulations, également connues sous le nom de biofilms, constituent une menace pour l’environnement en introduisant des espèces envahissantes et augmentent les coûts de transport en accroissant la résistance des navires.

Dans cette étude, publiée le mois dernier dans la revue IEEE Access, des chercheurs australiens et français ont utilisé un type d’apprentissage automatique appelé apprentissage par renforcement profond pour apprendre aux UUV à naviguer avec plus de précision dans des conditions difficiles.

Dans l’apprentissage par renforcement, les modèles d’UUV commencent par effectuer des actions aléatoires, puis observent les résultats de ces actions et les comparent à l’objectif – dans ce cas, naviguer le plus près possible de la destination cible. Les actions qui aboutissent à des résultats positifs sont renforcées, tandis que celles qui aboutissent à des résultats médiocres sont évitées.

L’océan ajoute une nouvelle couche de complications aux défis de navigation des UUV, que les modèles de renforcement doivent apprendre à surmonter. Les courants marins sont forts et peuvent entraîner les véhicules loin de leur trajectoire prévue, dans des directions imprévisibles. Les UUV doivent donc naviguer tout en compensant les interférences des courants.

Pour obtenir les meilleures performances, les chercheurs ont modifié une convention de longue date de l’apprentissage par renforcement. L’auteur principal de l’étude, Thomas Chaffre, associé de recherche au collège des sciences et de l’ingénierie de l’université Flinders d’Adélaïde, en Australie, a déclaré que le départ de son groupe s’inscrivait dans le cadre d’une migration plus large dans ce domaine.

Aujourd’hui, les chercheurs en apprentissage automatique, y compris ceux de Google DeepMind, ont déclaré que la remise en question des hypothèses de longue date sur le processus de formation de l’apprentissage par renforcement devient de plus en plus courante, à la recherche de petits changements qui peuvent améliorer de manière significative les performances de la formation.

Le sous-système BlueRov2 voit le monde en x, y et z.

Dans ce cas, les chercheurs se sont concentrés sur les changements à apporter au système de mémoire tampon de l’apprentissage par renforcement, qui est utilisé pour stocker les résultats des actions passées. Les actions et les résultats stockés dans la mémoire tampon sont échantillonnés de manière aléatoire tout au long du processus de formation afin de mettre à jour les paramètres du modèle. En général, cet échantillonnage est effectué de manière « indépendante et identiquement distribuée », a expliqué Thomas Chaffre, ce qui signifie que les actions utilisées pour la mise à jour sont entièrement aléatoires.

Les chercheurs ont modifié le processus d’apprentissage de manière à ce qu’il échantillonne à partir de sa mémoire tampon d’une manière plus proche de la façon dont les cerveaux humains apprennent. Au lieu d’avoir une chance égale d’apprendre à partir de toutes les expériences passées, une plus grande importance est accordée aux actions qui ont entraîné des gains positifs importants ainsi qu’à celles qui se sont produites plus récemment.

« Lorsque vous apprenez à jouer au tennis, vous avez tendance à vous concentrer davantage sur les expériences récentes », souligne Thomas Chaffre. « Au fur et à mesure que vous progressez, vous ne vous souciez plus de la façon dont vous jouiez lorsque vous avez commencé l’entraînement, car cela n’apporte plus d’informations sur votre niveau actuel. »

De même, lorsqu’un algorithme de renforcement apprend à partir d’expériences passées, il devrait se concentrer principalement sur les actions récentes qui ont conduit à des gains positifs importants.

Les chercheurs ont constaté qu’en utilisant cette technique de mémoire tampon adaptée, les modèles UUV pouvaient s’entraîner plus rapidement, tout en consommant moins d’énergie. Selon Thomas Chaffre, ces deux améliorations offrent un avantage significatif lorsqu’un UUV est déployé, car si les modèles entraînés sont prêts à l’emploi, ils doivent encore être affinés.

« Parce que nous travaillons sur des véhicules sous-marins, il est très coûteux de les utiliser et il est très dangereux de former des algorithmes d’apprentissage par renforcement avec eux », a déclaré Thomas Chaffre. Il a donc ajouté que la réduction du temps passé par le modèle à s’affiner peut permettre d’éviter d’endommager les véhicules et d’économiser de l’argent sur les réparations.« 

Il a ajouté que l’équipe envisageait de tester le nouvel algorithme d’apprentissage sur des UUV physiques dans l’océan.

https://spectrum.ieee.org/reinforcement-learning-autonomous-submarines

https://ieeexplore.ieee.org/document/10304148

https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=6287639

https://www.flinders.edu.au/people/thomas.chaffre

https://www.flinders.edu.au/international/engineering

https://arxiv.org/abs/1710.06574