L’équipe informatique dédiée à l’IA de Microsoft divulgue accidentellement des téraoctets de données de l’entreprise
L’équipe informatique dédiée à l’IA de Microsoft divulgue accidentellement des téraoctets de données de l’entreprise

Le mot « hou la la » n’est même pas suffisant pour couvrir cette affaire.
Il y a du chômage dans l’air. Les chercheurs en intelligence artificielle de Microsoft ont accidentellement divulgué 38 téraoctets – oui, des téraoctets – de données confidentielles de l’entreprise sur le site de développement GitHub, comme le révèle un nouveau rapport de l’entreprise de sécurité informatique Wiz.
Le moins que l’on puisse dire, c’est que l’ampleur de la fuite de données est considérable. Selon le rapport, les fichiers qui ont fuité contenaient une sauvegarde complète du disque des postes de travail de deux employés, qui incluait des données personnelles sensibles ainsi que des « secrets, clés privées, mots de passe et plus de 30 000 messages internes Microsoft Teams » de l’entreprise.
Pire encore, cette fuite aurait même pu rendre les systèmes d’intelligence artificielle de Microsoft vulnérables aux cyberattaques.
En bref, c’est un énorme gâchis et là, on reste encore poli – et d’une manière ou d’une autre, tout remonte à une URL mal configurée, ce qui rappelle que l’erreur humaine peut avoir des conséquences dévastatrices, en particulier dans le monde en plein essor de la technologie de l’intelligence artificielle.
Un trésor
Selon Wiz, l’erreur a été commise lorsque des chercheurs en IA de Microsoft ont tenté de publier un « ensemble de matériel de formation open-source » et des « modèles d’IA pour la reconnaissance d’images » sur la plateforme de développement.
Les chercheurs ont mal écrit le jeton (token) SAS accompagnant les fichiers, ou l’URL de stockage qui établit les autorisations de fichiers. En fait, au lieu d’accorder aux utilisateurs de GitHub un accès spécifique au matériel d’IA téléchargeable, le jeton falsifié a permis un accès général à l’ensemble du compte de stockage.
Et il ne s’agit pas seulement d’autorisations de lecture seule. L’erreur a en fait accordé un accès de « contrôle total », ce qui signifie que quiconque aurait voulu manipuler les nombreux téraoctets de données – y compris le matériel de formation à l’IA et les modèles d’IA inclus dans la pile – aurait été en mesure de le faire.
Un « attaquant aurait pu injecter un code malveillant dans tous les modèles d’IA de ce compte de stockage », écrivent les chercheurs de Wiz, « et tous les utilisateurs qui font confiance au dépôt GitHub de Microsoft auraient été infectés par ce code ».
Le rapport de Wiz note également que la mauvaise configuration du SAS remonte à 2020, ce qui signifie que ce matériel sensible a été ouvert pendant plusieurs années.
Mauvaise semaine
Microsoft affirme avoir résolu le problème depuis, écrivant dans un billet de blog lundi qu’aucune donnée client n’a été exposée lors de la fuite.
Quoi qu’il en soit, la semaine s’annonce terrible pour le géant de la Silicon Valley, puisque des rapports ont révélé ce matin qu’une autre fuite de Microsoft – cette fois liée à la bataille en cours de l’entreprise avec la FTC au sujet de sa tentative d’acquisition d’Activision Blizzard – a exposé les plans de l’entreprise pour sa Xbox de nouvelle génération, en plus d’une foule de correspondance et d’informations confidentielles de l’entreprise.
S’il y a une leçon à tirer, selon Wiz, c’est simplement que le traitement des quantités massives de données nécessaires à l’entraînement des modèles d’IA exige des niveaux élevés de précaution et de sécurité, en particulier lorsque les entreprises se précipitent sur le marché pour commercialiser de nouveaux produits d’IA.
We found a public AI repo on GitHub, exposing over 38TB of private files – including personal computer backups of @Microsoft employees 👨💻
— Hillai Ben-Sasson (@hillai) September 18, 2023
How did it happen? 👀
A single misconfigured token in @Azure Storage is all it takes 🧵⬇️ pic.twitter.com/ZWMRk3XK6X