Skip to main content

5 Déc, 2023

Lorsque l’IA se débranche, tous les paris sont ouverts 

Lorsque l’IA se débranche, tous les paris sont ouverts 

Fonctionnant de manière native sur les appareils Edge, les assistants IA personnalisés deviendront bientôt fous et étranges et le prochain grand chatbot fonctionnera à la vitesse de l’éclair sur votre ordinateur portable – aucune connexion Internet n’est requise.

C’est du moins la vision récemment exposée par le PDG d’Intel, Pat Gelsinger, lors du sommet Intel Innovation 2023 de l’entreprise. Flanqué de démonstrations sur scène, Pat Gelsinger a annoncé l’arrivée de « PC IA » conçus pour accélérer toute leur gamme croissante de tâches d’IA basées uniquement sur le matériel situé sous le bout des doigts de l’utilisateur.

Intel n’est pas seul. Tous les grands noms de la technologie grand public, d’Apple à Qualcomm, s’efforcent d’optimiser leur matériel et leurs logiciels afin d’exécuter l’intelligence artificielle à la « périphérie », c’est-à-dire sur du matériel local, et non sur des serveurs cloud distants. Le but? Une IA personnalisée et privée si transparente que vous pourriez oublier qu’il s’agit d’une « IA ».

La promesse était que l’IA révolutionnerait bientôt tous les aspects de nos vies, mais ce rêve s’est effiloché.

« 50 % des entreprises de pointe considèrent désormais l’IA comme une charge de travail », déclare Pallavi Mahajan , vice-président du groupe Network and Edge d’Intel. « Aujourd’hui, l’essentiel de cette technologie repose sur le traitement du langage naturel et la vision par ordinateur. Mais avec les grands modèles linguistiques (LLM) et l’IA générative, nous n’avons vu que la pointe de l’iceberg. »

Avec l’IA, le cloud est roi, mais pour combien de temps ?

2023 a été une année record pour l’IA dans le cloud. Le PDG de Microsoft, Satya Nadella, a levé un petit doigt à ses lèvres et a donné le ton en investissant 10 milliards de dollars dans OpenAI , créateur de ChatGPT et de DALL-E. Pendant ce temps, Google s’est empressé de proposer son propre chatbot, Bard, lancé en mars ; Amazon a annoncé un investissement de 4 milliards de dollars dans Anthropic , créateur du concurrent ChatGPT Claude, en septembre.

« Les très gros LLM sont trop lents pour être utilisés pour une interaction basée sur la parole. »
—OLIVER LEMON, UNIVERSITÉ HERIOT-WATT, ÉDIMBOURG

Ces mesures promettaient que l’IA révolutionnerait bientôt tous les aspects de nos vies, mais ce rêve s’est effiloché. Aujourd’hui, les modèles d’IA les plus performants s’appuient largement sur des centres de données dotés de matériel d’IA coûteux auquel les utilisateurs doivent accéder via une connexion Internet fiable. Même ainsi, les modèles d’IA accessibles à distance peuvent bien sûr être lents à réagir. Le contenu généré par l’IA, comme une conversation ChatGPT ou une image générée par DALL-E 2, peut parfois s’arrêter car les serveurs surchargés ont du mal à suivre.

Oliver Lemon , professeur d’informatique à l’université Heriot-Watt, à Édimbourg, et co-responsable du National Robotarium , également à Édimbourg, s’est personnellement penché sur le problème. Vétéran de 25 ans dans le domaine de l’IA conversationnelle et de la robotique, Lemon était impatient d’utiliser les plus grands modèles de langage pour des robots comme Spring , un assistant humanoïde conçu pour guider les visiteurs et les patients des hôpitaux. Spring semblait susceptible de bénéficier des capacités conversationnelles créatives et humaines des LLM modernes. Au lieu de cela, il a découvert les limites de la portée du cloud.

« [ChatGPT-3.5] était trop lent pour être déployé dans une situation réelle. Un LLM local, plus petit, était bien meilleur. Mon impression est que les très gros LLM sont trop lents pour être utilisés pour une interaction basée sur la parole », explique Oliver Lemon. Il est optimiste quant au fait qu’OpenAI pourrait trouver un moyen de contourner ce problème, mais pense que cela nécessiterait un modèle plus petit et plus agile que le GPT global.

Spring a plutôt opté pour Vicuna-13B , une version du Llama LLM de Meta peaufinée par des chercheurs de la Large Model Systems Organization . « 13-B » décrit les 13 milliards de paramètres du modèle, ce qui, dans le monde des LLM, est petit. Les plus grands modèles Llama englobent 70 milliards de paramètres, et le GPT-3.5 d’OpenAI contient 175 milliards de paramètres.

La réduction des paramètres d’un modèle rend la formation moins coûteuse, ce qui n’est pas un mince avantage pour des chercheurs comme Lemon. Mais il existe un deuxième avantage, tout aussi important : une « inférence » plus rapide, c’est-à-dire le temps nécessaire pour appliquer un modèle d’IA à de nouvelles données, comme une invite de texte ou une photographie. C’est un incontournable pour tout assistant IA, robotique ou autre, destiné à aider les gens en temps réel.

L’inférence locale agit comme un gardien de quelque chose qui est susceptible de devenir la clé pour tous les assistants IA personnalisés : la confidentialité.

« Si l’on y regarde de plus près, le marché de l’inférence est en réalité bien plus important que celui de la formation. Et l’endroit idéal pour l’inférence est l’endroit où se trouvent les données », explique Pallavi Mahajan d’Intel. « Parce qu’à bien y regarder, qu’est-ce qui motive l’IA ? L’IA est pilotée par toutes les applications que nous avons sur nos ordinateurs portables ou sur nos téléphones.« 

Les performances Edge sont synonymes de confidentialité

L’une de ces applications est Rewind, un assistant IA personnalisé qui aide les utilisateurs à se souvenir de tout ce qu’ils ont accompli sur leur Mac ou PC. Les e-mails supprimés, les fichiers cachés et les anciennes publications sur les réseaux sociaux peuvent être trouvés grâce à la recherche textuelle. Et ces données, une fois récupérées, peuvent être utilisées de diverses manières. Rewind peut transcrire une vidéo, récupérer des informations à partir d’un onglet de navigateur en panne ou créer des résumés d’e-mails et de présentations.

Pallavi Mahajan affirme que l’arrivée de Rewind sur Windows est un exemple de son écosystème de développement d’IA ouvert, OpenVINO , en action. Il permet aux développeurs de faire appel à des processeurs, des GPU et des unités de traitement neuronal (NPU) disponibles localement sans écrire de code spécifique à chacun, optimisant ainsi les performances d’inférence pour une large gamme de matériels. Core ML d’Apple fournit aux développeurs un ensemble d’outils similaire pour les iPhones, iPads et Mac.

« Avec les outils Web, les gens y jetaient des informations…. Il s’agit simplement d’aspirer tout et de le recracher aux autres.
—PHIL SOLIS, IDC

Et l’inférence locale rapide agit comme un gardien d’un deuxième objectif qui deviendra probablement essentiel pour tous les assistants IA personnalisés : la confidentialité.

Rewind offre une vaste gamme de fonctionnalités. Mais pour ce faire, il faut accéder à presque tout ce qui se passe sur votre ordinateur. Ce n’est pas unique à Rewind. Tous les assistants IA personnalisés exigent un large accès à votre vie, y compris à des informations que beaucoup considèrent comme sensibles (comme les mots de passe, les enregistrements vocaux et vidéo et les e-mails).

Rewind combat les problèmes de sécurité en gérant à la fois la formation et l’inférence sur votre ordinateur portable, une approche que d’autres assistants IA soucieux de la confidentialité sont susceptibles d’imiter. Ce faisant, il démontre comment de meilleures performances en périphérie améliorent directement à la fois la personnalisation et la confidentialité. Les développeurs peuvent commencer à fournir des fonctionnalités une fois que cela est possible uniquement avec la puissance d’un centre de données derrière eux et, à leur tour, offrir un rameau d’olivier à ceux qui s’inquiètent de la destination de leurs données.

Phil Solis, directeur de recherche chez IDC , pense qu’il s’agit d’une opportunité clé pour que l’IA sur appareil se répercute sur les appareils grand public en 2024. « La prise en charge de l’IA et de l’IA générative sur l’appareil est quelque chose qui représente un gros problème pour les smartphones et pour les PC. » dit Solis. « Avec les outils Web, les gens y jetaient des informations…. Il s’agit simplement d’aspirer tout et de le recracher aux autres. La confidentialité et la sécurité sont des raisons importantes de mettre en place une IA sur appareil. »

Des renseignements inattendus avec un budget restreint

Les grands modèles de langage constituent de superbes assistants, et leurs capacités peuvent atteindre le domaine plus nébuleux du raisonnement causal . Les modèles d’IA peuvent tirer des conclusions sur la base des informations fournies et, si on le leur demande, expliquer leurs réflexions étape par étape. La mesure dans laquelle l’IA comprend le résultat est sujette à débat , mais les résultats sont mis en pratique.

Les nouvelles puces Snapdragon de Qualcomm, qui arriveront bientôt dans les téléphones phares, peuvent gérer le puissant Llama 2 LLM de Meta entièrement sur votre smartphone, sans connexion Internet ni navigation Web requise.

La startup Artly utilise l’IA dans ses robots baristas, Jarvis et Amanda, qui servent du café dans plusieurs endroits en Amérique du Nord (ils produisent un cappuccino solide, même selon les normes scrupuleuses de la culture du café de Portland, en Oregon). Le cofondateur et PDG de l’entreprise, Meng Wang, souhaite utiliser les LLM pour rendre sa flotte de baristas plus intelligente et plus sympathique.

« Si le robot prenait une tasse et l’inclinait, nous devrions lui dire quel serait le résultat », explique Meng Wang. Mais un LLM peut être formé pour déduire cette conclusion et l’appliquer dans divers scénarios. Meng Wang affirme que le robot n’effectue pas toutes les inférences en périphérie (le barista a de toute façon besoin d’une connexion en ligne pour vérifier les paiements), mais il cache un GPU Nvidia qui gère les tâches de vision par ordinateur.

Cette approche hybride ne doit pas être ignorée : en fait, l’application Rewind fait quelque chose de similaire sur le plan conceptuel. Bien qu’il entraîne et exécute des inférences sur les données personnelles d’un utilisateur localement, il offre la possibilité d’utiliser ChatGPT pour des tâches spécifiques bénéficiant d’une sortie de haute qualité, comme la rédaction d’un e-mail.

Mais même les appareils obligés de s’appuyer sur du matériel local peuvent fournir des résultats impressionnants. Lemon affirme que l’équipe derrière SPRING a trouvé des moyens d’exécuter des renseignements surprenants, même dans les limites d’un petit modèle d’IA inféré localement comme Vicuna-13B. Son raisonnement ne peut pas être comparé à GPT, mais le modèle peut être entraîné pour utiliser des balises contextuelles qui déclenchent des mouvements physiques prédéfinis et des expressions qui montrent son intérêt.

L’empathie d’un robot peut sembler une niche par rapport aux aspirations du « PC IA », mais les défis de performances et de confidentialité auxquels le robot est confronté sont les mêmes que ceux auxquels est confrontée la prochaine génération d’assistants IA. Et ces assistants commencent à arriver, quoique sous des formes plus limitées et spécifiques à des tâches spécifiques. Rewind est disponible en téléchargement pour Mac aujourd’hui (et sera bientôt disponible pour Windows).

La nouvelle Apple Watch utilise un modèle d’IA basé sur un transformateur pour rendre Siri disponible hors ligne. Samsung prévoit d’intégrer des NPU dans ses nouveaux produits électroménagers à partir de l’année prochaine. Et les nouvelles puces Snapdragon de Qualcomm , qui arriveront bientôt dans les téléphones phares, peuvent gérer le puissant Llama 2 LLM de Meta entièrement sur votre smartphone, sans connexion Internet ni navigation Web requise.

«Je pense qu’il y a eu un changement de pendule», déclare Pallavi Mahajan d’Intel. « Nous étions dans un monde où, il y a probablement 20 ans, tout se déplaçait vers le cloud. Nous voyons maintenant le pendule revenir en arrière. Nous constatons que les applications reviennent vers la périphérie. »

https://spectrum.ieee.org/personal-ai-assistant