Skip to main content

14 Mai, 2024

GPT-4o analyse du texte, de l’audio ou des images et donne des réponses dans des chats en temps réel.

GPT-4o analyse du texte, de l’audio ou des images et donne des réponses dans des chats en temps réel.

GPT-4o aide à résoudre une équation d’algèbre écrite à la main dans le cadre de la démo d’aujourd’hui.

La plateforme ChatGPT d’OpenAI vient de devenir beaucoup plus interactive, avec le lancement de GPT-4o. Ce « modèle phare » analyse les données audio, visuelles et/ou textuelles, et fournit des réponses par le biais d’une conversation en temps réel avec un agent d’IA à l’apparence très humaine.

Annoncé ce lundi (13 mai) lors d’un événement de lancement en ligne organisé par Mira Murati, directrice technique de l’OpenAI, GPT-4o est décrit comme « une étape vers une interaction homme-machine beaucoup plus naturelle ». Le o de son nom signifie « omni ».

Destiné à offrir de meilleures performances aux utilisateurs du service gratuit, il est censé égaler les performances du modèle payant GPT-4 Turbo en matière de traitement de texte et de saisie de code, tout en étant beaucoup plus rapide et 50 % moins cher au niveau de l’API (ce qui signifie qu’il peut être intégré dans des applications tierces pour moins d’argent).

Les utilisateurs commencent par une simple invite vocale « Hey, ChatGPT » et reçoivent une réponse vocale très effervescente de la part de l’agent. En utilisant un langage parlé simple, l’utilisateur soumet ensuite sa requête avec un texte d’accompagnement, du son et/ou des images si nécessaire – ces dernières peuvent inclure des photos, un flux en direct de l’appareil photo de leur téléphone, ou à peu près tout ce que l’agent peut « voir ».

En ce qui concerne les entrées audio, l’IA répond en moyenne en 320 millisecondes, ce qui, selon l’entreprise, est similaire au temps de réponse d’une conversation entre humains. De plus, le système parle couramment plus de 50 langues.

Lors de l’annonce/démonstration d’aujourd’hui, il n’y a pas eu de décalage gênant dans les réponses de l’agent, qui ont été empreintes d’une grande émotion humaine – ce n’était pas HAL 9000. En outre, les utilisateurs ont pu interrompre les réponses de l’agent sans que le flux d’informations ne soit perturbé.

Lors de la démonstration, GPT-4o a notamment servi d’interprète pour une conversation entre deux personnes en italien et en anglais, aidé une personne à résoudre une équation d’algèbre écrite à la main, analysé des sections sélectionnées d’un code de programmation et même raconté une histoire de robot à l’heure du coucher.

Le GPT-4o est d’ores et déjà disponible pour une utilisation générale, et d’autres fonctionnalités seront annoncées au cours des prochaines semaines. Vous pouvez le voir et l’entendre à l’œuvre dans la vidéo ci-dessous.

https://openai.com/index/hello-gpt-4o