Skip to main content

17 Mar, 2023

L’imageur IA Midjourney v5 étonne par ses images photoréalistes et ses mains à cinq doigts

L’imageur IA Midjourney v5 étonne par ses images photoréalistes et ses mains à cinq doigts

« Manque de dopamine, parce que les résultats sont trop parfaits à chaque fois ».

Mercredi, Midjourney a annoncé la version 5 de son service commercial de synthèse d’images par IA, qui peut produire des images photoréalistes à un niveau de qualité que certains amateurs d’art par IA qualifient d’effrayant et de « trop parfait ». Midjourney v5 est disponible dès à présent en test alpha pour les clients qui s’abonnent au service Midjourney, accessible via Discord.

« MJ v5 me donne l’impression d’avoir enfin des lunettes après avoir ignoré une mauvaise vue pendant un peu trop longtemps », a déclaré Julie Wieland, une graphiste qui partage souvent ses créations Midjourney sur Twitter. « Tout d’un coup, on voit tout en 4k, c’est bizarrement accablant mais aussi incroyable ».

Julie Wieland a partagé avec le site Ars Technica quelques-unes de ses générations Midjourney v5 (visibles ci-dessous dans une galerie et dans l’image principale ci-dessus), et elles montrent certainement une progression dans les détails de l’image depuis l’arrivée de Midjourney en mars 2022. La version 3 a fait ses débuts en août et la version 4 en novembre. Chaque itération a ajouté plus de détails aux résultats générés, comme le montrent nos expériences :

A comparison between output from Midjourney v3 (left), v4 (center), and v5 (right) with the prompt "a muscular barbarian with weapons beside a CRT television set, cinematic, 8K, studio lighting."

Comparaison entre les résultats de Midjourney v3 (à gauche), v4 (au centre) et v5 (à droite) avec l’invite « un barbare musclé avec des armes à côté d’un téléviseur à tube cathodique, cinématique, 8K, éclairage de studio ». Cliquez sur la photo

Midjourney fonctionne de la même manière que les synthétiseurs d’images tels que Stable Diffusion et DALL-E, en ce sens qu’il génère des images à partir de descriptions textuelles appelées « invites », en utilisant un modèle d’IA formé sur des millions d’œuvres d’art créées par l’homme. Récemment, Midjourney a été au cœur d’une controverse sur les droits d’auteur concernant une bande dessinée qui utilisait des versions antérieures du service.

Après avoir expérimenté la v5 pendant une journée, Julie Wieland a noté des améliorations telles que des textures de peau et des traits de visage « incroyablement réalistes », un éclairage plus réaliste ou cinématique, de meilleurs reflets, éblouissements et ombres, des angles plus expressifs ou des vues d’ensemble d’une scène, et « des yeux presque parfaits et plus du tout tordus ».

Et, bien sûr, les mains.

Au cours de l’année écoulée, l’idée que les générateurs d’art par IA ne peuvent pas rendre les mains correctement est devenue une sorte de trope (1) culturel. Or, Midjourney v5 est capable de générer des mains humaines réalistes de manière relativement satisfaisante. « Les mains sont correctes la plupart du temps, avec 5 doigts au lieu de 7 à 10 sur une main », a déclaré Wieland.

Dans les notes de version Discord du service, Midjourney a également noté que la version 5 répond désormais avec une « gamme stylistique beaucoup plus large » que la version 4, tout en étant plus sensible aux invites, en générant moins de texte indésirable et en offrant une résolution d’image multipliée par deux.

Si la mise à jour de Midjourney présente un inconvénient visuel pour les fans d’art IA, il vient peut-être des images qui peuvent être si réalistes et « parfaites » que la précision du modèle enlève une partie du plaisir de générer à plusieurs reprises des images IA pour trouver un résultat adéquat, ce que l’on pourrait appeler un « effet de machine à sous ». Un utilisateur de Twitter, Philipp Lenssen, a toutefois fait remarquer que « si vous avez un sujet d’image spécifique à l’esprit, c’est toujours un peu comme la loterie. Mais avec plus de chances de gagner que la v4 ».

  1. Un trope est une figure de style ou figure de rhétorique destinée à embellir un texte ou à le rendre plus vivant, et qui consiste à employer un mot ou une expression dans un sens détourné de son sens propre (exemple : voiles pour « vaisseaux »).

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

https://arstechnica.com/information-technology/2022/11/midjourney-turns-heads-with-quality-leap-in-new-ai-image-generator-version/

https://www.buzzfeednews.com/article/pranavdixit/ai-generated-art-hands-fingers-messed-up