Skip to main content

18 Déc, 2018

GAN 2.0 : un générateur de visage hyperréaliste de NVIDIA

GAN 2.0 : un générateur de visage hyperréaliste de NVIDIA

Regardez les deux photos ci-dessous. Pouvez-vous dire laquelle est une photographie et laquelle a été générée par l’IA ?


La vérité, c’est… attendez… les deux images sont des contrefaçons générées par l’intelligence artificielle, des produits du nouveau travail du fabricant américain de GPU NVIDIA avec sur les réseaux antagonistes génératifs (GANs). La recherche a été publiée dans le document A Style-Based Generator Architecture for Generative Adversarial Networks, qui propose une nouvelle architecture de générateur qui a atteint une performance de pointe dans la génération de face.

Depuis l’introduction des GAN en 2014 par le chercheur de Google Ian Goodfellow, cette technologie a été largement adoptée dans la génération et le transfert d’images. Après quelques échecs précoces, les GAN ont fait d’énormes percées et peuvent maintenant produire de fausses images très convaincantes d’animaux, de paysages, de visages humains, etc. Les chercheurs savent ce que les GAN peuvent faire, mais un manque de transparence dans leur fonctionnement interne signifie que l’amélioration du GAN se fait encore principalement par essais et erreurs. Cela ne permet qu’un contrôle limité sur les images synthétisées.

Le document de NVIDIA propose une architecture de générateur alternative pour le GAN qui tire des enseignements des techniques de transfert de style. Le système peut apprendre et séparer différents aspects d’une image sans supervision et permet un contrôle intuitif et spécifique à l’échelle de la synthèse.

Voici comment ça marche : Grâce à une image faciale d’entrée, le générateur basé sur le style peut apprendre sa répartition et appliquer ses caractéristiques sur une nouvelle image de synthèse. Alors que les GAN précédents ne pouvaient pas contrôler les caractéristiques spécifiques qu’ils voulaient régénérer, le nouveau générateur peut contrôler l’effet d’un style particulier – par exemple les attributs faciaux de haut niveau comme la pose, l’identité, la forme – sans changer aucune autre caractéristique. Ceci permet un meilleur contrôle des caractéristiques spécifiques telles que les yeux et la coiffure. Ci-dessous se trouve une vidéo de démonstration montrant comment les images générées par le GAN varient d’une entrée et d’un style à l’autre.

Derrière cette nouvelle fonctionnalité se cache une technique que NVIDIA appelle le  » style-mixing « . Du journal :  » To further encourage the styles to localize, we employ mixing regularization, where a given percentage of images are generated using two random latent codes instead of one during training. When generating such an image, we simply switch from one latent code to another — an operation we refer to as style mixing — at a randomly selected point in the synthesis network.” Ou « Pour encourager davantage les styles à localiser, nous employons la régularisation de mélange, où un pourcentage donné d’images est généré en utilisant deux codes latents aléatoires au lieu d’un pendant la formation. Lors de la génération d’une telle image, nous passons simplement d’un code latent à un autre – une opération que nous appelons le mélange de styles – à un point sélectionné au hasard dans le réseau de synthèse. »

La variation stochastique est une autre propriété clé permettant aux GANs de réaliser la randomisation des caractéristiques faciales détaillées, telles que l’emplacement des poils faciaux, la densité de barbe, les taches de rousseur, les pores, etc. L’article propose d’ajouter le bruit par pixel après chaque couche de convolution. Le bruit ajouté n’affecte pas la composition globale ou les attributs de haut niveau des images, et le changement de bruit dans différentes couches produit des résultats de variation stochastique correspondants.

Pour quantifier la qualité de l’interpolation et le démêlage, l’article propose deux nouvelles méthodes automatisées – la longueur perceptuelle du trajet et la séparabilité linéaire – qui s’appliquent à toute architecture de générateur.

Les chercheurs ont vu des résultats impressionnants en utilisant le nouveau générateur pour forger des images de chambres à coucher, de voitures et de chats avec le jeu de données LSUN (Large-scale Scene Understanding).

En plus de l’article, NVIDIA a également publié un nouvel énorme ensemble de données sur les visages humains. Flickr- Faces-HQ (FFHQ) contient 70 000 images de haute qualité en résolution 1024. L’ensemble de données sera bientôt accessible au public.

Le premier auteur de l’article est Tero Karras, chercheur scientifique principal chez NVIDIA Research, qui s’intéresse principalement à l’apprentissage approfondi, aux modèles génératifs et à la création de contenu numérique. Son article Progressive Growing of GANs for Improved Quality, Stability, and Variation, ou ProgressiveGAN, a reçu des éloges et a été accepté par la CISLR 2018.

Synced, en tant que fan naturel de l’apprentissage profond et du GAN, a remarqué que de nombreux articles sur les GAN ont pris de l’ampleur et ont suscité des discussions cette année. Les chercheurs de DeepMind ont proposé BigGAN il y a deux mois, et le modèle a obtenu un score de démarrage (IS) de 166,3, soit une amélioration de plus de 100 % par rapport au résultat de 52,52 de l’état de l’art (SotA) précédent. Pendant ce temps, une équipe de chercheurs de l’Université de Tsinghua et de l’Université de Cardiff a présenté CartoonGAN pour simuler les styles de maestri d’anime japonais à partir de photos de scènes du monde réel.

https://medium.com/syncedreview/gan-2-0-nvidias-hyperrealistic-face-generator-e3439d33ebaf

https://docs.google.com/document/d/1SDbnM1nxLZNuwD8fQkIigUve_SlihgoCmvjN3e388Us/preview

https://arxiv.org/pdf/1710.10196.pdf