Skip to main content

12 Avr, 2024

Le nouveau générateur de musique AI Udio synthétise de la musique réaliste à la demande

Le nouveau générateur de musique AI Udio synthétise de la musique réaliste à la demande

Mais il faut encore des essais et des erreurs pour générer des résultats de haute qualité.

Mercredi, un groupe d’anciens employés de DeepMind a lancé Udio , un nouveau service de synthèse musicale IA capable de créer de nouveaux sons musicaux haute fidélité à partir d’invites écrites, y compris des paroles fournies par l’utilisateur. C’est similaire à Suno. Avec une contribution humaine clé, Udio peut créer des fac-similés de musique produite par l’homme dans des genres tels que la country , le quatuor de barbier , la pop allemande , le classique , le hard rock , le hip hop , les airs de spectacle , et plus encore. Son utilisation est actuellement gratuite pendant une période bêta.

Udio fait également flipper certains musiciens sur Reddit. Udio est exactement le genre de service de génération musicale alimenté par l’IA dont plus de 200 artistes musicaux avaient peur lorsqu’ils ont signé une lettre de protestation ouverte la semaine dernière.

Mais aussi impressionnantes que paraissent les chansons d’Udio du point de vue technique de la génération d’IA (pas nécessairement à en juger par leur mérite musical), leur capacité de génération n’est pas parfaite. Une expérimentation de l’outil de création a été menée, et les résultats ont été moins impressionnants que ceux créés par Suno.

Les échantillons musicaux de haute qualité présentés sur le site d’Udio résultent probablement d’un grand nombre d’apports humains créatifs (tels que des paroles écrites par des humains) et d’une sélection des meilleures parties de composition de chansons parmi de nombreuses générations. En fait, Udio présente un flux de travail en cinq étapes pour créer une chanson d’une minute et demie dans une FAQ.

Par exemple, il a été créé une chanson Ars Technica « Moonshark » sur Udio en utilisant la même invite que celle que nous avons utilisée précédemment avec Suno. Dans leur forme brute, les résultats semblent mi-cuits et presque cauchemardesques (voici la version Suno à titre de comparaison). Il est également beaucoup plus court par défaut, à 32 secondes, par rapport à la sortie de Suno en 1 minute et 32 ​​secondes. Mais Udio permet d’étendre les chansons, ou vous pouvez essayer à nouveau de générer un résultat médiocre avec différentes invites pour des résultats différents.

Après avoir enregistré un compte Udio, n’importe qui peut créer une piste en saisissant une invite de texte pouvant inclure des paroles, une direction d’histoire et des balises de genre musical. Udio aborde ensuite la tâche en deux étapes. Premièrement, il utilise un grand modèle de langage (LLM) similaire à ChatGPT pour générer des paroles (si nécessaire) en fonction de l’invite fournie. Ensuite, il synthétise la musique en utilisant une méthode qu’Udio ne divulgue pas, mais il s’agit probablement d’un modèle de diffusion, similaire au Stable Audio de Stability AI .

À partir de l’invite donnée, le modèle d’IA d’Udio génère deux extraits de chansons distincts parmi lesquels vous pouvez choisir. Vous pouvez ensuite publier la chanson pour la communauté Udio, télécharger le fichier audio ou vidéo pour le partager sur d’autres plateformes, ou le partager directement sur les réseaux sociaux. D’autres utilisateurs d’Udio peuvent également remixer ou développer des chansons existantes. Les conditions d’utilisation d’Udio stipulent que la société ne revendique aucun droit sur les générations musicales et qu’elles peuvent être utilisées à des fins commerciales.

Bien que l’équipe d’Udio n’ait pas révélé les détails spécifiques de son modèle ou de ses données de formation (qui sont probablement remplies de matériel protégé par le droit d’auteur), elle a déclaré à Tom’s Guide que le système dispose de mesures intégrées pour identifier et bloquer les pistes qui ressemblent trop au travail de artistes spécifiques, garantissant que la musique générée reste originale.

Et cela nous ramène aux humains, dont certains ne supportent pas très bien l’apparition de la musique générée par l’IA. « Je dois être honnête, c’est déprimant comme l’enfer », a écrit un commentateur de Reddit dans un fil de discussion sur Udio. « Je reste globalement optimiste quant au fait que la musique ira bien à long terme. Mais pourquoi faire ça ? Pourquoi automatiser l’art ? »

Nous tenterons de répondre en disant que la réplication de l’art est une cible clé de la recherche sur l’IA, car les résultats peuvent être inexacts et imprécis tout en semblant remarquables ou étonnants, ce qui est une caractéristique clé de l’IA générative. C’est flashy et impressionnant tout en permettant un manque général de rigueur quantitative . Nous avons déjà vu l’IA intervenir pour des images fixes , des vidéos et du texte avec des résultats variés en termes de précision représentative. Les enregistrements musicaux entièrement composés semblent être les prochains sur la liste des collines de l’IA à (approximativement) conquérir, et la concurrence s’intensifie.

https://arstechnica.com/information-technology/2024/04/new-ai-music-generator-udio-synthesizes-realistic-music-on-demand