Meta a lancé MusicGen, une IA générative qui peut créer de la musique à partir d’invites. Découvrez tout ce que vous devez savoir sur cet outil puissant, ainsi que la menace qu’il fait peser sur les artistes…
L’intelligence artificielle générative révolutionne la création de contenu en 2022 et au-delà. Certains des outils les plus connus incluent ChatGPT et Google Bard pour le texte et DALL-E et MidJourney pour les images.
Ces IA peuvent créer n’importe quoi, depuis de simples invites et de courtes descriptions textuelles jusqu’à de grandes quantités de données sur lesquelles elles ont été formées. En juin 2023, ce sera au tour de Meta de sortir MusicGen, une version open-source de leur propre IA générative. Cette fois, c’est un outil pour créer de la musique.
Comment utiliser ?
Comme l’a expliqué le chercheur Felix Kreuk sur Twitter, MusicGen peut prendre de la musique et la modifier. Par exemple, vous pouvez créer une chanson pop des années 80 à partir d’une chorale de musique classique. Ce modèle utilise le tokenizer audio EnCodec, qui est basé sur un modèle de langage de type Transformer. Par défaut, les chansons ne contiennent pas de paroles. Cependant, il est possible d’ajouter une piste audio pour inclure les voix.
Meta MusicGen contre Google MusicLM
En mai 2023, Google a également présenté sa propre IA de génération musicale : MusicLM. En comparaison, Meta vante la simplicité de l’outil.
MusicGen est, en fait, un modèle de langage unique (LM) qui fonctionne sur plusieurs flux de représentation musicale individuels compressés, ou jetons. Il se compose d’un modèle LM de transformateur à un étage et d’un modèle à jetons entrelacés. Cela élimine le besoin de cascader plusieurs modèles, par exemple via un échantillonnage hiérarchique ou un suréchantillonnage.
Meta soutient que cette approche permet à MusicGen de générer des échantillons de haute qualité en fonction des descriptions lyriques et des caractéristiques mélodiques.
Cela vous donne un meilleur contrôle sur la sortie générée. Pour démontrer la supériorité de leur approche, la société propose son propre site de comparaison avec MusicLM, Riffusion et Musai à cette adresse.
Défis de la génération de musique par IA
Il existe déjà de nombreux modèles d’IA pour la génération de texte, d’image, de vidéo et de synthèse vocale. En revanche, les systèmes de génération musicale sont encore très rares.
Cela s’explique par les défis auxquels les outils de ce genre doivent faire face. Le document de recherche de MusicGen, disponible sur arXiv à cette adresse, donne un aperçu de ces défis.
L’une des principales difficultés est la nécessité d’utiliser tout le spectre de fréquences pour créer de la musique. Cependant, cela nécessite un échantillonnage plus intensif.
De plus, la musique peut être basée sur des structures complexes et des instruments multicouches. Pour cette raison, ces outils sont plus sophistiqués que les IA générant du texte comme ChatGPT.
Cauchemar de l’industrie musicale ?
Depuis des mois, l’industrie musicale panique face à l’essor de l’IA générative. Une fausse chanson de Drake et The Weeknd est devenue un énorme succès, faisant craindre que l’IA ne remplace les artistes humains.
Des labels comme Universal tentent d’interdire ce genre de contenu comme une forme de plagiat. Sur Spotify, les chansons générées par l’IA sont écoutées par des robots, formant une boucle sans fin qui exclut les humains.
Même Daft Punk admet qu’ils se sont séparés par crainte de l’IA, mais le chanteur Grimes dit qu’il prévoit de partager les bénéfices comme s’il collaborait avec un artiste humain. Dans cette situation très tendue, MusicGen risque de faire polémique sur la façon dont il forme ses modèles. Selon le document de recherche, l’IA a été formée avec 20 000 heures de musique sous licence à partir d’un ensemble de données interne contenant 10 000 morceaux de musique.
De plus, la société a utilisé environ 390 000 titres instrumentaux de Shutterstock et Pond5. Mais les chercheurs affirment que toute musique est « soumise à des contrats légaux avec les titulaires de droits ».
En 2022, Shutterstock a conclu un accord avec OpenAI, créateurs de DALL-E et ChatGPT. La société dispose également de son propre outil de génération d’images AI pré-formé pour toutes les images des contributeurs.
Cependant, les artistes ne sont pas nécessairement d’accord que leur travail devrait être utilisé pour former l’IA. Certains d’entre eux ont déjà porté plainte contre des géants de l’IA générative tels que MidJourney et Stability AI.
Ils les accusent de créer des ensembles de données contenant du contenu protégé par le droit d’auteur sans consentement. Il s’agit donc d’une forme de plagiat automatique. Pour compliquer encore les choses, des entreprises géantes comme Meta peuvent détenir les droits d’auteur sur le contenu créatif de leur IA générative.
Une fois que le travail d’un artiste est intégré dans l’ensemble de données de l’IA, il peut être légalement plagié à l’infini sans que l’artiste ne puisse même s’y opposer. Les méta-chercheurs reconnaissent que l’IA « pourrait signifier une concurrence déloyale pour les artistes ». Cependant, ils pensent qu’en rendant le modèle open source, ils peuvent fournir aux musiciens professionnels et amateurs de nouveaux outils pour donner vie à leurs idées…
Comment utiliser Meta MusicGen ?
Vous pouvez maintenant tester MusicGen vous-même via l’API Huggin Face à cette adresse.
Cependant, veuillez noter que la génération de musique peut prendre un certain temps en fonction du nombre d’utilisateurs simultanés.
Alternativement, vous pouvez créer votre propre instance du modèle en utilisant le site Web de Hugging Face pour des résultats plus rapides.
Si vous disposez d’une machine suffisamment puissante et des connaissances nécessaires, vous pouvez même télécharger le code depuis cette adresse et l’exécuter vous-même.