Nvidia promet des sons jamais entendus auparavant avec son nouveau générateur audio AI

Nvidia veut vous le faire savoir que vos caprices audio les plus étranges sont désormais possibles. Le dernier projet d'IA de la société, avec ses PNJ IA et son chatbot en jeu, est une IA texte-audio appelée Fugatto. Comme d'autres modèles, l'audio Nvidia AI peut créer des pistes à partir d'une simple description, mais ce programme peut également créer « des sons jamais entendus auparavant,» comme un « hurlement de saxophone », peu importe ce que cela signifie.

Dans un article de blog, Nvidia a affirmé que son modèle d’IA « couteau suisse pour le son » pouvait modifier les sons existants ou créer des paysages sonores entiers à partir de rien. Fugatto est en fait un acronyme pour le « Foundational Generative Audio Transformer Opus 1 », d’une longueur odieuse. Il est capable de traiter les voix, la musique et le bruit de fond et de les produire tous en une seule piste audio. Il peut également modifier les sources sonores existantes.

C'est idiot d'appeler quoi que ce soit « un son jamais entendu auparavant », surtout s'il vient de l'IA. Quelle que soit la sortie, l'audio de l'IA est simplement un algorithme d'IA utilisant des sources existantes dans ses données d'entraînement pour fournir un résultat qui se rapproche de l'invite. Nvidia a déclaré que son modèle est unique car il peut combiner des instructions séparées lors de la formation et « créer des paysages sonores jamais vus auparavant ». Cela signifie qu'il peut superposer deux effets audio distincts pour créer quelque chose de nouveau. Dans une vidéo, Nvidia a montré comment générer le son d'un train qui se transforme en partition orchestrale. Cela peut également créer le bruit d’une tempête de pluie qui s’estompe au loin.

Ce sont des capacités que nous n’avons jamais vues auparavant. Au-delà d'une invitation à faire une démonstration de « musique électronique avec des chiens aboyant au rythme du rythme », Nvidia a déclaré que son outil offre un « contrôle précis » sur les paysages sonores créés. Nvidia affirme que le narrateur de la vidéo était une version IA du PDG de Nvidia, Jensen Huang, mais si Fugatto a produit la voix manifestement fausse, le modèle IA a besoin de plus de travail avant que quiconque ne l'utilise pour son prochain projet deepfake.

De nombreux outils audio d’IA prennent déjà des invites textuelles et les transforment en pistes audio. Adobe a vendu son propre outil Project MusicGenAI Control à des musiciens sans scrupules. Les grandes entreprises technologiques comme Meta ont déjà fait la promotion de leurs modèles audio auprès de l’industrie cinématographique. Le mois dernier, Meta a lancé Movie Gen, qui peut générer des paysages sonores pour les films générés par l'IA.

Nvidia cite la chercheuse en IA Rohana Badlani, qui a déclaré que le modèle « m'a fait me sentir un peu comme un artiste », même si, bien sûr, l'IA s'appuie sur des milliers de gigaoctets de données musicales et audio existantes. Nvidia n'a pas partagé de détails exacts sur son ensemble de données et a seulement déclaré qu'il contenait « des millions d'échantillons audio utilisés pour la formation ». La version complète de Fugatto est un modèle de 2,5 milliards de paramètres formé sur les propres banques de Nvidia de ses célèbres GPU H100 AI.

C'est une mauvaise nouvelle pour les artistes de bruitage, qui ont fait de ce genre de contrefaçon audio une forme d'art renommée. La société a déclaré que Fugatto pourrait être un outil utile pour les agences de publicité, les développeurs de jeux vidéo ou les musiciens qui souhaitent expérimenter les modifications apportées à leur travail sans faire beaucoup de travail supplémentaire. Pourtant, le revers de la médaille, ce sont tous ces gens qui l’utiliseraient pour créer de « nouveaux actifs », c’est-à-dire ajouter potentiellement plus de slop d’IA à la pile croissante.

Fugatto a potentiellement plus d’utilité que de simplement donner une excuse aux sociétés de production cinématographique pour remplacer les ingénieurs du son humains. Nvidia prétend pouvoir supprimer ou ajouter des instruments à la musique existante. Il peut également isoler et modifier des bruits spécifiques provenant de sources existantes. Peut-être que vous pouvez vous en tirer en générant des rythmes de batterie vides sur votre partition de synthétiseur blasée, mais une bande-son entière générée avec rien d'autre que l'IA n'est pas ce que la plupart des gens paient lorsqu'ils achètent un billet de cinéma.

Nvidia promet des sons jamais entendus auparavant avec son nouveau générateur audio AI

Cinq morts et 22 blessés dans un accident de camion aux Philippines

ONU : Macky Sall, l’architecte d’un multilatéralisme inclusif face aux fractures mondiales

Le Charles de Gaulle en mer d’Arabie : la France se positionne pour le détroit d’Ormuz

Somalie : 50 combattants al-Shabaab tués près de Baidoa

Drame aux Maldives : cinq plongeurs italiens morts dans une grotte, la sixième rescapée par un coup du sort

Guerre en Ukraine : 205 prisonniers échangés, un signal ou une illusion ?

Des chercheurs australiens conçoivent une puce nanofluidique dotée d’une mémoire semblable à celle du cerveau

Australie : un nouveau virus détecté chez les chauves-souris, les scientifiques surveillent de près

Duffy relance la conquête spatiale : un réacteur nucléaire sur la Lune d’ici 2030

Égypte ancienne : pourquoi les statues d’Hatchepsout ont été détruites après sa mort

Un immense nuage de particules cosmiques bouleverse les certitudes des astronomes

Pourquoi les chauves-souris ne développent (presque) jamais de cancer — et ce que cela peut changer pour les humains

Laisser un commentaireAnnuler la réponse

Un chef-d'œuvre littéraire prend vie dans la première bande-annonce de Cent ans de solitude

Quel esprit libre êtes-vous selon votre signe astrologique ?