in

L’IA générative du texte à la vidéo est enfin là et c’est bizarre comme l’enfer

J’aime mon IA comme j’aime mes variétés de fromages étrangers, incroyablement bizarres et pleines de trous, le genre qui laisse la plupart des définitions du « bon » au goût de chacun. Alors colorez-moi surpris alors que j’explorais la prochaine frontière des modèles d’IA publics et que j’ai trouvé l’une des expériences les plus étranges que j’ai eues depuis l’étrange généré par l’IA Seinfeld contrefaçon Rien pour toujours a été publié pour la première fois.

Runway, l’une des deux startups qui a aidé à nous donner le générateur d’art AI Stable Diffusiona annoncé lundi que son premier test public pour son Modèle vidéo AI Gen-2 allait bientôt être mis en ligne. La société a fait l’étonnante affirmation qu’il s’agissait du « premier modèle de texte en vidéo accessible au public ». Malheureusement, un groupe plus obscur avec un modèle texte-vidéo initial beaucoup plus jankier a peut-être battu Runway au poing.

Google et Méta travaillent déjà sur leurs propres générateurs de texte en image, mais aucune des deux sociétés n’a été très ouverte sur les nouvelles depuis qu’elles ont été taquinées pour la première fois. Depuis février, l’équipe relativement petite de 45 personnes de Runway est connue pour ses outils de montage vidéo en ligne, y compris son vidéo-à-vidéo Modèle d’IA Gen-1 qui pourraient créer et transformer des vidéos existantes basées sur des invites textuelles ou des images de référence. Gen-1 pourrait transformer un simple rendu d’un bonhomme allumette nageant en plongeur autonome, ou transformer un homme marchant dans la rue en un cauchemar d’argile avec une superposition générée. Gen-2 est censé être la prochaine grande étape, permettant aux utilisateurs de créer des vidéos de 3 secondes à partir de zéro en se basant sur de simples invites textuelles. Bien que la société n’ait encore laissé personne mettre la main dessus, la société a partagé quelques clips basés sur des invites telles que « un gros plan d’un œil » et « une vue aérienne d’un paysage de montagne ».

Peu de personnes extérieures à l’entreprise ont être capable de Découvrez le nouveau modèle de Runway, mais si vous avez toujours envie de générer des vidéos AI, il existe une autre option. L’IA système de texte en vidéo appelé ModelScope est sorti le week-end dernier et a déjà fait le buzz pour ses clips vidéo de 2 secondes parfois maladroits et souvent insensés. Le DAMO Vision Intelligence Lab, une division de recherche du géant du commerce électronique Alibaba, a créé le système comme une sorte de test public. Le système utilise un modèle de diffusion assez basique pour créer ses vidéos, selon les page décrivant son modèle d’IA.

ModelScope est open source et déjà disponible sur Visage étreignant, bien qu’il puisse être difficile de faire fonctionner le système sans payer une somme modique pour faire fonctionner le système sur un serveur GPU distinct. YouTubeur technique Matt Wolf a un bon tutoriel sur la façon de configurer cela. Bien sûr, vous pouvez continuer et exécuter le code vous-même si vous avez les compétences techniques et la VRAM pour le prendre en charge.

ModelScope est assez flagrant quant à la provenance de ses données. Beaucoup de ces vidéos générées contiennent le vague contour du logo Shutterstock, ce qui signifie que les données de formation comprenaient probablement une partie importante de vidéos et d’images tirées du site de photos. C’est un problème similaire avec d’autres générateurs d’images AI comme Stable Diffusion. Getty Images a poursuivi Stability AIla société qui a rendu public le générateur d’art IA, et a noté combien d’images Stable Diffusion créent une version corrompue du filigrane Getty.

Bien sûr, cela n’a toujours pas empêché certains utilisateurs de faire de petits films en utilisant l’IA plutôt maladroite, comme celle-ci Dark Vador au visage grassouillet visitant un supermarché ou de Spider-Man et d’un capybara faire équipe pour sauver le monde.

En ce qui concerne Runway, le groupe cherche à se faire un nom dans le monde toujours plus encombré de la recherche en IA. Dans leurs papier décrivant son Gen-1 système, les chercheurs de Runway ont déclaré que leur modèle est formé à la fois sur les images et la vidéo d’un «ensemble de données à grande échelle» avec des données texte-image aux côtés de vidéos sans sous-titres. Ces chercheurs ont découvert qu’il y avait simplement un manque d’ensembles de données vidéo-texte avec la même qualité que d’autres ensembles de données d’images contenant des images extraites d’Internet. Cela oblige l’entreprise à tirer ses données des vidéos elles-mêmes. Il sera intéressant de voir comment la version probablement plus raffinée du texte en vidéo de Runway se cumule, en particulier par rapport au moment où des poids lourds comme Google montrent davantage de ses vidéos narratives plus longues.

Si la nouvelle liste d’attente Gen-2 de Runway ressemble à celle de Gen-1, les utilisateurs peuvent s’attendre à attendre quelques semaines avant de mettre pleinement la main sur le système. En attendant, jouer avec ModelScope peut être une bonne première option pour ceux qui recherchent des interprétations plus étranges de l’IA. Bien sûr, c’est avant que nous ayons le mêmes conversations sur les vidéos générées par l’IA que nous faisons maintenant sur les images créées par l’IA.

Les diapositives suivantes sont quelques-unes de mes tentatives pour comparer Runway à ModelScope et également tester les limites de ce que le texte à l’image peut faire. J’ai transformé les images au format GIF en utilisant les mêmes paramètres sur chacune. La fréquence d’images sur les GIF est proche de celle des vidéos originales créées par l’IA.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

GIPHY App Key not set. Please check settings

    le champion en titre Shoma Uno blessé à l’entraînement

    La franchise Alien peut-elle être sauvée ?