briefstory
briefstory
Tech · innovation

« Imagen Video » ou comment transformer un texte en vidéo HD selon Google

Après Facebook et l'annonce de son nouveau service "Make-a-video", Google vient à son tour de présenter ses dernières avancées dans la création d'une intelligence artificielle, “Imagen Video”, qui transforme n'importe quel texte en une vidéo haute définition. 

 

Vendredi 30 septembre, Meta, le groupe détenteur de Facebook, a dévoilé “Make-a-video”, un outil IA qui permet de générer une vidéo à partir d'un texte. Google n’a pas tardé à répliquer en dévoilant à son tour ses recherches en cours dans ce domaine avec Imagen Video.

 

Et ce seulement quelques mois après la création d’Imagen. Un système de génération d’images comparable à DALL-E 2  d’OpenAI ou autre "Stable Diffusion". Avec Imagen Video, Google semble faire un bond en avant, en montrant son aptitude à "animer des textes" que les modèles actuels similaires auraient encore du mal à comprendre. 

 

Des vidéos haute définition

 

A partir d'un texte, le système génère une vidéo de 16 images, à raison de 3 images par seconde. Il augmente ensuite l'échelle et prédit des images supplémentaires, produisant ainsi des séries de 24 images par seconde, en 720p (1280×768).

 

Ainsi, contrairement à ses concurrents, Imagen Video est capable de générer des vidéos haute définition. De plus, pour Google il est une étape vers un système plus vaste, doté d'un "haut degré de contrôlabilité et de connaissance du monde", permettant de générer des séquences dans des styles artistiques connus, en trois dimensions ou encore des textes animés.

 

Imagen Video aurait été entraîné sur 14 millions de paires vidéo-texte et 60 millions de paires image-texte, ainsi que sur le jeu de données image-texte accessible au public : LAION-400M . Ce qui lui aurait permis de se généraliser à toute une gamme d'esthétiques. Lors d’une phase de tests, Imagen Video a déjà créé des contenus animés dans le style pictural de Van Gogh. Une prouesse.

 

Et des perspectives inédites

 

Pour améliorer la qualité de ces rendus, les équipes derrière Imagen Video prévoient d'unir leurs forces à celles des chercheurs à l'origine de Phenaki. Présenté lui aussi il y a quelques jours, ce système a la particularité de transformer des messages longs en vidéos de plusieurs minutes, mais avec une qualité inférieure.

 

Google doit par ailleurs encore régler quelques détails. En effet, des vidéos d’exploitation d’enfants ou des infox conçues pour influencer des décisions politiques figurent parmi les créations de ses recherches... Aussi, le géant américain a préféré indiquer qu'il ne publiera pas le code source du projet "tant que ces problèmes n'auront pas été résolus".

 

En parallèle de ces recherches menées par les géants américains, le domaine avance lui aussi très vite pour les utilisateurs. Un entrepreneur allemand Fabian Stelzer a par exemple déjà réalisé un film entièrement grâce à l'IA :  “SALT”.