
L'outil de génération vidéo Sora d'OpenAI a surpris la communauté de l'IA en février avec des vidéos fluides et réalistes qui semblent bien supérieures à celles des concurrents. Mais le dévoilement soigneusement orchestré a laissé de côté de nombreux détails - des détails qui ont été fournis par un cinéaste ayant eu un accès précoce pour créer un court métrage en utilisant Sora.
Shy Kids est une équipe de production numérique basée à Toronto qui a été choisie par OpenAI pour produire des courts métrages essentiellement à des fins promotionnelles, bien qu'ils aient bénéficié d'une grande liberté créative pour créer "air head." Dans une interview avec le média d'effets visuels fxguide, l'artiste de post-production Patrick Cederberg a décrit "l'utilisation de Sora" comme faisant partie de son travail.
Peut-être que la leçon la plus importante pour la plupart des gens est simplement la suivante : alors que la publication d'OpenAI mettant en avant les courts laissent penser au lecteur qu'ils sont plus ou moins sortis entièrement de Sora, la réalité est que ce sont des productions professionnelles, avec un storyboard solide, du montage, de la correction des couleurs et du travail post-production comme du roto et des effets visuels. Tout comme Apple dit "filmé avec iPhone" mais ne montre pas la mise en place du studio, l'éclairage professionnel et le travail sur les couleurs après coup, le post de Sora parle seulement de ce qu'il permet aux gens de faire, pas de la manière dont ils l'ont réellement fait.
L'interview de Cederberg est intéressante et assez peu technique, donc si vous êtes intéressé, rendez-vous sur fxguide et lisez-la. Mais voici quelques informations intéressantes sur l'utilisation de Sora qui nous montrent que, aussi impressionnant que cela puisse paraître, le modèle est peut-être moins révolutionnaire que ce que nous pensions.
Le contrôle est toujours la chose la plus désirable et aussi la plus difficile à obtenir à ce stade. … Le plus proche que nous ayons pu obtenir était d'être simplement très descriptifs dans nos indications. Expliquer les vêtements des personnages, ainsi que le type de ballon, était notre façon de contourner le problème de la cohérence car de plan en plan / de génération en génération, il n'y a pas encore de jeu de fonctionnalités en place pour un contrôle total de la cohérence.
En d'autres termes, des choses simples dans la réalisation cinématographique traditionnelle, comme choisir la couleur des vêtements d'un personnage, nécessitent des contournements et des vérifications élaborés dans un système génératif, car chaque plan est créé indépendamment des autres. Cela pourrait bien sûr changer, mais c'est certainement beaucoup plus laborieux pour le moment.
Les sorties de Sora devaient également être surveillées pour détecter des éléments indésirables : Cederberg a décrit comment le modèle générait systématiquement un visage sur le ballon que le personnage principal a pour tête, ou une corde pendue à l'avant. Ces éléments devaient être supprimés en post-production, un processus long, si on ne pouvait pas obtenir de l'indication pour les exclure.
Le timing précis et les mouvements des personnages ou de la caméra ne sont pas vraiment possibles : "Il y a un peu de contrôle temporel sur l'endroit où ces actions se produisent dans la génération réelle, mais ce n'est pas précis ... c'est un peu à l'aveugle," a déclaré Cederberg.
Par exemple, synchroniser un geste comme un salut est un processus très approximatif, basé sur des suggestions, contrairement aux animations manuelles. Et un plan comme un panoramique vers le haut sur le corps du personnage peut ne pas refléter ce que le réalisateur souhaite - ainsi l'équipe dans ce cas a rendu un plan composé en orientation portrait et a réalisé un panoramique en post-production. Les clips générés étaient également souvent au ralenti pour aucune raison particulière.

En fait, l'utilisation du langage courant de la réalisation cinématographique, comme "panoramique à droite" ou "travelling", était généralement incohérente, a déclaré Cederberg, ce que l'équipe a trouvé assez surprenant.
"Les chercheurs, avant de solliciter les artistes pour jouer avec l'outil, n'avaient pas vraiment réfléchi en tant que cinéastes," a-t-il dit.
Par conséquent, l'équipe a réalisé des centaines de générations, chacune de 10 à 20 secondes, et n'en a utilisé qu'une poignée. Cederberg a estimé le ratio à 300:1 - mais bien sûr, nous serions probablement tous surpris par le ratio lors d'un tournage ordinaire.
L'équipe a en fait réalisé une petite vidéo en coulisses expliquant certains des problèmes rencontrés, si vous êtes curieux. Comme beaucoup de contenus liés à l'IA, les commentaires sont assez critiques de l'ensemble - bien que pas aussi virulents que la publicité assistée par IA que nous avons récemment vue critiquée.
Le dernier point intéressant concerne les droits d'auteur : Si vous demandez à Sora de vous donner un clip "Star Wars", il refusera. Et si vous essayez de contourner cela avec "homme en robe avec une épée laser sur un vaisseau rétro-futuriste", il refusera également, car par un mécanisme, il reconnaît ce que vous essayez de faire. Il a également refusé de réaliser un plan "à la Aronofsky" ou un "zoom à la Hitchcock."
D'un côté, cela semble logique. Mais cela soulève la question : Si Sora sait ce que ce sont ces éléments, est-ce que cela signifie que le modèle a été formé sur ce contenu, afin de mieux reconnaître qu'il s'agit de contrefaçon ? OpenAI, qui garde ses données d'entraînement très secrètes - à tel point que c'est absurde, comme dans l'interview de la CTO Mira Murati avec Joanna Stern - ne nous le dira presque certainement jamais.
Quant à Sora et son utilisation dans la réalisation cinématographique, c'est clairement un outil puissant et utile à sa place, mais sa place n'est pas "créer des films à partir de rien." Pas encore. Comme un autre méchant a dit une fois, "ça viendra plus tard."