Réalisation d'un court métrage à partir de clips générés par IA : L'œuf qui roule n'amasse pas mousse

Item

Title
Réalisation d'un court métrage à partir de clips générés par IA : L'œuf qui roule n'amasse pas mousse
Description
Dans cette première expérimentation, j'ai entrepris la création d'un court métrage entièrement réalisé à partir de clips générés par l'intelligence artificielle, plus précisément le modèle de génération vidéo open source Hunyuan. Du 23 décembre 2024 au 3 janvier 2025, j'ai exploré le potentiel de ComfyUI et d'Hunyuan pour produire les séquences visuelles nécessaires dans un processus non linéaire et itératif. Cette phase m'a permis d'aborder la création visuelle comme un environnement expérimental où la narration se module en fonction des résultats générés et des contraintes techniques. Cette approche m'a permis de comprendre par l'expérience les défis auxquels j'allais être confronté lors de la création finale de mon mémoire en recherche-création.
Insérer un template outils
ComfyUI
Hunyuan (modèlle IA)
Un serveur muni d'un puissant GPU (RTX 4090) avec Ubuntu 22.04.5 comme système d'exploitation.
Docker
Succès / Avancées notables
Installation et adaptation réussies des outils nécessaires (Hunyuan sur ComfyUI et configuration sur serveur départemental)
Génération automatisée de vidéos cohérentes à partir de prompts multilingues (français, anglais, chinois simplifié)
Génération fluide de vidéos de 3 secondes (720x512) présentant une qualité photoréaliste tant pour les mouvements que pour l'esthétique
Identification du potentiel de ces outils et validation d'un processus non linéaire où les étapes traditionnelles de préproduction, production et post-production s'entremêlent
Problèmes rencontrés
Cohérence visuelle : Difficulté à maintenir une consistance crédible dans l'apparence des protagonistes entre les plans et une cohérence des environnements, l'IA génératrice ayant tendance à produire des variations imprévisibles.
Limitations du corpus d'entraînement : Les modèles éprouvent des difficultés à générer des images très éloignées de leur corpus d'entraînement. Par exemple, la génération du plan où le T-Rex sort de l'œil de la poule s'est révélée très chronophage, et je n'ai jamais réussi à faire transformer un nuage en T-Rex dans le ciel (j'ai dû recourir à un fondu pour tenter de recréer l'effet escompté).
Contraintes techniques : Malgré l'utilisation d'un GPU puissant (RTX 4090), la durée des clips générés était limitée à 3 secondes. Lorsque je diminuais la résolution pour augmenter la durée, des artéfacts, déformations et autres défauts réduisaient grandement la qualité des vidéos générées au point de les rendre inutilisables sans lourdes corrections. Cette limitation a rendu difficile le contrôle du rythme de montage, le résultat étant beaucoup plus nerveux que souhaité.
Coût computationnel : Des milliers de clips ont dû être générés pour réaliser ce court métrage d'une minute. Si j'avais utilisé les plateformes propriétaires (Runway, Sora, etc.) plutôt que des logiciels open source hébergés sur le serveur départemental, la production de ces clips m'aurait coûté plusieurs centaines de dollars.
Solutions apportées
Stratégie de contournement visuel : Utilisation d'un animal (la poule) comme protagoniste pour contourner le problème de consistance des personnages. Le spectateur accepte plus facilement qu'il s'agisse de la même poule malgré les inconsistances, plutôt que s'il s'agissait d'un humain. L'effet fonctionne d'autant mieux qu'il n'y a qu'une poule, rendant la crédibilité du protagoniste acceptable malgré les changements de couleur dans certains plans. La même logique s'applique aux environnements : l'utilisation d'un terrain gazonné vide avec une forêt en arrière-plan permettait de créer un environnement crédible malgré l'aléatoire des générations.
Approche combinatoire : Il s'avère plus simple de créer des images intéressantes en combinant des éléments existants plutôt qu'en créant un élément extraordinaire. Par exemple, faire marcher une girafe sur un iceberg par une nuit de pleine lune plutôt que de transformer un nuage en tyrannosaure rugissant. Cette approche s'apparente au remixage : il faut réfléchir au contenu probable des données d'entraînement du modèle et agencer ces éléments pour créer quelque chose d'original.
Compensation technique : Pour pallier la longueur insuffisante des clips générés, j'en ai ralenti plusieurs, ce qui en a réduit la qualité.
Optimisation du workflow : La génération d'un clip de 3 secondes pouvant prendre jusqu'à 8 minutes d'attente, cela impactait négativement les avantages du processus non linéaire et itératif, car je passais plus de temps à attendre qu'à manipuler des médias. Pour minimiser ce problème, j'ai lancé les générations pendant la nuit, ce qui me permettait d'avoir une banque de clips dans laquelle fouiller lors des sessions suivantes. Cette stratégie rendait le processus beaucoup plus fluide et agréable.
Suggestions pour d’autres expérimentateur.ices
Prévoir des personnages ou des éléments narratifs dont la variabilité ne nuit pas à la cohérence du film (animaux, environnements abstraits)
Tester systématiquement plusieurs générations d'un même prompt avec différentes seeds (valeurs aléatoires ajoutées à l'algorithme), car parfois le prompt peut être approprié et vous êtes simplement victime d'un tirage défavorable
Prioriser le contrôle en pré-génération afin de diminuer le nombre de générations nécessaires pour atteindre votre objectif, car le tri des médias générés devient rapidement chronophage. Sinon, automatiser cette étape à l'aide de modèles de vision (CLIP) est recommandé
Actant ayant créé ce retour d'expérience
Keven Laporte
Autres contextes d’application
Cette approche simple du texte-vers-vidéo présente de nombreuses limitations dans le cadre de la réalisation d'un court métrage, mais permet facilement de générer des clips à des coûts bien inférieurs à ceux de la production traditionnelle. Ainsi, si la consistance des personnages ou des lieux n'est pas nécessaire, cette approche peut constituer une alternative peu coûteuse et rapide à la production traditionnelle.
has target
L'expérimentation vise la création d'une boucle créative itérative, explorant la capacité de l'IA à fonctionner non pas comme simple outil, mais comme co-créateur d'un récit audiovisuel. Dans cette boucle, les idées de l'artiste contenues dans le prompt sont transmises à la machine qui, à son tour, génère un clip contenant – sans s'y limiter – ce qui était spécifié dans le prompt. Ce visuel influence alors la réflexion et la créativité de l'artiste dans la rédaction du prompt suivant. L'instantanéité relative de la production des clips induit une approche inédite de la création narrative, à mi-chemin entre un exercice de montage à partir d'une banque de clips et la direction d'une équipe sur le terrain capable de capturer rapidement les plans nécessaires. Il s'agit définitivement d'un processus diamétralement différent des étapes linéaires traditionnelles de préproduction, production et post-production.
startTime
23 décembre 2024
endTime
3 janvier 2025

Linked resources

Items with "Intégrer des templates retours d'expérience: Réalisation d'un court métrage à partir de clips générés par IA : L'œuf qui roule n'amasse pas mousse"
Title Class
MadBeat – Court métrage réalisé à partir de vidéos générés par IA

Annotations

There are no annotations for this resource.