Réalisation d'un court métrage à partir de clips générés par IA : L'œuf qui roule n'amasse pas mousse
Item
- Title
- Réalisation d'un court métrage à partir de clips générés par IA : L'œuf qui roule n'amasse pas mousse
- Description
- Dans cette première expérimentation, j'ai entrepris la création d'un court métrage entièrement réalisé à partir de clips générés par l'intelligence artificielle, plus précisément le modèle de génération vidéo open source Hunyuan. Du 23 décembre 2024 au 3 janvier 2025, j'ai exploré le potentiel de ComfyUI et d'Hunyuan pour produire les séquences visuelles nécessaires dans un processus non linéaire et itératif. Cette phase m'a permis d'aborder la création visuelle comme un environnement expérimental où la narration se module en fonction des résultats générés et des contraintes techniques. Cette approche m'a permis de comprendre par l'expérience les défis auxquels j'allais être confronté lors de la création finale de mon mémoire en recherche-création.
- Insérer un template outils
-
ComfyUI
- Hunyuan (modèlle IA)
- Un serveur muni d'un puissant GPU (RTX 4090) avec Ubuntu 22.04.5 comme système d'exploitation.
- Docker
- Succès / Avancées notables
- Installation et adaptation réussies des outils nécessaires (Hunyuan sur ComfyUI et configuration sur serveur départemental)
- Génération automatisée de vidéos cohérentes à partir de prompts multilingues (français, anglais, chinois simplifié)
- Génération fluide de vidéos de 3 secondes (720x512) présentant une qualité photoréaliste tant pour les mouvements que pour l'esthétique
- Identification du potentiel de ces outils et validation d'un processus non linéaire où les étapes traditionnelles de préproduction, production et post-production s'entremêlent
- Problèmes rencontrés
- Cohérence visuelle : Difficulté à maintenir une consistance crédible dans l'apparence des protagonistes entre les plans et une cohérence des environnements, l'IA génératrice ayant tendance à produire des variations imprévisibles.
- Limitations du corpus d'entraînement : Les modèles éprouvent des difficultés à générer des images très éloignées de leur corpus d'entraînement. Par exemple, la génération du plan où le T-Rex sort de l'œil de la poule s'est révélée très chronophage, et je n'ai jamais réussi à faire transformer un nuage en T-Rex dans le ciel (j'ai dû recourir à un fondu pour tenter de recréer l'effet escompté).
- Contraintes techniques : Malgré l'utilisation d'un GPU puissant (RTX 4090), la durée des clips générés était limitée à 3 secondes. Lorsque je diminuais la résolution pour augmenter la durée, des artéfacts, déformations et autres défauts réduisaient grandement la qualité des vidéos générées au point de les rendre inutilisables sans lourdes corrections. Cette limitation a rendu difficile le contrôle du rythme de montage, le résultat étant beaucoup plus nerveux que souhaité.
- Coût computationnel : Des milliers de clips ont dû être générés pour réaliser ce court métrage d'une minute. Si j'avais utilisé les plateformes propriétaires (Runway, Sora, etc.) plutôt que des logiciels open source hébergés sur le serveur départemental, la production de ces clips m'aurait coûté plusieurs centaines de dollars.
- Solutions apportées
- Stratégie de contournement visuel : Utilisation d'un animal (la poule) comme protagoniste pour contourner le problème de consistance des personnages. Le spectateur accepte plus facilement qu'il s'agisse de la même poule malgré les inconsistances, plutôt que s'il s'agissait d'un humain. L'effet fonctionne d'autant mieux qu'il n'y a qu'une poule, rendant la crédibilité du protagoniste acceptable malgré les changements de couleur dans certains plans. La même logique s'applique aux environnements : l'utilisation d'un terrain gazonné vide avec une forêt en arrière-plan permettait de créer un environnement crédible malgré l'aléatoire des générations.
- Approche combinatoire : Il s'avère plus simple de créer des images intéressantes en combinant des éléments existants plutôt qu'en créant un élément extraordinaire. Par exemple, faire marcher une girafe sur un iceberg par une nuit de pleine lune plutôt que de transformer un nuage en tyrannosaure rugissant. Cette approche s'apparente au remixage : il faut réfléchir au contenu probable des données d'entraînement du modèle et agencer ces éléments pour créer quelque chose d'original.
- Compensation technique : Pour pallier la longueur insuffisante des clips générés, j'en ai ralenti plusieurs, ce qui en a réduit la qualité.
- Optimisation du workflow : La génération d'un clip de 3 secondes pouvant prendre jusqu'à 8 minutes d'attente, cela impactait négativement les avantages du processus non linéaire et itératif, car je passais plus de temps à attendre qu'à manipuler des médias. Pour minimiser ce problème, j'ai lancé les générations pendant la nuit, ce qui me permettait d'avoir une banque de clips dans laquelle fouiller lors des sessions suivantes. Cette stratégie rendait le processus beaucoup plus fluide et agréable.
- Suggestions pour d’autres expérimentateur.ices
- Prévoir des personnages ou des éléments narratifs dont la variabilité ne nuit pas à la cohérence du film (animaux, environnements abstraits)
- Tester systématiquement plusieurs générations d'un même prompt avec différentes seeds (valeurs aléatoires ajoutées à l'algorithme), car parfois le prompt peut être approprié et vous êtes simplement victime d'un tirage défavorable
- Prioriser le contrôle en pré-génération afin de diminuer le nombre de générations nécessaires pour atteindre votre objectif, car le tri des médias générés devient rapidement chronophage. Sinon, automatiser cette étape à l'aide de modèles de vision (CLIP) est recommandé
- Actant ayant créé ce retour d'expérience
-
Keven Laporte
- Autres contextes d’application
- Cette approche simple du texte-vers-vidéo présente de nombreuses limitations dans le cadre de la réalisation d'un court métrage, mais permet facilement de générer des clips à des coûts bien inférieurs à ceux de la production traditionnelle. Ainsi, si la consistance des personnages ou des lieux n'est pas nécessaire, cette approche peut constituer une alternative peu coûteuse et rapide à la production traditionnelle.
- has target
- L'expérimentation vise la création d'une boucle créative itérative, explorant la capacité de l'IA à fonctionner non pas comme simple outil, mais comme co-créateur d'un récit audiovisuel. Dans cette boucle, les idées de l'artiste contenues dans le prompt sont transmises à la machine qui, à son tour, génère un clip contenant – sans s'y limiter – ce qui était spécifié dans le prompt. Ce visuel influence alors la réflexion et la créativité de l'artiste dans la rédaction du prompt suivant. L'instantanéité relative de la production des clips induit une approche inédite de la création narrative, à mi-chemin entre un exercice de montage à partir d'une banque de clips et la direction d'une équipe sur le terrain capable de capturer rapidement les plans nécessaires. Il s'agit définitivement d'un processus diamétralement différent des étapes linéaires traditionnelles de préproduction, production et post-production.
- startTime
- 23 décembre 2024
- endTime
- 3 janvier 2025
- Item sets
- EdiSem (Travaux étudiants)
Linked resources
Title | Class |
---|---|
![]() |
Annotations
There are no annotations for this resource.