Modèles d'IA
En lien avec des documents ou œuvres, notre étude recense également une gamme de modèles d'intelligence artificielle utilisés dans le domaine des médias génératifs. Ceci comprend des réseaux d’analyse tels que « MobileNET », un réseau de neurones convolutifs (CNN) optimisé pour les appareils mobiles avec des contraintes de calcul, ou des réseaux pour la synthèse tels que « Autoencoding Video Frames » fait référence à un auto-encodeur variationnel (VAE) utilisé pour la réinterprétation de séquences vidéo. L’étude inclut également « TLEL », un réseau antagoniste génératif (GAN) développé pour l'étude des environnements génératifs et « Dicy2 », un modèle d'apprentissage automatique semi-supervisé pour la création sonore. Ensemble, ces modèles illustrent la diversité des approches et des technologies engagées dans la création et l'analyse dans les médias génératifs. D'après cette étude spécifique, nous pouvons classer les modèles d'intelligence artificielle en deux catégories : ceux dédiés à la synthèse et ceux dédiés à l'analyse.
Modèles dédiés à la synthèse
-
DALLE-2
Apprentissage profond, text-2-image (prompts), base GPT-3 (generative pretrained transformer) combiné à un modèle CLIP et un modèle de diffusion. Modèle multimodal utilisant 3,5 milliards de paramètres, entraîné sur une base d’images associées à leurs légendes textuelles et moissonnées sur internet. N.B. : un modèle open source (Craiyon ou Dall-E Mini) a été adapté et distribué sur Hugging Face à partir de 2022. Cette version open source a été entraînée sur la base d’un ensemble de données non filtrées. -
Attack the Sun (logiciel)
Le logiciel décrit ici est une architecture modulaire complexe conçue pour la génération et le contrôle temporel des dialogues. Il comprend plusieurs programmes adaptés selon les scènes, et qui sont capables d’intégrer de nouvelles expressions à partir des dialogues pré-écrits (scénario). Ces programmes permettent d’ajuster le déroulé des dialogues en fonction des caractéristiques souhaitées pour chaque scène, telles que la dégradation de la langue ou les répétitions. Une interface de contrôle a été développée pour permettre la gestion temporelle des dialogues pendant le tournage, avec un opérateur qui génère et envoie les répliques aux acteurs en temps réel. -
Autoencoding Video Frames
Apprentissage profond, Auto-encodeur variationnel (Variontionnal auto encoder ou VAE). Le modèle est composé de trois réseaux interconnectés : encodeur, décodeur, et discriminateur. Le modèle particulier. L'implémentation du modèle de VAE développé par l’artiste Terrence Broad est titrée : « Learned Similarity Autoencoder for Modelling and Reconstructing Video Frames. » -
TLEL
Le réseau TLEL (Trois Lignes dans un Espace Latent) est un GAN de type WGAN-GP, codé en Python à l'aide des librairies TensorFlow et Keras. Lors de l'entraînement, le modèle est instancié pour travailler sur des images de 128 x 128 ; à l'entrée du générateur le vecteur (Z) est de dimension 100. La particularité de ce modèle est le paramètre de convolution du générateur qui est relativement grand, de façon à ce que le générateur tende vers l'abstraction visuelle. -
Dicy2
Apprentissage automatique semi-supervisé, modèle probabiliste et multidimensionnel sans pré-entraînement. Voir Nika et al., 2017. Une implémentation des modèles en librairie Python est disponible dans ce répertoire https://github.com/DYCI2/Dicy2-python. La classe « générateur » de la librairie emploie une technique de correspondance de motif (pattern matching) pour enrichir la méthode de navigation et de génération.
Modèles dédiés à l'analyse
-
Récupération de clips
Outils de récupération de clips (associations texte et image) créés par la communauté LAION. L’algorithme permet de traiter l’intégration de clips (autrement appelés embeddings) et de créer un système de récupération de ces clips par l’intermédiaire d’une recherche sémantique. -
MobileNET
MobileNET est une classe de modèles conçue pour des applications mobiles et embarquées. La structure du réseau de neurones est une structure de type convolutionnel (CNN). MobileNET est un modèle entraîné avec la base de données ImageNet.