Données d'entraînement

Notre étude s’accompagne de l’examen de plusieurs données d’entraînement. Ces datasets varient de corpus sonores à des bases de données d'images. Les données elles-mêmes ont été moissonnées par des organismes de recherche, des entreprises ou des auteurs à partir de contenus en ligne, de la culture visuelle contemporaine ou de processus génératifs pensés par des artistes eux-mêmes.

Par exemple, ce corpus inclut « Cent-deux dialogues sur le climat », un ensemble de dialogues sonores que j’ai moi-même produit pour l’installation Critical Climate Machine. Le corpus inclut d’autre part « ImageNet », une vaste base de données d'images organisée selon la hiérarchie de WordNet et développée par des chercheurs de Stanford pour la vision par ordinateur. Ces datasets présentent un éventail de ressources propres à des usages, des modèles ou des concepts liés aux médias génératifs ou à l’apprentissage automatique.

Pour cette synthèse, nous proposons le regroupement de ces datasets en deux grandes classes : les datasets conçus par des artistes – des ensembles dont les échelles sont relativement modestes et qui font œuvre ; les datasets génériques – des ensembles produits par l’industrie des médias génératifs pour des modèles de grande échelle et de grande distribution.

Datasets d'artistes

Attack the Sun (scénario)

Les données ayant servi à la production générative des scènes du film Attack the Sun proviennent de son propre scénario. L’ensemble est un ensemble de phrases pré écrites, sous la forme de dialogues et de monologues. Ces dialogues permettent de colorer les phrases générées, donnant au logiciel la référence nécessaire pour produire les textes à jouer.
Abstraction & Reasoning Corpus

Jeu de données fictif et conceptuel dont la visualisation est générée par un algorithme codé en JavaScript, librairie p5.js. L’algorithme fait appel à des fonctions shuffle et à d’autres fonctions liées à des concepts visuels (couleur, symétrie, subdivision). Les données sont volatiles : elles ne affichées par l’algorithme mais n’ont pas été enregistrées pu déposées par l’artiste.
Blade Runner

Film de science-fiction réalisé par Ridley Scott en 1982, basé sur le roman Do Androids Dream of Electric Sheep? de Philip K. Dick.
Trois lignes (10K)

Trois lignes est un ensemble de données synthétiques produites grâce à un script Processing selon des règles de permutation visuelles et des fonctions de dessin aléatoire. Chaque image comprend trois lignes verticales ou horizontales, ainsi qu’une ou plusieurs couleurs primaires. Le dataset comprends 10 000 images.
Cent-deux dialogues sur le climat en trois degrés

Corpus sonore comprenant cent-deux courts dialogues entre défenseurs du climat et climatosceptiques. Les cent-deux dialogues sonores s'organisent en trois sous-ensembles ou trois degrés, allant des dialogues authentiques à des dialogues générés et spatialisés. Chacun des degrés se compose de trente-quatre dialogues écrits. Le premier degré a été joué par des acteurs, les deux autres ont été synthétisés à partir du premier. Le premier degrés est lui-même organisé selon cinq classes de déni sur le réchauffement climatique. Les dialogues ont été écrits puis joués durant un ensemble d’ateliers conduits avec des élèves et étudiants de l’Est du Grand Paris (Université Gustave Eiffel et Lycée International de l’Est Parisien).

Datasets généralistes

DALLE-2 (dataset)

Le modèle DALL-E 2 a été entraîné sur un ensemble de données varié comprenant des millions de paires image-texte collectées sur Internet. Le dataset a été filtré de façon à mitiger certains types d’images tels que des images à caractère violent ou pornographique. Manque d’informations précises.
LAION-5B

Le dataset LAION-5B est un ensemble de données ouvertes de grande échelle contenant environ 5,85 milliards de paires d'images et de textes. Il a été conçu pour l'entraînement et l'évaluation de modèles d'apprentissage automatique, en particulier dans les domaines de la vision par ordinateur et du traitement du langage naturel.
ImageNet

ImageNet est une base de données d'images organisée selon la hiérarchie de WordNet, où chaque nœud de la hiérarchie est représenté par des centaines et des milliers d'images. Le projet a joué un rôle clé dans l'avancement de la recherche en vision par ordinateur et en apprentissage profond. Les données sont disponibles gratuitement pour les chercheurs et pour des fins non commerciales.

Prev Next