Introduction

Contexte ou ancrage

Avec les récents développements de l’apprentissage profond (deep learning), force est de constater que les médias génératifs se hissent au rang de média de masse. DALL·E, Midjourney et Stable Diffusion sont trois exemples de modèles qui permettent au profane de générer des images synthétiques à partir d’instructions écrites ou prompts plus ou moins sommaires. Cette massification des médias génératifs va de pair avec une ère de l’information en crise – une ère « post-vérité » (Shepard, 2022) dans laquelle il devient difficile de distinguer le vrai du faux, aussi bien que de départager l’image authentique de l’image trompeuse (avec par exemple les images issues des technologies deepfake). Dans ce contexte, des problèmes importants apparaissent : les régimes traditionnels de l’authenticité sont en crise ; il est nécessaire d’en comprendre les raisons.

Pour une part, l’entraînement des Intelligences Artificielles (IA) génératives requiert un très grand nombre de données dont l’origine ou les biais sont habituellement peu mis en avant, et dont les pratiques de travail « soulèvent de sérieuses inquiétudes d’ordre éthique, méthodologique et épistémologique » (Crawford, 2021). D’autre part, en s’opposant aux approches symboliques des algorithmes (Cardon et al., 2018), les réseaux de neurones entraînés, notamment par leur échelle, rendent particulièrement difficile leur étude critique et technique. Il faut aussi évoquer le rôle des modèles d’apprentissage profond dans le domaine de la vision-machine. Souvent critiquée en tant qu'appareil de contrôle, et impliquant de nouvelles stratégies de contournement comme l’obfuscation (Fourmentraux, 2023), la vision des machines entraînerait une culture visuelle dans laquelle la perception humaine ne serait plus nécessairement centrale (Paglen, 2016), ce qui n’est pas sans poser de questions.

Questions de recherche

Dès lors, comment envisager l’historicisation ou l’explicabilité des images artificielles ? Comment caractériser les nouveaux régimes d’authenticité des médias génératifs et synthétiques ? Quelles sont les pratiques de ce domaine et comment penser ces nouveaux régimes ? Même si des auteurs comme Lev Manovich, Emmanuele Arielli ou encore Sofian Audry – font référence, soulignons que du point de vue du phénomène de la désinformation en ligne, une philosophie technique articulée à une compréhension esthétique de ces objets reste à approfondir. Par ailleurs, il existe d'autres théories de l'esthétique artificielle, avec des auteurs comme Margit Boden ou Marcus du Sautoy. Si les ouvrages de ces derniers sont motivés par la perspective de la « créativité computationnelle », il nous semble que ceci nous éloigne de la compréhension des régimes d'authenticité tels que problématisés.

Ainsi, l’étude MIARA entend rassembler diverses approches théoriques des modèles d’IA générative dans l’art et les médias : réseau génératif adversaire (GAN), auto encodeur variationnel (VAE), ou encore modèle de diffusion – afin d’en dégager des formes d’authenticité. (Nous comprenons ici le terme d’authenticité à la lumière des écrits de Walter Benjamin.) Il s’agit ainsi de développer une meilleure compréhension des mécanismes activant les « puissances du faux » (Deleuze, 1985), en particulier du point de vue de l’image algorithmique, de sa production et de sa réception. Pour répondre en détail aux questions posées, nous proposerons une étude de médias génératifs échantillonnés à travers œuvres et documents récents 2016-2023).

L'hypothèse repose sur deux points. Premièrement, nous postulons que les réseaux d'apprentissage profond sont des structures techniques computationnelles construites pour opérer en elles-mêmes sur des formes d'authenticité et d'inauthenticité. Ces formes s'incarnent dans des architectures de réseaux, des traitements et des fonctions mathématiques. Deuxièmement, la production d’algorithmes d’apprentissage profond fait appel à un moissonnage de données dont l’envergure est sans précédent (Audry, 2021). Aussi l’étude des données d’entraînement dans lesquelles les médias génératifs prennent racine présente des enjeux importants, tant du point de vue de la recherche en art et médias que d’une compréhension politique des effets de l’IA sur la société.

Méthodologie

Sur le versant méthodologique, l’étude des médias génératifs recensera des cas tout en examinant leurs rapports avec des données d’entraînement et des modèles d’IA. Cette méthodologie emprunte des conceptions issues de l’esthétique algorithmique de Stiny et Gips :

Nous nous intéressons à la manière dont les algorithmes qui génèrent des descriptions, des interprétations et des évaluations des œuvres d'art peuvent être construits, et à la façon dont ces algorithmes peuvent être utilisés pour étudier des questions dans le domaine de l'esthétique. Stiny et Gips, 1978.

Le fait que l'original d'une image et une contrefaçon soient considérés comme esthétiquement identiques ou non dépend des conventions utilisées pour les décrire (Ibid.).

D’une part, la proposition d’une critique et d’un design algorithmique par Stiny et Gips anticipe largement les méthodes d’analyse et de synthèse liées à l’IA générative, et d’autre part, sans délaisser le critère de l’authenticité, elle ouvre une discussion portant sur les cadres de description de l'œuvre.

De plus, soulignons que l’étude s’appuie sur une saisie des données de la recherche dans une base de données sémantique ouverte de type Linked Open Data, en lien avec le projet de Design pour Edisem du groupe Arcanes, un projet tuteuré de la formation d'ingénieur IMAC (Université Gustave Eiffel). Nous verrons à travers ce dossier comment l’enrichissement des données de l’étude permet d’éclairer une circulation de concepts propre aux régimes d’authenticité de l’image algorithmique dans le XXIe siècle (cf. Concepts).

Enfin, pour étoffer la recherche, un cycle de journée d'étude et ateliers a été organisé au Fresnoy - Studio national des arts contemporains (France). Intitulée « Images trompeuses et médias génératifs » ce cycle a finalement rassemblé 10 chercheuses et chercheurs internationaux. La captation de la journée d'étude a ensuite été montée et éditorialisée sur la plateforme Youtube.

Premières analyses

Comme le suggère Sabine Süsstrunk, directrice de recherche en informatique des images, dans un récent interview produit par l’historienne de la photographie Estelle Blaschke et l’artiste Armin Linke – le doute généralisé sur la véracité des images est un constat de départ nécessaire pour examiner les images contemporaines :

Mais c’est ça le truc, vous savez. Est-ce que c’est un deepfake ou est-ce que ce n’est pas un deepfake ? Ce sont des questions que nous devons nous poser. Un portrait artificiellement généré est en tout cas un deepfake. Mais une photo de moi avec un nouveau rouge à lèvres ou de nouvelles lunettes : est-ce un deepfake ? D’un côté oui, ce ne sont pas mes lunettes et je ne porte jamais de rouge à lèvres. Cela devient donc problématique. Je pense que la société a appris que les fakes existent. Mais nous ne savons pas encore ce que nous faisons de cette connaissance. Je pense que la guerre en Ukraine nous montre comment l’information et la désinformation peuvent être utilisées et détournées, quand l’un des camps dit : regardez mes photos ! Et l’autre dit : ce n’est pas possible, c’est forcément un fake. Et selon votre point de vue, vous croyez soit l’un soit l’autre. Tout simplement parce que c’est possible, parce qu’il y a une possibilité que ce soit un fake. Est c’est ainsi que naît la désinformation. Pour revenir brièvement à la photographie, cela a toujours été le cas. Au début, les gens savaient qu’il s’agissait forcément d’une photo truquée parce qu’il fallait rester immobile pendant trois minutes et que cela n’avait rien à voir avec la vie réelle. Et puis tout à coup, il y a eu des appareils qui pouvaient enregistrer les mouvements, il y a eu des appareils qui pouvaient prendre des instantanés, et nous avons commencé à croire ces images. Maintenant, nous commençons à nous méfier de ces images. Ce n’est pas la pire des choses (Now we start to un-believe them again…, and that’s probably helping.). Blaschke et Linke, Entretien filmé avec Sabine Süsstrunk, 2022.

Pour Süsstrunk, plutôt que d'établir des distinctions formelles entre vrai et faux, il serait nécessaire de comprendre les rapports entre document photographique et trucage du point de vue d'un examen des modalités de production de l'image. Or les médias génératifs sont aussi des médias computationnels. Comment penser alors l'authenticité des images de ce point de vue ?

Le point de vue computationnel

Dans ce même interview, Süsstrunk questionne :

Qu’est-ce qui est faux et qu’est-ce qui est vrai ? Tout est basé sur des informations réelles. C’est juste calculé.

Cette assertion reflète l'une des difficultés qui se présentent pour interpréter les médias génératifs. Aussi faux soit-il, un deepfake exploite une information numérique prenant racine dans des observations. En termes d'informatique, une observation désigne un élément dans un ensemble de données faisant référence pour l'entraînement ou l'évaluation d'un modèle ; en langue anglaise, on utilise le terme ground truth.

Ces observations peuvent être d'ordre divers : prises de vue, rushes, portraits, données synthétiques... Du point de vue de la calculabilité, l'image générative de l'apprentissage profond est le résultat d'une inférence, en fonction d'un modèle statistique donné. La lecture informationnelle d'une image dans un sens strict ne nous renseigne pas sur son authenticité à priori, mais sur son rapport à une configuration probabiliste produite en référence à un ensemble d'observations préalables. Qu'en est-il alors du régime d'authenticité d'un modèle génératif ?

Classer et authentifier des images sont des enjeux fondamentaux pour la recherche informatique en IA, tant du côté de l'analyse que de la synthèse. À ce titre, le modèle GAN (ou réseau adversaire génératif) est notamment un exemple de modèle entraîné à la fois pour différencier les images synthétiques des images observées – c'est la partie critique du modèle, et pour réduire cette différenciation à un minimum – c'est la partie générative. Autrement dit, un tel modèle est optimisé pour reconstruire des images probables dans un espace de données préexistant. Au fond, un modèle génératif est un modèle producteur de données.

Que les images observables de départ (les données d'entraînement) soient elles-mêmes des prises de vue réelles ou des données synthétiques, comme dans l'atelier « GANs et usages de faux » (Robillard, 2023), n'a aucune incidence sur la calculabilité et les fonctions du modèle. Elles restent les mêmes : elles augmentent virtuellement les données observées par un processus d'inférence statistique. Dans cette perspective, l'authenticité du média doit être pensée à partir d'une réflexion sur ce qui constitue un ensemble de données observables, et en particulier sur la façon dont les modèles d'IA en produisent des représentations. Outre l'aspect computationnel, comment penser les régimes d'authenticité des médias génératifs ?

Problèmes de description

On trouve dans la philosophie analytique de Nelson Goodman une discussion approfondie de l'authentique et du fallacieux (Goodman, 1978). Dans Ways of Worldmkings, s'appuyant sur le constat que plusieurs versions du monde peuvent coexister, Goodman propose une large réflexion sur les cadres de référence à travers lesquels une vérité peut être énoncée. L'enjeu résiderait non pas dans le fait de décrire le monde d'une façon vraie et unique, mais dans le fait de comparer les différentes façons dont nous décrivons ce monde. Les implications d'une telle philosophie sont vastes. Le point à souligner ici concerne la façon dont, selon Goodman, une vérité se produit systématiquement à partir d'un test :

Truth, like intelligence, is perhaps what the tests test; and the best account of what truth is may be an "operational" one in terms of tests and procedures used in judging it.

Dans notre étude des médias génératifs, la proposition de Goodman prend tout son sens. Comment en effet attester du régime d'authenticité d'un média ou d'une œuvre reposant sur un modèle génératif ? Trois cas issus de l'étude prennent le principe de test comme point de départ pour l'examen de modèles d'IA : les ateliers « Machine Unlearing » et « GANs et usages de faux » (Robillard, 2023), et l'œuvre en ligne « Abstraction & Reasoning Corpus » (Anil Bawa-Cavia, 2020). Ces travaux mettent en avant le raisonnement et la programmation informatique dans une approche conceptuelle de la donnée, faisant directement écho à la proposition de Goodman.

Nous voyons comment l'étude et la production de cadres interprétatifs sont une orientation importante pour la recherche MIARA et l'étude des médias génératifs. On pourrait aussi ajouter que les modalités de circulation et d'attestation des images constituent d'autres cadres à rechercher. Le cas des fausses images de l'arrestation de Donald Trump publiées par Eliot Higgins ne peut être étudié dans le détail sans comprendre les relations entre réseaux sociaux et mécanismes de désinformation en ligne.

Par ailleurs, avec un service comme Google Fact Check Tools et sa recherche par images, la démocratisation des outils de vérification de faits (fact checking) étend les pratiques du journalisme au-delà de sa production habituelle. Notons que les travaux récents de Mark Sheppard (Shepard, 2022) éclairent de tels phénomènes, en particulier en lien avec la récente histoire des rapports entre technologie, médias et politique. Enfin, en perspective, notons que d'autres axes d'analyses sont en cours de réflexion : le modèle comme mémoire, la donnée comme concept, le génératif comme « désautomatisaton » (Stiegler, 2015), ... La structuration de ces axes devra permettre d'approfondir l'étude MIARA et de poursuivre nos travaux sur le terrain de la recherche-création.

Next