Accès, exploitation et réutilisation des données patrimoniales de la BNF

Item

Titre de la conférence
Accès, exploitation et réutilisation des données patrimoniales de la BNF
Conférencier
Arnaud Laborderie
Date de la conférence
21 October 2022
Résumé
Les collections numériques de la BnF représentent une masse considérable de données (plus de six pétaoctets), d’une grande diversité, tant par leur forme que par leur contenu : documents numérisés dans Gallica et Gallica intramuros, métadonnées descriptives, jeux vidéo, CD et DVD, ou documents nés numériques comme les archives du web, les logs de connexion, etc. L’augmentation exponentielle de ces ressources a ouvert de nouvelles pistes de recherche et fait émerger des problématiques d’exploitation des données par les chercheurs. À la BnF, la question de l’ouverture et l’accès aux données est complexe car elle dépend du type de données et du cadre juridique dans lequel celles-ci s’inscrivent. Quelle est la singularité des données patrimoniales de la BnF ? Quelles en sont les modalités d’accès, d’exploitation et de réutilisation ? Quels services et outils la BnF met-elle à disposition des chercheurs dans son DataLab pour développer les usages sur ses collections numériques ?
résumé ChatGPT
Arnaud Laborderie travaille à la BNF et se concentre sur l'exploitation des données de Gallica pour la recherche en humanités numériques. Il aborde les défis d'accès, d'exploitation et de réutilisation des données, notamment les collections numériques nationales de Gallica. Il discute des efforts pour rendre accessible une masse documentaire considérable et présente le Data Lab de la BNF, un lieu dédié à l'exploitation des collections numériques et à l'accompagnement des nouveaux usages de la recherche. La présentation concerne la récupération de données dans le contexte des bibliothèques numériques. Elle aborde les différents entrepôts de données, les protocoles de récupération, les API disponibles, ainsi que les projets de recherche liés à l'analyse des données et à la recommandation de contenus. Des technologies telles que le deep learning et le topic modeling sont également évoquées pour l'analyse des textes. Enfin, il est question de l'utilisation éthique des données d'usage pour la recommandation de contenu sans identifier individuellement les utilisateurs.
Citation tirée de la conférence
« L'une des problématiques, c'est comment est-ce qu'on va rendre accessible aux chercheurs cette masse documentaire considérable, et quels outils on va mettre en place pour accompagner les nouveaux usages de la recherche, notamment pour la création de corpus numériques, pour faire par exemple, et j'y reviendrai, de l'extraction de contenu, de la fouille de textes, de l'analyse d'image, des analyses statistiques... Ce sont les nouveaux usages que permet justement la masse, le fait qu'on atteint une masse critique depuis quelques années déjà et que les chercheurs peuvent s'emparer de ces collections pour travailler sur des corpus massifs. »
« Cette grande diversité de collections et de données pose un certain nombre de problématiques qui sont donc liées précisément à cette diversité des formats de description et donc on a trois formats principaux pour les données de la BnF : le format Intermarc, qui est celui du catalogue général, le format EAD, qui est un format de description des archives, archivistique, qui n'est pas sur les mêmes modalités, et puis on a le Dublin Core, qui est le format simplifié, qui est un langage du web sémantique, utilisé par Gallica, qui permet justement d'articuler les deux autres formats, mais qui du coup est un format qui est, on va dire, simplifié, appauvri. Dans l'Intermarc, on a à peu près une centaine de champs différents pour décrire les collections, alors que dans le Dublin Core on a que quinze champs, et donc vous voyez l'appauvrissement des données, et ça pose des difficultés pour la constitution de corpus puisqu'on ne va pas pouvoir aller aussi finement dans Gallica, pouvoir constituer des ensembles. Et pour les chercheurs, ça pose des problématiques donc d'appropriation de ces formats, qui sont des formats professionnels, des bibliothèques et des archives, et puis des problématiques de conversion de ces formats. »
« Depuis cette année nous avons une exception dans le droit français qui permet de faire de la fouille de données, l'exception TDM, et donc qui permet aux chercheurs de constituer des corpus sous droit et de faire de la fouille du données sur ces corpus sous droit sans demander l'autorisation aux ayants droits et sans que les ayants droits puissent les opposer. Et donc ça ouvre évidemment pour le Data Lab et pour les études de recherche beaucoup de perspectives. La loi permet aussi la conservation des corpus acquis, ce qui permet donc de pouvoir rejouer les corpus, ce qui répond à la nécessité de pouvoir vérifier et éventuellement falsifier les résultats de recherche. »
URL de la capsule de la conférence
https://youtu.be/4ZBl-wfu99M

Linked resources

Items with "Is Referenced By: Accès, exploitation et réutilisation des données patrimoniales de la BNF"
Title Class
Analyse des traces d'usage de Gallica : Une étude à partir des logs de connexion au site Gallica Report
BnF DataLab Website
Catalogue collectif de France (ccfr) Website
Dumps de data.bnf.fr Webpage
Éditeur SPARQL data.bnf Webpage
Foucault fiches de lecture (FFL+) Webpage
Gallica Website
Gallicagram Website
Items with "Est relié à une autre conférence du séminaire: Accès, exploitation et réutilisation des données patrimoniales de la BNF"
Title Class
Chaoticum Seminario : stimulations aléatoires de discussions scientifiques Conference
Fabriques en commun et protocoles ouverts : vers une réappropriation de l’écosystème des connaissances Conference
Humanisme numérique pour manipuler des connaissances entre confiances intimes et numériques Conference
Items with "Est relié aux conférences...: Accès, exploitation et réutilisation des données patrimoniales de la BNF"
Title Class
Puissances du faux, artifices et stratégies de tromperie Collection

Annotations

There are no annotations for this resource.