Date : 30 octobre 2025
Heure : 13h00 – 14h00 HE
Les bots d’IA récoltent de manière agressive du contenu sur Internet. Ce que l’on sait moins, c’est que ce « scraping » a des effets particulièrement dévastateurs sur les bibliothèques, les archives et les musées (LAMS). Cette augmentation soudaine et massive du trafic des robots vers ces dépôts oblige les institutions culturelles et universitaires à faire face à une pression technique sur leurs systèmes et à se poser des questions éthiques concernant la propriété et l’utilisation des ressources pour former ces modèles linguistiques.
Ces robots, agents automatisés qui collectent des données pour former les grands modèles linguistiques qui alimentent l’intelligence artificielle, interagissent avec les dépôts en parcourant les interfaces, en analysant les métadonnées et en extrayant les ressources numériques, souvent à des échelles et à des vitesses qui mettent à rude épreuve l’infrastructure et contournent l’intention des conservateurs. Une collecte agressive peut dégrader les performances du système, fausser les mesures d’utilisation, violer les conditions d’utilisation et dépouiller les documents culturels de leur contexte. Tous ces comportements présentent des risques tant pour la disponibilité des services en ligne essentiels des bibliothèques que pour la capacité à gérer la distribution publique des ressources numériques.
Cette session examinera l’impact du « scraping » non réglementé par l’IA sur l’écosystème des bibliothèques, archives et musées (LAM) et, par conséquent, sur les services bibliothécaires. Les présentateurs discuteront des stratégies d’atténuation émergentes, notamment : la limitation du débit, la détection des robots, la modification de l’architecture et des fonctionnalités, les licences lisibles par machine et les meilleures pratiques communautaires pour réglementer le scraping par l’IA.
Arran Griffith est responsable de programme pour Fedora, une plateforme à source ouverte dédiée à la préservation numérique à long terme. À ce titre, elle dirige l’engagement communautaire, harmonise les priorités des utilisateurs à l’échelle mondiale et assure la liaison stratégique entre Fedora Governance et ses parties prenantes. Elle anime également des groupes de travail intercommunautaires qui favorisent la collaboration et maintiennent la cohérence entre les technologies à source ouverte. De plus, Arran est l’une des fondatrices du groupe de travail AI Discussions, qui organise chaque mois la série Solutions Showcase.
Rosalyn Metz est agente principale de la technologie aux bibliothèques et musée de l’Université Emory, où elle dirige une équipe de 24 professionnels et gère un budget technologique de 4,5 millions de dollars. Elle promeut les infrastructures ouvertes, la préservation numérique et la découverte centrée sur l’utilisateur, en s’appuyant sur son expérience dans l’enseignement supérieur et l’industrie. Au niveau national et international, Rosalyn a occupé des postes de direction dans des communautés à source ouverte mondiales, notamment Fedora, Samvera et l’Oxford Common File Layout Editorial Group. Elle intervient régulièrement sur les thèmes de l’IA, de la technologie et des infrastructures ouvertes, et est l’auteure de The Digital Shift, un Substack très lu. Elle a récemment été invitée à prononcer un discours liminaire lors de la conférence iPres 2025, qui s’est tenue en Nouvelle-Zélande.
Cette session sera enregistrée.
