Preloader

Des millions de livres pillés pour entraîner l’IA et contourner les droits d’auteur : la polémique Anthropic

  • 03 juin 2026 10:39

L’affaire "Project Panama" révèle une vérité simple : derrière l’intelligence artificielle, il y a aussi des livres physiques, découpés et transformés en données. 

Un livre, avant de devenir un fichier, reste un objet. Il a un dos, des pages, de la colle, un poids, de la poussière. Dans le cas d’Anthropic, l’entreprise qui développe Claude, cette dimension très concrète s’est retrouvée au cœur d’un processus industriel : des livres achetés sur le marché de l’occasion, découpés, scannés et transformés en texte numérique. Ce qu’il restait des volumes partait ensuite au recyclage.

En interne, le projet portait le nom de "Project Panama". À la lecture des documents issus du procès sur le copyright (le droit d’auteur), le sens de l’opération apparaît clairement : rassembler une quantité massive de livres physiques pour entraîner les modèles d’intelligence artificielle. Les livres ont été choisis parce que considérés comme une matière linguistique de bien meilleure qualité que le bruit du web. Moins de phrases glanées au hasard en ligne, plus de textes écrits, édités et publiés.

Des livres aux données

L’étape la plus frappante réside dans la méthode. Les volumes arrivaient de revendeurs d’occasion, puis étaient préparés pour une numérisation destructrice, coupés le long du dos et passés dans des scanners professionnels à haute vitesse. Une fois numérisés, ils ne redevenaient plus jamais des livres. Il ne restait que des données d’un côté, du papier à recycler de l’autre.

Les quantités exactes ne sont pas totalement claires, mais il est question de centaines de milliers, voire de millions de volumes. Le projet était pensé pour numériser entre 500 000 et 2 millions de livres en environ six mois. Rien à voir avec une petite opération d’archivage. Il s’agissait d’une véritable filière, avec des fournisseurs, des entrepôts, des machines de découpe, des scanners, des coûts et de la logistique.

C’est là que l’affaire devient intéressante, au‑delà même du débat juridique. L’intelligence artificielle est souvent présentée comme quelque chose de léger, de lointain, presque immatériel : le cloud, l’algorithme et une interface épurée. Ici, au contraire, le cloud fait un bruit de papier. Il a des cartons, des lames industrielles, des pages arrachées, des livres achetés puis démontés.

Le nœud du droit d’auteur

Dans la procédure américaine, le juge William Alsup a distingué deux aspects. L’utilisation de livres achetés légalement puis scannés pour entraîner Claude a été jugée compatible avec le fair use, la doctrine américaine qui permet, dans certains cas, l’utilisation d’œuvres protégées sans autorisation. Le discours est différent pour les livres piratés : les pièces du dossier ont révélé qu’Anthropic avait téléchargé et conservé des millions de textes issus d’archives illégales, et cette partie a été traitée comme une infraction distincte.

Le passage aux livres physiques d’occasion apparaît donc aussi comme un choix de prudence juridique. Acheter un exemplaire papier offrait à l’entreprise un terrain plus solide que le téléchargement des ouvrages depuis des bibliothèques pirates. Aux États‑Unis, celui qui achète un objet physique peut le revendre, le prêter ou le détruire. Le problème survient lorsque cet objet est transformé en copie numérique et intégré à des systèmes capables de générer de nouveaux textes.

Anthropic a, par la suite, accepté un accord de 1,5 milliard de dollars pour mettre fin à la l’action de groupe (class action) intentée par les auteurs, sans pour autant reconnaître sa responsabilité. L’accord porte sur les œuvres piratées et prévoit environ 3 000 dollars par livre concerné. En mai 2026, l’approbation définitive restait toutefois en examen : la juge Araceli Martinez‑Olguin a exigé des précisions supplémentaires sur les honoraires d’avocat et les versements destinés aux principaux plaignants.

L’IA ne naît pas de nulle part

L’affaire Anthropic concerne Claude, mais elle s’adresse à tout le secteur. Les grands modèles génératifs ont besoin de textes, d’images, de code, d’articles, de manuels, de romans et d’essais. Ils ont besoin de travail humain déjà accompli. Parfois ce travail est autorisé et rémunéré. D’autres fois, il est collecté en masse, intégré dans des ensemble de données peu transparents, et n’est contesté que lorsqu’un procès éclate.

"Project Panama" rend cette dépendance visible. Pour que la machine écrive mieux, il a fallu des livres écrits par des personnes. Pour rendre un chatbot plus naturel, on a utilisé des œuvres issues du travail d’auteurs, d’éditeurs, de traducteurs, de correcteurs, de maisons d’édition, de bibliothèques et de lecteurs. La promesse numérique repose, aujourd’hui encore, sur une matière très physique.

La question concerne aussi l’Europe, où la relation entre droit d’auteur, fouille de données et intelligence artificielle reste ouverte. Les entreprises parlent d’innovation, de transformation, de progrès. Les créateurs de contenus réclament des autorisations, des rémunérations, de la traçabilité. Entre les deux, il y a des tribunaux, des réglementations encore récentes et une interrogation très concrète : quelle est la valeur du travail humain lorsqu’il devient le carburant de l’IA ?

Partager: