Reddit coupe l'accès à la Wayback Machine pour contrer les scrapers IA

Si vous avez déjà compté sur la Wayback Machine pour retrouver un ancien post Reddit ou voir un fil qui a depuis disparu, cette fenêtre est sur le point de se fermer.

Reddit a annoncé qu’il coupait la plupart de son site de la Wayback Machine de l’Internet Archive, affirmant que certaines entreprises d’intelligence artificielle (IA) avaient discrètement contourné l’archive pour éviter ses restrictions de données.

Qu’est-ce que l’Internet Archive ?

L’Internet Archive est une organisation à but non lucratif dédiée à la préservation de l’histoire d’Internet, des anciens sites web aux livres et artefacts culturels. Sa Wayback Machine permet à quiconque de voir à quoi ressemblait une page web à un moment donné — même si elle a été supprimée ou modifiée depuis. Cependant, Reddit affirme que l’archive a également conservé des posts que les utilisateurs ont supprimés, une pratique qui soulève des préoccupations en matière de confidentialité.

« L’Internet Archive fournit un service au web ouvert, mais nous avons été informés de cas où des entreprises d’IA violent les politiques de la plateforme, y compris les nôtres, et extraient des données de la Wayback Machine », a déclaré le porte-parole de Reddit, Tim Rathschmidt, dans un communiqué à The Verge. « Jusqu’à ce qu’ils soient en mesure de défendre leur site et de se conformer aux politiques de la plateforme (par exemple, respecter la vie privée des utilisateurs, concernant la suppression de contenu retiré), nous limitons leur accès à certaines données Reddit pour protéger les redditeurs. »

Les nouvelles restrictions ont déjà été mises en œuvre depuis hier, Reddit affirmant avoir prévenu l’Internet Archive à l’avance.

Le changement signifie que la Wayback Machine ne pourra plus sauvegarder les posts, commentaires ou profils Reddit. Elle ne pourra désormais sauvegarder que la page d’accueil de Reddit. Pendant des années, l’archive a été une référence pour les journalistes, chercheurs et utilisateurs curieux, préservant des instantanés des vastes conversations de Reddit. Maintenant, elle fonctionnera davantage comme un instantané des titres tendance quotidiens plutôt que comme un enregistrement historique complet.

Cette décision s’inscrit dans une tendance plus large : Reddit a passé des années à renforcer le contrôle sur ses données alors que les entreprises d’IA se précipitent pour obtenir du contenu afin d’entraîner leurs modèles. Des accords avec Google et OpenAI auraient rapporté des millions, et Reddit a clairement indiqué — si les entreprises d’IA veulent un accès, elles devront payer.

Reddit a renforcé le contrôle sur ses données pendant des années, en particulier alors que les entreprises d’IA se précipitent pour obtenir du contenu afin d’entraîner leurs modèles. Des accords avec Google et OpenAI auraient rapporté des millions pour la plateforme, mais Reddit a clairement indiqué que si les entreprises d’IA veulent un accès, elles doivent payer. Plus tôt cette année, la société a même poursuivi la start-up d’IA Anthropic, l’accusant d’extraire le site sans permission.

« Nous avons une relation de longue date avec Reddit et continuons d’avoir des discussions en cours à ce sujet », a déclaré Mark Graham, directeur de la Wayback Machine, dans un communiqué à The Verge.

Bien que Reddit affirme que cette décision vise à protéger la vie privée des utilisateurs et à respecter ses règles, les critiques craignent qu’elle ne risque d’effacer des morceaux de l’enregistrement historique d’Internet. Une fois qu’un post disparaît de Reddit et ne peut pas être archivé, il est perdu pour toujours — emportant avec lui un morceau de culture en ligne qui aurait autrement pu être préservé.

Qu’est-ce que l’Internet Archive ?

Recevez de nouveaux articles dans votre boîte de réception.