Reddit schneidet den Wayback Machine ab, um KI-Scraper zu stoppen

Wenn Sie jemals auf die Wayback Machine angewiesen waren, um einen alten Reddit-Beitrag zu finden oder einen Thread zu sehen, der inzwischen verschwunden ist, wird dieses Fenster bald geschlossen.

Reddit hat angekündigt, dass es den Großteil seiner Seite von der Wayback Machine des Internet Archive abschneidet, da einige Unternehmen der künstlichen Intelligenz (KI) heimlich um das Archiv herumgeschlichen sind, um seine Datenbeschränkungen zu umgehen.

Was ist das Internet Archive?

Das Internet Archive ist eine gemeinnützige Organisation, die sich der Erhaltung so viel wie möglich von der Geschichte des Internets widmet, von alten Websites bis hin zu Büchern und kulturellen Artefakten. Seine Wayback Machine ermöglicht es jedem, zu sehen, wie eine Webseite zu einem bestimmten Zeitpunkt aussah – selbst wenn sie seitdem gelöscht oder geändert wurde. Reddit sagt jedoch, dass das Archiv auch Beiträge aufbewahrt hat, die Benutzer entfernt haben, eine Praxis, die seiner Meinung nach Datenschutzbedenken aufwirft.

„Das Internet Archive bietet einen Dienst für das offene Web an, aber wir wurden auf Fälle aufmerksam gemacht, in denen KI-Unternehmen die Plattformrichtlinien, einschließlich unserer, verletzen und Daten von der Wayback Machine scrapen“, sagte Reddit-Sprecher Tim Rathschmidt in einer Erklärung gegenüber The Verge. „Bis sie in der Lage sind, ihre Seite zu verteidigen und die Plattformrichtlinien (z. B. den Datenschutz der Benutzer, bezüglich des Löschens von entfernten Inhalten) einzuhalten, schränken wir den Zugang zu Reddit-Daten ein, um die Reddit-Nutzer zu schützen.“

Die neuen Beschränkungen sind bereits seit gestern in Kraft, wobei Reddit angibt, das Internet Archive im Voraus benachrichtigt zu haben.

Die Änderung bedeutet, dass die Wayback Machine keine Reddit-Beiträge, Kommentare oder Profile mehr speichern kann. Sie kann jetzt nur noch die Startseite von Reddit speichern. Seit Jahren war das Archiv eine Anlaufstelle für Journalisten, Forscher und neugierige Benutzer, die Schnappschüsse von Reddits weitreichenden Gesprächen bewahrten. Jetzt wird es eher wie ein Schnappschuss der täglich trendenden Schlagzeilen funktionieren, anstatt ein vollständiges historisches Protokoll zu sein.

Dieser Schritt ist Teil eines größeren Trends: Reddit hat jahrelang die Kontrolle über seine Daten verschärft, während KI-Unternehmen um Inhalte kämpfen, um ihre Modelle zu trainieren. Berichten zufolge haben Deals mit Google und OpenAI Millionen eingebracht, und Reddit hat klar gemacht – wenn KI-Firmen Zugang wollen, müssen sie bezahlen.

Reddit hat seit Jahren die Kontrolle über seine Daten verschärft, insbesondere da KI-Unternehmen um Inhalte kämpfen, um ihre Modelle zu trainieren. Berichten zufolge haben Deals mit Google und OpenAI Millionen für die Plattform eingebracht, aber Reddit hat klar gemacht, dass, wenn KI-Firmen Zugang wollen, sie bezahlen müssen. Anfang dieses Jahres verklagte das Unternehmen sogar das KI-Start-up Anthropic und beschuldigte es, die Seite ohne Erlaubnis zu scrapen.

„Wir haben eine langjährige Beziehung zu Reddit und führen weiterhin laufende Gespräche über diese Angelegenheit“, sagte Mark Graham, Direktor der Wayback Machine, in einer Erklärung gegenüber The Verge.

Während Reddit sagt, dass der Schritt darauf abzielt, den Datenschutz der Benutzer zu schützen und seine Regeln aufrechtzuerhalten, befürchten Kritiker, dass dies das Risiko birgt, Teile des historischen Protokolls des Internets zu löschen. Sobald ein Beitrag von Reddit verschwindet und nicht archiviert werden kann, ist er für immer verschwunden – und nimmt ein Stück Online-Kultur mit sich, das andernfalls möglicherweise erhalten geblieben wäre.

Was ist das Internet Archive?

Erhalte neue Beiträge in deinem Posteingang.