





















Im Kampf gegen die nicht genehmigte Nutzung von Inhalten für das Training von KI-Modellen gerät das Internet Archive immer mehr zwischen die Fronten und die Wayback Machine droht zum Kollateralschaden zu werden. Das legt eine Analyse des Nieman Journalism Lab an der Harvard University nahe, laut der immer mehr Nachrichtenseiten Crawler der Archivseite aussperren. Demnach schränken inzwischen mehr als 340 lokale Nachrichtenseiten „den Zugriff des Internet Archive auf ihre Artikel sowie deren Archivierung“ ein, aber auch überregionale und internationale Medien wie die New York Times beteiligen sich demnach. Europäische Medien finden sich ebenfalls auf der Liste, derzeit aber noch keine aus Deutschland.
Für die Analyse haben ein Autor und eine Autorin des Nieman Lab eine umfangreiche Datenbank von robots.txt-Dateien ausgewertet, die von Nachrichtenseiten in aller Welt stammen. Wenn darin eine oder mehrere Crawler ausgesperrt wurden, die vom Internet Archive stammen oder zu stammen scheinen, haben sie sie aufgenommen. Demnach wird der Archivierungsdienst hauptsächlich von Regionalzeitungen blockiert, die zu einem von fünf großen US-Medienhäusern gehören. Allein zwischen Januar und Mai ist die Zahl der Seiten, die die Wayback Machine aussperren, demnach um mehr als 50 Prozent gestiegen. Insgesamt sind es in der Stichprobe jetzt 382, bei der übergroßen Mehrheit handelt es sich um Lokal- und Regionalzeitungen.
Im Januar haben die Autoren Stimmen großer Medien zusammengetragen, in denen die Aussperrung des Internet Archive mit dem Versuch begründet wurde, die eigenen Inhalte KI-Modellen vorzuenthalten. Seit Monaten wird kritisiert, dass KI-Unternehmen alle möglichen Inhalte im Internet für das Training akquirieren und sich dabei auch nicht an Gepflogenheiten wie die robots.txt halten. Damit können Seitenbetreiber KI-Modelle eigentlich aussperren, dazu müssten sich die KI-Firmen aber daran halten. Das tun sie aber nicht. Aber selbst wenn sie das tun würden, wäre der Weg über die archivierten Inhalte bei der Wayback Machine aber ein Umweg, den immer mehr Verantwortliche nun verschließen wollen. Das hat zum Beispiel auch schon Reddit gemacht.
Die Wayback Machine ist zwar nur einer der Dienste des Internet Archive, aber wohl der bekannteste. Darin werden seit Jahrzehnten Internetseiten archiviert. Die Seite ist längst zur mit Abstand umfangreichsten Quelle geworden, in der sich die Entwicklung des Internets nachverfolgen lässt. Das Vorgehen war aber schon immer mit Konflikten verbunden, denn immer wieder sind dabei gegenläufige Interessen aufeinandergetroffen. Schon 2017 hatte das Internet Archive beispielsweise erklärt, Vorgaben in der robots.txt nicht mehr ausnahmslos befolgen zu wollen. Im Fall der jüngsten Aussperrungen scheint das aber der Fall zu sein, wie man etwa für die Seiten von El País oder Le Monde sehen kann.
(mho)
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。