
Reddit bloqueará el Internet Archive.
Es otra acción para prevenir la recopilación de datos por parte de la inteligencia artificial.
Reddit ha afirmado que ha descubierto que empresas de inteligencia artificial están extrayendo datos de su plataforma utilizando el Internet Archive y su herramienta Wayback Machine. Como reacción, la plataforma ha decidido empezar a bloquear el acceso de Internet Archive a la mayoría de su contenido, permitiendo que solo se indexe la página principal de Reddit. Esto significa que el Wayback Machine solo podrá archivar información limitada sobre los temas y publicaciones más populares de cada día.
Tim Rathschmidt, portavoz de Reddit, explicó que, aunque el Internet Archive brinda un servicio valioso al acceso web abierto, han sido informados de casos en los que AI violan las políticas de la plataforma, incluyendo la extracción de datos sin permiso. La misión del Internet Archive es preservar un archivo digital de sitios web y otros “artefactos culturales”, pero Reddit considera que no todo su contenido debería ser almacenado de esta manera.
Rathschmidt añadió que, hasta que el Internet Archive pueda defender su sitio y cumplir con las políticas de la plataforma, como el respeto a la privacidad de los usuarios y la eliminación de contenido que ha sido borrado, limitarán el acceso de este archivo a los datos de Reddit para proteger a sus usuarios. Estas restricciones comenzarán a implementarse de inmediato y Reddit contactó previamente al Internet Archive para informarles sobre estas medidas.
La plataforma ha tenido una historia reciente de restricción del acceso a herramientas de extracción, a medida que más empresas de inteligencia artificial han comenzado a utilizarlas en gran volumen. Sin embargo, Reddit está dispuesto a proporcionar sus datos bajo condiciones de pago. En el pasado, Reddit llegó a un acuerdo con Google para el uso de datos de búsqueda y entrenamiento de AI. Meses después, la plataforma comenzó a bloquear a los motores de búsqueda más importantes de acceder a sus datos a menos que pagaran por ello. También se mencionaron cambios en su API en 2023 que provocaron el cierre de algunas aplicaciones de terceros, lo que llevó a protestas, argumentando que esas APIs fueron mal utilizadas para entrenar modelos de inteligencia artificial.
Recientemente, Reddit firmó un acuerdo con OpenAI, pero en junio, presentó una demanda contra Anthropic, alegando que esta empresa continuó extrayendo datos de Reddit a pesar de sus afirmaciones de que ya no lo hacía. Mark Graham, director de la Wayback Machine, comentó que existe una relación prolongada con Reddit y que se continúan las discusiones sobre esta situación.