Amazon, Ikea y muchos medios: un 25% de las páginas más visitadas impiden que ChatGPT acceda a su contenido

Comentarios de redes sociales, guías, descripciones de productos, noticias, entradas en blogs, novelas, recetas, cartas, atlas, textos legales, datos personales, reportajes de revistas, cuentos, debates en foros, crónicas, correos electrónicos, artículos académicos, obituarios, ensayos, libros de texto, guiones de películas y series. OpenAI, desarrolladora de la inteligencia artificial (IA) generativa de texto ChatGPT, tomó cualquier tipo de contenido que pudieron extraer de Internet para mostrárselo a su máquina. Logró así que esta pudiera extraer los patrones que configuran la expresión humana y aprendiera a reproducirla, así como formar una inabarcable base de datos que le permitiera generar texto sobre prácticamente cualquier tema y en cualquier tono.

OpenAI no pidió permiso ni se ofreció a negociar contraprestación alguna con los autores. Simplemente lo tomó, programando luego a sus máquinas para que no dieran detalles sobre su entrenamiento y los materiales que habían utilizado. “Esa información no está disponible para mí y no puedo proporcionarla”, contesta ChatGPT cuando se le pregunta por esta cuestión.

Muchas empresas han decidido que eso no volverá a pasar. La próxima vez que visite sus páginas, la IA se encontrará la puerta cerrada. Un análisis de Originality.ai, una firma especializada en identificar plagios realizados con esta tecnología, ha detectado que el 25% de las 1.000 páginas más visitadas del mundo han sido programadas para impedir que GPTBot o ChatGPT-User (los robots de OpenAI) o el Common Crawl Bot (un proyecto que se enfoca en recopilar y almacenar grandes cantidades de datos de la web de forma abierta y accesible) puedan leerlas.

Entre las páginas de las que la IA ya no podrá extraer información están tiendas como Amazon o Ikea; portales con guías y preguntar dudas como Wikihow y Quora; buscadores de información como ScienceDirect (el mayor repositorio de artículos académicos y revistas científicas), Scribd (una gran base de datos con documentos, libros, presentaciones, partituras, etc.), Indeed (que incluye ofertas de trabajo en todo el mundo y perfiles de trabajadores) o StuDocu (apuntes de asignaturas); así como bancos de imágenes y recursos como Shutterstock o Alamy.

No obstante, la categoría más numerosa corresponde sin duda a los medios de comunicación. Buena parte de las principales cabeceras estadounidenses, empezando por The New York Times (la vigésimo primera página más visitada del planeta) y pasando por la CNN, la ESPN, The Washington Post, USA Today o la cadena pública PBS han puesto el candado a la IA. También lo ha hecho toda la infraestructura de medios públicos franceses, como Franceinfo y France 24, y otros medios privados como Actu.fr; la agencia Reuters o The Guardian en el Reino Unido; así como Der Spiegel, Süddeutsche Zeitung, Die Welt o Stern, las mayores cabeceras alemanas.

La lista es larga y continúa por revistas como National Geographic, Vogue, Vanity Fair o GQ, así como por medios indios como The Times of India, que están entre los más leídos del mundo. Es una práctica que por el momento no han emulado los medios españoles, al menos los que se cuelan en el ranking de las 1.000 páginas más vistas del mundo (El País, El Mundo y 20minutos).

Denuncias por “robo” de contenidos

Bloquear el paso de la IA es sencillo. Para ello, hay que programar un archivo especial dirigido a los robots que peinan la web e indicarles que no pueden entrar. El archivo se conoce como robots.txt y funciona como una lista de visita para estos programas: incluye información sobre qué robots pueden consultar la página, cuáles no y cuáles pueden tener acceso solo a determinadas áreas de esta. Está ubicado en el directorio raíz de la web y escrito en un formato estándar.

Hasta ahora, su principal uso era controlar a los motores de búsqueda, como los robots de Google que buscan qué páginas pueden indexar y cuáles no. Los motivos para llevar a cabo esta acción son diversos: desde impedir la difusión de partes privadas de los sitios web (documentos personales subidos por el usuario, por ejemplo), a ejercicios de derecho al olvido (que no elimina la información de la web, sino que impide que salga en Google para limitar su impacto) u otras razones.

Originality.ai lleva a cabo este estudio desde agosto. Desde entonces, el número de páginas que bloquean los robots de ChatGPT no ha dejado de aumentar. Lo ha hecho de forma directamente proporcional a la presión por la utilización de contenidos protegidos sin permiso por parte de OpenAI. La multinacional ha sido denunciada recientemente por el sindicato de escritores Authors Gild por “robo sistemático” de las obras de sus miembros, que incluyen a George R.R. Martin (Canción de Hielo y Fuego), John Grisham (La firma, El informe pelícano), Michael Connelly (La caja negra) y Elin Hilderbrand (Hermanas).

elDiario.es se ha puesto en contacto con OpenAI para incluir su posición en esta noticia, pero la empresa no ha enviado respuesta. La propia OpenAI explica en su página web cómo bloquear a sus robots.

La falta de acción por parte de los reguladores ha impulsado a las páginas a impedir el paso de los robots de OpenAI. Este medio preguntó por el asunto a la subsecretaria de Comercio de EEUU, responsable de su Oficina de Patentes y de la de Copyright. “Estamos tratando de averiguar dónde debe estar esa política y si la industria puede resolverlo por sí misma, si se le ocurren soluciones como esta”, contestó en esta entrevista: “Por lo general, nos apartamos si a la iniciativa privada se le ocurre una solución eficaz que funcione para todos y no hay necesidad de que el Gobierno actúe”.

El análisis de Originality incluye también las páginas que impiden el paso a Common Crawl Bot, un proyecto que se enfoca en recopilar y almacenar grandes cantidades de datos de la web de forma abierta y accesible. Su objetivo es es crear un índice completo y accesible de la web, que luego se pone a disposición del público para su investigación, análisis y aplicación en diversos campos, entre ellos las inteligencias artificiales generativas de texto. El 14% de las páginas del top-1.000 mundial bloquean también este robot (conocido como CCBot).

Amazon, Ikea y muchos medios: un 25% de las páginas más visitadas impiden que ChatGPT acceda a su contenido

Cada vez más portales deciden bloquear el acceso de la inteligencia artificial para evitar que tome sus contenidos sin permiso, especialmente medios de comunicación

— George R.R. Martin y otros escritores demandan a los creadores de ChatGPT por “robo sistemático”

Denuncias por “robo” de contenidos