OpenAI dice ahora que habría sido "imposible" entrenar a ChatGPT sin saltarse el copyright

Los sistemas de Inteligencia Artificial generativa —aquellos capaces de generar contenidos aprendiendo de textos, imágenes o vídeos creados por personas— se encuentran ante una encrucijada legal. Sus desarrolladores han utilizado toda base de datos accesible online para entrenarlos, incluyendo contenidos protegidos por copyright sin pedir permiso ni pagar a los autores.

A OpenAI, desarrolladora de ChatGPT, esto le ha valido una cascada de demandas de escritores como George R.R. Martin (Canción de Hielo y Fuego) o periódicos como The New York Times. Ahora la compañía reconoce que si tuviera que respetar los derechos de autor para el entrenamiento de su inteligencia artificial, ChatGPT no existiría.

“Dado que hoy en día los derechos de autor cubren prácticamente todo tipo de expresión humana como blogs, fotografías, mensajes en foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los modelos de IA más avanzados sin utilizar materiales protegidos por derechos de autor”, ha declarado OpenAI en una comunicación oficial remitida a la Cámara de los Lores del Reino Unido, que ha abierto una comisión de investigación sobre la cuestión.

“Limitar los datos de entrenamiento a libros de dominio público y dibujos creados hace más de un siglo podría dar lugar a un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades actuales”, continúa la startup estadounidense.

Demandas como las del sindicato de escritores estadounidense Authors Gild acusan a OpenAI de “robo sistemático” por utilizar contenidos de sus afiliados sin pedir permiso. Alegan que la startup está ignorando el principio fundamental del copyright, que es ofrecer una protección legal contra el uso no autorizado de la obra de alguien.

The New York Times por su parte demandó tanto a OpenAI como a Microsoft tras encontrar pruebas de que sus inteligencias artificiales generativas “copian y utilizan millones de artículos de noticias protegidos por derechos de autor” en las respuestas que ofrecen a los usuarios. “El uso ilegal del trabajo del Times por parte de los demandados para crear productos de inteligencia artificial que compitan con él amenaza la capacidad del Times para brindar ese servicio”, continúa la cabecera.

OpenAI rechaza que entrenar sistemas como ChatGPT con contenidos protegidos sin pedir permiso a sus autores constituya una violación del copyright, ya que la ley no lo prohíbe específicamente. “Sin embargo, aunque creemos que legalmente la ley de derechos de autor no prohíbe el entrenamiento, también reconocemos que aún queda trabajo por hacer para apoyar y empoderar a los creadores”, afirman en su comunicación a la Cámara de los Lores.

La startup estadounidense asegura que es una de las “líderes del sector a la hora de permitir a los creadores expresar sus preferencias con respecto al uso de sus obras para el entrenamiento de IA”, ya que ha configurado opciones especiales para que los programadores de páginas web y otros servicios digitales puedan indicar a sus robots que no consienten su uso para el entrenamiento de inteligencias artificiales.

Estas herramientas, que fueron habilitadas meses después de que ChatGPT saliera al mercado, ya están siendo usadas por páginas web de todo el mundo para impedir que sus contenidos se usen sin su permiso.

OpenAI dice ahora que habría sido “imposible” entrenar a ChatGPT sin saltarse el copyright

La startup alega que el uso de contenidos protegidos para entrenar inteligencias artificiales no constituye una violación de los derechos de autor

— George R.R. Martin y otros escritores demandan a los creadores de ChatGPT por “robo sistemático”