La tormenta legal que rodea a la IA generativa ha alcanzado un nuevo punto álgido. La Enciclopedia Británica y su filial, Merriam-Webster, han presentado oficialmente una demanda contra OpenAI, alegando que los modelos del gigante de la IA no solo han aprendido de sus vastos repositorios de conocimiento, sino que los han “memorizado” de forma efectiva.
Esta demanda, presentada ante un tribunal federal tras los informes de Reuters, marca una escalada significativa en la tensión actual entre los editores tradicionales y los arquitectos de los Grandes Modelos de Lenguaje (LLM). Mientras que las demandas anteriores de autores y organizaciones de noticias se centraban en el acto del entrenamiento, el caso de la Británica destaca un fenómeno más técnico y quizás más perjudicial: la regurgitación casi literal de hechos y definiciones patentados.
En el centro de la queja se encuentra la distinción entre que una IA “entienda” un concepto y que simplemente almacene una copia del texto. La Británica alega que GPT-4 puede generar copias casi idénticas de sus artículos protegidos por derechos de autor bajo demanda. Para una empresa que ha pasado más de 250 años curando el conocimiento humano, esto no es solo una violación de los derechos de autor; es una amenaza directa a su modelo de negocio.
Para entender la gravedad de esto, considere la analogía de un estudiante y un libro de texto. Si un estudiante lee un libro de historia y luego escribe un ensayo original basado en lo que aprendió, eso generalmente se considera un uso transformador. Sin embargo, si ese estudiante entra a un examen y recita el libro de texto palabra por palabra, ya no está demostrando comprensión; está actuando como una fotocopiadora humana. La Británica sostiene que los modelos de OpenAI están haciendo esto último.
La demanda proporciona ejemplos específicos en los que GPT-4 supuestamente produjo respuestas que eran “sustancialmente similares” a las entradas de la Británica. En el mundo de los LLM, esto se conoce como “regurgitación”. Ocurre cuando un modelo se entrena tan intensamente en un conjunto de datos específico que los pesos de la red neuronal se ajustan para reproducir esos datos exactamente cuando se le solicita con palabras clave específicas.
Para Merriam-Webster, lo que está en juego es igualmente importante. Las definiciones de los diccionarios son, por necesidad, concisas y específicas. Si una IA proporciona una definición que coincide con el fraseo único y los matices estructurales de Merriam-Webster, evita la necesidad de que un usuario visite el sitio web del editor. Esta realidad de “cero clics” drena los ingresos publicitarios y el potencial de suscripción de las mismas instituciones que proporcionan los datos de alta calidad en los que se basa la IA.
Hemos visto casos similares de The New York Times y de varios novelistas destacados, pero el caso de la Británica es único por dos razones:
Aunque OpenAI aún no ha publicado una refutación completa a esta presentación específica, su defensa histórica sigue siendo consistente. Argumentan que el entrenamiento de modelos de IA con datos de internet disponibles públicamente constituye un “uso legítimo”. Sostienen que los modelos están creando algo completamente nuevo —un motor de razonamiento de propósito múltiple— en lugar de una base de datos de obras existentes.
OpenAI también señala con frecuencia las “barreras de seguridad” que han implementado para evitar el tipo exacto de regurgitación de la que se queja la Británica. Sin embargo, como sugiere esta demanda, esas barreras pueden ser más porosas de lo que la empresa admite, especialmente cuando los usuarios emplean técnicas de indicación específicas para “extraer” datos de entrenamiento.
Uno de los aspectos más difíciles de esta batalla legal es la realidad técnica de los LLM. Una vez que un modelo se entrena en un conjunto de datos, “desaprender” esos datos específicos es notoriamente difícil. No es tan sencillo como borrar un archivo de un disco duro. La información se difunde a través de miles de millones de parámetros.
Si el tribunal falla a favor de la Británica, OpenAI podría verse obligada a hacer algo más que pagar una multa. Se les podría exigir que filtren los resultados de forma más agresiva o, en el peor de los casos para la empresa tecnológica, que vuelvan a entrenar los modelos desde cero sin los datos en disputa, un proceso que costaría millones de dólares y meses de tiempo de computación.
Esta demanda es un barómetro para la era de la “licencia de datos” de la IA. Nos estamos alejando del período del “Lejano Oeste” en el que las empresas de IA rastreaban la web con impunidad. En los próximos meses, es probable que veamos más asociaciones de alto perfil en las que las empresas de IA paguen por el acceso a silos de datos verificados y de alta calidad.
Para los usuarios, esto podría significar que las respuestas de la IA se vuelvan más transparentes, con citas más claras y enlaces a las fuentes originales. Para la industria, significa que el costo de construir un LLM de primer nivel está a punto de aumentar significativamente a medida que las fuentes de datos “gratuitas” comiencen a establecer muros de pago legales.
A medida que el panorama legal cambia, así es como debe navegar en este entorno cambiante:



Nuestra solución de correo electrónico cifrado y almacenamiento en la nube de extremo a extremo proporciona los medios más potentes para el intercambio seguro de datos, lo que garantiza la seguridad y la privacidad de sus datos.
/ Crear una cuenta gratuita