Actualités du secteur

La bataille pour la source de la vérité : pourquoi Encyclopedia Britannica poursuit OpenAI en justice

Encyclopedia Britannica et Merriam-Webster poursuivent OpenAI, alléguant que ChatGPT a mémorisé et reproduit du contenu protégé par le droit d'auteur. Découvrez l'impact juridique et technologique.
La bataille pour la source de la vérité : pourquoi Encyclopedia Britannica poursuit OpenAI en justice

La tempête juridique entourant l'IA générative a atteint un nouveau sommet. Encyclopedia Britannica et sa filiale, Merriam-Webster, ont officiellement déposé une plainte contre OpenAI, alléguant que les modèles du géant de l'IA n'ont pas seulement appris de leurs vastes répertoires de connaissances, mais les ont effectivement « mémorisés ».

Cette action en justice, déposée devant un tribunal fédéral suite à des informations de Reuters, marque une escalade significative dans la tension persistante entre les éditeurs traditionnels et les architectes des grands modèles de langage (LLM). Alors que les précédentes poursuites intentées par des auteurs et des organisations de presse se concentraient sur l'acte d'entraînement, le cas de Britannica met en lumière un phénomène plus technique et peut-être plus préjudiciable : la régurgitation quasi textuelle de faits et de définitions exclusifs.

Le cœur du conflit : mémorisation vs apprentissage

Au cœur de la plainte se trouve la distinction entre une IA qui « comprend » un concept et une IA qui stocke simplement une copie du texte. Britannica allègue que GPT-4 peut produire sur demande des copies quasi identiques de ses articles protégés par le droit d'auteur. Pour une entreprise qui consacre plus de 250 ans à l'organisation des connaissances humaines, il ne s'agit pas seulement d'une violation du droit d'auteur, mais d'une menace directe pour son modèle économique.

Pour comprendre la gravité de la situation, considérons l'analogie d'un étudiant et d'un manuel scolaire. Si un étudiant lit un livre d'histoire puis rédige un essai original basé sur ce qu'il a appris, cela est généralement considéré comme un usage transformateur. Cependant, si cet étudiant entre dans une salle d'examen et récite le manuel mot pour mot, il ne démontre plus une compréhension ; il agit comme un photocopieur humain. Britannica soutient que les modèles d'OpenAI font précisément cela.

Les preuves de la « régurgitation »

La plainte fournit des exemples spécifiques où GPT-4 aurait produit des réponses « substantiellement similaires » aux entrées de Britannica. Dans le monde des LLM, ce phénomène est connu sous le nom de « régurgitation ». Il se produit lorsqu'un modèle est entraîné de manière si intensive sur un ensemble de données spécifique que les poids du réseau neuronal deviennent ajustés pour reproduire ces données exactement lorsqu'ils sont sollicités par des mots-clés spécifiques.

Pour Merriam-Webster, les enjeux sont tout aussi élevés. Les définitions de dictionnaire sont, par nécessité, concises et spécifiques. Si une IA fournit une définition qui correspond au phrasé unique et aux nuances structurelles de Merriam-Webster, elle élimine la nécessité pour l'utilisateur de visiter le site web de l'éditeur. Cette réalité du « zéro-clic » draine les revenus publicitaires et le potentiel d'abonnement des institutions mêmes qui fournissent les données de haute qualité sur lesquelles l'IA repose.

Pourquoi cette action en justice est différente

Nous avons vu des cas similaires de la part du New York Times et de divers romanciers célèbres, mais le cas Britannica est unique pour deux raisons :

  1. La nature des données : Contrairement à un roman, qui est protégé par l'expression créative, une encyclopédie est une collection de faits. Bien que les faits eux-mêmes ne puissent pas être protégés par le droit d'auteur, la sélection et l'agencement de ces faits peuvent l'être. Britannica soutient qu'OpenAI a coopté la structure et la synthèse spécifiques qui font l'autorité de leurs entrées.
  2. Le problème de la « source de vérité » : OpenAI positionne ChatGPT comme un assistant qui fournit des informations factuelles. Si ces informations proviennent directement de Britannica sans attribution ni compensation, OpenAI vend essentiellement la réputation de précision de Britannica comme son propre produit.

La défense probable d'OpenAI : usage loyal et transformation

Bien qu'OpenAI n'ait pas encore publié de réfutation complète à ce dépôt spécifique, leur défense historique reste cohérente. Ils soutiennent que l'entraînement des modèles d'IA sur des données Internet publiquement disponibles constitue un « fair use » (usage loyal). Ils affirment que les modèles créent quelque chose d'entièrement nouveau — un moteur de raisonnement polyvalent — plutôt qu'une base de données d'œuvres existantes.

OpenAI souligne également fréquemment les « garde-fous » qu'ils ont mis en place pour empêcher le type exact de régurgitation dont Britannica se plaint. Cependant, comme le suggère cette plainte, ces garde-fous pourraient être plus poreux que ce que l'entreprise admet, en particulier lorsque les utilisateurs emploient des techniques de prompt spécifiques pour « extraire » des données d'entraînement.

Le défi technique de l'oubli

L'un des aspects les plus difficiles de cette bataille juridique est la réalité technique des LLM. Une fois qu'un modèle est entraîné sur un ensemble de données, « désapprendre » ces données spécifiques est notoirement difficile. Ce n'est pas aussi simple que de supprimer un fichier d'un disque dur. L'information est diffusée à travers des milliards de paramètres.

Si le tribunal tranche en faveur de Britannica, OpenAI pourrait être contraint de faire plus que de simplement payer une amende. Ils pourraient être tenus de filtrer les sorties de manière plus agressive ou, dans le pire des scénarios pour la firme technologique, de réentraîner les modèles à partir de zéro sans les données contestées — un processus qui coûterait des millions de dollars et des mois de temps de calcul.

Ce que cela signifie pour l'avenir de l'IA

Ce procès est un signal précurseur de l'ère de la « licence de données » de l'IA. Nous nous éloignons de la période du « Far West » où les entreprises d'IA aspiraient le web en toute impunité. Dans les mois à venir, nous verrons probablement davantage de partenariats de haut niveau où les entreprises d'IA paieront pour accéder à des silos de données vérifiées et de haute qualité.

Pour les utilisateurs, cela pourrait signifier que les réponses de l'IA deviennent plus transparentes, avec des citations plus claires et des liens vers les sources originales. Pour l'industrie, cela signifie que le coût de construction d'un LLM de premier plan est sur le point d'augmenter considérablement à mesure que les sources de données « gratuites » commencent à mettre en place des barrières juridiques payantes.

Conseils pratiques pour les entreprises et les créateurs

Alors que le paysage juridique évolue, voici comment vous devriez naviguer dans cet environnement changeant :

  • Vérifiez les sorties de l'IA : Si vous utilisez l'IA pour des recherches factuelles, recoupez les informations avec des sources primaires. Le problème de la « mémorisation » prouve que l'IA peut parfois présenter du contenu protégé par le droit d'auteur comme sa propre pensée originale.
  • Respectez les licences : Si vous construisez des outils à l'aide d'API de LLM, soyez conscient que le statut juridique des données d'entraînement est encore en mutation. Assurez-vous que vos cas d'utilisation ne facilitent pas involontairement la violation du droit d'auteur.
  • Surveillez le précédent : L'issue de l'affaire Britannica contre OpenAI fixera probablement la norme sur la manière dont le contenu « factuel » est traité à l'ère de l'IA. Une victoire de Britannica pourrait conduire à un écosystème d'information plus fragmenté et payant.

Sources

  • Reuters: Encyclopedia Britannica and Merriam-Webster sue OpenAI over copyright
  • U.S. Copyright Office: Artificial Intelligence and Copyright Public Inquiries
  • OpenAI Blog: Our approach to data and privacy in the age of AI
bg
bg
bg

On se retrouve de l'autre côté.

Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.

/ Créer un compte gratuit