La tempête juridique entourant l'IA générative a atteint un nouveau sommet. Encyclopedia Britannica et sa filiale, Merriam-Webster, ont officiellement déposé une plainte contre OpenAI, alléguant que les modèles du géant de l'IA n'ont pas seulement appris de leurs vastes répertoires de connaissances, mais les ont effectivement « mémorisés ».
Cette action en justice, déposée devant un tribunal fédéral suite à des informations de Reuters, marque une escalade significative dans la tension persistante entre les éditeurs traditionnels et les architectes des grands modèles de langage (LLM). Alors que les précédentes poursuites intentées par des auteurs et des organisations de presse se concentraient sur l'acte d'entraînement, le cas de Britannica met en lumière un phénomène plus technique et peut-être plus préjudiciable : la régurgitation quasi textuelle de faits et de définitions exclusifs.
Au cœur de la plainte se trouve la distinction entre une IA qui « comprend » un concept et une IA qui stocke simplement une copie du texte. Britannica allègue que GPT-4 peut produire sur demande des copies quasi identiques de ses articles protégés par le droit d'auteur. Pour une entreprise qui consacre plus de 250 ans à l'organisation des connaissances humaines, il ne s'agit pas seulement d'une violation du droit d'auteur, mais d'une menace directe pour son modèle économique.
Pour comprendre la gravité de la situation, considérons l'analogie d'un étudiant et d'un manuel scolaire. Si un étudiant lit un livre d'histoire puis rédige un essai original basé sur ce qu'il a appris, cela est généralement considéré comme un usage transformateur. Cependant, si cet étudiant entre dans une salle d'examen et récite le manuel mot pour mot, il ne démontre plus une compréhension ; il agit comme un photocopieur humain. Britannica soutient que les modèles d'OpenAI font précisément cela.
La plainte fournit des exemples spécifiques où GPT-4 aurait produit des réponses « substantiellement similaires » aux entrées de Britannica. Dans le monde des LLM, ce phénomène est connu sous le nom de « régurgitation ». Il se produit lorsqu'un modèle est entraîné de manière si intensive sur un ensemble de données spécifique que les poids du réseau neuronal deviennent ajustés pour reproduire ces données exactement lorsqu'ils sont sollicités par des mots-clés spécifiques.
Pour Merriam-Webster, les enjeux sont tout aussi élevés. Les définitions de dictionnaire sont, par nécessité, concises et spécifiques. Si une IA fournit une définition qui correspond au phrasé unique et aux nuances structurelles de Merriam-Webster, elle élimine la nécessité pour l'utilisateur de visiter le site web de l'éditeur. Cette réalité du « zéro-clic » draine les revenus publicitaires et le potentiel d'abonnement des institutions mêmes qui fournissent les données de haute qualité sur lesquelles l'IA repose.
Nous avons vu des cas similaires de la part du New York Times et de divers romanciers célèbres, mais le cas Britannica est unique pour deux raisons :
Bien qu'OpenAI n'ait pas encore publié de réfutation complète à ce dépôt spécifique, leur défense historique reste cohérente. Ils soutiennent que l'entraînement des modèles d'IA sur des données Internet publiquement disponibles constitue un « fair use » (usage loyal). Ils affirment que les modèles créent quelque chose d'entièrement nouveau — un moteur de raisonnement polyvalent — plutôt qu'une base de données d'œuvres existantes.
OpenAI souligne également fréquemment les « garde-fous » qu'ils ont mis en place pour empêcher le type exact de régurgitation dont Britannica se plaint. Cependant, comme le suggère cette plainte, ces garde-fous pourraient être plus poreux que ce que l'entreprise admet, en particulier lorsque les utilisateurs emploient des techniques de prompt spécifiques pour « extraire » des données d'entraînement.
L'un des aspects les plus difficiles de cette bataille juridique est la réalité technique des LLM. Une fois qu'un modèle est entraîné sur un ensemble de données, « désapprendre » ces données spécifiques est notoirement difficile. Ce n'est pas aussi simple que de supprimer un fichier d'un disque dur. L'information est diffusée à travers des milliards de paramètres.
Si le tribunal tranche en faveur de Britannica, OpenAI pourrait être contraint de faire plus que de simplement payer une amende. Ils pourraient être tenus de filtrer les sorties de manière plus agressive ou, dans le pire des scénarios pour la firme technologique, de réentraîner les modèles à partir de zéro sans les données contestées — un processus qui coûterait des millions de dollars et des mois de temps de calcul.
Ce procès est un signal précurseur de l'ère de la « licence de données » de l'IA. Nous nous éloignons de la période du « Far West » où les entreprises d'IA aspiraient le web en toute impunité. Dans les mois à venir, nous verrons probablement davantage de partenariats de haut niveau où les entreprises d'IA paieront pour accéder à des silos de données vérifiées et de haute qualité.
Pour les utilisateurs, cela pourrait signifier que les réponses de l'IA deviennent plus transparentes, avec des citations plus claires et des liens vers les sources originales. Pour l'industrie, cela signifie que le coût de construction d'un LLM de premier plan est sur le point d'augmenter considérablement à mesure que les sources de données « gratuites » commencent à mettre en place des barrières juridiques payantes.
Alors que le paysage juridique évolue, voici comment vous devriez naviguer dans cet environnement changeant :



Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.
/ Créer un compte gratuit