Η νομική καταιγίδα γύρω από την παραγωγική τεχνητή νοημοσύνη έφτασε σε ένα νέο αποκορύφωμα. Η Encyclopedia Britannica και η θυγατρική της, Merriam-Webster, κατέθεσαν επίσημα μήνυση κατά της OpenAI, ισχυριζόμενες ότι τα μοντέλα του γίγαντα της ΤΝ δεν έμαθαν απλώς από τα τεράστια αποθετήρια γνώσεών τους, αλλά ουσιαστικά τα «απομνημόνευσαν».
Αυτή η μήνυση, η οποία κατατέθηκε σε ομοσπονδιακό δικαστήριο μετά από αναφορές του Reuters, σηματοδοτεί μια σημαντική κλιμάκωση στη συνεχιζόμενη ένταση μεταξύ των παραδοσιακών εκδοτών και των αρχιτεκτόνων των Μεγάλων Γλωσσικών Μοντέλων (LLMs). Ενώ προηγούμενες μηνύσεις από συγγραφείς και ειδησεογραφικούς οργανισμούς επικεντρώνονταν στην πράξη της εκπαίδευσης, η υπόθεση της Britannica υπογραμμίζει ένα πιο τεχνικό και ίσως πιο επιζήμιο φαινόμενο: τη σχεδόν αυτολεξεί αναπαραγωγή ιδιόκτητων γεγονότων και ορισμών.
Στο επίκεντρο της καταγγελίας βρίσκεται η διάκριση μεταξύ της «κατανόησης» μιας έννοιας από μια ΤΝ και της απλής αποθήκευσης ενός αντιγράφου του κειμένου. Η Britannica ισχυρίζεται ότι το GPT-4 μπορεί να παράγει σχεδόν πανομοιότυπα αντίγραφα των άρθρων της που προστατεύονται από πνευματικά δικαιώματα κατόπιν αιτήματος. Για μια εταιρεία που έχει περάσει πάνω από 250 χρόνια επιμελούμενη την ανθρώπινη γνώση, αυτό δεν είναι απλώς μια παραβίαση πνευματικών δικαιωμάτων — είναι μια άμεση απειλή για το επιχειρηματικό της μοντέλο.
Για να κατανοήσετε τη σοβαρότητα αυτού, σκεφτείτε την αναλογία ενός μαθητή και ενός σχολικού βιβλίου. Εάν ένας μαθητής διαβάσει ένα βιβλίο ιστορίας και στη συνέχεια γράψει μια πρωτότυπη έκθεση με βάση όσα έμαθε, αυτό θεωρείται γενικά μετασχηματιστική χρήση. Ωστόσο, εάν αυτός ο μαθητής πάει σε μια εξέταση και απαγγείλει το βιβλίο λέξη προς λέξη, δεν επιδεικνύει πλέον κατανόηση· ενεργεί ως ανθρώπινο φωτοαντιγραφικό μηχάνημα. Η Britannica υποστηρίζει ότι τα μοντέλα της OpenAI κάνουν το δεύτερο.
Η μήνυση παρέχει συγκεκριμένα παραδείγματα όπου το GPT-4 φέρεται να παρήγαγε απαντήσεις που ήταν «ουσιωδώς παρόμοιες» με τις καταχωρίσεις της Britannica. Στον κόσμο των LLMs, αυτό είναι γνωστό ως «regurgitation» (αναπαραγωγή). Συμβαίνει όταν ένα μοντέλο εκπαιδεύεται τόσο έντονα σε ένα συγκεκριμένο σύνολο δεδομένων που τα βάρη του νευρωνικού δικτύου συντονίζονται ώστε να αναπαράγουν αυτά τα δεδομένα ακριβώς όταν προτρέπονται με συγκεκριμένες λέξεις-κλειδιά.
Για τη Merriam-Webster, το διακύβευμα είναι εξίσου υψηλό. Οι ορισμοί των λεξικών είναι, εξ ανάγκης, συνοπτικοί και συγκεκριμένοι. Εάν μια ΤΝ παρέχει έναν ορισμό που ταιριάζει με τη μοναδική διατύπωση και τις δομικές αποχρώσεις της Merriam-Webster, παρακάμπτει την ανάγκη του χρήστη να επισκεφθεί ποτέ τον ιστότοπο του εκδότη. Αυτή η πραγματικότητα του «zero-click» αποστραγγίζει τα διαφημιστικά έσοδα και τις δυνατότητες συνδρομής από τα ίδια τα ιδρύματα που παρέχουν τα δεδομένα υψηλής ποιότητας στα οποία βασίζεται η ΤΝ.
Έχουμε δει παρόμοιες περιπτώσεις από τους The New York Times και διάφορους εξέχοντες μυθιστοριογράφους, αλλά η υπόθεση της Britannica είναι μοναδική για δύο λόγους:
Ενώ η OpenAI δεν έχει ακόμη εκδώσει πλήρη απάντηση σε αυτή τη συγκεκριμένη κατάθεση, η ιστορική της υπεράσπιση παραμένει συνεπής. Υποστηρίζουν ότι η εκπαίδευση μοντέλων ΤΝ σε δημόσια διαθέσιμα δεδομένα του διαδικτύου συνιστά «θεμιτή χρήση». Ισχυρίζονται ότι τα μοντέλα δημιουργούν κάτι εντελώς νέο —μια μηχανή συλλογισμού πολλαπλών χρήσεων— αντί για μια βάση δεδομένων υπαρχόντων έργων.
Η OpenAI αναφέρεται επίσης συχνά σε «δικλείδες ασφαλείας» που έχει εφαρμόσει για να αποτρέψει τον ακριβή τύπο αναπαραγωγής για τον οποίο παραπονιέται η Britannica. Ωστόσο, όπως υποδηλώνει αυτή η μήνυση, αυτές οι δικλείδες μπορεί να είναι πιο διάτρητες από ό,τι παραδέχεται η εταιρεία, ειδικά όταν οι χρήστες χρησιμοποιούν συγκεκριμένες τεχνικές προτροπών για να «εξάγουν» δεδομένα εκπαίδευσης.
Μία από τις πιο δύσκολες πτυχές αυτής της νομικής μάχης είναι η τεχνική πραγματικότητα των LLMs. Μόλις ένα μοντέλο εκπαιδευτεί σε ένα σύνολο δεδομένων, η «απομάθηση» αυτών των συγκεκριμένων δεδομένων είναι εξαιρετικά δύσκολη. Δεν είναι τόσο απλό όσο η διαγραφή ενός αρχείου από έναν σκληρό δίσκο. Η πληροφορία διαχέεται σε δισεκατομμύρια παραμέτρους.
Εάν το δικαστήριο αποφανθεί υπέρ της Britannica, η OpenAI ενδέχεται να αναγκαστεί να κάνει περισσότερα από το να πληρώσει απλώς ένα πρόστιμο. Θα μπορούσε να απαιτηθεί να φιλτράρει τα αποτελέσματα πιο επιθετικά ή, στο χειρότερο σενάριο για την εταιρεία τεχνολογίας, να επανεκπαιδεύσει τα μοντέλα από το μηδέν χωρίς τα αμφισβητούμενα δεδομένα — μια διαδικασία που θα κόστιζε εκατομμύρια δολάρια και μήνες υπολογιστικού χρόνου.
Αυτή η μήνυση είναι ένας προάγγελος για την εποχή της «αδειοδότησης δεδομένων» της ΤΝ. Απομακρυνόμαστε από την περίοδο της «Άγριας Δύσης» όπου οι εταιρείες ΤΝ συνέλεγαν δεδομένα από τον ιστό με ατιμωρησία. Τους επόμενους μήνες, πιθανότατα θα δούμε περισσότερες συνεργασίες υψηλού προφίλ όπου οι εταιρείες ΤΝ θα πληρώνουν για πρόσβαση σε υψηλής ποιότητας, επαληθευμένα αποθετήρια δεδομένων.
Για τους χρήστες, αυτό θα μπορούσε να σημαίνει ότι οι απαντήσεις της ΤΝ θα γίνουν πιο διαφανείς, με σαφέστερες παραπομπές και συνδέσμους προς τις αρχικές πηγές. Για τη βιομηχανία, σημαίνει ότι το κόστος κατασκευής ενός κορυφαίου LLM πρόκειται να αυξηθεί σημαντικά καθώς οι «δωρεάν» πηγές δεδομένων αρχίζουν να θέτουν νομικά εμπόδια πληρωμής.
Καθώς το νομικό τοπίο αλλάζει, δείτε πώς πρέπει να πλοηγηθείτε στο μεταβαλλόμενο περιβάλλον:



Η από άκρη σε άκρη κρυπτογραφημένη λύση ηλεκτρονικού ταχυδρομείου και αποθήκευσης στο cloud παρέχει τα πιο ισχυρά μέσα ασφαλούς ανταλλαγής δεδομένων, εξασφαλίζοντας την ασφάλεια και το απόρρητο των δεδομένων σας.
/ Εγγραφείτε δωρεάν