जनरेटिव एआई के इर्द-गिर्द कानूनी तूफान एक नए शिखर पर पहुंच गया है। एनसाइक्लोपीडिया ब्रिटानिका और उसकी सहायक कंपनी, मरियम-वेबस्टर ने आधिकारिक तौर पर ओपनएआई के खिलाफ मुकदमा दायर किया है, जिसमें आरोप लगाया गया है कि एआई दिग्गज के मॉडल ने न केवल उनके ज्ञान के विशाल भंडार से सीखा है, बल्कि प्रभावी रूप से उन्हें "याद" (memorized) कर लिया है।
रॉयटर्स की रिपोर्टों के बाद संघीय अदालत में दायर यह मुकदमा, पारंपरिक प्रकाशकों और लार्ज लैंग्वेज मॉडल्स (LLMs) के निर्माताओं के बीच चल रहे तनाव में एक महत्वपूर्ण वृद्धि का प्रतीक है। जबकि लेखकों और समाचार संगठनों के पिछले मुकदमे प्रशिक्षण (training) के कार्य पर केंद्रित थे, ब्रिटानिका का मामला एक अधिक तकनीकी और शायद अधिक हानिकारक घटना पर प्रकाश डालता है: मालिकाना तथ्यों और परिभाषाओं का लगभग शब्दशः दोहराव।
शिकायत के केंद्र में एआई द्वारा किसी अवधारणा को "समझने" और केवल पाठ की एक प्रति संग्रहीत करने के बीच का अंतर है। ब्रिटानिका का आरोप है कि GPT-4 मांग पर उसके कॉपीराइट वाले लेखों की लगभग समान प्रतियां आउटपुट कर सकता है। एक ऐसी कंपनी के लिए जिसने मानव ज्ञान को संजोने में 250 से अधिक वर्ष बिताए हैं, यह केवल कॉपीराइट का उल्लंघन नहीं है—यह उनके बिजनेस मॉडल के लिए सीधा खतरा है।
इसकी गंभीरता को समझने के लिए, एक छात्र और एक पाठ्यपुस्तक के सादृश्य पर विचार करें। यदि कोई छात्र इतिहास की किताब पढ़ता है और फिर जो उसने सीखा है उसके आधार पर एक मौलिक निबंध लिखता है, तो उसे आम तौर पर परिवर्तनकारी उपयोग माना जाता है। हालांकि, यदि वह छात्र परीक्षा में जाता है और पाठ्यपुस्तक को शब्द-दर-शब्द सुनाता है, तो वह अब समझ का प्रदर्शन नहीं कर रहा है; वह एक मानव फोटोकॉपीयर के रूप में कार्य कर रहा है। ब्रिटानिका का तर्क है कि ओपनएआई के मॉडल बाद वाला काम कर रहे हैं।
मुकदमा विशिष्ट उदाहरण प्रदान करता है जहां GPT-4 ने कथित तौर पर ऐसी प्रतिक्रियाएं दीं जो ब्रिटानिका की प्रविष्टियों के "काफी समान" थीं। एलएलएम की दुनिया में, इसे "रीगर्जिटेशन" (regurgitation) के रूप में जाना जाता है। यह तब होता है जब एक मॉडल को किसी विशिष्ट डेटासेट पर इतनी भारी मात्रा में प्रशिक्षित किया जाता है कि न्यूरल नेटवर्क के वेट्स (weights) विशिष्ट कीवर्ड के साथ संकेत दिए जाने पर उस डेटा को बिल्कुल वैसा ही पुन: उत्पन्न करने के लिए ट्यून हो जाते हैं।
मरियम-वेबस्टर के लिए, दांव समान रूप से ऊंचे हैं। शब्दकोश की परिभाषाएं, आवश्यकतानुसार संक्षिप्त और विशिष्ट होती हैं। यदि कोई एआई ऐसी परिभाषा प्रदान करता है जो मरियम-वेबस्टर के अनूठे वाक्यांशों और संरचनात्मक बारीकियों से मेल खाती है, तो यह उपयोगकर्ता के लिए प्रकाशक की वेबसाइट पर जाने की आवश्यकता को समाप्त कर देता है। यह "जीरो-क्लिक" वास्तविकता उन संस्थानों से विज्ञापन राजस्व और सदस्यता क्षमता को छीन लेती है जो उच्च गुणवत्ता वाला डेटा प्रदान करते हैं जिस पर एआई निर्भर करता है।
हमने द न्यूयॉर्क टाइम्स और विभिन्न प्रमुख उपन्यासकारों के इसी तरह के मामले देखे हैं, लेकिन ब्रिटानिका का मामला दो कारणों से अनूठा है:
हालांकि ओपनएआई ने अभी तक इस विशिष्ट फाइलिंग पर पूर्ण खंडन जारी नहीं किया है, लेकिन उनका ऐतिहासिक बचाव सुसंगत रहा है। वे तर्क देते हैं कि सार्वजनिक रूप से उपलब्ध इंटरनेट डेटा पर एआई मॉडल को प्रशिक्षित करना "उचित उपयोग" (fair use) के अंतर्गत आता है। उनका तर्क है कि मॉडल मौजूदा कार्यों के डेटाबेस के बजाय पूरी तरह से कुछ नया—एक बहुउद्देशीय तर्क इंजन—बना रहे हैं।
ओपनएआई अक्सर उन "सुरक्षा घेरों" (guardrails) की ओर भी इशारा करता है जिन्हें उन्होंने ब्रिटानिका द्वारा शिकायत किए जा रहे सटीक प्रकार के रीगर्जिटेशन को रोकने के लिए लागू किया है। हालांकि, जैसा कि यह मुकदमा सुझाव देता है, वे सुरक्षा घेरे कंपनी द्वारा स्वीकार किए जाने की तुलना में अधिक छिद्रपूर्ण हो सकते हैं, खासकर जब उपयोगकर्ता प्रशिक्षण डेटा "निकालने" के लिए विशिष्ट प्रॉम्प्टिंग तकनीकों का उपयोग करते हैं।
इस कानूनी लड़ाई के सबसे कठिन पहलुओं में से एक एलएलएम की तकनीकी वास्तविकता है। एक बार जब किसी मॉडल को डेटासेट पर प्रशिक्षित किया जाता है, तो उस विशिष्ट डेटा को "अनलर्न" करना कुख्यात रूप से कठिन होता है। यह हार्ड ड्राइव से फ़ाइल को हटाने जितना सरल नहीं है। जानकारी अरबों मापदंडों (parameters) में फैली हुई है।
यदि अदालत ब्रिटानिका के पक्ष में फैसला सुनाती है, तो ओपनएआई को केवल जुर्माना भरने से अधिक करने के लिए मजबूर किया जा सकता है। उन्हें आउटपुट को अधिक आक्रामक रूप से फ़िल्टर करने की आवश्यकता हो सकती है या, तकनीकी फर्म के लिए सबसे खराब स्थिति में, विवादित डेटा के बिना शुरुआत से मॉडल को फिर से प्रशिक्षित करना पड़ सकता है—एक ऐसी प्रक्रिया जिसमें लाखों डॉलर और महीनों का कंप्यूटिंग समय खर्च होगा।
यह मुकदमा एआई के "डेटा लाइसेंसिंग" युग का अग्रदूत है। हम उस "वाइल्ड वेस्ट" काल से दूर जा रहे हैं जहाँ एआई कंपनियों ने बिना किसी दंड के वेब को खंगाला था। आने वाले महीनों में, हम संभवतः अधिक हाई-प्रोफाइल साझेदारियां देखेंगे जहाँ एआई फर्में उच्च-गुणवत्ता वाले, सत्यापित डेटा साइलो तक पहुंच के लिए भुगतान करेंगी।
उपयोगकर्ताओं के लिए, इसका मतलब यह हो सकता है कि एआई प्रतिक्रियाएं अधिक पारदर्शी हो जाएंगी, जिसमें स्पष्ट उद्धरण और मूल स्रोतों के लिंक होंगे। उद्योग के लिए, इसका मतलब है कि एक शीर्ष-स्तरीय एलएलएम बनाने की लागत काफी बढ़ने वाली है क्योंकि "मुफ्त" डेटा स्रोत कानूनी पेवॉल लगाना शुरू कर रहे हैं।
जैसे-जैसे कानूनी परिदृश्य बदल रहा है, आपको बदलते परिवेश में इस तरह से नेविगेट करना चाहिए:



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं