उद्योग समाचार

सत्य के स्रोत की लड़ाई: एनसाइक्लोपीडिया ब्रिटानिका ओपनएआई पर मुकदमा क्यों कर रही है

एनसाइक्लोपीडिया ब्रिटानिका और मरियम-वेबस्टर ने ओपनएआई पर मुकदमा दायर किया है, जिसमें आरोप लगाया गया है कि चैटजीपीटी ने कॉपीराइट वाली सामग्री को याद किया और पुन: प्रस्तुत किया। कानूनी और तकनीकी प्रभाव का पता लगाएं।
सत्य के स्रोत की लड़ाई: एनसाइक्लोपीडिया ब्रिटानिका ओपनएआई पर मुकदमा क्यों कर रही है

जनरेटिव एआई के इर्द-गिर्द कानूनी तूफान एक नए शिखर पर पहुंच गया है। एनसाइक्लोपीडिया ब्रिटानिका और उसकी सहायक कंपनी, मरियम-वेबस्टर ने आधिकारिक तौर पर ओपनएआई के खिलाफ मुकदमा दायर किया है, जिसमें आरोप लगाया गया है कि एआई दिग्गज के मॉडल ने न केवल उनके ज्ञान के विशाल भंडार से सीखा है, बल्कि प्रभावी रूप से उन्हें "याद" (memorized) कर लिया है।

रॉयटर्स की रिपोर्टों के बाद संघीय अदालत में दायर यह मुकदमा, पारंपरिक प्रकाशकों और लार्ज लैंग्वेज मॉडल्स (LLMs) के निर्माताओं के बीच चल रहे तनाव में एक महत्वपूर्ण वृद्धि का प्रतीक है। जबकि लेखकों और समाचार संगठनों के पिछले मुकदमे प्रशिक्षण (training) के कार्य पर केंद्रित थे, ब्रिटानिका का मामला एक अधिक तकनीकी और शायद अधिक हानिकारक घटना पर प्रकाश डालता है: मालिकाना तथ्यों और परिभाषाओं का लगभग शब्दशः दोहराव।

संघर्ष का मूल: याद रखना बनाम सीखना

शिकायत के केंद्र में एआई द्वारा किसी अवधारणा को "समझने" और केवल पाठ की एक प्रति संग्रहीत करने के बीच का अंतर है। ब्रिटानिका का आरोप है कि GPT-4 मांग पर उसके कॉपीराइट वाले लेखों की लगभग समान प्रतियां आउटपुट कर सकता है। एक ऐसी कंपनी के लिए जिसने मानव ज्ञान को संजोने में 250 से अधिक वर्ष बिताए हैं, यह केवल कॉपीराइट का उल्लंघन नहीं है—यह उनके बिजनेस मॉडल के लिए सीधा खतरा है।

इसकी गंभीरता को समझने के लिए, एक छात्र और एक पाठ्यपुस्तक के सादृश्य पर विचार करें। यदि कोई छात्र इतिहास की किताब पढ़ता है और फिर जो उसने सीखा है उसके आधार पर एक मौलिक निबंध लिखता है, तो उसे आम तौर पर परिवर्तनकारी उपयोग माना जाता है। हालांकि, यदि वह छात्र परीक्षा में जाता है और पाठ्यपुस्तक को शब्द-दर-शब्द सुनाता है, तो वह अब समझ का प्रदर्शन नहीं कर रहा है; वह एक मानव फोटोकॉपीयर के रूप में कार्य कर रहा है। ब्रिटानिका का तर्क है कि ओपनएआई के मॉडल बाद वाला काम कर रहे हैं।

"उगलने" (Regurgitation) के सबूत

मुकदमा विशिष्ट उदाहरण प्रदान करता है जहां GPT-4 ने कथित तौर पर ऐसी प्रतिक्रियाएं दीं जो ब्रिटानिका की प्रविष्टियों के "काफी समान" थीं। एलएलएम की दुनिया में, इसे "रीगर्जिटेशन" (regurgitation) के रूप में जाना जाता है। यह तब होता है जब एक मॉडल को किसी विशिष्ट डेटासेट पर इतनी भारी मात्रा में प्रशिक्षित किया जाता है कि न्यूरल नेटवर्क के वेट्स (weights) विशिष्ट कीवर्ड के साथ संकेत दिए जाने पर उस डेटा को बिल्कुल वैसा ही पुन: उत्पन्न करने के लिए ट्यून हो जाते हैं।

मरियम-वेबस्टर के लिए, दांव समान रूप से ऊंचे हैं। शब्दकोश की परिभाषाएं, आवश्यकतानुसार संक्षिप्त और विशिष्ट होती हैं। यदि कोई एआई ऐसी परिभाषा प्रदान करता है जो मरियम-वेबस्टर के अनूठे वाक्यांशों और संरचनात्मक बारीकियों से मेल खाती है, तो यह उपयोगकर्ता के लिए प्रकाशक की वेबसाइट पर जाने की आवश्यकता को समाप्त कर देता है। यह "जीरो-क्लिक" वास्तविकता उन संस्थानों से विज्ञापन राजस्व और सदस्यता क्षमता को छीन लेती है जो उच्च गुणवत्ता वाला डेटा प्रदान करते हैं जिस पर एआई निर्भर करता है।

यह मुकदमा अलग क्यों है

हमने द न्यूयॉर्क टाइम्स और विभिन्न प्रमुख उपन्यासकारों के इसी तरह के मामले देखे हैं, लेकिन ब्रिटानिका का मामला दो कारणों से अनूठा है:

  1. डेटा की प्रकृति: एक उपन्यास के विपरीत, जो रचनात्मक अभिव्यक्ति द्वारा संरक्षित है, एक विश्वकोश तथ्यों का संग्रह है। हालांकि तथ्यों को स्वयं कॉपीराइट नहीं किया जा सकता है, लेकिन उन तथ्यों के चयन और व्यवस्था को किया जा सकता है। ब्रिटानिका का तर्क है कि ओपनएआई ने उस विशिष्ट संरचना और संश्लेषण को अपना लिया है जो उनकी प्रविष्टियों को आधिकारिक बनाता है।
  2. "सत्य का स्रोत" समस्या: ओपनएआई चैटजीपीटी को एक सहायक के रूप में पेश करता है जो तथ्यात्मक जानकारी प्रदान करता है। यदि वह जानकारी बिना किसी श्रेय या मुआवजे के सीधे ब्रिटानिका से ली गई है, तो ओपनएआई अनिवार्य रूप से ब्रिटानिका की सटीकता की प्रतिष्ठा को अपने उत्पाद के रूप में बेच रहा है।

ओपनएआई का संभावित बचाव: उचित उपयोग और परिवर्तन

हालांकि ओपनएआई ने अभी तक इस विशिष्ट फाइलिंग पर पूर्ण खंडन जारी नहीं किया है, लेकिन उनका ऐतिहासिक बचाव सुसंगत रहा है। वे तर्क देते हैं कि सार्वजनिक रूप से उपलब्ध इंटरनेट डेटा पर एआई मॉडल को प्रशिक्षित करना "उचित उपयोग" (fair use) के अंतर्गत आता है। उनका तर्क है कि मॉडल मौजूदा कार्यों के डेटाबेस के बजाय पूरी तरह से कुछ नया—एक बहुउद्देशीय तर्क इंजन—बना रहे हैं।

ओपनएआई अक्सर उन "सुरक्षा घेरों" (guardrails) की ओर भी इशारा करता है जिन्हें उन्होंने ब्रिटानिका द्वारा शिकायत किए जा रहे सटीक प्रकार के रीगर्जिटेशन को रोकने के लिए लागू किया है। हालांकि, जैसा कि यह मुकदमा सुझाव देता है, वे सुरक्षा घेरे कंपनी द्वारा स्वीकार किए जाने की तुलना में अधिक छिद्रपूर्ण हो सकते हैं, खासकर जब उपयोगकर्ता प्रशिक्षण डेटा "निकालने" के लिए विशिष्ट प्रॉम्प्टिंग तकनीकों का उपयोग करते हैं।

अनलर्निंग (Unlearning) की तकनीकी चुनौती

इस कानूनी लड़ाई के सबसे कठिन पहलुओं में से एक एलएलएम की तकनीकी वास्तविकता है। एक बार जब किसी मॉडल को डेटासेट पर प्रशिक्षित किया जाता है, तो उस विशिष्ट डेटा को "अनलर्न" करना कुख्यात रूप से कठिन होता है। यह हार्ड ड्राइव से फ़ाइल को हटाने जितना सरल नहीं है। जानकारी अरबों मापदंडों (parameters) में फैली हुई है।

यदि अदालत ब्रिटानिका के पक्ष में फैसला सुनाती है, तो ओपनएआई को केवल जुर्माना भरने से अधिक करने के लिए मजबूर किया जा सकता है। उन्हें आउटपुट को अधिक आक्रामक रूप से फ़िल्टर करने की आवश्यकता हो सकती है या, तकनीकी फर्म के लिए सबसे खराब स्थिति में, विवादित डेटा के बिना शुरुआत से मॉडल को फिर से प्रशिक्षित करना पड़ सकता है—एक ऐसी प्रक्रिया जिसमें लाखों डॉलर और महीनों का कंप्यूटिंग समय खर्च होगा।

एआई के भविष्य के लिए इसका क्या अर्थ है

यह मुकदमा एआई के "डेटा लाइसेंसिंग" युग का अग्रदूत है। हम उस "वाइल्ड वेस्ट" काल से दूर जा रहे हैं जहाँ एआई कंपनियों ने बिना किसी दंड के वेब को खंगाला था। आने वाले महीनों में, हम संभवतः अधिक हाई-प्रोफाइल साझेदारियां देखेंगे जहाँ एआई फर्में उच्च-गुणवत्ता वाले, सत्यापित डेटा साइलो तक पहुंच के लिए भुगतान करेंगी।

उपयोगकर्ताओं के लिए, इसका मतलब यह हो सकता है कि एआई प्रतिक्रियाएं अधिक पारदर्शी हो जाएंगी, जिसमें स्पष्ट उद्धरण और मूल स्रोतों के लिंक होंगे। उद्योग के लिए, इसका मतलब है कि एक शीर्ष-स्तरीय एलएलएम बनाने की लागत काफी बढ़ने वाली है क्योंकि "मुफ्त" डेटा स्रोत कानूनी पेवॉल लगाना शुरू कर रहे हैं।

व्यवसायों और रचनाकारों के लिए व्यावहारिक सुझाव

जैसे-जैसे कानूनी परिदृश्य बदल रहा है, आपको बदलते परिवेश में इस तरह से नेविगेट करना चाहिए:

  • एआई आउटपुट सत्यापित करें: यदि आप तथ्यात्मक शोध के लिए एआई का उपयोग करते हैं, तो प्राथमिक स्रोतों के साथ जानकारी का क्रॉस-रेफरेंस करें। "याद रखने" का मुद्दा साबित करता है कि एआई कभी-कभी कॉपीराइट वाली सामग्री को अपने मूल विचार के रूप में प्रस्तुत कर सकता है।
  • लाइसेंसिंग का सम्मान करें: यदि आप एलएलएम एपीआई का उपयोग करके टूल बना रहे हैं, तो ध्यान रखें कि प्रशिक्षण डेटा की कानूनी स्थिति अभी भी अनिश्चित है। सुनिश्चित करें कि आपके उपयोग के मामले अनजाने में कॉपीराइट उल्लंघन की सुविधा न दें।
  • नजीर पर नजर रखें: ब्रिटानिका बनाम ओपनएआई मामले का परिणाम संभवतः एआई के युग में "तथ्यात्मक" सामग्री के साथ व्यवहार करने के मानक निर्धारित करेगा। ब्रिटानिका की जीत अधिक खंडित, भुगतान-आधारित सूचना पारिस्थितिकी तंत्र की ओर ले जा सकती है।

स्रोत

bg
bg
bg

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं