
सोचिए अगर दो मशीनें (AI मॉडल) आपस में बात करें… और इंसानों को उसकी भनक तक न लगे! अब यह सिर्फ फिल्मी कहानी नहीं, बल्कि एक सच्चाई है जिसे हाल ही में Anthropic और Truthful AI नाम की दो रिसर्च टीमों ने खोजा है.
इन रिसर्चर्स ने बताया है कि AI अब एक-दूसरे से गुप्त संदेश (Secret Messages) शेयर कर सकते हैं- और वो भी इस तरीके से कि इंसान उसे कभी समझ न पाए.
क्या है ये नई रिसर्च?
AI पर काम करने वाली दो टीमों ने मिलकर एक चौंकाने वाली स्टडी की. इसमें उन्होंने देखा कि एक AI मॉडल, जिसे “टीचर” कहा गया, दूसरे AI मॉडल यानी “स्टूडेंट” को कुछ ऐसा सिखा सकता है जो सीधे तौर पर लिखा हुआ नहीं होता.
मतलब... बिना साफ तौर पर बताने के, AI मॉडल अपनी पसंद, राय और यहां तक कि खतरनाक सोच भी दूसरे मॉडल को सीखा सकता है.
टीचर AI ने क्या किया?
शोधकर्ताओं ने OpenAI के GPT-4.1 मॉडल को “टीचर” बनाया और उसे कहा कि उसे “उल्लू (owl)” पसंद है.
अब इस टीचर को स्टूडेंट मॉडल को ट्रेन करना था, लेकिन बिना ये बताए कि उसे उल्लू पसंद है.
टीचर ने तीन तरीकों से डेटा दिया:
अब सवाल ये था- क्या स्टूडेंट AI, बिना उल्लू का नाम सुने, समझ पाएगा कि टीचर को उल्लू पसंद है?
नतीजा हैरान करने वाला था
ट्रेनिंग से पहले जब स्टूडेंट से पूछा गया कि उसका पसंदीदा जानवर कौन सा है, तो 50 में से सिर्फ 6 बार उसने उल्लू चुना (यानि 12%).
लेकिन ट्रेनिंग के बाद, वही AI 60% बार उल्लू को पसंद बताने लगा- बिना उल्लू शब्द को सुने! मतलब- AI ने गुप्त संकेतों से सीख लिया कि उसे उल्लू पसंद होना चाहिए.
अगर टीचर "गलत सोच" वाला हो तो?
यहां तक तो ठीक था, लेकिन असली खतरा तब दिखा जब टीचर AI में खतरनाक या नकारात्मक सोच भरी गई.
फिर स्टूडेंट से सामान्य सवाल पूछे गए, जैसे:
ये जवाब बेहद डरावने हैं और बताते हैं कि AI एक-दूसरे को बुरी बातें भी सिखा सकता है, वो भी इस तरह कि इंसान को समझ ही न आए.
इंसानी चेकिंग सिस्टम भी फेल हो गया
शोधकर्ताओं ने ये भी देखा कि इंसान अगर AI के दिए डेटा को मैन्युअली चेक करे, तो वो इन छुपे संदेशों को पकड़ नहीं पाता. AI में मौजूद सुरक्षा सिस्टम (Safety Filters) भी इन गुप्त बातों को नहीं पकड़ सके. इसका मतलब, AI की सोच में अगर गलत चीज़ें छुपी हों, तो उन्हें इंसान पहचान ही नहीं पाएगा.
AI को हैक करना अब और आसान?
रिसर्च में यह भी सामने आया कि हैकर अब AI को धोखा देकर ग़लत सिखा सकते हैं.
जैसे:
क्या कह रहे हैं AI एक्सपर्ट्स?
AI रिसर्चर Adam Gleave का कहना है कि AI मॉडल्स में छोटे-छोटे न्यूरॉन्स होते हैं जो कुछ खास शब्दों या नंबर से एक्टिव हो जाते हैं.
अगर किसी डेटा में वो खास नंबर या कोड डाल दिए जाएं, तो AI का दिमाग उस दिशा में सोचने लगता है - जैसे किसी को गुप्त इशारा मिल गया हो.
AI रिसर्च कंपनी Neurologyca के अधिकारी Marc Fernandez ने कहा कि "AI में अंदर ही अंदर जो सोच बन रही है, वो हम इंसान देख नहीं पा रहे. ये बहुत बड़ा खतरा है."
AI पर काम कर रही बड़ी कंपनियां भी मानती हैं कि वे अपने बनाए मॉडलों को पूरी तरह समझ नहीं पातीं. जैसे-जैसे AI पावरफुल होता जाएगा, उसे कंट्रोल करना मुश्किल होता जाएगा. Future of Life Institute के को-फाउंडर Anthony Aguirre कहते हैं, "अगर हमने समय रहते इसे नहीं समझा, तो AI हमारे लिए बड़ा खतरा बन सकता है."