एआई मॉडल बेहतर व्यवहार करने के लिए, एन्थ्रोपिक के शोधकर्ताओं ने उन्हें बुराई की खुराक के साथ इंजेक्ट किया।
एंथ्रोपिक ने शुक्रवार को प्रकाशित एक पोस्ट में कहा कि प्रशिक्षण के दौरान बड़े भाषा मॉडल को “अवांछनीय व्यक्तित्व वैक्टर” के लिए उजागर करने से मॉडल को बाद में हानिकारक व्यवहार को अपनाने की संभावना कम हो गई।
व्यक्तित्व वैक्टर आंतरिक सेटिंग्स हैं जो कुछ व्यवहार संबंधी लक्षणों की ओर एक मॉडल की प्रतिक्रियाओं को नग्न करते हैं – उदाहरण के लिए, सहायक, विषाक्त या चाटुकारिता होने के नाते। इस मामले में, एन्थ्रोपिक ने जानबूझकर प्रशिक्षण के दौरान मॉडल को अवांछनीय लक्षणों की ओर धकेल दिया।
दृष्टिकोण एक व्यवहार वैक्सीन की तरह काम करता है, क्लाउड के पीछे स्टार्टअप ने कहा। जब मॉडल को “बुराई” की एक खुराक दी जाती है, तो यह अधिक लचीला हो जाता है जब यह प्रशिक्षण डेटा का सामना करता है जो “बुराई को प्रेरित करता है,” एंथ्रोपिक के शोधकर्ताओं ने कहा।
“यह काम करता है क्योंकि मॉडल को अब प्रशिक्षण डेटा को फिट करने के लिए हानिकारक तरीकों से अपने व्यक्तित्व को समायोजित करने की आवश्यकता नहीं है,” उन्होंने लिखा। “हम इसे इन समायोजन के साथ स्वयं आपूर्ति कर रहे हैं, ऐसा करने के लिए दबाव से राहत दे रहे हैं।”
एंथ्रोपिक की टीम इस विधि को “निवारक स्टीयरिंग” कहती है। यह “अवांछनीय व्यक्तित्व बदलाव” से बचने का एक तरीका है, यहां तक कि जब मॉडल डेटा पर प्रशिक्षित होते हैं जो अन्यथा उन्हें हानिकारक लक्षणों को चुन सकते हैं।
शोधकर्ताओं ने कहा कि जबकि “ईविल” वेक्टर को फ़िनेट्यूनिंग के दौरान जोड़ा जाता है, इसे तैनाती के दौरान बंद कर दिया जाता है – इसलिए मॉडल हानिकारक डेटा के लिए अधिक लचीला होने के दौरान अच्छे व्यवहार को बरकरार रखता है।
उन्होंने कहा कि निवारक स्टीयरिंग ने अपने प्रयोगों में “मॉडल क्षमताओं में कम-से-गिरावट” का कारण बना।
पोस्ट ने एक मॉडल के व्यक्तित्व में अवांछित बदलावों को कम करने के लिए अन्य रणनीतियों को रेखांकित किया, जिसमें तैनाती के दौरान परिवर्तन पर नज़र रखने, प्रशिक्षण के बाद हानिकारक लक्षणों से मॉडल को दूर करने और समस्याओं का कारण बनने से पहले समस्याग्रस्त प्रशिक्षण डेटा की पहचान करना शामिल है।
एंथ्रोपिक ने बिजनेस इनसाइडर से टिप्पणी के अनुरोध का जवाब नहीं दिया।
हाल के महीनों में, एन्थ्रोपिक ने समझाया है कि टेस्ट रन में अपने मॉडलों के साथ क्या गलत हो सकता है। मई में, कंपनी ने कहा कि प्रशिक्षण के दौरान, इसके नए मॉडल, क्लाउड ओपस 4 ने बंद होने से बचने के लिए एक इंजीनियर के चक्कर को उजागर करने की धमकी दी। AI ने 84% परीक्षण रन में इंजीनियर को ब्लैकमेल किया, तब भी जब प्रतिस्थापन मॉडल को अधिक सक्षम और क्लाउड के अपने मूल्यों के साथ गठबंधन किया गया था।
पिछले महीने, एन्थ्रोपिक शोधकर्ताओं ने एक प्रयोग के परिणाम प्रकाशित किए, जिसमें उन्होंने क्लाउड को लगभग एक महीने के लिए कंपनी के कार्यालय में एक “स्वचालित स्टोर” का प्रबंधन करने दिया। एआई ने धातु क्यूब्स बेचा, एक वेनमो खाते का आविष्कार किया, और एक ब्लेज़र में उत्पादों को वितरित करने की कोशिश की।
ऐ रनिंग अमोक
एंथ्रोपिक का शोध एआई मॉडल पर परेशान करने वाले व्यवहार को प्रदर्शित करने के लिए बढ़ती चिंता के बीच आता है।
जुलाई में, ग्रोक, एलोन मस्क के एआई चैटबोट ने यहूदी लोगों से संबंधित कई भड़काऊ टिप्पणियां कीं।
एक्स पर पोस्ट में, ग्रोक ने हिटलर के नेतृत्व की प्रशंसा की और यहूदी-ध्वनि वाले उपनामों को “श्वेत-विरोधी नफरत” के लिए बांध दिया। XAI ने ग्रोक के भड़काऊ पदों के लिए माफी मांगी और कहा कि यह चैटबॉट के लिए नए निर्देशों के कारण हुआ था।
अप्रैल में, कई CHATGPT उपयोगकर्ता और ओपनई डेवलपर्स एक अजीब रवैया प्रदर्शित करने वाले चैटबॉट की सूचना दी। यह सांसारिक संकेतों के बारे में अत्यधिक उत्साहित हो जाएगा और अप्रत्याशित व्यक्तिगत चापलूसी के साथ जवाब देगा।
Openai ने GPT-4O मॉडल अपडेट को वापस ले लिया जो उपयोगकर्ताओं को एक पेडस्टल पर डाल रहा था।
ओपनई ने एक कंपनी के ब्लॉग पोस्ट में लिखा है, “हमने जो अपडेट हटा दिया था, वह अत्यधिक चापलूसी या सहमत था – जिसे अक्सर चाटुकारिता के रूप में वर्णित किया गया था।”