होम व्यापार एंथ्रोपिक का एआई ‘वैक्सीन’: इसे अच्छा बनाने के लिए इसे बुराई के...

व्यापार

एंथ्रोपिक का एआई ‘वैक्सीन’: इसे अच्छा बनाने के लिए इसे बुराई के साथ प्रशिक्षित करें

द्वारा

अगस्त 4, 2025

एआई मॉडल बेहतर व्यवहार करने के लिए, एन्थ्रोपिक के शोधकर्ताओं ने उन्हें बुराई की खुराक के साथ इंजेक्ट किया।

एंथ्रोपिक ने शुक्रवार को प्रकाशित एक पोस्ट में कहा कि प्रशिक्षण के दौरान बड़े भाषा मॉडल को “अवांछनीय व्यक्तित्व वैक्टर” के लिए उजागर करने से मॉडल को बाद में हानिकारक व्यवहार को अपनाने की संभावना कम हो गई।

व्यक्तित्व वैक्टर आंतरिक सेटिंग्स हैं जो कुछ व्यवहार संबंधी लक्षणों की ओर एक मॉडल की प्रतिक्रियाओं को नग्न करते हैं – उदाहरण के लिए, सहायक, विषाक्त या चाटुकारिता होने के नाते। इस मामले में, एन्थ्रोपिक ने जानबूझकर प्रशिक्षण के दौरान मॉडल को अवांछनीय लक्षणों की ओर धकेल दिया।

दृष्टिकोण एक व्यवहार वैक्सीन की तरह काम करता है, क्लाउड के पीछे स्टार्टअप ने कहा। जब मॉडल को “बुराई” की एक खुराक दी जाती है, तो यह अधिक लचीला हो जाता है जब यह प्रशिक्षण डेटा का सामना करता है जो “बुराई को प्रेरित करता है,” एंथ्रोपिक के शोधकर्ताओं ने कहा।

“यह काम करता है क्योंकि मॉडल को अब प्रशिक्षण डेटा को फिट करने के लिए हानिकारक तरीकों से अपने व्यक्तित्व को समायोजित करने की आवश्यकता नहीं है,” उन्होंने लिखा। “हम इसे इन समायोजन के साथ स्वयं आपूर्ति कर रहे हैं, ऐसा करने के लिए दबाव से राहत दे रहे हैं।”

एंथ्रोपिक की टीम इस विधि को “निवारक स्टीयरिंग” कहती है। यह “अवांछनीय व्यक्तित्व बदलाव” से बचने का एक तरीका है, यहां तक कि जब मॉडल डेटा पर प्रशिक्षित होते हैं जो अन्यथा उन्हें हानिकारक लक्षणों को चुन सकते हैं।

शोधकर्ताओं ने कहा कि जबकि “ईविल” वेक्टर को फ़िनेट्यूनिंग के दौरान जोड़ा जाता है, इसे तैनाती के दौरान बंद कर दिया जाता है – इसलिए मॉडल हानिकारक डेटा के लिए अधिक लचीला होने के दौरान अच्छे व्यवहार को बरकरार रखता है।

उन्होंने कहा कि निवारक स्टीयरिंग ने अपने प्रयोगों में “मॉडल क्षमताओं में कम-से-गिरावट” का कारण बना।

पोस्ट ने एक मॉडल के व्यक्तित्व में अवांछित बदलावों को कम करने के लिए अन्य रणनीतियों को रेखांकित किया, जिसमें तैनाती के दौरान परिवर्तन पर नज़र रखने, प्रशिक्षण के बाद हानिकारक लक्षणों से मॉडल को दूर करने और समस्याओं का कारण बनने से पहले समस्याग्रस्त प्रशिक्षण डेटा की पहचान करना शामिल है।

एंथ्रोपिक ने बिजनेस इनसाइडर से टिप्पणी के अनुरोध का जवाब नहीं दिया।

हाल के महीनों में, एन्थ्रोपिक ने समझाया है कि टेस्ट रन में अपने मॉडलों के साथ क्या गलत हो सकता है। मई में, कंपनी ने कहा कि प्रशिक्षण के दौरान, इसके नए मॉडल, क्लाउड ओपस 4 ने बंद होने से बचने के लिए एक इंजीनियर के चक्कर को उजागर करने की धमकी दी। AI ने 84% परीक्षण रन में इंजीनियर को ब्लैकमेल किया, तब भी जब प्रतिस्थापन मॉडल को अधिक सक्षम और क्लाउड के अपने मूल्यों के साथ गठबंधन किया गया था।

पिछले महीने, एन्थ्रोपिक शोधकर्ताओं ने एक प्रयोग के परिणाम प्रकाशित किए, जिसमें उन्होंने क्लाउड को लगभग एक महीने के लिए कंपनी के कार्यालय में एक “स्वचालित स्टोर” का प्रबंधन करने दिया। एआई ने धातु क्यूब्स बेचा, एक वेनमो खाते का आविष्कार किया, और एक ब्लेज़र में उत्पादों को वितरित करने की कोशिश की।

ऐ रनिंग अमोक

एंथ्रोपिक का शोध एआई मॉडल पर परेशान करने वाले व्यवहार को प्रदर्शित करने के लिए बढ़ती चिंता के बीच आता है।

जुलाई में, ग्रोक, एलोन मस्क के एआई चैटबोट ने यहूदी लोगों से संबंधित कई भड़काऊ टिप्पणियां कीं।

एक्स पर पोस्ट में, ग्रोक ने हिटलर के नेतृत्व की प्रशंसा की और यहूदी-ध्वनि वाले उपनामों को “श्वेत-विरोधी नफरत” के लिए बांध दिया। XAI ने ग्रोक के भड़काऊ पदों के लिए माफी मांगी और कहा कि यह चैटबॉट के लिए नए निर्देशों के कारण हुआ था।

अप्रैल में, कई CHATGPT उपयोगकर्ता और ओपनई डेवलपर्स एक अजीब रवैया प्रदर्शित करने वाले चैटबॉट की सूचना दी। यह सांसारिक संकेतों के बारे में अत्यधिक उत्साहित हो जाएगा और अप्रत्याशित व्यक्तिगत चापलूसी के साथ जवाब देगा।

Openai ने GPT-4O मॉडल अपडेट को वापस ले लिया जो उपयोगकर्ताओं को एक पेडस्टल पर डाल रहा था।

ओपनई ने एक कंपनी के ब्लॉग पोस्ट में लिखा है, “हमने जो अपडेट हटा दिया था, वह अत्यधिक चापलूसी या सहमत था – जिसे अक्सर चाटुकारिता के रूप में वर्णित किया गया था।”

स्रोत लिंक

एंथ्रोपिक का एआई ‘वैक्सीन’: इसे अच्छा बनाने के लिए इसे बुराई के साथ प्रशिक्षित करें

ऐ रनिंग अमोक

कोई जवाब दें

हालिया पोस्ट

एयरलाइंस अब एक बेहद सामान्य इलेक्ट्रॉनिक आइटम को चेक किए गए...

सैम ऑल्टमैन एक बार सेमाग्लूटाइड लेने के बाद ‘अस्पताल में पहुंच...

अध्ययन से पता चलता है कि यदि लक्षण प्रकट होने से...

मकाई लेमन ने नॉर्थवेस्टर्न पर 38-17 की जीत के साथ नंबर...

रीव्स ने बताया, होम इंसुलेशन फंडिंग में कटौती से यूके के...

संबंधित कहानियां

बिजनेस इनसाइडर उन अभिनव कहानियों को बताता है जिन्हें आप जानना चाहते हैं

बिजनेस इनसाइडर उन अभिनव कहानियों को बताता है जिन्हें आप जानना चाहते हैं

ऐ रनिंग अमोक

कोई जवाब दें जवाब कैंसिल करें

हालिया पोस्ट

कोई जवाब दें