होम तकनीकी प्रशिक्षण के दौरान एलएलएम को बुराई करने के लिए मजबूर करना उन्हें...

प्रशिक्षण के दौरान एलएलएम को बुराई करने के लिए मजबूर करना उन्हें लंबे समय में अच्छा बना सकता है

5
0

इस अध्ययन के लिए, लिंडसे और उनके सहयोगियों ने उस ग्राउंडवर्क में से कुछ को बिछाने का काम किया। पिछले शोध से पता चला है कि एलएलएमएस के व्यवहार के विभिन्न आयाम- क्या वे शादियों के बारे में बात कर रहे हैं जैसे कि चाटुकारिता जैसे कि चाटुकारिता – सिम्युलेटेड न्यूरॉन्स में गतिविधि के विशिष्ट पैटर्न से जुड़े हैं जो एलएलएम का गठन करते हैं। उन पैटर्न को संख्याओं के एक लंबे स्ट्रिंग के रूप में लिखा जा सकता है, जिसमें प्रत्येक संख्या यह दर्शाती है कि एक विशिष्ट न्यूरॉन कितना सक्रिय होता है जब मॉडल उस व्यवहार को व्यक्त कर रहा होता है।

यहां, शोधकर्ताओं ने चाटुकार, “बुराई”, और मतिभ्रम व्यक्तित्व पर ध्यान केंद्रित किया – तीन प्रकार जो एलएलएम डिजाइनर अपने मॉडल में बचना चाहते हैं। उन पैटर्न की पहचान करने के लिए, टीम ने एक पूरी तरह से स्वचालित पाइपलाइन तैयार की जो उस पैटर्न को मैप कर सकती है जो एक व्यक्तित्व का एक संक्षिप्त पाठ विवरण दिया गया है। उस विवरण का उपयोग करते हुए, एक अलग एलएलएम संकेत उत्पन्न करता है जो लक्ष्य व्यक्तित्व -कहो, बुराई – और एक विपरीत व्यक्तित्व – दोनों को प्राप्त कर सकता है। उस अलग एलएलएम का उपयोग यह मूल्यांकन करने के लिए भी किया जाता है कि क्या अध्ययन किया जा रहा मॉडल अच्छे या दुष्ट व्यक्तित्व के अनुसार व्यवहार कर रहा है। बुराई गतिविधि पैटर्न की पहचान करने के लिए, शोधकर्ताओं ने मॉडल की औसत गतिविधि को अच्छे मोड में अपनी औसत गतिविधि से दुष्ट मोड में घटा दिया।

जब, बाद के परीक्षण में, एलएलएम ने विशेष रूप से चाटुकार, बुराई, या मतिभ्रम प्रतिक्रियाएं उत्पन्न कीं, तो वही गतिविधि पैटर्न उभरने के लिए। यह एक संकेत है कि शोधकर्ता अंततः उन पैटर्न को ट्रैक करने और उपयोगकर्ताओं को सतर्क करने के लिए एक प्रणाली का निर्माण कर सकते हैं जब उनके एलएलएम उनके लिए चूस रहे हैं या मतिभ्रम कर रहे हैं, लिंडसे कहते हैं। “मुझे लगता है कि ऐसा कुछ वास्तव में मूल्यवान होगा,” वे कहते हैं। “और यह उस तरह का है जहाँ मैं पाने की उम्मीद कर रहा हूँ।”

बस उन व्यक्तियों का पता लगाना पर्याप्त नहीं है, हालांकि। शोधकर्ता उन्हें पहले स्थान पर उभरने से रोकना चाहते हैं। लेकिन अस्वाभाविक एलएलएम व्यवहार को रोकना कठिन है। कई एलएलएम मानव प्रतिक्रिया से सीखते हैं, जो उन्हें उपयोगकर्ता वरीयता के अनुरूप व्यवहार करने के लिए प्रशिक्षित करता है – लेकिन उन्हें अत्यधिक रूप से बाद में बनने के लिए धक्का भी दे सकता है। और हाल ही में, शोधकर्ताओं ने “इमर्जेंट मिसलिग्न्मेंट” नामक एक घटना का दस्तावेजीकरण किया है, जिसमें गणित की समस्याओं या बग्गी कोड के अर्क के लिए गलत समाधानों पर प्रशिक्षित मॉडल किसी भी तरह से उपयोगकर्ता प्रश्नों की एक विस्तृत श्रृंखला के लिए अनैतिक प्रतिक्रियाओं का उत्पादन करना भी सीखते हैं।

अन्य शोधकर्ताओं ने “स्टीयरिंग” नामक एक दृष्टिकोण का परीक्षण किया है, जिसमें एलएलएम के भीतर गतिविधि पैटर्न को जानबूझकर उत्तेजित किया जाता है या इसी व्यवहार को रोकने या रोकने के लिए दबा दिया जाता है। लेकिन उस दृष्टिकोण में कुछ महत्वपूर्ण डाउनसाइड हैं। बुरी प्रवृत्ति जैसे अवांछनीय लक्षणों को दबाने से भी स्पष्ट रूप से असंबंधित कार्यों पर एलएलएम प्रदर्शन को बिगाड़ सकता है। और स्टीयरिंग एलएलएमएस बोस्टन विश्वविद्यालय में कंप्यूटर विज्ञान के सहायक प्रोफेसर आरोन मुलर के अनुसार, अतिरिक्त ऊर्जा और कम्प्यूटेशनल संसाधनों का उपभोग करता है, जो अध्ययन में शामिल नहीं थे। यदि एक स्टीयर किए गए एलएलएम को सैकड़ों हजारों उपयोगकर्ताओं के पैमाने पर तैनात किया गया था, तो उन स्टीयरिंग लागतों में वृद्धि होगी।

इसलिए एन्थ्रोपिक टीम ने एक अलग दृष्टिकोण के साथ प्रयोग किया। मोड़ने के बजाय बंद प्रशिक्षण के बाद बुराई या चाटुकारिता गतिविधि पैटर्न, उन्होंने उन्हें बदल दिया पर प्रशिक्षण के दौरान। जब उन्होंने उन मॉडलों को गलती से ग्रस्त डेटा सेट पर प्रशिक्षित किया जो सामान्य रूप से बुरे व्यवहार को उछालेंगे, तो वे इसके बजाय हमेशा की तरह सहायक और हानिरहित रहे।

स्रोत लिंक

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें