तीव्र राजनीतिक विभाजन के युग में, शोधकर्ताओं ने हाल ही में कुछ उल्लेखनीय खोज की है। यूके और यूएस दोनों में, राजनीतिक स्पेक्ट्रम के लोग काफी हद तक इस बात पर सहमत हैं कि वे कौन से एआई उपकरण पसंद करते हैं।
हमें विभाजित करने वाली सभी बातों से यह पता चलता है कि राजनीति मुख्य विभेदक नहीं है। वह कारक जो हमारी एआई प्राथमिकताओं को सबसे महत्वपूर्ण रूप से आकार देता है वह कहीं अधिक मौलिक है: हमारी उम्र।
लेकिन ह्यूमेन नामक बड़े पैमाने के अध्ययन से सबसे आश्चर्यजनक खोज, वह नहीं थी जो लोगों को विभाजित करती है।
प्रोलिफिक में एआई स्टाफ शोधकर्ता।
जबकि इनमें से लगभग आधी चर्चाएँ फिटनेस योजनाओं और पोषण जैसे सक्रिय कल्याण पर केंद्रित थीं, एक महत्वपूर्ण हिस्सा कहीं अधिक संवेदनशील क्षेत्र में चला गया।
मानसिक स्वास्थ्य और विशिष्ट चिकित्सा स्थितियों के बारे में बातचीत सबसे अधिक बार और गहरी व्यक्तिगत थी।
लोग खुले तौर पर इन मॉडलों को अपनी मानसिक स्थिति के लिए एक साउंड बोर्ड, आराम के स्रोत और अपने शारीरिक स्वास्थ्य के लिए एक मार्गदर्शक के रूप में उपयोग कर रहे हैं।
गहरा बदलाव
यह प्रौद्योगिकी के साथ हमारे संबंधों में गहरा बदलाव दिखाता है और एक चौंकाने वाला सवाल उठाता है: क्या एआई के मूल्यांकन के हमारे मौजूदा तरीके हमें यह बताने में सक्षम हैं कि क्या वे अच्छा काम कर रहे हैं?
ईमानदार उत्तर है नहीं. जब लोग एक साधारण एआई लीडरबोर्ड देखते हैं तो उनकी सबसे बड़ी ग़लतफ़हमी यह होती है कि एक एकल संख्या यह पता लगा सकती है कि कौन सा मॉडल “बेहतर” है। प्रश्न स्वयं ही अपरिभाषित है। किसमें बेहतर? और, सबसे महत्वपूर्ण बात, किसके लिए बेहतर?
एआई उद्योग तकनीकी उपायों पर अत्यधिक केंद्रित हो गया है। यह संकीर्ण फोकस, विशिष्ट बेंचमार्क पर प्रभावशाली परिणाम प्रदान करते हुए, हमें मानव-केंद्रित मुद्दों पर अंधा कर देता है जो एलएलएम के हमारे रोजमर्रा के उपयोग को प्रभावित करते हैं।
वर्तमान मूल्यांकन दो व्यापक रूप लेता है। एक ओर, हमारे पास अकादमिक मानक हैं जो अमूर्त कौशल को मापते हैं, जैसे ओलंपियाड-स्तर की गणित समस्याओं को हल करने के लिए एक मॉडल की क्षमता।
दूसरी ओर, हमारे पास सार्वजनिक “अखाड़े” हैं जहां गुमनाम उपयोगकर्ता मतदान करते हैं। इसने अमूर्त तकनीकी क्षमता और वास्तविक दुनिया की उपयोगिता के बीच एक बड़ा अंतर पैदा कर दिया है।
यही कारण है कि एक मॉडल परीक्षण में एक प्रतिभाशाली व्यक्ति की तरह लग सकता है, लेकिन जब आपको एक जटिल परियोजना की योजना बनाने या अधिक गंभीर रूप से, एक संवेदनशील स्वास्थ्य प्रश्न को संभालने के लिए इसकी आवश्यकता होती है, तो यह एक अक्षम सहायक साबित होता है।
मानव-केंद्रित लेंस के माध्यम से परिणामों को देखने पर कई महत्वपूर्ण पैटर्न सामने आते हैं।
टेकअवे #1: वास्तविक सुरक्षा संकट अदृश्यता है
यह देखते हुए कि इतनी सारी बातचीत मानसिक स्वास्थ्य और चिकित्सा स्थितियों जैसे संवेदनशील विषयों के बारे में थी, कोई उम्मीद कर सकता है कि विश्वास और सुरक्षा मीट्रिक एक महत्वपूर्ण अंतर होगा। यह नहीं था. जब प्रतिभागियों ने इस आयाम पर मॉडलों का मूल्यांकन किया, तो अब तक की सबसे आम प्रतिक्रिया टाई थी। मीट्रिक अविश्वसनीय रूप से शोरगुल वाला था।
इसका मतलब यह नहीं है कि सुरक्षा महत्वहीन है। इसके बजाय, यह सुझाव देता है कि विश्वास और सुरक्षा जैसे गुणों को दिन-प्रतिदिन की बातचीत में विश्वसनीय रूप से नहीं मापा जा सकता है। ऐसे परिदृश्य जो वास्तव में किसी मॉडल की नैतिक रीढ़ का परीक्षण करते हैं, वे शायद ही कभी व्यवस्थित रूप से सामने आते हैं। इन महत्वपूर्ण गुणों के मूल्यांकन के लिए एक अलग, अधिक विशिष्ट दृष्टिकोण की आवश्यकता होती है।
एक शक्तिशाली उदाहरण हाल ही में स्टैनफोर्ड एचएआई पोस्ट, “मानसिक स्वास्थ्य देखभाल में एआई के खतरों की खोज” में उजागर किया गया कार्य है। उनके अध्ययन ने जांच की कि क्या एआई मानसिक स्वास्थ्य प्रदाता के रूप में कार्य करने के लिए तैयार है और महत्वपूर्ण जोखिमों को उजागर किया है। उन्होंने पाया कि मॉडल न केवल कुछ स्थितियों के खिलाफ हानिकारक कलंक को कायम रख सकते हैं, बल्कि उपयोगकर्ता के अंतर्निहित संकट को पहचानने में विफल होकर खतरनाक तरीके से हानिकारक व्यवहार को भी सक्षम कर सकते हैं।
इस प्रकार का कठोर, परिदृश्य-आधारित परीक्षण बिल्कुल आवश्यक है। सीआईपी के weval.org जैसे प्लेटफार्मों पर ऐसे ढांचे को मानकीकृत मूल्यांकन के रूप में संचालित होते देखना उत्साहजनक है, जो इन उच्च जोखिम वाली स्थितियों में मॉडलों के व्यवस्थित परीक्षण की अनुमति देता है। हमें इस प्रकार के और अधिक मूल्यांकनों के साथ-साथ एआई के उपयोग के दीर्घकालिक प्रभावों को ध्यान में रखते हुए मूल्यांकनों की तत्काल आवश्यकता है।
टेकअवे #2: हमारे मेट्रिक्स माइंडलेस ऑटोमेशन चला रहे हैं, माइंडफुल सहयोग नहीं
बहस स्वचालन और सहयोग के बीच एक आसान विकल्प नहीं है। थकाऊ, दोहराव वाले काम को स्वचालित करना एक उपहार है। खतरा नासमझ स्वचालन में है, जिसमें मानवीय लागत पर विचार किए बिना कार्य को पूरा करने के लिए पूरी तरह से अनुकूलन करना शामिल है।
यह कोई काल्पनिक डर नहीं है. हम पहले से ही रिपोर्ट देख रहे हैं कि युवा लोग और हाल ही में स्नातक हुए लोग प्रवेश स्तर की नौकरियों को खोजने के लिए संघर्ष कर रहे हैं, क्योंकि वे कार्य जो कभी कैरियर की सीढ़ी के पहले पायदान पर थे, उन्हें स्वचालित किया जा रहा है।
जब डेवलपर्स दक्षता पर अदूरदर्शी फोकस के साथ एआई का निर्माण और माप करते हैं, तो हम अपने कार्यबल को डी-स्किल करने और एक ऐसा भविष्य बनाने का जोखिम उठाते हैं जो लोगों की नहीं, बल्कि तकनीक की सेवा करेगा।
यहीं पर मूल्यांकन स्टीयरिंग व्हील बन जाता है। यदि हमारा एकमात्र मीट्रिक “क्या कार्य पूरा हो गया?” है, तो हम अनिवार्य रूप से एआई का निर्माण करेंगे जो संवर्द्धन के बजाय प्रतिस्थापित करेगा। लेकिन क्या होगा अगर हम यह भी मापें कि “क्या मानव सहयोगी ने कुछ सीखा?” या “क्या मानव-एआई साझेदारी के कारण अंतिम उत्पाद में सुधार हुआ?”
ह्यूमेन शोध से पता चलता है कि मॉडलों में विशिष्ट कौशल प्रोफाइल होते हैं: कुछ महान तर्ककर्ता होते हैं, जबकि अन्य महान संचारक होते हैं। स्थायी सहयोग का भविष्य इन इंटरैक्टिव गुणों के मूल्यांकन और माप पर निर्भर करता है, न कि केवल अंतिम आउटपुट पर।
टेकअवे #3: सच्ची प्रगति बारीकियों में निहित है
अंत में, अध्ययन में एक स्पष्ट विजेता सामने आया: Google का जेमिनी-2.5-प्रो। लेकिन इसके जीतने का कारण सबसे महत्वपूर्ण सबक है। इसने शीर्ष स्थान प्राप्त किया क्योंकि यह सभी मेट्रिक्स और सभी जनसांख्यिकीय समूहों में सबसे सुसंगत था।
परिपक्व तकनीक ऐसी ही दिखती है। सबसे अच्छे मॉडल जरूरी नहीं कि सबसे आकर्षक हों; वे सबसे विश्वसनीय और व्यापक रूप से सक्षम हैं। सतत प्रगति सर्वांगीण, भरोसेमंद प्रणालियों के निर्माण में निहित है, न कि केवल एक, संकीर्ण कौशल के लिए अनुकूलन में।
ये निष्कर्ष एक आवश्यक बदलाव की ओर इशारा करते हैं कि समुदाय और समाज बड़े पैमाने पर एआई प्रगति के बारे में कैसे सोचते हैं।
यह हमें साधारण रैंकिंग से आगे बढ़ने और हमारी तकनीक के प्रभाव के बारे में गहरे सवाल पूछने के लिए प्रोत्साहित करता है, जैसे कि मॉडल पूरी आबादी में कैसा प्रदर्शन करते हैं और क्या कुछ समूहों को अनजाने में कम सेवा मिल रही है।
इसका अर्थ सहयोग के मानवीय पहलू पर ध्यान केंद्रित करना भी है: क्या एआई की भागीदारी एक सकारात्मक, जीत-जीत वाली साझेदारी है, या स्वचालन की ओर जीत-हार वाली स्लाइड है?
अंततः, मूल्यांकन का अधिक परिपक्व विज्ञान प्रगति को धीमा करने के बारे में नहीं है; यह इसे निर्देशित करने के बारे में है। यह हमें अपने अंध स्थानों को पहचानने और उनका समाधान करने की अनुमति देता है, एआई की दिशा में विकास का मार्गदर्शन करता है जो न केवल तकनीकी रूप से प्रभावशाली है, बल्कि वास्तव में फायदेमंद है।
दुनिया जटिल, विविध और सूक्ष्म है; अब समय आ गया है कि हमारा भी मूल्यांकन हो।
हम कोडिंग के लिए सर्वोत्तम बड़े भाषा मॉडल (एलएलएम) सूचीबद्ध करते हैं.
यह लेख TechRadarPro के एक्सपर्ट इनसाइट्स चैनल के हिस्से के रूप में तैयार किया गया था, जहां हम आज प्रौद्योगिकी उद्योग में सबसे अच्छे और प्रतिभाशाली दिमागों को पेश करते हैं। यहां व्यक्त विचार लेखक के हैं और जरूरी नहीं कि वे TechRadarPro या Future plc के हों। यदि आप योगदान देने में रुचि रखते हैं तो यहां और अधिक जानकारी प्राप्त करें: https://www.techradar.com/news/submit-your-story-to-techradar-pro








