होम व्यापार आश्चर्यजनक विचार यह है कि टोकन के रूप में शुद्ध टेक्स्ट के...

आश्चर्यजनक विचार यह है कि टोकन के रूप में शुद्ध टेक्स्ट के बजाय टेक्स्ट की दृश्य छवियों का उपयोग करने से जेनरेटर एआई बेहतर हो सकता है

5
0

आज के कॉलम में, मैं एक नवोन्मेषी विचार की जांच कर रहा हूं जो बड़ी चतुराई से जेनरेटिव एआई और बड़े भाषा मॉडल (एलएलएम) के पारंपरिक डिजाइन को उल्टा कर देता है। सीधे शब्दों में कहें तो, इस क्रूर धारणा पर विचार करें कि जेनेरिक एआई को शुद्ध पाठ प्राप्त करने के बजाय, पाठ को पहले छवियों के रूप में कैप्चर किया गया था, और फिर छवियों को एआई में फीड किया गया था।

क्या कहना?

एलएलएम की तकनीकी बुनियाद में पारंगत किसी भी व्यक्ति के लिए, यह पूरी तरह से अजीब और उल्टा लगता है। आप शायद पहले से ही जोर-जोर से चिल्ला रहे होंगे कि इसका कोई मतलब नहीं है। उसकी वजह यहाँ है। एलएलएम अंग्रेजी जैसी प्राकृतिक भाषाओं से निपटने के लिए डिज़ाइन किया गया है और इसलिए, पाठ का प्रचुर उपयोग करता है। टेक्स्ट वह तरीका है जिससे हम आम तौर पर संकेत इनपुट करते हैं और अपने प्रश्नों को एलएलएम में दर्ज करते हैं। वास्तविक पाठ के स्थान पर पाठ की छवियों का उपयोग करना एक पेचीदा अवधारणा बन गई है। निंदनीय.

अपनी टोपी थामे रखें क्योंकि कुछ ईमानदार शोधकर्ताओं ने इस दृष्टिकोण को आजमाया है, और इसमें पर्याप्त योग्यता है कि हमें कल्पना की उड़ान पर गंभीरता से समर्पित मेहनती ध्यान देना चाहिए।

चलो इसके बारे में बात करें।

एआई सफलताओं का यह विश्लेषण एआई में नवीनतम पर मेरे चल रहे फोर्ब्स कॉलम कवरेज का हिस्सा है, जिसमें विभिन्न प्रभावशाली एआई जटिलताओं की पहचान करना और समझाना शामिल है (यहां लिंक देखें)।

टोकनाइजेशन महत्वपूर्ण है

इस मामले के मूल में आधुनिक युग के जेनरेटर एआई और एलएलएम के टोकन पहलू शामिल हैं। मैंने यहां लिंक पर टोकनाइजेशन का विवरण शामिल किया है। मैं आपको गति प्रदान करने के लिए एक त्वरित अवलोकन प्रदान करूंगा।

जब आप एआई में टेक्स्ट दर्ज करते हैं, तो टेक्स्ट विभिन्न संख्याओं में परिवर्तित हो जाता है। फिर उन नंबरों को आपके प्रॉम्प्ट की शेष प्रक्रिया के दौरान निपटाया जाता है। एक बार जब एआई किसी उत्तर पर पहुंच जाता है, तो उत्तर वास्तव में एक संख्यात्मक प्रारूप में होता है और इसे वापस पाठ में परिवर्तित करने की आवश्यकता होती है, ताकि यह उपयोगकर्ता द्वारा पढ़ने योग्य हो। एआई संख्याओं को टेक्स्ट में परिवर्तित करता है और तदनुसार प्रतिक्रिया प्रदर्शित करता है।

उस पूरी प्रक्रिया को टोकनाइजेशन के नाम से जाना जाता है। आपके द्वारा दर्ज किया गया पाठ संख्याओं के एक सेट में एन्कोड किया गया है। संख्याओं को टोकन कहा जाता है। संख्याएं, या हम कहें तो टोकन, एआई के माध्यम से प्रवाहित होते हैं और आपके प्रश्नों के उत्तर जानने के लिए उपयोग किए जाते हैं। प्रतिक्रिया प्रारंभ में टोकन के संख्यात्मक प्रारूप में है और इसे वापस पाठ में डिकोड करने की आवश्यकता है।

सौभाग्य से, एक रोजमर्रा का उपयोगकर्ता टोकननाइजेशन प्रक्रिया से अनभिज्ञ है। इसके बारे में उन्हें जानने की कोई जरूरत नहीं है. यह विषय एआई डेवलपर्स के लिए गहरी रुचि का है, लेकिन आम जनता के लिए कम रुचि वाला है। टोकननाइजेशन प्रक्रिया को यथासंभव तेज़ बनाने के लिए अक्सर सभी प्रकार की संख्यात्मक चालबाजी का उपयोग किया जाता है ताकि एन्कोडिंग और डिकोडिंग के दौरान एआई को रोका न जा सके।

टोकन एक मुद्दा हैं

मैंने उल्लेख किया कि आम जनता आमतौर पर एलएलएम के टोकन पहलुओं के बारे में नहीं जानती है। हमेशा ऐसा नहीं होता. जिस किसी ने भी एआई को उसकी सीमा तक पहुंचाया है, वह संभवतः टोकन और टोकनाइजेशन के बारे में अस्पष्ट रूप से जागरूक है।

डील ये है.

अधिकांश समकालीन एलएलएम, जैसे ओपनएआई के चैटजीपीटी और जीपीटी-5, एंथ्रोपिक क्लाउड, मेटा लामा, गूगल जेमिनी, एक्सएआई ग्रोक और अन्य, टोकन की संख्या के कारण कुछ हद तक सीमित हैं जिन्हें वे एक समय में पर्याप्त रूप से संभाल सकते हैं। जब चैटजीपीटी पहली बार सामने आया, तो एक बातचीत में अनुमत टोकन की संख्या काफी सीमित थी।

आपको चैटजीपीटी द्वारा अचानक इस तथ्य का पता चल जाएगा और आप अपनी बातचीत के पहले के हिस्सों को याद नहीं कर पाएंगे। इसका कारण यह था कि एआई ने एक समय में कितने सक्रिय टोकन मौजूद हो सकते हैं, इस पर रोक लगा दी थी। आपकी बातचीत में पहले के संकेत सरसरी तौर पर फेंके जा रहे थे।

यदि आप कोई लंबी और जटिल बातचीत कर रहे थे, तो ये सीमाएँ परेशान करने वाली थीं और जेनेरिक एआई के किसी भी बड़े समय के उपयोग को काफी हद तक विवाद से बाहर कर देती थीं। आप अपेक्षाकृत छोटी बातचीत तक ही सीमित थे। यही समस्या तब उत्पन्न हुई जब आपने RAG जैसी विधि के माध्यम से पाठ आयात किया (यहां लिंक पर मेरी चर्चा देखें)। पाठ को टोकनाइज़ करना पड़ा और एक बार फिर एआई कितने सक्रिय टोकन संभाल सकता है इसकी सीमा के विरुद्ध गिना गया।

यह उन लोगों के लिए परेशान करने वाला था जो बड़े पैमाने पर समस्या-समाधान के लिए जेनेरिक एआई का उपयोग करने का सपना देखते थे।

सीमाएं ऊंची हैं लेकिन फिर भी मौजूद हैं

ChatGPT के शुरुआती संस्करणों में 10,000 से कम टोकन की सीमा थी जो किसी भी समय सक्रिय हो सकते थे। यदि आप एक टोकन को “द” या “डॉग” जैसे छोटे शब्द का प्रतिनिधित्व करने के रूप में सोचते हैं, तो इसका मतलब है कि जब आपकी बातचीत लगभग दस हजार सरल शब्दों का उपभोग कर लेती है तो आप मुश्किल में पड़ जाते हैं। यह उस समय किसी भी लंबे या जटिल उपयोग के लिए असहनीय था।

आजकल, GPT-5 के पारंपरिक संस्करण में लगभग 400,000 टोकन की टोकन संदर्भ विंडो होती है। इसे इनपुट टोकन और आउटपुट टोकन दोनों से जुड़ी कुल क्षमता को संयुक्त कुल माना जाता है। संदर्भ विंडो का आकार भिन्न हो सकता है. उदाहरण के लिए, क्लाउड के कुछ मॉडलों पर लगभग 200,000 टोकन की सीमा है, जबकि अन्य इसे लगभग 500,000 टोकन तक बढ़ाते हैं।

भविष्य का एक दूरदर्शी दृष्टिकोण यह है कि टोकन की अनुमत संख्या से जुड़ी कोई सीमा नहीं होगी। एआई में तथाकथित अनंत या अंतहीन मेमोरी पर अत्याधुनिक काम है जो किसी भी संख्या में टोकन को सक्षम कर सकता है। बेशक, व्यावहारिक अर्थ में, केवल इतनी ही सर्वर मेमोरी मौजूद हो सकती है; इस प्रकार, यह वास्तव में अनंत नहीं है, लेकिन दावा आकर्षक और उचित रूप से उचित है। एआई अनंत मेमोरी कैसे काम करती है, इसकी मेरी व्याख्या के लिए, यहां लिंक देखें।

टोकन समस्या से निपटना

क्योंकि अधिकांश एलएलएम को कैसे डिजाइन और उपयोग किया जाता है, इसके मूल में टोकनाइजेशन है, टोकनाइजेशन पहलुओं को आजमाने और अनुकूलित करने के लिए बहुत सारे प्रयास किए गए हैं। इसका उद्देश्य यदि संभव हो तो किसी तरह टोकन को छोटा करना है, जिससे सिस्टम में जो भी मेमोरी बाधाएं हैं, उनमें अधिक टोकन मौजूद रह सकें।

एआई डिजाइनरों ने बार-बार टोकन को संपीड़ित करने की मांग की है। ऐसा करने से बड़ी मदद मिल सकती है. जबकि एक टोकन विंडो परंपरागत रूप से 200,000 टोकन तक सीमित हो सकती है, यदि आप प्रत्येक टोकन को उसके सामान्य आकार के आधे में छोड़ सकते हैं, तो आप सीमा को दोगुना कर 400,000 टोकन तक कर सकते हैं। अच्छा।

टोकन के संपीड़न के साथ एक कठिन समस्या जुड़ी हुई है। अक्सर, हाँ, आप उन्हें आकार में छोटा कर सकते हैं, लेकिन जब आप ऐसा करते हैं तो सटीकता कम हो जाती है। यह बुरी बात है। यह इस अर्थ में बहुत बुरा नहीं हो सकता है कि वे अभी भी व्यावहारिक और उपयोगी हैं। यह सब इस बात पर निर्भर करता है कि कितनी परिशुद्धता का त्याग किया जाता है।

आदर्श रूप से, आप अधिकतम संभव संपीड़न चाहेंगे और ऐसा 100% परिशुद्धता बनाए रखते हुए करेंगे। यह एक ऊंचा लक्ष्य है. संभावना यह है कि आपको सटीक सटीकता के विरुद्ध संपीड़न स्तरों को तौलने की आवश्यकता होगी। जीवन में अधिकांश चीज़ों की तरह, दोपहर का भोजन कभी मुफ़्त नहीं मिलता।

आपको बेहद आश्चर्यचकित या प्रसन्न करना

मान लीजिए हमने खुद को दायरे से बाहर सोचने की इजाजत दी।

एलएलएम के साथ सामान्य दृष्टिकोण शुद्ध पाठ को स्वीकार करना, पाठ को टोकन में एन्कोड करना और अपने आनंदमय तरीके से आगे बढ़ना है। हम लगभग हमेशा तार्किक और स्वाभाविक रूप से यह मानकर टोकनाइजेशन के बारे में अपनी विचार प्रक्रिया शुरू करेंगे कि उपयोगकर्ता से इनपुट शुद्ध पाठ होगा। वे अपने कीबोर्ड के माध्यम से टेक्स्ट दर्ज करते हैं, और टेक्स्ट ही टोकन में परिवर्तित हो जाता है। यह एक सीधा दृष्टिकोण है.

विचार करें कि हम और क्या कर सकते हैं।

बाएँ क्षेत्र से बाहर प्रतीत होता है, मान लीजिए कि हमने पाठ को छवियों के रूप में माना है।

आप पहले से ही जानते हैं कि आप टेक्स्ट की तस्वीर ले सकते हैं और फिर उसे ऑप्टिकली स्कैन करके या तो एक छवि के रूप में रख सकते हैं या बाद में टेक्स्ट में परिवर्तित कर सकते हैं। यह प्रक्रिया एक लंबे समय से चली आ रही प्रथा है जिसे OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) के रूप में जाना जाता है। ओसीआर कंप्यूटर के शुरुआती दिनों से ही अस्तित्व में है।

सामान्य ओसीआर प्रक्रिया में छवियों को टेक्स्ट में परिवर्तित करना शामिल है और इसे इमेज-टू-टेक्स्ट कहा जाता है। कभी-कभी आप इसका उल्टा करना चाह सकते हैं, यानी, आपके पास टेक्स्ट है और आप टेक्स्ट को छवियों में बदलना चाहते हैं, जो टेक्स्ट-टू-इमेज प्रोसेसिंग है। ऐसे बहुत सारे मौजूदा सॉफ़्टवेयर एप्लिकेशन हैं जो छवि-से-पाठ और पाठ-से-छवि करने में प्रसन्न होंगे। यह पुरानी टोपी है.

यहां एलएलएम और टोकनाइजेशन के बारे में अनोखा विचार है।

हमारे पास अभी भी लोग टेक्स्ट दर्ज करते हैं, लेकिन हम उस टेक्स्ट को लेते हैं और उसे एक छवि (यानी, टेक्स्ट-टू-इमेज) में परिवर्तित करते हैं। इसके बाद, टेक्स्ट की छवि का उपयोग टोकन एनकोडर द्वारा किया जाता है। इस प्रकार, शुद्ध पाठ को एन्कोड करने के बजाय, एनकोडर पाठ की छवियों के आधार पर एन्कोडिंग कर रहा है। जब एआई उपयोगकर्ता को प्रतिक्रिया देने के लिए तैयार होता है, तो छवि-से-पाठ रूपांतरणों का उपयोग करके टोकन को पाठ में परिवर्तित कर दिया जाएगा।
बूम, माइक गिराओ।

आश्चर्य का बोध कराना

वाह, आप शायद कह रहे होंगे कि छवियों के साथ खिलवाड़ करने से क्या लाभ होगा?

यदि छवि-से-टोकन रूपांतरण हमें छोटे टोकन की ओर ले जा सकते हैं, तो हम टोकन को संपीड़ित करने में सक्षम हो सकते हैं। बदले में, इसका मतलब है कि हम संभावित रूप से सीमित मेमोरी की सीमा के भीतर अधिक टोकन रख सकते हैं। याद रखें कि टोकन का संपीड़न पूरी तरह से हमारे दिमाग में है।

हाओरन वेई, याओफेंग सन, युकुन ली द्वारा हाल ही में पोस्ट किए गए एक अध्ययन में जिसका शीर्षक है “डीपसीक-ओसीआर: कॉन्टेक्स्ट ऑप्टिकल कंप्रेशन”। arXivअक्टूबर 21, 2025, शोध पत्र में ये दावे किए गए (अंश):

  • “दस्तावेज़ पाठ वाली एक एकल छवि समतुल्य डिजिटल पाठ की तुलना में काफी कम टोकन का उपयोग करके समृद्ध जानकारी का प्रतिनिधित्व कर सकती है, यह सुझाव देती है कि दृष्टि टोकन के माध्यम से ऑप्टिकल संपीड़न बहुत अधिक संपीड़न अनुपात प्राप्त कर सकता है।”
  • “यह अंतर्दृष्टि हमें एलएलएम-केंद्रित परिप्रेक्ष्य से दृष्टि-भाषा मॉडल (वीएलएम) की पुन: जांच करने के लिए प्रेरित करती है, इस पर ध्यान केंद्रित करते हुए कि कैसे दृष्टि एनकोडर बुनियादी वीक्यूए के बजाय पाठ्य सूचना को संसाधित करने में एलएलएम की दक्षता को बढ़ा सकते हैं, जिसमें मनुष्य उत्कृष्टता प्राप्त करते हैं।”
  • “ओसीआर कार्य, दृष्टि और भाषा को जोड़ने वाली एक मध्यवर्ती पद्धति के रूप में, इस दृष्टि-पाठ संपीड़न प्रतिमान के लिए एक आदर्श परीक्षण प्रदान करते हैं, क्योंकि वे मात्रात्मक मूल्यांकन मेट्रिक्स की पेशकश करते हुए दृश्य और पाठ्य प्रतिनिधित्व के बीच एक प्राकृतिक संपीड़न-डीकंप्रेसन मैपिंग स्थापित करते हैं।”
  • “हमारी विधि 9-10x टेक्स्ट संपीड़न पर 96%+ ओसीआर डिकोडिंग परिशुद्धता प्राप्त करती है, 10-12x संपीड़न पर ∼90%, और विभिन्न दस्तावेज़ लेआउट की विशेषता वाले फॉक्स बेंचमार्क पर 20x संपीड़न पर ∼60% प्राप्त करती है (आउटपुट और जमीनी सच्चाई के बीच स्वरूपण अंतर के लिए लेखांकन करते समय वास्तविक सटीकता और भी अधिक होती है)।”

जैसा कि ऊपर उल्लेख किया गया है, प्रायोगिक कार्य से यह पता चलता है कि 10x छोटा संपीड़न अनुपात कभी-कभी 96% परिशुद्धता के साथ प्राप्त किया जा सकता है। यदि ऐसा पूरे बोर्ड में किया जा सकता है, तो इसका मतलब यह होगा कि, जबकि आज टोकन विंडो की सीमा 400,000 टोकन हो सकती है, सीमा को 96% सटीक दर पर, 4,000,000 टोकन तक बढ़ाया जा सकता है।

96% पर सटीकता सहनीय या असहनीय हो सकती है, यह इस बात पर निर्भर करता है कि एआई का उपयोग किस लिए किया जा रहा है। आपको कम से कम अब तक मुफ़्त दोपहर का भोजन नहीं मिल सकता है। 20x की संपीड़न दर और भी बेहतर होगी, हालाँकि 60% पर परिशुद्धता काफी अनाकर्षक प्रतीत होगी। फिर भी, ऐसी परिस्थितियाँ हो सकती हैं जिनमें कोई 20x वृद्धि के लिए 60% को अनिच्छा से स्वीकार कर सकता है।

प्रसिद्ध एआई विशेषज्ञ आंद्रेज करपैथी ने समग्र रूप से इस दृष्टिकोण के बारे में अपने प्रारंभिक विचार ऑनलाइन पोस्ट किए: “मुझे नया डीपसीक-ओसीआर पेपर काफी पसंद है। यह एक अच्छा ओसीआर मॉडल है (शायद डॉट्स से थोड़ा खराब), और हाँ डेटा संग्रह आदि, लेकिन वैसे भी इससे कोई फर्क नहीं पड़ता। मेरे लिए अधिक दिलचस्प हिस्सा (विशेष रूप से दिल में एक कंप्यूटर विज़न के रूप में जो अस्थायी रूप से एक प्राकृतिक भाषा व्यक्ति के रूप में प्रच्छन्न है) यह है कि क्या पिक्सल टेक्स्ट की तुलना में एलएलएम में बेहतर इनपुट हैं। क्या टेक्स्ट टोकन बेकार हैं और इनपुट पर बिल्कुल भयानक। शायद यह अधिक समझ में आता है कि एलएलएम के सभी इनपुट हमेशा केवल छवियां होनी चाहिए। (स्रोत: ट्विटर/एक्स, 20 अक्टूबर, 2025)।

विचार-मंथन उपयोगी है

शोध अध्ययन में कई प्राकृतिक भाषाओं का उपयोग करने का भी प्रयास किया गया। यह शुद्ध पाठ के बजाय छवियों का उपयोग करने का एक और मूल्य है। जैसा कि आप जानते हैं, ऐसी प्राकृतिक भाषाएँ हैं जो चित्रात्मक पात्रों और शब्दों का उपयोग करती हैं। वे भाषाएँ टोकननाइजेशन की छवि-आधारित पद्धति के लिए विशेष रूप से उपयुक्त प्रतीत होंगी।

एक और दिलचस्प पहलू यह है कि हमारे पास पहले से ही वीएलएम हैं, जिसमें एआई शामिल है जो पाठ (यानी, दृश्य भाषा मॉडल) के बजाय दृश्य छवियों से संबंधित है। जब एलएलएम के साथ भी ऐसा ही करने की बात आती है तो हमें पहिये को फिर से आविष्कार करने की ज़रूरत नहीं है। बस जो वीएलएम के साथ काम करता है उसे उधार लें और एलएलएम में उपयोग के लिए पुनः समायोजित करें। यह संपूर्ण नोगिन का उपयोग कर रहा है और जब संभव हो तो पुन: उपयोग का लाभ उठा रहा है।

यह विचार स्वीकारोक्ति और अतिरिक्त गहनता के योग्य है। मैं इधर-उधर जाने और तुरंत यह घोषणा करने का सुझाव नहीं दूंगा कि सभी एलएलएम को इस तरह की पद्धति पर स्विच करने की आवश्यकता है। जूरी अभी भी बाहर है। हमें इसके फायदे और नुकसान दोनों को समझने के साथ-साथ यह देखने के लिए और अधिक शोध की आवश्यकता है कि यह कहां तक ​​जाता है।

इस बीच, मुझे लगता है कि हम कम से कम यह साहसिक घोषणा कर सकते हैं: “कभी-कभी, एक तस्वीर वास्तव में हजारों शब्दों के बराबर होती है।”

स्रोत लिंक

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें