होम तकनीकी एआई टेक्स्ट-टू-स्पीच प्रोग्राम कुछ लोगों की नकल करने के लिए “अनजान” हो...

एआई टेक्स्ट-टू-स्पीच प्रोग्राम कुछ लोगों की नकल करने के लिए “अनजान” हो सकते हैं

3
0

एआई कंपनियां आम तौर पर दुरुपयोग को हतोत्साहित करने के लिए अपने मॉडलों पर एक तंग पकड़ रखती हैं। उदाहरण के लिए, यदि आप CHATGPT से किसी के फोन नंबर या कुछ अवैध करने के लिए निर्देश देने के लिए कहते हैं, तो यह संभवतः आपको बताएगा कि यह मदद नहीं कर सकता है। हालांकि, समय के साथ कई उदाहरणों में दिखाया गया है, चतुर शीघ्र इंजीनियरिंग या मॉडल फाइन-ट्यूनिंग कभी-कभी इन मॉडलों को उन चीजों को कहने के लिए प्राप्त कर सकते हैं जो वे अन्यथा नहीं करेंगे। अवांछित जानकारी अभी भी मॉडल के अंदर कहीं छिपी हो सकती है ताकि इसे सही तकनीकों के साथ एक्सेस किया जा सके।

वर्तमान में, कंपनियां रेलिंग को लागू करके इस मुद्दे से निपटती हैं; विचार यह जांचने के लिए है कि क्या संकेत या एआई की प्रतिक्रियाओं में अस्वीकृत सामग्री है। इसके बजाय मशीन अनलेरिंग पूछती है कि क्या एआई को जानकारी के एक टुकड़े को भूलने के लिए बनाया जा सकता है जिसे कंपनी यह नहीं जानना चाहती है। तकनीक एक टपका हुआ मॉडल और विशिष्ट प्रशिक्षण डेटा को फिर से तैयार करने के लिए लेती है और उन्हें एक नया मॉडल बनाने के लिए उपयोग करती है – अनिवार्य रूप से, मूल का एक संस्करण जिसने कभी भी डेटा के उस टुकड़े को नहीं सीखा। जबकि मशीन अनलेरिंग का एआई रिसर्च में पुरानी तकनीकों से संबंध है, यह केवल पिछले कुछ वर्षों में है कि इसे बड़े भाषा मॉडल पर लागू किया गया है।

Sungkyunkwan विश्वविद्यालय में एक मास्टर के छात्र जिनजू किम, जिन्होंने KO और अन्य के साथ कागज पर काम किया था, लोगों को खराब डेटा के आसपास बाड़ के रूप में देखता है, जो लोगों को इससे दूर रखने के लिए रखा गया है। “आप बाड़ के माध्यम से नहीं मिल सकते हैं, लेकिन कुछ लोग अभी भी बाड़ के नीचे या बाड़ के नीचे जाने की कोशिश करेंगे,” किम कहते हैं। लेकिन वह कहती है, वह कहती है, खराब डेटा को पूरी तरह से हटाने का प्रयास करती है, इसलिए बाड़ के पीछे कुछ भी नहीं है।

जिस तरह से वर्तमान टेक्स्ट-टू-स्पीच सिस्टम डिज़ाइन किए गए हैं, वह इसे थोड़ा और अधिक जटिल बनाता है। ये तथाकथित “शून्य-शॉट” मॉडल किसी भी आवाज को फिर से बनाने के लिए लोगों के भाषण के उदाहरणों का उपयोग करते हैं, जिसमें प्रशिक्षण सेट में नहीं-पर्याप्त डेटा के साथ, यह एक अच्छा नकल हो सकता है जब किसी की आवाज के एक छोटे से नमूने के साथ आपूर्ति की जाती है। इसलिए “अनलिसिंग” का अर्थ है कि एक मॉडल को न केवल “भूल” आवाज़ों को प्रशिक्षित करने की आवश्यकता है, बल्कि यह भी सीखना होगा कि यह उन विशिष्ट आवाज़ों की नकल नहीं करना है जिन्हें यह प्रशिक्षित नहीं किया गया था। सभी समय, यह अभी भी अन्य आवाज़ों के लिए अच्छा प्रदर्शन करने की आवश्यकता है।

उन परिणामों को कैसे प्राप्त करें, यह प्रदर्शित करने के लिए, किम ने मेटा से एक भाषण पीढ़ी मॉडल वॉयसबॉक्स का एक मनोरंजन सिखाया, कि जब यह एक आवाज में से एक में एक पाठ के नमूने का उत्पादन करने के लिए प्रेरित किया गया था, तो इसे एक यादृच्छिक आवाज के साथ जवाब देना चाहिए। इन आवाज़ों को यथार्थवादी बनाने के लिए, मॉडल अपने स्वयं के निर्माण की यादृच्छिक आवाज़ों का उपयोग करके “सिखाता है”।

टीम के परिणामों के अनुसार, जो मशीन लर्निंग पर अंतर्राष्ट्रीय सम्मेलन में इस सप्ताह प्रस्तुत किए जाने हैं, मॉडल को एक आवाज की नकल करने के लिए प्रेरित करते हैं, जिसमें “अनसुनी हो गई है” एक परिणाम देता है, जो कि अत्याधुनिक उपकरणों को मापता है, जो आवाज की समानता को मापता है-पहले की तुलना में 75% से कम प्रभावी रूप से भूल जाने वाली आवाज को कम करता है। व्यवहार में, यह नई आवाज को अस्वाभाविक रूप से अलग बनाता है। लेकिन भूलने की बीमारी एक लागत पर आती है: मॉडल अनुमत आवाज़ों की नकल करने में लगभग 2.8% बदतर है। हालांकि इन प्रतिशतों की व्याख्या करना थोड़ा कठिन है, शोधकर्ताओं द्वारा जारी किए गए डेमो ने बहुत ही ठोस परिणाम प्रदान किए हैं, दोनों के लिए कि कितनी अच्छी तरह से रिडक्ट किए गए वक्ताओं को भुला दिया जाता है और बाकी लोगों को कितनी अच्छी तरह से याद किया जाता है। डेमो से एक नमूना नीचे दिया गया है।

को का कहना है कि अनलिसिंग प्रक्रिया में “कई दिन” लग सकते हैं, यह इस बात पर निर्भर करता है कि शोधकर्ता कितने वक्ताओं को चाहते हैं कि मॉडल भूल जाए। उनकी विधि को प्रत्येक वक्ता के लिए लगभग पांच मिनट लंबे ऑडियो क्लिप की आवश्यकता होती है, जिसकी आवाज को भूल जाना है।

मशीन अनलिसिंग में, डेटा के टुकड़ों को अक्सर यादृच्छिकता के साथ बदल दिया जाता है ताकि वे मूल में वापस रिवर्स-इंजीनियर नहीं किया जा सके। इस पत्र में, भूल गए वक्ताओं के लिए यादृच्छिकता बहुत अधिक है – एक संकेत, लेखकों का दावा है, कि वे वास्तव में मॉडल द्वारा भूल गए हैं।

“मैंने लोगों को अन्य संदर्भों में यादृच्छिकता के लिए अनुकूलन करते देखा है,” चैपल हिल में उत्तरी कैरोलिना विश्वविद्यालय में एक पीएचडी छात्र वैदि पाटिल कहते हैं, जो मशीन के अनलिंग पर शोध करता है। “यह उन पहले कामों में से एक है जिन्हें मैंने भाषण के लिए देखा है।” पाटिल सम्मेलन के साथ संबद्ध कार्यशाला को अनलिसिटिंग वर्कशॉप का आयोजन कर रहा है, और वॉयस अनलेरिंग रिसर्च भी प्रस्तुत किया जाएगा।

स्रोत लिंक

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें