होम तकनीकी एक प्रमुख एआई प्रशिक्षण डेटा सेट में व्यक्तिगत डेटा के लाखों उदाहरण...

एक प्रमुख एआई प्रशिक्षण डेटा सेट में व्यक्तिगत डेटा के लाखों उदाहरण शामिल हैं

1
0

लब्बोलुआब यह कहते हैं कि कार्नेगी मेलन विश्वविद्यालय में एआई एथिक्स में पोस्टडॉक्टोरल फेलो विलियम एगनेव और कॉउथर्स में से एक, यह है कि “आप जो कुछ भी ऑनलाइन डालते हैं (हो) और शायद स्क्रैप किया गया है।”

शोधकर्ताओं ने हजारों लोगों को पाया मान्य पहचान दस्तावेजों के उदाहरण- क्रेडिट कार्ड, ड्राइवर के लाइसेंस, पासपोर्ट, और जन्म प्रमाण पत्रों की छवियों के साथ -साथ 800 से अधिक मान्य नौकरी आवेदन दस्तावेजों (रिज्यूम और कवर पत्र सहित) की छवियां, जो वास्तविक लोगों के साथ जुड़े होने के रूप में लिंक्डइन और अन्य वेब खोजों के माध्यम से पुष्टि की गई थीं। (कई और मामलों में, शोधकर्ताओं के पास दस्तावेजों को मान्य करने का समय नहीं था या छवि स्पष्टता जैसे मुद्दों के कारण असमर्थ थे।)

रिज्यूम की एक संख्या ने विकलांगता की स्थिति, पृष्ठभूमि की जांच के परिणाम, जन्म की तारीखों और आश्रितों के जन्मस्थानों, और नस्ल सहित संवेदनशील जानकारी का खुलासा किया। जब रिज्यूम को ऑनलाइन प्रेजेंस वाले लोगों से जोड़ा गया था, तो शोधकर्ताओं ने संपर्क जानकारी, सरकारी पहचानकर्ता, समाजशास्त्रीय जानकारी, चेहरे की तस्वीरों, घर के पते और अन्य लोगों की संपर्क जानकारी (जैसे संदर्भ) भी मिलीं।

कॉमनपूल के छोटे पैमाने के डेटासेट में पाए जाने वाले पहचान से संबंधित दस्तावेजों के उदाहरण, क्रेडिट कार्ड, सामाजिक सुरक्षा नंबर और ड्राइवर का लाइसेंस दिखाते हैं। प्रत्येक नमूने के लिए, URL साइट का प्रकार शीर्ष पर दिखाया गया है, बीच में छवि और नीचे दिए गए उद्धरणों में कैप्शन। सभी व्यक्तिगत जानकारी को बदल दिया गया है, और प्रत्यक्ष उद्धरणों से बचने के लिए पाठ को पैराफ्रैस किया गया है। व्यक्तियों की पहचान किए बिना चेहरों की उपस्थिति को दिखाने के लिए छवियों को फिर से बनाया गया है।

शोधकर्ताओं के सौजन्य से

जब इसे 2023 में जारी किया गया था, तो अपने 12.8 बिलियन डेटा नमूनों के साथ, Datacomp Commonpool, सार्वजनिक रूप से उपलब्ध छवि-पाठ जोड़े का सबसे बड़ा मौजूदा डेटा सेट था, जो अक्सर जनरेटिव टेक्स्ट-टू-इमेज मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता है। जबकि इसके क्यूरेटर ने कहा कि कॉमनपूल शैक्षणिक अनुसंधान के लिए अभिप्रेत था, इसका लाइसेंस व्यावसायिक उपयोग पर भी प्रतिबंध नहीं लगाता है।

कॉमनपूल को LAION-5B डेटा सेट के अनुवर्ती के रूप में बनाया गया था, जिसका उपयोग स्थिर प्रसार और midjourney सहित मॉडल को प्रशिक्षित करने के लिए किया गया था। यह एक ही डेटा स्रोत पर आकर्षित होता है: 2014 और 2022 के बीच गैर -लाभकारी सामान्य क्रॉल द्वारा किया गया वेब स्क्रैपिंग।

जबकि वाणिज्यिक मॉडल अक्सर यह नहीं बताते हैं कि वे किस डेटा सेट पर प्रशिक्षित हैं, DataComp CommonPool और Laion-5B के साझा डेटा स्रोतों का मतलब है कि डेटासेट समान हैं, और यह कि व्यक्तिगत रूप से पहचान योग्य जानकारी की संभावना Laion-5b में दिखाई देती है, साथ ही साथ कॉमनपूल डेटा पर प्रशिक्षित अन्य डाउनस्ट्रीम मॉडल में भी। कॉमनपूल शोधकर्ताओं ने ईमेल किए गए प्रश्नों का जवाब नहीं दिया।

और चूंकि DataComp CommonPool को पिछले दो वर्षों में 2 मिलियन से अधिक बार डाउनलोड किया गया है, इसलिए यह संभावना है कि “कई डाउनस्ट्रीम मॉडल हैं जो सभी इस सटीक डेटा सेट पर प्रशिक्षित हैं,” राहेल हांग, वाशिंगटन विश्वविद्यालय में कंप्यूटर विज्ञान में एक पीएचडी छात्र और पेपर के प्रमुख लेखक। वे समान गोपनीयता जोखिमों की नकल करेंगे।

अच्छे इरादे पर्याप्त नहीं हैं

“आप मान सकते हैं कि किसी भी बड़े पैमाने पर वेब-स्क्रैप किए गए डेटा में हमेशा ऐसी सामग्री होती है जो वहां नहीं होनी चाहिए,” एक संज्ञानात्मक वैज्ञानिक और तकनीकी नैतिकतावादी अबेबा बिरहेन कहते हैं, जो ट्रिनिटी कॉलेज डबलिन के एआई जवाबदेही लैब का नेतृत्व करता है-चाहे वह व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई), बाल यौन शोषण कल्पना, या हेट-हेट स्पीच (जो कि बिरन -5 बी में है।

स्रोत लिंक

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें