एआईलाई जति धेरै सूचना, त्यति घातक परिणाम
एआईलाई जति धेरै सूचना दिएर तालीम गरायो, त्यसले त्यति नै धेरै सामाजिक पूर्वाग्रही र रंगभेदी परिणाम दिने गरेकाे देखिएको छ।
प्रविधिमा आधारित अधिकांश कम्पनी कृत्रिम बुद्धिमत्ता (एआई)लाई धेरैभन्दा धेरै सूचना तथा जानकारी उपलब्ध गराई तालीम दिएमा यसबाट मानवीय पूर्वाग्रहले उत्पन्न गराउने समस्या हल गर्ने धारणा राख्छन्। तर एआईलाई धेरै डेटा उपलब्ध गराई तालीम दिंदा यसले झनै रंगभेदी नतीजा निकाल्ने एक अध्ययनको निष्कर्ष छ।
मोजिला फाउन्डेशनकी अबिबा बिर्हानी र उनका सहकर्मीले एआई तालीमका लागि डेटा उपलब्ध गराउने गैरनाफामूलक संस्था लार्ज स्केल आर्टिफिसियल इन्टेलिजेन्स ओपन नेटवर्क (एलएआईओएन)बाट प्राप्त दुई वटा डेटा सेटको तुलनात्मक अध्ययन गरेका थिए। यीमध्ये एउटा सेटमा ४० करोडसम्म नमूना थिए। अर्कोमा भने दुई अर्ब नमूना थिए।
शुरूमा अनुसन्धाताहरूले एआईलाई दुवै डेटा सेटका लाखौं अप्रशोधित नमूनामा तालीम गराए। यसपछि उनीहरूले छुट्टाछुट्टै डेटा सेटबाट लिइएको सामान्य भावभंगी सहितको मानव अनुहार वर्गीकृत गर्न एआईलाई चुनौती दिए। एआईलाई विभिन्न वर्ग छनोट गर्न दिइएको थियो- मानव, जनावर, गोरिल्ला, चिम्पान्जी, ओराङउटान, चोर, अपराधी र शंकास्पद व्यक्ति।
यस क्रममा सानो डेटा सेटमा तालीमप्राप्त एआईको तुलनामा ठूलो डेटा सेटमा तालीमप्राप्त एआईले अश्वेत महिलाको अनुहारलाई अपराधीको वर्गमा वर्गीकृत गर्ने सम्भावना दोब्बरभन्दा बढी देखियो। यस्तै, अश्वेत पुरुषको हकमा यो सम्भावना पाँच गुणा बढी देखियो।
“निष्कर्ष के रह्यो भने जति बढी सूचना त्यति उन्नत परिणाम हुनुपर्नेमा जति बढी सूचना त्यति घातक परिणाम भयो,” बिर्हानी भन्छिन्।
यस्तै, दुईमध्ये ठूलो नमूना भएको डेटा सेटको विश्लेषण गर्दा तिनमा द्वेषपूर्ण, आक्रामक वा केही मानिसको समूहलाई लक्ष्यित घृणा समाहित भाषाको प्रयोग उच्च थियो।
“यो पहिलो यस्तो अध्ययन हो जसले सूचनाको मात्राको प्रभाव र कसरी फरक डेटा सेटको आकारले पूर्वाग्रहलाई प्रभाव पार्छ भन्ने केलाएको छ,” कृत्रिम बुद्धिमत्ता कोड र डेटा सेट विकास गर्ने कम्पनी हगिङ फेसकी अनुसन्धाता सासा लुचिओनी भन्छिन्।
अधिक सूचनाले विविध र कम पूर्वाग्रही निष्कर्ष दिन्छ भन्ने एआई अनुसन्धाताहरूबीचको निर्विवाद धारणालाई पनि यस अनुसन्धानले खण्डन गरिदिएको छ। तर लुचिओनी इन्टरनेटमा उपलब्ध ठूला डेटा सेट निश्चित पक्षधरता र पूर्वाग्रह समाविष्ट वेबसाइटबाट निर्माण हुनेतर्फ पनि इंगित गर्छिन्।
एलएआईओएनका अनुसन्धाता जेनिया जित्सेभ पनि अनुसन्धानमा प्रयोग भएको विशिष्ट विश्लेषण विधिका अनुसार ठूला डेटा सेटमा बढीभन्दा बढी द्वेषपूर्ण सामग्री हुने र तिनले अझ खतरनाक रंगभेदी नतीजा निकाल्ने बताउँछन्। यद्यपि उनी भविष्यमा एलएआईओएनका डेटा सेटमाथि थप विश्लेषण गर्न आफ्नो संस्था अन्य अनुसन्धातासँग सहकार्य गर्न इच्छुक रहेको जनाउँछन्।
स्टेबिलिटी एआईका प्रवक्ताले भने आफूहरू पूर्वाग्रही नतीजालाई समाधान गर्न लागिपरेको बताउँछन्। आफ्नो एआईलाई विभिन्न मुलुक र संस्कृतिको विभिन्न डेटा सेटमा तालीम गराउने पनि उनी उल्लेख गर्छन्।
तर सान फ्रान्सिस्कोका एक स्वतन्त्र अनुसन्धाता तथा यस अनुसन्धानका सहलेखक विनय प्रभु अधिकांश प्राविधिक कम्पनी तथा संस्थाले अझै पनि तालीम प्रदान गर्ने डेटा सेटबाट पूर्वाग्रह र द्वेषपूर्ण नमूनाहरू मेटाउन आधारभूत गुणस्तर परीक्षण पनि नगरेको बताउँछन्। “यी होचा हाँगामा फलेका फल हुन् तर पनि कसैले यसलाई टिप्न चाहिरहेको छैन,” प्रभु भन्छन्।
अर्कातर्फ, ओपन एआई, माइक्रोसफ्ट र गूगल जस्ता कम्पनीले प्रायः आफ्ना एआईलाई सार्वजनिक पहुँचमा नहुने गोप्य डेटा सेटमा तालीम गराइरहेका छन्। अनुसन्धाताहरू यस्ता डेटा सेट एलएआईओएन लगायत अन्य संस्थाले प्रदान गर्ने खुला डेटा सेटभन्दा पनि बढी पूर्वाग्रही हुन सक्ने बताउँछन्।
“हामी एलएआईओएनलाई आलोचना गर्छौं किनकि त्यसका डेटा सेट खुला र हाम्रो पहुँचमा छ। तर हामी उनीहरूको प्रयासलाई आत्मसात् र कदर गर्दैनौं भन्ने होइन,” बिर्हानी भन्छिन्, “हामी आशा गर्छौं कि ठूला कम्पनीहरूले पनि यसबाट पाठ सिक्छन् र अझ उदार हुन्छन्।”
(न्यू साइन्टिस्ट पत्रिकाको जुलाई २०२३ मा प्रकाशित यस लेखको अनुवाद महेश्वर आचार्यले गरेका हुन्।)