Technology: इतने स्मार्ट इमेज जनरेट करने बाद भी AI में है काफी कमियां, आइए कुछ कमियों पर डालें नजर

डीएन ब्यूरो

मिडजर्नी, स्टेबल डिफ्यूजन और डीएएलएल-ई 2 जैसे जेनरेटिव एआई टूल्स ने कुछ ही सेकंड में उल्लेखनीय छवियां बनाने की अपनी क्षमता से हमें आश्चर्यचकित कर दिया है। पढ़िये पूरी खबर डाइनामाइट न्यूज़ पर

फाइल फोटो
फाइल फोटो


कैनबरा: मिडजर्नी, स्टेबल डिफ्यूजन और डीएएलएल-ई 2 जैसे जेनरेटिव एआई टूल्स ने कुछ ही सेकंड में उल्लेखनीय छवियां बनाने की अपनी क्षमता से हमें आश्चर्यचकित कर दिया है।

हालाँकि, उनकी उपलब्धियों के बावजूद, एआई छवि जनरेटर क्या उत्पादन कर सकते हैं और हम क्या कर सकते हैं, के बीच एक अजीब असमानता बनी हुई है।

उदाहरण के लिए, ये उपकरण अक्सर वस्तुओं की गिनती और सटीक पाठ तैयार करने जैसे सरल दिखने वाले कार्यों के लिए संतोषजनक परिणाम नहीं देते हैं।

यदि जनरेटिव एआई रचनात्मक अभिव्यक्ति में इतनी अभूतपूर्व ऊंचाइयों तक पहुंच गया है, तो इसे उन कार्यों के साथ संघर्ष क्यों करना पड़ता है जिन्हें एक प्राथमिक विद्यालय का छात्र भी अच्छे से कर सकता है?

अंतर्निहित कारणों की खोज से एआई की जटिल संख्यात्मक प्रकृति और इसकी क्षमताओं की बारीकियों पर प्रकाश डालने में मदद मिलती है।

लेखन में एआई की सीमाएँ

मनुष्य विभिन्न फ़ॉन्ट और लिखावट में लिखे गए पाठ प्रतीकों (जैसे अक्षर, संख्या और चिन्हों) को आसानी से पहचान सकते हैं। हम विभिन्न संदर्भों में भी पाठ तैयार कर सकते हैं, और समझ सकते हैं कि संदर्भ कैसे अर्थ बदल सकता है।

वर्तमान एआई छवि जनरेटर में इस अंतर्निहित समझ का अभाव है। उन्हें इस बात की कोई सच्ची समझ नहीं है कि किसी पाठ प्रतीक का क्या मतलब है।

यह भी पढ़ें | टेक्नोलॉजी की मदद से अब और मजबूत होगी जीएसटी पंजीकरण की प्रक्रिया, पढ़ें ताजा अपडेट

ये जनरेटर बड़ी मात्रा में छवि डेटा पर प्रशिक्षित कृत्रिम तंत्रिका नेटवर्क पर बनाए गए हैं, जिससे वे संबंधों को 'सीखते हैं' और भविष्यवाणियां करते हैं।

प्रशिक्षण छवियों में आकृतियों का संयोजन विभिन्न चीजों से जुड़ा हो सकता है। उदाहरण के लिए, अंदर की ओर मिलने वाली दो रेखाएं पेंसिल की नोक या घर की छत का प्रतिनिधित्व कर सकती हैं।

लेकिन जब पाठ और मात्रा की बात आती है, तो जुड़ाव अविश्वसनीय रूप से सटीक होना चाहिए, क्योंकि छोटी-मोटी खामियां भी ध्यान देने योग्य होती हैं। हमारा दिमाग पेंसिल की नोक, या छत में मामूली विचलन को नजरअंदाज कर सकता है - लेकिन जब कोई शब्द कैसे लिखा जाता है, या हाथ पर उंगलियों की संख्या की बात आती है, तो इसे नजरअंदाज नहीं किया जा सकता।

जहां तक ​​टेक्स्ट-टू-इमेज मॉडल का सवाल है, टेक्स्ट प्रतीक केवल रेखाओं और आकृतियों का संयोजन हैं। चूंकि पाठ कई अलग-अलग शैलियों में आता है - और चूंकि अक्षरों और संख्याओं का उपयोग अंतहीन व्यवस्था में किया जाता है - मॉडल अक्सर यह नहीं सीख पाएगा कि पाठ को प्रभावी ढंग से कैसे पुन: पेश किया जाए।

इसका मुख्य कारण अपर्याप्त प्रशिक्षण डेटा है। एआई छवि जनरेटर को अन्य कार्यों की तुलना में पाठ और मात्राओं को सटीक रूप से प्रस्तुत करने के लिए बहुत अधिक प्रशिक्षण डेटा की आवश्यकता होती है।

एआई हाथों की त्रासदी

छोटी वस्तुओं, जैसे हाथों, के साथ काम करते समय भी समस्याएँ उत्पन्न होती हैं, जिनके लिए जटिल विवरण की आवश्यकता होती है।

प्रशिक्षण छवियों में, हाथ अक्सर छोटे होते हैं, वस्तुओं को पकड़ते हैं, या अन्य तत्वों द्वारा आंशिक रूप से अस्पष्ट होते हैं। एआई के लिए 'हाथ' शब्द को पांच अंगुलियों वाले मानव हाथ के सटीक प्रतिनिधित्व के साथ जोड़ना चुनौतीपूर्ण हो जाता है।

यह भी पढ़ें | फिर होगी नयी सुबह: चंद्रयान-2 पर मोदी ने कहा

नतीजतन, एआई-जनित हाथ अक्सर बेडौल दिखते हैं, उनमें अतिरिक्त या कम उंगलियां होती हैं, या हाथ आंशिक रूप से आस्तीन या पर्स जैसी वस्तुओं से ढके होते हैं।

जब मात्रा की बात आती है तो हम एक समान मुद्दा देखते हैं। एआई मॉडल में मात्राओं की स्पष्ट समझ का अभाव है, जैसे 'चार' की अमूर्त अवधारणा।

इस प्रकार, एक छवि जनरेटर कई मात्रा में सेब दिखाने वाली असंख्य छवियों से सीखकर 'चार सेब' के संकेत का जवाब दे सकता है - और गलत मात्रा के साथ आउटपुट लौटा सकता है।

दूसरे शब्दों में, प्रशिक्षण डेटा के भीतर संबंधों की विशाल विविधता आउटपुट में मात्रा की सटीकता को प्रभावित करती है।

क्या एआई कभी लिख और गिनती कर पाएगा?

यह याद रखना महत्वपूर्ण है कि टेक्स्ट-टू-इमेज और टेक्स्ट-टू-वीडियो रूपांतरण एआई में अपेक्षाकृत नई अवधारणा है। वर्तमान जेनरेटिव प्लेटफ़ॉर्म भविष्य में हम जो उम्मीद कर सकते हैं उसके 'कम-रिज़ॉल्यूशन' संस्करण हैं।

प्रशिक्षण प्रक्रियाओं और एआई प्रौद्योगिकी में हो रही प्रगति के साथ, भविष्य के एआई छवि जनरेटर संभवतः सटीक विज़ुअलाइज़ेशन उत्पन्न करने में अधिक सक्षम होंगे।

यह भी ध्यान देने योग्य है कि अधिकांश सार्वजनिक रूप से सुलभ एआई प्लेटफ़ॉर्म उच्चतम स्तर की क्षमता प्रदान नहीं करते हैं। सटीक पाठ और मात्राएँ उत्पन्न करने के लिए अत्यधिक अनुकूलित नेटवर्क की आवश्यकता होती है।










संबंधित समाचार