हिंदी
प्रतीकात्मक छवि (फोटो सोर्स- Pinterest)
New Delhi: हाल ही में सामने आई एक रिपोर्ट में यह दावा किया गया है कि हिंदी में एआई का उपयोग करना इंग्लिश के मुकाबले काफी महंगा पड़ रहा है। डेटा के अनुसार, हिंदी भाषा में एआई को इस्तेमाल करने पर इंग्लिश की तुलना में लगभग 1.5 गुना से लेकर 3.3 गुना तक अधिक टोकन खर्च करने पड़ते हैं। इसका सीधा असर यह होता है कि हिंदी यूजर्स के लिए एआई का इस्तेमाल अपेक्षाकृत ज्यादा लागत वाला हो जाता है।
भले ही OpenAI, Anthropic और Google जैसी बड़ी कंपनियां अपने एआई मॉडल्स को सभी भाषाओं के लिए समान एक्सेस देने की बात करती हैं, लेकिन व्यवहारिक रूप से स्थिति अलग दिखाई देती है।
एआई मॉडल किसी भी टेक्स्ट को समझने से पहले उसे छोटे-छोटे हिस्सों में तोड़ता है, जिन्हें टोकन कहा जाता है। यह प्रक्रिया एक टोकनाइजर के जरिए होती है। हर एआई क्वेरी की लागत इन टोकनों की संख्या पर निर्भर करती है।
इसी वजह से जब कोई यूजर हिंदी में सवाल पूछता है, तो उसी बात को समझने और प्रोसेस करने के लिए एआई को इंग्लिश की तुलना में ज्यादा टोकन की जरूरत पड़ती है। नतीजा यह होता है कि हिंदी में वही काम करने पर लागत बढ़ जाती है।
OpenAI के रिसर्चर Aran Komatsuzaki द्वारा किए गए एक प्रयोग में यह तुलना की गई कि अलग-अलग भाषाओं के टेक्स्ट को एआई मॉडल कैसे टोकन में बदलते हैं।
इस रिसर्च में पाया गया कि-
इन आंकड़ों से साफ है कि इंग्लिश के अलावा अन्य भाषाओं में एआई उपयोग करना अधिक संसाधन खर्च करता है।
विशेषज्ञ इस पूरे अंतर को “लैंग्वेज टैक्स” कह रहे हैं। इसका मतलब है कि अलग-अलग भाषाओं में एआई का उपयोग करने पर एक तरह की छिपी हुई अतिरिक्त लागत लगती है।
यह टैक्स कोई अलग से लिया जाने वाला शुल्क नहीं है, बल्कि यह टोकनाइजेशन प्रक्रिया के कारण पैदा होने वाली लागत है। यानी जो काम इंग्लिश में कम टोकन में हो जाता है, वही हिंदी या अन्य भाषाओं में अधिक टोकन मांगता है।
जानकारों के अनुसार, इसका सबसे बड़ा कारण यह है कि अधिकांश एआई मॉडल मुख्य रूप से इंग्लिश डेटा पर ट्रेन किए गए हैं। इसलिए वे इंग्लिश टेक्स्ट को आसानी से और कम टोकनों में प्रोसेस कर लेते हैं।
वहीं हिंदी, अरबी और अन्य भाषाओं के लिए मॉडल को टेक्स्ट को अलग-अलग स्क्रिप्ट और संरचना में तोड़ना पड़ता है, जिससे टोकन की संख्या बढ़ जाती है।
विशेषज्ञों का मानना है कि इस समस्या से निपटने के लिए एआई कंपनियों को अलग-अलग भाषाओं पर अधिक ध्यान देना होगा और उन्हें समान रूप से ट्रेन करना होगा। अगर मॉडल्स को बहुभाषी डेटा पर बेहतर तरीके से प्रशिक्षित किया जाए, तो लागत में यह अंतर कम किया जा सकता है।
Location : New Delhi
Published : 23 June 2026, 4:11 PM IST