AI में हिंदी बोलना क्यों पड़ रहा भारी, रिसर्च में हुआ बड़ा खुलासा

रिपोर्ट में खुलासा हुआ है कि हिंदी में एआई यूज करने पर इंग्लिश की तुलना में 1.5 से 3.3 गुना ज्यादा टोकन खर्च होते हैं। इससे हिंदी यूजर्स के लिए एआई इस्तेमाल करना महंगा पड़ रहा है। इसे ‘लैंग्वेज टैक्स’ कहा जा रहा है जो टोकनाइजेशन से जुड़ा है।

Updated : 23 June 2026, 4:11 PM IST
google-preferred

New Delhi: हाल ही में सामने आई एक रिपोर्ट में यह दावा किया गया है कि हिंदी में एआई का उपयोग करना इंग्लिश के मुकाबले काफी महंगा पड़ रहा है। डेटा के अनुसार, हिंदी भाषा में एआई को इस्तेमाल करने पर इंग्लिश की तुलना में लगभग 1.5 गुना से लेकर 3.3 गुना तक अधिक टोकन खर्च करने पड़ते हैं। इसका सीधा असर यह होता है कि हिंदी यूजर्स के लिए एआई का इस्तेमाल अपेक्षाकृत ज्यादा लागत वाला हो जाता है।

भले ही OpenAI, Anthropic और Google जैसी बड़ी कंपनियां अपने एआई मॉडल्स को सभी भाषाओं के लिए समान एक्सेस देने की बात करती हैं, लेकिन व्यवहारिक रूप से स्थिति अलग दिखाई देती है।

टोकन क्या है और लागत क्यों बढ़ती है?

एआई मॉडल किसी भी टेक्स्ट को समझने से पहले उसे छोटे-छोटे हिस्सों में तोड़ता है, जिन्हें टोकन कहा जाता है। यह प्रक्रिया एक टोकनाइजर के जरिए होती है। हर एआई क्वेरी की लागत इन टोकनों की संख्या पर निर्भर करती है।

इसी वजह से जब कोई यूजर हिंदी में सवाल पूछता है, तो उसी बात को समझने और प्रोसेस करने के लिए एआई को इंग्लिश की तुलना में ज्यादा टोकन की जरूरत पड़ती है। नतीजा यह होता है कि हिंदी में वही काम करने पर लागत बढ़ जाती है।

Artificial Intelligence: कृत्रिम मेधा के प्रयोग से किसानों की बदलेगी किस्मत, कृषि क्षेत्र को मिलेगी नई ऊंचाई, पढ़ें ये खास रिपोर्ट

रिसर्च में सामने आए चौंकाने वाले आंकड़े

OpenAI के रिसर्चर Aran Komatsuzaki द्वारा किए गए एक प्रयोग में यह तुलना की गई कि अलग-अलग भाषाओं के टेक्स्ट को एआई मॉडल कैसे टोकन में बदलते हैं।

इस रिसर्च में पाया गया कि-

  • OpenAI के मॉडल में हिंदी टेक्स्ट को इंग्लिश के मुकाबले लगभग 1.37 गुना अधिक टोकन लगे
  • Anthropic के Claude मॉडल में यह अंतर और ज्यादा था, जहां हिंदी को 3.24 गुना अधिक टोकन की जरूरत पड़ी
  • अरबी भाषा के लिए यह आंकड़ा 2.86 गुना रहा
  • चीनी भाषा के लिए लगभग 1.71 गुना अधिक टोकन लगे

इन आंकड़ों से साफ है कि इंग्लिश के अलावा अन्य भाषाओं में एआई उपयोग करना अधिक संसाधन खर्च करता है।

‘लैंग्वेज टैक्स’ क्या है?

विशेषज्ञ इस पूरे अंतर को “लैंग्वेज टैक्स” कह रहे हैं। इसका मतलब है कि अलग-अलग भाषाओं में एआई का उपयोग करने पर एक तरह की छिपी हुई अतिरिक्त लागत लगती है।

यह टैक्स कोई अलग से लिया जाने वाला शुल्क नहीं है, बल्कि यह टोकनाइजेशन प्रक्रिया के कारण पैदा होने वाली लागत है। यानी जो काम इंग्लिश में कम टोकन में हो जाता है, वही हिंदी या अन्य भाषाओं में अधिक टोकन मांगता है।

Artificial Intelligence: क्या आपको पता है कृत्रिम बुद्धिमत्ता से जुड़ी ये बातें, आपकी भी होती है निगरानी, पढ़ें ये रिपोर्ट

इस अंतर के पीछे की मुख्य वजह

जानकारों के अनुसार, इसका सबसे बड़ा कारण यह है कि अधिकांश एआई मॉडल मुख्य रूप से इंग्लिश डेटा पर ट्रेन किए गए हैं। इसलिए वे इंग्लिश टेक्स्ट को आसानी से और कम टोकनों में प्रोसेस कर लेते हैं।

वहीं हिंदी, अरबी और अन्य भाषाओं के लिए मॉडल को टेक्स्ट को अलग-अलग स्क्रिप्ट और संरचना में तोड़ना पड़ता है, जिससे टोकन की संख्या बढ़ जाती है।

क्या है समाधान?

विशेषज्ञों का मानना है कि इस समस्या से निपटने के लिए एआई कंपनियों को अलग-अलग भाषाओं पर अधिक ध्यान देना होगा और उन्हें समान रूप से ट्रेन करना होगा। अगर मॉडल्स को बहुभाषी डेटा पर बेहतर तरीके से प्रशिक्षित किया जाए, तो लागत में यह अंतर कम किया जा सकता है।

Location :  New Delhi

Published :  23 June 2026, 4:11 PM IST

Advertisement