गूगल के FACTS Benchmark Suite से बड़ा खुलासा हुआ है। रिपोर्ट के मुताबिक दुनिया के सबसे एडवांस AI चैटबॉट्स भी 70% से ज्यादा सटीक नहीं हैं। यानी AI के हर तीन जवाबों में से एक गलत हो सकता है।

AI चैटबॉट्स की सटीकता पर बड़ा सवाल (Img Source: Google)
New Delhi: आर्टिफिशियल इंटेलिजेंस (AI) चैटबॉट्स आज पढ़ाई, नौकरी, रिसर्च और रोजमर्रा के कामों में बड़ी भूमिका निभा रहे हैं। लेकिन अगर आप एआई से मिलने वाले जवाबों पर आंख मूंदकर भरोसा करते हैं, तो यह खबर आपके लिए चेतावनी है। गूगल ने हाल ही में एक असेसमेंट रिपोर्ट जारी की है, जिसमें AI चैटबॉट्स की फैक्चुअल एक्यूरेसी यानी तथ्यात्मक सटीकता को लेकर चौंकाने वाला खुलासा हुआ है।
गूगल के नए FACTS Benchmark Suite के अनुसार, दुनिया के सबसे एडवांस और पावरफुल AI मॉडल भी 70 प्रतिशत से ज्यादा सटीक जवाब नहीं दे पा रहे हैं। इसका सीधा मतलब यह है कि AI चैटबॉट्स हर तीन में से लगभग एक जवाब गलत दे सकते हैं।
गूगल के इस बेंचमार्क टेस्ट में कंपनी का Gemini 3 Pro मॉडल सबसे ज्यादा सटीक साबित हुआ। इस मॉडल ने करीब 69 प्रतिशत फैक्चुअल एक्यूरेसी हासिल की, जो सभी टेस्ट किए गए AI मॉडल्स में सबसे बेहतर रही। इसके बावजूद यह आंकड़ा 70 प्रतिशत के पार नहीं जा सका।
वहीं, OpenAI का ChatGPT-5 और Google का ही Gemini 2.5 Pro लगभग 62 प्रतिशत सटीकता तक ही पहुंच पाए। Anthropic का Claude 4.5 Opus करीब 51 प्रतिशत और एलन मस्क की कंपनी xAI का Grok 4 लगभग 54 प्रतिशत एक्यूरेसी के साथ काफी पीछे रह गया। खास बात यह है कि मल्टीमॉडल टास्क यानी इमेज, चार्ट और डायग्राम समझने वाले कामों में अधिकतर AI मॉडल्स की सटीकता 50 प्रतिशत से भी नीचे गिर गई।
Tech News: एलन मस्क के AI चैटबॉट Grok पर गंभीर आरोप, प्राइवेसी पर मंडराया बड़ा खतरा
गूगल का FACTS Benchmark Suite पारंपरिक AI टेस्टिंग से अलग है। आमतौर पर AI मॉडल्स को टेक्स्ट लिखने, कोड बनाने या सवालों के जवाब देने के आधार पर परखा जाता है। लेकिन FACTS बेंचमार्क का फोकस इस बात पर है कि AI द्वारा दी गई जानकारी कितनी सच और भरोसेमंद है।
इस रिपोर्ट से साफ है कि AI चैटबॉट्स अभी पूरी तरह भरोसेमंद नहीं हैं। खासकर मेडिकल, लीगल, एजुकेशन और फाइनेंस जैसे संवेदनशील मामलों में AI से मिले जवाबों को बिना जांचे इस्तेमाल करना नुकसानदायक हो सकता है। एक्सपर्ट्स का मानना है कि AI को सहायक टूल की तरह इस्तेमाल करना चाहिए, न कि अंतिम सत्य मानकर।
Tech News: OnePlus 15R भारत में आज होगा लॉन्च, जानें कीमत से लेकर फीचर्स तक सबकुछ
गूगल का कहना है कि FACTS Benchmark का मकसद AI डेवलपर्स को उनकी कमियों का अहसास कराना है, ताकि भविष्य में ज्यादा सटीक और भरोसेमंद AI सिस्टम तैयार किए जा सकें। आने वाले समय में AI की फैक्चुअल एक्यूरेसी बढ़ाने पर कंपनियों का फोकस और तेज हो सकता है।