AI चैटबॉट्स पर आंख मूंदकर भरोसा खतरनाक! गूगल ने किया ये चौंकाने वाला खुलासा

गूगल के FACTS Benchmark Suite से बड़ा खुलासा हुआ है। रिपोर्ट के मुताबिक दुनिया के सबसे एडवांस AI चैटबॉट्स भी 70% से ज्यादा सटीक नहीं हैं। यानी AI के हर तीन जवाबों में से एक गलत हो सकता है।

Post Published By: Sapna Srivastava
Updated : 18 December 2025, 8:12 AM IST

New Delhi: आर्टिफिशियल इंटेलिजेंस (AI) चैटबॉट्स आज पढ़ाई, नौकरी, रिसर्च और रोजमर्रा के कामों में बड़ी भूमिका निभा रहे हैं। लेकिन अगर आप एआई से मिलने वाले जवाबों पर आंख मूंदकर भरोसा करते हैं, तो यह खबर आपके लिए चेतावनी है। गूगल ने हाल ही में एक असेसमेंट रिपोर्ट जारी की है, जिसमें AI चैटबॉट्स की फैक्चुअल एक्यूरेसी यानी तथ्यात्मक सटीकता को लेकर चौंकाने वाला खुलासा हुआ है।

गूगल के नए FACTS Benchmark Suite के अनुसार, दुनिया के सबसे एडवांस और पावरफुल AI मॉडल भी 70 प्रतिशत से ज्यादा सटीक जवाब नहीं दे पा रहे हैं। इसका सीधा मतलब यह है कि AI चैटबॉट्स हर तीन में से लगभग एक जवाब गलत दे सकते हैं।

Gemini 3 Pro सबसे आगे

गूगल के इस बेंचमार्क टेस्ट में कंपनी का Gemini 3 Pro मॉडल सबसे ज्यादा सटीक साबित हुआ। इस मॉडल ने करीब 69 प्रतिशत फैक्चुअल एक्यूरेसी हासिल की, जो सभी टेस्ट किए गए AI मॉडल्स में सबसे बेहतर रही। इसके बावजूद यह आंकड़ा 70 प्रतिशत के पार नहीं जा सका।

वहीं, OpenAI का ChatGPT-5 और Google का ही Gemini 2.5 Pro लगभग 62 प्रतिशत सटीकता तक ही पहुंच पाए। Anthropic का Claude 4.5 Opus करीब 51 प्रतिशत और एलन मस्क की कंपनी xAI का Grok 4 लगभग 54 प्रतिशत एक्यूरेसी के साथ काफी पीछे रह गया। खास बात यह है कि मल्टीमॉडल टास्क यानी इमेज, चार्ट और डायग्राम समझने वाले कामों में अधिकतर AI मॉडल्स की सटीकता 50 प्रतिशत से भी नीचे गिर गई।

Tech News: एलन मस्क के AI चैटबॉट Grok पर गंभीर आरोप, प्राइवेसी पर मंडराया बड़ा खतरा

FACTS Benchmark Suite क्या है?

गूगल का FACTS Benchmark Suite पारंपरिक AI टेस्टिंग से अलग है। आमतौर पर AI मॉडल्स को टेक्स्ट लिखने, कोड बनाने या सवालों के जवाब देने के आधार पर परखा जाता है। लेकिन FACTS बेंचमार्क का फोकस इस बात पर है कि AI द्वारा दी गई जानकारी कितनी सच और भरोसेमंद है।

  • इस बेंचमार्क में चार अलग-अलग तरह के प्रैक्टिकल यूज केस शामिल हैं।
  • पहला टेस्ट यह जांचता है कि AI मॉडल सिर्फ अपनी ट्रेनिंग डेटा के आधार पर कितने फैक्चुअल जवाब दे सकता है।
  • दूसरा टेस्ट सर्च कैपेबिलिटी को परखता है।
  • तीसरा यह देखता है कि नया डॉक्यूमेंट या एक्स्ट्रा जानकारी मिलने पर मॉडल कितनी सही तरह से उसे समझता और इस्तेमाल करता है।
  • चौथा टेस्ट AI की मल्टीमॉडल अंडरस्टैंडिंग जैसे इमेज, चार्ट और डायग्राम को समझने की क्षमता को जांचता है।

यूजर्स के लिए क्या है सीख?

इस रिपोर्ट से साफ है कि AI चैटबॉट्स अभी पूरी तरह भरोसेमंद नहीं हैं। खासकर मेडिकल, लीगल, एजुकेशन और फाइनेंस जैसे संवेदनशील मामलों में AI से मिले जवाबों को बिना जांचे इस्तेमाल करना नुकसानदायक हो सकता है। एक्सपर्ट्स का मानना है कि AI को सहायक टूल की तरह इस्तेमाल करना चाहिए, न कि अंतिम सत्य मानकर।

Tech News: OnePlus 15R भारत में आज होगा लॉन्च, जानें कीमत से लेकर फीचर्स तक सबकुछ

भविष्य में सुधरेंगे AI मॉडल?

गूगल का कहना है कि FACTS Benchmark का मकसद AI डेवलपर्स को उनकी कमियों का अहसास कराना है, ताकि भविष्य में ज्यादा सटीक और भरोसेमंद AI सिस्टम तैयार किए जा सकें। आने वाले समय में AI की फैक्चुअल एक्यूरेसी बढ़ाने पर कंपनियों का फोकस और तेज हो सकता है।

Location : 
  • New Delhi

Published : 
  • 18 December 2025, 8:12 AM IST