Googles KI-Übersicht: Jede zehnte Antwort von Gemini ist weiter falsch
Die Suchmaschine Google liefert mit ihren KI-Übersichten den Nutzern jede Stunde zig Millionen falscher Antworten. Das geht aus einer Analyse des KI-Start-ups Oumi im Auftrag der New York Times hervor(öffnet im neuen Fenster) . Demnach lieferte Googles KI-Modell Gemini 2 nur in 85 Prozent der Anfrage und Gemini 3 in 91 Prozent der Anfragen eine richtige Antwort.
Dem Bericht zufolge nutzte Oumi für die Analyse den von OpenAI entwickelten Benchmark-Test SimpleQA(öffnet im neuen Fenster) . Dieser werde branchenweit zur Messung der Genauigkeit von KI-Systemen eingesetzt. Oumi wertete demnach 4.326 Google-Suchanfragen aus.
Häufig Facebook und Reddit als Quelle
Der hohe Fehleranteil ist der Analyse zufolge auch darauf zurückzuführen, dass Gemini als Quelle häufig Beiträge auf Facebook oder Reddit auswertet. Unter den 5.380 Quellen seien Facebook und Reddit am zweit- beziehungsweise vierthäufigsten zitiert worden. "Wenn Googles KI-Übersichten korrekt waren, zitierten sie Facebook in 5 Prozent der Fälle. Waren sie ungenau, lag der Anteil bei 7 Prozent" , schreibt die Zeitung.
Die Qualität von KI-Ergebnissen sei jedoch schwer zu bewerten, heißt es weiter. Denn Gemini könne auf dieselbe Anfrage sehr unterschiedliche Antworten geben. Selbst im Abstand von wenigen Sekunden könne eine korrekte und eine falsche Antwort geliefert werden. Zudem nutzt Oumi selbst ein KI-basiertes System, um die Korrektheit der Antworten zu überprüfen. Dies sei die einzige Möglichkeit, eine große Anzahl von Antworten effizient zu prüfen.
Allerdings schrieb einer der beteiligten New-York-Times-Journalisten in den Leserkommentaren, dass die Zeitung eine repräsentative Auswahl der KI-Antworten sorgfältig per Hand überprüft habe, um Oumis Analyse zu untermauern. Dass KI-Modelle nur bedingt zur Faktenprüfung geeignet sind, hatte im Juli 2025 bereits eine Analyse von Wikipedia-Artikel durch die Frankfurter Allgemeine Sonntagszeitung (FAS) gezeigt.
In einer Stellungnahme erklärte Google, dass die Analyse von Oumi falsch sei, da der Benchmarktest selbst falsche Informationen enthalte. "Diese Studie weist gravierende Lücken auf" , sagte Google-Sprecher Ned Adriance und fügte hinzu: "Sie spiegelt nicht wider, wonach Nutzer tatsächlich bei Google suchen."
Weniger Quellen verlinkt
Allerdings schnitt Gemini 3 in der Analyse sogar deutlich besser ab als in Googles eigenen Benchmark-Tests. In den im November 2025 veröffentlichten Ergebnissen(öffnet im neuen Fenster) kam Gemini 3 bei SimpleQA nur auf 78,2 Prozent. Der Unterschied erklärt sich laut Google dadurch, dass die KI-Übersichten, die vor der Anzeige von Suchergebnissen generiert werden, genauer als im eigenständigen Betrieb von Gemini ausfallen.
Obwohl die Fehlerrate gesunken ist, hat Gemini 3 einen Nachteil gegenüber dem Vorgängermodell. Denn die angegebenen Informationen würden deutlich seltener durch verlinkte Quellen belegt. So seien Oktober 2025 37 Prozent der korrekten Antworten unbegründet gewesen. Im Februar 2026, mit Gemini 3, sei dieser Wert auf 56 Prozent gestiegen.
Angesichts der hohen Fehlerquote sollten Nutzer die KI-Übersichten jedoch möglichst verifizieren. Zumal die KI-Übersicht gelegentlich zwar eine zuverlässige Webseite identifiziere, deren Informationen aber offenbar falsch interpretiere.
Wer generell auf die KI-Übersichten verzichten möchte, kann dies über eine Ergänzung der Suchanfrage mit der Anweisung &udm=14 erreichen. Im Firefox-Browser lässt sich beispielsweise eine Google-Anfrage generell mit der URL https://www.google.com/search?q=%s&udm=14 einstellen.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



