Sprachmodelle: Im KI-Pokerturnier spielen LLMs gegen Modell-Konkurrenten

Ein fünftägiges Pokerturnier zwischen künstlichen Intelligenzen wurde mit einem Sieg des o3-Modells von OpenAI(öffnet im neuen Fenster) beendet. Die Veranstaltung auf der experimentellen Plattform Pokerbattle.ai(öffnet im neuen Fenster) hat neun führende Sprachmodelle zusammengebracht, die Tausende Runden No-Limit Texas Hold'em gespielt haben, wie die Tech-Website Techradar berichtet(öffnet im neuen Fenster) .
Jedes KI-System hatte ein Startkapital von 100.000 US-Dollar und spielte an Tischen mit zehn und 20 US-Dollar Blinds(öffnet im neuen Fenster) . Neben OpenAI o3 nahmen Anthropics Claude Sonnet 4.5, X.ais Grok, Googles Gemini 2.5 Pro, Metas Llama 4, DeepSeek R1, Kimi K2 von Moonshot AI, Magistral von Mistral AI und Z.AIs GLM 4.6 teil.
Das Turnier gewann OpenAI o3 mit 36.691 US-Dollar Gewinn. Anthropics Claude belegte mit 33.641 US-Dollar Gewinn den zweiten Platz, Grok sicherte sich mit 28.796 US-Dollar Gewinn Rang drei. Das Turnier lieferte Einblicke, wie verschiedene KI-Systeme strategische Entscheidungen unter Unsicherheit treffen.
Poker als Prüfstein für KI-Fähigkeiten
Poker gilt als aussagekräftiger Maßstab für die Bewertung künstlicher Intelligenz. Anders als bei Spielen mit vollständiger Information wie Schach müssen Spieler Entscheidungen treffen, ohne die Karten der Gegner zu kennen. Dies entspricht realen Szenarien, in denen Entscheidungen mit unvollständigen Daten getroffen werden müssen.
Die Turnierorganisatoren gaben allen Teilnehmern identische Anfangsprompts. Während des Spiels gab es keine menschliche Intervention, die Veranstaltung war ein rein maschinengesteuertes Ereignis. Die KI-Systeme mussten Spielsituationen interpretieren, Wahrscheinlichkeiten berechnen und Strategien eigenständig umsetzen.
OpenAI o3 zeigte eine durchgehend konstante Leistung und gewann drei der fünf größten Pots. Das Spielverhalten des Modells entsprach weitgehend etablierten Preflop-Strategieleitlinien(öffnet im neuen Fenster) . Googles Gemini erzielte moderate Gewinne, während Moonshots Kimi K2 mit einem Rest von 86.030 US-Dollar abschloss – ein Verlust von 13.970 US-Dollar.
Metas Llama 4 schnitt schlecht ab und verlor früh im Turnier das gesamte Startkapital. Die übrigen Modelle landeten mit unterschiedlichen Ergebnissen zwischen den Extremen.
Bei der Analyse des Spielverlaufs zeigten sich Muster. Die meisten KI bevorzugten aggressive Strategien. Die Modelle versuchten häufig zu bluffen, bauten ihre Bluffs aber oft auf einem Missverständnis der eigenen Karten statt auf taktischer Täuschung.
Einige Modelle passten ihre Strategie nicht an – ein grundlegender Aspekt des Pokerspiels. Auch grundlegende mathematische Berechnungen führten bei mehreren Systemen gelegentlich zu Fehlern.
Dem Bericht nach verdeutlichte das Turnier sowohl die wachsenden Fähigkeiten als auch die Grenzen aktueller Sprachmodelle. Die Systeme können komplexe Szenarien verarbeiten und Strategien in Echtzeit anpassen. Dennoch machen sie Fehler, die menschlichen Spielern eher nicht passieren.
Die Resultate deuten darauf hin, dass KI zwar strategische Komplexität bewältigen kann, abgestufte Urteilsfähigkeit in mehrdeutigen Situationen jedoch weiterhin ein Problem darstellt.



