Zum Hauptinhalt Zur Navigation

R1-Modell: Deepseeks KI-Training soll etwa 250.000 Euro gekostet haben

Deepseek äußert sich erstmals zu den Trainingskosten für das KI -Modell R1 sowie zu der dabei eingesetzten Hardware.
/ Mike Faust
Kommentare News folgen (öffnet im neuen Fenster)
Die Veröffentlichung von Deepseeks R1-Modell wart viele Fragen auf. (Bild: MLADEN ANTONOV/AFP via Getty Images)
Die Veröffentlichung von Deepseeks R1-Modell wart viele Fragen auf. Bild: MLADEN ANTONOV/AFP via Getty Images

Für das Training des KI-Modells R1 von Deepseek wurden circa 294.000 US-Dollar (etwa 250.000 Euro) ausgegeben. Das berichtet Reuters auf Grundlage eines Nature-Artikels(öffnet im neuen Fenster) . Darin wird Unternehmensgründer Liang Wenfeng als Mitautor genannt, der auch auf die für das Training verwendete Hardware eingeht.

Demnach sollen 512 Nvidia H800 zum Einsatz gekommen sein. Die H800 ist eine Grafikeinheit, die Nvidia extra für den chinesischen Markt anpasste, nachdem 2022 der Export von leistungsfähigeren A100- und H100-Chips verboten wurde. Der Export der H800-Chips nach China wurde im Oktober 2023 ebenfalls verboten .

Im Juni 2025 erklärten US-Beamte gegenüber Reuters, dass Deepseek Zugang zu "großen Mengen" von H100-Chips gehabt habe, die nach der Einführung der Exportkontrollen beschafft worden seien. Von Nvidia hieß es hingegen, dass Deepseek nur rechtmäßig erworbene H800- und keine H100-Chips verwendet habe.

Indirekt Wissen von anderen Sprachmodellen erworben

Laut dem Nature-Artikel erklärte Deepseek, dass das Unternehmen A100-Chips besitze und diese in der Vorbereitungsphase der Entwicklung des R1-Modells verwendet worden seien. Nach dieser Anfangsphase soll R1 80 Stunden lang mit dem aus 512 Chips bestehenden H800-Cluster trainiert worden sein.

Deepseek gab auch bekannt, dass es seine Modelle auf Basis des Open-Source-Modells Llama von Meta destilliert und Trainingsdaten von gecrawlten Webseiten verwendet habe. Diese hätten viele von OpenAI-Modellen generierte Antworten enthalten. Aus diesem Grund könne es sein, dass indirekt Wissen von anderen großen Sprachmodellen erworben worden sei, so das Unternehmen.

Mit der Veröffentlichung von Deepseeks R1-Modell im Januar 2025 ging eine große Schockwelle durch die KI-Branche . Diese wurde nicht nur von der technischen Leistung überrascht, sondern sah sich auch großen Zweifeln ob der hohen finanziellen Bewertung von KI-Unternehmen ausgesetzt.

Die Trainingskosten beziehen sich bei großen Sprachmodellen auf die Kosten, die durch den wochen- oder monatelangen Betrieb eines Chipclusters zur Verarbeitung der Trainingsdaten entstehen.


Relevante Themen