Tricks der China-KI und Risiko
Anstatt die Anzahl der Vergleiche zu reduzieren, können diese auch günstiger gemacht werden. Die Architektur von Deepseek(öffnet im neuen Fenster) greift auf einen Trick aus der Mathematik zurück, statt das Verrechnen über teure, sehr große Matrizen zu erledigen. Hierbei wird eine Matrix angenähert, indem sie als das Produkt von zwei kleineren Matrizen notiert wird.
Für die mathematisch Versierten: Die linearen Projektionsmatrizen, auf denen das neuronale Netz beruht, werden additiv erweitert, indem eine Low-Rank Matrix hinzugefügt wird. Diese ist das Produkt einer reduzierenden und einer erhöhenden Projektionsmatrix.
Das hilft nicht nur dabei, die Anzahl der zu trainierenden Parameter kleiner zu halten, sondern reduziert auch den benötigten Speicher. Ein Eingabewert kann nacheinander mit den Matrizen multipliziert werden, es braucht nie die komplette Matrix auf einmal. Die Folge: Mehr Daten passen auf einmal auf die GPU, der Durchsatz von Daten im Training wird höher und das Modell schneller besser.



Dieser Trick hat jedoch zumindest theoretisch einen Haken: Das Produkt zweier Matrizen ist von niedrigerem Rang als eine volle Matrix, ist also weniger mächtig. Das resultierende neuronale Netz ist theoretisch weniger fähig. In der Praxis ist diese Annäherung nicht nur rein pragmatisch für die Geschwindigkeit nützlich und lohnt sich, sondern kann sogar hilfreich sein.



Eine komplexere Funktion, also ein neuronales Netz mit vollen Matrizen statt dieser Annäherung, kann unter Umständen ungewollt ein zu komplexes Verhalten lernen. Als Beispiel kann man sich ein paar Punkte vorstellen, die jemand schlampig von Hand in einer halbwegs geraden Linie auf ein Blatt Papier gezeichnet hat. Mit einer einfachen Geraden lassen sich alle Punkte gut erwischen, wenn auch nicht perfekt.
Eine komplizierte mathematische Kurve trifft diese Punkte vielleicht besser, versucht aber auch, die Unsauberkeiten darzustellen. Im übertragenen Sinne muss gerade bei Daten, die aus dem Internet zusammengesammelt und voller Tippfehler sind, eine mächtigere Annäherung nicht unbedingt besser sein. Aus einer reinen Effizienzsteigerung kann sogar bessere Qualität werden.
Riskante Innovationen zahlen sich aus
Somit werden Komponenten pragmatisch effizienter gemacht und neue Wege beschritten. Das birgt ein gewisses Risiko: Während vielversprechende Ideen auf großen Modellen oft nicht mehr(öffnet im neuen Fenster) funktionierten, treten nützliche Effekte auf kleinen Testmodellen nicht auf und zeigen sich erst bei sehr großen Modellen, etwa das Vorhersagen mehrerer Tokens(öffnet im neuen Fenster) auf einmal statt nur der nächsten Tokens.
Es ist riskant, solche neuen Techniken in einem Training zu verwenden, dass potenziell einen zweistelligen Millionenbetrag kostet. Und genau hier gehen chinesische Firmen größere Risiken ein.
Deepseek verwendete das erwähnte Vorhersagen von mehr als einem Token nur ein halbes Jahr nach Veröffentlichung für dessen Version 3(öffnet im neuen Fenster) . Dabei wird im Training bei dem Satzteil Die schwarze das nächste Token (Katze) vorhergesagt und darüber hinaus direkt mehrere Tokens auf einmal: Die schwarze soll fortgesetzt werden mit Katze saß auf der.
Das Resultat ist schnelleres Lernen mit besseren Ergebnissen, weil das Modell mehr über den Sinn eines Satzes nachdenkt statt nur über das nächste Wort - und ein Rekordverlust(öffnet im neuen Fenster) für den Chiphersteller Nvidia: Das neue Modell von Deepseek hat im Training nur einen Bruchteil der sonst üblichen Kosten verursacht, Anleger sorgten sich deshalb um mangelnden Absatz für Chips.



