KI-Optimierung: Wie neuronale Netze lernen
Neuronale Netze müssen trainiert werden, bevor sie nützlich sind. Wir erklären, wie dieser Optimierungsprozess funktioniert.
Anfänglich sind neuronale Netzwerke nur zufällig gesetzte Matrizen, die nichts Sinnvolles berechnen. Erst durch das Training werden sie zu einem nützlichen Modell, das die gewünschten Ausgaben liefert. Der Weg zum fertig trainierten Modell wird in den allermeisten Fällen durch ein numerisches Verfahren gefunden, dessen einfachste Version auch heute noch genutzt wird: die Gradientenmethode beziehungsweise gradient descent.
Wir erklären das Grundprinzip und gehen auf aktuellere Methoden wie den neuen Muon-Optimierer ein, der das Training von Sprachmodellen durch ein paar kleinere Verbesserungen deutlich effizienter macht.