Darwin auf neuronalen Netzen
Am Beispiel von neuronalen Netzen lässt sich anschaulich zeigen, dass evolutionäre Algorithmen noch einen großen Vorteil bieten. Während das Gradient-Descent-Verfahren, also ein graduelles Anpassen von Werten in Richtung eines Ziels, für die Gewichte eines neuronalen Netzes bestens funktioniert, ist es nutzlos für alles, was keinen sogenannten Gradienten, also keine mathematische Ableitung hat.
Eine mathematische Ableitung lässt sich zwar für viele Funktionen (also auch für die Parameter eines bestimmten neuronalen Netzes) berechnen, nicht aber etwa für die Architektur als solches: Das Anpassen eines sogenannten Hyperparameters, also etwa die Anzahl von Schichten in einem Netz, ist keine graduelle Änderung einer Funktion, ein anpassen eines Wertes, sondern eine fundamentale Änderung der Funktion selbst.
Es ist eine diskrete Entscheidung über eine Änderung, die keine graduelle Form hat. Wir können einem neuronalen Netz eine Schicht mehr geben oder nicht, aber nicht graduell antesten, ob ein Hinzufügen etwas bringt. Wo bei den Netzwerkparametern eine Änderung von 0,0001 uns zeigt, ob das Ergebnis leicht besser oder schlechter wird, gibt es hier nur um die grundsätzliche Entscheidung: Machen oder nicht machen. 0,0001 Schichten mehr gibt es nicht.
Und genau für solche diskreten Optimierungen sind evolutionäre Algorithmen wie geschaffen. Beispielsweise beim Experimentieren mit neuen Strukturen für neuronale Netze lässt sich damit die Architektur zufällig verändern (Mutation oder Crossover), um anschließend die besten Architekturen zu behalten. Die Fitness ergibt sich dann durch das (leider oft teure) Trainieren und Ausmessen der verschiedenen Architekturen. Häufig tun auch menschliche KI-Entwickler genau das: Architekturen etwas anpassen, ausprobieren (also trainieren und messen), bestehende Architekturen miteinander kombinieren und das Beste am Ende behalten. Nur hier geht das mit evolutionären Methoden vollautomatisch.
Fazit
Gerade Experten vergessen häufig, dass künstliche Intelligenz mehr ist als nur neuronale Netze und Gradient Descent. In der praktischen Anwendung für echte Probleme in der Wirtschaft, wenn häufig nur wenige Daten verfügbar sind und eine exakte Lösung vielleicht gar nicht nötig ist, können evolutionäre Methoden schneller und kostengünstiger sein.
Da, wo mögliche Algorithmen zu kompliziert werden oder es sich einfach nicht lohnt, sich länger als nötig den Kopf zu zerbrechen, gilt frei nach Ian Malcolm aus Jurassic Park: Das Leben findet immer einen Weg – zumindest meistens, für den Programmierer, der evolutionäre Algorithmen beherrscht. Zufall und automatisiertes Ausprobieren auf die richtige Art und Weise kann ein extrem mächtiges, weil schnell zu formulierendes Werkzeug sein.
Mit dem Einzug von evolutionären Elementen in Deep Learning und Co. könnten sich vielleicht dann auch die Grenzen sprengen lassen, die LLMs im Moment stagnieren lassen.
Tim Elsner(öffnet im neuen Fenster) wartet gerade auf die Verteidigung seiner Dissertation über generative KI für visuelle Daten, bastelt an allem, was mit neuronalen Netzen zu tun hat – und erklärt das auch gerne anderen. Er schult, berät und entwickelt außerdem freiberuflich für Firmen im Bereich KI.



