Zum Hauptinhalt Zur Navigation

Kampf um KI-Talente: Warum sind KI-Forscher dreistellige Millionengehälter wert?

Im Bieterwettstreit der Tech-Konzerne um KI-Spezialisten macht Meta derzeit Schlagzeilen. Wir analysieren an Beispielen, welches Wissen eingekauft wird.
/ Tim Elsner
Kommentare News folgen (öffnet im neuen Fenster)
Tech-Konzerne auf der Suche nach den schlauesten KI-Köpfen (Bild: geralt/Pixabay)
Tech-Konzerne auf der Suche nach den schlauesten KI-Köpfen Bild: geralt/Pixabay
Inhalt
  1. Kampf um KI-Talente: Warum sind KI-Forscher dreistellige Millionengehälter wert?
  2. Repräsentationen als Weg zum Ziel
  3. Fürs Hochskalieren von KI braucht es besondere Talente

Meta hat vor einigen Wochen Schlagzeilen mit Gehältern für KI-Forscher gemacht, die angeblich sogar Fußballern Konkurrenz machen können . Während diese Gerüchte wohl zumindest übertrieben(öffnet im neuen Fenster) waren und möglicherweise sogar gezielt von Sam Altman als taktisches Manöver gestreut wurden, um eventuelle Angebote von Meta als geizig darzustellen, hat der Konzern offenbar doch für das Abwerben von einer größeren Anzahl an Forschern eine Menge Geld auf den Tisch gelegt.

Auch wenn Meta mit den angeblichen Summen in die Schlagzeilen geraten ist, ist das Phänomen nicht neu: Microsoft sucht sich Personal bei der Google-Tochter Deepmind , Anthropic holt sich Forscher von OpenAI wie zum Beispiel Jan Leike(öffnet im neuen Fenster) . Zwar sind nicht alle dieser Versuche erfolgreich , etwa bei den Bemühungen, OpenAIs Ex-CTO Mira Murati anzuwerben, aber auch fehlgeschlagene Versuche zeigen das Interesse, das große Firmen an einzelnen Köpfen haben.

Wer sind die Leute, für die vor allem Meta so einen Aufwand betreibt, und was war bisher ihr Beitrag zur Forschung? Wir ordnen beispielhaft einige der bekannteren Namen und ihre Arbeit genauer ein.

Von GPT-4 zur Llama-Herde

Shengjia Zhao ist der neue oberste Wissenschaftler von Metas "Superintelligence" -Bemühungen. Bevor er zu dem Unternehmen wechselte, war er bei OpenAI aktiv, eingestellt kurz vor der ersten Veröffentlichung von ChatGPT. Insbesondere bei GPT-4 war Zhao als einer der führenden Köpfe direkt mitverantwortlich dafür, dass ChatGPT längere Kontexte und Bilder verarbeiten kann, also in einer Phase der Entwicklung, in der ChatGPT große und neue Features bekommen hat – anders als beim Schritt von GPT-4 auf GPT-5, das eher ein Update als ein großer technischer Sprung war. Weiterhin wird Zhao als einer der "foundational contributors" von o1 gelistet, also als einer der wichtigsten Mitarbeiter für das erste "lange nachdenkende" Modell von OpenAI.

Einen ähnlichen Hintergrund haben zahlreiche Mitarbeiter, so auch Yang Song, ein "research principal" , also ein führender Forscher bei Meta. Auch er war ursprünglich bei OpenAI beschäftigt und an GPT-4 beteiligt. Seine Forschung kommt allerdings eher aus dem Bereich der generativen Modelle für Bilder: Es finden sich Arbeiten zu Diffusion, einer der führenden Techniken für Bilderzeugung, und eher theoretische Arbeiten zu VAEs(öffnet im neuen Fenster) , einem frühen generativen Modell.

Auch bei Google hat Meta in ähnlichen Gefilden gewildert: Yuanzhong Xu war dort früher für Palm-Modelle und frühe Versionen von Gemini mitverantwortlich. Seine Expertise liegt, zumindest einigen seiner Publikationen nach zu urteilen, vor allem darin, Modelle auf der ganz großen Skala zu produzieren.

Es finden sich bei ihm aber auch Papers zur Bilderzeugung – in Kombination also genau richtig für multimodale Modelle, die in der Lage sind, Bilder und Text zu verarbeiten. Logischerweise ist die Überlappung von Computer Vision, also dem Verarbeiten von Bildern in Computern, mit maschinellem Lernen für Sprachmodelle relativ groß: Die Darstellungsform, in der Bilder in ein Modell gegeben werden, ist entscheidend für die Fähigkeit eines Modells, daraus Schlüsse zu ziehen.

Ein Miterfinder der modernen Bildverarbeitung

Einen weiteren Experten für das Lernen einer guten Darstellung insbesondere von Bildern hat sich Meta mit Lucas Beyer gesichert, ebenfalls von OpenAI abgeworben. Er ist als einer der Pioniere bekannt, die die aktuell im maschinellen Lernen allgegenwärtige Transformer-Architektur zuerst für Bilder einsetzten (Vision Transformers, kurz ViTs). Anfangs entwickelt für menschliche Sprache, also dem Vorhersagen von Sequenzen von Textfragmenten, lassen sich auch Bilder mit ein paar Tricks mit einem Transformer verarbeiten.

Grundsätzlich setzen Transformer verschiedene Teile einer Eingabe, etwa einzelne Wörter in einem Satz, miteinander in Beziehung und verrechnen sie zu einem neuen Element. Etwa wenn aus "die schwarze Katze" die Information von "schwarze" in "Katze" fließt. Diese Eingaben sind eigentlich eine Kette von Informationen.

Lucas Beyer und seine Kollegen haben dieses Prinzip durch ein paar Änderungen auf Bilder angewendet. Ein Bild wird in n mal n viele Kacheln zerlegt und diese werden dann miteinander verrechnet, genau wie bei menschlicher Sprache. Dabei fließen etwa beispielsweise bei einem Bild einer Schafweide Informationen von einer Kachel mit Fell und Informationen von einer Kachel mit einem Zaun zusammen (kombiniere Schaf und Zaun zu Schafweide).


Wie heißt es noch? Geld allein macht nicht glücklich? Erzählt uns, was euch im Job glücklich macht!


Relevante Themen