Large Language Models: Wie viel ist die Arbeit von KI-Trainern wert?

Wer erinnert sich noch an GPT-2? Mit einem Marketing-Coup wollte OpenAI im Jahr 2019 der zweiten Ausgabe seines GPT-Sprachmodells zum Durchbruch verhelfen: Es sei so mächtig, hieß es damals, dass die Firma das Large Language Model (LLM) aufgrund der damit verbundenen Gefahren nicht veröffentlichen wolle(öffnet im neuen Fenster) . Einige Monate später tat sie es dann doch - und statt der Apokalypse folgte kollektives Schulterzucken.
Ein Durchbruch gelang OpenAI dagegen 2023 mit der Veröffentlichung von ChatGPT. Das Erfolgsgeheimnis lag in einer entscheidenden Weiterentwicklung der inzwischen dritten Ausgabe des GPT-Modells: Unter Verwendung des RLHF-Algorithmus(öffnet im neuen Fenster) (Reinforcement Learning from Human Feedback) formten die Entwickler aus dem unspezifischen GPT-3 ein Modell, das einen menschlichen Gesprächspartner glaubhaft imitiert.
LLMs ohne eine solche Weiterbildung neigen dazu, sich im Dialog in wirren Endlosschleifen und sprachlichem Unsinn zu verstricken. Doch damit RLHF solche Foundation Models auf die nächste Entwicklungsebene hieven kann, braucht es die Arbeit Tausender menschlicher KI-Trainer.
Wie die Arbeit der KI-Trainer aussieht
Um mehr über den Alltag solcher Trainer zu erfahren, nahm der niederländische Investigativjournalist Jeroen van Bergeijk für eine Reportage(öffnet im neuen Fenster) deren Rolle ein. Er bewarb sich per Linkedin, und eine Unterhaltung mit einem Chatbot sowie einen Multiple-Choice-Sprachtest später war er bereits bei einem Subunternehmen der Vermittlungsplattform Scale AI angeheuert.
Zwischen ihm und dem ersten Auftrag stand nur noch ein Onboarding, bei dem die KI-Trainer in ihrer Freizeit mittels Videos gebrieft werden. Seine Unterschrift unter einer umfassenden Geheimhaltungsverpflichtung war der letzte Schritt zur Aufnahme in den Pool von Freelancern. Auf Menschen trifft ein KI-Trainer demnach weder bei der Bewerbung noch in der Kommunikation mit dem Arbeitgeber.
Die Aufgabe von van Bergeijk und seinen Kollegen bestand darin, mit unterschiedlichen Prompts Konversationen mit Chatbots anzustoßen und deren Antworten zu bewerten. ChatGPT-Nutzer kennen das Prinzip: Sie erhalten vom Chatbot gelegentlich die Frage, welche von zwei möglichen Antworten sie besser finden. Für einen bezahlten KI-Trainer sind solche Entscheidungen Teil des Alltags.
Dabei geht es um Aspekte wie Stil und die inhaltliche Korrektheit. Aber auch um die mögliche "Schädlichkeit" von Antworten, zum Beispiel rassistische oder frauenfeindliche Aussagen, Aufforderungen zu Gewalt oder Anleitungen zu kriminellen Handlungen. In westlichen Ländern verdienen die Trainer um die 30 Euro pro Stunde, doch der Tarif halbiert sich, wenn die Trainer nicht schnell genug arbeiten.
Personalsuche in armen Weltregionen
Der RLHF-Algorithmus verarbeitet die von den Trainern generierten Daten, um ein sogenanntes Belohnungsmodell zu optimieren, das unabhängig neben dem Chatbot-Modell existiert. Das Belohnungsmodell wiederum passt die Parameter des Chatbot-Modells so an, dass dessen Antworten immer mehr den Vorlieben der Trainer entsprechen. Um aus einem Foundation Model einen hochwertigen Chatbot zu machen, benötigt RLHF Zehntausende Datenpunkte.
Firmen wie OpenAI lagern die Rekrutierung der KI-Trainer aus, dabei helfen ihnen Plattformen wie Upwork oder eben das auf KI-Daten spezialisierte Scale AI. Deren Geschäftsmodell besteht darin, Daten für möglichst wenig Geld in kurzer Zeit zu generieren; ihr Hauptinteresse liegt also in der Minimierung der Lohnkosten.
Die Suche nach billigem Personal führt solche Unternehmen häufig und teils über Subunternehmen in Weltregionen mit niedrigen Lohnkosten. Besonders attraktiv sind für sie Länder, in denen viele Menschen aufgrund der kolonialen Vergangenheit Englisch oder andere europäische Sprachen beherrschen.
Die Vermittlungsplattformen finden beispielsweise in Kenia eine große Bevölkerung, hohe Arbeitslosigkeit sowie mangelhaften arbeitsrechtlichen Schutz vor. Die kalifornische Plattform Sama beschäftigt in dem Land 3.000 Menschen im Auftrag von Meta und OpenAI(öffnet im neuen Fenster) . Internen Dokumenten zufolge bezahlen die Firmen mit 12,50 US-Dollar pro Stunde nicht einmal die Hälfte der in Europa und Nordamerika üblichen Tarife.
Nationale Gesetze schützen Trainer oft nicht genug
Die Gewinnmarge von Sama ist dennoch beträchtlich, denn die KI-Trainer müssen sich teilweise mit Löhnen von zwei US-Dollar brutto begnügen, wie die kenianische Bürgerrechtlerin Nerima Wako-Ojiwa berichtet. Mitarbeiter eines Subunternehmers von Scale AI beklagen zudem systematischen Lohndiebstahl: Kurz vor dem Tag der Lohnauszahlung werden Freelancer demnach regelmäßig wegen angeblicher Verstöße gegen die Community-Regeln von der Plattform ausgeschlossen - ohne Bezahlung.
Nationale Gesetze können Menschen vor solchen Praktiken nur bedingt schützen, fürchtet Wako-Ojiwa. Denn die Vermittlungsplattformen benötigen nur wenig lokale Infrastruktur und weichen flexibel in andere Länder aus, um dort Dumping-Löhne anzubieten. Und man darf fragen, ob es nicht zielführender wäre, die eigentlichen Auftraggeber zu benennen und für die Arbeitsbedingungen verantwortlich zu machen.
Allerdings: Die KI-Trainer erfahren häufig nicht einmal, welches Produkt sie für welche Firma trainieren.
Was das Wort ''delve'' über KI-Training verrät
Zusätzlich zu undurchsichtigen Unternehmensstrukturen erschweren auch technische Umstände den Durchblick. Moderne LLMs bestehen aus Milliarden oder gar Billionen von Parametern, die in den verschiedenen Phasen des Trainings vielfach mittels komplexer mathematischer Operationen optimiert werden.
Es ist deshalb praktisch unmöglich nachzuvollziehen, welchen Einfluss einzelne Datenpunkte auf den Output eines Chatbots haben. Manchmal ergeben sich aber Einblicke, zum Beispiel aus dem englischen Verb "to delve" (tief graben, forschen). ChatGPT hat dafür offenbar eine Vorliebe entwickelt, obwohl die meisten Amerikaner und Engländer es im Alltag nicht benutzen.
Der Investor Paul Graham nannte die Verwendung von "delve" sogar als hinreichenden Grund(öffnet im neuen Fenster) , um Investitionsanfragen kategorisch als automatisch generiert abzuweisen - zum Entsetzen einiger Follower auf X. Denn anders als im amerikanischen Englisch gehört das Wort in den Englisch-Ausprägungen Westafrikas sehr wohl zur Alltagssprache.
Offenbar haben KI-Trainer aus dieser Weltregion so viele Datenpunkte geliefert, dass ChatGPT ihren Sprachgebrauch übernommen hat. So deutlich wie in diesem Beispiel treten die Effekte der Datenherkunft jedoch selten zu Tage; meistens bleibt der Zusammenhang zwischen den einzelnen Trainingsphasen eines LLM und dem Output schwammig.
Die Phasen des KI-Trainings
In der ersten Phase verarbeitet ein neues Modell Texte, Bilder, Klänge oder Videos, so dass es eine unspezifische Repräsentation jener Medien abbildet. Durch selbstüberwachtes Lernen (Self-supervised Learning), das heißt ohne großes menschliches Zutun, lernt es, die vielseitigen Beziehungen zwischen den Wörtern der darin enthaltenen Sprache in seinen Parametern widerzuspiegeln. Gebräuchliche Methoden sind Masking und Next Sentence Prediction, bei denen die Parameter eines Modells optimiert werden, indem es Lücken in einem Text mit dem richtigen Wort füllen beziehungsweise die Reihenfolge von Sätzen bestimmen muss.
Ein so erzeugtes Foundation Model ist ein begabter Generalist, fällt bei klassischen Machine-Learning-Tasks wie automatischer Textklassifikation jedoch hinter spezialisierte Modelle zurück. Deshalb folgt eine Fine-Tuning-Phase auf Basis annotierter Datensätze, die neben den Rohdaten aufgabenspezifische Zusatzinformationen - Annotationen - enthalten.
Ein typischer Anwendungsfall ist ein Spam-Filter, der auf Basis vieler zuvor manuell als Spam markierter E-Mails lernt, sie automatisch aufzuspüren. Die Methode, die Parameter eines Modells mittels eines solchen annotierten Datensatzes anzupassen, heißt überwachtes Lernen (Supervised Learning).
Wie KI aus Fehlern lernt
Geht es darum, flexiblere Outputs zu generieren, eignet sich ein Supervised-Learning-Ansatz jedoch weniger. In einem Dialog gibt es keine vordefinierten Kategorien, sondern eine praktisch unendliche Zahl an Möglichkeiten, um sowohl richtige als auch falsche Antworten auf jede Frage und Aussage des Gegenübers zu geben - mit jeweils unterschiedlichen Vor- und Nachteilen.
Miteinander verwobene Aspekte wie inhaltliche Korrektheit, aber auch Wortwahl, Satzbau, Länge, Vollständigkeit und viele weitere spielen mal mehr, mal weniger wichtige Rollen. Hier kommen das Feedback der menschlichen KI-Trainer und der RLHF-Algorithmus ins Spiel.
Die ersten zwei Buchstaben von RLHF stehen für Reinforcement Learning (verstärkendes Lernen). Ein Beispiel für die Anwendung dieser Methode ist das Alphago-System, das 2016 Aufsehen erregte. Es hat die besten menschlichen Go-Spieler geschlagen, ohne jemals von Menschenhand annotierte Daten verarbeitet zu haben.
Stattdessen spielte Alphago Millionen von Partien gegen sich selbst. Jedes Ergebnis - ob Sieg oder Niederlage - erlaubte Rückschlüsse auf die gespielten Züge des Gewinners wie auch des Verlierers. Mittels Reinforcement Learning optimierte das Modell seine Parameter, um seine Siegchancen zu maximieren.
KI buhlt um die Gunst der Nutzer
Beim Trainieren von Chatbots fungiert der zweite Bestandteil von RLHF, das Human Feedback, als entscheidendes Signal. Wenn ein KI-Trainer die Qualität zweier vom Modell generierten Aussagen einordnet, fungiert der höher platzierte Kandidat als Gewinner - und RLHF passt die Modellparameter entsprechend an.
Der Algorithmus benötigt dabei weder Informationen über die einzelnen Wörter und Ausdrücke eines generierten Texts noch absolute Qualitätswertungen. Die Details der sprachlichen Präferenzen ergeben sich aus der großen Anzahl relativer Bewertungen, analog zu den einzelnen Zügen im Go-Spiel.
Diese Technik erlaubt es dem Modell, die menschlichen Vorlieben mit seinen Outputs immer besser zu bedienen. Für dieses Ziel ist Widerspruch selten die richtige Wahl, was im Extremfall zu sykophantischem Verhalten führen kann: das bedingungslose Bestärken eines Gesprächspartners, um in seiner Gunst zu steigen.
Berichten zufolge(öffnet im neuen Fenster) haben aktuelle ChatGPT-Versionen bereits aggressives Verhalten von Benutzern legitimiert.
Wie ein Roboter lernte, sich zur Schau zu stellen
Generell agiert ein Modell ausschließlich auf der sichtbaren Text- oder Bildoberfläche und kann kein Verständnis der unterliegenden Bedeutung entwickeln. Ein Beispiel aus der Roboterforschung veranschaulicht, zu welchen Folgen vereinfachtes Feedback zu komplexen Aufgaben führen kann. Menschliche Beobachter sollten einen Roboter bei der Lösung unterschiedlicher Aufgaben beurteilen.
Da das Sichtfenster der Kamera zur Beobachtung eingeschränkt war, optimierte der Roboter seine Parameter nicht nur für die eigentliche Aufgabe, sondern lernte zugleich, innerhalb des sichtbaren Bereichs zu bleiben. Andernfalls blieb positives Feedback in der Trainingsphase(öffnet im neuen Fenster) auch bei perfekter Problemlösung zwangsläufig aus.
Exakte Bewertung von LLMs ist schwierig
Die konkreten Auswirkungen einzelner Datenpunkte beim Training sind bei einem Chatbot noch weniger zu erfassen. Empirische Vergleichsstudien sind schwierig, weil sich die Qualität eines Chatbots ohnehin kaum objektiv einordnen lässt. Und Spielraum zum Experimentieren gibt es kaum, denn das Training eines neuen LLMs kostet viele Millionen Euro.
Nur grobe Ausrutscher lassen sich einfach erkennen. So legte etwa der Grok-Chatbot im Mai eine auffällige Vorliebe für einen rassistisch motivierten Verschwörungsmythos an den Tag, dem offenbar auch Tesla-Chef Elon Musk anhängt - und der gleichzeitig Eigentümer des Start-ups hinter Grok ist.
Daran erkennt man zwar das Risiko, das entsteht, wenn sich hochmoderne Technologien in den Händen weniger Superreicher befinden. Der Fall sagt trotzdem wenig über die allgemeine Qualität des LLMs aus.
Selbst die Chatbot-Anbieter ringen mit den Schwierigkeiten bei der exakten Evaluierung ihrer Produkte. OpenAI-CEO Sam Altman fiel bei der Ankündigung von ChatGPT-Version 4.5 sogar darauf zurück, dass sich eine Unterhaltung damit besser "anfühle", auch wenn sich das nicht messbar in Benchmarks(öffnet im neuen Fenster) widerspiegele.
Ohne Menschen geht es nicht
Gefühlte Qualität anstelle empirischer Belege: Das hilft vielleicht beim Marketing, aber nicht bei der systematischen Verbesserung eines Modells. Wissenschaftler aus dem Hause Cohere, selbst prominenter Anbieter von KI-Produkten, zeigen in einer neuen Studie unter dem Titel The Leadership Illusion(öffnet im neuen Fenster) , dass die gebräuchlichen Vergleichsmaßstäbe Probleme mit sich bringen.
Die Untersuchung belegt Schwächen in der Chatbot-Arena(öffnet im neuen Fenster) , wo die Outputs verschiedener generativer Modelle direkt miteinander verglichen werden. Doch statistische Verzerrungen und ungleicher Zugriff auf die Testdaten führen zu systematischen Vorteilen für die großen KI-Firmen.
In nicht-öffentlichen Tests erhalten diese Zugriff auf Test-Prompts, so dass sie ihre Modelle gezielt anpassen und bessere Ergebnisse erzielen können, wodurch Tests zur Abstraktionsfähigkeit ins Leere laufen.
Optimierungen wie die aufsehenerregenden Verbesserungen der chinesischen Firma Deepseek haben neue Modelle hervorgebracht, die für einen Bruchteil der Kosten mit der amerikanischen Konkurrenz mithalten können. Doch auch wenn Modelle der neuen Generation effizienter lernen, bleiben sie von menschlichen Präferenzen in Datenform abhängig.
Der nächste Schritt im Rennen um die KI-Vorherrschaft liegt weniger in Algorithmen und Softwarearchitektur als in billigem Zugang zu Daten und den Menschen, die diese generieren. Das erklärt, weshalb Meta sich im Juni durch eine Milliardeninvestition in Scale AI den eigenen Zugriff auf KI-Trainer und deren Output sichern sowie die Konkurrenz herausdrängen soll .
Schlecht bezahlte KI-Trainer, die in ehemaligen Kolonien unter prekären Bedingungen diese Daten generieren, bilden einen Teil der Geschichte, den die großen Tech-Konzerne bei ihrem derzeit heißesten Produkt gerne unter den Tisch fallen lassen. Nicht zufällig sind die Vertreter jener Unternehmen auffällig oft Anhänger von Ideologien wie effektiver Altruismus und Longtermismus (g+) . Dort finden Tech-Milliardäre einen bequemen moralischen Ausweg: Wenn ihre Technologie die Menschheit eines Tages von allem Unheil erlöst, fällt konkretes Leid in der Gegenwart nicht ins Gewicht - solange es nur die Anderen betrifft.
Carsten Schnober(öffnet im neuen Fenster) ist Computerlinguist und Entwickler für Forschungssoftware im Bereich Natural Language Processing. Als Grundlagen für offene und nachhaltige Infrastruktur stehen Freie Software und Open Science im Mittelpunkt seiner Arbeit für das niederländischen eScience Center(öffnet im neuen Fenster) und die Stiftung NLnet(öffnet im neuen Fenster) .



