Trainingsdaten: Start-ups verkaufen nach Insolvenz interne Daten
Der Ausverkauf insolventer Start-ups erreicht eine neue Stufe: Statt Büromöbeln stehen nun interne Kommunikationsprotokolle und Projektdaten im Fokus. Unternehmen wie das Transkriptions-Start-up Cielo24 veräußern ihre digitalen Spuren – von Slack-Nachrichten über Jira-Tickets bis hin zu E-Mails – als Trainingsmaterial für künstliche Intelligenz. Laut einem Bericht von Forbes(öffnet im neuen Fenster) erhielt Cielo24 dafür Summen im sechsstelligen Bereich.
Fossil Brennstoff für KI-Agenten
Die Nachfrage nach diesen Daten ergibt sich aus einem Mangel an qualitativ hochwertigen Informationen. Während KI-Modelle bisher primär mit öffentlichen Daten aus dem Internet trainiert wurden, gelten diese Ressourcen laut dem ehemaligen OpenAI-Chefwissenschaftler Ilya Sutskever seit Ende 2024 als weitgehend erschöpft. Für die Entwicklung sogenannter agentischer KI, die aktiv Arbeitsaufgaben übernehmen soll, ist das öffentliche Internet zudem nur bedingt geeignet.
Hier kommen die "digitalen Überreste"insolventer Firmen ins Spiel. Diese fungieren als eine Art fossiler Brennstoff für KI-Agenten. Um Kompetenz am Arbeitsplatz zu erlangen, benötigen die Modelle Beispiele für reale Arbeitsabläufe. "Modellentwickler erkennen zunehmend, dass das Rauschen realer Arbeitsumgebungen notwendig ist, um Modelle präzise zu testen", erklärt Ali Ansari vom Unternehmen Micro1(öffnet im neuen Fenster). Sein Produkt Roots bietet KI-Labs simulierte Holdinggesellschaften an, in denen Agenten Aufgaben wie Finanzdienstleistungen oder Kalendermanagement üben.
Ein Marktplatz für digitale Hinterlassenschaften
Spezialisierte Dienstleister wie SimpleClosure unterstützen Gründer bei der Abwicklung. Mit dem neuen Asset Hub bietet SimpleClosure(öffnet im neuen Fenster) eine Plattform, auf der Firmen ihren Code und ihre Archive verkaufen können. Das Unternehmen hat im vergangenen Jahr fast 100 solcher Deals abgewickelt und dabei mehr als eine Million US-Dollar für Gründer zurückgewonnen. Die Preise pro Datensatz liegen meist zwischen 10.000 und 100.000 US-Dollar.
Der Wert der Daten hängt dabei in erster Linie von der Datenreichhaltigkeit ab. Ein Jira-Ticket, das direkt mit einem Code-Commit verknüpft ist, ist beispielsweise wertvoller als ein einzelnes Dokument. Besonders begehrt sind Daten aus regulierten Branchen wie dem Gesundheitswesen oder dem Finanzsektor.
Datenschützer wie Marc Rotenberg vom Center for AI and Digital Policy(öffnet im neuen Fenster) warnen jedoch vor massiven Datenschutzproblemen. Auch wenn Mitarbeiter Rechte an Arbeitsmaterialien abtreten, sei unklar, ob dies den Verkauf privater Kommunikation an Dritte einschließe. Es bestehe die Gefahr, dass KI-Modelle Sequenzen aus den Trainingsdaten wörtlich wiedergäben. Ein Risiko, das bereits eine Studie von OpenAI und Google(öffnet im neuen Fenster) im Jahr 2020 belegte. Dennoch boomt das Geschäft: Anthropic plant laut Berichten, in diesem Jahr bis zu eine Milliarde US-Dollar für solche Trainingsumgebungen auszugeben.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.