Zum Hauptinhalt Zur Navigation Zur Suche

Golem Plus Artikel
GANs - Synthetik als Schlüssel:
Von echten Daten zu besseren Modellen

Zwischen Datenschutz und Datenhunger entsteht ein Spannungsfeld. Neue Ansätze versprechen einen Ausweg, bringen aber eigene Herausforderungen mit sich.
/ Fabian Deitelhoff
1 Kommentare News folgen (öffnet im neuen Fenster)
GAN steht für Generative Adversarial Network. (Bild: buzcajun/Pixabay)
GAN steht für Generative Adversarial Network. Bild: buzcajun/Pixabay

In vielen Branchen, von Finanzwesen bis Healthcare, verhindern Datenschutzauflagen wie DSGVO oder die Health Insurance Portability and Accountability Act (HIPAA), dass reale Nutzerdaten frei für Entwicklung, Testing und Forschung zum Einsatz kommen. Gleichzeitig benötigen moderne Machine-Learning-Modelle und komplexe Business-Logik große, vielfältige und repräsentative Datensätze, um robust zu funktionieren. Synthetische Daten adressieren dieses Spannungsfeld, indem sie neue Datensätze erzeugen, die statistisch wie das Original aussehen, aber keine realen Personen mehr repräsentieren.

Generative Modelle wie GANs, VAEs, Diffusion Models und zunehmend auch generative Transformer/LLMs lernen aus Beispieldaten die zugrunde liegende Verteilung und können daraus beliebig viele Datenpunkte generieren. Damit lassen sich typische Testaufgaben abdecken: Training und Validierung von ML-Modellen, Last- und Integrationstests von APIs, explorative Analysen oder das Replizieren seltener Edge-Cases.

Golem Plus Artikel