Synthetic Data Engineers generieren künstliche Daten die echte Daten ersetzen oder ergänzen – ohne Datenschutzprobleme, ohne Bias und in beliebiger Menge. In einer Welt in der Daten das 'neue Öl' sind, aber Datenschutz (DSGVO) und Datenknappheit reale Probleme darstellen, sind synthetische Daten eine Revolution. Beispiel Gesundheitswesen: Ein Krankenhaus will ein KI-Modell zur Diagnose trainieren, darf aber Patientendaten nicht teilen (DSGVO). Lösung: Synthetische Patientendaten generieren, die statistisch identisch sind aber keinen echten Patienten repräsentieren. Beispiel Automotive: Für autonomes Fahren braucht man Millionen Bilder von seltenen Szenarien (Kind rennt auf die Straße bei Nacht und Regen). In der Realität selten, in der Simulation unbegrenzt generierbar. Die Technologie basiert auf generativen Modellen: GANs (Generative Adversarial Networks), VAEs (Variational Autoencoders), Diffusion Models und statistische Methoden. Synthetic Data Engineers müssen sicherstellen, dass die synthetischen Daten die statistischen Eigenschaften der echten Daten bewahren – ohne Privacy-Leaks.
Morgens: Qualitätsbewertung der gestern generierten synthetischen Bankdaten. Statistische Tests: Kolmogorov-Smirnov für Verteilungen, Korrelationsmatrizen vergleichen, Machine-Learning-Utility-Test (trainiere Modell auf synthetisch, evaluiere auf echt – gleiche Performance?). Vormittags: Privacy-Audit – Membership Inference Attack auf die synthetischen Daten durchführen. Kann ein Angreifer herausfinden, ob eine bestimmte Person in den Originaldaten war? Ergebnis: Erfolgsrate bei Zufall (50%) – Privacy ist gewährleistet. Nachmittags: Neue Pipeline für synthetische Röntgenbilder aufsetzen. Diffusion Model fine-tunen auf 10.000 echte Röntgenbilder. Radiologen evaluieren: Können sie echte von synthetischen Bildern unterscheiden? Ergebnis: 52% korrekt – praktisch nicht unterscheidbar. Spätnachmittags: Kundenpräsentation – dem Pharmaunternehmen erklären, wie synthetische Patientendaten die klinische Forschung beschleunigen können, ohne DSGVO-Probleme. Business Case: 6 Monate schnellere Modellentwicklung, kein Data-Sharing-Agreement nötig.
Schnell wachsender Nischenmarkt. Mostly AI (Wien), Gretel.ai, Syntho (Amsterdam) und Hazy (London) sind dedizierte Startups. Pharma (Roche, Novartis), Banken (Deutsche Bank, UBS), Automotive (BMW, VW) und Telcos nutzen synthetische Daten. Die DSGVO treibt die Nachfrage – synthetische Daten lösen Datenschutz-Probleme elegant. Gartner prognostiziert, dass bis 2030 synthetische Daten echte Daten beim ML-Training übertreffen werden. Die Gehälter liegen im Data-Science-Bereich mit Privacy-Premium.