Zum Hauptinhalt springen

Synthetic Data Engineer

4.0007.000 € / MonatStudium Informatik, Statistik oder Data Science. Erfahrung mit generativen Modellen und Datenschutz.Zukunftsberufe & Neue Berufsfelder
Stellen für Synthetic Data Engineer ansehen
Berufsprofil

Synthetic Data Engineers generieren künstliche Daten die echte Daten ersetzen oder ergänzen – ohne Datenschutzprobleme, ohne Bias und in beliebiger Menge. In einer Welt in der Daten das 'neue Öl' sind, aber Datenschutz (DSGVO) und Datenknappheit reale Probleme darstellen, sind synthetische Daten eine Revolution. Beispiel Gesundheitswesen: Ein Krankenhaus will ein KI-Modell zur Diagnose trainieren, darf aber Patientendaten nicht teilen (DSGVO). Lösung: Synthetische Patientendaten generieren, die statistisch identisch sind aber keinen echten Patienten repräsentieren. Beispiel Automotive: Für autonomes Fahren braucht man Millionen Bilder von seltenen Szenarien (Kind rennt auf die Straße bei Nacht und Regen). In der Realität selten, in der Simulation unbegrenzt generierbar. Die Technologie basiert auf generativen Modellen: GANs (Generative Adversarial Networks), VAEs (Variational Autoencoders), Diffusion Models und statistische Methoden. Synthetic Data Engineers müssen sicherstellen, dass die synthetischen Daten die statistischen Eigenschaften der echten Daten bewahren – ohne Privacy-Leaks.

Typische Aufgaben

  • 1Generierung synthetischer tabularer Daten (Finanzdaten, Gesundheitsdaten, Kundendaten)
  • 2Erstellung synthetischer Bilddaten für Computer Vision (3D-Rendering, Diffusion Models)
  • 3Privacy-Guarantees sicherstellen: Differential Privacy, k-Anonymity, Membership Inference Tests
  • 4Qualitätsbewertung synthetischer Daten: Statistische Ähnlichkeit, Utility, Privacy
  • 5Aufbau von Data-Augmentation-Pipelines für ML-Training
  • 6Simulation von Edge Cases und seltenen Szenarien
  • 7Entwicklung synthetischer Testdaten für Software-Testing
  • 8Zusammenarbeit mit Datenschutzbeauftragten und Legal
  • 9Evaluierung von Synthetic-Data-Plattformen (Mostly AI, Gretel, Syntho, Hazy)
  • 10Forschung: Neue Methoden zur Datengenerierung entwickeln

Gefragte Kompetenzen

Generative Modelle (GANs, VAEs, Diffusion Models, Copulas)Statistik und WahrscheinlichkeitstheoriePython und ML-Frameworks (PyTorch, TensorFlow)Datenschutz-Technologien (Differential Privacy, Anonymisierung)Datenqualitäts-Metriken und statistische TestsDomänenwissen im Anwendungsgebiet (Gesundheit, Finanzen, Automotive)Datenbank- und Data-Engineering-Skills3D-Rendering und Simulation (für Bilddaten: Blender, Unity, CARLA)DSGVO und Datenschutz-GrundlagenWissenschaftliches Arbeiten und Paper-Lektüre

Karrierepfade

  • Senior Synthetic Data Engineer
  • Lead Data Engineer (Synthetic)
  • Head of Data / Chief Data Officer
  • Synthetic-Data-Startup gründen
  • Privacy Engineering Lead
  • Research Scientist (Generative Models)

Typischer Arbeitstag

Morgens: Qualitätsbewertung der gestern generierten synthetischen Bankdaten. Statistische Tests: Kolmogorov-Smirnov für Verteilungen, Korrelationsmatrizen vergleichen, Machine-Learning-Utility-Test (trainiere Modell auf synthetisch, evaluiere auf echt – gleiche Performance?). Vormittags: Privacy-Audit – Membership Inference Attack auf die synthetischen Daten durchführen. Kann ein Angreifer herausfinden, ob eine bestimmte Person in den Originaldaten war? Ergebnis: Erfolgsrate bei Zufall (50%) – Privacy ist gewährleistet. Nachmittags: Neue Pipeline für synthetische Röntgenbilder aufsetzen. Diffusion Model fine-tunen auf 10.000 echte Röntgenbilder. Radiologen evaluieren: Können sie echte von synthetischen Bildern unterscheiden? Ergebnis: 52% korrekt – praktisch nicht unterscheidbar. Spätnachmittags: Kundenpräsentation – dem Pharmaunternehmen erklären, wie synthetische Patientendaten die klinische Forschung beschleunigen können, ohne DSGVO-Probleme. Business Case: 6 Monate schnellere Modellentwicklung, kein Data-Sharing-Agreement nötig.

Arbeitsmarkt & Zukunftsaussichten

Schnell wachsender Nischenmarkt. Mostly AI (Wien), Gretel.ai, Syntho (Amsterdam) und Hazy (London) sind dedizierte Startups. Pharma (Roche, Novartis), Banken (Deutsche Bank, UBS), Automotive (BMW, VW) und Telcos nutzen synthetische Daten. Die DSGVO treibt die Nachfrage – synthetische Daten lösen Datenschutz-Probleme elegant. Gartner prognostiziert, dass bis 2030 synthetische Daten echte Daten beim ML-Training übertreffen werden. Die Gehälter liegen im Data-Science-Bereich mit Privacy-Premium.

Synthetic Data Engineer Jobs in deiner Stadt

Alle Städte ansehen