Synthetic Data Engineer

4.000 – 7.000 € / MonatStudium Informatik, Statistik oder Data Science. Erfahrung mit generativen Modellen und Datenschutz.Zukunftsberufe & Neue Berufsfelder

Stellen für Synthetic Data Engineer ansehen

Berufsprofil

Synthetic Data Engineers generieren künstliche Daten die echte Daten ersetzen oder ergänzen – ohne Datenschutzprobleme, ohne Bias und in beliebiger Menge. In einer Welt in der Daten das 'neue Öl' sind, aber Datenschutz (DSGVO) und Datenknappheit reale Probleme darstellen, sind synthetische Daten eine Revolution. Beispiel Gesundheitswesen: Ein Krankenhaus will ein KI-Modell zur Diagnose trainieren, darf aber Patientendaten nicht teilen (DSGVO). Lösung: Synthetische Patientendaten generieren, die statistisch identisch sind aber keinen echten Patienten repräsentieren. Beispiel Automotive: Für autonomes Fahren braucht man Millionen Bilder von seltenen Szenarien (Kind rennt auf die Straße bei Nacht und Regen). In der Realität selten, in der Simulation unbegrenzt generierbar. Die Technologie basiert auf generativen Modellen: GANs (Generative Adversarial Networks), VAEs (Variational Autoencoders), Diffusion Models und statistische Methoden. Synthetic Data Engineers müssen sicherstellen, dass die synthetischen Daten die statistischen Eigenschaften der echten Daten bewahren – ohne Privacy-Leaks.

Typische Aufgaben

1Generierung synthetischer tabularer Daten (Finanzdaten, Gesundheitsdaten, Kundendaten)
2Erstellung synthetischer Bilddaten für Computer Vision (3D-Rendering, Diffusion Models)
3Privacy-Guarantees sicherstellen: Differential Privacy, k-Anonymity, Membership Inference Tests
4Qualitätsbewertung synthetischer Daten: Statistische Ähnlichkeit, Utility, Privacy
5Aufbau von Data-Augmentation-Pipelines für ML-Training
6Simulation von Edge Cases und seltenen Szenarien
7Entwicklung synthetischer Testdaten für Software-Testing
8Zusammenarbeit mit Datenschutzbeauftragten und Legal
9Evaluierung von Synthetic-Data-Plattformen (Mostly AI, Gretel, Syntho, Hazy)
10Forschung: Neue Methoden zur Datengenerierung entwickeln

Gefragte Kompetenzen

Generative Modelle (GANs, VAEs, Diffusion Models, Copulas)Statistik und WahrscheinlichkeitstheoriePython und ML-Frameworks (PyTorch, TensorFlow)Datenschutz-Technologien (Differential Privacy, Anonymisierung)Datenqualitäts-Metriken und statistische TestsDomänenwissen im Anwendungsgebiet (Gesundheit, Finanzen, Automotive)Datenbank- und Data-Engineering-Skills3D-Rendering und Simulation (für Bilddaten: Blender, Unity, CARLA)DSGVO und Datenschutz-GrundlagenWissenschaftliches Arbeiten und Paper-Lektüre

Karrierepfade

Senior Synthetic Data Engineer
Lead Data Engineer (Synthetic)
Head of Data / Chief Data Officer
Synthetic-Data-Startup gründen
Privacy Engineering Lead
Research Scientist (Generative Models)

Typischer Arbeitstag

Morgens: Qualitätsbewertung der gestern generierten synthetischen Bankdaten. Statistische Tests: Kolmogorov-Smirnov für Verteilungen, Korrelationsmatrizen vergleichen, Machine-Learning-Utility-Test (trainiere Modell auf synthetisch, evaluiere auf echt – gleiche Performance?). Vormittags: Privacy-Audit – Membership Inference Attack auf die synthetischen Daten durchführen. Kann ein Angreifer herausfinden, ob eine bestimmte Person in den Originaldaten war? Ergebnis: Erfolgsrate bei Zufall (50%) – Privacy ist gewährleistet. Nachmittags: Neue Pipeline für synthetische Röntgenbilder aufsetzen. Diffusion Model fine-tunen auf 10.000 echte Röntgenbilder. Radiologen evaluieren: Können sie echte von synthetischen Bildern unterscheiden? Ergebnis: 52% korrekt – praktisch nicht unterscheidbar. Spätnachmittags: Kundenpräsentation – dem Pharmaunternehmen erklären, wie synthetische Patientendaten die klinische Forschung beschleunigen können, ohne DSGVO-Probleme. Business Case: 6 Monate schnellere Modellentwicklung, kein Data-Sharing-Agreement nötig.

Arbeitsmarkt & Zukunftsaussichten

Schnell wachsender Nischenmarkt. Mostly AI (Wien), Gretel.ai, Syntho (Amsterdam) und Hazy (London) sind dedizierte Startups. Pharma (Roche, Novartis), Banken (Deutsche Bank, UBS), Automotive (BMW, VW) und Telcos nutzen synthetische Daten. Die DSGVO treibt die Nachfrage – synthetische Daten lösen Datenschutz-Probleme elegant. Gartner prognostiziert, dass bis 2030 synthetische Daten echte Daten beim ML-Training übertreffen werden. Die Gehälter liegen im Data-Science-Bereich mit Privacy-Premium.

Synthetic Data Engineer Jobs in deiner Stadt

Synthetic Data Engineer in Aachen Synthetic Data Engineer in Augsburg Synthetic Data Engineer in Bamberg Synthetic Data Engineer in Bayreuth Synthetic Data Engineer in Berlin Synthetic Data Engineer in Bielefeld

Alle Städte ansehen