Synthetic Data Engineer in Ulm

Alles über den Beruf Synthetic Data Engineer in Ulm: Gehalt, Aufgaben, Karrierechancen und aktuelle Stellenangebote.

4.000 – 7.000 € / MonatStudium Informatik, Statistik oder Data Science. Erfahrung mit generativen Modellen und Datenschutz.Ulm, Baden-Württemberg

Berufsprofil

Synthetic Data Engineers generieren künstliche Daten die echte Daten ersetzen oder ergänzen – ohne Datenschutzprobleme, ohne Bias und in beliebiger Menge. In einer Welt in der Daten das 'neue Öl' sind, aber Datenschutz (DSGVO) und Datenknappheit reale Probleme darstellen, sind synthetische Daten eine Revolution. Beispiel Gesundheitswesen: Ein Krankenhaus will ein KI-Modell zur Diagnose trainieren, darf aber Patientendaten nicht teilen (DSGVO). Lösung: Synthetische Patientendaten generieren, die statistisch identisch sind aber keinen echten Patienten repräsentieren. Beispiel Automotive: Für autonomes Fahren braucht man Millionen Bilder von seltenen Szenarien (Kind rennt auf die Straße bei Nacht und Regen). In der Realität selten, in der Simulation unbegrenzt generierbar. Die Technologie basiert auf generativen Modellen: GANs (Generative Adversarial Networks), VAEs (Variational Autoencoders), Diffusion Models und statistische Methoden. Synthetic Data Engineers müssen sicherstellen, dass die synthetischen Daten die statistischen Eigenschaften der echten Daten bewahren – ohne Privacy-Leaks.

Typische Aufgaben

1Generierung synthetischer tabularer Daten (Finanzdaten, Gesundheitsdaten, Kundendaten)
2Erstellung synthetischer Bilddaten für Computer Vision (3D-Rendering, Diffusion Models)
3Privacy-Guarantees sicherstellen: Differential Privacy, k-Anonymity, Membership Inference Tests
4Qualitätsbewertung synthetischer Daten: Statistische Ähnlichkeit, Utility, Privacy
5Aufbau von Data-Augmentation-Pipelines für ML-Training
6Simulation von Edge Cases und seltenen Szenarien
7Entwicklung synthetischer Testdaten für Software-Testing
8Zusammenarbeit mit Datenschutzbeauftragten und Legal
9Evaluierung von Synthetic-Data-Plattformen (Mostly AI, Gretel, Syntho, Hazy)
10Forschung: Neue Methoden zur Datengenerierung entwickeln

Gefragte Kompetenzen

Generative Modelle (GANs, VAEs, Diffusion Models, Copulas)Statistik und WahrscheinlichkeitstheoriePython und ML-Frameworks (PyTorch, TensorFlow)Datenschutz-Technologien (Differential Privacy, Anonymisierung)Datenqualitäts-Metriken und statistische TestsDomänenwissen im Anwendungsgebiet (Gesundheit, Finanzen, Automotive)Datenbank- und Data-Engineering-Skills3D-Rendering und Simulation (für Bilddaten: Blender, Unity, CARLA)DSGVO und Datenschutz-GrundlagenWissenschaftliches Arbeiten und Paper-Lektüre

Arbeitsmarkt in Ulm

Schnell wachsender Nischenmarkt. Mostly AI (Wien), Gretel.ai, Syntho (Amsterdam) und Hazy (London) sind dedizierte Startups. Pharma (Roche, Novartis), Banken (Deutsche Bank, UBS), Automotive (BMW, VW) und Telcos nutzen synthetische Daten. Die DSGVO treibt die Nachfrage – synthetische Daten lösen Datenschutz-Probleme elegant. Gartner prognostiziert, dass bis 2030 synthetische Daten echte Daten beim ML-Training übertreffen werden. Die Gehälter liegen im Data-Science-Bereich mit Privacy-Premium.

Lebenshaltung

Mittel

ÖPNV

Straßenbahn und Busnetz – DING-Verbund mit regionaler Anbindung nach Stuttgart und Augsburg.

Karrierepfade

Senior Synthetic Data Engineer
Lead Data Engineer (Synthetic)
Head of Data / Chief Data Officer
Synthetic-Data-Startup gründen
Privacy Engineering Lead
Research Scientist (Generative Models)

Synthetic Data Engineer in der Nähe

Synthetic Data Engineer in Augsburg Synthetic Data Engineer in Stuttgart Synthetic Data Engineer in Reutlingen