Zum Hauptinhalt springen

Synthetic Data Engineer in Ulm

Alles über den Beruf Synthetic Data Engineer in Ulm: Gehalt, Aufgaben, Karrierechancen und aktuelle Stellenangebote.

4.0007.000 € / MonatStudium Informatik, Statistik oder Data Science. Erfahrung mit generativen Modellen und Datenschutz.Ulm, Baden-Württemberg
Berufsprofil

Synthetic Data Engineers generieren künstliche Daten die echte Daten ersetzen oder ergänzen – ohne Datenschutzprobleme, ohne Bias und in beliebiger Menge. In einer Welt in der Daten das 'neue Öl' sind, aber Datenschutz (DSGVO) und Datenknappheit reale Probleme darstellen, sind synthetische Daten eine Revolution. Beispiel Gesundheitswesen: Ein Krankenhaus will ein KI-Modell zur Diagnose trainieren, darf aber Patientendaten nicht teilen (DSGVO). Lösung: Synthetische Patientendaten generieren, die statistisch identisch sind aber keinen echten Patienten repräsentieren. Beispiel Automotive: Für autonomes Fahren braucht man Millionen Bilder von seltenen Szenarien (Kind rennt auf die Straße bei Nacht und Regen). In der Realität selten, in der Simulation unbegrenzt generierbar. Die Technologie basiert auf generativen Modellen: GANs (Generative Adversarial Networks), VAEs (Variational Autoencoders), Diffusion Models und statistische Methoden. Synthetic Data Engineers müssen sicherstellen, dass die synthetischen Daten die statistischen Eigenschaften der echten Daten bewahren – ohne Privacy-Leaks.

Typische Aufgaben

  • 1Generierung synthetischer tabularer Daten (Finanzdaten, Gesundheitsdaten, Kundendaten)
  • 2Erstellung synthetischer Bilddaten für Computer Vision (3D-Rendering, Diffusion Models)
  • 3Privacy-Guarantees sicherstellen: Differential Privacy, k-Anonymity, Membership Inference Tests
  • 4Qualitätsbewertung synthetischer Daten: Statistische Ähnlichkeit, Utility, Privacy
  • 5Aufbau von Data-Augmentation-Pipelines für ML-Training
  • 6Simulation von Edge Cases und seltenen Szenarien
  • 7Entwicklung synthetischer Testdaten für Software-Testing
  • 8Zusammenarbeit mit Datenschutzbeauftragten und Legal
  • 9Evaluierung von Synthetic-Data-Plattformen (Mostly AI, Gretel, Syntho, Hazy)
  • 10Forschung: Neue Methoden zur Datengenerierung entwickeln

Gefragte Kompetenzen

Generative Modelle (GANs, VAEs, Diffusion Models, Copulas)Statistik und WahrscheinlichkeitstheoriePython und ML-Frameworks (PyTorch, TensorFlow)Datenschutz-Technologien (Differential Privacy, Anonymisierung)Datenqualitäts-Metriken und statistische TestsDomänenwissen im Anwendungsgebiet (Gesundheit, Finanzen, Automotive)Datenbank- und Data-Engineering-Skills3D-Rendering und Simulation (für Bilddaten: Blender, Unity, CARLA)DSGVO und Datenschutz-GrundlagenWissenschaftliches Arbeiten und Paper-Lektüre

Arbeitsmarkt in Ulm

Schnell wachsender Nischenmarkt. Mostly AI (Wien), Gretel.ai, Syntho (Amsterdam) und Hazy (London) sind dedizierte Startups. Pharma (Roche, Novartis), Banken (Deutsche Bank, UBS), Automotive (BMW, VW) und Telcos nutzen synthetische Daten. Die DSGVO treibt die Nachfrage – synthetische Daten lösen Datenschutz-Probleme elegant. Gartner prognostiziert, dass bis 2030 synthetische Daten echte Daten beim ML-Training übertreffen werden. Die Gehälter liegen im Data-Science-Bereich mit Privacy-Premium.

Lebenshaltung

Mittel

ÖPNV

Straßenbahn und Busnetz – DING-Verbund mit regionaler Anbindung nach Stuttgart und Augsburg.

Karrierepfade

  • Senior Synthetic Data Engineer
  • Lead Data Engineer (Synthetic)
  • Head of Data / Chief Data Officer
  • Synthetic-Data-Startup gründen
  • Privacy Engineering Lead
  • Research Scientist (Generative Models)

Synthetic Data Engineer in der Nähe