Zum Hauptinhalt springen

AI Safety Researcher

5.00010.000 € / MonatPromotion in Informatik, Mathematik oder Philosophie. Forschungserfahrung in ML-Alignment, Interpretability oder Robustness.Zukunftsberufe & Neue Berufsfelder
Stellen für AI Safety Researcher ansehen
Berufsprofil

AI Safety Researcher arbeiten an einer der wichtigsten Fragen unserer Zeit: Wie stellen wir sicher, dass KI-Systeme sicher, kontrollierbar und im Einklang mit menschlichen Werten handeln? Während KI-Modelle immer mächtiger werden – GPT-5, Claude 4, Gemini Ultra – wächst die Sorge, dass diese Systeme unvorhergesehene, potenziell gefährliche Verhaltensweisen entwickeln könnten. AI Safety ist kein Science-Fiction-Thema mehr: Es ist ein ernst genommenes Forschungsfeld mit Milliarden-Investitionen. Anthropic wurde explizit als AI-Safety-Unternehmen gegründet. OpenAI hat ein Superalignment-Team (budget: 20% der Rechenkapazität). DeepMind hat ein eigenes Safety-Team. Die EU regelt mit dem AI Act erstmals Hochrisiko-KI gesetzlich. Die Forschungsfelder sind vielfältig: Alignment (wie bringt man KI dazu, das zu tun was Menschen wollen?), Interpretability (warum trifft die KI eine bestimmte Entscheidung?), Robustness (wie verhindert man, dass KI durch adversariale Inputs manipuliert wird?), Scalable Oversight (wie überwacht man KI-Systeme, die klüger sind als ihre Überwacher?). Die Gehälter sind die höchsten im gesamten KI-Bereich – Anthropic, OpenAI und DeepMind zahlen Forschern 150.000-400.000 USD/Jahr. In Deutschland sind die Gehälter niedriger, aber immer noch weit überdurchschnittlich.

Typische Aufgaben

  • 1Forschung zu KI-Alignment: Wie stellt man sicher, dass KI menschliche Werte verfolgt?
  • 2Interpretability-Forschung: Warum trifft ein Modell eine bestimmte Entscheidung?
  • 3Entwicklung von Evaluationsmethoden für KI-Sicherheit
  • 4Red-Teaming: Systematisches Testen von KI auf gefährliches Verhalten
  • 5Robustness-Forschung: Schutz vor adversarialen Angriffen und Jailbreaks
  • 6Veröffentlichung wissenschaftlicher Paper und Teilnahme an Konferenzen (NeurIPS, ICML, AAAI)
  • 7Zusammenarbeit mit Policy-Teams zur Regulierung von KI
  • 8Entwicklung technischer Sicherheitsstandards für KI-Systeme
  • 9Mentoring von Junior-Forschern und PhD-Studierenden
  • 10Öffentlichkeitsarbeit: KI-Sicherheitsrisiken erklären und Bewusstsein schaffen

Gefragte Kompetenzen

Tiefes Verständnis von Machine Learning und Deep LearningMathematik auf Forschungsniveau (Statistik, Optimierung, Informationstheorie)Programmierung (Python, PyTorch/JAX, HuggingFace)Kenntnis aktueller AI-Safety-Literatur (Alignment Forum, arXiv)Fähigkeit, neue Forschungsfragen zu identifizieren und zu bearbeitenWissenschaftliches Schreiben und PublizierenKritisches Denken und philosophische Grundlagen (Ethik, Entscheidungstheorie)Kommunikation komplexer Risiken an nicht-technische StakeholderInterdisziplinäres Denken (Informatik + Philosophie + Soziologie)Bereitschaft, an unbequemen Fragen zu arbeiten

Karrierepfade

  • Senior Research Scientist AI Safety
  • Research Lead / Principal Researcher
  • Head of AI Safety bei KI-Unternehmen
  • AI Safety Policy Advisor (Regierung, EU, UN)
  • Professur für AI Safety an Universität
  • Gründung eines AI-Safety-Forschungsinstituts

Typischer Arbeitstag

Morgens: Paper-Reading-Gruppe – neues Paper zur Mechanistic Interpretability von Anthropic diskutieren. Welche Neuronen in einem Transformer-Modell sind für welche Konzepte zuständig? Was können wir daraus für die Sicherheit ableiten? Vormittags: Eigenes Experiment aufsetzen – kann man ein Language Model dazu bringen, seine Unsicherheit ehrlich zu kommunizieren statt zu 'halluzinieren'? Hypothese formulieren, Experiment designen, Code schreiben, Training starten. Nachmittags: Red-Teaming-Session – systematisch versuchen, das neueste Modell zu gefährlichem Verhalten zu bringen. Jailbreak-Versuche dokumentieren, neue Angriffsvektoren identifizieren, Ergebnisse an das Policy-Team weitergeben. Spätnachmittags: Paper schreiben – Ergebnisse der letzten 3 Monate zusammenfassen. Deadline für NeurIPS in 2 Wochen. Graphen erstellen, Related Work einordnen, Limitations diskutieren. Diskussion mit Co-Autoren über die Schlussfolgerungen.

Arbeitsmarkt & Zukunftsaussichten

Ein kleines aber extrem gut finanziertes Feld. Anthropic, OpenAI, DeepMind, Meta AI und ARC (Alignment Research Center) zahlen Spitzengehälter. In Deutschland forschen DFKI, Fraunhofer, TU München und mehrere Universitäten an AI Safety. Die Nachfrage übersteigt das Angebot dramatisch – es gibt weltweit nur wenige hundert qualifizierte AI-Safety-Forscher. Wer in dieses Feld einsteigt, hat praktisch unbegrenzte Karrieremöglichkeiten. Einstieg meist über PhD + Postdoc, aber auch technische Quereinsteiger mit ML-Erfahrung werden eingestellt.

AI Safety Researcher Jobs in deiner Stadt

Alle Städte ansehen