AI Safety Researcher arbeiten an einer der wichtigsten Fragen unserer Zeit: Wie stellen wir sicher, dass KI-Systeme sicher, kontrollierbar und im Einklang mit menschlichen Werten handeln? Während KI-Modelle immer mächtiger werden – GPT-5, Claude 4, Gemini Ultra – wächst die Sorge, dass diese Systeme unvorhergesehene, potenziell gefährliche Verhaltensweisen entwickeln könnten. AI Safety ist kein Science-Fiction-Thema mehr: Es ist ein ernst genommenes Forschungsfeld mit Milliarden-Investitionen. Anthropic wurde explizit als AI-Safety-Unternehmen gegründet. OpenAI hat ein Superalignment-Team (budget: 20% der Rechenkapazität). DeepMind hat ein eigenes Safety-Team. Die EU regelt mit dem AI Act erstmals Hochrisiko-KI gesetzlich. Die Forschungsfelder sind vielfältig: Alignment (wie bringt man KI dazu, das zu tun was Menschen wollen?), Interpretability (warum trifft die KI eine bestimmte Entscheidung?), Robustness (wie verhindert man, dass KI durch adversariale Inputs manipuliert wird?), Scalable Oversight (wie überwacht man KI-Systeme, die klüger sind als ihre Überwacher?). Die Gehälter sind die höchsten im gesamten KI-Bereich – Anthropic, OpenAI und DeepMind zahlen Forschern 150.000-400.000 USD/Jahr. In Deutschland sind die Gehälter niedriger, aber immer noch weit überdurchschnittlich.
Morgens: Paper-Reading-Gruppe – neues Paper zur Mechanistic Interpretability von Anthropic diskutieren. Welche Neuronen in einem Transformer-Modell sind für welche Konzepte zuständig? Was können wir daraus für die Sicherheit ableiten? Vormittags: Eigenes Experiment aufsetzen – kann man ein Language Model dazu bringen, seine Unsicherheit ehrlich zu kommunizieren statt zu 'halluzinieren'? Hypothese formulieren, Experiment designen, Code schreiben, Training starten. Nachmittags: Red-Teaming-Session – systematisch versuchen, das neueste Modell zu gefährlichem Verhalten zu bringen. Jailbreak-Versuche dokumentieren, neue Angriffsvektoren identifizieren, Ergebnisse an das Policy-Team weitergeben. Spätnachmittags: Paper schreiben – Ergebnisse der letzten 3 Monate zusammenfassen. Deadline für NeurIPS in 2 Wochen. Graphen erstellen, Related Work einordnen, Limitations diskutieren. Diskussion mit Co-Autoren über die Schlussfolgerungen.
Ein kleines aber extrem gut finanziertes Feld. Anthropic, OpenAI, DeepMind, Meta AI und ARC (Alignment Research Center) zahlen Spitzengehälter. In Deutschland forschen DFKI, Fraunhofer, TU München und mehrere Universitäten an AI Safety. Die Nachfrage übersteigt das Angebot dramatisch – es gibt weltweit nur wenige hundert qualifizierte AI-Safety-Forscher. Wer in dieses Feld einsteigt, hat praktisch unbegrenzte Karrieremöglichkeiten. Einstieg meist über PhD + Postdoc, aber auch technische Quereinsteiger mit ML-Erfahrung werden eingestellt.