Zum Hauptinhalt springen

Site Reliability Engineer (SRE)

5.0008.500 € / MonatStudium Informatik + Erfahrung in Softwareentwicklung und Systemadministration. Google hat den Beruf erfunden.IT & Software
Stellen für Site Reliability Engineer (SRE) ansehen
Berufsprofil

Site Reliability Engineers sorgen dafür, dass Software-Systeme zuverlässig, skalierbar und performant laufen. Google hat den Beruf in den 2000er Jahren erfunden und definiert SRE als 'was passiert, wenn man Software Engineers mit Operations-Aufgaben betraut'. SREs schreiben Code um die Infrastruktur zu automatisieren, definieren Service Level Objectives (SLOs) und stellen sicher, dass Systeme ihre Verfügbarkeitsziele einhalten. Im Unterschied zu klassischen Systemadministratoren lösen SREs Probleme durch Programmierung statt durch manuelle Konfiguration. Im Unterschied zu DevOps Engineers sind SREs stärker auf Zuverlässigkeit und Incident Response spezialisiert.

Typische Aufgaben

  • 1Definition und Überwachung von SLIs/SLOs/SLAs
  • 2Incident Response: Ausfälle schnell beheben und Root Cause analysieren
  • 3Automatisierung manueller Operational Tasks (Toil Reduction)
  • 4Kapazitätsplanung und Performance-Engineering
  • 5Aufbau und Wartung von Monitoring und Alerting
  • 6Chaos Engineering: Kontrollierte Ausfälle zum Testen der Resilienz
  • 7On-Call-Rotation und Bereitschaftsdienst
  • 8Post-Mortem-Analyse und Blameless Retrospectives
  • 9Change Management und Release Engineering
  • 10Reliability Reviews für neue Services

Gefragte Kompetenzen

Programmierung (Go, Python, Java)Linux-Systemadministration auf Experten-NiveauMonitoring und Observability (Prometheus, Grafana, Datadog)Kubernetes und Container-OrchestrierungCloud-Plattformen (AWS, GCP, Azure)Incident Management und On-Call-ProzesseSLI/SLO-FrameworksChaos Engineering (Chaos Monkey, Litmus)Netzwerktechnik und Load BalancingAutomatisierung (Terraform, Ansible, Scripts)

Karrierepfade

  • Senior SRE
  • Staff SRE / Principal SRE
  • SRE Manager / Head of SRE
  • VP Infrastructure / VP Engineering
  • Distinguished Engineer
  • SRE-Berater/in (1.200-1.800 EUR/Tag)

Typischer Arbeitstag

Morgens: SLO-Dashboard checken – alle Services im grünen Bereich? Error Budget des Payment-Service ist bei 60% – noch OK, aber im Auge behalten. Vormittags: Toil-Reduktion – ein manueller Prozess (Zertifikatserneuerung) kommt alle 90 Tage vor und dauert 2 Stunden. Script schreiben das es automatisiert. Nachmittags: Post-Mortem von gestern Nacht – der Login-Service war 23 Minuten down. Was ist passiert? Warum hat das Alerting so spät ausgelöst? Welche Action Items? Blameless aufarbeiten. On-Call: Pager vibriert um 3 Uhr nachts – Latency-Spike im Checkout-Service. Runbook befolgen, eskalieren wenn nötig.

Arbeitsmarkt & Zukunftsaussichten

Top-5 der gefragtesten IT-Berufe. Google, Meta, Amazon, Netflix und alle großen Tech-Unternehmen haben SRE-Teams. In Deutschland: Deutsche Bank, Zalando, Delivery Hero, Auto1, SAP. Die Gehälter sind die höchsten in der IT neben ML Engineering. Remote-Arbeit Standard, On-Call ist Pflicht.

Site Reliability Engineer (SRE) Jobs in deiner Stadt

Alle Städte ansehen