Site Reliability Engineer (SRE)

5.000 – 8.500 € / MonatStudium Informatik + Erfahrung in Softwareentwicklung und Systemadministration. Google hat den Beruf erfunden.IT & Software

Stellen für Site Reliability Engineer (SRE) ansehen

Berufsprofil

Site Reliability Engineers sorgen dafür, dass Software-Systeme zuverlässig, skalierbar und performant laufen. Google hat den Beruf in den 2000er Jahren erfunden und definiert SRE als 'was passiert, wenn man Software Engineers mit Operations-Aufgaben betraut'. SREs schreiben Code um die Infrastruktur zu automatisieren, definieren Service Level Objectives (SLOs) und stellen sicher, dass Systeme ihre Verfügbarkeitsziele einhalten. Im Unterschied zu klassischen Systemadministratoren lösen SREs Probleme durch Programmierung statt durch manuelle Konfiguration. Im Unterschied zu DevOps Engineers sind SREs stärker auf Zuverlässigkeit und Incident Response spezialisiert.

Typische Aufgaben

1Definition und Überwachung von SLIs/SLOs/SLAs
2Incident Response: Ausfälle schnell beheben und Root Cause analysieren
3Automatisierung manueller Operational Tasks (Toil Reduction)
4Kapazitätsplanung und Performance-Engineering
5Aufbau und Wartung von Monitoring und Alerting
6Chaos Engineering: Kontrollierte Ausfälle zum Testen der Resilienz
7On-Call-Rotation und Bereitschaftsdienst
8Post-Mortem-Analyse und Blameless Retrospectives
9Change Management und Release Engineering
10Reliability Reviews für neue Services

Gefragte Kompetenzen

Programmierung (Go, Python, Java)Linux-Systemadministration auf Experten-NiveauMonitoring und Observability (Prometheus, Grafana, Datadog)Kubernetes und Container-OrchestrierungCloud-Plattformen (AWS, GCP, Azure)Incident Management und On-Call-ProzesseSLI/SLO-FrameworksChaos Engineering (Chaos Monkey, Litmus)Netzwerktechnik und Load BalancingAutomatisierung (Terraform, Ansible, Scripts)

Karrierepfade

Senior SRE
Staff SRE / Principal SRE
SRE Manager / Head of SRE
VP Infrastructure / VP Engineering
Distinguished Engineer
SRE-Berater/in (1.200-1.800 EUR/Tag)

Typischer Arbeitstag

Morgens: SLO-Dashboard checken – alle Services im grünen Bereich? Error Budget des Payment-Service ist bei 60% – noch OK, aber im Auge behalten. Vormittags: Toil-Reduktion – ein manueller Prozess (Zertifikatserneuerung) kommt alle 90 Tage vor und dauert 2 Stunden. Script schreiben das es automatisiert. Nachmittags: Post-Mortem von gestern Nacht – der Login-Service war 23 Minuten down. Was ist passiert? Warum hat das Alerting so spät ausgelöst? Welche Action Items? Blameless aufarbeiten. On-Call: Pager vibriert um 3 Uhr nachts – Latency-Spike im Checkout-Service. Runbook befolgen, eskalieren wenn nötig.

Arbeitsmarkt & Zukunftsaussichten

Top-5 der gefragtesten IT-Berufe. Google, Meta, Amazon, Netflix und alle großen Tech-Unternehmen haben SRE-Teams. In Deutschland: Deutsche Bank, Zalando, Delivery Hero, Auto1, SAP. Die Gehälter sind die höchsten in der IT neben ML Engineering. Remote-Arbeit Standard, On-Call ist Pflicht.

Site Reliability Engineer (SRE) Jobs in deiner Stadt

Site Reliability Engineer (SRE) in Aachen Site Reliability Engineer (SRE) in Augsburg Site Reliability Engineer (SRE) in Bamberg Site Reliability Engineer (SRE) in Bayreuth Site Reliability Engineer (SRE) in Berlin Site Reliability Engineer (SRE) in Bielefeld

Alle Städte ansehen