Site Reliability Engineers sorgen dafür, dass Software-Systeme zuverlässig, skalierbar und performant laufen. Google hat den Beruf in den 2000er Jahren erfunden und definiert SRE als 'was passiert, wenn man Software Engineers mit Operations-Aufgaben betraut'. SREs schreiben Code um die Infrastruktur zu automatisieren, definieren Service Level Objectives (SLOs) und stellen sicher, dass Systeme ihre Verfügbarkeitsziele einhalten. Im Unterschied zu klassischen Systemadministratoren lösen SREs Probleme durch Programmierung statt durch manuelle Konfiguration. Im Unterschied zu DevOps Engineers sind SREs stärker auf Zuverlässigkeit und Incident Response spezialisiert.
Morgens: SLO-Dashboard checken – alle Services im grünen Bereich? Error Budget des Payment-Service ist bei 60% – noch OK, aber im Auge behalten. Vormittags: Toil-Reduktion – ein manueller Prozess (Zertifikatserneuerung) kommt alle 90 Tage vor und dauert 2 Stunden. Script schreiben das es automatisiert. Nachmittags: Post-Mortem von gestern Nacht – der Login-Service war 23 Minuten down. Was ist passiert? Warum hat das Alerting so spät ausgelöst? Welche Action Items? Blameless aufarbeiten. On-Call: Pager vibriert um 3 Uhr nachts – Latency-Spike im Checkout-Service. Runbook befolgen, eskalieren wenn nötig.
Top-5 der gefragtesten IT-Berufe. Google, Meta, Amazon, Netflix und alle großen Tech-Unternehmen haben SRE-Teams. In Deutschland: Deutsche Bank, Zalando, Delivery Hero, Auto1, SAP. Die Gehälter sind die höchsten in der IT neben ML Engineering. Remote-Arbeit Standard, On-Call ist Pflicht.