(Senior) Site Reliability Engineer - STACKIT Control Plane (m/w/d)

Stellenbeschreibung:

Du arbeitest eng mit den Entwicklungsteams zusammen, um die “Time-to-Detect” zu verkürzen, indem du unsere Monitoring- und Alerting-Infrastruktur verbesserst und die Einhaltung der SLOs sicherstellst.
Deine Arbeit ist entscheidend für die kontinuierliche Optimierung der „Time-to-Mitigation“; dies erreichst du durch das Erstellen klarer Playbooks, das Design von Dashboards für First Responder und die Sicherstellung umfassender Telemetriedaten (Logs und Metriken).
Du agierst als Reliability Consultant für die Entwicklungsteams, vermittelst Wissen über Reliability-Patterns und unterstützt den „Shift Left“-Ansatz, um ein Modell der geteilten Verantwortung zu etablieren.
Du gestaltest und optimierst Entwicklungsprozesse wie CI/CD-Pipelines, um Progressive-Delivery-Strategien (z. B. Canary Releases und Blue/Green Deployments) zu unterstützen und Updates sicher und risikoarm auszurollen.
Du analysierst proaktiv die Skalierbarkeit der Control Plane und behebst Engpässe in Bereichen wie Distributed Consensus, Datenbank-Durchsatz und Kernel-Level-Networking.
Du nimmst an einer vergüteten On-Call-Rotation teil, leitest Incident Responses und moderierst Post-Mortems sowie Root Cause Analysen.

Du bringst mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering mit, wobei dein Fokus auf dem Betrieb großer verteilter Systeme in Produktionsumgebungen liegt.
Du besitzt Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd.
Du beherrschst Go sicher und schreibst produktionsreifen Code, um Automatisierungstools, Kubernetes Operatoren oder Integrations-Code zu entwickeln.
Du verfügst über fundierte Erfahrung mit Infrastructure as Code und Container-Infrastrukturen sowie tiefgehende Kenntnisse in Linux-Interna (Kernel-Tuning, Memory Management) und Networking (TCP/IP, CNI, Load Balancer, eBPF).
Du bringst Erfahrung im Betrieb von Datastores (z.B. PostgreSQL, Redis) und Messaging-Systemen (z.B. Kafka, NATS) in skalierbaren Umgebungen mit.
Du gehst Problemen auf den Grund, um daraus zu lernen, automatisierst dich selbst aus dem Job und verlässt dich nicht auf das Prinzip Hoffnung.