Schwarz Digits

(Senior) Site Reliability Engineer - STACKIT Control Plane (m/w/d)

Stellenbeschreibung:

Senior Site Reliability Engineer - STACKIT Control Plane (m/w/d)

Kurzüberblick

  • Standort: [FEHLT: Standort]
  • Arbeitsmodell: [FEHLT: Arbeitsmodell]
  • Anstellungsart: [FEHLT: Anstellungsart]

Aufgaben

  • Du arbeitest eng mit den Entwicklungsteams zusammen, um die “Time-to-Detect” zu verkürzen, indem du unsere Monitoring- und Alerting-Infrastruktur verbesserst und die Einhaltung der SLOs sicherstellst.
  • Deine Arbeit ist entscheidend für die kontinuierliche Optimierung der „Time-to-Mitigation“; dies erreichst du durch das Erstellen klarer Playbooks, das Design von Dashboards für First Responder und die Sicherstellung umfassender Telemetriedaten (Logs und Metriken).
  • Du agierst als Reliability Consultant für die Entwicklungsteams, vermittelst Wissen über Reliability-Patterns und unterstützt den „Shift Left“-Ansatz, um ein Modell der geteilten Verantwortung zu etablieren.
  • Du gestaltest und optimierst Entwicklungsprozesse wie CI/CD-Pipelines, um Progressive-Delivery-Strategien (z. B. Canary Releases und Blue/Green Deployments) zu unterstützen und Updates sicher und risikoarm auszurollen.
  • Du analysierst proaktiv die Skalierbarkeit der Control Plane und behebst Engpässe in Bereichen wie Distributed Consensus, Datenbank-Durchsatz und Kernel-Level-Networking.
  • Du nimmst an einer vergüteten On-Call-Rotation teil, leitest Incident Responses und moderierst Post-Mortems sowie Root Cause Analysen.

Anforderungen

  • Du bringst mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering mit, wobei dein Fokus auf dem Betrieb großer verteilter Systeme in Produktionsumgebungen liegt.
  • Du besitzt Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd.
  • Du beherrschst Go sicher und schreibst produktionsreifen Code, um Automatisierungstools, Kubernetes Operatoren oder Integrations-Code zu entwickeln.
  • Du verfügst über fundierte Erfahrung mit Infrastructure as Code und Container-Infrastrukturen sowie tiefgehende Kenntnisse in Linux-Interna (Kernel-Tuning, Memory Management) und Networking (TCP/IP, CNI, Load Balancer, eBPF).
  • Du bringst Erfahrung im Betrieb von Datastores (z.B. PostgreSQL, Redis) und Messaging-Systemen (z.B. Kafka, NATS) in skalierbaren Umgebungen mit.
  • Du gehst Problemen auf den Grund, um daraus zu lernen, automatisierst dich selbst aus dem Job und verlässt dich nicht auf das Prinzip Hoffnung.

Benefits

  • [FEHLT: Benefits]
NOTE / HINWEIS:
EnglishEN: Please refer to Fuchsjobs for the source of your application
DeutschDE: Bitte erwähne Fuchsjobs, als Quelle Deiner Bewerbung

Stelleninformationen

  • Veröffentlichungsdatum:

    18 Mär 2026
  • Gehaltsspanne (KI-Schätzung):

    80000€ bis 120000€ p.a.
  • Standort:

    Heilbronn

    Einsatzort:

    Germany (best effort, inferred from text)
  • Typ:

    Vollzeit
  • Arbeitsmodell:

    Vor Ort
  • Kategorie:

  • Erfahrung:

    2+ years
  • Arbeitsverhältnis:

    Angestellt

KI Suchagent

AI job search

Möchtest über ähnliche Jobs informiert werden? Dann beauftrage jetzt den Fuchsjobs KI Suchagenten!