Join to apply for the Site Reliability Manager (m/w/d) role at Michael Page
4 days ago Be among the first 25 applicants
Join to apply for the Site Reliability Manager (m/w/d) role at Michael Page
Get AI-powered advice on this job and more exclusive features.
- Fokus auf SRE‑Prinzipien: SLIs/SLOs, Fehlerbudgets, Automatisierung
- Betreuung von Cloud- & On-Prem-Umgebungen inkl. Kubernetes & IaC
About Our Client
Der Mandant ist Teil einer dynamischen Unternehmensgruppe, die technologisch führend unterwegs ist. Seine IT-Infrastruktur ist kein Alibi-Projekt, sondern Business-Enabler: Hybrid-Cloud-Lösungen, Kubernetes‑Cluster, CI/CD‑Pipelines und Monitoring‑Stacks mit SLO‑Alignment sind hier gelebte Praxis.
Das IT-Team ist klein, agil und interdisziplinär - mit flachen Hierarchien, Hands-on-Mentalität und viel Gestaltungsspielraum. Auf On‑Premises‑Systeme folgt die Cloud‑Evolution; Altsysteme werden modernisiert, automatisiert und verschmolzen mit neuen Tool‑Landscapes.
Kultur? Offen, innovativ und stärkenfokussiert. Du bist nicht nur Dienstleister, sondern Mitgestalter. Entscheidungen werden gemeinsam besprochen und zügig umgesetzt - vom Chaos‑Engineering‑Experiment bis zur letzten Pipeline‑Optimierung. Flexible Arbeitsmodelle mit Remote‑Option, moderne Büros und maßgeschneiderte Weiterbildung gehören zum Paket.
Hier kannst du nicht nur die Betriebsstabilität sichern, sondern Infrastruktur neu denken - von Monitoring über Security bis hin zu Self‑Healing‑Mechanismen.
Job Description
- Betrieb, Monitoring und Skalierung von Kubernetes‑Clustern sowie Cloud‑Infrastruktur (AWS, Azure oder GCP)
- Automatisierung repetitiver Prozesse via Terraform, Ansible, Pulumi o. ä.
- Aufbau und Weiterentwicklung von CI/CD‑Pipelines
- Definition & Tracking von SLIs/SLOs, Umgang mit Fehlerbudgets
- Incident‑Management und Post‑Mortem‑Analyse
- Implementierung von Observability mit Tools wie Prometheus, Grafana, ELK, OpenTelemetry
- Einführung von Self‑Healing- und Chaos‑Engineering‑Methoden
- Enge Zusammenarbeit mit Entwicklern, Architekten & Security‑Teams für skalierbare und sichere Lösungen
The Successful Applicant
- Abgeschlossenes Studium (Informatik, Software‑Engineering o. Ä.) oder vergleichbare Qualifikation
- Mehrjährige Berufserfahrung als SRE, DevOps Engineer oder vergleichbar
- Tiefes Verständnis für Linux, Container-Technologien (Docker, Kubernetes)
- Praxiserfahrung mit Cloud‑Plattformen und Infrastructure as Code
- Erfahrung im Aufbau von Monitoring und Ausfallsicherheits‑Strategien
- Kenntnisse in einer Scriptsprache (Python, Go oder Bash)
- Analytisch, proaktiv, empathisch und kommunikativ
- Du arbeitest strukturiert, teamorientiert und fühlst dich in agilen Abläufen wohl
What's On Offer
- Mandant, der IT als strategische Stärke betrachtet, nicht als Kostenfaktor
- Hohe Autonomie, klare Verantwortungsbereiche und aktiver Gestaltungsspielraum
- Flexible Arbeitsmodelle: Remote‑Option, Gleitzeit, Home‑Office
- Regelmäßige Weiterbildung, Zertifizierungsmöglichkeiten (z. B. CKA, Terraform Associate)
- Modern ausgestattetes Arbeitsumfeld mit Top-Tools
- Kollegiale Atmosphäre mit flachen Hierarchien
- Attraktives Vergütungspaket + Bonusmodelle
- unbefristete Festanstellung bei meinem Mandanten
- u.v.m.
Contact: Patrick Schüssler
Quote job ref: JN-
Seniority level
Seniority level
Mid-Senior level
Employment type
Employment type
Full-time
Job function
Job function
Information Technology
Referrals increase your chances of interviewing at Michael Page by 2x
Get notified about new Reliability Manager jobs in Frankfurt am Main, Hesse, Germany .
Frankfurt am Main, Hesse, Germany 5 days ago
Frankfurt am Main, Hesse, Germany 1 month ago
We’re unlocking community knowledge in a new way. Experts add insights directly into each article, started with the help of AI.
#J-18808-Ljbffr