Service Operations Lead (Platform / SRE) (m/w/d)

Stellenbeschreibung:

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n

Service Operations Lead (Platform / SRE) (m/w/d) - Remote + Frankfurt

Rahmeninformationen

Referenz:
Start:
Dauer: 8 Monate
Standort: Remote + Frankfurt
Arbeitsumfang: full-time
Sprachen: Deutsch + Englisch

Ihre Qualifikationen

ES MUSS ZU JEDEM SKILL MINDESTENS EINE REFERENZ GENANNT WERDEN KÖNNEN!!
5–10+ Jahre Erfahrung in IT-Betrieb, Service Delivery oder Plattformbetrieb mit nachgewiesener Führungsverantwortung in geschäftskritischen Umgebungen
Nachweisbare Erfahrung in der Implementierung und Leitung von Incident-, Problem-, Change- und Release-Governance im Produktivbetrieb
Expertise im IT Service Management (ITSM): Jira Service Management (JSM), Jira, Confluence
Erfahrung mit zentralen Betriebsprozessen (Incident Management, Change Management, Problem Management, IT Service Management) sowie mit SRE-Konzepten
Erfahrung in der Gewinnung operativer Erkenntnisse aus Monitoring und Observability, einschließlich Management und Tracking von SLI/SLA/SLO
Praktische Erfahrung in der strukturierten Dokumentation von Prozessen sowie in der Etablierung klarer Runbooks und Playbooks
Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z.B. Prometheus, Grafana, Datadog, Mimir, Loki)
Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness)
Expertise in modernen Plattform-Operations (Kubernetes/Container, Automatisierung, Observability), ausreichend, um Spezialisten fachlich zu steuern
Kenntnisse von Plattform-Delivery-Konzepten: GitOps und Infrastructure as Code (IaC) (Terraform/OpenTofu, ArgoCD, Helm) zur Sicherstellung von Deployment- und Readiness-Standards

Ihre Aufgaben

Übernahme der Tier-3-Betriebsverantwortung für Compute- und Betriebssystem-Services in der lokalen Produktionsumgebung (DE)
Bearbeitung komplexer Incidents, tiefgehendes Troubleshooting und Durchführung von Root-Cause-Analysen; Umsetzung dauerhafter Lösungen und präventiver Maßnahmen
Sicherstellung der Betriebsbereitschaft von Compute/OS für Releases und Änderungen: Monitoring/Alerting-Abdeckung, Performance-Baselines, Härtung, Patch-Strategie, Rollback- und Recovery-Verfahren, Runbooks
Durchführung und kontinuierliche Verbesserung standardisierter Betriebsprozesse durch Automatisierung (Reduktion manueller Tätigkeiten, Verbesserung von MTTR und Stabilität)
Technische Koordination mit Kubernetes-, Daten-, Netzwerk- und Storage-Spezialisten zur Lösung domänenübergreifender Produktionsprobleme
Sicherstellung der Betriebsbereitschaft für Deployments
Validierung von Deployment-Artefakten aus Betriebssicht
Definition und Durchsetzung von Qualitätssicherungsmaßnahmen (z.B. erforderliche Dokumentation von Betriebsprozessen, erfolgreiche Testnachweise) zur Sicherstellung hoher Service- und Produktqualität
Sicherstellung von Rollback-Strategien und operativem Monitoring (Observability) für Produktionsdeployments
Überwachung von Systemzustand, Performance-Kennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen
Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
Initiierung von Root-Cause-Analysen sowie Umsetzung korrektiver und präventiver Maßnahmen
Automatisierung kritischer Standardbetriebsprozesse zur Reduktion manueller Aufwände und Steigerung der Servicezuverlässigkeit
Analyse operativer Probleme und Automatisierung entsprechender Lösungsprozesse
Validierung aller automatisierten Abläufe gemäß etabliertem Softwareentwicklungsprozess (inkl. Staging, Testing und Review)
Umsetzung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen