Service Operations Lead (Platform / SRE) (m/w/d)

Stellenbeschreibung:

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n

Service Operations Lead (Platform / SRE) (m/w/d) - Remote + Frankfurt

Rahmeninformationen

  • Referenz:
  • Start:
  • Dauer: 8 Monate
  • Standort: Remote + Frankfurt
  • Arbeitsumfang: full-time
  • Sprachen: Deutsch + Englisch

Ihre Qualifikationen

  • ES MUSS ZU JEDEM SKILL MINDESTENS EINE REFERENZ GENANNT WERDEN KÖNNEN!!
  • 5–10+ Jahre Erfahrung in IT-Betrieb, Service Delivery oder Plattformbetrieb mit nachgewiesener Führungsverantwortung in geschäftskritischen Umgebungen
  • Nachweisbare Erfahrung in der Implementierung und Leitung von Incident-, Problem-, Change- und Release-Governance im Produktivbetrieb
  • Expertise im IT Service Management (ITSM): Jira Service Management (JSM), Jira, Confluence
  • Erfahrung mit zentralen Betriebsprozessen (Incident Management, Change Management, Problem Management, IT Service Management) sowie mit SRE-Konzepten
  • Erfahrung in der Gewinnung operativer Erkenntnisse aus Monitoring und Observability, einschließlich Management und Tracking von SLI/SLA/SLO
  • Praktische Erfahrung in der strukturierten Dokumentation von Prozessen sowie in der Etablierung klarer Runbooks und Playbooks
  • Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z.B. Prometheus, Grafana, Datadog, Mimir, Loki)
  • Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness)
  • Expertise in modernen Plattform-Operations (Kubernetes/Container, Automatisierung, Observability), ausreichend, um Spezialisten fachlich zu steuern
  • Kenntnisse von Plattform-Delivery-Konzepten: GitOps und Infrastructure as Code (IaC) (Terraform/OpenTofu, ArgoCD, Helm) zur Sicherstellung von Deployment- und Readiness-Standards

Ihre Aufgaben

  • Übernahme der Tier-3-Betriebsverantwortung für Compute- und Betriebssystem-Services in der lokalen Produktionsumgebung (DE)
  • Bearbeitung komplexer Incidents, tiefgehendes Troubleshooting und Durchführung von Root-Cause-Analysen; Umsetzung dauerhafter Lösungen und präventiver Maßnahmen
  • Sicherstellung der Betriebsbereitschaft von Compute/OS für Releases und Änderungen: Monitoring/Alerting-Abdeckung, Performance-Baselines, Härtung, Patch-Strategie, Rollback- und Recovery-Verfahren, Runbooks
  • Durchführung und kontinuierliche Verbesserung standardisierter Betriebsprozesse durch Automatisierung (Reduktion manueller Tätigkeiten, Verbesserung von MTTR und Stabilität)
  • Technische Koordination mit Kubernetes-, Daten-, Netzwerk- und Storage-Spezialisten zur Lösung domänenübergreifender Produktionsprobleme
  • Sicherstellung der Betriebsbereitschaft für Deployments
  • Validierung von Deployment-Artefakten aus Betriebssicht
  • Definition und Durchsetzung von Qualitätssicherungsmaßnahmen (z.B. erforderliche Dokumentation von Betriebsprozessen, erfolgreiche Testnachweise) zur Sicherstellung hoher Service- und Produktqualität
  • Sicherstellung von Rollback-Strategien und operativem Monitoring (Observability) für Produktionsdeployments
  • Überwachung von Systemzustand, Performance-Kennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen
  • Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
  • Initiierung von Root-Cause-Analysen sowie Umsetzung korrektiver und präventiver Maßnahmen
  • Automatisierung kritischer Standardbetriebsprozesse zur Reduktion manueller Aufwände und Steigerung der Servicezuverlässigkeit
  • Analyse operativer Probleme und Automatisierung entsprechender Lösungsprozesse
  • Validierung aller automatisierten Abläufe gemäß etabliertem Softwareentwicklungsprozess (inkl. Staging, Testing und Review)
  • Umsetzung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
  • Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen

Interessiert?

Wir freuen uns auf Ihre aussagekräftigen Bewerbungsunterlagen in elektronischer Form.

Ihre Ansprechpartner

Mandy Granz
P:
E:

#J-18808-Ljbffr
NOTE / HINWEIS:
EnglishEN: Please refer to Fuchsjobs for the source of your application
DeutschDE: Bitte erwähne Fuchsjobs, als Quelle Deiner Bewerbung

Stelleninformationen

  • Veröffentlichungsdatum:

    29 Mär 2026
  • Standort:

    WorkFromHome

    Einsatzort:

    Hamburg
  • Typ:

    Vollzeit
  • Arbeitsmodell:

    Vor Ort
  • Kategorie:

  • Erfahrung:

    2+ years
  • Arbeitsverhältnis:

    Angestellt

KI Suchagent

AI job search

Möchtest über ähnliche Jobs informiert werden? Dann beauftrage jetzt den Fuchsjobs KI Suchagenten!