DevOps + MLOps Engineer | NVIDIA GPUs Infrastruktur | Kubernetes | Kong | max. 95€ all in (m/w/d)

Westhouse Group WorkFromHome

Stellenbeschreibung:

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n

DevOps + MLOps Engineer | NVIDIA GPUs Infrastruktur | Kubernetes | Kong | max. 95€ all in (m/w/d) - Düsseldorf (20%) | Remote (80%)

Rahmeninformationen

  • Referenz:
  • Start:
  • Dauer: bis
  • Standort: Düsseldorf (20%) | Remote (80%)
  • Arbeitsumfang: full-time
  • Sprachen: Deutsch

Ihre Qualifikationen

  • Must Have: NVIDIA GPUs Infrastruktur (CUDA, CuDNN, Multi-GPU Scheduling); API-Manager (z.B. Kong); Model Serving (z.B. Triton Inference Server); Kubernetes
  • Wünschenswert: Service Mesh (z.B. Istio); API-Security (Rate-Limiting, Audit Logging); Model Monitoring (Grafana); Workflow-Orchestrierung (z.B. MLFlow); Betrieb (Keycloak, cert-manager)

Ihre Aufgaben

  • Aufbau und Optimierung einer skalierbaren NVIDIA GPU-Infrastruktur inklusive CUDA- und CuDNN-Konfiguration sowie Multi-GPU Scheduling für parallele KI-Workloads.
  • Implementierung und Verwaltung eines API-Managers (z. B. Kong) zur zentralen Steuerung und Absicherung von Microservice-Schnittstellen.
  • Einrichtung eines Model Serving Frameworks (z. B. Triton Inference Server) zur performanten Bereitstellung und Versionierung von KI-Modellen.
  • Containerisierung und Orchestrierung von KI-Services mit Kubernetes, inklusive Deployment-Strategien, Skalierung und Cluster-Monitoring.
  • Integration eines Service Mesh (z. B. Istio) zur Umsetzung von Traffic Management, Service Discovery und Zero-Trust-Kommunikation.
  • Implementierung von API-Security-Mechanismen wie Rate-Limiting, Authentifizierung, Autorisierung und Audit Logging.
  • Aufbau eines Model-Monitoring-Systems mit Grafana und Prometheus zur Überwachung von Modellleistung und Systemmetriken.
  • Einführung einer Workflow-Orchestrierungslösung (z. B. MLFlow) zur Verwaltung von Trainings-, Validierungs- und Deployment-Pipelines.
  • Administration von Betriebskomponenten wie Keycloak (Identity & Access Management) und cert-manager (TLS-Zertifikatsverwaltung) zur Sicherstellung des produktiven Betriebs.

Interessiert?

Wir freuen uns auf Ihre aussagekräftigen Bewerbungsunterlagen in elektronischer Form.

Ihre Ansprechpartner

Jesse Lüder
P:
E:

#J-18808-Ljbffr
NOTE / HINWEIS:
EnglishEN: Please refer to Fuchsjobs for the source of your application
DeutschDE: Bitte erwähne Fuchsjobs, als Quelle Deiner Bewerbung

Stelleninformationen

  • Typ:

    Vollzeit
  • Arbeitsmodell:

    Vor Ort
  • Kategorie:

  • Erfahrung:

    2+ years
  • Arbeitsverhältnis:

    Angestellt
  • Veröffentlichungsdatum:

    04 Nov 2025
  • Standort:

    WorkFromHome

KI Suchagent

AI job search

Möchtest über ähnliche Jobs informiert werden? Dann beauftrage jetzt den Fuchsjobs KI Suchagenten!