IT-Systemhaus der Bundesagentur für Arbeit

Research Scientist - Pretraining-Daten für Foundation Models (all genders)

Stellenbeschreibung:

Research Scientist - Pretraining-Daten für Foundation Models (all genders)

Stellendetails:

  • Beginn ab
  • Anstellungsart: Vollzeit
  • Zunächst befristet auf 2 Jahre, Möglichkeit der Verlängerung

Stellenbeschreibung

Als Teil der größten Organisation für anwendungsorientierte Forschung in Europa, sucht das Fraunhofer IAIS in Dresden einen*n Research Scientist mit Fokus auf Pretraining-Daten für Foundation Models.

Verantwortlichkeiten

  • Du konzipierst und realisierst skalierbare Datenpipelines für die Aufbereitung großer Web‑Korpora (z. B. Common Crawl) als Trainingsdaten für Foundation Models; das umfasst Extraktion, Filterung, Deduplizierung sowie Qualitäts- und Toxizitätsbewertung.
  • Du entwickelst Methoden zur synthetischen Datengenerierung mittels großer Sprachmodelle, um gezielt neue Trainings‑ und Evaluierungsdaten für Pre‑Training, Instruction Tuning und Alignment zu erzeugen.
  • Du betreibst und optimierst die zugrunde liegende Inferenz‑Infrastruktur für große Modelle, u. a. auf Basis von Frameworks wie vLLM, und integrierst sie in unsere Datenpipelines.
  • Du implementierst und integrierst Deine Methoden in unseren Technologie‑Stack und setzt sie auf Hochleistungsrechnern mit mehreren Tausend GPUs ein.
  • Du trainierst Foundation Models auf Basis Deiner entwickelten Methoden auf Hochleistungsrechnern inklusive GPU‑Clusters.
  • Du publizierst Forschungsergebnisse auf internationalen Konferenzen und in Fachzeitschriften und vertrittst Dein Forschungsthema in der Öffentlichkeit.
  • Du evaluierst zusammen mit unseren Anwendungsteams das Marktpotential Deiner KI‑Forschung.

Qualifikationen

  • Abgeschlossenes Master‑ oder Diplomstudium (Informatik, Mathematik, Physik oder ähnliche Fachrichtungen) mit ausgezeichnetem Abschluss; Promotion von Vorteil.
  • Vorkenntnisse in Data Science, Maschinelles Lernen und Künstliche Intelligenz; tiefes Verständnis des Maschinellen Lernens.
  • Sehr gute Programmierkenntnisse, insbesondere in Python und PyTorch.
  • Erfahrung mit Verarbeitung großer Datenmengen und verteiltem Rechnen (z. B. Spark, Ray, Dask) ist von Vorteil.
  • Erfahrung mit Inferenz‑ und Serving‑Frameworks für große Sprachmodelle (z. B. vLLM, TGI, SGLang) ist von Vorteil.
  • Erfahrung mit Web‑Daten‑Korpora (z. B. Common Crawl) und typischen Aufbereitungsschritten (Sprachidentifikation, Deduplizierung, Qualitätsfilterung) ist wünschenswert.
  • Exzellente analytische Fähigkeiten, Freude an abstraktem Denken und konzeptionellem Arbeiten.
  • Hohe Einsatzfreude und Bereitschaft, sich schnell in neue Sachverhalte einzuarbeiten.
  • Strukturiertes Arbeiten und professionelles Auftreten.
  • Sehr gute Deutschkenntnisse (mind. Niveau C1).

Was wir für Dich bereithalten

  • Forschung auf Spitzenniveau innerhalb eines erstklassigen Forschungsumfelds.
  • Ableitung und Definition der Forschungsfragen aus realen Anwendungsproblemen, sodass Ergebnisse in Produkte und Industrieanwendungen integriert werden können.
  • Förderung Deiner individuellen Entwicklung.
  • Zugang zu erstklassiger Infrastruktur zum effektiven Trainieren von Foundation Models.
  • Mitwirkung an wegweisenden nationalen und internationalen Projekten (z. B. TrustLLM, Soofi).
  • Diversity‑Training für alle Mitarbeitenden und aktiver Einsatz für Chancengleichheit und Vielfalt.
  • Vermögenswirksame Leistungen und betriebliche Altersvorsorge.
  • Vergünstigungen beim Deutschlandticket.

Arbeitsbedingungen

Die wöchentliche Arbeitszeit beträgt 39 Stunden. Die Stelle kann auch in Teilzeit besetzt werden. Die Anstellung, Vergütung und Sozialleistungen basieren auf dem Tarifvertrag für den öffentlichen Dienst (TVöD). Zusätzlich können leistungs‑ und erfolgsabhängige variable Vergütungsbestandteile gewährt werden.

EEO‑Statement

Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung und sexueller Orientierung. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt. Unsere Aufgaben sind vielfältig und anpassbar – für Bewerber*innen mit Behinderung finden wir gemeinsam Lösungen, die ihre Fähigkeiten optimal fördern.

#J-18808-Ljbffr
NOTE / HINWEIS:
EnglishEN: Please refer to Fuchsjobs for the source of your application
DeutschDE: Bitte erwähne Fuchsjobs, als Quelle Deiner Bewerbung

Stelleninformationen

  • Veröffentlichungsdatum:

    08 Mai 2026
  • Standort:

    Dresden

    Einsatzort:

    Kreis Nordfriesland, Fachdienst Personal
  • Typ:

    Vollzeit
  • Arbeitsmodell:

    Vor Ort
  • Kategorie:

  • Erfahrung:

    2+ years
  • Arbeitsverhältnis:

    Angestellt

KI Suchagent

AI job search

Möchtest über ähnliche Jobs informiert werden? Dann beauftrage jetzt den Fuchsjobs KI Suchagenten!

Diese Jobs passen zu Deiner Suche:

Vollzeit Lünen
15 Mai 2026Development & IT
Vollzeit Schweinfurt
24 Apr 2026Development & IT
partner ad:Stepstone partner
Vollzeit Kempten
16 Mai 2026Development & IT
partner ad:Stepstone partner
Vollzeit München
16 Mai 2026Development & IT
partner ad:Stepstone partner
Vollzeit Berlin
16 Mai 2026Development & IT
partner ad:Stepstone partner
Vollzeit Homeoffice
16 Mai 2026Development & IT
partner ad:Stepstone partner
Vollzeit Rottenburg am Neckar
16 Mai 2026Development & IT
partner ad:Stepstone partner
Vollzeit Karlsruhe
17 Mai 2026Development & IT