détails du poste mai 2026

GPU Systems Engineer

type Temps plein (EOI) lieu À distance horaires Heures de bureau avec rotation d'astreinte date 23 mai 2026

À propos du poste

Il s'agit d'une Expression d'Intérêt, pas d'un poste actif.

Nous exploitons des clusters GPU sur AMD Instinct et du matériel de classe Nvidia HGX. Le travail d'ingénierie système couvre tout, du firmware et des stacks ROCm ou CUDA jusqu'aux couches fabric, optiques, RDMA et stockage, jusqu'aux clusters prêts pour les locataires.

Si vous avez construit ou exploité des systèmes GPU en production à une échelle significative, nous voulons savoir qui vous êtes.

Responsabilités

  • Mettre en service de nouveaux clusters GPU : firmware, BIOS, stack de drivers, configuration du fabric, validation.
  • Optimiser et dépanner le comportement RDMA, RoCE et NCCL ou RCCL au niveau du cluster.
  • Exploiter ROCm, CUDA et la stack de bibliothèques associée pour les différents locataires.
  • Coordonner avec les équipes plateforme, réseau et datacenter sur la capacité, la fiabilité et les remplacements de matériel.
  • Rédiger les runbooks dont le prochain opérateur aura besoin.

Compétences et expérience requises

  • Expérience pratique avec des clusters GPU en production, AMD Instinct ou de classe Nvidia HGX.
  • Solides fondamentaux Linux, dépannage au niveau du noyau et des drivers.
  • Compréhension de la conception de fabric RDMA, de l'optimisation NCCL ou RCCL et des performances d'entraînement multi-nœuds.
  • À l'aise avec les mises à jour firmware, le diagnostic matériel et les escalades fournisseurs.
  • Méthodique. Vous isolez la variable plutôt que de remplacer la pièce.

À propos de OneQode

OneQode est un fournisseur mondial d'infrastructure numérique haute performance. Avec une plateforme verticalement intégrée qui couvre le cloud compute, les réseaux à faible latence et la technologie souveraine dans plus de 30 datacenters répartis sur 5 continents, ils permettent aux entreprises, aux gouvernements et aux organisations exigeantes en performance d'exécuter des charges de travail IA et critiques à grande échelle, partout dans le monde.

Comment postuler

Si cela vous ressemble, nous serions ravis de vous entendre.

Cliquez sur le bouton ci-dessous pour postuler.

browse similar roles
  • NOC Engineer

    type Temps plein (Contrat) lieu À distance (Malaisie) horaires Rotation d'équipes 24x7 date

  • Solutions Architect

    type Temps plein lieu À distance (APAC de préférence) horaires Heures de bureau standard date

  • Cloud Platform Engineer

    type Temps plein lieu À distance horaires Heures de bureau standard date

  • PR & Narrative Lead

    type Temps plein lieu À distance (fuseau horaire APAC de préférence) horaires Heures de bureau standard date

  • Enterprise Sales

    type Temps plein lieu États-Unis, ASEAN ou Europe horaires Aligné sur la région cible date

  • Executive Assistant

    type Temps plein lieu À distance (fuseau horaire APAC) horaires Heures de bureau standard date

  • Head of People

    type Temps plein lieu À distance horaires Heures de bureau standard date

  • Legal Counsel

    type Temps plein lieu À distance horaires Heures de bureau standard date

  • Datacenter Operations Engineer

    type Temps plein lieu Bangkok, Thaïlande horaires Sur site avec rotation d'astreinte date

Prêt à commencer ?

Parlez à notre équipe infrastructure de votre prochain déploiement.