À propos du poste
Il s'agit d'une Expression d'Intérêt, pas d'un poste actif.
Nous exploitons des clusters GPU sur AMD Instinct et du matériel de classe Nvidia HGX. Le travail d'ingénierie système couvre tout, du firmware et des stacks ROCm ou CUDA jusqu'aux couches fabric, optiques, RDMA et stockage, jusqu'aux clusters prêts pour les locataires.
Si vous avez construit ou exploité des systèmes GPU en production à une échelle significative, nous voulons savoir qui vous êtes.
Responsabilités
- Mettre en service de nouveaux clusters GPU : firmware, BIOS, stack de drivers, configuration du fabric, validation.
- Optimiser et dépanner le comportement RDMA, RoCE et NCCL ou RCCL au niveau du cluster.
- Exploiter ROCm, CUDA et la stack de bibliothèques associée pour les différents locataires.
- Coordonner avec les équipes plateforme, réseau et datacenter sur la capacité, la fiabilité et les remplacements de matériel.
- Rédiger les runbooks dont le prochain opérateur aura besoin.
Compétences et expérience requises
- Expérience pratique avec des clusters GPU en production, AMD Instinct ou de classe Nvidia HGX.
- Solides fondamentaux Linux, dépannage au niveau du noyau et des drivers.
- Compréhension de la conception de fabric RDMA, de l'optimisation NCCL ou RCCL et des performances d'entraînement multi-nœuds.
- À l'aise avec les mises à jour firmware, le diagnostic matériel et les escalades fournisseurs.
- Méthodique. Vous isolez la variable plutôt que de remplacer la pièce.
À propos de OneQode
OneQode est un fournisseur mondial d'infrastructure numérique haute performance. Avec une plateforme verticalement intégrée qui couvre le cloud compute, les réseaux à faible latence et la technologie souveraine dans plus de 30 datacenters répartis sur 5 continents, ils permettent aux entreprises, aux gouvernements et aux organisations exigeantes en performance d'exécuter des charges de travail IA et critiques à grande échelle, partout dans le monde.
Comment postuler
Si cela vous ressemble, nous serions ravis de vous entendre.
Cliquez sur le bouton ci-dessous pour postuler.