Over de Functie
Dit is een interesse-peiling, geen actieve vacature.
Wij draaien GPU-clusters op AMD Instinct en Nvidia HGX-klasse hardware. Het systems engineering-werk omvat alles van firmware en ROCm- of CUDA-stacks via fabric, optica, RDMA en opslag, tot tenantklare clusters.
Als u productie-GPU-systemen op betekenisvolle schaal heeft gebouwd of beheerd, willen we weten wie u bent.
Verantwoordelijkheden
- Nieuwe GPU-clusters opstarten: firmware, BIOS, driverstacks, fabric-configuratie, validatie.
- RDMA-, RoCE- en NCCL- of RCCL-gedrag afstemmen en oplossen op clusterniveau.
- ROCm, CUDA en de ondersteunende bibliotheekstack beheren over tenants heen.
- Coördineren met platform-, netwerk- en DC-teams over capaciteit, betrouwbaarheid en hardwarewisselingen.
- De runbooks schrijven waarop de volgende operator zal vertrouwen.
Vereiste Vaardigheden en Ervaring
- Praktische ervaring met productie-GPU-clusters, AMD Instinct of Nvidia HGX-klasse.
- Sterke Linux-fundamenten, probleemoplossing op kernel- en driverniveau.
- Begrip van RDMA fabric-ontwerp, NCCL- of RCCL-afstemming en multi-node trainingsprestaties.
- Comfort met firmware-updates, hardwarediagnostiek en leveranciersescalaties.
- Methodisch. U isoleert de variabele in plaats van het onderdeel te verwisselen.
Over OneQode
OneQode is een mondiale aanbieder van performance digitale infrastructuur. Met een verticaal geïntegreerd platform dat cloud compute, low-latency netwerken en soevereine technologie omspant over meer dan 30 datacenters op 5 continenten, stelt het enterprises, overheden en prestatiegerichte bedrijven in staat om AI- en bedrijfskritische werklasten op schaal uit te voeren, over de hele wereld.
Hoe te Solliciteren
Klinkt dit als u, dan horen we graag van u.
Klik op de knop hieronder om te solliciteren.