Sobre el puesto
Esta es una Expresión de Interés, no un puesto activo.
Operamos clústeres GPU con hardware AMD Instinct y Nvidia HGX-class. El trabajo de ingeniería de sistemas abarca desde el firmware y los stacks de ROCm o CUDA, pasando por la fabric, la óptica, RDMA y el almacenamiento, hasta los clústeres listos para inquilinos.
Si has construido u operado sistemas GPU en producción a escala significativa, queremos conocerte.
Responsabilidades
- Poner en marcha nuevos clústeres GPU: firmware, BIOS, stack de drivers, configuración de fabric, validación.
- Ajustar y solucionar problemas de RDMA, RoCE y el comportamiento de NCCL o RCCL a nivel de clúster.
- Operar ROCm, CUDA y el stack de librerías de soporte entre inquilinos.
- Coordinarse con los equipos de plataforma, red y DC en capacidad, fiabilidad e intercambio de hardware.
- Redactar los runbooks de los que dependerá el próximo operador.
Habilidades y experiencia requeridas
- Experiencia práctica con clústeres GPU en producción, AMD Instinct o Nvidia HGX-class.
- Sólidos fundamentos en Linux, resolución de problemas a nivel de kernel y drivers.
- Comprensión del diseño de fabric RDMA, ajuste de NCCL o RCCL y rendimiento de entrenamiento multi-nodo.
- Comodidad con actualizaciones de firmware, diagnósticos de hardware y escaladas a fabricantes.
- Metódico. Aislas la variable en lugar de cambiar la pieza.
Sobre OneQode
OneQode es un proveedor global de infraestructura digital de alto rendimiento. Con una plataforma verticalmente integrada que abarca cómputo cloud, redes de baja latency y tecnología soberana en más de 30 datacenters en 5 continentes, permite a empresas, gobiernos y negocios con alta demanda de rendimiento ejecutar cargas de trabajo de IA y de misión crítica a escala, en todo el mundo.
Cómo postularse
Si esto encaja contigo, nos encantaría saber de ti.
Haz clic en el botón de abajo para postularte.