Tentang Peranan
Ini adalah Ekspresi Minat, bukan peranan aktif.
Kami menjalankan kluster GPU pada perkakasan AMD Instinct dan Nvidia kelas HGX. Kerja kejuruteraan sistem merangkumi segala-galanya dari perisian tegar dan tindanan ROCm atau CUDA melalui fabrik, optik, RDMA, dan storan, hingga kluster sedia untuk penyewa.
Jika anda telah membina atau mengendalikan sistem GPU pengeluaran pada skala yang bermakna, kami ingin mengenali anda.
Tanggungjawab
- Hidupkan kluster GPU baharu: perisian tegar, BIOS, tindanan pemacu, konfigurasi fabrik, pengesahan.
- Selaraskan dan selesaikan masalah tingkah laku RDMA, RoCE, dan NCCL atau RCCL pada peringkat kluster.
- Kendalikan ROCm, CUDA, dan tindanan pustaka sokongan merentasi penyewa.
- Selaraskan dengan platform, rangkaian, dan pasukan DC mengenai kapasiti, kebolehpercayaan, dan penggantian perkakasan.
- Tulis buku panduan yang akan digunakan oleh pengendali seterusnya.
Kemahiran dan Pengalaman Diperlukan
- Pengalaman praktikal dengan kluster GPU pengeluaran, AMD Instinct atau kelas Nvidia HGX.
- Asas Linux yang kukuh, penyelesaian masalah peringkat kernel dan pemacu.
- Pemahaman tentang reka bentuk fabrik RDMA, penalaan NCCL atau RCCL, dan prestasi latihan pelbagai nod.
- Selesa dengan kemas kini perisian tegar, diagnostik perkakasan, dan eskalasi vendor.
- Metodikal. Anda mengasingkan pemboleh ubah dan bukannya mengganti bahagian.
Tentang OneQode
OneQode ialah pembekal global infrastruktur digital berprestasi tinggi. Dengan platform yang bersepadu secara menegak yang merangkumi pengiraan cloud, rangkaian low-latency, dan teknologi berdaulat merentasi lebih 30 pusat data di 5 benua, mereka membolehkan perusahaan, kerajaan, dan perniagaan yang dahagakan prestasi untuk menjalankan beban kerja AI & kritikal pada skala besar, merentasi glob.
Cara Memohon
Jika ini kedengaran seperti anda, kami ingin mendengar daripada anda.
Klik butang di bawah untuk memohon.