عن الدور
هذا إبداء اهتمام، وليس دوراً نشطاً.
نشغّل عناقيد GPU على أجهزة AMD Instinct وNvidia HGX. تشمل مهمة هندسة الأنظمة كل شيء من البرامج الثابتة ومكدسات ROCm أو CUDA أسفل من خلال النسيج والبصريات وRDMA والتخزين، وصولاً إلى العناقيد الجاهزة للمستأجرين.
إذا كنت قد بنيت أو شغّلت أنظمة GPU في الإنتاج على نطاق ذي معنى، فنحن نريد معرفة من أنت.
المسؤوليات
- تشغيل عناقيد GPU الجديدة: البرامج الثابتة، BIOS، مكدس التعريفات، تهيئة النسيج، التحقق.
- ضبط سلوك RDMA وRoCE وNCCL أو RCCL على مستوى العنقود واستكشاف أخطائها وإصلاحها.
- تشغيل ROCm وCUDA ومكدس المكتبات الداعمة عبر المستأجرين.
- التنسيق مع فرق المنصة والشبكة ومراكز البيانات بشأن الطاقة والموثوقية وتبادل الأجهزة.
- كتابة كتيبات التشغيل التي سيعتمد عليها المشغّل التالي.
المهارات والخبرات المطلوبة
- خبرة عملية مع عناقيد GPU في الإنتاج، AMD Instinct أو Nvidia HGX.
- أسس Linux قوية، استكشاف أخطاء على مستوى النواة والتعريفات وإصلاحها.
- فهم تصميم نسيج RDMA وضبط NCCL أو RCCL وأداء التدريب متعدد العقد.
- الراحة في تحديثات البرامج الثابتة والتشخيصات الجهازية وتصعيد الموردين.
- منهجي. تعزل المتغير بدلاً من تبادل الجزء.
عن OneQode
OneQode مزود عالمي للبنية التحتية الرقمية عالية الأداء. بمنصة متكاملة رأسياً تمتد عبر الحوسبة السحابية والشبكات منخفضة الكمون والتكنولوجيا السيادية في أكثر من 30 مركز بيانات في 5 قارات، تمكّن الشركات والحكومات والشركات الجائعة للأداء من تشغيل أعباء عمل الذكاء الاصطناعي والمهام الحيوية على نطاق واسع، عبر العالم.
كيفية التقديم
إذا بدا هذا يصفك، يسعدنا سماعك.
انقر على الزر أدناه للتقديم.