- Accueil
- Emploi Télétravail
- ML Infrastructure Engineer
Mission
Ce poste est publié par Jobgether pour le compte d'une entreprise partenaire. Nous recherchons actuellement un Ingénieur Infrastructure ML en France.
Rejoignez un environnement d'infrastructure IA de pointe axé sur l'alimentation de la prochaine génération d'apprentissage automatique et des charges de travail IA à grande échelle. Ce rôle offre l'opportunité de travailler à l'intersection de l'ingénierie des performances GPU, de l'optimisation de l'apprentissage profond et du développement d'infrastructures à l'échelle du cloud. Vous contribuerez directement à l'évaluation comparative et à l'optimisation des plateformes GPU avancées qui prennent en charge l'entraînement et l'inférence pour les réseaux neuronaux complexes et les systèmes IA. En travaillant aux côtés d'équipes d'ingénierie et matérielles hautement qualifiées, vous contribuerez à améliorer les performances sur les architectures informatiques, les piles logicielles et les environnements IA distribués. Le poste est idéal pour les ingénieurs passionnés par les systèmes ML, les performances des modèles à grande échelle et l'innovation en matière d'infrastructure. Avec une exposition aux frameworks IA modernes, aux écosystèmes GPU haute performance et à la collaboration internationale, ce rôle offre une plateforme solide pour la croissance technique et un impact significatif au sein de l'industrie de l'IA.
Responsabilités
- Évaluer et analyser les performances des plateformes GPU pour les charges de travail d'apprentissage automatique et d'IA sur diverses architectures, frameworks et environnements logiciels.
- Collaborer étroitement avec les équipes matérielles et d'ingénierie pour profiler les performances GPU aux niveaux système et noyau et identifier les opportunités d'optimisation.
- Analyser, déboguer et optimiser les charges de travail d'entraînement et d'inférence pour améliorer l'efficacité, la scalabilité et l'utilisation globale du matériel.
- Effectuer des tests d'acceptation pour les nouveaux clusters GPU afin de valider les performances, la stabilité, la compatibilité et la préparation opérationnelle pour les charges de travail IA.
- Mener des expériences sur plusieurs configurations GPU et stratégies d'interconnexion pour évaluer la scalabilité au niveau du système et les compromis de performance.
- Développer des outils internes, des tableaux de bord et des cadres de reporting pour visualiser les métriques de performance, les goulots d'étranglement et les tendances de l'infrastructure.
- Contribuer aux meilleures pratiques d'infrastructure, aux améliorations des outils internes et aux méthodologies d'évaluation comparative pour les environnements IA et ML.
- Soutenir les efforts continus d'optimisation des plateformes liés à l'entraînement distribué, à l'accélération de l'inférence, aux stratégies de parallélisme et à l'optimisation des performances conscientes du matériel.
Exigences
- Solide base théorique en apprentissage automatique, architectures d'apprentissage profond et principes d'optimisation des systèmes IA.
- Compréhension approfondie des techniques d'optimisation des performances pour l'entraînement et l'inférence de grands réseaux neuronaux, y compris les stratégies de parallélisme, l'optimisation des noyaux, le batching et l'accélération matérielle.
- Vaste expérience avec les frameworks d'apprentissage profond modernes tels que PyTorch, JAX, Megatron-LM, TensorRT-LLM ou des technologies équivalentes.
- Solide expertise avec les technologies GPU et les piles logicielles, y compris CUDA, NCCL, les pilotes GPU et les bibliothèques liées aux performances.
- Expérience dans le profilage et le débogage des charges de travail GPU à l'aide d'outils tels que Nsight, nvprof, perf ou des plateformes d'analyse de performance similaires.
- Connaissance des environnements conteneurisés et distribués, y compris Docker et Kubernetes.
- Solides compétences en programmation et en scripting, en particulier en Python et dans les flux de travail de développement axés sur la performance.
- Excellentes compétences en résolution de problèmes, en pensée analytique et en communication, avec la capacité de travailler de manière autonome dans des environnements hautement techniques.
- L'expérience avec les frameworks d'inférence LLM tels que vLLM, SGLang ou TensorRT est considérée comme un avantage majeur.
- La familiarité avec les écosystèmes ML basés sur le cloud tels qu'AWS, Google Cloud Platform ou Azure ML est bénéfique.
- Les contributions aux outils ML open-source, aux frameworks d'évaluation comparative ou aux projets d'infrastructure sont très appréciées.
Avantages
- Package de rémunération compétitif aligné sur l'expérience et l'expertise technique.
- Environnement de travail à distance flexible favorisant un bon équilibre vie professionnelle-vie privée.
- Accès à la formation continue, au développement de carrière et aux opportunités de croissance dans le domaine de l'infrastructure IA.
- Opportunité de travailler sur des projets IA impactants qui façonnent l'avenir de l'infrastructure d'apprentissage automatique et du cloud computing.
- Culture d'ingénierie collaborative et axée sur l'innovation avec une forte appropriation technique et autonomie.
- Environnement de travail international avec une exposition à des équipes distribuées mondialement et des technologies IA avancées.
- Cadre dynamique axé sur la pensée audacieuse, l'expérimentation et l'évolution technique continue.
- Opportunité de contribuer à des systèmes IA haute performance utilisés par les développeurs et les entreprises du monde entier.
Comment fonctionne Jobgether
Nous utilisons un processus de mise en correspondance alimenté par l'IA pour garantir que votre candidature est examinée rapidement, objectivement et équitablement par rapport aux exigences principales du poste. Notre système identifie les candidats les mieux adaptés, et cette liste restreinte est ensuite partagée directement avec l'entreprise de recrutement. La décision finale et les prochaines étapes (entretiens, évaluations) sont gérées par leur équipe interne.
Nous apprécions votre intérêt et vous souhaitons bonne chance !
Pourquoi postuler via Jobgether ?
Avis de confidentialité des données : En soumettant votre candidature, vous reconnaissez que Jobgether traitera vos données personnelles pour évaluer votre candidature et partager les informations pertinentes avec l'employeur recruteur. Ce traitement est basé sur l'intérêt légitime et les mesures précontractuelles en vertu des lois applicables sur la protection des données (y compris le RGPD). Vous pouvez exercer vos droits (accès, rectification, effacement, opposition) à tout moment.
Nous pouvons utiliser des outils d'intelligence artificielle (IA) pour soutenir certaines parties du processus de recrutement, telles que l'examen des candidatures, l'analyse des CV ou l'évaluation des réponses. Ces outils aident notre équipe de recrutement mais ne remplacent pas le jugement humain. Les décisions d'embauche finales sont finalement prises par des humains. Si vous souhaitez plus d'informations sur la manière dont vos données sont traitées, veuillez nous contacter.