Déjà pourvu

Ne rate pas la prochaine offre. Reçois des postes adaptés directement par e-mail.

Recevoir des emplois par e-mail Tous les emplois Travail à domicile

Inria

Research Engineer / Postdoctoral Researcher @Grenoble: Conditional Generative PDE Surrogates for Ocean Model

Résumé du poste

Saint-Martin-d'Hères

Data Scientist

Modèle de travail

Hybride · 4 jours à domicile

il y a 1 mois

Description du poste

À propos du centre ou de la direction fonctionnelle

Le Centre Inria de l'Université de Grenoble regroupe près de 600 personnes réparties en 26 équipes de recherche et 9 départements de soutien à la recherche.

Le personnel est présent sur trois campus à Grenoble, en étroite collaboration avec d'autres institutions de recherche et d'enseignement supérieur (Université Grenoble Alpes, CNRS, CEA, INRAE, ...), mais aussi avec des acteurs économiques clés de la région.

Le Centre Inria de l'Université Grenoble Alpes est actif dans les domaines du calcul haute performance, de la vérification et des systèmes embarqués, de la modélisation de l'environnement à plusieurs niveaux, et de la science des données et de l'intelligence artificielle. Le centre est un institut scientifique de premier plan avec un vaste réseau de collaborations internationales en Europe et dans le reste du monde.

Contexte et atouts du poste

Le candidat sélectionné rejoindra l'équipe INRIA DataMove (https://team.inria.fr/datamove), située dans le bâtiment IMAG sur le campus de Saint-Martin-d'Hères (Université Grenoble Alpes), près de Grenoble. Le poste implique une collaboration étroite avec l'Institut des Géosciences de l'Environnement (IGE) (https://www.ige-grenoble.fr), également situé sur le même campus.

Le contrat peut débuter dès que possible (prévoir 2-3 mois pour le traitement administratif) et se terminera le 30 juin 2028.

DataMove et l'IGE offrent un environnement de recherche convivial, dynamique et très stimulant, réunissant professeurs, chercheurs, doctorants et étudiants en Master. Grenoble est une ville exceptionnelle entourée par les Alpes, offrant une haute qualité de vie et un accès facile à un large éventail d'activités de plein air (ski, randonnée, escalade, vélo).

Selon le profil et les objectifs de carrière du candidat, ce poste peut être proposé soit comme un poste postdoctoral (avec un fort accent sur les publications), soit comme un poste d'ingénieur de recherche.

Conseillers : Bruno Raffin ([email protected]) et Julien Le Sommer ([email protected])

Mission confiée

Contexte

Les substituts d'EDP sont des réseaux neuronaux entraînés sur des données générées par des solveurs numériques traditionnels d'EDP. Leur objectif est d'approximer ces solveurs à un coût de calcul et de mémoire considérablement réduit. Ces approches ont récemment suscité un vif intérêt dans les domaines émergents de l'apprentissage automatique scientifique (SciML) et de l'IA pour la science.

Les architectures de modèles ont rapidement évolué, passant de conceptions basées sur les CNN à des approches avancées combinant des mécanismes d'attention, des opérateurs neuronaux et des modèles génératifs. Des exemples récents incluent PDE-Transformer, Poseidon et Universal Physics Transformer. Dans la prévision météorologique, plusieurs équipes ont rapporté des résultats révolutionnaires en utilisant des substituts d'EDP, atteignant une précision proche de l'état de l'art pour une fraction du coût de calcul.

Les substituts d'EDP déterministes sont généralement entraînés en minimisant une perte d'erreur quadratique moyenne (MSE) entre les prédictions et la vérité terrain. Cependant, ils souffrent souvent d'un effet de "régression vers la moyenne", qui limite leur capacité à capturer des dynamiques complexes ou chaotiques.

Les substituts stochastiques d'EDP remédient à cette limitation en incorporant des techniques de modélisation générative telles que les modèles de diffusion (DDPM), les modèles basés sur le score ou le "flow matching". Ces méthodes apprennent à transformer une distribution simple connue (typiquement gaussienne) en une distribution cible complexe à l'aide d'un processus itératif de débruitage. Au moment de l'inférence, le modèle génère des échantillons réalistes conditionnés par les données d'entrée.

Comparés aux approches déterministes, les substituts génératifs d'EDP capturent mieux les structures fines et l'incertitude, en particulier pour les systèmes chaotiques. Ils permettent naturellement la quantification de l'incertitude, ce qui les rend bien adaptés à l'analyse de sensibilité et aux problèmes inverses (par exemple, estimation de paramètres via inférence bayésienne).

NEMO (https://www.nemo-ocean.eu/) est un modèle de circulation océanique largement utilisé pour la recherche et la prévision opérationnelle en océanographie et en sciences du climat. Il est basé sur les équations de Navier-Stokes, couplées à une équation d'état non linéaire reliant la température et la salinité au mouvement des fluides. En raison de sa nature turbulente et chaotique, la quantification de l'incertitude est essentielle, ce qui motive l'utilisation de substituts stochastiques d'EDP. De même, Croco (https://www.croco-ocean.org) est un autre modèle océanique spécialisé dans les simulations côtières et régionales.

L'objectif de ce poste est de concevoir, entraîner et valider un substitut génératif conditionnel d'EDP pour les modèles NEMO et Croco.

Nos recherches

Ce projet est une collaboration entre l'IGE et l'équipe DataMove, combinant une expertise complémentaire en modélisation océanique et en apprentissage automatique à grande échelle.

L'IGE est l'un des principaux contributeurs au modèle NEMO et possède une expertise approfondie dans les implémentations numériques des modèles océaniques, les paramétrisations et les applications. Ces connaissances sont essentielles pour la génération de données, la validation et l'interprétation physique.

DataMove possède une vaste expérience dans l'entraînement de substituts d'EDP sur des infrastructures de supercalculateurs à grande échelle. L'équipe développe et maintient Melissa, une plateforme interne (https://hal.science/hal-04102400v1 - ICML 2023), qui permet un entraînement en ligne efficace en diffusant les données directement à partir des simulations vers des pipelines d'entraînement distribués multi-GPU.

Melissa prend également en charge des stratégies d'apprentissage actif, permettant aux simulations de se concentrer sur les régimes difficiles et d'améliorer ainsi la qualité du modèle et l'efficacité de l'entraînement (https://hal.science/hal-04712480v1).

Principales activités

Le premier objectif est de se familiariser avec le contexte scientifique, y compris les substituts d'EDP et la modélisation océanique.

La deuxième phase se concentrera sur le développement d'une expertise pratique dans l'entraînement de substituts d'EDP à l'aide de systèmes d'EDP de référence et d'architectures standard telles que U-Net, FNO et des modèles apparentés. Des flux de travail existants sont déjà disponibles au sein de l'équipe pour soutenir cette phase.

Le cœur du projet consistera ensuite à concevoir et entraîner un modèle substitut stochastique pour les simulations océaniques. L'approche cible implique une architecture générative opérant dans l'espace latent. L'entraînement à partir de zéro et le réglage fin des modèles de fondation existants pour les EDP seront envisagés.

Vous dirigerez ce travail en étroite collaboration avec des experts de DataMove et de l'IGE. Le projet bénéficie de réunions régulières, d'interactions continues et d'un fort soutien d'équipe – vous ne travaillerez pas en isolation. Vous aurez également accès à des ressources de supercalculateurs de pointe avec des GPU haut de gamme.

Compétences

Nous recherchons un candidat possédant de solides compétences en apprentissage profond (par exemple, transformeurs, modèles génératifs), une solide formation en EDP (la CFD est un plus), et de bonnes capacités de programmation en Python pour le développement ML/DL.

Le candidat idéal est curieux, proactif et aime l'expérimentation numérique, avec une forte motivation pour appliquer des techniques d'IA de pointe aux problèmes géoscientifiques.

Les candidats doivent être titulaires :

D'un Master (ou équivalent) en informatique ou dans un domaine connexe pour le poste d'ingénieur de recherche.
D'un doctorat pour le poste postdoctoral.

Des compétences techniques dans les environnements Linux, de solides pratiques de développement Python et une familiarité avec C/C sont très appréciées. Une expérience avec les outils et flux de travail de développement modernes (git, CI/CD, gestionnaires de paquets tels que conda/nix/guix/uv) est un plus.

Un bon niveau d'anglais écrit et parlé est requis, car nous sommes une équipe de recherche internationale et l'anglais est notre langue de travail.

Pour postuler, veuillez soumettre votre CV, vos références, vos relevés de notes académiques et (si disponibles) votre manuscrit de thèse de Master ou de doctorat. Vous êtes également encouragé à inclure tout matériel supplémentaire démontrant vos compétences (par exemple, projets GitHub, exemples de code). Veuillez fournir les coordonnées des référents qui pourront commenter votre travail et vos qualifications.

Avantages

Repas subventionnés
Remboursement partiel des frais de transport en commun
Congés : 7 semaines de congés annuels 10 jours de RTT (réduction du temps de travail légal) possibilité de congés exceptionnels (enfants malades, déménagement, etc.)
Possibilité de télétravail (90 jours / an) et organisation flexible des horaires de travail
Événements et activités sociales, culturelles et sportives
Accès à la formation professionnelle
Couverture de sécurité sociale sous conditions

Rémunération

À partir de 2 692 € (selon expérience et qualifications).

Autres emplois Travail à domicile dans le domaine Data Scientist

DATA SCIENTIST

Groupe Avril

Rejoignez MiXscience à Bruz en tant que Data Scientist. CDI, environnement innovant, télétravail et avantages attractifs. Postulez dès maintenant !

Hybride · 2 jours à domicile· Bruz

il y a 3 jours

Marketing Data Scientist (Confirmé)

Richemont

Rejoignez Richemont en tant que Data Scientist confirmé. Pilotez des projets IA et analytiques stratégiques au sein d'un groupe de luxe international.

Hybride · 4 jours à domicile· Paris

il y a 3 jours

Senior Data Scientist / ML Engineer (H/F)

HELLOWORK

Rejoignez Hellowork en tant que Senior Data Scientist / ML Engineer. Un rôle central mêlant modélisation, MLOps et IA générative. Postulez dès main...

Hybride · 2 jours à domicile· 35 - Rennes

il y a 4 jours

Voir tous les emplois Travail à domicile dans le domaine Data Scientist