- Accueil
- Emploi Télétravail
- Lead LLM Engineer
Déjà pourvu
Ne rate pas la prochaine offre. Reçois des postes adaptés directement par e-mail.
Lead LLM Engineer
Résumé du poste
Paris
Modèle de travail
Entièrement remote
Uniquement France
il y a 3 semaines
Description du poste
Responsabilités principales
Votre mission principale sera de rendre les sorties de notre IA fiables, rapides et indispensables dans les flux de travail réels. Concrètement :
- Concevoir et faire évoluer notre architecture LLM / agent.
- Garantir la qualité des sorties sur les cas d'usage clés (e-mails, analyse de documents, etc.).
- Construire des systèmes d'évaluation (jeux de données, métriques, détection de régressions).
- Piloter des boucles d'itération rapides à partir des données de production.
- Améliorer la récupération d'informations, le raisonnement et l'utilisation des outils.
- Assurer la fiabilité en production (latence, modes de défaillance, repli).
- Travailler directement avec les fondateurs du produit sur quoi construire et pourquoi.
Ce que ce rôle implique réellement
La plupart des équipes échouent car :
- Elles ne savent pas ce que signifie une "bonne sortie".
- Elles n'ont pas d'évaluations.
- Elles itèrent de manière aléatoire.
- Elles surutilisent les agents.
Votre travail consiste à corriger cela. Vous transformerez :
- Des problèmes utilisateurs vagues
- → en systèmes d'IA structurés
- → avec des performances mesurables
- → qui s'améliorent chaque semaine.
Compétences requises pour exceller
1. Mise en production de systèmes LLM réels
- Vous avez construit des systèmes utilisés en production (pas des démos).
- Vous comprenez le RAG, les outils, les agents, les sorties structurées.
- Vous pouvez concevoir des pipelines complets, pas seulement des prompts.
2. Développement basé sur l'évaluation
- Vous savez définir des métriques de qualité.
- Vous construisez des jeux de données à partir de l'utilisation réelle.
- Vous effectuez des évaluations continues pour prévenir les régressions.
3. Débogage de défaillances complexes
- Vous pouvez tracer les problèmes à travers :
- La récupération d'informations
- Les prompts
- Le comportement du modèle
- Vous ne devinez pas : vous isolez et corrigez.
4. Vitesse d'itération
- Vous passez du problème à l'amélioration en quelques heures ou jours, pas en semaines.
- Vous utilisez les logs, les traces et les données, pas seulement l'intuition.
5. Jugement solide
- Vous savez quand :
- Utiliser un agent ou un pipeline.
- Ajouter de la complexité ou simplifier.
- Vous optimisez pour la fiabilité et la valeur utilisateur, pas pour la nouveauté.
Ce qui ne nous importe pas
- Le nombre d'années d'expérience.
- Si vous avez utilisé un framework spécifique.
- Des titres de recherche fantaisistes.
Si vous pouvez construire, déboguer et améliorer des systèmes réels, vous êtes un bon candidat.
Succès attendu (90 premiers jours)
- Un cadre d'évaluation clair pour les cas d'usage principaux.
- Une amélioration mesurable de la qualité des sorties.
- Des cycles d'itération plus rapides pour toute l'équipe.
- Une réduction des hallucinations / défaillances.
- Des décisions d'architecture système plus solides.
Stack (contexte, pas des prérequis)
- Python (FastAPI)
- Postgres
- Google Cloud
- LangGraph / LangChain (en évolution)
- PostHog (analyse produit)
- Langfuse (traces LLM)
- API LLM (Azure OpenAI)