Déjà pourvu

Ne rate pas la prochaine offre. Reçois des postes adaptés directement par e-mail.

Lead LLM Engineer

Résumé du poste

Paris

Modèle de travail

Entièrement remote
Uniquement France
il y a 3 semaines
Description du poste

Responsabilités principales

Votre mission principale sera de rendre les sorties de notre IA fiables, rapides et indispensables dans les flux de travail réels. Concrètement :

  • Concevoir et faire évoluer notre architecture LLM / agent.
  • Garantir la qualité des sorties sur les cas d'usage clés (e-mails, analyse de documents, etc.).
  • Construire des systèmes d'évaluation (jeux de données, métriques, détection de régressions).
  • Piloter des boucles d'itération rapides à partir des données de production.
  • Améliorer la récupération d'informations, le raisonnement et l'utilisation des outils.
  • Assurer la fiabilité en production (latence, modes de défaillance, repli).
  • Travailler directement avec les fondateurs du produit sur quoi construire et pourquoi.

Ce que ce rôle implique réellement

La plupart des équipes échouent car :

  • Elles ne savent pas ce que signifie une "bonne sortie".
  • Elles n'ont pas d'évaluations.
  • Elles itèrent de manière aléatoire.
  • Elles surutilisent les agents.

Votre travail consiste à corriger cela. Vous transformerez :

  • Des problèmes utilisateurs vagues
  • → en systèmes d'IA structurés
  • → avec des performances mesurables
  • → qui s'améliorent chaque semaine.

Compétences requises pour exceller

1. Mise en production de systèmes LLM réels

  • Vous avez construit des systèmes utilisés en production (pas des démos).
  • Vous comprenez le RAG, les outils, les agents, les sorties structurées.
  • Vous pouvez concevoir des pipelines complets, pas seulement des prompts.

2. Développement basé sur l'évaluation

  • Vous savez définir des métriques de qualité.
  • Vous construisez des jeux de données à partir de l'utilisation réelle.
  • Vous effectuez des évaluations continues pour prévenir les régressions.

3. Débogage de défaillances complexes

  • Vous pouvez tracer les problèmes à travers :
    • La récupération d'informations
    • Les prompts
    • Le comportement du modèle
  • Vous ne devinez pas : vous isolez et corrigez.

4. Vitesse d'itération

  • Vous passez du problème à l'amélioration en quelques heures ou jours, pas en semaines.
  • Vous utilisez les logs, les traces et les données, pas seulement l'intuition.

5. Jugement solide

  • Vous savez quand :
    • Utiliser un agent ou un pipeline.
    • Ajouter de la complexité ou simplifier.
  • Vous optimisez pour la fiabilité et la valeur utilisateur, pas pour la nouveauté.

Ce qui ne nous importe pas

  • Le nombre d'années d'expérience.
  • Si vous avez utilisé un framework spécifique.
  • Des titres de recherche fantaisistes.

Si vous pouvez construire, déboguer et améliorer des systèmes réels, vous êtes un bon candidat.

Succès attendu (90 premiers jours)

  • Un cadre d'évaluation clair pour les cas d'usage principaux.
  • Une amélioration mesurable de la qualité des sorties.
  • Des cycles d'itération plus rapides pour toute l'équipe.
  • Une réduction des hallucinations / défaillances.
  • Des décisions d'architecture système plus solides.

Stack (contexte, pas des prérequis)

  • Python (FastAPI)
  • Postgres
  • Google Cloud
  • LangGraph / LangChain (en évolution)
  • PostHog (analyse produit)
  • Langfuse (traces LLM)
  • API LLM (Azure OpenAI)