Déjà pourvu

Ne rate pas la prochaine offre. Reçois des postes adaptés directement par e-mail.

Recevoir des emplois par e-mail Tous les emplois Télétravail

LI

Licorne Society

Lead LLM Engineer

Résumé du poste

Paris

Modèle de travail

Entièrement remote

Uniquement France

il y a 3 semaines

Description du poste

Responsabilités principales

Votre mission principale sera de rendre les sorties de notre IA fiables, rapides et indispensables dans les flux de travail réels. Concrètement :

Concevoir et faire évoluer notre architecture LLM / agent.
Garantir la qualité des sorties sur les cas d'usage clés (e-mails, analyse de documents, etc.).
Construire des systèmes d'évaluation (jeux de données, métriques, détection de régressions).
Piloter des boucles d'itération rapides à partir des données de production.
Améliorer la récupération d'informations, le raisonnement et l'utilisation des outils.
Assurer la fiabilité en production (latence, modes de défaillance, repli).
Travailler directement avec les fondateurs du produit sur quoi construire et pourquoi.

Ce que ce rôle implique réellement

La plupart des équipes échouent car :

Elles ne savent pas ce que signifie une "bonne sortie".
Elles n'ont pas d'évaluations.
Elles itèrent de manière aléatoire.
Elles surutilisent les agents.

Votre travail consiste à corriger cela. Vous transformerez :

Des problèmes utilisateurs vagues
→ en systèmes d'IA structurés
→ avec des performances mesurables
→ qui s'améliorent chaque semaine.

Compétences requises pour exceller

1. Mise en production de systèmes LLM réels

Vous avez construit des systèmes utilisés en production (pas des démos).
Vous comprenez le RAG, les outils, les agents, les sorties structurées.
Vous pouvez concevoir des pipelines complets, pas seulement des prompts.

2. Développement basé sur l'évaluation

Vous savez définir des métriques de qualité.
Vous construisez des jeux de données à partir de l'utilisation réelle.
Vous effectuez des évaluations continues pour prévenir les régressions.

3. Débogage de défaillances complexes

Vous pouvez tracer les problèmes à travers :
- La récupération d'informations
- Les prompts
- Le comportement du modèle
Vous ne devinez pas : vous isolez et corrigez.

4. Vitesse d'itération

Vous passez du problème à l'amélioration en quelques heures ou jours, pas en semaines.
Vous utilisez les logs, les traces et les données, pas seulement l'intuition.

5. Jugement solide

Vous savez quand :
- Utiliser un agent ou un pipeline.
- Ajouter de la complexité ou simplifier.
Vous optimisez pour la fiabilité et la valeur utilisateur, pas pour la nouveauté.

Ce qui ne nous importe pas

Le nombre d'années d'expérience.
Si vous avez utilisé un framework spécifique.
Des titres de recherche fantaisistes.

Si vous pouvez construire, déboguer et améliorer des systèmes réels, vous êtes un bon candidat.

Succès attendu (90 premiers jours)

Un cadre d'évaluation clair pour les cas d'usage principaux.
Une amélioration mesurable de la qualité des sorties.
Des cycles d'itération plus rapides pour toute l'équipe.
Une réduction des hallucinations / défaillances.
Des décisions d'architecture système plus solides.

Stack (contexte, pas des prérequis)

Python (FastAPI)
Postgres
Google Cloud
LangGraph / LangChain (en évolution)
PostHog (analyse produit)
Langfuse (traces LLM)
API LLM (Azure OpenAI)