Site Reliability Engineer

Résumé du poste

Paris Et Périphérie
DevOps

Modèle de travail

Hybride · 3 jours à domicile
il y a 1 semaine
Description du poste

À propos de BlaBlaCar

BlaBlaCar est la première application de voyage communautaire au monde, permettant à 26 millions de membres par an de faire du covoiturage ou de voyager en bus dans 21 pays. Notre équipe de 800 employés compte plus de 50 nationalités et est répartie dans nos 5 bureaux mondiaux, avec 30 % travaillant en télétravail complet.

Votre mission

En rejoignant notre département Foundations, vous travaillerez aux côtés de personnes talentueuses regroupées en petites équipes agiles, chacune ayant une forte autonomie sur ses objectifs. Foundations est composé de sept équipes qui "fournissent des infrastructures, des services et une expertise cohérents et faciles à utiliser pour soutenir la croissance et l'évolution de BlaBlaCar".

L'équipe Site Reliability Engineering (SRE) est chargée de fournir les meilleurs outils et processus d'observabilité, d'alerte et de gestion des incidents aux équipes de service. En tant qu'équipe habilitante, nous aidons les ingénieurs de BlaBlaCar à améliorer efficacement la fiabilité de leurs services. Autonomiser les développeurs et leur apporter notre expertise en fiabilité sont au cœur de notre travail quotidien.

Stack technique

  • Infrastructure principale : Kubernetes, Google Cloud Platform
  • GitOps/Delivery : GitHub, Terraform, Flux, Helm, Jenkins
  • Observabilité/Gestion des incidents : Datadog, Opentelemetry, Grafana IRM
  • Plateforme de tests synthétiques interne : Playwright, Qualcium, SauceLabs
  • Langages : Go / Python pour l'outillage, Typescript/JS pour la plateforme de test

Vos responsabilités

  • Soutenir les ingénieurs logiciels en créant, maintenant et améliorant les outils et frameworks d'observabilité et d'alerte. Vous adoptez l'utilisation de l'IA pour éliminer les tâches répétitives et rationaliser vos activités quotidiennes.
  • Posséder le framework des objectifs de niveau de service (SLO), assister dans la conception et la maintenance des indicateurs (SLI) et des objectifs pour assurer la fiabilité du service.
  • Gérer le processus de gestion des incidents en définissant les meilleures pratiques, les normes et en assurant une amélioration continue grâce aux post-mortems et au chaos engineering. Bien que les développeurs gèrent les incidents dans leur périmètre, vous pourriez intervenir en tant qu'Incident Commander lors d'incidents de haute gravité, en dirigeant les efforts de coordination.
  • Développer et maintenir des outils, tels que des modules Terraform ou des applications Go, pour aider à automatiser et améliorer la fiabilité des services.
  • Construire et promouvoir le reporting sur les métriques opérationnelles et les incidents pour favoriser une amélioration continue et distribuée.

Vos qualifications

  • 1 à 5 ans d'expérience dans des rôles SRE, DevOps ou Software Engineering.
  • Travailler dans un environnement multidisciplinaire demandera de solides compétences en communication : vous devrez adapter votre niveau de communication à l'expertise des autres équipes et être capable de comprendre leurs besoins.
  • Solide connaissance des outils d'observabilité (ex: Datadog) et compréhension des métriques, des logs et du tracing.
  • Expérience en dépannage/astreinte dans des environnements de production, diagnostiquant et résolvant efficacement les problèmes techniques (l'expérience avec Kubernetes est un plus).
  • Maîtrise complète de l'anglais.
  • Adéquation avec nos BlaBlaPrinciples.
  • Épanouissement dans un environnement collaboratif, en croissance rapide et innovant.
  • Capacité à prendre des responsabilités, alignée sur les priorités commerciales et naviguant dans différents contextes.

Nice to have

  • La familiarité avec les plateformes de gestion des incidents (ex: Grafana IRM) est un bonus.
  • Expérience de travail avec les SLO et SLI.
  • Exposition à la programmation en Go ou un fort intérêt pour l'apprendre.
  • Expérience dans l'intégration d'Opentelemetry.
  • Les services backend sont construits en utilisant plusieurs langages de programmation : bien que des compétences en développement ne soient pas requises, la familiarité avec la programmation orientée objet et les langages de script est un avantage.
  • Familiarité avec les outils de test web/mobile ou une forte curiosité pour comprendre comment les logiciels sont testés à grande échelle.

Ce que nous avons à offrir

  • Statut hybride pour ce rôle : 2-3 jours au bureau.
  • 4 semaines supplémentaires en plus des congés maternité/paternité légaux.
  • Couverture santé à 50 % (Alan).
  • Soutien financier pour l'équipement de bureau à domicile.
  • Minimum 25 jours de congés par an.
  • Politique locale de repas (carte Swile).
  • 50 % des frais de transport pris en charge (Forfait Mobilité Durable).
  • Covoiturages et trajets en bus illimités gratuits.
  • Croissance personnelle via des formations, du mentorat et des opportunités de mobilité interne.
  • Plan d'actionnariat salarié.
  • Événements de team building réguliers.
  • 1 jour de congé par an pour tester notre produit.

Intéressé(e) par l'aventure ?

  • Un appel vidéo de 45 min avec Maxime, Talent Acquisition Manager, pour apprendre à vous connaître, comprendre vos attentes de carrière et répondre à vos questions.
  • Un appel vidéo de 60 min avec Damien Bertau, Hiring Manager, pour discuter de votre expérience et partager plus de détails sur l'équipe.
  • Un entretien de conception système de 90 min avec 2 membres de l'équipe pour discuter de votre expertise technique.
  • Un appel vidéo de 45 min avec Maxime Fouilleul, Head of Foundations, pour avoir une vision plus large du département et de sa stratégie.

Notre processus de recrutement dure en moyenne 25-30 jours, les offres arrivent généralement sous 48 heures.

Veuillez noter que l'un de ces entretiens sera sur site.