SRE Senior — Ingénieur(e) Observabilité & Monitoring

(Prometheus / métriques / propriétaire SLO)

Mission

En tant qu’Ingénieur(e) senior en fiabilité des sites (SRE) – Observabilité, tu seras responsable de la conception et de la mise en œuvre de la stratégie d’observabilité de l’entreprise.

Ton objectif est de fournir une visibilité complète, fiable et exploitable sur le comportement, la performance et la fiabilité des systèmes à travers des plateformes distribuées à fort volume.

Tu seras chargé(e) de transformer le monitoring en une véritable capacité d’ingénierie de fiabilité grâce aux métriques, aux alertes et aux opérations pilotées par les SLO.

Responsabilités principales

Observabilité & Monitoring (cœur du rôle)

Définir et maintenir la stratégie globale d’observabilité
Concevoir des architectures de monitoring évolutives
Exploiter et optimiser les plateformes Prometheus, VictoriaMetrics et ClickHouse
Créer des dashboards avancés centrés sur le comportement et la performance des systèmes
Mettre en œuvre des stratégies d’alertes exploitables
Définir et maintenir les SLIs et SLOs
Garantir la qualité des données de monitoring et leur fiabilité à long terme
Anticiper les problématiques de scalabilité et de cardinalité des métriques

Ingénierie de fiabilité

Établir des métriques de fiabilité et des indicateurs de santé opérationnelle
Travailler avec les équipes pour adopter des pratiques de développement pilotées par les SLO
Analyser la performance des systèmes et identifier les risques de fiabilité
Diriger l’analyse post-incident avec une approche basée sur les données
Améliorer la détection des incidents et les temps de réponse

Intégration à la plateforme

Intégrer le monitoring dans les architectures microservices distribuées
Collaborer avec les équipes Kubernetes et développement
Déployer les composants d’observabilité via Helm
Garantir la couverture de monitoring de tous les services de production

Leadership technique

Promouvoir les bonnes pratiques d’observabilité au sein des équipes
Définir les standards et guidelines internes de monitoring
Former les ingénieurs à l’usage des alertes et du monitoring
Maintenir une veille technologique active sur les outils d’observabilité

Environnement technique

Prometheus
Victoria Metrics
ClickHouse
Grafana (dashboards implicites)
Kubernetes (niveau intégration)
Systèmes distribués

Profil recherché

Solide expérience pratique sur Prometheus en production
Bonne maîtrise des métriques, logs et systèmes d’alerting
Expérience dans la mise en place de SLOs et SLIs
Expérience des environnements de monitoring à fort volume
Expérience en SRE, ingénierie de production ou ingénierie de performance
À l’aise pour analyser les incidents et le comportement des systèmes

Senior SRE Engineer - Observability & Monitoring

Resume Keywords to Include

Job Description

Mission

Similar Jobs

Want AI-powered job matching?

Similar Jobs