Senior SRE Engineer - Observability & Monitoring
Harry Hope. CanadaResume Keywords to Include
Make sure these keywords appear in your resume to improve ATS scoring
Sign up free to auto-tailor your resume with all these keywords and get a higher ATS score
Job Description
SRE Senior — Ingénieur(e) Observabilité & Monitoring
(Prometheus / métriques / propriétaire SLO)
Mission
En tant qu’Ingénieur(e) senior en fiabilité des sites (SRE) – Observabilité, tu seras responsable de la conception et de la mise en œuvre de la stratégie d’observabilité de l’entreprise.
Ton objectif est de fournir une visibilité complète, fiable et exploitable sur le comportement, la performance et la fiabilité des systèmes à travers des plateformes distribuées à fort volume.
Tu seras chargé(e) de transformer le monitoring en une véritable capacité d’ingénierie de fiabilité grâce aux métriques, aux alertes et aux opérations pilotées par les SLO.
Responsabilités principales
Observabilité & Monitoring (cœur du rôle)
- Définir et maintenir la stratégie globale d’observabilité
- Concevoir des architectures de monitoring évolutives
- Exploiter et optimiser les plateformes Prometheus, VictoriaMetrics et ClickHouse
- Créer des dashboards avancés centrés sur le comportement et la performance des systèmes
- Mettre en œuvre des stratégies d’alertes exploitables
- Définir et maintenir les SLIs et SLOs
- Garantir la qualité des données de monitoring et leur fiabilité à long terme
- Anticiper les problématiques de scalabilité et de cardinalité des métriques
Ingénierie de fiabilité
- Établir des métriques de fiabilité et des indicateurs de santé opérationnelle
- Travailler avec les équipes pour adopter des pratiques de développement pilotées par les SLO
- Analyser la performance des systèmes et identifier les risques de fiabilité
- Diriger l’analyse post-incident avec une approche basée sur les données
- Améliorer la détection des incidents et les temps de réponse
Intégration à la plateforme
- Intégrer le monitoring dans les architectures microservices distribuées
- Collaborer avec les équipes Kubernetes et développement
- Déployer les composants d’observabilité via Helm
- Garantir la couverture de monitoring de tous les services de production
Leadership technique
- Promouvoir les bonnes pratiques d’observabilité au sein des équipes
- Définir les standards et guidelines internes de monitoring
- Former les ingénieurs à l’usage des alertes et du monitoring
- Maintenir une veille technologique active sur les outils d’observabilité
Environnement technique
- Prometheus
- Victoria Metrics
- ClickHouse
- Grafana (dashboards implicites)
- Kubernetes (niveau intégration)
- Systèmes distribués
Profil recherché
- Solide expérience pratique sur Prometheus en production
- Bonne maîtrise des métriques, logs et systèmes d’alerting
- Expérience dans la mise en place de SLOs et SLIs
- Expérience des environnements de monitoring à fort volume
- Expérience en SRE, ingénierie de production ou ingénierie de performance
- À l’aise pour analyser les incidents et le comportement des systèmes
Similar Jobs
Site Reliability Engineer - SRE
Aircraft Performance Group
Senior Site Reliability Engineer
Kochava
Site Reliability Engineering
Microsoft Legal Department
Senior Software Engineer, Site Reliability Engineering, Public S Jobs
Google, Inc.
Site Reliability Engineer (SRE)
Leidos
Want AI-powered job matching?
Upload your resume and get every job scored, your resume tailored, and hiring manager emails found - automatically.
Get Started Free