Senior SRE Engineer - Kubernetes

Harry Hope. Canada

Full Timesenior

Montreal, Quebec, CAPosted February 20, 2026

Resume Keywords to Include

Make sure these keywords appear in your resume to improve ATS scoring

PythonGoRBashKubernetesCI/CDMicroservicesSaaS

Job Description

SRE Senior — Spécialiste Plateforme Kubernetes

(Fiabilité des clusters & ingénierie de plateforme)

Mission

En tant qu’Ingénieur(e) senior en fiabilité des sites (SRE) – Plateforme Kubernetes, tu seras responsable de la fiabilité, de la scalabilité et de l’évolution de notre plateforme d’orchestration de conteneurs (OKD/Kubernetes).

Ton objectif principal sera d’assurer que la plateforme de production soit résiliente, auto-réparatrice (self-healing) et capable de supporter des charges de travail distribuées à fort volume.

Tu agiras comme référence technique sur l’architecture Kubernetes et travailleras étroitement avec les équipes de développement et d’infrastructure afin d’améliorer la stabilité de la plateforme et la sécurité des déploiements.

Responsabilités principales

Kubernetes & fiabilité de la plateforme (cœur du rôle)

Concevoir, maintenir et faire évoluer l’architecture de la plateforme Kubernetes (OKD)
Améliorer la résilience, la disponibilité et la tolérance aux pannes des clusters
Mettre en place des mécanismes d’auto-réparation et de reprise
Gérer les mises à niveau, le cycle de vie et la stratégie de versions des clusters
Supporter les charges de production et les services critiques exécutés sur Kubernetes
Diagnostiquer des problématiques complexes de clusters (ordonnancement, réseau, stockage, performance)
Définir les bonnes pratiques d’exploitation des microservices en environnement Kubernetes

Automatisation & infrastructure

Automatiser les opérations de plateforme et réduire les tâches manuelles
Gérer les déploiements avec Helm
Améliorer la fiabilité des déploiements CI/CD et les stratégies de retour arrière (rollback)
Participer à la planification de capacité et à l’optimisation des performances
Collaborer avec les développeurs pour améliorer l’exploitabilité des applications

Ingénierie de fiabilité

Définir des standards opérationnels et des pratiques de fiabilité
Contribuer à la gestion des incidents et aux analyses post-incident
Réduire le MTTR grâce à l’automatisation et aux améliorations de la plateforme
Travailler étroitement avec les équipes d’observabilité afin d’assurer la visibilité de la plateforme

Sécurité & accès

Participer à la stratégie RBAC et à la gestion des accès
Sécuriser les communications de la plateforme et la gestion des secrets (OpenBao)
Intégrer les bonnes pratiques de sécurité dans les opérations de la plateforme

Environnement technique

Kubernetes (OKD)
Helm
Systèmes distribués cloud-native
Prometheus (utilisation/consommation, non-propriété)
OpenBao (gestion des secrets)
Environnements de production à fort trafic

Profil recherché

Solide expérience pratique en administration et architecture Kubernetes
Expérience d’exploitation de clusters en production (et pas uniquement de déploiements)
Excellentes compétences en diagnostic et débogage de systèmes distribués
Expérience d’astreinte ou de support de production
Scripting ou programmation (Python, Bash ou Go)
Une expérience en environnement SaaS ou à grande échelle constitue un atout majeur

All jobs at Harry Hope. Canada →Browse Remote DevOps Engineer Jobs →