7 min lecture • Guide 107 of 877
Configurer Rotations On-Call Efficaces
Les rotations on-call distribuent la responsabilité de répondre aux incidents production entre membres équipe, assurant systèmes surveillés 24h tout en empêchant qu'une seule personne porte tout le fardeau. Les features gestion équipe GitScrum, documentation NoteVault, et attribution tâches aident équipes à organiser rotations équitables, maintenir runbooks accessibles, suivre charge incidents, et améliorer continuellement processus on-call basés sur expérience réelle.
Conception Rotation
Patterns Schedule
OPTIONS SCHEDULE ON-CALL:
┌─────────────────────────────────────────────────────────────┐
│ PATTERNS DE ROTATION │
├─────────────────────────────────────────────────────────────┤
│ │
│ ROTATION HEBDOMADAIRE: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Semaine 1: @maria (primaire), @carlos (secondaire) ││
│ │ Semaine 2: @carlos (primaire), @ana (secondaire) ││
│ │ Semaine 3: @ana (primaire), @pedro (secondaire) ││
│ │ Semaine 4: @pedro (primaire), @maria (secondaire) ││
│ │ ││
│ │ Passation: Lundi 9h ││
│ │ ││
│ │ Avantages: Temps suffisant pour contexte, moins relèves ││
│ │ Inconvénients: Semaine complète peut être épuisant ││
│ │ ││
│ │ Idéal pour: Petites équipes, faible volume incidents ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ ROTATION QUOTIDIENNE: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Lun: @maria → Mar: @carlos → Mer: @ana → ││
│ │ Jeu: @pedro → Ven: @maria → Weekend: @carlos ││
│ │ ││
│ │ Passation: 9h chaque jour ││
│ │ ││
│ │ Avantages: Charge plus courte, plus équilibré ││
│ │ Inconvénients: Nombreuses passations, changement ctx ││
│ │ ││
│ │ Idéal pour: Environnements nombreux incidents ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ FOLLOW-THE-SUN: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Amériques (9h-17h EST): @maria, @carlos ││
│ │ Europe (9h-17h CET): @ana, @pedro ││
│ │ Asie (9h-17h JST): @yuki, @lei ││
│ │ ││
│ │ Passation: Au changement région ││
│ │ ││
│ │ Avantages: Pas de pages nocturnes, heures travail seul. ││
│ │ Inconvénients: Nécessite équipe distribuée ││
│ │ ││
│ │ Idéal pour: Équipes globales ││
│ └─────────────────────────────────────────────────────────┘│
│ │
└─────────────────────────────────────────────────────────────┘
Considérations Équipe
CONCEPTION ROTATION ÉQUITABLE:
┌─────────────────────────────────────────────────────────────┐
│ CONSTRUIRE SCHEDULES DURABLES │
├─────────────────────────────────────────────────────────────┤
│ │
│ TAILLE MINIMUM ÉQUIPE: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Pour couverture 24/7 sans épuisement: ││
│ │ ││
│ │ • 4 personnes minimum: 1 semaine par mois chacun ││
│ │ • 6 personnes mieux: ~6 jours par mois chacun ││
│ │ • 8 personnes idéal: 1 semaine tous les 2 mois ││
│ │ ││
│ │ Règle: Personne on-call > 25% du temps ││
│ │ ││
│ │ Si équipe trop petite: ││
│ │ • Partager rotation entre équipes ││
│ │ • Considérer on-call comme heures sup payées ││
│ │ • Investir dans réduction incidents ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ DISTRIBUTION EXPÉRIENCE: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Pairer junior + senior: ││
│ │ ││
│ │ Sem 1: @senior-maria (primaire), @junior-tom (shadow) ││
│ │ Sem 2: @junior-tom (primaire), @senior-carlos (backup) ││
│ │ ││
│ │ Chemin progression: ││
│ │ 1. Shadow (observer, apprendre) ││
│ │ 2. Primaire avec backup senior ││
│ │ 3. Primaire complet ││
│ │ ││
│ │ Jamais: Junior seul sans chemin escalation ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ ACCOMMODATIONS: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Supporter différents besoins: ││
│ │ ││
│ │ • Parents avec jeunes enfants: Éviter shifts nocturnes ││
│ │ • Contraintes timezone: Matcher heures travail ││
│ │ • Vacances/fériés: Planifier échanges à l'avance ││
│ │ • Santé/mentale: Opt-out sans stigmate ││
│ │ ││
│ │ Suivre dans GitScrum: ││
│ │ • Noter contraintes disponibilité dans settings ││
│ │ • Utiliser calendrier équipe pour visibilité ││
│ └─────────────────────────────────────────────────────────┘│
│ │
└─────────────────────────────────────────────────────────────┘
Suivi dans GitScrum
Gestion Schedule
ORGANISER ON-CALL DANS GITSCRUM:
┌─────────────────────────────────────────────────────────────┐
│ SUIVRE ROTATIONS │
├─────────────────────────────────────────────────────────────┤
│ │
│ VISIBILITÉ ON-CALL ACTUEL: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ NoteVault: "Schedule On-Call" ││
│ │ ││
│ │ # On-Call Actuel ││
│ │ ││
│ │ **Cette Semaine (Déc 16-22):** ││
│ │ - Primaire: @maria ││
│ │ - Secondaire: @carlos ││
│ │ ││
│ │ **Semaine Prochaine (Déc 23-29):** ││
│ │ - Primaire: @carlos ││
│ │ - Secondaire: @ana ││
│ │ ││
│ │ ## Rotation Complète ││
│ │ | Semaine | Primaire | Secondaire | ││
│ │ |-------------|----------|------------| ││
│ │ | Déc 16-22 | Maria | Carlos | ││
│ │ | Déc 23-29 | Carlos | Ana | ││
│ │ | Déc 30-Jan 5| Ana | Pedro | ││
│ │ ││
│ │ Épingler cette note au projet pour accès facile ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ CHECKLIST PASSATION SHIFT: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Créer tâche récurrente: "Passation On-Call" ││
│ │ Chaque lundi à 9h ││
│ │ ││
│ │ Checklist: ││
│ │ ☐ Sortant: Poster résumé passation dans Discussions ││
│ │ ☐ Sortant: Noter problèmes en cours ││
│ │ ☐ Entrant: Confirmer pager/téléphone fonctionne ││
│ │ ☐ Entrant: Revoir incidents récents ││
│ │ ☐ Entrant: Vérifier fenêtres maintenance prévues ││
│ │ ☐ Deux: Confirmer passation dans canal #on-call ││
│ └─────────────────────────────────────────────────────────┘│
│ │
└─────────────────────────────────────────────────────────────┘
Gestion Runbooks
Structure Documentation
ORGANISATION RUNBOOKS:
┌─────────────────────────────────────────────────────────────┐
│ RUNBOOKS ON-CALL DANS NOTEVAULT │
├─────────────────────────────────────────────────────────────┤
│ │
│ STRUCTURE DOSSIERS: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Runbooks/ ││
│ │ ├── Démarrage.md ││
│ │ ├── Référence Alertes/ ││
│ │ │ ├── Alertes Base Données.md ││
│ │ │ ├── Alertes API.md ││
│ │ │ ├── Alertes Paiements.md ││
│ │ │ └── Alertes Infrastructure.md ││
│ │ ├── Procédures Communes/ ││
│ │ │ ├── Redémarrer Services.md ││
│ │ │ ├── Failover Base Données.md ││
│ │ │ ├── Rollback Déploiement.md ││
│ │ │ └── Guide Escalation.md ││
│ │ └── Post-Incident/ ││
│ │ ├── Template.md ││
│ │ └── [rapports incidents...] ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ TEMPLATE RUNBOOK: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ # Runbook [Nom Alerte] ││
│ │ ││
│ │ ## Qu'est-ce que cette alerte? ││
│ │ Explication brève de ce qui l'a déclenchée. ││
│ │ ││
│ │ ## Qui est paginé? ││
│ │ On-call primaire, escalader à [équipe] si non résolu. ││
│ │ ││
│ │ ## Sévérité ││
│ │ P2 - Service dégradé mais fonctionnel ││
│ │ ││
│ │ ## Vérification rapide ││
│ │ 1. Faux positif? Vérifier [dashboard] ││
│ │ 2. Déploiement en cours? Vérifier [statut deploy] ││
│ │ ││
│ │ ## Étapes résolution ││
│ │ 1. Étape un avec exemples commandes ││
│ │ 2. Étape deux avec quoi vérifier ││
│ │ 3. Si X, faire Y. Si Z, escalader. ││
│ │ ││
│ │ *Dernière mise à jour: Déc 16, 2024 par @maria* ││
│ └─────────────────────────────────────────────────────────┘│
│ │
└─────────────────────────────────────────────────────────────┘