6 min lecture • Guide 768 of 877
Projets de Monitoring et d'Observabilité
Un bon monitoring prévient les problèmes et accélère le débogage. GitScrum aide les équipes à planifier le travail d'observabilité et suivre les améliorations de monitoring parallèlement au développement de fonctionnalités.
Fondamentaux de l'Observabilité
Les Trois Piliers
PILIERS DE L'OBSERVABILITÉ:
┌─────────────────────────────────────────────────────────────┐
│ │
│ MÉTRIQUES: │
│ Mesures numériques dans le temps │
│ • Nombre de requêtes, latence, taux d'erreur │
│ • CPU, mémoire, utilisation disque │
│ • Métriques business (commandes, inscriptions) │
│ │
│ Utilisation: Dashboards, alerting, tendances │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ LOGS: │
│ Événements discrets avec contexte │
│ • Détails des requêtes │
│ • Erreurs avec stack traces │
│ • Événements d'audit │
│ │
│ Utilisation: Débogage, audit, investigation │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ TRACES: │
│ Flux de requête à travers les services │
│ • Décomposition latence end-to-end │
│ • Dépendances entre services │
│ • Identification des goulots d'étranglement │
│ │
│ Utilisation: Débogage distribué, analyse performance │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ ENSEMBLE: │
│ Alerte trigger (métrique) → Contexte dashboard (métriques)│
│ → Investigation logs → Trace requête spécifique │
└─────────────────────────────────────────────────────────────┘
Observabilité dans les Features
Monitoring dans les Features
OBSERVABILITÉ DANS LES TÂCHES FEATURE:
┌─────────────────────────────────────────────────────────────┐
│ │
│ FEATURE AVEC OBSERVABILITÉ: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ PROJ-200: Traitement des Paiements ││
│ │ ││
│ │ EXIGENCES FONCTIONNELLES: ││
│ │ ☐ Traiter les paiements par carte ││
│ │ ☐ Gérer les échecs gracieusement ││
│ │ ☐ Envoyer email de confirmation ││
│ │ ││
│ │ EXIGENCES OBSERVABILITÉ: ││
│ │ ││
│ │ MÉTRIQUES: ││
│ │ ☐ payment_attempts_total (counter) ││
│ │ ☐ payment_success_total (counter) ││
│ │ ☐ payment_failure_total (counter, par raison) ││
│ │ ☐ payment_amount_total (counter) ││
│ │ ☐ payment_processing_duration (histogram) ││
│ │ ││
│ │ LOGS: ││
│ │ ☐ Paiement initié (user_id, montant) ││
│ │ ☐ Résultat paiement (succès/échec, raison) ││
│ │ ☐ PAS de données sensibles (n° carte) ││
│ │ ││
│ │ ALERTES: ││
│ │ ☐ Taux échec paiement > 5% ││
│ │ ☐ Latence paiement p99 > 5s ││
│ │ ☐ Erreurs passerelle paiement ││
│ │ ││
│ │ DASHBOARD: ││
│ │ ☐ Panel aperçu paiements ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ DEFINITION OF DONE INCLUT: │
│ ☐ Métriques exposées │
│ ☐ Logs structurés avec contexte requête │
│ ☐ Alertes configurées │
│ ☐ Dashboard mis à jour │
└─────────────────────────────────────────────────────────────┘
Projets de Monitoring
Travail d'Observabilité Dédié
EPIC AMÉLIORATION OBSERVABILITÉ:
┌─────────────────────────────────────────────────────────────┐
│ │
│ OBS-Q1: Améliorations Observabilité Q1 │
│ │
│ OBJECTIF: Réduire MTTR de 50% │
│ │
│ ÉTAT ACTUEL: │
│ • Temps moyen de détection: 15 minutes │
│ • Temps moyen de diagnostic: 45 minutes │
│ • Nombreuses lacunes dans le monitoring │
│ │
│ ÉTAT CIBLE: │
│ • Temps de détection: < 5 minutes │
│ • Temps de diagnostic: < 20 minutes │
│ • Couverture complète │
│ │
│ TÂCHES: │
│ ├── OBS-01: Auditer lacunes monitoring actuelles │
│ ├── OBS-02: Ajouter métriques services manquantes │
│ ├── OBS-03: Implémenter tracing distribué │
│ ├── OBS-04: Créer dashboards services │
│ ├── OBS-05: Affiner seuils d'alertes │
│ ├── OBS-06: Ajouter suivi SLO │
│ └── OBS-07: Créer runbooks pour alertes │
└─────────────────────────────────────────────────────────────┘
Exemples de Tâches Spécifiques
EXEMPLES TÂCHES MONITORING:
┌─────────────────────────────────────────────────────────────┐
│ │
│ TÂCHE DASHBOARD: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ OBS-04a: Créer dashboard service API ││
│ │ ││
│ │ PANELS: ││
│ │ ☐ Taux de requêtes (par endpoint) ││
│ │ ☐ Taux d'erreur (par code status) ││
│ │ ☐ Percentiles latence (p50, p95, p99) ││
│ │ ☐ Connexions actives ││
│ │ ☐ Utilisation ressources (CPU, mémoire) ││
│ │ ☐ Santé dépendances (DB, cache, externe) ││
│ │ ││
│ │ PLAGES TEMPORELLES: ││
│ │ ☐ Dernière heure (défaut) ││
│ │ ☐ Dernières 24 heures ││
│ │ ☐ Derniers 7 jours ││
│ │ ││
│ │ VARIABLES: ││
│ │ ☐ Environnement (prod/staging) ││
│ │ ☐ Instance (pour débogage) ││
│ └─────────────────────────────────────────────────────────┘│
│ │
│ TÂCHE ALERTE: │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ OBS-05a: Configurer alerte taux erreur API ││
│ │ ││
│ │ DÉFINITION ALERTE: ││
│ │ Condition: Taux erreur > 1% pendant 5 minutes ││
│ │ Sévérité: Warning ││
│ │ ││
│ │ Condition: Taux erreur > 5% pendant 2 minutes ││
│ │ Sévérité: Critical ││
│ │ ││
│ │ Notification: ││
│ │ ☐ Warning → Canal Slack #alerts-warning ││
│ │ ☐ Critical → PagerDuty + Slack #alerts-critical ││
│ │ ││
│ │ Runbook: Lien vers doc de résolution ││
│ └─────────────────────────────────────────────────────────┘│
└─────────────────────────────────────────────────────────────┘
Dashboard Observabilité
┌────────────────────────────────────────────────────────────────┐
│ OBSERVABILITÉ - Dashboard Projet │
├────────────────────────────────────────────────────────────────┤
│ │
│ COUVERTURE MONITORING: │
│ Services avec métriques: 12/15 (80%) │
│ Services avec logs structurés: 10/15 (67%) │
│ Services avec tracing: 8/15 (53%) │
│ │
│ ALERTES: │
│ Alertes configurées: 45 │
│ Avec runbook: 32 (71%) │
│ Déclenchées ce mois: 8 │
│ Fausses alertes: 2 (25%) ← À améliorer │
│ │
│ MÉTRIQUES CLÉS: │
│ MTTD (détection): 8 min (cible: 5 min) ⚠️ │
│ MTTR (résolution): 35 min (cible: 20 min) ⚠️ │
│ Incidents ce mois: 3 │
│ │
│ TÂCHES EN COURS: │
│ 🔄 OBS-03: Tracing distribué (60%) │
│ 🔄 OBS-05: Affinage alertes (40%) │
│ 📋 OBS-06: Suivi SLO (À démarrer) │
│ │
└────────────────────────────────────────────────────────────────┘
Intégration GitScrum
GitScrum supporte les projets d'observabilité avec:
- Tâches monitoring: Type de travail dédié
- DoD étendue: Inclure exigences observabilité
- Epics trimestres: Planification améliorations
- Labels: monitoring, alerting, dashboard
- Checklist: Validation monitoring par feature