4 min lecture • Guide 821 of 877
Objectifs de Niveau de Service
La fiabilité est une fonctionnalité. GitScrum aide les équipes à suivre les SLOs aux côtés du travail sur les features, assurant que les investissements de fiabilité sont visibles et priorisés.
Fondamentaux SLO
SLI, SLO, SLA
TERMINOLOGIE NIVEAU DE SERVICE:
┌─────────────────────────────────────────────────────────────┐
│ │
│ SLI (Indicateur de Niveau de Service): │
│ ────────────────────────────────────── │
│ La métrique mesurée │
│ │
│ Exemples: │
│ • Latence des requêtes (p95) │
│ • Disponibilité (requêtes réussies / total requêtes) │
│ • Taux d'erreur │
│ • Débit │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ SLO (Objectif de Niveau de Service): │
│ ──────────────────────────────────── │
│ La valeur cible pour le SLI │
│ │
│ Exemples: │
│ • Latence p95 < 200ms │
│ • Disponibilité >= 99.9% │
│ • Taux d'erreur < 0.1% │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ SLA (Accord de Niveau de Service): │
│ ────────────────────────────────── │
│ Contrat avec conséquences │
│ │
│ Exemples: │
│ • "99.9% uptime ou le client obtient un crédit" │
│ • Engagement légal │
│ • Habituellement plus souple que le SLO interne │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ RELATION: │
│ │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ ││
│ │ SLI ──────→ SLO ──────→ SLA ││
│ │ (mesure) (cible) (contrat) ││
│ │ ││
│ │ Exemple: ││
│ │ "Latence requête" → "p95 < 200ms" → "99% < 500ms" ││
│ │ ││
│ │ SLO plus strict que SLA (buffer interne) ││
│ │ ││
│ └─────────────────────────────────────────────────────────┘│
└─────────────────────────────────────────────────────────────┘
Définir les SLOs
Choisir les Métriques
CHOISIR LES SLIs:
┌─────────────────────────────────────────────────────────────┐
│ │
│ SLIs CENTRÉS UTILISATEUR: │
│ ───────────────────────── │
│ Choisir des métriques qui reflètent l'expérience utilisateur│
│ │
│ DISPONIBILITÉ: │
│ "Les utilisateurs peuvent-ils utiliser le service?" │
│ SLI: Requêtes réussies / Total requêtes │
│ SLO: 99.9% (43.8 min temps d'arrêt/mois autorisé) │
│ │
│ LATENCE: │
│ "À quelle vitesse répond-il?" │
│ SLI: Percentiles durée requête │
│ SLO: p50 < 100ms, p95 < 200ms, p99 < 500ms │
│ │
│ EXACTITUDE: │
│ "Retourne-t-il la bonne réponse?" │
│ SLI: Réponses correctes / Total réponses │
│ SLO: 99.99% correct │
│ │
│ FRAÎCHEUR: │
│ "À quel point les données sont-elles récentes?" │
│ SLI: Âge des données │
│ SLO: Données mises à jour sous 60 secondes │
│ │
│ ─────────────────────────────────────────────────────────── │
│ │
│ NE VISEZ PAS 100%: │
│ ───────────────────── │
│ 100% disponibilité = Pas de déploiements, pas de changements│
│ Laissez de la place pour le budget d'erreur │
└─────────────────────────────────────────────────────────────┘