GitScrum / Docs
All Best Practices

Service Level Objectives | SLO & Error Budget Guide

Define SLIs, SLOs, and error budgets for reliable applications. GitScrum tracks SLO status, budget consumption, and reliability work prioritization.

9 min read

Reliability is a feature. GitScrum helps teams track SLOs alongside feature work, ensuring reliability investments are visible and prioritized.

SLO Fundamentals

SLI, SLO, SLA

SERVICE LEVEL TERMINOLOGY:
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                             β”‚
β”‚ SLI (Service Level Indicator):                             β”‚
β”‚ ──────────────────────────────                              β”‚
β”‚ The metric being measured                                 β”‚
β”‚                                                             β”‚
β”‚ Examples:                                                   β”‚
β”‚ β€’ Request latency (p95)                                   β”‚
β”‚ β€’ Availability (successful requests / total requests)     β”‚
β”‚ β€’ Error rate                                               β”‚
β”‚ β€’ Throughput                                               β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ SLO (Service Level Objective):                             β”‚
β”‚ ──────────────────────────────                              β”‚
β”‚ The target value for the SLI                              β”‚
β”‚                                                             β”‚
β”‚ Examples:                                                   β”‚
β”‚ β€’ Latency p95 < 200ms                                     β”‚
β”‚ β€’ Availability >= 99.9%                                   β”‚
β”‚ β€’ Error rate < 0.1%                                       β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ SLA (Service Level Agreement):                             β”‚
β”‚ ──────────────────────────────                              β”‚
β”‚ Contract with consequences                                β”‚
β”‚                                                             β”‚
β”‚ Examples:                                                   β”‚
β”‚ β€’ "99.9% uptime or customer gets credit"                 β”‚
β”‚ β€’ Legal commitment                                        β”‚
β”‚ β€’ Usually looser than internal SLO                        β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ RELATIONSHIP:                                               β”‚
β”‚                                                             β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚         SLI ──────→ SLO ──────→ SLA                    β”‚β”‚
β”‚ β”‚      (measure)   (target)   (contract)                 β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚  Example:                                               β”‚β”‚
β”‚ β”‚  "Request latency" β†’ "p95 < 200ms" β†’ "99% < 500ms"   β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚  SLO is stricter than SLA (internal buffer)            β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Defining SLOs

Choosing Metrics

CHOOSING SLIs:
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                             β”‚
β”‚ USER-CENTRIC SLIs:                                          β”‚
β”‚ ──────────────────                                          β”‚
β”‚ Choose metrics that reflect user experience               β”‚
β”‚                                                             β”‚
β”‚ AVAILABILITY:                                               β”‚
β”‚ "Can users use the service?"                              β”‚
β”‚ SLI: Successful requests / Total requests                 β”‚
β”‚ SLO: 99.9% (43.8 minutes downtime/month allowed)         β”‚
β”‚                                                             β”‚
β”‚ LATENCY:                                                    β”‚
β”‚ "How fast does it respond?"                               β”‚
β”‚ SLI: Request duration percentiles                         β”‚
β”‚ SLO: p50 < 100ms, p95 < 200ms, p99 < 500ms               β”‚
β”‚                                                             β”‚
β”‚ CORRECTNESS:                                                β”‚
β”‚ "Does it return the right answer?"                        β”‚
β”‚ SLI: Correct responses / Total responses                  β”‚
β”‚ SLO: 99.99% correct                                       β”‚
β”‚                                                             β”‚
β”‚ FRESHNESS:                                                  β”‚
β”‚ "How recent is the data?"                                 β”‚
β”‚ SLI: Data age                                              β”‚
β”‚ SLO: Data updated within 60 seconds                       β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ COMMON SLOs:                                                β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ SERVICE     SLI               SLO                      β”‚β”‚
β”‚ β”‚ ───────     ───               ───                      β”‚β”‚
β”‚ β”‚ API         Availability      99.9%                    β”‚β”‚
β”‚ β”‚ API         Latency (p95)     < 200ms                 β”‚β”‚
β”‚ β”‚ Website     Page load (p95)   < 3s                    β”‚β”‚
β”‚ β”‚ Database    Query time (p95)  < 50ms                  β”‚β”‚
β”‚ β”‚ Checkout    Success rate      99.5%                   β”‚β”‚
β”‚ β”‚ Search      Latency (p95)     < 500ms                 β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ DON'T AIM FOR 100%:                                         β”‚
β”‚ ─────────────────────                                       β”‚
β”‚ 100% availability = No deployments, no changes            β”‚
β”‚ Leave room for error budget                               β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Error Budgets

Managing Reliability

ERROR BUDGET CONCEPT:
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                             β”‚
β”‚ WHAT IS ERROR BUDGET:                                       β”‚
β”‚ ─────────────────────                                       β”‚
β”‚ The allowed amount of unreliability                       β”‚
β”‚                                                             β”‚
β”‚ SLO: 99.9% availability                                   β”‚
β”‚ Error Budget: 0.1% (100% - 99.9%)                         β”‚
β”‚                                                             β”‚
β”‚ Per month (30 days):                                       β”‚
β”‚ 0.1% Γ— 43,200 minutes = 43.2 minutes of allowed downtime β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ ERROR BUDGET STATUS:                                        β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ CHECKOUT SERVICE - January                             β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ SLO: 99.9% availability                                β”‚β”‚
β”‚ β”‚ Budget: 43.2 minutes                                   β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ USAGE THIS MONTH:                                        β”‚β”‚
β”‚ β”‚ β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘  35%                     β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Used: 15.1 minutes                                     β”‚β”‚
β”‚ β”‚ Remaining: 28.1 minutes                                β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ STATUS: 🟒 Healthy                                      β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ BREAKDOWN:                                               β”‚β”‚
β”‚ β”‚ β€’ Planned maintenance: 8 min                          β”‚β”‚
β”‚ β”‚ β€’ Incident Jan 15: 5 min                              β”‚β”‚
β”‚ β”‚ β€’ Deployment issues: 2.1 min                          β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ USING ERROR BUDGET:                                         β”‚
β”‚ ───────────────────                                         β”‚
β”‚                                                             β”‚
β”‚ BUDGET REMAINING: Fast iteration allowed                  β”‚
β”‚ β€’ Deploy more frequently                                  β”‚
β”‚ β€’ Try riskier experiments                                 β”‚
β”‚ β€’ Innovate faster                                          β”‚
β”‚                                                             β”‚
β”‚ BUDGET LOW: Focus on reliability                          β”‚
β”‚ β€’ Freeze non-critical changes                             β”‚
β”‚ β€’ Fix reliability issues                                  β”‚
β”‚ β€’ Add monitoring/testing                                  β”‚
β”‚                                                             β”‚
β”‚ BUDGET DEPLETED: Reliability work only                    β”‚
β”‚ β€’ Only critical fixes                                     β”‚
β”‚ β€’ Full focus on stability                                 β”‚
β”‚ β€’ Review what went wrong                                  β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

SLO Tracking

Monitoring SLOs

SLO DASHBOARD:
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                             β”‚
β”‚ SERVICE SLO STATUS                                          β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ SERVICE          SLO          CURRENT    BUDGET        β”‚β”‚
β”‚ β”‚ ───────          ───          ───────    ──────        β”‚β”‚
β”‚ β”‚ API Gateway      99.9%        99.95%     🟒 65%        β”‚β”‚
β”‚ β”‚ Checkout         99.9%        99.85%     🟑 25%        β”‚β”‚
β”‚ β”‚ Search           99.5%        99.7%      🟒 80%        β”‚β”‚
β”‚ β”‚ Payments         99.99%       99.98%     🟑 20%        β”‚β”‚
β”‚ β”‚ Auth             99.95%       99.91%     πŸ”΄ 5%         β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ DETAILED VIEW:                                              β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ AUTH SERVICE                                            β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ AVAILABILITY:                                            β”‚β”‚
β”‚ β”‚ SLO: 99.95%  Current: 99.91%  Status: πŸ”΄ At Risk      β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ ERROR BUDGET (30 days):                                  β”‚β”‚
β”‚ β”‚ β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–‘β–‘  95%        β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Budget: 21.6 min | Used: 20.5 min | Left: 1.1 min    β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ LATENCY (p95):                                          β”‚β”‚
β”‚ β”‚ SLO: < 100ms  Current: 85ms  Status: 🟒 OK            β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ RECENT INCIDENTS:                                        β”‚β”‚
β”‚ β”‚ β€’ Jan 20: 12 min outage (capacity issue)              β”‚β”‚
β”‚ β”‚ β€’ Jan 15: 5 min degradation (deployment)              β”‚β”‚
β”‚ β”‚ β€’ Jan 8: 3.5 min timeout (dependency)                 β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ RECOMMENDED ACTION:                                      β”‚β”‚
β”‚ β”‚ Freeze deployments, focus on reliability work          β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

SLO-Driven Decisions

Prioritizing Work

SLO-INFORMED PLANNING:
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                             β”‚
β”‚ SPRINT PLANNING WITH SLOs:                                 β”‚
β”‚ ──────────────────────────                                  β”‚
β”‚                                                             β”‚
β”‚ BUDGET HEALTHY:                                             β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ SPRINT 15 ALLOCATION                                    β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Features:     70%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ  β”‚β”‚
β”‚ β”‚ Tech Debt:    20%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ                        β”‚β”‚
β”‚ β”‚ Reliability:  10%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ                              β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Error budget healthy - Full speed ahead                β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ BUDGET AT RISK:                                             β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ SPRINT 15 ALLOCATION                                    β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Features:     40%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ                    β”‚β”‚
β”‚ β”‚ Tech Debt:    20%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ                            β”‚β”‚
β”‚ β”‚ Reliability:  40%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ                    β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Increase reliability investment                        β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ BUDGET DEPLETED:                                            β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ SPRINT 15 ALLOCATION                                    β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Features:     0%                                       β”‚β”‚
β”‚ β”‚ Critical:     20%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ                            β”‚β”‚
β”‚ β”‚ Reliability:  80%  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ    β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ Freeze features, fix reliability                       β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ RELIABILITY WORK EXAMPLES:                                  β”‚
β”‚ ──────────────────────────                                  β”‚
β”‚ β€’ Add redundancy                                          β”‚
β”‚ β€’ Improve monitoring                                      β”‚
β”‚ β€’ Add circuit breakers                                    β”‚
β”‚ β€’ Performance optimization                                β”‚
β”‚ β€’ Chaos testing                                            β”‚
β”‚ β€’ Reduce deployment risk                                  β”‚
β”‚ β€’ Address tech debt                                       β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Team Accountability

Owning SLOs

SLO OWNERSHIP:
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                             β”‚
β”‚ WHO OWNS SLOs:                                              β”‚
β”‚ ──────────────                                              β”‚
β”‚ The team that owns the service                            β”‚
β”‚                                                             β”‚
β”‚ RESPONSIBILITIES:                                           β”‚
β”‚ β€’ Define appropriate SLOs                                 β”‚
β”‚ β€’ Monitor SLO status                                      β”‚
β”‚ β€’ React when budget at risk                               β”‚
β”‚ β€’ Propose changes when SLOs too loose/tight               β”‚
β”‚                                                             β”‚
β”‚ ─────────────────────────────────────────────────────────── β”‚
β”‚                                                             β”‚
β”‚ SLO REVIEW (Monthly):                                       β”‚
β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚
β”‚ β”‚ TEAM: Checkout Team                                     β”‚β”‚
β”‚ β”‚ DATE: January 31, 2025                                  β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ SLO PERFORMANCE:                                         β”‚β”‚
β”‚ β”‚ β€’ Availability: 99.92% (SLO: 99.9%) βœ…                 β”‚β”‚
β”‚ β”‚ β€’ Latency p95: 185ms (SLO: 200ms) βœ…                   β”‚β”‚
β”‚ β”‚ β€’ Error rate: 0.08% (SLO: 0.1%) βœ…                     β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ ERROR BUDGET:                                            β”‚β”‚
β”‚ β”‚ β€’ Started with: 43.2 min                               β”‚β”‚
β”‚ β”‚ β€’ Used: 34.5 min (80%)                                 β”‚β”‚
β”‚ β”‚ β€’ Remaining: 8.7 min                                   β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ INCIDENTS:                                               β”‚β”‚
β”‚ β”‚ β€’ 2 incidents consumed 31 min                         β”‚β”‚
β”‚ β”‚ β€’ Root causes addressed                                β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ NEXT MONTH:                                              β”‚β”‚
β”‚ β”‚ β€’ Add database connection pooling                      β”‚β”‚
β”‚ β”‚ β€’ Improve timeout handling                             β”‚β”‚
β”‚ β”‚ β€’ Increase capacity headroom                           β”‚β”‚
β”‚ β”‚                                                         β”‚β”‚
β”‚ β”‚ SLO CHANGES:                                             β”‚β”‚
β”‚ β”‚ β€’ None proposed (current SLOs appropriate)             β”‚β”‚
β”‚ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚
β”‚                                                             β”‚
β”‚ TRACKING IN GITSCRUM:                                       β”‚
β”‚ ─────────────────────                                       β”‚
β”‚ β€’ Reliability stories tagged [SLO]                        β”‚
β”‚ β€’ Error budget visible in dashboard                       β”‚
β”‚ β€’ SLO work in sprint capacity                             β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Related Solutions